La numérisation dans les bibliothèques et les musées américains

Laure Cédelle

En octobre 2000, la French American Foundation (FAF) et le ministère de la Culture et de la Communication ont organisé un voyage d’étude dont le thème était la numérisation dans les bibliothèques et les musées américains de la côte Est des États-Unis 1. Le programme prévoyait la visite de huit établissements : la Bibliothèque du Congrès, le Libraries Imaging Center de la Smithsonian Institution, la National Gallery of Art, la Frick Collection, le Metropolitan Museum of Art, la New York Public Library, les universités de Columbia et de Cornell.

Au fil des rencontres, ont été appréciées la place prise par la numérisation dans les politiques des établissements, ainsi que la mise en œuvre des programmes. Les bibliothèques américaines bénéficient d’importantes sources de financement qui viennent principalement du privé 2, mode de financement qui leur permet de lancer de grandes entreprises, mais qui leur impose des délais de réalisation assez courts pour répondre aux attentes de leurs mécènes.

La numérisation dans la politique de l’établissement

Comme en France, les services culturels américains pratiquent une « numérisation mixte » ; en d’autres termes, ils numérisent partiellement leurs collections dans leur propre laboratoire et confient d’autres documents à des prestataires. Cette opération est suffisamment importante pour constituer la mission d’un service entier.

À la Bibliothèque du Congrès, le travail est réparti entre deux départements : celui de la bibliothèque numérique et celui de la conservation. Le premier conçoit le programme « American Memory » et travaille à la constitution d’immenses bases de données en ligne, dédiées à l’histoire et à la culture américaine : le « National Digital Library Program » ; l’équipe de la conservation, pour sa part, crée des substituts numériques afin de préserver les originaux : le « Preservation Digital Reformating Program ». La numérisation a ici deux vocations : la diffusion des données et leur préservation, le document numérique étant considéré comme un document de conservation quasiment équivalent au microfilm. Ces actions impliquent un très grand nombre de personnes : à titre d’exemple, le seul service de gestion du site web comprend 80 personnes !

Dans les autres bibliothèques, le département informatique intègre le plus souvent un service de numérisation chargé de la capture numérique, de la description et de la mise en ligne.

Au Libraries Imaging Center de la Smithsonian Institution, le service de la conservation considère la numérisation comme un mode de préservation qui évite de communiquer les originaux et non comme un mode de conservation à long terme, position également partagée par d’autres professionnels comme ceux de Columbia. Il est encore difficile d’évaluer le service de numérisation de la New York Public Library, qui entre actuellement dans une phase de restructuration. La bibliothèque n’en prépare pas moins un nouveau programme auquel elle consacrera 5 millions de dollars sur 5 ans avec un objectif de 600 000 images numériques.

Le travail en réseau

Faute d’instance culturelle centralisée, les musées et les bibliothèques américains s’efforcent d’organiser des réseaux afin de partager leurs recherches et de conduire des programmes scientifiques. Dans le domaine des musées, le consortium Amico (Art Museum Image Consortium 3) regroupe 38 musées nord-américains autour d’une base de données réunissant leurs images, dont l’un des objectifs est de garantir leurs droits sur ces images. Côté bibliothèque, un pôle de réflexion s’est organisé à travers le « Digital Federation Council of Library and Information Resources » 4 auquel appartiennent les institutions les plus en pointe comme la Cornell.

En dehors de ces organismes, des réseaux se tissent pour la réalisation de bibliothèques virtuelles. À la Cornell, le programme « Making of America » s’appuie sur l’université de Michigan et sur la Bibliothèque du Congrès, elle-même en contact avec des bibliothèques, des universités et des services d’archives qui alimentent « American Memory ». Columbia encourage particulièrement ce type de coopérations, seul moyen de monter des programmes de grande envergure. Sur ces bases, six institutions, parmi lesquelles Columbia, Duke, Princeton et Berkeley, ont fondé « Digital Scriptorium » 5, un programme dédié aux manuscrits médiévaux enluminés conservés aux États-Unis.

Au niveau international, la New York Public Library organise avec la BnF des journées d’étude sur les bibliothèques numériques et la Bibliothèque du Congrès noue des partenariats afin d’enrichir « American Memory ». Des programmes avec la Russie et l’Espagne ont déjà abouti.

Le public et les types d’accès

Bibliothèques et musées ciblent des publics prioritaires. Si « American Memory » s’adresse à tous et développe des modules en direction des jeunes, la Smithsonian Institution et la Frick Collection réaffirment leur priorité qui est de satisfaire les chercheurs. Columbia et Cornell mettent en œuvre des programmes à destination des étudiants, programmes qui privilégient l’enseignement à distance.

Ce souci du public se traduit par la diffusion de questionnaires en ligne 6. Dans certains cas, ces questionnaires ont montré que les collections en ligne attiraient essentiellement des internautes extérieurs au campus. Faut-il dès lors recentrer les programmes sur les étudiants et les enseignants 7, ou poursuivre des projets pour un public extérieur à l’université ?

La gratuité d’accès aux ressources numérisées, quoique revendiquée par les bibliothécaires, se heurte aux contraintes juridiques. Si la New York Public Library et la Smithsonian Institution offrent toutes leurs collections numérisées sur le web, Columbia a dû nuancer sa politique d’accès. Bien souvent, l’internaute n’accède qu’à des images de qualité moyenne. Les musées s’irritent de la gratuité prônée par les bibliothèques, car eux-mêmes ont tendance à s’enfermer dans une logique plus commerciale sur le mode de l’abonnement à Amico. Certes, les sites web des musées proposent des images en ligne, mais souvent de qualité moyenne et parfois en noir et blanc, comme celles des peintures européennes du Metropolitan.

Les collections numérisées

Les documents sont choisis par des comités de sélection exprimant les priorités documentaires des établissements. À la Bibliothèque du Congrès, deux positions cohabitent : tandis que les expositions virtuelles reposent sur la sélection, « American Memory » refuse les choix subjectifs et prône une numérisation intégrale des fonds 8. Ce programme propose plus de 5 millions de documents (textes, images fixes ou animées, sons) présentés sous forme de dossiers thématiques et accompagnés d’outils d’interprétation (présentation des fonds, contexte historique, chronologie, bibliographie…). Un moteur de recherche transversal permet l’interrogation de l’ensemble des bases. Parallèlement, le département de la conservation établit ses choix en fonction de critères plus techniques : on traite en priorité les documents fragiles, tels que les papyrus, et ceux qu’une communication trop fréquente risque d’endommager.

Cornell a adopté une démarche similaire à celle de la Bibliothèque du Congrès en concevant sa bibliothèque numérique sous forme de bases de données thématiques. Cette ressemblance se double d’une collaboration puisque Cornell a développé un programme complémentaire d’« American Memory », intitulé « Making of America » 9, consacré à l’histoire sociale des États-Unis.

À la Smithsonian Institution, le comité de sélection comprend le chef du département de la conservation. La priorité est donnée aux ouvrages difficiles à trouver, relevant des domaines de recherche du centre 10, avec pour objectif de constituer un corpus dense d’un millier d’ouvrages utiles à la recherche 11. Préférant la qualité à la quantité, elle ne produit qu’un à deux ouvrages numériques par mois, mais cette production s’accompagne d’une réflexion approfondie sur les moyens à employer pour restituer virtuellement les possibilités de recherche et de feuilletage possible avec un livre. À la New York Public Library, le choix des conservateurs s’est porté sur les collections patrimoniales iconographiques : estampes japonaises, antiquités égyptiennes, photographies sur la Russie.

Dans les musées, l’expérience la plus intéressante est sans doute celle de la Frick Collection qui numérise ses archives, soit plus de 900 000 documents. Les photos libres de droits sont traitées en priorité. Ces images viennent alimenter « Fresco » (Frick RESearch Catalogue On Line), la base de données du musée qui, à terme, fournira sur écran une reconstitution virtuelle d’un dossier documentaire associant images, coupures de presse et fiches techniques des œuvres.

Les enjeux juridiques

Les choix se heurtent parfois aux restrictions juridiques ; les bibliothécaires américains prennent cependant certaines libertés avec le droit. Les musées au contraire se montrent plus sourcilleux, dans la mesure où eux-mêmes veulent préserver les droits de reproduction sur leurs œuvres, droits qui représentent un véritable enjeu économique.

Contrairement à la position du droit français et européen, une grande majorité des conservateurs interrogés considère que des documents n’appartenant pas au domaine public peuvent être dupliqués et diffusés, à condition de restreindre les accès à une consultation en intranet. C’est la position adoptée par la Frick Collection qui numérise des clichés d’œuvres conservées dans d’autres musées sans verser de droits, ni demander d’autorisation. Cornell diffuse sur le web des documents dont elle ne détient pas tous les droits, en veillant toutefois à ne les proposer que sous forme de vignette 12. D’autres universités se montrent plus prudentes. Columbia a préféré effacer des ouvrages contemporains numérisés pour les étudiants, de peur de se heurter au copyright.

Les techniques de numérisation

La numérisation des collections patrimoniales se fait majoritairement en mode image ; mais les choix varient entre la numérisation directe à partir des originaux, et la numérisation indirecte à partir de supports intermédiaires. Lorsqu’il existe déjà un phototype, les établissements ont tendance à préférer une économie de coût à la qualité d’une numérisation directe.

Dans les musées, la numérisation indirecte a jusqu’ici primé. La National Gallery a déjà traité 9 000 clichés, mais une réorientation vers la numérisation directe se dessine suite à une expérimentation sur des photographies de Stieglitz 13. La Smithsonian Institution a choisi, au contraire, de ne numériser qu’à partir des originaux afin de restituer un maximum d’informations, mais cette position est rare et les bibliothèques changent de techniques selon les cas.

Sans qu’il y ait de normes, les pratiques sont un peu partout identiques. La plupart du temps les documents sont scannés à 300 ou 400 dpi (dots per inch), seule la Cornell pratique le 600 dpi, même si elle reconnaît que 400 suffisent pour restituer tous les détails perceptibles à l’œil. Cette université joue un rôle essentiel dans le domaine de la recherche numérique. Ses travaux s’étendent de la capture numérique à l’étude économique des projets, en passant par les comparaisons de formats.

La description des données

L’identification du document par des accès diversifiés est le meilleur moyen de conduire le lecteur à l’information pertinente. La notice bibliographique n’est qu’une voie d’accès, s’y ajoutent des index et des bases de données distinctes du catalogue, favorisant des recherches thématiques croisées. Les index sont parfois préférés aux notices afin d’intégrer dans les bases de données des documents non catalogués 14.

La description concerne les documents originaux numérisés aussi bien que les documents numériques créés. La gestion des fichiers devient impérative dès lors que l’on entre dans une production de grande envergure, et les métadonnées jouent un rôle primordial dans cette gestion à long terme. Il n’existe pas cependant aux États-Unis de consensus réel sur le type de métadonnées à employer. Pour certains membres du projet CORC (Cooperative Online Resource Catalog), le Dublin Core jouerait ce rôle, pour d’autres l’EAD (Encoded Archival Description) représente la solution d’avenir. En tout état de cause, l’adoption d’un modèle de gestion ne peut se faire sans une large concertation sur les principes à suivre.

À la Smithsonian Institution, la page d’accueil de toute publication numérique renferme des métadonnées en Dublin Core. Ces données intègrent la description bibliographique du document original, complétée par des données de production. Ce codage est facilité par l’abonnement au programme CORC, lancé par OCLC, codage qui permet la conversion des données bibliographiques en Dublin Core. Cornell, partisan de l’EAD, produit des métadonnées extrêmement complètes. Ce système de descriptions en comprend plusieurs types : descriptives, administratives et structurelles.

La consultation des données

On assiste également à une transition progressive de solutions techniques traditionnelles vers de nouveaux modes de gestion de l’information numérique. À Columbia, la base de données du « Digital Scriptorium » a été installée sous Access, mais une migration des données est en cours vers un format XML plus souple à l’interrogation. Une stratégie identique est à l’œuvre à la Smithsonian Institution.

Le format XML, qui ne paraît pas encore très répandu, demeure expérimental dans des bibliothèques comme la New York Public Library. Cornell produit l’ensemble de son site web en XML, ce qui permet d’affiner les réponses aux requêtes en interne, la version Internet reste néanmoins diffusée en HTML. De cette manière, un internaute ne disposant pas d’un navigateur adapté peut consulter le site de Cornell ; sa requête adressée au serveur de Cornell va puiser la réponse en XML, traduite ensuite en HTML avant d’être renvoyée à l’internaute.

Ce rapide tour d’horizon a fourni une vue générale des pratiques des établissements américains et de leurs nouvelles orientations. Les échanges furent fructueux ; Américains et Français ont pu confronter leurs expériences. Il apparaît que, si les techniques de numérisation sont identiques, les programmes américains se distinguent surtout par leur ampleur et par les moyens de financement qui les rendent possibles, ainsi que par leur approche pragmatique des enjeux juridiques.

  1. (retour)↑  Faisaient partie du groupe des conservateurs des bibliothèques municipales de Lisieux, Toulouse et Troyes, de la Direction du livre et de la lecture, aux côtés de conservateurs de musées.
  2. (retour)↑  La Bibliothèque du Congrès, par exemple, reçoit pour ses programmes de numérisation 15 millions de dollars du Congrès, mais 48 millions de dollars du privé.
  3. (retour)↑  http://www.amico.org
  4. (retour)↑  http://www.clir.org
  5. (retour)↑  http://sunsite.berkeley.edu/Scriptorium Ce projet a été financé par la Mellon Foundation. Des spécialistes ont été contactés pour le monter, dont Patricia Stirnemann, de l’Institut de recherche et d’histoire des textes. Actuellement, la base comporte 10000 enluminures. Construite sous Access, elle est convertie en XML.
  6. (retour)↑  « American Memory » reçoit plus de 5 000 questions par an.
  7. (retour)↑  À cet effet, a été lancé un programme d’enseignement à distance pour lequel les supports de cours sont numérisés.
  8. (retour)↑  Ainsi les manuscrits de George Washington (correspondances, billets, discours…) sont-ils tous mis en ligne, quel que soit l’intérêt de leur contenu ; il en est de même pour d’autres collections.
  9. (retour)↑  http://moa.umdl.umich.edu/
  10. (retour)↑  Livres de botanique, histoire des sciences, catalogues de vente…
  11. (retour)↑  Le centre conserve par ailleurs 1 250 000 ouvrages papier.
  12. (retour)↑  Ces mêmes images sont consultables en plein écran sur l’intranet de l’université.
  13. (retour)↑  Ces photos numériques serviront en fait à l’édition papier du catalogue raisonné de Stieglitz sans qu’aucune exploitation numérique n’ait été envisagée.
  14. (retour)↑  Cette pratique est courante à la New York Public Library dont les collections spécialisées ne sont pas entièrement cataloguées.