Qu’apporte le Big Data ?
Analyse des logs de consultation d’internet en accès libre à la Bpi
Si l’accès à internet en bibliothèque s’est banalisé ces quinze dernières années, il reste souvent bridé, accessible sous conditions ou avec limitation 1
La description de l’offre d’accès internet en médiathèque publique n’est pas toujours précise à cet égard (accès sous réserve d’inscription ou pas, pour une durée limitée ou un ensemble de services précis, etc.).
Internet public à la Bpi (1995-2017) : déjà une longue histoire
L’internet public fait son entrée à la Bpi en juin 1995 avec 10 postes de consultation 2
http://books.openedition.org/bibpompidou/283 On compte à cette époque entre 200 000 et 300 000 internautes en France ; le premier cyber-café ouvre à Paris, quartier de la Bourse, en mai 1995, avec un tarif horaire d’accès à internet de 60 francs. Source : Ina, Collection Journal télévisé Soir 3 (12 mai 1995) : https://fresques.ina.fr/jalons/liste/recherche/Collection.id/159/e
L’effroi, les controverses au sujet d’un internet public en bibliothèque marquent en particulier la décennie suivante pendant laquelle les bibliothèques s’interrogent sur le filtrage 5
d’un objet qui ne leur appartient pas, dont elles ne sont pas propriétaires 6Voir aussi sur ce point, « Babel ou le choix du caviste : la bibliothèque à l’heure du numérique », coord. par C. Evans et F. Gaudet, in Text-e : le texte à l’heure de l’internet, Paris : Bibliothèque publique d’information, 2003, coll. Études et recherche ; Yves Desrichard, Cinquante ans de numérique en bibliothèque, Paris : Éditions du Cercle de la librairie, 2017, p. 53 et suiv.
Dans les années 2010, l’offre de la Bpi s’élargit avec l’accès wifi d’une part et une augmentation du nombre de postes en accès filaire d’autre part, toujours soumis à une limitation de durée. Le contexte de cette intensification est celui dit de la « fracture numérique » 9
, à plusieurs niveaux, celui de l’accès physique au réseau et celui de l’utilisation des ressources. À partir de 2013 en effet, les services publics français s’engagent dans une dématérialisation massive 10, qui suppose de la part des administrés autonomie et littératie 11Définie ainsi par l’OCDE : « Aptitude à comprendre et à utiliser l’information écrite dans la vie courante, à la maison, au travail et dans la collectivité en vue d’atteindre des buts personnels et d’étendre ses connaissances et ses capacités », in La littératie à l’ère de l’information, 2000. Pour une approche critique, le numéro « New Literacy Studies », Langage & Société, n° 133, septembre 2010, numéro dirigé par Béatrice Fraenkel et Aïssatou Mbodj.
Graphique 1. Évolution de l’offre d’accès internet à la Bpi mise en contexte
La nouvelle offre de la Bpi 18
depuis le 7 avril 2017 est d’une autre nature et se caractérise par trois traits : d’une part, une augmentation conséquente du nombre de postes – multiplié par trois –, d’autre part, la suppression d’une durée de connexion limitée et du système de réservation des postes qui accompagnait ce partage du temps de connexion ; et enfin, une offre élargie sur tous les postes, à la fois vers l’internet public et vers ce que nous appelons l’Autre internet 19, qui fédère les accès aux ressources pour lesquelles la bibliothèque souscrit des abonnements payants. C’est dans le cadre de cette bascule de l’offre – privilégiant l’internet public – que le service Études et recherche a enquêté sur la base de plusieurs dispositifs d’analyse 20Cette diversité de méthodes était en outre rendue nécessaire par les difficultés rencontrées à la Bpi de longue date pour enquêter auprès des usagers de l’offre internet, voir sur ce point l’intervention de Christophe Evans aux Rencontres numériques des 27 et 28 mars 2017.
Une traduction pourrait être fouille de données ; quand les données sont issues du web, on parle plutôt de Web mining. Les études menées depuis 20 ans à partir de l’exploitation des journaux de logs relèvent de la sous-branche du Web Usage Mining, Francony 2016 (https://halshs.archives-ouvertes.fr/halshs-01490598/document). Nos collègues de la BnF ont également adapté la méthode de fouille de données à leurs besoins de connaissance des pratiques en ligne développées à partir de la bibliothèque numérique Gallica. Voir sur ce point les travaux de BibliLab : http://www.bnf.fr/fr/la_bnf/pro_publics_sur_place_et_distance/a.bibli-lab.html
Log de navigation et/ou trace de consultation : le pari du Data Mining
L’exploitation de données enregistrées quotidiennement par le serveur d’accès à internet de la Bpi (journal de logs du proxy 22
) peut-elle constituer une source d’information pour la connaissance de l’usage d’internet dans l’espace public de la bibliothèque ? Autrement dit, nous nous sommes demandé si des données techniques et fonctionnelles, nécessaires à l’affichage des pages web appelées par les Bpi-nautes, pouvaient fonctionner comme des traces de consultation, voire comme des indices de projet d’usages de l’internet à la Bpi. Cette tentative, ou cette hypothèse, de transformation de données nécessaires à la réalisation d’une tâche en des connaissances sur cette tâche elle-même, constitue le cœur des travaux relevant de la discipline du data mining. Nous nous sommes rapprochés de spécialistes de ce domaine travaillant à ParisTech – Institut des sciences et des techniques de Paris –, nous avons en particulier établi une convention de recherche avec une équipe mixte 23 de sociologue (Dana Diminescu) 24 et d’ingénieur (Quentin Lobbé) 25 pour explorer cette piste de travail.Chaque jour, le serveur d’accès internet de la Bpi enregistre environ deux millions de lignes de logs, ces deux millions constituent-ils autant de consultations de sites web ? Pas vraiment : pour une page qui s’affiche sur l’écran du Bpi-naute, ce sont jusqu’à cinq lignes de logs différentes qui sont écrites dans le journal du serveur : autrement dit, le journal de logs est très bruité du point de vue de l’analyse des usages par des lignes non directement visualisées par l’usager mais servant à afficher une page ou encore à la décompter. Il faut donc filtrer les lignes du journal en isolant celles correspondant aux URL visualisées par le Bpi-naute ; il faut également transformer une ligne de logs en champs structurés d’informations interprétables : l’URL du domaine consulté bien sûr mais aussi l’étage du poste de consultation par exemple ou encore la date et l’heure de consultation : c’est l’aspect mining du data mining, rendant l’interprétation possible. Le dispositif d’analyse exploratoire 26
des logs qui a été conçu par nos collègues de ParisTech comporte quatre phases dont seule la première est automatisable : elle permet de passer de 2 millions de lignes de logs à 250 000 lignes de logs analysables par jour.Graphique 2. Dispositif d’analyse des logs
Source : Quentin Lobbé et Dana Diminescu
Un ensemble de trois briques logicielles libres 27
Logstash pour filtrer les logs (suppression des images, stats / css, des publicités grâce à la liste adblocker augmentée) et agréger les logs de connexion / Elasticsearch : moteur de recherche open source, structuration des logs par champs : | date | url | nom de domaine | extension (.com .fr .ru …) | catégorie du site (olfeo) | catégorie du site (bpi) | session id | étage | secteur | poste / Kibana : interface de visualisation à la volée.
En informatique, on entend par heuristique « un raisonnement formalisé de résolution de problème (représentable par une computation connue) que l’on tient pour plausible, mais non pour certain, et qui conduira à la détermination d’une solution satisfaisante du problème », Jean-Louis Le Moigne, La modélisation des systèmes complexes (Dunot, 1991). Ces heuristiques dépendent également de la configuration de l’offre d’accès à internet qui, elle-même, est encore en cours d’expérimentation à la Bpi (trois modalités d’offre ont été testées entre avril 2016 et octobre 2017).
L’« effet bibliothèque » : ni tout à fait le même, ni tout à fait un autre (internet)
La première question que nous avons adressée aux données a permis de comparer les sites web consultés par les Bpi-nautes avec les sites web consultés par les internautes français en général. La question sous-jacente à cette comparaison consiste à savoir si un « effet bibliothèque » joue sur les modalités de consultations d’internet. Nous avons donc comparé la répartition des consultations à la Bpi sur les 50 premiers sites les plus consultés selon l’analyse menée par Médiamétrie 29
dans son compte rendu des audiences d’internet mensuel.Graphique 3. Les 20 sites les plus consultés selon Médiamétrie et selon le dispositif Bpi
Ce graphique permet de visualiser la concentration très forte des consultations Bpi sur les deux plateformes Facebook et YouTube (trois fois plus consultées à la bibliothèque qu’à domicile) 30
Le graphique 3 ne rend pas compte des scores de Google, en tête bien sûr de tous les palmarès : ils auraient « écrasé » toutes les autres données, rendant l’analyse encore plus difficile.
Ce type de traitement avait déjà été testé et mis en œuvre en 2004 par Matthieu Renault sur les logs Bpi, mis à jour en 2017 par Chaïma Berrachedi, sous la direction de Pierre Senellart et Quentin Lobbé.
Reste qu’intrigués par la sur-fréquentation de ces deux plateformes à la Bpi, nous avons tenté d’observer ces big data à la loupe… à la trace, devrait-on dire. Nous avons nous-même réalisé des parcours de consultation sur les postes internet de la Bpi et annoté très scrupuleusement tout ce que nous faisions : nous avons ensuite confronté notre carnet de bord avec les traces que nous retrouvions à travers notre application, et là, sans véritablement découvrir de scoop, nous avons tout de même mieux compris à quel point les big data, la production massive des données de connexion, profitaient essentiellement aux big producteurs de données. Des phénomènes de sur-comptage ont pu être observés : par exemple, des lignes de connexion à Facebook étaient enregistrées dans une session alors que pendant le parcours annoté ce site n’avait pas été appelé 35
Inscription relevant de techniques de fabrication d’audience artificielle, de type likejacking (littéralement : détournement de « J’aime »).
Graphique 4. Synthèse des observations sur les parcours annotés révélant sur-comptages et sous-comptages
Ces observations ne bouleversent pas les grands équilibres et les abyssales différences de consultations mais elles permettent de comprendre que la modestie du volume des consultations enregistrées par les sites publics tient pour une part à des modes de développement des bases de données et des interfaces faiblement sensibles – voire insensibles – à l’enjeu du marquage de leur présence sur le web. On comprend aussi que les big data ne sont pas forcément pertinentes pour analyser l’usage de tous les types de sites, de tous les types de parcours web pourrait-on dire.
C’est pourquoi nous avons exploré un autre angle d’analyse sans nous laisser éblouir par l’ultra-consultation de Facebook et de YouTube à la Bpi 36
Résultat confirmé par l’analyse systématique menée par Marie Pierru, élève ingénieur à ParisTech (Rapport d’étude sur les logs Bpi, méthode des K-Means, 2017, non publié).
Graphique 5. Synthèse des observations sur deux requêtes : sites de rencontres et sites d’informations
Notre première surprise a été de voir se hisser dans le top des sites de rencontres consultés à la Bpi non pas les sites de rencontres mainstream comme meetic ou adopteunmec.com, mais des sites de rencontres plus marqués par la recherche d’endogamie comme inshalla.com ou afrointroductions. La même surreprésentation dans les consultations Bpi de l’intérêt porté à l’actualité non francophone est également observable dans le segment constitué par les sites d’informations hors .fr et .com. On observe une intéressante diversité linguistique dont le tableau ci-dessus donne un aperçu avec des communautés à faible nombre de locuteurs comme pour le letton (graphique 5). Ces signaux faibles nous ont engagés vers l’exploration de smart data, appelées ainsi parce qu’elles sont construites sur la base d’une hypothèse de recherche qui se donne pour objectif de considérer les données dans leur contexte de production, susceptibles de devenir ainsi intelligibles et interprétables. Nous avons donc interrogé la base de données de nos logs de consultation en nous focalisant sur un segment de sites à la fois mainstream et exprimant une diversité linguistique, et avons retenu le corpus des domaines locaux de Google en excluant les domaines .com et .fr. Là, nous avons vu se hisser en première place des domaines les plus consultés le Google en letton à la Bpi, venant confirmer la place des consultations en cette langue dans les emprises de la bibliothèque.
Graphique 6. Requête sur les domaines locaux de Google et mise en évidence d’une communauté d’usages en langue lettone
Pour comprendre cette présence inattendue, nous avons examiné l’indice de pénétration du numérique au sein des pays européens mis en place depuis deux ans, l’indicateur DESI (Digital Economy and Society Index) 37
: nous avons relevé que la Lettonie se place, en mars 2016, au 9e rang des pays européens en matière d’utilisation d’internet par les citoyens, bien devant la France, située au 17e rang pour cet indicateur. L’analyse de l’usage d’internet public à la Bpi permet de révéler des pratiques d’internet beaucoup plus diversifiées que ce que laissaient supposer les premières approches essentiellement quantitatives.Ces smart data sont cependant très dépendantes des catégorisations de sites que l’on utilise et des critères de catégorisations que l’on retient. La limite, on le voit, de la démarche que nous avons menée actuellement, est de considérer l’analyse du seul point de vue des sites consultés eux-mêmes et non du point de vue des Bpi-nautes : c’est à la recherche de traces des parcours sur internet que nous consacrons désormais nos efforts dans la phase 2 de notre recherche qui a commencé fin février 2017. Par ces parcours, peut-être observerons-nous des articulations entre une sur-consultation des GAFA 38
et une exploration plus singulière d’un espace moins investi du web 39Ainsi par exemple ceux qui recourent massivement à Meetic n’ont pas forcément besoin de le faire dans un lieu public et ceux qui passent par la Bpi pour faire des rencontres en ligne développent très vraisemblablement des parcours sur le web bien spécifiques. Autrement dit, pour le champ de nos interrogations, la catégorie « sites de rencontres » n’est pas finalement si pertinente, si ce n’est pour révéler cette hétérogénéité.
Réalisé sur un corpus différent de celui présenté précédemment : corpus de mars 2017, avec traçage possible des sessions.
Graphique 7. Le site Google est présent dans toutes les sessions mais dans des proportions et au sein de logiques hétérogènes (les données chiffrées renvoient à un nombre de lignes de logs filtrées et concaténées).
Conclusions sur l’internet « immobile » et en public
L’internet proposé sur les postes de la Bpi n’est pas complètement équivalent à celui auquel donnent accès des abonnements contractés depuis le domicile, par exemple auprès de fournisseurs privés, parce que précisément il ne s’agit pas d’un accès privé à domicile mais d’un accès public et en public. En effet, les postes internet Bpi sont disposés dans les espaces publics de la bibliothèque, au vu et au su de tous, et ce contexte d’usage pèse sur ce qu’il est possible de consulter individuellement en public.
À cet égard, la Bpi, comme bien d’autres établissements, filtre l’accès à internet dans ses emprises sur la base d’une charte 41
soumise à l’approbation de ses usagers. Deuxième caractéristique de cet internet Bpi public et en public, il s’agit d’un internet partagé, le nombre de postes mis à disposition ne répondant pas à tous les besoins 42Des besoins qu’il semble bien difficile de circonscrire ; si quantitativement, on peut estimer qu’il concerne environ 13 % des usagers (enquête TMO 2016 et enquête Bpi 2015), la variété des profils et des projets d’usage est réelle, voir Rapport d’enquête qualitative (entretiens et observations) mené par Anaïs Crinière, Agnès Camus-Vigué et Christophe Evans, à paraître.
On notera, à cet égard, que dans son Baromètre du numérique, le Crédoc ne produit plus de données sur les connexions à internet réalisées depuis les cybercafés ou les bibliothèques (la dernière année produite date de 2011 et indique que 15 % des personnes se connectant à internet le font à partir de l’un ou l’autre de ces lieux : http://www.credoc.fr/pdf/Rapp/R317.pdf).
Travail d’exploration des logs Bpi en cours, mené par Dana Diminescu et Quentin Lobbé à partir du corpus des sites de traduction en ligne.
Pour une argumentation complète, voir par exemple : Pierre-Michel MENGER et Simon PAYE (dir.), Big data et traçabilité numérique : les sciences sociales face à la quantification massive des individus, Paris : Collège de France, 2017. Disponible sur internet : http://books.openedition.org/cdf/4987