Musique, laboratoire de l’ère numérique

De la culture de l’accès à la recommandation

Rémi Bouton

Entrée très vite dans l’univers numérique, la musique a dû réinventer des modes de production et de distribution nouveaux. L’hyper-abondance des fichiers musicaux, disponibles à portée de clic, a fait de la recommandation un enjeu fondamental, à la fois économique, social et culturel.

Music was a very early entrant to the digital realm and as such had to invent new modes of production and distribution. The hyper-abundance of music files just a click away has made music recommendations a fundamental economic, social, and cultural issue.

La musique enregistrée a été la première des « industries culturelles » à entrer dans l’univers numérique, à la fin du siècle dernier. Les raisons en sont multiples. Elles sont techniques, puisque les fichiers MP3 sont très légers et très facilement copiables à partir de CD, ce qui n’est pas le cas du film ou du livre. Elles sont générationnelles, car la musique touche plus les jeunes, ceux qui ont embrassé les premiers les pratiques numériques. Mais c’est aussi le caractère international de la musique, l’absence de barrière de la langue qui a accéléré le mouvement, d’autant qu’en France, la musique est beaucoup moins régulée, protégée que les industries du livre, du cinéma ou de la presse.

Ainsi la musique a-t-elle été la première à devoir réinventer ses modèles de production et de diffusion. En à peine plus de dix ans, elle a entamé une profonde mutation qui est toujours en cours. Ce faisant, elle ouvre la voie aux autres industries culturelles, et même plus largement à des pans entiers de l’économie traditionnelle.

Du point de vue des maisons de disques, cette révolution a conduit à une violente chute du marché, qui a perdu plus de la moitié de sa valeur par rapport à l’âge d’or de l’an 2000. Cette perte de chiffre d’affaires dont on ne sait si elle sera comblée un jour a conduit à transformer radicalement les modes de travail dans l’économie de la filière tout entière, y compris le spectacle vivant.

Restructuration musicale

Là où le disque était le centre de l’économie musicale, il en devient un produit dérivé. Aujourd’hui, la musique enregistrée se fond en un flux, un service disponible sur de multiples canaux. Dans ce mouvement, les artistes reprennent progressivement leur place, au centre de la filière musicale. Ils s’organisent au sein de coalitions – française, la GAM, et même mondiale, la WAO 1.

Les nouveaux talents sont amenés à se développer par eux-mêmes en utilisant le principe du do-it-yourself. Cela va de l’autoproduction, rendue plus facile et moins chère grâce au numérique, à l’autopromotion sur les réseaux sociaux, voire l’autofinancement via les plateformes de financement participatif, ou crowdfunding.

Cela n’empêche pas les artistes d’avoir besoin de structures mondiales pour commercialiser leur musique ou gérer leurs droits. Dans l’ancien monde, ils n’avaient que le choix des majors du disque et des sociétés de droits. Dans le nouveau monde, ils peuvent aussi travailler en direct avec les Apple, YouTube ou Spotify, mais aussi avec des plateformes plus spécialisées comme Bandcamp ou SoundCloud, quitte à faire appel à des prestataires de service mais sans leur céder aucun de leurs droits de propriété intellectuelle.

Enfin, cette révolution numérique continue de bouleverser les pratiques du public avec l’ouverture d’un accès immédiat à des millions de titres pour un coût très réduit. Certes, le peer-to-peer et son inventeur, Shawn Fanning, avaient ouvert la voie avec Napster il y a quinze ans déjà. Mais ce procédé ne permettait pas de rémunérer les artistes ni ceux qui font la musique.

Ainsi, après une quinzaine d’années d’expérimentations technologiques, de réflexions sur la culture de l’échange et du partage, d’expérimentations juridiques, de création de hautes autorités et de recherche de modèles économiques, il semble bien que les solutions soient aujourd’hui en place.

Le modèle du streaming s’installe en tant que mode dominant d’écoute de la musique. Et dans le monde du cinéma, du livre et de la presse, les initiatives ne manquent pas afin d’imposer ce même modèle. Nous sommes entrés dans la civilisation de l’accès, l’accès légal et instantané à toute la musique du monde, à toute la culture du monde… Avec le streaming, la musique préfigure un des bouleversements majeurs généré par internet avec l’émergence d’une économie de l’accès et de l’attention.

Gratuit ou payant, l’accès à la musique tend à faire disparaître l’acte d’achat titre par titre au point qu’on a vu récemment Apple, la principale capitalisation boursière mondiale et le premier marchand de musique du monde, en perte de vitesse sur le téléchargement payant, racheter la jeune société américaine Beats, spécialisée dans le streaming musical et les casques audios.

La musique n’attend pas

Alors qu’elle a contribué à l’émergence de ce nouveau modèle économique, la musique poursuit sa route et défriche de nouveaux territoires, essentiels dans la culture de l’internet et de l’abondance : la prescription ou recommandation musicale.

Évidemment, il n’y a pas qu’en matière de musique qu’existe ce besoin de filtrer une production abondante et d’aider chacun à sélectionner ce qu’il peut, ou doit écouter. Dans l’ancien monde, les marchands, disquaires ou même discothèques, mais aussi les médias de presse et de radio jouaient en grande partie ce rôle vis-à-vis des publics, tandis que les maisons de disques sélectionnaient en amont ce qui méritait d’être enregistré. En même temps que ce monde disparaît et que les volumes de musique disponible progressent, il faut réinventer la recommandation.

Des dizaines de millions de titres sont aujourd’hui disponibles, à portée de clic, pour des centaines de millions d’humains connectés. Considérant que chaque titre dure en moyenne trois minutes, il faudrait plus d’un siècle, en écoutant de la musique jour et nuit, pour épuiser le stock. Sélectionner quelle musique écouter dans cette abondance, créer ses propres flux, tel est l’enjeu de la recommandation musicale.

Comment aider les publics à appréhender la diversité du paysage musical ? Comment aider les publics à choisir mais sans imposer ? Comment ne pas les enfermer dans des silos esthétiques, leur permettre de sortir des sentiers battus et de découvrir des nouveaux talents ? Le numérique saura-t-il faire mieux dans ces domaines que les propositions des médias analogiques et de la grande distribution ? Rien n’est moins sûr. On l’a vu, les promesses de longues traînes numériques n’ont pas été tenues.

Des tonnes de données

A l’heure du big data et des médias délinéarisés, la recommandation idéale est celle qui s’adresse à un individu unique, dans des circonstances et un contexte uniques, en fonction de sa culture musicale et de ses goûts, de ce qu’il a écouté, de ce qu’il a aimé ou pas, de son environnement social et culturel, et de l’actualité musicale. Un ensemble de facteurs, un monceau de données à traiter qui font que la recommandation idéale est sans doute une science aussi compliquée que la prévision météorologique.

Les enjeux de la recommandation

Un enjeu stratégique pour les plateformes musicales qui utilisent la recommandation comme facteur concurrentiel. Elles ont à peu près les mêmes catalogues et les mêmes tarifs. C’est en apprenant à satisfaire les goûts musicaux de leurs clients qu’elles pourront les garder plus longtemps, voire les faire payer un peu plus cher.

Un enjeu économique pour nombre de jeunes entreprises qui, avec les laboratoires de recherche, travaillent sur l’analyse des données et les meilleurs algorithmes, ceux qui pourraient conduire au Graal : la recommandation musicale idéale.

Un enjeu économique aussi pour les ayants droit qui, dans cette civilisation de l’accès, auront tout intérêt à ce que leurs œuvres soient le plus diffusées possible, et donc recommandées, pour être rémunératrices.

Un enjeu culturel enfin, d’autant plus essentiel que nos modes d’écoute évoluant, nous sommes en train d’abandonner le disque pour des fils musicaux ou des listes de lecture (playlists) qui délivrent du programme en continu sur nos appareils connectés, téléphones, chaînes hi-fi branchées sur internet. Ces fils musicaux ou playlists seront de plus en plus le résultat d’outils de recommandation plus ou moins évolués auxquels nous sommes en train, lentement mais sûrement, de laisser les commandes.

L’expertise humaine et la sémantique associée à la musique, l’environnement social et sociétal, l’analyse des comportements de l’auditeur et de son contexte d’écoute, et enfin l’analyse du signal musical lui-même : telles sont les quatre grandes familles de données qui, intelligemment croisées, peuvent permettre de construire une proposition musicale idéale.

Le premier domaine est connu de tous, c’est celui de l’expert. Le travail que peut faire le bibliothécaire ou le disquaire mais aussi le programmateur radio ou le critique musical. Il n’y a aucune raison que cette expertise ne se prolonge pas dans le monde numérique. Elle est essentielle. La plupart des plateformes musicales investissent sur l’éditorial et l’avis d’experts afin d’apporter des conseils aux internautes.

Construire des outils de recommandation automatiques en intégrant cette expertise humaine est aujourd’hui assez répandu en faisant appel au webscrolling : à la manière d’un Google qui analyse tous les sites pour répondre à vos recherches, il s’agit de capter les mots signifiants utilisés à travers le web qui permettent de définir chaque titre musical.

Cette analyse sémantique de la musique est très subjective, ne serait-ce que concernant le genre musical qui sera considéré différemment selon les experts, leurs origines géographiques et culturelles, mais aussi selon qu’ils s’intéressent au titre, à l’artiste ou au mouvement esthétique. « Le genre musical est très limité quand il s’agit de décrire la musique », estime Vincent Castaignet, fondateur de Musicovery, une jeune pousse qui développe des outils de recommandation musicale. Pas facile, par exemple, de trouver une cohérence entre différentes pièces musicales « alternatives ».

Le social

Deuxième champ de données exploitables pour bien recommander : le social. Dis-moi ce qu’écoutent tes amis et je te ferai des propositions. Que ce soit pour des raisons affectives ou parce que l’on reconnaît la qualité des goûts d’un ami ou d’un prescripteur, on est enclin à écouter ce que d’autres nous recommandent. Bien sûr, la musique n’a pas attendu internet pour que se développe ce type d’échanges, de bouche à oreille. Mais avec le développement des réseaux sociaux et une analyse fine des données, il est possible de construire une recommandation musicale sociale.

De même, les radios n’ont pas attendu internet pour demander à leur audience de les aider à choisir quels titres programmer. À travers des émissions comme Stop ou Encore, dès les années 1970, ou plus tard avec les réseaux FM commerciaux qui ont mis en place des sondages réguliers de leur audience afin de déterminer quels titres ils aiment, ou pas.

Aujourd’hui, ce sont évidemment les réseaux sociaux qui peuvent apporter ces informations, mais aussi des applications comme Shazam, qui permettent de savoir quand et où un « shazameur » s’est intéressé à un titre, et lequel évidement. Chaque mois, 90 millions de personnes interrogent l’application sur au moins un titre. Shazam reçoit 10 000 demandes d’identification par minute à travers le monde. De quoi connaître le goût du public, au point que la major Warner a signé un accord avec l’entreprise anglaise afin de pouvoir utiliser ses données pour optimiser la découverte de jeunes artistes. Et dans un même mouvement, les trois majors du disque, Warner, Sony et Universal, sont entrées dans le capital de Shazam valorisant la start-up au-delà de 500 millions de dollars.

L’analyse du bruit sur Twitter permet également de comprendre la demande musicale. Une entreprise américaine, 300 Entertainment, a signé un accord exlusif afin de chercher à identifier les tendances musicales, les tribus et les faiseurs de mode, les fameux prescripteurs. Reconstituer et modéliser la manière dont une chanson devient populaire ne signifie pas que l’on va pouvoir faire des tubes à tous les coups mais que l’on va savoir plus vite si une chanson peut devenir un tube et que l’on va pouvoir plus vite la recommander à une audience potentielle.

Le contexte

Tout aussi essentielle que l’environnement social est la connaissance de l’auditeur lui-même. Inutile de lui faire remplir des pages et des pages de formulaires, les applications se chargent de conserver en mémoire tous les titres que vous avez écoutés et ceux que vous avez zappés. Certaines, plus élaborées comme l’application française Musicovery permettent en plus de dire si on aime ou pas un titre – ce qui est tout à fait différent de le zapper.

La connaissance de ce corpus de données permet de construire une sorte de doxa musicale pour chaque individu. Une meilleure connaissance de ses goûts et de ses habitudes permettra bien évidemment d’améliorer la recommandation.

« Le contexte est essentiel, explique Vincent Castaignet. Selon les moments de la journée, selon qu’il a une écoute active ou passive, l’auditeur n’aura pas le même engagement dans la musique qu’il écoute, il ne sera pas prêt à recevoir les mêmes propositions. » Il faut donc comprendre l’état d’esprit de l’auditeur, en fonction de différents paramètres, l’heure de la journée, la localisation.

« C’est compliqué de recommander, surtout qu’à la différence d’un livre ou d’un film, on est susceptible d’écouter plusieurs fois le même morceau, mais on n’a pas envie qu’on nous le propose à la même heure de la journée dans les mêmes circonstances. Il faut donc tenir compte de ce que la personne a déjà écouté pour savoir ce qu’on peut lui proposer de nouveau mais aussi ce qu’on peut lui proposer à nouveau. »

Parmi les premières entreprises à défricher ce territoire, la jeune pousse américaine The Echo Nest créée au sein du MIT Media Lab en 2005. C’est la première à avoir cherché à engranger le maximum de données sur la musique afin d’en extraire de l’intelligence. Par exemple, une étude publiée récemment par Echo Nest sur les données de Spotify montre qu’un quart des titres sont zappés dans les cinq premières secondes par l’auditeur qui utilise la fonction skip, qui permet de passer directement à un morceau suivant. La moitié des titres ne sont pas écoutés jusqu’au bout. Cette étude a été réalisée sur plusieurs millions d’auditeurs à travers le monde sur des milliards de titres écoutés.

Comment interpréter ces informations ? Est-ce à dire que la recommandation a encore des progrès à faire ? À moins que cette frénésie du clic ne soit une tendance de fond qui fait que plus il y a de titres disponibles, plus on veut en découvrir, de la même manière que plus il y a de chaînes de TV, plus on est susceptible de zapper.

Une analyse plus poussée de ces millions de données, territoire par territoire, genre par genre, heure par heure, amènerait nécessairement des enseignements afin d’améliorer l’offre. Pour Paul Lamere, directeur de la plateforme des développeurs de The Echo Nest, « S’il vous manque des données pour faire la bonne recommandation musicale, vous devez engranger de nouvelles données ! Les data sont l’actif le plus important aujourd’hui. »

Il ne croit pas si bien dire : The Echo Nest a été racheté début 2014 pour une bonne centaine de milions de dollars par Spotify, qui entend ainsi régner en maître sur la recommandation musicale.

Le laboratoire pour le Big Data

Capter le plus de données possibles et tenter de leur trouver une signification, c’est le principe du data mining. Chercher à créer de la valeur, de l’intelligence à partir de masses de données. Une science qui se développe dans tous les secteurs aujourd’hui, que ce soit la santé, les transports ou la grande distribution.

Pour Jean-Luc Biaulet, fondateur de Music Story, société spécialisée dans les métadonnées musicales (voir encadré ci-dessous) le procédé a encore ses limites. « Depuis vingt ans, les hypermarchés analysent tous les tickets de caisse des clients afin d’améliorer leur compréhension de l’acte d’achat et d’anticiper ce qu’ils pourraient acheter dans un futur proche… pour l’instant ils n’ont pas énormément progressé. » La recommandation musicale a le même problème. Avoir toutes les données sur les habitudes d’écoute est une chose, mais on ne sait pas ce qui se passe dans la tête de l’auditeur. Avoir les données n’implique pas de comprendre les motivations et encore moins de pouvoir anticiper les désirs.

Ainsi, quand l’auditeur zappe un titre, cela doit-il être interprété positivement ou négativement ? Est-ce qu’on zappe pour fuir ce que l’on connaît déjà ou au contraire pour refuser d’écouter un titre proposé par les algorithmes ?

La nouvelle donne des métadonnées

Les metadonnées, qui permettent d’identifier et de qualifier les fichiers musicaux sont un élément important de la recommandation musicale. Alors qu’un disque était associé à sa pochette qui apportait toutes les informations d’identification et souvent plus (photo, biographie, paroles…), un fichier envoyé en ligne ne transporte au mieux que son nom et celui de l’artiste principal, quand il n’y a pas d’erreur.

Il n’existe pas à ce jour de base de données mondiale comportant les codes internationaux d’identification des œuvres, des artistes et des enregistrements. Encore moins d’outils permettant d’agréger des métadonnées comme les paroles, les photos des pochettes, les articles de presse, les biographies des artistes, les noms de tous les intervenants, artistes, musiciens, producteurs, ingénieurs du son, etc.

En France, Music Story développe une telle activité : « Nous sommes la première entreprise de données musicales en Europe », affirme Jean-Luc Biaulet, son fondateur. Music Story maintient à jour un fonds documentaire sur les artistes et les œuvres musicales, et croise ses propres articles avec ceux de la presse spécialisée offrant ainsi un service B2B utilisé par différentes plateformes musicales.

Par ailleurs, Kantar Media gère la base de données interprofessionnelle des producteurs phonographiques, détenue par le Snep, syndicat des majors du disque. Avec différents partenaires, dont l’Ircam, cette base de près de 3 millions de titres va être enrichie de nombreuses données contextuelles, sémantiques et musicologiques.

Malheureusement, les deux entreprises publiques disposant du plus grand volume de données sur la musique, Radio France et la BnF, peinent à travailler ensemble afin de pouvoir fournir des données de manière ouverte.

Il y a un an, le rapport Lescure dans sa proposition n° 79 préconisait de « créer, sous l’égide des organismes gestionnaires du dépôt légal, et en partenariat avec les sociétés de gestion collective et les organisations professionnelles, des registres ouverts de métadonnées ». Le ministère de la Culture et de la Communication a lancé tout récemment une étude de faisabilité dans ce domaine.

Plus rien n’est anonyme

Évidemment, cette collecte massive de données pose question. Jusqu’où est-il acceptable que soient conservées sur des serveurs toutes les informations sur la musique que nous écoutons, les titres que nous avons zappés, quel jour et à quelle heure ? Sans compter qu’avec cette civilisation de l’accès, ce sont aussi nos applications de lecture de presse, de livres, de visionnage de films qui pourront elles aussi générer des données et les croiser afin de construire le carnet de bord de notre identité culturelle.

Puisque la recommandation musicale idéale implique de très bien nous connaître, aurons-nous d’autres choix que de laisser la porte ouverte ? Ne serons-nous pas heureux de pouvoir utiliser ces outils pour découvrir de nouvelles œuvres et les partager avec nos proches ? Et jusqu’où accepterons-nous que ces informations très personnelles soient utilisées afin de mieux nous vendre tel ou tel produit ou service ? Selon les individus, selon les générations, les réponses diffèrent quand à ce qui relève de la vie privée, ou pas.

Et d’ailleurs, la capacité de recommandation du disquaire n’intègre-t-elle pas certaines données contextuelles qui seraient considérées comme tout à fait privées et personnelles sur internet : l’habillement, la coiffure, l’âge, la façon de s’exprimer du client… En se connectant sur les réseaux sociaux, et si l’utilisateur l’autorise, les plateformes ont bien sûr accès au sexe et à l’âge, mais, au-delà, qui acceptera que ses factures ou les marques qu’il apprécie soient intégrées dans l’algorithme de recommandation musicale ?

Au-delà de l’analyse de nos traces sur les services d’écoute de musique, un bon outil de recommandation devra aussi savoir dans quelle situation se trouve l’auditeur et éventuellement avec qui. Par chance, les appareils mobiles disposent de plus en plus de capteurs connectés qui peuvent lui apporter ces informations : l’heure, bien sûr, le lieu et la vitesse de déplacement de l’auditeur, le rythme de ses pas, voire son rythme cardiaque et le bruit environnant.

« Pour faire la meilleure recommandation, il faut utiliser toutes les données possibles », souligne Hugo Bon, qui a créé il y a juste un an Soundytics, une start-up elle aussi dédiée à la recommandation musicale. Outre des données éditoriales reprises depuis le web, sociales et contextuelles, il ajoute l’actualité, comme par exemple la présence de l’artiste en concert dans la région et enfin, le nec plus ultra, l’analyse spectrale de la musique.

Analyser le signal

Dernier domaine et non des moindres pour améliorer la connaissance de la musique et donc la recommandation musicale, l’analyse spectrale de la musique elle-même. « Les progrès ont été immenses dans ce domaine qu’il ne faut pas confondre avec celui de la reconnaissance d’un titre, comme le fait Shazam, pour lequel une prise d’empreinte sonore de quelques secondes suffit, explique Hugo Bon. Dans le cas de l’analyse audio d’un titre, c’est bien évidemment tout le titre qui est écouté par un logiciel qui va en extraire de nombreuses informations objectives : par exemple, le rythme, la percussivité, la tonalité et les fréquences utilisées… »

Nombreux sont les laboratoires qui travaillent sur la question. Outre le MIT américain, qui a donné naissance à The Echo Nest, et les Allemands du Fraunhofer-Institut, connus pour avoir développé le fameux format MP3, on peut citer l’Ircam, qui explore la description musicale automatisée depuis une quinzaine d’années et commence à commercialiser ses solutions.

Frédéric Rousseau, directeur de la valorisation industrielle et scientifique de l’Ircam explique : « Jusqu’à présent, nous n’avions que la description humaine de la musique. Avec la machine, on peut y ajouter une description objective et cohérente, appliquée à des millions de titres. »

Les logiciels sont capables de mesurer environ 25 critères. « On sait aujourd’hui reconnaître les instruments un par un, certains plus facilement, comme la batterie ou les cuivres, d’autres plus difficilement, comme la clarinette… » La machine est également capable de savoir si le titre est chanté par un homme ou par une femme.

Ainsi, passer à la moulinette informatique des millions de titres permet de les classer objectivement selon des grandes familles de genre musical mais aussi selon des ressemblances, des similarités. « En théorie, on peut reconnaître une œuvre, comme “La vie en rose” dans ses différentes versions ou interprétations. Dans les faits, ça ne marche pas toujours, notamment si les orchestrations sont trop différentes. Par contre, entre un enregistrement live et studio par le même artiste, la machine reconnaîtra la similarité », explique-t-il.

Frédéric Rousseau parcourt le monde pour rencontrer des grandes entreprises comme Toyota, Samsung ou Universal afin de leur proposer ses services de description et de nomenclature. « Il y a besoin de construire des standards mondiaux pour la musique, et maintenant que The Echo Nest, qui figurait comme un des leaders dans ce domaine, a été racheté par Spotify, la place est à prendre », confie-t-il.

Toute entreprise susceptible d’utiliser de la musique a besoin de pouvoir la classer, la répertorier, avant de la recommander. « Une analyse fine d’un catalogue et des succès, territoire par territoire, peut permettre, par similarité, d’isoler des titres qu’il peut être intéressant d’exploiter selon les pays », explique Frédéric Rousseau. À une échelle plus restreinte, une chaîne de magasins peut utiliser ce type de données pour améliorer sa programmation musicale afin de développer ses ventes.

Sous la couche des mots

Avec ces recherches musicales, les scientifiques commencent à toucher aux domaines de l’intelligence artificielle. C’est ce que fait la jeune entreprise Niland, fondée par des anciens chercheurs de l’Ircam, et qui utilise pour partie ses technologies afin d’aller encore plus loin, sous la couche des mots.

« Nous cherchons à analyser la perception musicale sans utiliser la couche sémantique, ce qui nous permet d’être beaucoup plus justes », explique Damien Tardieu, fondateur et directeur de Niland. Pour ce faire, Niland ne cherche pas à décrire le ryhme ou les instruments, mais utilise le principe du machine learning : « La machine qui apprend à écouter la musique et se construit son propre univers pertinent. »

« Dans cette science du machine learning, il existe deux modes, explique Damien Tardieu. L’un supervisé par l’humain, l’autre non. Dans le premier cas, c’est l’humain qui donne les clés à la machine, les critères… En mode supervisé, on tient encore la bride. »

« En mode non supervisé, poursuit-il, la machine est “libre”, on la laisse choisir ses propres paramètres et plus on lui laisse d’autonomie, plus elle écoute de musique, plus ses choix sont pertinents. »

Ainsi, sans les mots, on ne sait pas décrire la manière dont la machine se représente la musique, mais on sait que le résultat sera plus proche de la manière dont l’humain la perçoit.

Les machines de Niland ont ingurgité plus de 5 millions de titres et, selon ses fondateurs, les propositions sont pertinentes. « On est au moment du point de bascule, cela a du sens aujourd’hui d’utiliser le signal pour faire de la recommandation musicale. »

La jeune entreprise a déjà signé avec des agences de synchronisation de musiques à l’image pour le film ou la publicité. « D’après les retours que nous avons, ça marche, c’est commercialement exploitable. »

Mixer le signal et le social

Reste qu’évidemment, quand on doit définir un titre musical, le signal ne fait pas tout, le social a énormément d’importance. Si un titre a été un succès, s’il est chanté par un artiste qui a une image particulière, même si l’audio est le même, la perception qu’en aura le public sera différente. À l’inverse, certains titres ne peuvent pas être définis sans analyse audio.

Damien Tardieu donne l’exemple d’un titre de Metallica, Nothing else matters : « Si on se fie uniquement à l’artiste, on ne recommandera ce titre qu’aux seuls fans de hard rock ou de metal. Par contre, si on utilise le signal on constate que c’est plutôt un slow rock assez classique qui permet d’avoir une audience beaucoup plus large. » L’avantage du signal, c’est qu’il permet de favoriser la découverte de titres et d’artistes inconnus, ceux à propos desquels il y a peu de visibilité dans le monde des mots et du social. L’analyse du signal est également un excellent outil quand il s’agit de valoriser un patrimoine.

La musique, objet d’expérience

La musique est donc objet de laboratoire pour les chercheurs en intelligence artificielle. « L’avantage de la musique, c’est qu’elle parle directement à l’émotion. Le fait qu’il n’y ait pas de mots permet d’aller plus loin dans la compréhension des mécanismes cognitifs », conclut Damien Tardieu.

Ainsi, recommander la musique, c’est pouvoir la définir dans toutes ses dimensions. On dispose pour cela de deux outils, les mots, mais aussi l’analyse du signal. D’un côté, une analyse construite sur la sémantique autour de métadonnées glanées sur le Net et les réseaux sociaux ou écrites par des experts et, de l’autre, une analyse construite sur le signal, la perception du sonore, sans passer par le verbe.

Stéphan-Éloïse Gras est en train d’écrire sa thèse de doctorat « L’écoute en ligne : mutation des espaces musicaux sur Internet » à cheval sur deux disciplines, les médias et la philosophie. « C’est finalement extrêmement difficile de décrire une expérience musicale d’écoute. La musique reste un élément affectif très fort, indépendant, qui ne peut pas s’inclure dans le verbe. Elle est difficile à décrire, profondément sociale et profondément intime », souligne-t-elle faisant référence au travail du philosophe Vladimir Jankélévitch et notamment à son livre La musique et l’ineffable (voir encadré ci-dessous).

Vladimir Jankélévitch, La musique et l’ineffable, 1961

« Le mystère musical n’est pas l’indicible, mais l’ineffable. […] Est indicible ce dont il n’y a absolument rien à dire, et qui rend l’homme muet en accablant sa raison et en médusant son discours. Et l’ineffable, tout à l’inverse, est inexprimable parce qu’il y a sur lui indéfiniment, interminablement à dire […]

Car si l’indicible, glaçant toute poésie, ressemble à un sortilège hypnotique, l’ineffable, grâce à ses propriétés fertilisantes et inspirantes, agit plutôt comme un enchantement, et il diffère de l’indicible autant que l’enchantement de l’envoûtement. […] La parole manque, écrit quelque part Janácek : où manque la parole, commence la musique, où s’arrêtent les mots, l’homme ne peut plus que chanter. »

« Dans un monde qui a l’obsession du verbe et de la perception visuelle, la musique a du mal à trouver sa place, poursuit-elle, constatant qu’aujourd’hui internet est un monde de textes et d’images, de claviers et d’écrans, qui ne laisse que très peu de place au sonore. »

Il n’y a qu’à voir comment la radio peine à trouver sa place dans les mondes numériques, obligée de créer des textes et des images pour espérer obtenir un peu de visibilité sur les écrans tactiles de nos smartphones. Si la musique a pris de l’avance, le sonore est obligé de passer par le texte et l’image pour s’interfacer avec nos vies numériques.

Mais, là aussi, la science avance. Le développement des outils de reconnaissance vocale et des voix de synthèse amène à la création d’interfaces qui nous permettront demain de piloter nos appareils à la voix. Finie la dictature des écrans tactiles qui nous obéissent au doigt et à l’œil. Finie la hiérarchie sensorielle où l’image serait supérieure au son, où le mot prendrait forcément le pas sur la musique !

« Dans environ quinze ans, Google fournira des réponses à vos questions avant même que vous ne les posiez. Google vous connaîtra mieux que votre compagne ou compagnon, mieux que vous-même probablement », a fièrement déclaré Ray Kurzweil 2, directeur du développement et ingénieur en chef de Google.

Demain donc, Google saura avant moi-même quelle musique je veux écouter. Les sciences cognitives auront fait de tels progrès que, souvent, on pourra se passer des mots.