Démêler la structure de la polyphonie libre

© 2023 EPFL

© 2023 EPFL

Christoph Finkensiep a combiné le solfège et la modélisation computationnelle pour faire la lumière sur les processus génératifs de la musique.

La première impression peut être trompeuse. C’est un fait qui s’applique non seulement aux personnes, aux lieux ou aux peintures, mais aussi à la musique. Nous cherchons naturellement à imposer une structure à la musique que nous écoutons, en identifiant des accords, un rythme ou des mélodies. Mais une observation plus attentive peut révéler une complexité cachée qui est souvent difficile à systématiser, notamment des voix discordantes, des rythmes imparfaits et des relations ambiguës entre des notes conjointes.

Pour sa thèse de doctorat au Digital and Cognitive Musicology Lab de l’Institut des humanités digitales de l’EPFL, Christoph Finkensiep s’est donné pour mission de démêler la structure de la polyphonie libre, une musique dans laquelle les groupes de notes ne peuvent être clairement considérés comme contribuant à des accords ou à des mélodies. Comblant le fossé entre les sciences humaines et les «sciences dures», ses recherches s’appuient à la fois sur le solfège classique et sur l’analyse computationnelle. Nous avons échangé avec Christoph deux semaines avant sa soutenance de thèse publique.

Qu’est-ce que la polyphonie libre et en quoi est-elle différente de la musique que l’on entend à la radio?

(Christoph Finkensiep): - La polyphonie libre n’est pas nécessairement différente de ce que l’on entend à la radio. Vous pouvez l’entendre dans les chansons qu’ils passent. En fait, la polyphonie libre est une façon spécifique de combiner les notes non pas comme une mélodie sur une séquence d’accords, mais plutôt comme plusieurs lignes jouées simultanément et pouvant librement commencer, s’arrêter ou s’associer les unes aux autres. D’une certaine manière, c’est le cas par défaut de la musique quand vous n’avez pas autant de contraintes.

La polyphonie libre semble se définir précisément par un manque de structure, mais votre thèse de doctorat s’intitule: «La structure de la polyphonie libre».

- Exactement. Le manque de structure la rend compliquée, mais il s’agit toujours d’une séquence de notes. Elles peuvent se chevaucher, commencer en même temps mais se terminer à des moments différents. Il peut y en avoir plusieurs en parallèle ou on peut simplement avoir une séquence de notes simples. La représentation des notes dans une partition n’est pas simple, et les structures qu’elles forment ensemble peuvent être encore plus compliquées. Habituellement, les gens abordent ce problème en faisant des hypothèses simplificatrices, par exemple en supposant qu’ils ont affaire à une séquence d’accords. Mais ce qui est vraiment intéressant, c’est quand ce n’est pas le cas. Les notes sont toujours liées les unes aux autres, mais nous devons déterminer lesquelles et comment.

Qu’est-ce qui vous a amené à vous intéresser à ce sujet?

- Je joue du trombone et un peu de piano. J’avais aussi quelques notions de solfège lorsque j’ai commencé ma thèse. Quand on apprend le solfège, on apprend à l’appliquer en faisant preuve de bon sens, en étendant les règles simples à des cas plus complexes. Seulement, ce n’est pas très explicite. On ne sait pas vraiment comment faire. C’est quelque chose qui m’obnubilait, un problème que je voulais traiter. Je voulais savoir si on pouvait aller jusqu’à apprendre à un ordinateur à le faire?

L’EPFL est connue pour de nombreuses choses, mais la musique ne figure pas en tête de liste. Qu’est-ce qui vous a amené à rejoindre l’EPFL?

- J’avais déjà rédigé ma thèse de master avec Martin Rohrmeier, qui dirige aujourd’hui le Digital and Cognitive Musicology Lab de l’EPFL, alors qu’il était encore à Dresde. Je l’ai donc suivi ici pour ma thèse de doctorat. Ce qui est formidable à l’EPFL, c’est que nous pouvons combiner le côté humain des choses – la musique et les phénomènes culturels – avec toute cette expertise en informatique.

Quels outils utilisez-vous pour étudier ce type de problème en musicologie?

- Mon travail repose sur des modèles génératifs. Le morceau de musique est pour ainsi dire le produit final de ce que le modèle génère, et le processus génératif peut être considéré comme une «explication» du morceau. J’essaie de comprendre quelle est la bonne explication pour les notes d’un morceau. Autrement dit, ce qui se passe dans le processus génératif. Ces modèles sont généralement récursifs, de la même manière que la musique consiste souvent à prendre quelque chose de simple et à l’agrémenter, en le rendant de plus en plus complexe.

Sur le plan probabiliste, il s’agit de quantifier le degré de plausibilité d’une explication donnée pour un morceau. En attribuant des probabilités à chaque étape, on obtient une probabilité pour chaque dérivation. Ensuite, on peut se demander: étant donné ce morceau, quelle en est l’explication la plus plausible?

Quels sont les principaux résultats que vous avez découverts pendant votre thèse?

- L’une des choses les plus intéressantes que j’ai découvertes, c’est que nous ne comprenons pas encore suffisamment le voice-leading, qui décrit le phénomène des notes reliées en lignes, les notes menant aux notes qui les suivent. Mais qu’entendons-nous par «voix»? Elles peuvent faire référence à différents instruments jouant ensemble ou à différents chanteurs et chanteuses chantant ensemble. Par exemple, dans le célèbre prélude de la suite pour violoncelle en sol majeur de Bach, on a l’impression que plusieurs voix s’unissent alors qu’il ne s’agit que d’une ligne de violoncelle solo. C’est un exemple de polyphonie implicite, où il y a plusieurs voix prévues. On ne sait donc toujours pas ce que l’on entend par voix, surtout lorsque l’on n’a pas de structure vocale fixe.

Votre travail nous apprend-il quelque chose sur la façon dont nous, en tant que consommatrices et consommateurs de musique, donnons un sens à cette complexité?

- D’une certaine manière, oui. La plupart des modèles avec lesquels j’ai travaillé tenaient compte des cas parfaits dans lesquels nous avons une dérivation complète d’un morceau expliquant chaque note. En général, nous n’examinons pas les morceaux avec suffisamment de précision pour atteindre ce niveau de compréhension. Si un spécialiste consacrait beaucoup de temps sur un morceau, il pourrait probablement y arriver. Si, toutefois, vous tentiez d’utiliser les mécanismes classiques d’analyse syntaxique pour trouver toutes les dérivations possibles d’un morceau et choisir la meilleure, ce serait au-delà de ce que vous pourriez mettre en œuvre sur un ordinateur.

Alors, que manque-t-il? Il existe probablement une sorte d’approche heuristique qui n’essaie pas de trouver la meilleure solution, mais qui tente simplement d’obtenir une bonne estimation. Quand on écoute un morceau, on se fait généralement une première impression. On peut reconnaître des motifs familiers ou différencier des styles. Notre cerveau peut le faire de manière rapide et intuitive.

Mais ensuite, lorsque vous travaillez sur un morceau et le pratiquez, vous obtenez à nouveau une autre compréhension. Il n’y a donc pas que la perception immédiate, mais aussi un autre niveau qui nécessite de passer du temps sur un morceau pour développer une compréhension toujours plus approfondie.

Comment voyez-vous l’évolution de votre domaine de recherche dans les prochaines années?

- Elle pourrait aller dans plusieurs sens. De nombreuses personnes dans mon domaine travaillent sur des aspects comme la génération automatique de musique, qui serait l’une des applications les plus évidentes. Mais pour moi, ce n’est pas très important. Je me concentre sur la recherche fondamentale.

Jusqu’à présent, je me suis penché sur un type de phénomène très spécifique. Maintenant, j’aimerais l’étendre à d’autres styles pour découvrir des principes qui sont communs à tous les styles et d’autres qui changent d’un style à l’autre.

Une autre question qui m’intéresse est de relier cela aux phénomènes cognitifs généraux. Par exemple, pourquoi trouve-t-on ces structures récursives dans la musique? Sont-elles exclusives à la musique? Probablement pas. On les rencontre dans le langage, la vision et d’autres domaines cognitifs. Elles peuvent être un élément fondamental de notre réflexion.

Et puis, il y a l’aspect computationnel, qui implique un mélange de modèles récursifs, de modèles probabilistes et d’idées liées à l’apprentissage profond et à l’apprentissage par renforcement. Avec ses structures complexes dont l’analyse nécessite des outils de calcul avancés, la musique est un banc d’essai parfait pour le développement de nouveaux outils de calcul, notamment dans le sens d’une intelligence artificielle explicable et interprétable.