Reconnaissance d'accords à partir de signaux audio par l'utilisation de gabarits théoriques

Laurent Oudre

Résumé

This thesis is in line with the music signal processing field and focuses in particular on the automatic chord transcription from audio signals. Indeed, for the past ten years, numerous works have aimed at representing music signals in a compact and relevant way, for example for indexation or music similarity search. Chord transcription constitutes a simple and robust way of extracting harmonic and rhythmic information from songs and can notably be used by musicians to playback musical pieces. We propose here two approaches for automatic chord recognition from audio signals, which are based only on theoretical chord templates, that is to say on the chord definitions. In particular, our systems neither need extensive music knowledge nor training. Our first approach is deterministic and relies on the joint use of chord templates, measures of fit and post-processing filtering. We first extract from the signal a succession of chroma vectors, which are then compared to chord templates thanks to several measures of fit. The so defined recognition criterion is then filtered, so as to take into account the temporal aspect of the task. The detected chord for each frame is finally the one minimizing the recognition criterion. This method notably entered an international evaluation (MIREX 2009) and obtained very fair results. Our second approach is probabilistic and builds on some components introduced in our deterministic method. By drawing a parallel between measures of fit and probability models, we can define a novel probabilistic framework for chord recognition. The probability of each chord in a song is learned from the song through an Expectation-Maximization (EM) algorithm. As a result, a relevant and sparse chord vocabulary is extracted for every song, which in turn leads to better chord transcriptions. This method is compared to numerous state-of-the-art systems, with several corpora and metrics, which allow a complete and multi-facet evaluation.

Cette thèse s'inscrit dans le cadre du traitement du signal musical, en se focalisant plus particulièrement sur la transcription automatique de signaux audio en accords. En effet, depuis une dizaine d'années, de nombreux travaux visent à représenter les signaux musicaux de la façon la plus compacte et pertinente possible, par exemple dans un but d'indexation ou de recherche par similarité. La transcription en accords constitue une façon simple et robuste d'extraire l'information harmonique et rythmique des chansons et peut notamment être utilisée par les musiciens pour rejouer les morceaux. Nous proposons deux approches pour la reconnaissance automatique d'accords à partir de signaux audio, qui offrent la particularité de se baser uniquement sur des gabarits d'accords théoriques, c'est à dire sur la définition des accords. En particulier, nos systèmes ne nécessitent ni connaissance particulière sur l'harmonie du morceau, ni apprentissage. Notre première approche est déterministe, et repose sur l'utilisation conjointe de gabarits d'accords théoriques, de mesures d'ajustement et de post-traitement par filtrage. On extrait tout d'abord des vecteurs de chroma du signal musical, qui sont ensuite comparés aux gabarits d'accords grâce à plusieurs mesures d'ajustement. Le critère de reconnaissance ainsi formé est ensuite filtré, afin de prendre en compte l'aspect temporel de la tâche. L'accord finalement détecté sur chaque trame est celui minimisant le critère de reconnaissance. Cette méthode a notamment été présentée lors d'une évaluation internationale (MIREX 2009) et a obtenu des résultats très honorables. Notre seconde approche est probabiliste, et réutilise certains éléments présents dans notre méthode déterministe. En faisant un parallèle entre les mesures d'ajustement utilisées dans l'approche déterministe et des modèles de probabilité, on peut définir un cadre probabiliste pour la reconnaissance d'accords. Dans ce cadre, les probabilités de chaque accord dans le morceau sont évaluées grâce à un algorithme Espérance-Maximisation (EM). Il en résulte la détection, pour chaque chanson, d'un vocabulaire d'accords adapté, qui permet l'obtention d'une meilleure transcription en accords. Cette méthode est comparée à de nombreux systèmes de l'état de l'art, grâce à plusieurs corpus et plusieurs métriques, qui permettent une évaluation complète des différents aspects de la tâche.

Template-based chord recognition from audio signals

Reconnaissance d'accords à partir de signaux audio par l'utilisation de gabarits théoriques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager