Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Jean-Louis Durrieu

Thèse Année : 2010

Automatic transcription and separation of the main melody in polyphonic music signals

Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

(1)

Jean-Louis Durrieu

Fonction : Auteur

Laboratoire Traitement et Communication de l'Information

Résumé

We propose to address the problem of melody extraction along with the monaural lead instrument and accompaniment separation problem. The first task is related to Music Information Retrieval (MIR), since it aims at indexing the audio music signals with their melody. The separation problem is related to Blind Audio Source Separation (BASS), as it aims at breaking an audio mixture into several source tracks. Leading instrument source separation and main melody extraction are addressed within a unified framework. The lead instrument is modelled thanks to a source/filter production model. Its signal is generated by two hidden states, the filter state and the source state. The proposed signal spectral model therefore explicitly uses pitches both to separate the lead instrument from the others and to transcribe the pitch sequence played by that instrument, the "main melody". This model gives rise to two alternative models, a Gaussian Scaled Mixture Model (GSMM) and the Instantaneous Mixture Model (IMM). The accompaniment is modelled with a more general spectral model. Five systems are proposed. Three systems detect the fundamental frequency sequence of the lead instrument, i.e. they estimate the main melody. A system returns a musical melody transcription and the last system separates the lead instrument from the accompaniment. The results in melody transcription and source separation are at the state of the art, as shown by our participations to international evaluation campaigns (MIREX'08, MIREX'09 and SiSEC'08). The proposed extension of previous source separation works using "MIR" knowledge is therefore a very successful combination.

Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores.

Mots clés

Music Information Retrieval Single-channel audio source separation Extraction of the main melody

Traitement automatique de la musique extraction de la mélodie principale Séparation de sources audio mono-canale Factorisation en matrices non-négatives (NMF) Modèle de mélange de gaussiennes amplifiées (MMGA) Modèle source/filtre Non-negative Matrix Factorisation (NMF)

Domaines

Fichier principal

durrieu_extraction_melody.pdf (6.58 Mo)

Ecole Télécom ParisTech : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00006123

Soumis le : vendredi 4 juin 2010-08:00:00

Dernière modification le : lundi 9 octobre 2023-12:49:40

Archivage à long terme le : jeudi 30 mars 2017-05:56:25

Dates et versions

pastel-00006123 , version 1 (04-06-2010)

Identifiants

HAL Id : pastel-00006123 , version 1

Citer

Jean-Louis Durrieu. Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques. domain_other. Télécom ParisTech, 2010. Français. ⟨NNT : ⟩. ⟨pastel-00006123⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL CNRS PARISTECH LTCI AFIM

233 Consultations

789 Téléchargements

Automatic transcription and separation of the main melody in polyphonic music signals

Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager