Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

Simon Leglaive

Thèse Année : 2017

Modeling reverberant mixtures for multichannel audio source separation

Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

(1)

Simon Leglaive

Fonction : Auteur
PersonId : 20853
IdHAL : simon-leglaive
ORCID : 0000-0002-8219-1298
IdRef : 25312171X

Laboratoire Traitement et Communication de l'Information

Résumé

This thesis addresses the problem of under-determined audio source separation for multichannel reverberant mixtures. We adopt a probabilistic approach where the source signals are represented as latent random variables in a time-frequency domain. The specific structure of musical signals in this domain is exploited by means of non-negative matrix factorization models. In the literature, the mixing filters are generally treated as deterministic parameters, only estimated from the observed data. However, as these filters correspond to room responses, they exhibit a very particular structure that can be used to guide their estimation. In a first part, the time-domain convolutive mixing process is approximated in the short-time Fourier transform domain, under the assumption that the impulse response of the mixing filters is short. We develop autoregressive moving average models that aim to transcribe the temporal dynamics of the filters into frequency-domain correlations. These models are then used in a source separation framework, for performing maximum a posteriori estimation of the mixing filters by means of an expectation-maximization algorithm. In a second part, we propose to infer the time-frequency source coefficients from the time-domain mixture observations, using a variational approach. The convolutive mixing process is here exactly represented. In addition to being suitable for the separation of highly reverberant mixtures, this approach allows us to develop simple priors for the mixing filters in order to guide their estimation. We propose a model based on the Student’s t distribution that exploits the exponential decay of reverberation in the time domain.

Cette thèse porte sur la séparation sous-déterminée de sources sonores en milieu réverbérant. Nous adoptons une approche probabiliste où les signaux sources sont représentés comme des variables aléatoires latentes dans un domaine temps-fréquence. La structure spécifique des signaux musicaux dans ce domaine est exploitée par l’intermédiaire de modèles de factorisation en matrices non-négatives. Les méthodes de la littérature traitent généralement les filtres de mélange comme des paramètres déterministes estimés uniquement à partir des données observées. Ces filtres correspondent cependant à des réponses de salle, ils ont donc une structure bien particulière qu’il est possible d’exploiter afin de guider leur estimation. Dans une première partie, le processus de mélange convolutif temporel est approché dans le domaine de la transformée de Fourier à court-terme, sous une hypothèse de filtres de mélange à réponse impulsionnelle courte. Nous développons des modèles autorégressifs à moyenne ajustée ayant pour objectif de transcrire la dynamique temporelle des filtres sous forme de corrélations fréquentielles. Ces modèles sont ensuite utilisés dans une méthode de séparation de sources où les filtres sont estimés au sens du maximum a posteriori, par un algorithme espérance-maximisation. Dans une seconde partie, nous proposons une méthode d’inférence variationnelle des coefficients temps-fréquence des sources à partir des observations temporelles du mélange. Le processus de mélange convolutif est donc cette fois représenté de façon exacte. En plus de convenir à la séparation de mélanges fortement réverbérants, cette approche nous permet de développer des a priori simples sur les filtres de mélange afin de guider leur estimation. Nous proposons un modèle basé sur la distribution t de Student et exploitant la décroissance exponentielle de la réverbération dans le domaine temporel.

Mots clés

Under-determined audio source separation Multichannel reverberant mixtures Statistical room acoustics Non-negative matrix factorization Probabilistic models Statistical inference Variational inference

Séparation sous-déterminée de sources audio Mélanges multicanaux réverbérants Acoustique statistique des salles Factorisation en matrices non-négatives Modèles probabilistes Inférence statistique Inférence variationnelle

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

these_Simon_Leglaive.pdf (8 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://pastel.hal.science/tel-03158307

Soumis le : mercredi 3 mars 2021-17:15:11

Dernière modification le : vendredi 29 mars 2024-16:11:16

Dates et versions

tel-03158307 , version 1 (03-03-2021)

Identifiants

HAL Id : tel-03158307 , version 1

Citer

Simon Leglaive. Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant. Traitement du signal et de l'image [eess.SP]. Télécom ParisTech, 2017. Français. ⟨NNT : 2017ENST0068⟩. ⟨tel-03158307⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL CNRS STAR PARISTECH UNIV-PARIS-SACLAY LTCI

111 Consultations

94 Téléchargements

Modeling reverberant mixtures for multichannel audio source separation

Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager