Modeling reverberant mixtures for multichannel audio source separation - Archive ouverte HAL Access content directly
Theses Year : 2017

Modeling reverberant mixtures for multichannel audio source separation

Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

(1)
1

Abstract

This thesis addresses the problem of under-determined audio source separation for multichannel reverberant mixtures. We adopt a probabilistic approach where the source signals are represented as latent random variables in a time-frequency domain. The specific structure of musical signals in this domain is exploited by means of non-negative matrix factorization models. In the literature, the mixing filters are generally treated as deterministic parameters, only estimated from the observed data. However, as these filters correspond to room responses, they exhibit a very particular structure that can be used to guide their estimation. In a first part, the time-domain convolutive mixing process is approximated in the short-time Fourier transform domain, under the assumption that the impulse response of the mixing filters is short. We develop autoregressive moving average models that aim to transcribe the temporal dynamics of the filters into frequency-domain correlations. These models are then used in a source separation framework, for performing maximum a posteriori estimation of the mixing filters by means of an expectation-maximization algorithm. In a second part, we propose to infer the time-frequency source coefficients from the time-domain mixture observations, using a variational approach. The convolutive mixing process is here exactly represented. In addition to being suitable for the separation of highly reverberant mixtures, this approach allows us to develop simple priors for the mixing filters in order to guide their estimation. We propose a model based on the Student’s t distribution that exploits the exponential decay of reverberation in the time domain.
Cette thèse porte sur la séparation sous-déterminée de sources sonores en milieu réverbérant. Nous adoptons une approche probabiliste où les signaux sources sont représentés comme des variables aléatoires latentes dans un domaine temps-fréquence. La structure spécifique des signaux musicaux dans ce domaine est exploitée par l’intermédiaire de modèles de factorisation en matrices non-négatives. Les méthodes de la littérature traitent généralement les filtres de mélange comme des paramètres déterministes estimés uniquement à partir des données observées. Ces filtres correspondent cependant à des réponses de salle, ils ont donc une structure bien particulière qu’il est possible d’exploiter afin de guider leur estimation. Dans une première partie, le processus de mélange convolutif temporel est approché dans le domaine de la transformée de Fourier à court-terme, sous une hypothèse de filtres de mélange à réponse impulsionnelle courte. Nous développons des modèles autorégressifs à moyenne ajustée ayant pour objectif de transcrire la dynamique temporelle des filtres sous forme de corrélations fréquentielles. Ces modèles sont ensuite utilisés dans une méthode de séparation de sources où les filtres sont estimés au sens du maximum a posteriori, par un algorithme espérance-maximisation. Dans une seconde partie, nous proposons une méthode d’inférence variationnelle des coefficients temps-fréquence des sources à partir des observations temporelles du mélange. Le processus de mélange convolutif est donc cette fois représenté de façon exacte. En plus de convenir à la séparation de mélanges fortement réverbérants, cette approche nous permet de développer des a priori simples sur les filtres de mélange afin de guider leur estimation. Nous proposons un modèle basé sur la distribution t de Student et exploitant la décroissance exponentielle de la réverbération dans le domaine temporel.
Fichier principal
Vignette du fichier
these_Simon_Leglaive.pdf (8 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03158307 , version 1 (03-03-2021)

Identifiers

  • HAL Id : tel-03158307 , version 1

Cite

Simon Leglaive. Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant. Traitement du signal et de l'image [eess.SP]. Télécom ParisTech, 2017. Français. ⟨NNT : 2017ENST0068⟩. ⟨tel-03158307⟩
92 View
59 Download

Share

Gmail Facebook Twitter LinkedIn More