Decomposition of musical spectrograms informed by spectral synthesis models. Modeling of time variations in sound elements. - Archive ouverte HAL Access content directly
Theses Year : 2011

Decomposition of musical spectrograms informed by spectral synthesis models. Modeling of time variations in sound elements.

Décomposition de spectrogrammes musicaux informée par des modèles de synthèse spectrale. Modélisation des variations temporelles dans les éléments sonores.

(1)
1
Romain Hennequin
  • Function : Author
  • PersonId : 915377

Abstract

This thesis proposes new methods for automatic musical spectrograms decomposition. Proposed decompositions are derived from Non-negative Matrix Factorization (NMF), which is a powerful rank reduction method renowned for providing decompositions on a few frequency patterns (extracted from the data) that generally have a perceptual meaning. However, NMF cannot efficiently model some kinds of temporal variations of non-stationary events usually found in musical spectrograms. This thesis proposes to introduce generative models of musical spectrograms relying on simple models of sound synthesis in order to take two kinds of common variations into account: the spectral envelope variations (plucked strings sounds, vocal-like sounds...) and the fundamental frequency variations (vibrato, prosody...). Introducing simple synthesis models in factorization methods makes it possible to propose decompositions able to model such variations: a source/filter model permits to take spectral variations of musical objects over time into account. A model of spectrogram with parametric harmonic atoms inspired by additive synthesis and another model inspired by wavetable synthesis which uses transformations of a single atom in order to generate all the possible fundamental frequencies of each instrument make it possible to model fundamental frequency variations. Applications of these new methods are also presented: an application of source separation and one of selective transformation of sound.
Cette thèse propose de nouvelles méthodes de décomposition automatique de spectrogrammes de signaux musicaux. Les décompositions proposées sont issues de la factorisation en matrices non-négatives (NMF), puissante technique de réduction de rang réputée pour fournir une décomposition sur un petit nombre de motifs fréquentiels automatiquement extraits des données ayant généralement un sens perceptif. La NMF ne permet cependant pas de modéliser de façon efficace certaines variations temporelles d'éléments sonores non-stationnaires communément rencontrées dans la musique. Cette thèse propose donc d'introduire dans la NMF des modèles génératifs de spectrogrammes musicaux basés sur des modèles classiques de synthèse sonore afin de pouvoir prendre en compte deux types de variations courantes : les variations d'enveloppe spectrale (sons d'instruments à cordes métalliques libres...) et les variations de fréquence fondamentale (vibrato, prosodie...). L'introduction de modèles de synthèse simples dans la NMF permet de proposer des décompositions capables de prendre en compte ces variations : l'utilisation d'un modèle de synthèse source/ filtre permet de modéliser les variations spectrales de certains objets musicaux au cours du temps. L'utilisation d'un modèle d'atomes harmoniques paramétriques inspiré de la synthèse additive ou bien l'utilisation d'un modèle inspiré de la synthèse par table d'onde qui utilise des transformations d'un unique atome de base afin de recréer toute la tessiture de chaque instrument permettent de modéliser les variations de fréquence fondamentale. Une application de séparation de sources et une de transformation sélective du son sont également présentées.
Fichier principal
Vignette du fichier
these.pdf (12.1 Mo) Télécharger le fichier
Loading...

Dates and versions

pastel-00648997 , version 1 (06-12-2011)

Identifiers

  • HAL Id : pastel-00648997 , version 1

Cite

Romain Hennequin. Décomposition de spectrogrammes musicaux informée par des modèles de synthèse spectrale. Modélisation des variations temporelles dans les éléments sonores.. Traitement du signal et de l'image [eess.SP]. Télécom ParisTech, 2011. Français. ⟨NNT : ⟩. ⟨pastel-00648997⟩
433 View
1631 Download

Share

Gmail Facebook Twitter LinkedIn More