Audio-to-Score Temporal Alignment with Discriminative Graphical Models. - Archive ouverte HAL Access content directly
Theses Year : 2011

Audio-to-Score Temporal Alignment with Discriminative Graphical Models.

Alignement temporel musique-sur-partition par modèles graphiques discriminatifs

(1)
1
Cyril Joder
  • Function : Author
  • PersonId : 919394
AAO

Abstract

This thesis focuses on the problem of aligning a musical recording to the corresponding score, which can find numerous applications in the field of music information retrieval. We choose a probabilistic approach and introduce the use of discriminative graphical models called conditional random fields (CRF) for this task, by expressing it as a sequence labeling problem. Indeed, the CRF framework is aimed at sequence segmentation or labeling, and it allows for the design of more flexible models than hidden Markov and hidden semi-Markov models which are commonly used in the alignment literature. In particular, CRFs allow for the use of a acoustic features extracted from a whole sequence of audio frames, instead of a single observation. We take advantage of this property to design features which perform an implicit modeling of the notion of tempo, at the lowest level of the model. Furthermore, we propose three different dependency structures for the modeling of the musical event durations, corresponding to different degrees of precision in the modeling of musical event durations. Three types of features are used, characterizing the local harmony, note attacks and tempo. Experiments run on a large database of classical piano and popular music exhibit very accurate alignments. Indeed, with the best performing system, more than 95 % of the note onsets are detected with a precision finer than 100 ms. Several traditional features, extracted from different representations of the audio, are considered for the characterization of the local match between the score and the recording. A comparison of these descriptors is conducted on the basis of their efficiency on the alignment task. Furthermore, we address the design of novel features, by learning a linear transformation from the symbolic to any time-frequency audio representation. We explore a best fit strategy (minimum divergence) as well as a discriminative criterion (maximum likelihood) for the estimation of the optimal mapping and show that such a learning has the potential to increase the alignment accuracy, for all the tested audio representations. Finally, we explore several strategies to take into account constraints relating to real use cases. In particular, complexity reduction is obtained thanks to a novel dedicated hierarchical pruning strategy. This method takes advantage of the hierarchical structure of music for a multi-pass decoding approach, yielding a better overall efficiency than the beam search method traditionally used in HMM-based models. We additionally show how the proposed framework can be modified in order to be robust to possible structural differences between the score and the musical performance, and we study the scalability properties of the models used.
Cette thèse étudie le problème de l'alignement temporel d'un enregistrement musical et de la partition correspondante. Cette tâche peut trouver de nombreuses applications dans le domaine de l'indexation automatique de documents musicaux. Nous adoptons une approche probabiliste et nous proposons l'utilisation de modèles graphiques discriminatifs de type champs aléatoires conditionnels pour l'alignement, en l'exprimant comme un problème d'étiquetage de séquence. Cette classe de modèles permet d'exprimer des modèles plus flexibles que les modèles de Markov cachés ou les modèles semi-markoviens cachés, couramment utilisés dans ce domaine. En particulier, elle rend possible l'utilisation d'attributs (ou descripteurs acoustiques) extraits de séquences de trames audio qui se recouvrent, au lieu d'observations disjointes. Nous tirons parti de cette propriété pour introduire des attributs qui réalisent une modélisation implicite du tempo au plus bas niveau du modèle. Nous proposons trois structures de modèles différentes de complexité croissant, correspondant à différents niveaux de précision dans la modélisation de la durées des évènements musicaux. Trois types de descripteurs acoustiques sont utilisés, pour caractériser localement l'harmonie, les attaques de notes et le tempo de l'enregistrement. Une série d'expériences réalisées sur une base de données de piano classique et de musique pop permet de valider la grande précision de nos modèles. En effet, avec le meilleur des systèmes proposés, plus de 95 % des attaques de notes sont détectées à moins de 100 ms de leur position réelle. Plusieurs attributs acoustiques classiques, calculés à partir de différentes représentation de l'audio, sont utiliser pour mesurer la correspondance instantanée entre un point de la partition et une trame de l'enregistrement. Une comparaison de ces descripteurs est alors menée sur la base de leurs performances d'alignement. Nous abordons ensuite la conception de nouveaux attributs, grâce à l'apprentissage d'une transformation linéaire de la représentation symbolique vers une représentation temps-fréquence quelconque de l'audio. Nous explorons deux stratégies différentes, par minimum de divergence et maximum de vraisemblance, pour l'apprentissage de la transformation optimale. Les expériences effectuées montrent qu'une telle approche peut améliorer la précision des alignements, quelle que soit la représentation de l'audio utilisée. Puis, nous étudions différents ajustements à effectuer afin de confronter les systèmes à des cas d'utilisation réalistes. En particulier, une réduction de la complexité est obtenue grâce à une stratégie originale d'élagage hiérarchique. Cette méthode tire parti de la structure hiérarchique de la musique en vue d'un décodage approché en plusieurs passes. Une diminution de complexité plus importante que celle de la méthode classique de recherche par faisceaux est observée dans nos expériences. Nous examinons en outre une modification des modèles proposés afin de les rendre robustes à d'éventuelles différences structurelles entre la partition et l'enregistrement. Enfin, les propriétés de scalabilité des modèles utilisés sont étudiées.
Fichier principal
Vignette du fichier
these_Cyril_Joder.pdf (4.51 Mo) Télécharger le fichier
Vignette du fichier
soutenance_Joder.pdf (8.95 Mo) Télécharger le fichier
Format : Other
Loading...

Dates and versions

pastel-00664260 , version 1 (30-01-2012)

Identifiers

  • HAL Id : pastel-00664260 , version 1

Cite

Cyril Joder. Alignement temporel musique-sur-partition par modèles graphiques discriminatifs. Traitement du signal et de l'image [eess.SP]. Télécom ParisTech, 2011. Français. ⟨NNT : ⟩. ⟨pastel-00664260⟩
319 View
948 Download

Share

Gmail Facebook Twitter LinkedIn More