Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

Mathieu Ramona

Thèse Année : 2010

Automatic classification of broadcast audio streams with Support Vector Machines

Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

(1)

Mathieu Ramona

Fonction : Auteur
PersonId : 881093

Laboratoire Traitement et Communication de l'Information

Résumé

We present here a system for speech/music audio classification, that relies on the excellent statistical properties of Support Vector Machines. This problems raises three questions : how can the SVM, by essence discriminative, be used effeciently on a problem involving more than two classes, how can an audio signal be characterized in a relevant way, and how can the temporel issue be adressed ? We propose a hybrid system for multi-class classification, based on a combination of One-vs-One and dendogram-based approaches, and allowing the estimation of posterior probabilities. The latter are used for the application of post-processing methods that take into account the neighboring frames' inter-dependancies. We thus propose a classification scheme based on the application of Hidden Markov Models on the posterior probabilities, along with an approach based on change detection between segments with "homogeneous" acoustic content. Concerning the audio signal characterization, since it involves a great amount of audio descriptors, we propose new algorithms for feature selection, based on the recent Kernel Alignement criterion. This criterion is also used for the kernel selection step in the classification process. The proposed algorithms are compared to the state-of-the-art, and constitute a relevant alternative in terms of computational cost and storage. The system built from these contributions has been used for a participation to the ESTER 2 evaluation campaign, that we present, along with our results.

Nous présentons ici un système de classification audio parole/musique tirant parti des excellentes propriétés statistiques des Machines à Vecteurs de Support. Ce problème pose les trois questions suivantes : comment exploiter efficacement les SVM, méthode d'essence discriminatoire, sur un problème à plus de deux classes, comment caractériser un signal audio de manière pertinente, et enfin comment traiter l'aspect temporel du problème ? Nous proposons un système hybride de classification multi-classes tirant parti des approches un-contre-un et par dendogramme, et permettant l'estimation de probabilités a posteriori. Ces dernières sont exploitées pour l'application de méthodes de post-traitement prenant en compte les interdépendances entre trames voisines. Nous proposons ainsi une méthode de classification par l'application de Modèles de Markov Cachés (HMM) sur les probabilités a posteriori, ainsi qu'une approche basée sur la détection de rupture entre segments au contenu acoustique "homogène". Par ailleurs, la caractérisation du signal audio étant opérée par une grande collection des descripteurs audio, nous proposons de nouveaux algorithmes de sélection de descripteurs basés sur le récent critère d'Alignement du noyau ; critère que nous avons également exploité pour la sélection de noyau dans le processus de classification. Les algorithmes proposés sont comparés aux méthodes les plus efficaces de l'état de l'art auxquelles elles constituent une alternative pertinente en termes de coût de calcul et de stockage. Le système construit sur ces contributions a fait l'objet d'une participation à la campagne d'évaluation ESTER 2, que nous présentons, accompagnée de nos résultats.

Mots clés

Support Vector Machines Kernel Target Alignement kernels audio classification audio segmentation speech/music feature selection

Machines à Vecteurs de Support SVM alignement KTA noyaux classification audio segmentation audio parole/musique sélection de descripteurs

Domaines

Machine Learning [stat.ML] Son [cs.SD] Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

main.pdf (5.42 Mo)

soutenance_sub.pdf (5.93 Mo)

Format : Autre

Mathieu Ramona : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00529331

Soumis le : lundi 25 octobre 2010-14:16:44

Dernière modification le : lundi 9 octobre 2023-12:49:40

Archivage à long terme le : vendredi 2 décembre 2016-09:30:42

Dates et versions

pastel-00529331 , version 1 (25-10-2010)

Identifiants

HAL Id : pastel-00529331 , version 1

Citer

Mathieu Ramona. Classification automatique de flux radiophoniques par Machines à Vecteurs de Support. Machine Learning [stat.ML]. Télécom ParisTech, 2010. Français. ⟨NNT : ⟩. ⟨pastel-00529331⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL CNRS PARISTECH LTCI

531 Consultations

1827 Téléchargements

Automatic classification of broadcast audio streams with Support Vector Machines

Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager