Skip to Main content Skip to Navigation
Theses

Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles

Résumé : L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles.
Document type :
Theses
Complete list of metadatas

Cited literature [167 references]  Display  Hide  Download

https://pastel.archives-ouvertes.fr/tel-02115465
Contributor : Abes Star :  Contact
Submitted on : Tuesday, April 30, 2019 - 12:14:07 PM
Last modification on : Saturday, August 1, 2020 - 9:25:22 AM

File

78492_PAREKH_2019_archivage.pd...
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02115465, version 1

Citation

Sanjeel Parekh. Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles. Traitement du signal et de l'image [eess.SP]. Université Paris-Saclay, 2019. Français. ⟨NNT : 2019SACLT015⟩. ⟨tel-02115465⟩

Share

Metrics

Record views

342

Files downloads

246