Cutting the visual world into bigger slices for improved video concept detection

Résumé : Les documents visuels comprenant des images et des vidéos sont en croissance rapide sur Internet et dans nos collections personnelles. Cela nécessite une analyse automatique du contenu visuel qui fait appel à la conception de méthodes intelligentes pour correctement indexer, rechercher et récupérer des images et des vidéos. Cette thèse vise à améliorer la détection automatique des concepts dans les vidéos sur Internet. Nos contributions portent sur des différents niveaux dans le cadre de détection de concept et peuvent être divisés en trois parties principales. La première partie se focalise sur l’amélioration du modèle de représentation des vidéos « Bag-of-Words (BOW) » en proposant un nouveau mécanisme de construction qui utilise des étiquettes de concepts et une autre technique qui ajoute un raffinement à la signature BOW basée sur la distribution de ses éléments. Nous élaborons ensuite des méthodes pour intégrer des entités semblables et dissemblables pour construire des modèles de reconnaissance améliorés dans la deuxième partie. A ce stade-là, nous observons l’information potentielle que les concepts partagent et construisons des modèles pour les méta-concepts dont sont dérivés les résultats spécifiques de concepts. Cela améliore la reconnaissance des concepts qui ont peu d’exemples annotés. Enfin, nous concevons certaines méthodes d'apprentissage semi-supervisé pour bénéficier de la quantité importante de données non étiquetées. Nous proposons des techniques pour améliorer l'algorithme de cotraining avec une sélection optimale des classifieurs utilisés.
Type de document :
Thèse
Image Processing. Télécom ParisTech, 2014. English. 〈NNT : 2014ENST0040〉
Liste complète des métadonnées

Littérature citée [220 références]  Voir  Masquer  Télécharger

https://pastel.archives-ouvertes.fr/tel-01420419
Contributeur : Abes Star <>
Soumis le : mardi 20 décembre 2016 - 15:35:07
Dernière modification le : mardi 23 janvier 2018 - 11:59:41
Document(s) archivé(s) le : lundi 20 mars 2017 - 16:40:38

Fichier

TheseNiazV2.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01420419, version 1

Citation

Usman Niaz. Cutting the visual world into bigger slices for improved video concept detection. Image Processing. Télécom ParisTech, 2014. English. 〈NNT : 2014ENST0040〉. 〈tel-01420419〉

Partager

Métriques

Consultations de la notice

361

Téléchargements de fichiers

157