Self-supervised learning of object-centric representations with multi-object detection and segmentation

Bruno Sauvalle

Résumé

The goal of this thesis is to study how deep learning techniques, i.e. stochastic gradient descent and neural networks, can be used to get an interpretable representation of a scene without requiring any annotated dataset. In order to get such a representation, we consider that a scene is composed of a background and various foreground objects. We then have to be able to distinguish the background from the foreground objects present in the scene, and also to separate these foreground objects, which can touch or occlude each other. We first study the task of fixed background reconstruction, whose goal is to build a unique background image of a scene using a short sequence of images of this scene cluttered by various objects. We address this task as a robust estimation problem, propose a new technique called background bootstrapping, which uses stochastic gradient descent, and show that it is more accurate and significantly faster than state of the art methods. We then consider the task of dynamic background reconstruction and background/foreground segmentation. Starting from the assumption that the backgrounds of the images appearing in a video or a dataset lie on a low dimensional manifold, we are able to learn this manifold using a convolutional autoencoder. In order to improve segmentation results, we adapt the autoencoder to predict the background noise, which can be caused by turbulence, moving trees or water, and should not be considered as foreground. We then show that the proposed model is able to improve upon the state of the art for unsupervised methods on the challenging CDnet and LASIESTA benchmarks. The segmentation of the background is a first step in order to understand the structure of a scene, but it does not allow to identify and segment the various objects appearing in a scene. In order to get a true object-centric representation of a scene, we introduce a new architecture for unsupervised object-centric representation learning, which uses attention and soft-argmax to localize each object and a transformer encoder to manage occlusions and avoid duplicate detections. We then show that this architecture is significantly more accurate than the state of the art on existing synthetic benchmarks and provide some examples of applications to real-world images taken from traffic cameras.

L’objectif de cette thèse est d’étudier comment les techniques d’apprentissage profond, c’est-à-dire la descente de gradient stochastique et les réseaux de neurones, peuvent être utilisées pour obtenir une représentation interprétable d’une scène sans nécessiter de jeu de données annotées. Afin d’obtenir une telle représentation, nous considérons qu’une scène est composée d’un arrière-plan et de divers objets apparaissant en avant-plan. Nous devons donc non seulement être capable de distinguer l’arrière-plan de ces différents objets, mais aussi de séparer ces objets, qui peuvent se toucher ou s’occulter entre eux. Nous étudions d’abord la tâche de reconstruction d’arrière-plan fixe, dont le but est de construire une image unique de l’arrière-plan d’une scène à l’aide d’une courte séquence d’images de cette scène encombrée par divers objets. Nous considérons cette tâche comme un problème d’estimation robuste, proposons une nouvelle technique appelée bootstrap d’arrière-plan, qui utilise la descente de gradient stochastique, et montrons qu’elle est plus précise et considérablement plus rapide que les meilleures méthodes existantes. Nous considérons ensuite la tâche de reconstruction d’arrière-plan dynamique et de segmentation d’arrière-plan/avant-plan. À partir de l’hypothèse selon laquelle les arrière-plans des images apparaissant dans une vidéo ou un jeu de données sont situés sur une variété de petite dimension, nous sommes en mesure d’apprendre cette variété à l’aide d’un autoencodeur convolutionnel. Afin d’améliorer les résultats de segmentation, nous adaptons l’autoencodeur pour prédire le bruit d’arrière-plan, qui peut être causé par la turbulence ou les mouvements des arbres ou de l’eau. Nous montrons ensuite que le modèle proposé donne de meilleurs résultats que les meilleures méthodes non supervisées existantes sur les exigeants benchmarks CDnet et LASIESTA. La segmentation de l’arrière-plan est une première étape pour comprendre la structure d’une scène, mais elle ne permet pas d’identifier et de segmenter les divers objets apparaissant dans une scène. Afin d’obtenir une représentation véritablement centrée sur les objets d’une scène, nous introduisons une nouvelle architecture pour l’apprentissage non supervisé de représentations centrées sur les objets, qui utilise l’attention et le soft-argmax pour localiser chaque objet et un transformer encodeur pour gérer les occlusions et éviter les doubles détections. Nous montrons ensuite que cette architecture est considérablement plus précise que l’état de l’art sur les benchmarks synthétiques existants et fournissons quelques exemples d’applications à des images réelles prises par des caméras de circulation.

Self-supervised learning of object-centric representations with multi-object detection and segmentation

Apprentissage auto-supervisé de représentations centrées sur les objets avec détection et segmentation multi-objets

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager