Unsupervised image analysis by synthesis - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2023

Unsupervised image analysis by synthesis

Analyse d'image non supervisée par synthèse

Tom Monnier
  • Fonction : Auteur
  • PersonId : 1383630
  • IdRef : 276871812

Résumé

The goal of this thesis is to develop machine learning approaches to analyze collections of images without annotations. Advances in this area hold particular promises for high-impact 3D-related applications (e.g., reconstructing a real-world scene with 3D actionable components for animation movies or video games) where annotating examples to teach the machines is difficult, as well as more micro applications related to specific needs (e.g., analyzing the character evolution from 12th century documents) where spending significant effort on annotating large-scale database is debatable. The central idea of this dissertation is to build machines that learn to analyze an image collection by synthesizing the images in the collection. Learning analysis models by synthesis is difficult because it requires the design of a learnable image generation system that explicitly exhibits the desired analysis output. To achieve our goal, we present three key contributions.The first contribution of this thesis is a new conceptual approach to category modeling. We propose to represent the category of an image, a 2D object or a 3D shape, with a prototype that is transformed using deep learning to model the different instances within the category. Specifically, we design meaningful parametric transformations (e.g., geometric deformations or colorimetric variations) and use neural networks to predict the transformation parameters necessary to instantiate the prototype for a given image. We demonstrate the effectiveness of this idea to cluster images and reconstruct 3D objects from single-view images. We obtain performances on par with the best state-of-the-art methods which leverage handcrafted features or annotations.The second contribution is a new way to discover elements in a collection of images. We propose to represent an image collection by a set of learnable elements composed together to synthesize the images and optimized by gradient descent. We first demonstrate the effectiveness of this idea by discovering 2D elements related to semantic objects represented by a large image collection. Our approach have performances similar to the best concurrent methods which synthesize images with neural networks, and ours comes with better interpretability. We also showcase the capability of this idea by discovering 3D elements related to simple primitive shapes given as input a collection of images depicting a scene from multiple viewpoints. Compared to prior works finding primitives in 3D point clouds, we showcase much better qualitative and quantitative performances.The third contribution is more technical and consist in a new formulation to compute differentiable mesh rendering. Specifically, we formulate the differentiable rendering of a 3D mesh as the alpha compositing of the mesh faces in an increasing depth order. Compared to prior works, this formulation is key to enable us to learn 3D meshes without requiring object region annotations. In addition, it allows us to seamlessly introduce the possibility to learn transparent meshes, which we design to model a scene as a composition of a variable number of meshes.
Le but de cette thèse est de développer des approches d'intelligence artificielle (IA) pour analyser des collections d'images sans annotations. Des avancées dans ce domaine sont prometteuses pour des applications à fort impact reliées à la 3D (e.g., reconstruire une scène avec des composantes 3D manipulables pour les films d'animation ou les jeux vidéos) où annoter des exemples pour entrainer l'IA est difficile, et aussi pour des applications plus spécifiques (e.g., analyser l'évolution des charactères dans des documents du 12ème siècle) où employer des efforts conséquents pour annoter de larges bases de données pose question. L'idée centrale de cette dissertation est de construire des IA qui apprennent l'analyse d'une collection d'images en synthétisant ces mêmes images. Apprendre des modèles d'analyse par synthèse est difficile car cela nécessite la conception d'un système de génération d'images apprenable qui exhibite explicitement l'analyse voulue. Pour atteindre notre but, nous présentons trois contributions clés.La première contribution de cette thèse est une nouvelle approche conceptuelle à la modélisation de catégorie. Nous proposons de représenter la catégorie d'une image, d'un objet 2D ou d'une forme 3D, avec un prototype qui est transformé via appprentissage profond pour modéliser les différentes instances au sein de la catégorie. Plus spécifiquement, nous introduisons des transformations paramétriques concrètes (e.g., des déformations géométriques ou des variations de couleurs) et utilisons des réseaux de neurones pour prédire les paramètres de transformations nécessaires pour instancier le prototype pour une image donnée. Nous démontrons l'efficacité de cette idée en regroupant des images et reconstruisant des objets 3D à part d'images d'une seule vue de l'objet. Nous obtenons des performances égales aux meilleures méthodes qui utilisent des représentations d'image ad-hoc ou des annotations.La deuxième contribution est une nouvelle manière de découvrir des éléments dans une collection d'images. Nous proposons de représenter une collection d'images par un ensemble d'éléments apprennables, composés pour synthétiser les images et optimisés par descente de gradient. Nous démontrons l'efficacité de cette idée en découvrant des éléments 2D reliées à des objets sémantiques représentés dans la collection d'images. Notre approche a des performances semblables aux meilleures méthodes qui synthétisent les images par réseaux de neurones, et est plus interprétable. Nous démontrons aussi son efficacité en découvrant des éléments 3D reliées à des formes primitives étant donnée une collection d'images illustrant une scène via différents points de vue. Comparé aux travaux précédents calculant des primitives dans des nuages de points 3D, nous obtenons des résultats qualitatifs et quantitatifs supérieurs.La troisième contribution est plus technique et consiste en une nouvelle formulation pour calculer le rendu differentiable d'un mesh. Plus spécifiquement, nous formulons le rendu différentiable d'un mesh 3D comme l'alpha composition des faces du mesh par ordre de profondeur croissante. Comparée aux travaux précédents, cette formulation est clé pour apprendre des meshes 3D sans utiliser des annotations représentant les régions d'objet. En outre, cette formulation nous permet de facilement introduire la possibilité d'apprendre des meshes transparents, que nous modélisons pour représenter une scène comme une composition d'un nombre variable de meshes.
Fichier principal
Vignette du fichier
TH2023ENPC0037.pdf (30.37 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04579456 , version 1 (17-05-2024)

Identifiants

  • HAL Id : tel-04579456 , version 1

Citer

Tom Monnier. Unsupervised image analysis by synthesis. Computation and Language [cs.CL]. École des Ponts ParisTech, 2023. English. ⟨NNT : 2023ENPC0037⟩. ⟨tel-04579456⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More