Deep learning methods for visual content creation and understanding - Archive ouverte HAL Access content directly
Theses Year : 2021

Deep learning methods for visual content creation and understanding

Les méthodes d'apprentissage profond pour la création et la compréhension du contenu visuel

(1)
1

Abstract

The goal of this thesis is to develop algorithms to help visual artists create and manipulate images easily with deep learning and computer vision tools. AI advances, in particular generative models, have enabled new possibilities that can be leveraged in the artistic domain to simplify the manipulation of digital visual content, and assist artists in finding inspiring ideas. Progress in this domain could democratize the access to visual content manipulation software, which still requires time, money and expert skills.The first contribution of this thesis is the introduction of two methods for generating novel and surprising images: one for generating new fashion designs and one for creating unexpected visual blends. First, we show how generative adversarial networks can be used as an inspirational tool for fashion designers to create realistic and novel designs. While most image generation models aim to generate realistic images that cannot be differentiated from the real ones, they tend to reproduce the training examples. We instead focus on designing models that encourage novelty and surprise in the generated images.Second, we develop a visual blending model that allows the generation of compositions by blending objects in uncommon contexts based on visual similarity. Using recent advances in image retrieval, completion and blending, our simple model provides realistic and surprising visual blends. We study how the selection of the foreground object influences its novelty and realism.In the rest of the thesis, we focus on improving the image generation methods presented by exploring how generative models can be extended to resolution independent image generation and by studying the quality of image features used in image retrieval from a training data perspective.The second contribution is a new layered image decomposition and generation model aimed at representing images in a resolution independent and easily editable way.Generating higher resolution images is challenging from a training time and stability perspectives.To alleviate these difficulties, we design the first deep learning based image generation model using vector mask layers.We frame vector mask generation using a parametric function (multi-layer perceptron) applied on a regular coordinate grid to obtain mask values at input pixel positions.Our model reconstructs images by predicting vector masks and their corresponding colors then iteratively blends colored masks.We train our model to reconstruct natural images, from face images to more diverse ones, we show how our model captures interesting mask embeddings that can be used for image editing and vectorization. Furthermore, we present an adversarially trained setup of our vector image generation model.The third contribution is focused on image retrieval and few-shot classification. Indeed, a large part of the artistic work and effort when creating visual blends is searching for relevant images to use. To simplify this tedious step of image search, deep features can be used as similarity measures to retrieve images. While there has been consequent work on learning image representations for image classification, and particularly using self-supervised techniques, the impact of the training dataset on the quality of learned features has not been extensively explored. Thus, we study the impact of the base dataset composition on the quality of features from a few-shot classification perspective. We show that designing the base training dataset is crucial for improving the features for few-shot classification performance. For instance, a careful dataset relabeling allows to increase the performance considerably using a simple competitive baseline model
L'objectif de cette thèse et de développer des algorithmes capables d'aider les artistes visuels à créer et éditer facilement des images avec les outils du l'apprentissage profond et de la vision par ordinateur. Les avancées de l'IA, en particulier les modèles génératifs, ont permis de nouvelles possibilités qui peuvent être utilisées dans le domaine artistique afin de simplifier la manipulation des contenus visuels et d'assister les artistes à trouver des idées inspirantes. La première contribution de cette thèse est l'introduction de deux méthodes pour générer des images nouvelles et surprenantes : une pour générer de nouveaux designs de mode et une pour créer des mélanges visuels. Premièrement, dans la génération d'images de mode, nous montrons en particulier comment les réseaux génératifs adversaires peuvent être utilisés comme un outil d'inspiration pour les créateurs de mode pour créer des designs réalistes et novateurs. Deuxièmement, nous développons un nouveau modèle de collage qui permet la génération de compositions en mélangeant des objets dans des contextes inhabituels basés sur la similarité visuelle. Dans le reste de la thèse, nous nous concentrons sur l'amélioration des méthodes de génération proposées dans la première partie. Tout d'abord, nous explorons une extension des modèles génératifs à la génération d'images à résolution indéfinie. Ensuite, nous étudions la qualité des représentations d'images pour la recherche d'images par rapport à la base d'images d'entraînement. La deuxième contribution est un nouveau modèle de décomposition et de génération d'images en couches visant à représenter les images d'une manière indépendante de la résolution. La génération d'images à plus haute résolution est un défi du point de vue du temps et de la stabilité de l'entraînement. Pour pallier ces difficultés, nous concevons le premier modèle de génération d'images basé sur l'apprentissage profond utilisant des couches de masques vectoriels. La troisième contribution est centrée sur la recherche d'images et la classification à partir de peu d'exemples. En effet, une grande partie du travail et de l'effort artistique lors de la création de mélanges visuels consiste à rechercher des images pertinentes à utiliser. Pour simplifier cette étape fastidieuse de recherche d'images, des représentations profondes d'images peuvent être utilisées comme mesures de similarité pour récupérer des images
Fichier principal
Vignette du fichier
TH2021ENPC0020.pdf (31.84 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03467925 , version 1 (06-12-2021)

Identifiers

  • HAL Id : tel-03467925 , version 1

Cite

Othman Sbai. Deep learning methods for visual content creation and understanding. Artificial Intelligence [cs.AI]. École des Ponts ParisTech, 2021. English. ⟨NNT : 2021ENPC0020⟩. ⟨tel-03467925⟩
149 View
38 Download

Share

Gmail Facebook Twitter LinkedIn More