3D geometry-based neural camera pose estimation

Hugo Germain

Résumé

Vision-based absolute camera pose estimation, also known as visual localization, is an underpinning backbone to many computer vision applications, such as augmented or virtual reality, robotics and autonomous driving. When working with crowdsourced images captured under challenging conditions, visual disturbances are frequently encountered. These perturbations make visual localization a very hard -and so far unsolved- problem. The goal of this thesis is to develop models that can improve the performance of absolute camera pose algorithms. The first part of this thesis focuses on the task of matching 2D keypoints against a 3D model, which is a commonly used building block to structure-based visual localization approaches. We propose a novel keypoint matching paradigm which explicitly models dense keypoint matching uncertainties in images, and finds it improves over state-of-the-art keypoint matching methods. Then, we introduce a novel reprojection error to merge feature learning and absolute camera pose estimation, which we call the Neural Reprojection Error. Our formulation reuses the previously introduced dense matching uncertainties to significantly improve the camera pose estimation accuracy, compared to standard approaches. This formulation is also data-driven and thus helps us avoid cumbersome hyperparameter optimization. The last contribution of this thesis is to study the problem of visual correspondence hallucination. We train a deep learning model to regress matching distributions in non-covisible image areas (i.e. that are either occluded or fall outside of the image boundaries). We show our model is not only able to make such predictions, but that when coupled with the Neural Reprojection Error it significantly outperforms existing absolute camera pose estimation methods, when presented with very low-overlap image pairs.

L'estimation de pose absolue de caméra basée sur la vision, également connue sous le nom de localisation visuelle, est l'épine dorsale de nombreuses applications de vision par ordinateur, telles que la réalité augmentée ou virtuelle, la robotique ou la conduite autonome. Lorsque l'on travaille avec des images naturelles capturées dans des conditions changeantes, on encontre fréquemment des perturbations visuelles. Ces perturbations font de la localisation visuelle un problème très difficile - et jusqu'à présent non résolu. L'objectif de cette thèse est de développer des modèles pouvant améliorer la performance des algorithmes d'estimation de pose absolue de caméra. La première partie de cette thèse se concentre sur la mise en correspondance de points d'intérêt 2D avec un modèle 3D, qui est un élément communément utilisé dans les approches de localisation visuelle basées sur la géométrie 3D. Nous présentons un nouveau paradigme d'appariement de points d'intérêt qui modélise explicitement les incertitudes de mise en correspondance de manière dense dans les images. Nos expériences montrent que cette approche permet d'améliorer l'état de l'art en estimation de pose absolue de caméra. Puis, nous introduisons une nouvelle erreur de reprojection pour fusionner l'apprentissage des caractéristiques d'une image et l'estimation de la pose absolue de la caméra, appelée "Neural Reprojection Error". Notre formulation réutilise les incertitudes d'appariement dense introduites précédemment pour améliorer la précision de l'estimation de la pose, en comparaison aux approches standard. Cette formulation a l'avantage d'être basée sur les données d'apprentissage uniquement, et nous permet d'éviter une optimisation fastidieuse des hyperparamètres. La dernière contribution de cette thèse consiste à étudier le problème de l'hallucination de correspondance visuelle. Nous entraînons un réseau de neurone profond pour prédire des distributions de correspondance dans des zones d'image non co-visibles (i.e. qui sont soit occultées, soit en dehors des limites de l'image). Nos expériences démontrent que notre modèle est non seulement capable de faire de telles prédictions, mais que lorsqu'il est couplé à la "Neural Reprojection Error", il surpasse de manière significative les méthodes existantes d'estimation de pose absolue de caméra sur des paires d'images à très faible recouvrement.

3D geometry-based neural camera pose estimation

Estimation neuronale de pose de caméra basée sur la géométrie 3D

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager