Apprentissage par renforcement du contrôle d’un véhicule autonome à partir de la vision - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2021

End-to-end autonomous driving using deep reinforcement learning

Apprentissage par renforcement du contrôle d’un véhicule autonome à partir de la vision

Résumé

In this thesis, we address the challenges of autonomous driving in an urban environment using end-to-end deep reinforcement learning algorithms. Reinforcement learning (RL) is one of the three paradigms of machine learning. It distinguishes itself from supervised learning by the fact that agents learn by trial and error from a reward signal and not by supervision with input-label pairs. In reinforcement learning, we explicitly seek to optimize sequences of actions in order to maximize long-term behavior. The major advantage of RL is that the agent learns the behavior to be followed by exploring and interacting with his environment : we therefore do not need to explicitly indicate the actions to be taken. First, we proposed a new reinforcement algorithm, Rainbow-IQN Ape-X, by combining three major articles in the field of Value-based Reinforcement Learning. This algorithm achieves state-of-the-art performance on the Atari benchmark. Using this distributed reinforcement algorithm, we introduced a new method coined implicit affordances, which allows to train by reinforcement neural networks with more parameters and larger inputs than previous works in DRL. This technique allowed us to demonstrate for the first time a reinforcement algorithm capable of driving in a complex simulator including pedestrians, vehicles and especially traffic lights. Finally, we used all of our previous contributions to perform real data reinforcement learning for urban driving. The fundamental idea of our approach is to use a simulator based on real images to successfully train agents capable of generalizing to real data.
Dans cette thèse, nous abordons les défis de la conduite autonome en environnement urbain en utilisant des algorithmes d’apprentissage par renforcement profond de bout-en-bout, i.e. des données brutes des capteurs jusqu’au contrôle des actuateurs du véhicule. L’apprentissage par renforcement (RL) est un des trois grands paradigmes de l’apprentissage automatique. Il se distingue de l’apprentissage supervisé par le fait que les agents apprennent par essai-erreur à partir d’un signal de récompense et non pas par simple supervision avec des paires entrée-label comme pour l’apprentissage supervisé, le type d’apprentissage le plus utilisé aujourd’hui dans les applications d’intelligence artificielle. Dans l’apprentissage par renforcement, on cherche explicitement à optimiser des séquences d’actions afin de maximiser le comportement à long terme. L’intérêt majeur du RL est que l’agent apprend de lui-même le comportement à suivre en explorant et en interagissant avec son environnement : on n’a donc pas besoin d’indiquer explicitement les actions à prendre. Dans un premier temps, nous avons proposé un nouvel algorithme de renforcement fondé sur la fonction de valeur, Rainbow-IQN Ape-X, en combinant trois articles majeurs du domaine. Cet algorithme atteint des performances au niveau de l’état de l’art sur le benchmark Atari. En utilisant cet algorithme de renforcement distribué, nous avons introduit les indices implicites, une nouvelle méthode permettant d’entraîner par renforcement des réseaux de neurones avec bien plus de paramètres et des entrées de plus grande dimension que les travaux précédents en DRL. Cette technique nous a ainsi permis de démontrer pour la première fois un algorithme de renforcement capable de conduire dans un simulateur complexe incluant des piétons, des véhicules et surtout des feux tricolores. Finalement, nous avons utilisé toutes nos contributions précédentes pour effectuer de l’apprentissage par renforcement sur données réelles pour de la conduite en environnement urbain. L’idée fondamentale de notre approche est d’utiliser un simulateur fondé sur des images réelles pour réussir à entraîner des agents capables de généraliser aux données réelles.
Fichier principal
Vignette du fichier
2021UPSLM020.pdf (31.85 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03347567 , version 1 (17-09-2021)

Identifiants

  • HAL Id : tel-03347567 , version 1

Citer

Marin Toromanoff. Apprentissage par renforcement du contrôle d’un véhicule autonome à partir de la vision. Robotique [cs.RO]. Université Paris sciences et lettres, 2021. Français. ⟨NNT : 2021UPSLM020⟩. ⟨tel-03347567⟩
597 Consultations
794 Téléchargements

Partager

Gmail Facebook X LinkedIn More