On the coupling of deep reinforcement learning and computational fluid dynamics

Hassan Ghraieb

Résumé

This thesis gauges the relevance of deep reinforcement learning (DRL) techniques for the optimal control of fluid mechanical systems. Reinforcement learning (RL) is the process by which an agent learns by trial and error interactions with its environment the succession of actions maximizing its cumulative reward over time. In a deep reinforcement learning context (deep RL or DRL), the agent is a deep neural network based on the neural circuits formed by neurons in the human brain. The coupling between state-of-the-art DRL algorithms and computational fluid dynamics (CFD) solvers and their implementation in a high performance computing context make for the novelties and main objective of the thesis. The CFD resolution framework used to compute the reward provided to the DRL agent relies on the Variational Multiscale (VMS) stabilized finite element method. The latter introduces an a priori decomposition of the numerical solution into large and small-scale components, the general picture being that only the large scales and resolved at the discrete level, while the effect of the small scales is modeled after consistently derived source terms proportional to the residual of the large scale solution. Regarding the DRL algorithms, two different frameworks are considered. The first one has the agent interact only once per episode with its environment to learn the mapping from a constant input state to an optimal action (hence, single-step episodes, and by extension, single-step DRL), and is thus relevant to open loop control, where a desired output is optimized under pre-determined actuation parameters (for instance, a constant inlet velocity). The second one has the agent interact multiple time per episode to learn a more complex state-action relation (hence, multi-step DRL) and is more relevant to closed-loop control, where the output is optimized by continuously adjusting the design parameters to flow measurements. Several test-cases in two and three dimensions (both in laminar and turbulent flow regimes) are successfully tackled and presented to assess the relevance, accuracy and performance of the proposed methodologies, with particular emphasis put on drag reduction and thermal control applications. The obtained results emphasize the high potential of the DRL-CFD framework, and are expected to contribute to further progress towards improved and faster design and control of industrial fluid mechanical systems.

Cette thèse évalue la pertinence des techniques d'apprentissage par renforcement profond (DRL) pour le contrôle optimal en mécaniques des fluides. L'apprentissage par renforcement (RL) est le processus par lequel un agent apprend par essai et erreur les actions à prendre de façon à optimiser une récompense quantitative au cours du temps. Dans un contexte d'apprentissage par renforcement profond (deep RL ou DRL), l'agent est un réseau de neurones profond imitant les circuits formés par les neurones du cerveau humain. Le couplage entre algorithmes DRL et les codes de mécanique des fluides numérique (CFD) à la pointe de l'état de l'art, ainsi que leur implémentation dans un contexte de calcul haute performance, constituent les nouveautés et l'objectif principal de la thèse. L'environnement CFD utilisé pour calculer la récompense fournie au DRL est basé sur la méthode des éléments finis stabilisés multi-échelles de type Variational Multiscale (VMS), dans laquelle la solution est décomposée a priori en une grande échelle résolue et une petite échelle modélisée au travers de termes sources proportionnels aux résidus des équations du problème grande échelle. En ce qui concerne les algorithmes DRL, deux approches différentes sont considérées. La première, dans laquelle l'agent interagit avec son environnement une fois par épisode dans le but d'apprendre le mapping d'un état d'entrée constant à une action optimale (single-step DRL), vise les problèmes de contrôle en boucle ouverte, dans lesquels une quantité est optimisée via des paramètres d'actuation pré-définis (par exemple, une vitesse d'entrée constante). La seconde, dans laquelle l'agent interagit plusieurs fois par épisode afin d'apprendre une relation état-action plus complexe (multi-step DRL), est plus pertinente pour les problèmes de contrôle en boucle fermée, où des mesures de l'écoulement sont utilisées afin d'ajuster en permanence les paramètres d'actuation. Plusieurs cas-tests en deux et trois dimensions (en régime d'écoulement laminaire et turbulent) sont présentés afin d'évaluer la pertinence, la précision et les performances de ces méthodes, en particulier pour les problèmes de réduction de traînée et de contrôle thermique. Les résultats obtenus soulignent le potentiel élevé de l'approche DRL-CFD devraient permettre d'accélérer le développement du DRL et son application à des problématiques concrètes d'intérêt industriel.

On the coupling of deep reinforcement learning and computational fluid dynamics

Sur le couplage de l'apprentissage par renforcement profond et de la mécanique des fluides numérique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager