Machine Learning Methods for Molecular Dynamic Simulations

Zineb Belkacemi

Résumé

With the continually improving computational capacity of computers, machine learning methods have provided novel solutions to problems in a variety of fields. In particular, machine learning has been extensively used in the last decade in the field of computational biochemistry and drug discovery in virtually all stages, such as defining new molecules, determining important sites in targeted proteins, designing adequate forcefields based on experimental results, or improving the efficiency of sampling molecular conformations of a given system. This thesis focuses on the latter task of using machine learning methods for enhanced sampling in molecular dynamics. Molecular Dynamics (MD) simulations have proven to be a very useful complementary tool to experiments. Despite their wide use to capture fast occurring phenomena, there are still many cases where the time scales accessible to MD simulations are far smaller than the time scales needed for the observation of important conformational changes of the system, due to the presence of high energy barriers. Free energy biasing methods have proven to be powerful tools to to accelerate the observation of such changes by modifying the sampling measure. However, most of these methods rely on the prior knowledge of low-dimensional slow degrees of freedom, i.e. collective variables. Alternatively, such low dimensional mappings can be identified using machine learning and dimensionality reduction algorithms. In addition to being used to accelerate sampling, the learned collective variables can also help acquire valuable insight into the studied system, namely by facilitating the visualization of the different states of the system, as well as its free energy landscape. In this work, important notions and definitions of molecular dynamics are first presented before reviewing state of the art machine learning algorithms which were devised or applied in the recent years for automatic collective variable discovery and enhanced sampling. Then, the method developed during this thesis, coined "free energy biasing and machine learning with autoencoders" (FEBILAE), is introduced. This method uses an iterative scheme to alternately generate new simulations and learn collective variables from these simulations using autoencoders. Finally, we present the application of machine learning methods to a real system of interest. Here, autoencoders are used to learn collective variables to perform biased simulations of the heat shock 90 (HSP90) chaperone protein.

Avec l’amélioration continue de la capacité de calcul des ordinateurs, les méthodes d’apprentissage automatique ont permis le développement de nouvelles solutions aux problèmes dans divers domaines. En particulier, l’apprentissage automatique a été largement utilisé au cours de la dernière décennie dans le domaine de la biochimie computationnelle et de la découverte et développement de nouveaux médicaments. Cela inclut l’application de méthodes d’apprentissage automatique pour la définition de nouvelles molécules, la détermination de sites importants dans les protéines ciblées, la conception de champs de force adéquats fondés sur des résultats expérimentaux ou encore l’amélioration de l’efficacité de l’échantillonnage des conformations moléculaires d’un système donné. Cette thèse de doctorat se concentre sur la dernière tâche consistant à utiliser des méthodes d’apprentissage automatique pour améliorer l’échantillonnage en dynamique moléculaire. En effet, les simulations de dynamique moléculaire se sont avérées être un outil très utile en complément des expériences en laboratoire. Malgré leur large utilisation pour capturer les phénomènes rapides, il existe encore de nombreux cas où les échelles de temps accessibles aux simulations de dynamique moléculaire sont bien plus petites que les échelles de temps nécessaires pour l’observation des changements conformationnels importants du système, en raison de la présence de barrières hautes dans le profil énergétique. Les méthodes de biaisage par l’énergie libre se sont avérées être des outils puissants pour accélérer l’observation de tels changements en modifiant la mesure d’échantillonnage. Cependant, la plupart de ces méthodes s’appuient sur la connaissance préalable de variable collective du système, c’est-à-dire des degrés de liberté de faible dimension représentant les directions lentes du système moléculaire. Ces variables collectives peuvent être identifiées à l’aide d’algorithmes d’apprentissage automatique et de réduction de dimensionalité. En plus d’être utilisées pour accélérer l’échantillonnage, les variables collectives construites par apprentissage automatique aident également à acquérir une connaissance précieuse du système étudié, à savoir en facilitant la visualisation de ses différents états, ainsi que de son profil d’énergie libre. Dans ce travail, d’importantes notions et définitions de la dynamique moléculaire sont d’abord présentées avant de passer en revue les algorithmes d’apprentissage automatique de pointe qui ont été conçus ou appliqués ces dernières années pour la construction automatique de variables collectives. Ensuite, la méthode développée au cours de cette thèse, baptisée "Free energy biasing and machine learning with autoencoders" (FEBILAE), est introduite. Cette méthode utilise un schéma itératif pour générer alternativement de nouvelles simulations et apprendre les variables collectives à partir de ces simulations en utilisant des autoencodeurs. Enfin, nous présentons l’application de méthodes d’apprentissage automatique à un véritable système d’intérêt. Ici, des autoencodeurs sont utilisés pour apprendre les variables collectives de la protéine chaperone HSP90, dans le but d’effectuer des simulations biaisées de ce système.

Machine Learning Methods for Molecular Dynamic Simulations

Méthodes d'apprentissage en simulation moléculaire

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Lien texte intégral

Citer

Exporter

Collections

Partager