Inferring the 3D architecture of the genome - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2015

Inferring the 3D architecture of the genome

Inférence de la structure tri-dimensionnelle du génome

Nelle Varoquaux

Résumé

The structure of DNA, chromosomes and genome organization is a topic that has fascinated the field of biology for many years. Most research focused on the one-dimensional structure of the genome, studying the linear organizations of genes and genomes and their link with gene expression and regulation, splicing, DNA methylation… Yet, spatial and temporal three-dimensional genome architecture is also thought to play an important role in many genomic functions. Chromosome conformation capture (3C) based methods, coupled with next generation sequencing (NGS), allow the measurement, in a single experiment, of genome wide physical interactions between pairs of loci, thus enabling to unravel the secrets behind 3D organization of genomes. These new technologies have paved the way towards a systematic and genome wide analysis of how DNA folds into the nucleus and opened new avenues to understanding many biological processes, such as gene regulation, DNA replication and repair, somatic copy number alterations and epigenetic changes. Yet, 3C technologies, as any new biotechnology, now poses important computational and theoretical challenges for which mathematically well grounded methods need to be developped. The first chapter is dedicated to developping a robust and accurate method to infer a 3D model of the genome from Hi-C data. Previous methods often formulated the inference as an optimization problem akin to multidimensional scaling (MDS) based on an ad hoc conversion of contact counts into euclidean wish distances. Chromosomes are modeled with a beads-on-a-string model, and the methods attempt to place the beads in a 3D euclidean space to fullfill a number of, often non convex, constraints and such that the pairwise distances between beads are as close as possible to the corresponding wish distances. These approaches rely on dubious hypotheses to convert contact counts into wish distances, challenging the accuracy of the final 3D model. Another limitation is the MDS formulation which is only intuitively motivated, and not grounded on a clear statistical model. To alleviate these problems, our method models contact counts as a Poisson distribution where the intensity is a decreasing function of the spatial distance between elements interacting. We then formulate the 3D structure inference as a maximum likelihood problem. We demonstrate that our method infers robust and stable models across resolutions and datasets. The second chapter focuses on the genome architecture of the P. falciparum, a small parasite responsible for the deadliest and most virulent form of human malaria. This project was biologically driven and aimed at understanding whether and how the 3D structure of the genome related to gene expression and regulation at different time points in the complex life cycle of the parasite. In collaboration with the Le Roch lab and the Noble lab, we built 3D models of the genome at three time points which resulted in a complex genome architecture indicative of a strong association between the spatial genome and gene expression. The last chapter tackles a very different question, also based on 3C-based data. Initially developped to probe the 3D architecture of the chromosomes, Hi-C and related techniques have recently been re-purposed for diverse applications: de novo genome assembly, deconvolution of metagenomic samples and genome annotations. We describe in this chapter a novel method, Centurion, that jointly infers the locations of all centromeres in a single yeast genome from Hi-C data, using the centromeres' tendency to strongly colocalize in the nucleus. Indeed, centromeres are essential for proper chromosome segregation, yet, despite extensive research, centromere locations are unknown for many yeast species. We demonstrate the robustness of our approach on datasets with low and high coverage on well annotated organisms. We then predict centromere coordinates for 6 yeast species that currently lack those annotations.
La structure de l'ADN, des chromosomes et l'organisation du génome sont des sujets fascinants du monde de la biologie. La plupart de la recherche s'est concentrée sur la structure unidimensionnelle du génome, étudiant comment les gènes et les chromosomes sont organisés, et le lien entre l'organisation unidimensionnelle et la régulation des gènes, l'épissage, la méthylation… Cependant, le génome est avant tout organisé dans un espace euclidien tridimensionnel, et cette structure 3D, bien que moins étudiée, joue elle aussi un rôle important dans la fonction génomique de la cellule. La capture de la conformation des chromosomes (3C) et les méthodes qui en sont dérivées, associées au séquençage à haut débit (NGS) mesurent désormais en une seule expérience des interactions physiques entre paire de loci sur tout le génome, permettant ainsi aux chercheurs de découvrir les secrets de l'organisation des génomes. Ces nouvelles technologies ouvrent la voie à des études systématiques et globales sur le repliement de l'ADN dans le noyau. Cependant, ces nouvelles méthodes 3C, comme toute nouvelle technologie, sont accompagnées de nombreux défis computationnels et théoriques. Le premier chapitre est dédié au développement d'une méthode robuste et précise pour inférer un modèle tridimensionnel à partir de données Hi-C. Notre méthode modélise les fréquences d'interaction comme une distribution de Poisson dont l'intensité est une fonction de la distance euclidienne entre paires de loci : nous formulons ainsi l'inférence de la structure 3D comme un problème de maximum de vraisemblance. Nous montrons que notre méthode infère des modèles plus robustes et plus stables selon les données et les résolutions de celles-ci. Le deuxième chapitre est consacré à l'étude de l'architecture du P. falciparum, un petit parasite responsable de la forme la plus virulente et mortelle de la malaria. Ce projet, dont l'objectif était avant tout de répondre à une question biologique, cherchait à comprendre comment l'architecture 3D du génome du P. falciparum est liée à l'expression et la régulation des gènes à différent moments du cycle cellulaire du parasite. En collaboration avec les équipes de K. Le Roch et de W. Noble, spécialisées respectivement dans l'étude du P. falciparum, et dans le développement de méthode computationnelle pour étudier, entre autre, la structure 3D du génome, nous avons construit des modèles de l'organisation du génome à trois moments du cycle cellulaire du parasite. Ceux-ci révèlent que le génome est replié dans le noyau dans une structure complexe, où de nombreux éléments génomiques colocalisent : centromères, télomères… Cette architecture indique une forte association entre l'organisation spatiale du génome et l'expression des gènes. Le dernier chapitre répond à une question très différente, mais aussi liée à l'étude des données 3C. Celles-ci, initialement développées pour étudier la structure tridimensionnelle du génome, ont été récemment utilisées pour des applications très diverses : l'assemblage de génomes de novo, la déconvolution d'échantillons métagénomiques et l'annotation de génomes. Nous décrivons dans ce chapitre une nouvelle méthode, Centurion, qui infère conjointement la position de tous les centromères d'un organisme, en utilisant la propriété qu'ont les centromères à colocaliser dans le noyau. Cette méthode est donc une alternative aux méthodes de détection de centromères classiques, qui, malgré des années de recherche et un enjeu économique certain, n'ont pu identifier la position des centromères dans un certain nombre d'espèces de levure.
Fichier principal
Vignette du fichier
2015ENMP0059_archivage.pdf (29.14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-01306953 , version 1 (25-04-2016)

Identifiants

  • HAL Id : tel-01306953 , version 1

Citer

Nelle Varoquaux. Inferring the 3D architecture of the genome. Bioinformatics [q-bio.QM]. Ecole Nationale Supérieure des Mines de Paris, 2015. English. ⟨NNT : 2015ENMP0059⟩. ⟨tel-01306953⟩
603 Consultations
333 Téléchargements

Partager

Gmail Facebook X LinkedIn More