Intégration d’annotations fonctionnelles dans des modèles de prédiction génomique bayésiens

Fanny Mollandin

Résumé

The widespread availability and decreasing costs of high-throughput genotyping and genomic sequencing technologies have paved the way for genomic evaluation methods, which have accelerated the implementation of genomic evaluation in breeding for many species. Genomic evaluation methods share a common goal of accurately estimating a phenotype or breeding value based on the effects of a set of single nucleotide polymorphisms (SNPs), i.e. variations of one nucleotide on the genome. Bayesian prediction models were quickly adopted, capable of simultaneously assessing the effects of SNPs, while being flexible. They also have the advantage of being able to incorporate information on the distribution of SNPs by their a prior distribution.A potential avenue for improvement of these models lies in the prioritisation of potentially causal SNPs. To this end, several international actions and projects, including the European GENE-SWitCH project, have recently begun to focus major efforts on better characterising the intermediate functional processes linking genotypes to quantitative phenotypes. In particular, the aim is to complement genotyping data with functional annotation data, such as methylation level or chromatin accessibility in several tissues and at relevant developmental stages, to better identify causal SNPs. A major challenge in exploiting these functional data is to manage their heterogeneity and complexity.In this thesis project, the objective is to develop and validate Bayesian genomic prediction models capable of weighting SNPs according to the information extracted from these functional annotations. We aim at both a better predictive capacity and a better interpretability of the results. To this end, we have extended the BayesRC model, in which SNP signals are partitioned according to a disjoint categorisation, to be able to use heterogeneous and overlapping annotation data. We propose two new models, BayesRCπ and BayesRC+, based on stochastic or cumulative modelling of multiple annotations, respectively, in order to consider multi-annotated SNPs. These models have been applied to simulated and real data, and several ways of constructing and interpreting annotations have been proposed.

La disponibilité généralisée et la baisse des coûts des technologies de génotypage à haut débit et de séquençage génomique ont ouvert la voie à des méthodes d'évaluation génomique, qui ont accéléré la mise en œuvre de l'évaluation génomique dans l'élevage pour de nombreuses espèces. Les méthodes d'évaluation génomique partagent un objectif commun, à savoir estimer avec précision un phénotype ou une valeur d'élevage estimée à partir des effets d'un ensemble de polymorphismes nucléotidiques (single nucleotide polymorphisms ; SNP), c’est-à-dire de variations d’un nucléotide sur le génome. Les modèles de prédiction bayésiens ont rapidement été adoptés, capable d’évaluer simultanément les effets des SNPs, tout en étant flexibles. Ils ont aussi l’avantage de pouvoir incorporer des informations sur la distribution des SNPs par leur loi a priori.Une piste d'amélioration potentielle de ces modèles réside dans la hiérarchisation des SNPs potentiellement causaux. À cette fin, plusieurs actions et projets internationaux, dont le projet européen GENE-SWitCH, ont récemment commencé à concentrer des efforts importants pour mieux caractériser les processus fonctionnels intermédiaires reliant les génotypes aux phénotypes quantitatifs. En particulier, l'objectif est de compléter les données de génotypage par des données d'annotation fonctionnelle, telles que le niveau de méthylation ou l'accessibilité de la chromatine dans plusieurs tissus et à des stades de développement pertinents, afin de mieux identifier les SNP causaux. Un défi majeur dans l'exploitation de ces données fonctionnelles réside dans la gestion de leur hétérogénéité et de leur complexité.Dans ce projet de thèse, l’objectif est de développer et de valider des modèles bayésiens de prédiction génomique capables de pondérer les SNPs en fonction des informations extraites de ces annotations fonctionnelles. Nous visons à la fois une meilleure capacité prédictive et une meilleure interprétabilité des résultats. Dans ce but, nous avons étendu le modèle BayesRC, dans lesquelles les signaux des SNPs sont partitionnés en fonction d’une catégorisation disjointe, pour pouvoir utiliser des données d’annotations hétérogènes et chevauchantes. Nous proposons deux nouveaux modèles, BayesRCπ et BayesRC+, respectivement reposant sur une modélisation stochastique ou cumulative des annotations multiples, afin de prendre en considération les SNPs multi-annotés. Ces modèles ont été appliqués à des données simulées et réelles, et plusieurs façons de construire et d’interpréter les annotations ont été proposés.

ncorporation functional annotations into Bayesian genomic prediction models

Intégration d’annotations fonctionnelles dans des modèles de prédiction génomique bayésiens

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager