Stable feature selection for multi-locus Genome-Wide Association Studies - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2022

Stable feature selection for multi-locus Genome-Wide Association Studies

Sélection stable de variables pour les études d'association génome entier

Asma Nouira
  • Fonction : Auteur
  • PersonId : 1186194
  • IdRef : 265004624

Résumé

Genome-Wide Association Studies, or GWAS, aim at finding Single Nucleotide Polymorphisms (SNPs) that are associated with a phenotype of interest. GWAS are known to suffer from the large dimensionality of the data with respect to the number of available samples. Many challenges limiting the identification of causal SNPs such as dependency between SNPs, due to linkage disequilibrium (LD), the population stratification and the low of statistical of univariate analysis. Machine learning models based on multivariate analysis contribute to advance research in GWAS. Hence, feature selection models reduce the dimensionality of data by keeping only the relevant features associated with disease. However, these methods lack of stability, that is to say, robustness to slight variations in the input dataset. This major issue can lead to false biological interpretation. Hence, we focus in this thesis on evaluating and improving the stability as it is an important indicator to trust feature selection discoveries. In this thesis, we develop two efficient novel methods (multitask group lasso and sparse multitask group lasso) for the multivariate analysis of multi-population GWAS data based on a two multitask group Lasso formulations. Each task corresponds to a subpopulation of the data, and each group to an LD-block. This formulation alleviates the curse of dimensionality, and makes it possible to identify disease LD-blocks shared across populations/tasks, as well as some that are specific to one population task. In addition, we use stability selection to increase the robustness of our approach. Finally, gap safe screening rules speed up computations enough that our method can run at a genome-wide scale. By analyzing several data including breast cancer dataset, the efficiency of the developed models was demonstrated in discovering new risk genes related to disease.
Les études d’association pangénomiques, ou les GWAS ont pour objectif de détecter des polymorphismes nucléotidiques (SNPs) associés à un phénotype d’intérêt. Parmi ses défis, le problème de la grande dimensionnalité des données qui se manifeste par le faible nombre d’échantillons disponibles. D’autres facteurs limitants incluent notamment la corrélation entre les SNPs, à cause du déséquilibre de liaison (LD), la structure de la population, c’est-à-dire, la confusion due à l’ascendance génétique et la faible puissance statistique en détectant un nombre limité de SNPs significatifs. Les modèles d’apprentissage automatique basés sur l’analyse multivariée contribue à avancer la recherche en GWAS. Par conséquent, les modèles de sélection de variables réduisent la dimensionnalité des données en ne conservant que les variables pertinentes. Cependant, ces méthodes manquent de la stabilité, c’est-à-dire de la robustesse suite à des légères variations dans le jeu de données d’entrée, ce qui peut conduire à une fausse interprétation biologique. Par conséquent, nous nous concentrons dans cette thèse sur l’évaluation et l’amélioration de la stabilité de sélection comme il s’agit d’un indicateur important pour avoir de la confiance aux SNPs découverts. Dans cette thèse, nous développons deux nouvelles méthodes efficaces (multitask group lasso et sparse multitask group lasso) basées sur l’analyse multivariée de Lasso sur des données multi-populations. Chaque tâche correspond à une sous-population des données et chaque groupe à un LD-groupe. Cette formulation atténue le problème de fléau de la dimension et permet d’identifier des LD-groupes pertinents partagés entre les populations/tâches, ainsi que certains LD-groupes qui sont spécifiques à une population/tâche. De plus, nous utilisons la sélection de stabilité pour augmenter la robustesse de nos approches. Enfin, les règles "Gap Safe Screening Rules" accélèrent les calculs en permettant à nos méthodes de fonctionner à l’échelle génomique. En analysant plusieurs données, dont un ensemble de données sur le cancer du sein, l’efficacité des modèles développés a été démontrée dans la découverte de nouveaux gènes à risque liés à la maladie.
Fichier principal
Vignette du fichier
2022UPSLM024_archivage.pdf (5.61 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03850681 , version 1 (14-11-2022)

Identifiants

  • HAL Id : tel-03850681 , version 1

Citer

Asma Nouira. Stable feature selection for multi-locus Genome-Wide Association Studies. Bioinformatics [q-bio.QM]. Université Paris sciences et lettres, 2022. English. ⟨NNT : 2022UPSLM024⟩. ⟨tel-03850681⟩
111 Consultations
92 Téléchargements

Partager

Gmail Facebook X LinkedIn More