Deciphering splicing with sparse regression techniques in the era of high-throughput RNA sequencing. - Archive ouverte HAL Access content directly
Theses Year : 2016

Deciphering splicing with sparse regression techniques in the era of high-throughput RNA sequencing.

Etude de l'épissage grâce à des techniques de régression parcimonieuse dans l'ère du séquençage haut débit de l'ARN

(1)
1
Elsa Bernard
  • Function : Author
  • PersonId : 773318
  • IdRef : 223349038

Abstract

The number of protein-coding genes in a human, a nematodeand a fruit fly are roughly equal.The paradoxical miscorrelation between the number of genesin an organism's genome and its phenotypic complexityfinds an explanation in the alternative natureof splicing in higher organisms.Alternative splicing largely increases the functionaldiversity of proteins encoded by a limitednumber of genes.It is known to be involved incell fate decisionand embryonic development,but also appears to be dysregulatedin inherited and acquired human genetic disorders,in particular in cancers.High-throughput RNA sequencing technologiesallow us to measure and question splicingat an unprecedented resolution.However, while the cost of sequencing RNA decreasesand throughput increases,many computational challenges arise from the discrete and local nature of the data.In particular, the task of inferring alternative transcripts requires a non-trivial deconvolution procedure.In this thesis, we contribute to deciphering alternative transcript expressions andalternative splicing events fromhigh-throughput RNA sequencing data.We propose new methods to accurately and efficientlydetect and quantify alternative transcripts.Our methodological contributionslargely rely on sparse regression techniquesand takes advantage ofnetwork flow optimization techniques.Besides, we investigate means to query splicing abnormalitiesfor clinical diagnosis purposes.We suggest an experimental protocolthat can be easily implemented in routine clinical practice,and present new statistical models and algorithmsto quantify splicing events and measure how abnormal these eventsmight be in patient data compared to wild-type situations.
Le nombre de gènes codant pour des protéines chez l’'homme, le vers rond et la mouche des fruits est du même ordre de grandeur. Cette absence de correspondance entre le nombre de gènes d’un eucaryote et sa complexité phénotypique s’explique en partie par le caractère alternatif de l’épissage.L'épissage alternatif augmente considérablement le répertoire fonctionnel de protéines codées par un nombre limité de gènes. Ce mécanisme, très actif lors du développement embryonnaire, participe au devenir cellulaire. De nombreux troubles génétiques, hérités ou acquis (en particulier certains cancers), se caractérisent par une altération de son fonctionnement.Les technologies de séquençage à haut débit de l'ARN donnent accès a une information plus riche sur le mécanisme de l’épissage. Cependant, si la lecture à haut débit des séquences d’ARN est plus rapide et moins coûteuse, les données qui en sont issues sont complexes et nécessitent le développement d’outils algorithmiques pour leur interprétation. En particulier, la reconstruction des transcrits alternatifs requiert une étape de déconvolution non triviale.Dans ce contexte, cette thèse participe à l'étude des événements d'épissage et des transcrits alternatifs sur des données de séquençage à haut débit de l'ARN.Nous proposons de nouvelles méthodes pour reconstruire et quantifier les transcrits alternatifs de façon plus efficace et précise. Nos contributions méthodologiques impliquent des techniques de régression parcimonieuse, basées sur l'optimisation convexe et sur des algorithmes de flots. Nous étudions également une procédure pour détecter des anomalies d'épissage dans un contexte de diagnostic clinique. Nous suggérons un protocole expérimental facilement opérant et développons de nouveaux modèles statistiques et algorithmes pour quantifier des événements d’épissage et mesurer leur degré d'anormalité chez le patient.
Fichier principal
Vignette du fichier
2016PSLEM063_archivage.pdf (2.99 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)
Loading...

Dates and versions

tel-01681314 , version 1 (11-01-2018)
tel-01681314 , version 2 (12-01-2018)

Identifiers

  • HAL Id : tel-01681314 , version 2

Cite

Elsa Bernard. Deciphering splicing with sparse regression techniques in the era of high-throughput RNA sequencing.. Bioinformatics [q-bio.QM]. Université Paris sciences et lettres, 2016. English. ⟨NNT : 2016PSLEM063⟩. ⟨tel-01681314v2⟩
322 View
182 Download

Share

Gmail Facebook Twitter LinkedIn More