Structured priors for supervised learning in computational biology

Laurent Jacob

Thèse Année : 2009

Structured priors for supervised learning in computational biology

A priori structurés pour l'apprentissage supervisé en biologie computationnelle

(1, 2)

1
2

Laurent Jacob

Fonction : Auteur
PersonId : 21877
IdHAL : laurent-jacob
ORCID : 0000-0002-7826-2719
IdRef : 176737952

Centre de Bioinformatique

Cancer et génome: Bioinformatique, biostatistiques et épidémiologie d'un système complexe

Résumé

Supervised learning methods are used to build functions which accurately predict the behavior of new objects from observed data. They are therefore extremely useful in several computational biology problems, where they can exploit the increasing amount of empirical data generated by high-throughput technologies, or the accumulation of experimental knowledge in public databases. In several cases however, the amount of training data is not sufficient to deal with the complexity of the learning problem. Fortunately this type of ill-posed problem is not new in statistics and statistical machine learning. It is classically addressed using regularization approaches, or equivalently using a prior on what the function should be like. In this thesis, we build on this principle and propose new regularization methods based on biological prior knowledge for each problem. In the context of in silico vaccine and drug design, we show how using the knowledge that similar targets bind similar ligands, one can improve dramatically the prediction accuracy for the targets with little known ligands, and even make predictions for targets with no known ligand. We also design a convex regularization function which takes into account the fact that only some unknown beforehand groups of targets tend to have the same binding behavior. Finally, in the context of outcome prediction from molecular data, we propose a regularization function which leads to sparse vector whose support is typically a union of potentially overlapping groups of genes defined a priori like, e.g., pathways, or a set of genes which tend to be connected to each other when a graph reflecting biological information is given.

Les méthodes d'apprentissage supervisé sont utilisées pour construire des fonctions prédisant efficacement le comportement de nouvelles entités à partir de données observées. Elles sont de ce fait très utiles en biologie computationnelle, où elles permettent d'exploiter la quantité grandissante de données expérimentales disponible. Dans certains cas cependant, la quantité de données disponible n'est pas suffisante par rapport à la complexité du problème d'apprentissage. Heureusement ce type de problème mal posé n'est pas nouveau en statistiques. Une approche classique est d'utiliser des méthodes de régularisation ou de manière équivalente d'introduire un a priori sur la forme que la fonction devrait avoir. Dans cette thèse, nous proposons de nouvelles fonctions de régularisation basées sur la connaissance biologique de certains problèmes. Dans le contexte de la conception de vaccins ou de médicaments, nous montrons comment l'utilisation du fait que les cibles similaires lient des ligands similaires permet d'améliorer sensiblement les prédictions pour les cibles ayant peu ou n'ayant pas de ligands connus. Nous proposons également une fonction prenant en compte le fait que seuls certains groupes inconnus de cibles partagent leur comportement de liaison. Finalement, dans le cadre de la prédiction de métastase de tumeurs à partir de données d'expression, nous construisons une fonction de régularisation favorisant les estimateurs parcimonieux dont le support est une union de groupes de gènes potentiellement chevauchants définis a priori, ou un ensemble de gènes ayant tendance à être connectés sur un graphe défini a priori.

Mots clés

Biocomputing Chemocomputing Genes Tumor cells Statistical method Bayes forecasting Statistical learning Simulation

Bioinformatique Chémoinformatique Gène Cellule tumorale Méthode statistique prévision Bayes Apprentissage statistique

Domaines

Sciences du Vivant [q-bio]

Fichier principal

These_L.jacob.pdf (3.93 Mo)

Ecole Mines ParisTech : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00005743

Soumis le : jeudi 21 janvier 2010-08:00:00

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : vendredi 10 septembre 2010-15:00:55

Dates et versions

pastel-00005743 , version 1 (21-01-2010)

Identifiants

HAL Id : pastel-00005743 , version 1

Citer

Laurent Jacob. Structured priors for supervised learning in computational biology . Life Sciences [q-bio]. École Nationale Supérieure des Mines de Paris, 2009. English. ⟨NNT : 2009ENMP1644⟩. ⟨pastel-00005743⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM ENSMP PASTEL ENSMP_CBIO PARISTECH FNCLCC CURIE PSL ENSMP_DR

206 Consultations

675 Téléchargements

Structured priors for supervised learning in computational biology

A priori structurés pour l'apprentissage supervisé en biologie computationnelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager