Skip to Main content Skip to Navigation
Theses

Applications of machine learning in computational biology

Résumé : Les biotechnologies sont arrivées au point ou la quantité d'information disponible permet de penser les objets biologiques comme des systèmes complexes. Dans ce contexte, les phénomènes qui émergent de ces systèmes sont intimement liés aux spécificités de leur organisation. Cela pose des problèmes computationnels et statistiques qui sont précisément l'objet d'étude de la communauté liée à l'apprentissage statistique. Cette thèse traite d'applications de méthodes d'apprentissage pour l'étude de phénomène biologique dans une perspective de système complexe. Ces méthodes sont appliquées dans le cadre de l'analyse d'interactions protéine-ligand et d'effets secondaires, du phenotypage de populations de cellules et du plan d'expérience pour des systèmes dynamiques non linéaires partiellement observés.D'importantes quantités de données sont désormais disponibles concernant les molécules mises sur le marché, tels que les profils d'interactions protéiques et d'effets secondaires. Cela pose le problème d'intégrer ces données et de trouver une forme de structure sous tendant ces observations à grandes échelles. Nous appliquons des méthodes récentes d'apprentissage non supervisé à l'analyse d'importants jeux de données sur des médicaments. Des exemples illustrent la pertinence de l'information extraite qui est ensuite validée dans un contexte de prédiction.Les variations de réponses à un traitement entre différents individus posent le problème de définir l'effet d'un stimulus à l'échelle d'une population d'individus. Par exemple, dans le contexte de la microscopie à haut débit, une population de cellules est exposée à différents stimuli. Les variations d'une cellule à l'autre rendent la comparaison de différents traitement non triviale. Un modèle génératif est proposé pour attaquer ce problème et ses propriétés sont étudiées sur la base de données expérimentales.A l'échelle moléculaire, des comportements complexes émergent de cascades d'interactions non linéaires entre différentes espèces moléculaires. Ces non linéarités engendrent des problèmes d'identifiabilité du système. Elles peuvent cependant être contournées par des plans expérimentaux spécifiques, un des champs de recherche de la biologie des systèmes. Une stratégie Bayésienne itérative de plan expérimental est proposée est des résultats numériques basés sur des simulations in silico d'un réseau biologique sont présentées.
Document type :
Theses
Complete list of metadatas

Cited literature [127 references]  Display  Hide  Download

https://pastel.archives-ouvertes.fr/pastel-00958432
Contributor : Abes Star :  Contact
Submitted on : Wednesday, March 12, 2014 - 2:52:16 PM
Last modification on : Thursday, April 9, 2020 - 5:08:12 PM
Document(s) archivé(s) le : Thursday, June 12, 2014 - 11:41:48 AM

File

2013ENMP0052.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : pastel-00958432, version 1

Citation

Edouard Pauwels. Applications of machine learning in computational biology. Agricultural sciences. Ecole Nationale Supérieure des Mines de Paris, 2013. English. ⟨NNT : 2013ENMP0052⟩. ⟨pastel-00958432⟩

Share

Metrics

Record views

1186

Files downloads

995