Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2008

A new approach to learning from structured data and its applications to computer-aided drug design

Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments

Résumé

La modélisation de propriétés et d'activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable. Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage. Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d'évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d'apprentissage, et d'estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l'utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d'activités moléculaires.
Non disponible
Fichier principal
Vignette du fichier
These_AG-convertie-PASTEL.pdf (7.5 Mo) Télécharger le fichier
Loading...

Dates et versions

pastel-00004103 , version 1 (29-08-2008)

Identifiants

  • HAL Id : pastel-00004103 , version 1

Citer

Aurélie Goulon-Sigwalt-Abram. Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. domain_other. Université Pierre et Marie Curie - Paris VI, 2008. Français. ⟨NNT : ⟩. ⟨pastel-00004103⟩
397 Consultations
2782 Téléchargements

Partager

Gmail Facebook X LinkedIn More