Skip to Main content Skip to Navigation
Theses

Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments

Résumé : La modélisation de propriétés et d'activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable. Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage. Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d'évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d'apprentissage, et d'estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l'utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d'activités moléculaires.
Document type :
Theses
Domain :
Complete list of metadatas

Cited literature [88 references]  Display  Hide  Download

https://pastel.archives-ouvertes.fr/pastel-00004103
Contributor : Ecole Espci Paristech <>
Submitted on : Friday, August 29, 2008 - 8:00:00 AM
Last modification on : Saturday, September 26, 2020 - 11:44:07 PM
Long-term archiving on: : Friday, September 10, 2010 - 12:57:31 PM

Identifiers

  • HAL Id : pastel-00004103, version 1

Citation

Aurélie Goulon-Sigwalt-Abram. Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. domain_other. Université Pierre et Marie Curie - Paris VI, 2008. Français. ⟨pastel-00004103⟩

Share

Metrics

Record views

575

Files downloads

7042