Sampling methods for scaling up empirical risk minimization - Archive ouverte HAL Access content directly
Theses Year : 2018

Sampling methods for scaling up empirical risk minimization

Méthode d'échantillonnage appliqué à la minimisation du risque empirique

(1)
1

Abstract

In this manuscript, we present and study applied sampling strategies, with problems related to statistical learning. The goal is to deal with the problems that usually arise in a context of large data when the number of observations and their dimensionality constrain the learning process. We therefore propose to address this problem using two sampling strategies: - Accelerate the learning process by sampling the most helpful. - Simplify the problem by discarding some observations to reduce complexity and the size of the problem. We first consider the context of the binary classification, when the observations used to form a classifier come from a sampling / survey scheme and present a complex dependency structure. for which we establish bounds of generalization. Then we study the implementation problem of stochastic gradient descent when observations are drawn non uniformly. We conclude this thesis by studying the problem of graph reconstruction for which we establish new theoretical results,
Dans ce manuscrit, nous présentons et étudions des stratégies d’échantillonnage appliquées, à problèmes liés à l’apprentissage statistique. L’objectif est de traiter les problèmes qui surviennent généralement dans un contexte de données volumineuses lorsque le nombre d’observations et leur dimensionnalité contraignent le processus d’apprentissage. Nous proposons donc d’aborder ce problème en utilisant deux stratégies d’échantillonnage: - Accélérer le processus d’apprentissage en échantillonnant les observations les plus utiles. - Simplifier le problème en écartant certaines observations pour réduire la complexité et la taille du problème. Pour commencer, nous nous plaçons dans le contexte de la classification binaire, lorsque les observations utilisées pour former un classificateur sont issues d’un schéma d’échantillonnage/sondage et présentent une structure de dépendance complexe pour lequel nous établissons des bornes de généralisation. Ensuite nous étudions le problème d’implémentation de la descente de gradient stochastique quand les observations sont tirées non uniformément. Nous concluons cette thèse par l’étude du problème de reconstruction de graphes pour lequel nous établissons de nouveau résultat théoriques
Fichier principal
Vignette du fichier
thpapa.pdf (4.14 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03209978 , version 1 (27-04-2021)

Identifiers

  • HAL Id : tel-03209978 , version 1

Cite

Guillaume Papa. Sampling methods for scaling up empirical risk minimization. Machine Learning [stat.ML]. Télécom ParisTech, 2018. English. ⟨NNT : 2018ENST0005⟩. ⟨tel-03209978⟩
66 View
25 Download

Share

Gmail Facebook Twitter LinkedIn More