PAC-Bayesian Bounds and Beyond : Self-Bounding Algorithms and New Perspectives on Generalization in Machine Learning - Thèse de l'Institut d'Optique Graduate School Accéder directement au contenu
Thèse Année : 2022

PAC-Bayesian Bounds and Beyond : Self-Bounding Algorithms and New Perspectives on Generalization in Machine Learning

Bornes PAC-Bayésiennes et Au-delà : Algorithmes Auto-limitatifs et Nouvelles Perspectives sur la Généralisation en Apprentissage Automatique

Paul Viallard
  • Fonction : Auteur
  • PersonId : 1361731
  • IdRef : 276245849

Résumé

In machine learning, a model is learned from data to solve a task automatically. In the supervised classification setting, the model aims to predict the label associated with an input. The model is learned using a limited number of examples, each consisting of an input and its associated label. However, the model's performance on the examples, computed by the empirical risk, does not necessarily reflect the performance on the task, which is represented by the true risk. Moreover, since it is not computable, the true risk is upper-bounded by a generalization bound that mainly depends on two quantities: the empirical risk and a complexity measure. One way to learn a model is to minimize a bound by a type of algorithm called self-bounding. PAC-Bayesian bounds are well suited to the derivation of this type of algorithm. In this context, the first contribution consists in developing self-bounding algorithms that minimize PAC-Bayesian bounds to learn majority votes. If these bounds are well adapted to majority votes, their use for other models becomes less natural. To overcome this difficulty, a second contribution focuses on the disintegrated PAC-Bayesian bounds that are natural for more general models. In this framework, we provide the first empirical study of these bounds. In a third contribution, we derive bounds that allow us to incorporate complexity measures defined by the user.
En apprentissage automatique, un modèle est appris à partir de données pour résoudre une tâche de manière automatique. Dans le cadre de la classification supervisée, le modèle vise à prédire la classe associée à une entrée. Le modèle est appris à l'aide d'un nombre limité d'exemples, chacun étant constitué d'une entrée et de sa classe associée. Cependant, la performance du modèle sur les exemples, calculée par le risque empirique, ne reflète pas nécessairement la performance sur la tâche qui est représentée par le risque réel. De plus, n'étant pas calculable, le risque réel est majoré pour obtenir une borne en généralisation qui dépend principalement de deux quantités : le risque empirique et une mesure de complexité. Une façon d'apprendre un modèle est de minimiser une borne par un type d'algorithme appelé auto-certifié (ou auto-limitatif). Les bornes PAC-Bayésiennes sont bien adaptées à la dérivation de ce type d'algorithmes. Dans ce contexte, la première contribution consiste à développer des algorithmes auto-certifiés qui minimisent des bornes PAC-Bayésiennes pour apprendre des votes de majorité. Si ces bornes sont bien adaptées aux votes de majorité, leur utilisation pour d'autres modèles devient moins naturelle. Pour pallier cette difficulté, une seconde contribution se concentre sur les bornes PAC-Bayésiennes désintégrées qui sont naturelles pour des modèles plus généraux. Dans ce cadre, nous apportons la première étude empirique de ces bornes. Dans une troisième contribution, nous dérivons des bornes permettant d'incorporer des mesures de complexité pouvant être définies par l'utilisateur.
Fichier principal
Vignette du fichier
These-Viallard-Paul-2022.pdf (20 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04496162 , version 1 (08-03-2024)

Identifiants

  • HAL Id : tel-04496162 , version 1

Citer

Paul Viallard. PAC-Bayesian Bounds and Beyond : Self-Bounding Algorithms and New Perspectives on Generalization in Machine Learning. Machine Learning [cs.LG]. Université Jean Monnet - Saint-Etienne, 2022. English. ⟨NNT : 2022STET0057⟩. ⟨tel-04496162⟩
14 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More