Large scale Bayesian inference

Inass Sekkat

Résumé

This thesis is concerned with various sampling problems. The first part of this work is dedicated to Bayesian inference problems where usual Monte Carlo methods scale linearly with the number of data points. Resorting to minibatching in conjunction with discretizations of Langevin-like dynamics to circumvent this issue induces bias on the invariant probability measure. Using Adaptive Langevin dynamics automatically corrects for the extra noise arising from minibatching. We investigate the practical relevance of the assumptions underpinning Adaptive Langevin dynamics (in particular, constant covariance for the estimation of the gradient), which are not satisfied in typical models of Bayesian inference, and quantify the bias induced by minibatching in this case. We also show how to extend Adaptive Langevin dynamics in order to systematically reduce the bias on the posterior distribution by considering a dynamical friction depending on the current value of the parameter to sample. The second part of this work studies the error arising from minibatching error when sampling the posterior distribution of parameters of Bayesian neural networks. We numerically investigate the covariance matrix of the stochastic estimator of the force, which turns out to be of low rank, suggesting that it can efficiently be approximated. This opens the way to the development of scalable algorithms based on the adaptive Langevin dynamics to reduce the bias. The final part of this thesis is concerned with sampling transition paths linking one metastable state to another, which can be difficult by direct numerical methods. We explore some machine learning techniques to more efficiently generate transition paths.

Cette thèse s'intéresse à divers problèmes d'échantillonnage. La première partie de ce travail est consacrée au problème de l'inférence Bayésienne. Dans ce contexte, les méthodes de Monte Carlo habituelles ont un coût de calcul qui croît linéairement avec le nombre de points de données. L'échantillonnage par des discrétisations de dynamiques de type Langevin, avec une estimation de la force par minibatching pour limiter le coût de calcul, permet une simulation plus efficace, mais induit un biais sur la mesure de probabilité effectivement échantillonnée. La dynamique de Langevin adaptative corrige automatiquement le bruit supplémentaire résultant du minibatching. Nous étudions la pertinence pratique des hypothèses qui sous-tendent la dynamique de Langevin adaptative (notamment covariance de l'estimateur de la force constante), qui ne sont pas satisfaites pour certains modèles typiques d'inférence Bayésienne, et nous quantifions le biais induit par le minibatching dans ce cas. Nous montrons également comment étendre la dynamique de Langevin adaptative afin de réduire systématiquement le biais sur la distribution postérieure en considérant une friction dynamique dépendant de la valeur courante du paramètre à échantillonner. La deuxième partie de ce travail étudie l'erreur de minibatching lors de l'échantillonnage de la distribution a posteriori des paramètres d'un réseau de neurones Bayésien. Nous étudions numériquement la matrice de covariance de l'estimateur stochastique de la force, qui s'avère être de rang faible, suggérant qu'elle peut être efficacement approchée. Ceci ouvre la voie au développement d'algorithmes à coût de calcul raisonnable basés sur la dynamique de Langevin adaptative pour réduire le biais. La dernière partie de cette thèse considère l'échantillonnage des chemins de transition reliant un état métastable à un autre, difficiles à échantillonner par des méthodes numériques directes. Nous explorons certaines techniques d'apprentissage automatique pour générer plus efficacement lesdits chemins de transition.

Large scale Bayesian inference

Inférences bayésiennes en grande dimension

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Lien texte intégral

Citer

Exporter

Collections

Partager