Covariance matrices : diffusions, free probability, and deep learning - Archive ouverte HAL Access content directly
Theses Year : 2021

Covariance matrices : diffusions, free probability, and deep learning

Matrices de covariance : diffusions, probabilités libres, et apprentissage profond

(1)
1

Abstract

This thesis is motivated by the study of covariance matrices, and is naturally structured in three parts. In the first part, we study dynamic models related to covariance matrices. More precisely, we study the systems of stochastic differential equations inherited from the dynamics of the eigenvalues of matrix valued processes named the Wishart process and the Jacobi process. The solutions to these systems are respectively the [dollar]beta[dollar]-Wishart process and the [dollar]beta[dollar]-Jacobi process. We extend the known results on the existence and uniqueness of solutions to these equations and we characterize their long term behaviour. In the second part, in the light of modern results from the free probability theory, especially about the rectangular additive free convolution, we study the behaviour of the empirical measure of the particules of the [dollar]beta[dollar]-Wishart process in the large dimension limit, and establish the commutativity between the long time and the high dimensional limits for this sequence of measure valued process. The third part is related to the study of stability of the backpropagation procedure in the learning phase of a feed-forward neural network with a variable width profile. This work focuses on the Jacobian matrix of the network, which can be seen as a long product of matrices, and whose spectral properties are crucial for the stability of the gradient descent. This appeals for the definition of a free rectangular multiplicative convolution. We suggest an efficient algorithm to compute the empirical measure of the square of the singular values of this matrix. The conclusion of this work give insights allowing to assess the stability of a feed-forward neural network, aiming to assist practitioners in the choice of the features in the design of neural networks.
Cette thèse est motivée par l'étude des matrices de covariance, et s'articule naturellement en trois parties. Dans la première partie, nous étudions des modèles dynamiques liés aux matrices de covariance. Nous étudions plus précisément les systèmes d'équations différentielles stochastiques hérités de la dynamique des valeurs propres de processus matriciels appelés processus de Wishart et processus de Jacobi. Les solutions de ces systèmes sont respectivement les processus de [dollar]beta[dollar]-Wishart et de [dollar]beta[dollar]-Jacobi. Nous étendons les résultats connus d'existence et d'unicité de solutions à ces équations et caractérisons leur comportement en temps long. Dans la seconde partie, nous étudions à la lumière de résultats modernes de probabilités libres, en particulier sur la convolution libre rectangulaire additive, le comportement limite en grande dimension de la mesure empirique des particules constituant le processus de [dollar]beta[dollar]-Wishart, et établissons la commutativité entre la limite en temps long et la limite en grande dimension pour cette suite de processus à valeurs mesures. La troisième partie porte sur l'étude de la stabilité de la procédure de rétro-propagation dans la phase d'apprentissage d'un réseau de neurones à propagation avant dont les couches sont de largeur variable. Cette étude se concentre sur la matrice Jacobienne du réseau, qui peut se décrire comme un long de produit de matrices, et dont les propriétés spectrales sont déterminantes pour la stabilité de la descente du gradient. Cela demande la définition d'une opération de convolution libre rectangulaire multiplicative. Nous proposons un algorithme efficace de calcul de la mesure du carré des valeurs singulières de cette matrice. Les conclusions de ce travail donnent des indicateurs permettant d'évaluer la stabilité d'un réseau de neurones, à vocation d'aide au design du réseau pour les praticiens.
Fichier principal
Vignette du fichier
2021ENPC0016.pdf (1.22 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03541689 , version 1 (24-01-2022)

Identifiers

  • HAL Id : tel-03541689 , version 1

Cite

Ezechiel Kahn. Matrices de covariance : diffusions, probabilités libres, et apprentissage profond. Probabilités [math.PR]. École des Ponts ParisTech, 2021. Français. ⟨NNT : 2021ENPC0016⟩. ⟨tel-03541689⟩
71 View
59 Download

Share

Gmail Facebook Twitter LinkedIn More