Probability bounds for the cross-validation estimate in the context of the statistical learning theory and statistical models applied to economics and finance - Archive ouverte HAL Access content directly
Theses Year : 2009

Probability bounds for the cross-validation estimate in the context of the statistical learning theory and statistical models applied to economics and finance

Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et Modèles statistiques appliqués à l'économie et à la finance

(1)
1

Abstract

The initial goal of this thesis is to get a better understanding of a methodology commonly used among practitioners : the cross-validation. The latter is designed to assess the risk of predictors. The second part of the thesis is dedicated to statistical models applied to real world issues encountered in the professional life. It consists mostly in time series models for economic and financial data. In chapter 1, we derive concentration inequalities for the cross-validation estimate of the generalization error for empirical risk minimizers. In the general setting, we prove sanity-check bounds: bounds showing that the worst-case error of this estimate is not much worse that of training error estimate. In chapter 2, we prove probability bounds for the cross-validation estimate of the generalization error for stable predictors in the context of risk assessment. The notion of stability characterizes class of predictors with infinite VC dimension, such as k-nearest neighbors rules, bayesian algorithm, boosting. In chapter 3, we obtain concentration inequalities for the cross-validation estimate of the generalization error for subagged estimators. An interesting consequence is that the probability upper bound is bounded by the minimum of a Hoeffding-type bound and a Vapnik-type bounds, and thus is smaller than 1 even for small learning set. Chapter 4 gives a monthly proxy of the French GDP growth rate through the Kalman filter methodology. Chapter 5 extracts a monthly leading indicator of the French business climate in the services sector. Eventually, chapter 6 gives a semi-parametric approach to simulate spot electricity prices for energy risk management.
L'objectif initial de la première partie de cette thèse est d'éclairer par la théorie une pratique communément répandue au sein des practiciens pour l'audit (ou risk assessment en anglais) de méthodes prédictives (ou prédicteurs) : la validation croisée (ou cross-validation en anglais). La seconde partie s'inscrit principalement dans la théorie des processus et son apport concerne essentiellement les applications à des données économiques et financières. Le chapitre 1 s'intéresse au cas classique de prédicteurs de Vapnik-Chernovenkis dimension (VC-dimension dans la suite) finie obtenus par minimisation du risque empirique. Le chapitre 2 s'intéresse donc à une autre classe de prédicteurs plus large que celle du chapitre 1 : les estimateurs stables. Dans ce cadre, nous montrons que les méthodes de validation croisée sont encore consistantes. Dans le chapitre 3, nous exhibons un cas particulier important le subagging où la méthode de validation croisée permet de construire des intervalles de confiance plus étroits que la méthodologie traditionnelle issue de la minimisation du risque empirique sous l'hypothèse de VC-dimension finie. Le chapitre 4 propose un proxy mensuel du taux de croissance du Produit Intérieur Brut français qui est disponible officiellement uniquement à fréquence trimestrielle. Le chapitre 5 décrit la méthodologie pour construire un indicateur synthétique mensuel dans les enquêtes de conjoncture dans le secteur des services en France. L'indicateur synthétique construit est publié mensuellement par l'Insee dans les Informations Rapides. Le chapitre 6 décrit d'un modèle semi-paramétrique de prix spot d'électricité sur les marchés de gros ayant des applications dans la gestion du risque de la production d'électricité.
Fichier principal
Vignette du fichier
CORNEC_thesis.pdf (5.12 Mo) Télécharger le fichier
Vignette du fichier
Presentation_these3.pdf (362.15 Ko) Télécharger le fichier
Format : Other
Loading...

Dates and versions

tel-00530876 , version 1 (30-10-2010)

Identifiers

  • HAL Id : tel-00530876 , version 1

Cite

Matthieu Cornec. Probability bounds for the cross-validation estimate in the context of the statistical learning theory and statistical models applied to economics and finance. Mathematics [math]. Université de Nanterre - Paris X, 2009. English. ⟨NNT : ⟩. ⟨tel-00530876⟩
410 View
16450 Download

Share

Gmail Facebook Twitter LinkedIn More