Statistical learning methods for bipartite ranking - Archive ouverte HAL Access content directly
Theses Year : 2010

Statistical learning methods for bipartite ranking

Méthodes d'apprentissage statistique pour le scoring

(1)
1

Abstract

Bipartite ranking is a statistical issue consisting in sorting objects lying in a multidimensional feature space, randomly associated with binary labels, so that positive instances appear on top of the list with highest probability. This research work aims at developing a tree-induction ranking method based on a top-down recursive partitioning strategy and leading to a scoring function summarized by a rooted, binary, left-right oriented tree graph. In order to improve the flexibility of this learning method, we introduce a partition-based procedure involving complex and adaptive splitting rules. We then tackle the classical issue of model selection and propose two penalization-based procedures providing the best ranking tree for prediction. Finally, in order to reduce the instability of ranking trees and increase their accuracy, we propose to adapt two re-sampling and aggregating procedures introduced by Breiman in the classification and regression contexts: bagging (1996) and random forests (2001). An empirical comparison between several versions of this ranking algorithm and state-of-the-art scoring methods is provided. We also present the results output on industrial objectivization data. Last but not least, we introduce a two-stage testing procedure aiming at solving the two-sample problem in a multidimensional setting, based on the proposed ranking algorithm and on one-dimensional rank tests.
Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.
Fichier principal
Vignette du fichier
TheseDepot.pdf (5.5 Mo) Télécharger le fichier
Vignette du fichier
PresThMD.pdf (8.67 Mo) Télécharger le fichier
Format : Other

Dates and versions

pastel-00572421 , version 1 (01-03-2011)

Identifiers

  • HAL Id : pastel-00572421 , version 1

Cite

Marine Depecker. Méthodes d'apprentissage statistique pour le scoring. Apprentissage [cs.LG]. Télécom ParisTech, 2010. Français. ⟨NNT : ⟩. ⟨pastel-00572421⟩
1244 View
10100 Download

Share

Gmail Facebook Twitter LinkedIn More