Clustering prédictif Décrire et prédire simultanément

Oumaima Alaoui Ismaili

Résumé

Predictive clustering is a new supervised learning framework derived from traditional clustering. This new framework allows to describe and to predict simultaneously. Compared to a classical supervised learning, predictive clsutering algorithms seek to discover the internal structure of the target class in order to use it for predicting the class of new instances.The purpose of this thesis is to look for an interpretable model of predictive clustering. To acheive this objective, we choose to modified traditional K-means algorithm. This new modified version is called predictive K-means. It contains 7 differents steps, each of which can be supervised seperatly from the others. In this thesis, we only deal four steps : 1) data preprocessing, 2) initialization of centers, 3) selecting of the best partition, and 4) importance of features.Our experimental results show that the use of just two supervised steps (data preprocessing and initialization of centers), allow the K-means algorithm to acheive competitive performances with some others predictive clustering algorithms.These results show also that our preprocessing methods can help predictive K-means algorithm to provide results easily comprehensible by users. We are also showing in this thesis that the use of our new measure to evaluate predictive clustering quality, helps our predictive K-means algorithm to find the optimal partition that establishes the best trade-off between description and prediction. It thus allows users to find the different reasons behind the same prediction : two differents instances could have the same predicted label.

Le clustering prédictif est un nouvel aspect d’apprentissage supervisé dérivé du clustering standard. Les algorithmes appartenant à ce type de l’apprentissage cherchent à décrire et à prédire d’une manière simultanée. Il s’agit de découvrir la structure interne d’une variable cible. Puis munis de cette structure, de prédire la classe des nouvelles instances.Pour atteindre l’objectif de la thèse qui est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée, nous avons choisi de modifier l’algorithme des K-moyennes standard. Cette version modifiée est nommée les K-moyennes prédictives. Elle contient 7 différentes étapes dont chacune peut être supervisée indépendamment des autres.Au cours de cette thèse, nous nous intéressons à la supervision de quatre étapes, à savoir : 1) le prétraitement des données, 2) l’initialisation des centres, 3) le choix de la meilleure partition et 4) la mesure d’importance des variables.Nos résultats expérimentaux montrent d’une part qu’avec la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres, l’algorithme des K-moyennes prédictives parvient à avoir des performances très compétitives ou meilleures que celles obtenues par certains algorithmes de clustering prédictif.D’autre part, ces résultats expérimentaux mettent l’accent sur la capacité de nos méthodes de prétraitement à aider l’algorithme des K-moyennes prédictives à fournir des résultats facilement interprétables par l’utilisateur.Nous montrons enfin dans ce mémoire qu’avec l’aide du critère d’évaluation proposé dans cette thèse, l’algorithme des K-moyennes prédictives parvient à sélectionner la partition optimale qui réalise le bon compromis entre la description et la prédiction. Ceci permet à l’utilisateur de découvrir les différentes raisons qui peuvent mener à une même prédiction.

Predictive clustering Describe and predict simultaneously

Clustering prédictif Décrire et prédire simultanément

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager