Multi-source domain adaptation on imbalanced data: application to the improvement of chairlifts safety

Kevin Bascol

Résumé

Bluecime has designed a camera-based system to monitor the boarding station of chairlifts in ski resorts, which aims at increasing the safety of all passengers. This already successful system does not use any machine learning component and requires an expensive configuration step. Machine learning is a subfield of artificial intelligence which deals with studying and designing algorithms that can learn and acquire knowledge from examples for a given task. Such a task could be classifying safe or unsafe situations on chairlifts from examples of images already labeled with these two categories, called the training examples. The machine learning algorithm learns a model able to predict one of these two categories on unseen cases. Since 2012, it has been shown that deep learning models are the best suited machine learning models to deal with image classification problems when many training data are available. In this context, this PhD thesis, funded by Bluecime, aims at improving both the cost and the effectiveness of Bluecime's current system using deep learning. We first propose to formalize the Bluecime problem as a classification task with different training settings emulating use cases. We also propose a deep learning baseline providing competitive results in most of the settings, for a low configuration cost. We then propose different approaches to improve our baseline method. First, a data augmentation strategy to improve the robustness of our model. Then, two methods to better optimize the F-measure, a performance measure used in anomaly detection and better suited to evaluate our imbalanced problem than the usual accuracy measure. Finally, we propose selection strategies for the training data to improve results on newly installed chairlift for which no labeled training data is available. With this work we also show negative but interesting results on domain adaption in case of different imbalanced class distributions between the source and target domains.

Bluecime a mis au point un système de vidéosurveillance à l'embarquement de télésièges qui a pour but d'améliorer la sécurité des passagers. Ce système est déjà performant, mais il n'utilise pas de techniques d'apprentissage automatique et nécessite une phase de configuration chronophage. L’apprentissage automatique est un sous-domaine de l'intelligence artificielle qui traite de l'étude et de la conception d'algorithmes pouvant apprendre et acquérir des connaissances à partir d'exemples pour une tâche donnée. Une telle tâche pourrait consister à classer les situations sûres ou dangereuses dans les télésièges à partir d'exemples d'images déjà étiquetées dans ces deux catégories, appelés exemples d’entraînement. L'algorithme d'apprentissage automatique apprend un modèle capable de prédire la catégories de nouveaux cas. Depuis 2012, il a été démontré que les modèles d'apprentissage profond sont les modèles d'apprentissage machine les mieux adaptés pour traiter les problèmes de classification d'images lorsque de nombreuses données d’entraînement sont disponibles. Dans ce contexte, cette thèse, financée par Bluecime, vise à améliorer à la fois le coût et l'efficacité du système actuel de Bluecime grâce à l'apprentissage profond. Nous proposons d'abord de formaliser le problème de Bluecime en tant que tâche de classification avec différents paramètres d’entraînement simulant des cas d'utilisation. Nous proposons également une approche par apprentissage profond fournissant des résultats compétitifs dans la plupart des paramètres d’entraînement, pour un faible coût de configuration. Nous proposons ensuite différentes approches pour améliorer notre méthode de référence. Tout d'abord, une stratégie d'augmentation des données pour améliorer la robustesse de notre modèle. Ensuite, deux méthodes pour mieux optimiser la F-mesure, une mesure de performance utilisée dans la détection d'anomalies et mieux adaptée pour évaluer notre problème de déséquilibre que la mesure de précision habituelle. Enfin, nous proposons des stratégies de sélection des données d’entraînement afin d'améliorer les résultats sur les télésièges nouvellement installés pour lesquels aucune donnée d’entraînement étiquetée n'est disponible. Avec ces travaux, nous montrons également des résultats négatifs mais intéressants sur l'adaptation des domaines dans le cas de distributions de classes déséquilibrées différemment entre le domaine source et le domaine cible.

Multi-source domain adaptation on imbalanced data: application to the improvement of chairlifts safety

Adaptation de domaine multisource sur données déséquilibrées : application à l'amélioration de la sécurité des télésièges

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager