Smart atlas for endomicroscopy diagnosis support: a clinical application of content-based image retrieval - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2011

Smart atlas for endomicroscopy diagnosis support: a clinical application of content-based image retrieval

Atlas intelligent pour guider le diagnostic en endomicroscopie : une application clinique de la reconnaissance d'images par le contenu

Résumé

Probe-based Confocal Laser Endomicroscopy (pCLE) enables in vivo microscopic imaging of the epithelium during ongoing endoscopy, in situ and at real-time frame rate. Thanks to this novel imaging system, the endoscopists have the opportunity to perform non-invasive "optical biopsies". Traditional biopsies result in histological images that are usually diagnosed ex vivo by pathologists. The in vivo diagnosis of pCLE images is therefore a critical challenge for the endoscopists who typically have only little pathology expertise. The main goal of this thesis is to assist the endoscopists in the in vivo interpretation of pCLE image sequences. When establishing a diagnosis, physicians typically rely on similarity-based reasoning. To mimic this process, we explore content-based image retrieval (CBIR) approaches for diagnosis support. Our primary objective is to develop a system which automatically extracts several videos that are visually similar to the pCLE video of interest, but that are annotated with metadata such as textual diagnosis. Such a retrieval system should help the endoscopist in making an informed decision and therefore a more accurate pCLE diagnosis. For this purpose, we investigate the Bag-of-Visual-Words (BoW) method from computer vision. Analyzing the image properties of pCLE data leads us to adjust the standard BoW method. Not only single pCLE images, but full pCLE videos are retrieved by representing videos as sets of mosaics. In order to evaluate the methods proposed in this thesis, two different pCLE databases were constructed, one on the colonic polyps and one on the Barrett's esophagus. Due to the initial lack of a ground-truth for CBIR of pCLE, we first performed an indirect evaluation of the retrieval methods, using nearest-neighbor classification. Then, the generation of a sparse ground-truth, containing the similarities perceived between videos by multiple experts in pCLE, allowed us to directly evaluate the retrieval methods, by measuring the correlation between the retrieval distance and the perceived similarity. Both indirect and direct retrieval evaluations demonstrate that, on the two pCLE databases, our retrieval method outperforms several state-of-the-art methods in CBIR. In terms of binary classification, our retrieval method is shown to be comparable to the offline diagnosis of human expert endoscopists on the Colonic Polyps database. Because establishing a pCLE diagnosis is an everyday practice, our objective is not only to support one-shot diagnosis but also to accompany the endoscopists in their progress. Using retrieval results, we estimate the difficulty to interpret a pCLE video. We show that there is a correlation between the estimated difficulty and the diagnosis difficulty experienced by multiple endoscopists. The proposed difficulty estimator could thus be used in a self-training simulator, with difficulty level selection, which should help the endoscopists in shortening their learning curve. The standard visual-word-based distance already provides adequate results for pCLE retrieval. Nevertheless, little clinical knowledge is embedded in this distance. By incorporating prior information about the similarity perceived by pCLE experts, we are able to learn an adjusted visual similarity distance which we prove to be better than the standard distance. In order to learn pCLE semantics, we then leverage multiple semantic concepts used by the endoscopists to describe pCLE videos. As a result, visual-word-based semantic signatures are built which extract, from low-level visual features, a higher-level clinical knowledge that is expressed in the endoscopist own language.
L'Endomicrocopie Confocale par Minisondes (ECM) permet l'observation dynamique des tissus au niveau cellulaire, in vivo et in situ, pendant une endoscopie. Grâce à ce nouveau système d'imagerie, les médecins endoscopistes ont la possibilité de réaliser des "biopsies optiques" non invasives. Les biopsies traditionnelles impliquent le diagnostic ex vivo d'images histologiques par des médecins pathologistes. Le diagnostic in vivo d'images ECM est donc un véritable challenge pour les endoscopistes, qui ont en général seulement un peu d'expertise en anatomopathologie. Les images ECM sont néanmoins de nouvelles images, qui ressemblent visuellement aux images histologiques. Cette thèse a pour but principal d'assister les endoscopistes dans l'interprétation in vivo des séquences d'images ECM. Lors de l'établissement d'un diagnostic, les médecins s'appuient sur un raisonnement par cas. Afin de mimer ce processus, nous explorons les méthodes de Reconnaissance d'Images par le Contenu (CBIR) pour l'aide au diagnostique. Notre premier objectif est le développement d'un système capable d'extraire de manière automatique un certain nombre de vidéos ECM qui sont visuellement similaires à la vidéo requête, mais qui ont en plus été annotées avec des métadonnées comme par exemple un diagnostic textuel. Un tel système de reconnaissance devrait aider les endoscopistes à prendre une décision éclairée, et par là-même, à établir un diagnostic ECM plus précis. Pour atteindre notre but, nous étudions la méthode des Sacs de Mots Visuels, utilisée en vision par ordinateur. L'analyse des propriétés des données ECM nous conduit à ajuster la méthode standard. Nous mettons en œuvre la reconnaissance de vidéos ECM complètes, et pas seulement d'images ECM isolées, en représentant les vidéos par des ensembles de mosaïques. Afin d'évaluer les méthodes proposées dans cette thèse, deux bases de données ECM ont été construites, l'une sur les polypes du colon, et l'autre sur l'œsophage de Barrett. En raison de l'absence initiale d'une vérité terrain sur le CBIR appliquée à l'ECM, nous avons d'abord réalisé des évaluations indirectes des méthodes de reconnaissance, au moyen d'une classification par plus proches voisins. La génération d'une vérité terrain éparse, contenant les similarités perçues entre des vidéos par des experts en ECM, nous a ensuite permis d'évaluer directement les méthodes de reconnaissance, en mesurant la corrélation entre la distance induite par la reconnaissance et la similarité perçue. Les deux évaluations, indirecte et directe, démontrent que, sur les deux bases de données ECM, notre méthode de reconnaissance surpasse plusieurs méthodes de l'état de l'art en CBIR. En termes de classification binaire, notre méthode de reconnaissance est comparable au diagnostic établi offline par des endoscopistes experts sur la base des Polypes du Colon. Parce que diagnostiquer des données ECM est une pratique de tous les jours, notre objectif n'est pas seulement d'apporter un support pour un diagnostique ponctuel, mais aussi d'accompagner les endoscopistes sans leurs progrès. A partir des résultats de la reconnaissance, nous estimons la difficulté d'interprétation des vidéos ECM. Nous montrons l'existence d'une corrélation entre la difficulté estimée et la difficulté de diagnostic éprouvée par plusieurs endoscopistes. Cet estimateur pourrait ainsi être utilisé dans un simulateur d'entraînement, avec différents niveaux de difficulté, qui devrait aider les endoscopistes à réduire leur courbe d'apprentissage. La distance standard basée sur les mots visuels donne des résultats adéquats pour la reconnaissance de données ECM. Cependant, peu de connaissance clinique est intégrée dans cette distance. En incorporant l'information a priori sur les similarités perçues par les experts en ECM, nous pouvons apprendre une distance de similarité qui s'avère être plus juste que la distance standard. Dans le but d'apprendre la sémantique des données ECM, nous tirons également profit de plusieurs concepts sémantiques utilisés par les endoscopistes pour décrire les vidéos ECM. Des signatures sémantiques basées mots visuels sont alors construites, capables d'extraire, à partir de caractéristiques visuelles de bas niveau, des connaissances cliniques de haut niveau qui sont exprimées dans le propre langage de l'endoscopiste.
Fichier principal
Vignette du fichier
Barbara-Andre-Thesis-Manuscript-Final.pdf (3.77 Mo) Télécharger le fichier

Dates et versions

pastel-00640899 , version 1 (14-11-2011)

Identifiants

  • HAL Id : pastel-00640899 , version 1

Citer

Barbara André. Smart atlas for endomicroscopy diagnosis support: a clinical application of content-based image retrieval. Medical Imaging. École Nationale Supérieure des Mines de Paris, 2011. English. ⟨NNT : 2011ENMP0032⟩. ⟨pastel-00640899⟩
368 Consultations
623 Téléchargements

Partager

Gmail Facebook X LinkedIn More