Lip Analysis for Person recognition - Archive ouverte HAL Access content directly
Theses Year : 2010

Lip Analysis for Person recognition

Analyse des lèvres pour reconnaissance des personnes

(1, 2)
1
2

Abstract

The human face is an attractive biometric identifier and face recognition has certainly improved a lot since its beginnings some three decades ago, but still its application in real world has achieved limited success. In this doctoral dissertation we focus on a local feature of the human face namely the lip and analyse it for its relevance and influence on person recognition. In depth study is carried out with respect to various steps involved, such as detection, evaluation, normalization and the applications of the human lip motion. Initially we present a lip detection algorithm that is based on the fusion of two independent methods. The first method is based on edge detection and the second one on region segmentation, each having distinct characteristics and thus exhibit different strengths and weaknesses. We exploit these strengths by combining the two methods using fusion. Then we present results from extensive testing and evaluation of the detection algorithm on a realistic database. Next we give a comparison of the visual features of lip motion for their relevance to person recognition. For this purpose we extract various geometric and appearance based lip features and compare them using three feature selection measures; Minimal- Redundancy-Maximum-Relevance, Bhattacharya Distance and Mutual Information. Next we extract features which model the behavioural aspect of lip motion during speech and exploit them for person recognition. The behavioural features include static features, such as the normalized length of major/minor axis, coordinates of lip extrema points and dynamic features based on optical flow. These features are used to build client model by Gaussian Mixture Model (GMM) and finally the classification is achieved using a Bayesian decision rule. Recognition results are then presented on a text independent database specifically designed for testing behavioural features that require comparatively more data. Lastly we propose a temporal normalization method to compensate for variation caused by lip motion during speech. Given a group of videos for a person uttering the same sentence multiple times we study the lip motion in one of the videos and select certain key frames as synchronization frames. We then synchronize these frames from the first video with the remaining videos of the same person. Finally all the videos are normalized temporally by interpolation using lip morphing. For evaluation of our normalization algorithm we have devised a spatio-temporal person recognition algorithm that compares normalized and un-normalized videos.
Dans cette thèse nous nous concentrons sur une caractéristique locale du visage humain que sont les lèvres en termes de pertinence et influence sur la reconnaissance de la personne. Une étude détaillée est réalisée à l'égard de différentes étapes, telles que la détection, l'évaluation, la normalisation et les applications liées de la bouche. Au départ, on présente un algorithme de détection des lèvres en fusionnant deux méthodes indépendantes. La première méthode est basée sur la détection de contours et la deuxième orientée sur la segmentation. On exploite leurs points forts en combinant les deux méthodes par fusion. Ensuite, on extrait les caractéristiques qui modélisent l'aspect comportemental du mouvement des lèvres lorsque la personne parle afin de les exploiter pour la reconnaissance des personnes. Les caractéristiques du comportement incluent des caractéristiques statiques, et des caractéristiques dynamiques en fonction du flux optique. Ces caractéristiques sont utilisées pour construire le modèle du client par une Mixture de Gaussiennes et enfin la classification est réalisée en utilisant une règle de décision bayésienne. Enfin, on propose une méthode de normalisation temporelle pour le traitement des variations du mouvement des lèvres pendant le discours. Étant donné plusieurs vidéos où une personne répète la même phrase plusieurs fois, nous étudions le mouvement des lèvres dans l'une de ces vidéos et on sélectionne certaines images clés comme images de synchronisation. Après, on synchronise le reste des vidéos par rapport au images clés de la première vidéo. Enfin toutes les vidéos sont normalisées temporellement par interpolation à l'aide de "morphing".
Fichier principal
Vignette du fichier
Thesis-Saeed.pdf (1.6 Mo) Télécharger le fichier
Loading...

Dates and versions

pastel-00005849 , version 1 (05-03-2010)

Identifiers

  • HAL Id : pastel-00005849 , version 1

Cite

Usman Saeed. Lip Analysis for Person recognition. Signal and Image processing. Télécom ParisTech, 2010. English. ⟨NNT : ⟩. ⟨pastel-00005849⟩
390 View
1887 Download

Share

Gmail Facebook Twitter LinkedIn More