Mise en correspondance de partitions en vue du suivi d'objets - Archive ouverte HAL Access content directly
Theses Year : 2001

Mise en correspondance de partitions en vue du suivi d'objets

Cristina Gomila
  • Function : Author

Abstract

In the field of multimedia applications, the incoming standards promote the creation of new ways of communication, access and manipulation of audiovisual information that go far beyond the plain compression obtained by the preceding coding norms. Among the new functionalities, it is expected that the user will be allowed to access the image content by editing and manipulating the objects of interest. Nevertheless, standards are restricted to object representation and coding, leaving opened a large field of development concerning the problem of object extraction and tracking when they move along a video sequence. In a first step, we have proceeded to the study and fine tuning of widespread applicated algorithms for image filtering and segmentation, being these tools at the basis of all contentbased image and video analysis systems. More particularly, we have focused on a novel class of morphological filters known as levelings, as well as on a variant of the segmentation algorithms based on the constrained ooding of a gradient image. Segmentation techniques aim at yielding a partition image as close as possible to the one produced by the human eye, with a view to the later object recognition. Nevertheless, in most cases this last task needs human interaction. However, when we would like to retrieve an object from large collection of images, or when we would like to track an object through a long sequence, the surveillance of each image becomes infeasible. To face these situations, the development of matching algorithms able to propagate the information through a series of images become essential, human interaction being limited to a initialization step. Going from still images to sequences, the core of this thesis is devoted to the study of the partition matching problem. The method we have developed, named Joint Segmentation and Matching technique (JSM), can be defined as being of hybrid nature. It combines classical algorithms of graph matching with new editing techniques based on the hierarchy of partitions resulting from morphological segmentation. This mix provides a very robust algorithm, in spite of the instability classically associated to the segmentation processes. The result of segmenting two images can strongly differ if the segmentation process produces a single partition image, however we have shown that results are much more stable when producing a hierarchy of nested partitions, in which all contours are present and ranked through a weighted value. The JSM technique is considered a very promising approach according to the obtained results. Being flexible and powerful, it allows the recognition of an object when it reappears after occlusion thanks to the management of a memory graph. Although we have particularly focused our interest on the tracking problem, the developed algorithms can be extended to a large field of applications, being specially suited to perform object retrieval from image or video sequences databases. Finally, in the framework of the European project M4M (MPEG f(o)ur mobiles), we have focused on the development and implementation of a real-time demonstrator for detecting, segmenting and tracking the speaker in videophone sequences. In the view of this application, the real-time constraint has become the greatest challenge to overcome, forcing us to simplify and optimize our algorithms. The main interest in terms of new services is twofold : on one hand the automatic segmentation of the speaker permits the object-based coding, reducing the bitrate without loss of quality on the regions of interest ; on the other hand, it allows the user to edit the sequences by changing the scene composition, for example by introducing a new background, or grouping several speakers in a virtual meeting room.
Dans le domaine des applications multimédia, les futurs standards vont permettre de créer de nouvelles voies de communication, d'accès et de manipulation de l'information audiovisuelle qui vont bien au-delà de la simple compression à laquelle se limitaient les standards de codage précédents. Parmi les nouvelles fonctionnalités, il est espéré que l'utilisateur pourra avoir accès au contenu des images par édition et manipulation des objets présents. Néanmoins, la standardisation ne couvre que la représentation et le codage de ces objets, en laissant ouvert un large champ de développement pour ce qui concerne la probl ématique liée à leur extraction et à leur suivi lorsqu'ils évoluent au long d'une séquence vidéo. C'est précisément sur ce point que porte cette thèse. Dans un premier temps, nous avons procédé à l' étude et à la mise au point d'algorithmes de filtrage et de segmentation à caractère générique, car ces outils sont à la base de tout système d'analyse du contenu d'une image ou d'une séquence. Plus concr ètement, nous avons étudié en détail une nouvelle classe de filtres morphologiques connus sous le nom de nivellements ainsi qu'une variation des algorithmes de segmentation basée sur l'inondation contrainte d'une image gradient. Les techniques de segmentation ont pour but de produire une partition de l'image aussi proche que possible de celle faite par l' oeil humain, en vue de la reconnaissance postérieure des objets. Néanmoins, dans la plupart des cas, cette dernière tâche ne peut être faite que par interaction humaine et, pourtant, lorsqu'on veut retrouver un objet dans une large collection d'images, ou suivre son évolution au long d'une s équence, la surveillance de chacune des partitions devient impossible. S'impose alors le développement d'algorithmes de mise en correspondance capables de propager l'information dans une série d'images, en limitant l'interaction humaine à une seule étape d'initialisation. En faisant le passage des images fixes aux séquences, la partie centrale de cette thèse est consacrée à l' étude du problème de la mise en correspondance de partitions. La méthode que nous avons développée, nommée technique de Segmentation et Appariement Conjoint (SAC), peut être définie comme étant de nature hybride. Elle combine des algorithmes classiques de mise en correspondance de graphes avec de nouvelles techniques d' édition, basées sur les hiérarchies de partitions fournies par la segmentation morphologique. Cette combinaison a donné lieu à un algorithme très robuste, malgré l'instabilité typiquement associée aux processus de segmentation. La segmentation de deux images peut différer fortement si on la considère du seul point de vue d'une partition unique ; néanmoins nous avons montré qu'elle est beaucoup plus stable si on considère des hiérarchies de partitions emboîtées, dans lesquelles tous les contours présents apparaissent, chacun avec une valuation indiquant sa force. Les résultats obtenus par la technique SAC ont fait d'elle une approche très prometteuse. Souple et puissante, elle est capable de reconnaître un objet lorsqu'il réapparaît après occultation grâce à la gestion d'un graphe de mémoire. Bien que nous nous soyons int éressés tout particulièrement à la problématique du suivi, les algorithmes mis au point ont un champ d'application beaucoup plus vaste dans le domaine de l'indexation, en particulier pour la recherche d'objets dans une base de données d'images ou de séquences. Finalement, dans le cadre du projet européen M4M (MPEG f(o)ur mobiles) nous avons abordé la mise en oeuvre d'un démonstrateur de segmentation en temps réel capable de détecter, segmenter et suivre un personnage dans des séquences de vidéophonie. Dans le cadre de cette application, la contrainte du temps réel est devenue le grand d éfi à surmonter, en nous obligeant a simplifier et à optimiser nos algorithmes. L'int erêt principal en termes des nouveaux services est double : d'un côté le détourage automatique du locuteur permettrait d'adapter le codage à l'objet, économisant du débit sans perte de qualité sur les régions d'int erêt ; d'un autre côté il permettrait de faire l' édition personnalisée des séquences en changeant la composition de la scène, par exemple en introduisant un nouveau fond, ou en disposant plusieurs locuteurs dans une salle de conférence virtuelle.
Fichier principal
Vignette du fichier
These_Gomila.pdf (26.98 Mo) Télécharger le fichier
Loading...

Dates and versions

pastel-00003272 , version 1 (11-01-2008)

Identifiers

  • HAL Id : pastel-00003272 , version 1

Cite

Cristina Gomila. Mise en correspondance de partitions en vue du suivi d'objets. Mathematics [math]. École Nationale Supérieure des Mines de Paris, 2001. English. ⟨NNT : ⟩. ⟨pastel-00003272⟩
439 View
370 Download

Share

Gmail Facebook Twitter LinkedIn More