Mouvement et vidéo : estimation, compression et filtrage morphologique

Nicolas Laveau

Résumé

The PhD work developped in this document deals with the treatment of video sequences. This includes video compression for most of this thesis, but also spatio-temporal filtering and video segmentation. One of the recurrent analysis tools for each of these applications is motion measurement, that is the description of temporal coherence in a video sequence. A video compression system generally includes the three following components : motion estimation temporal and spatial transforms coefficient quantization and encoding We focus on each of these components successively. In a first time, we try to adapt a motion estimation scheme by optical flow projection of a complex-valued wavelet basis to a video compression use. The resulting field being dense and noise-sensitive, we introduce in the resolution a regularizing element in order to reduce its coding cost. In spite of a clear improvement brought by our modifications, the motion estimation scheme by projection on a wavelet basis is not competitive in comparison to block-matching which is the reference algorithm for video compression. It illustrates that the choice and the design of a scheme is tighly linked to the use for which it is intended : motion estimation schemes optimized for applications so diverse as video compression, filtering and segmentation or even 3D scene analysis are unlikely to be the same. In these experiments, we have used a motion measurement scheme which tries to optimize a criterion formally equivalent to a matching criterion for video compression on theoretical conditions which are not met in general. Such an approach is thus clearly sub-optimal. Fortiied of this observation, we have then developped another motion estimation scheme which relies on a piecewise bilinear motion field parametrization and which this time directly minimize the mean square error which is our evaluation criterion. We prove that it is possible to obtain good results when motion parameters are sparse. In video coding with temporal prediction, we need to encode heterogenous data such as motion fields or error prediction pictures. We have worked on rate allocation among error frames and more moderately between an error frame and a motion field.We have adapted a rate planification model introduced by Mallat and Falzon which was initially designed for still images and which is currently used in flow compression of satellite pictures. This approach proves to be better than others more classicaly used in video compression. To be able to perform a transform coding of motion fields and error frames, we tried to design new non-linear subband transform. With this intention, we have used the lifting scheme which insures the formal invertibility of the achievable transforms, whether these are linear or not. We have designed two new non-linear decompositions. The first one aims at reducing an artifact commonly called Gibbs' effect. This first decomposition consists in using a Deslauriers-Dubuc' predictor modified so as to reduce these artifacts. Our modification allows to reduce the ringing effect around the discontinuities at the moderate cost in terms of representation efficiency in the regular sections of the signal. The formulation avoids the lter-switching mechanism which is quite commonly used in this kind of approaches by using continuous operators such as min or max, so as to insure the transform continuity and thus its stability after quantization. The second one tries to improve the motion field wavelet decomposition by using the information each of its components gives on the other one. Indeed, our intuition leads us to believe that discontinuities are occurring at the same positions in both of its components. We take advantage of this fact to choose the prediction and update filters. In the two cases, the designed methods give encouraging results on synthesis signals but their effciency is lessen by using them on real data. One of the main difficulties is to design an update step in the lifting scheme. Moreover, the most efficient linear scheme is a 4-step scheme for which it is difficult to design a correspondant non-linear step since its properties are not easily read in the indivual steps of the lifting scheme. Lastly, we have transposed ideas from video compression to design morphological filtering operating on video sequences, which integrate the motion estimation by using structuring elements following the motion. The application of these ideas gives encouraging results in filtering and segmentation, in particular due to the strong spatio-temporal correlation introduced in the neighbourhoods : this approach leads to more stable segmentations since it imposes a much stronger correlation between region borders than temporally iterative schemes. We discuss then the possibilities of using sub-pixel accurate motion fields.

Le travail de thèse développé dans ce mémoire porte sur le traitement des séquences vidéos. Ceci inclut la compression pour une grande partie de la thèse, mais également le filtrage spatio-temporel et la segmentation vidéo. Un des outils d'analyse récurrent dans chacune de ces applications est la mesure du mouvement, c'est-à-dire la description de la cohérence temporelle d'une séquence vidéo. Un système de compression vidéo comprend généralement les trois composantes suivantes : estimation du mouvement, transformations temporelle et spatiale, quantification et codage des coefficients. Nous nous intéressons successivement à chacune de ces composantes. Dans un premier temps, nous essayons d'adapter une méthode d'estimation par projection du flot optique sur une base d'ondelettes à valeur complexe à la compression vidéo. Le champ obtenu étant dense et sensible au bruit, nous introduisons dans la résolution un élément de régularisation afin de diminuer son coût de codage. En dépit d'une nette amélioration apportée par nos modifications, la technique d'estimation par projection sur une base d'ondelettes n'est pas compétitive face au block-matching qui constitue l'algorithme de référence pour la compression vidéo. Cela illustre bien le fait que le choix et la conception d'une méthode sont étroitement liés à l'usage qui en est fait : des mé- thodes d'estimation de mouvement optimisées pour des applications aussi diverses que la compression vidéo, le filtrage et la segmentation, ou encore l'analyse de scènes 3D ont peu de chances d'être les mêmes. Dans ces expériences, nous avons utilisé une méthode visant à satisfaire un critère qui est équivalent à un critère d'appariement optimal pour la compression sous des conditions théoriques qui ne sont en général pas vérifiées. Une telle approche est donc visiblement sous-optimale. Forts de cette observation, nous avons ensuite développé une méthode de mesure de mouvement qui repose sur une paramétrisation du champ bilinéaire par morceaux, et qui minimise cette fois directement l'erreur quadratique moyenne qui est notre critère d'évaluation. Nous montrons qu'il est possible d'obtenir de bons résultats quand les paramètres du champ sont épars. Un codage vidéo avec une prédiction temporelle suppose de coder des données aussi hétérogènes que des champs de mouvement ou des images d'erreur. Nous avons travaillé sur l'allocation de débit entre images d'erreur et de manière moins approfondie entre image d'erreur et champ de mouvement. Nous avons adapté un modèle de planification de débit introduit par Mallat et Falzon qui a été initialement conçu pour des images statiques et qui est actuellement utilisé pour la compression au ot d'images satellitales. Cette approche se révèle meilleure que des approches plus classiquement utilisées en compression vidéo. Pour pouvoir effectuer un codage par transformée du champ et des images d'erreur, nous avons cherché à concevoir de nouvelles transformations en sous-bandes non-linéaires. Pour cela, nous avons utilisé le schéma de lifting, qui garantit l'inversibilité formelle des transformations qu'il peut réaliser, que celles-ci soient linéaires ou non. Nous avons construit deux nouvelles décompositions non-linéaires. La première vise à réduire un artéfact communément appelé e et de Gibbs. Cette première décomposition consiste à utiliser un prédicteur de Deslauriers-Dubuc modifié de manière à réduire ces artéfacts. La modification introduite permet effectivement de réduire les oscillations autour de discontinuités en échange d'un surcoût modeste en terme d'efficacité de représentation dans les sections régulières du signal représenté. La formulation évite le mécanisme de transition d'un filtre à l'autre relativement habituel dans ce genre d'approche en recourant à des opérateurs continus de type min et max, qui permettent de garantir la continuité de la transformation et donc sa stabilité après quantification. L'autre se propose d'améliorer la décomposition en ondelettes du champ de mouvement en utilisant l'information qu'apporte chacune de ses composantes sur l'autre. En effet, l'intuition nous incite à penser que les discontinuités sont présentes au même endroit dans chacune des composantes du mouvement. Nous nous servons de cette co-occurrence des discontinuités pour choisir le filltre de prédiction. Dans les deux cas, les méthodes mises au point donnent des résultats positifs sur des signaux de synthèse mais perdent en efficacité sur des signaux réels. Une des grandes difficultés est de mettre au point un étage de mise-à-jour dans le schéma de lifting. Par ailleurs, le schéma linéaire le plus efficace est un schéma à 4 étages pour lequel il est difficile de concevoir un concurrent non-linéaire dans la mesure où ses propriétés sont difficilement lisibles sur les étages individuels du schéma de lifting. Nfin transposé des idées rencontrées en compression vidéo pour dé nir des opérations de filtrage morphologique vidéo intégrant la mesure du mouvement, utilisant des éléments structurants qui suivent le mouvement. L'application de ces idées donne des résultants probants en filltrage et en segmentation, en particulier grâce à une forte cohérence spatio-temporelle introduite dans les voisinages : cette approche donne des résultats de segmentation plus stables puisqu'elle impose une cohérence temporelle beaucoup plus forte aux frontières des régions que les méthodes itératives en temps. Nous discutons ensuite des possibilités d'utilisation de champs de mouvement à précision sous-pixellique.

Mouvement et vidéo : estimation, compression et filtrage morphologique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager