Accélération matérielle pour le rendu de scènes multimédia vidéo et 3D

Christophe Cunat

Résumé

Two fields that used to be well separated are converging: 3D graphics and video coding. The emergence of new standards (such as, for example, MPEG-4) which provide to final users multimedia services makes this convergence easier. Thanks to
the concept of object coding, a scene can finally be reconstructed by the composition of various objects in a given order.
This thesis deals with the general framework of visual objects composition. The kinds of objects that can be composed are also various: video sequences, still pictures, synthetic 3D objects, etc. However, the computational power requested in order to perform the composition is still prohibitive without any dedicated hardware and becomes critical in the context of mobile devices.
Algorithmic and architectural reviews are performed in order to determine points that are shared between each field and to emphasize their differences. Next, three (interlinked) major axes of thought are explored: data representation, data accesses
and processing organisation.
The concrete case of a mobile device for labiophony allows the direct application of previous results. The labiophony is a smartphone application where the speaker face is reconstructed from a triangle mesh with texture mapping. A single architecture, able to equally process video sequences and triangle meshes, is defined. Finally, the architecture is synthesized and mapped into a prototyping platform. A comparison between this architecture and existing solutions can be performed.

Un processus de convergence des techniques algorithmiques de deux domaines autrefois disjoints, convergence facilité par l'émergence de normes telles que MPEG-4, s'est engagé au cours de ces dernières années. Grâce au concept de codage par objets, une scène peut être reconstituée par la composition de divers objets dans un ordre déterminé.
Cette thèse s'inscrit dans le cadre de la composition d'objets visuels qui peuvent être de natures différentes (séquences vidéo, images fixes, objets synthétiques 3D, etc.). Néanmoins, les puissances de calcul nécessaires afin d'effectuer cette composition demeurent prohibitives sans mise en place d'accélérateurs matériels spécialisés et deviennent critiques dans un contexte de terminal portable.
Une revue tant algorithmique qu'architecturale des différents domaines est effectuée afin de souligner à la fois les points de convergence et de différence. Ensuite, trois axes (interdépendants) de réflexions concernant les problématiques de représentation des données, d'accès aux données et d'organisation des traitements sont principalement discutés.
Ces réflexions sont alors appliquées au cas concret d'un terminal portable pour la labiophonie : application de téléphonie où le visage de l'interlocuteur est reconstruit à partir d'un maillage de triangles et d'un placage de texture. Une architecture unique d'un compositeur d'image capable de traiter indifféremment ces objets visuels est ensuite définie. Enfin, une synthèse sur une plateforme de prototypage de cet opérateur autorise une comparaison avec des solutions existantes, apparues pour la plupart au cours de cette thèse.

Accélération matérielle pour le rendu de scènes multimédia vidéo et 3D

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager