Modèle statistique de l'animation expressive de la parole et du rire pour un agent conversationnel animé

Résumé : Notre objectif est de simuler des comportements multimodaux expressifs pour les agents conversationnels animés ACA. Ceux-ci sont des entités dotées de capacités affectives et communicationnelles; ils ont souvent une apparence humaine. Quand un ACA parle ou rit, il est capable de montrer de façon autonome des comportements multimodaux pour enrichir et compléter son discours prononcé et transmettre des informations qualitatives telles que ses émotions. Notre recherche utilise les modèles d’apprentissage à partir données. Un modèle de génération de comportements multimodaux pour un personnage virtuel parlant avec des émotions différentes a été proposé ainsi qu’un modèle de simulation du comportement de rire sur un ACA. Notre objectif est d'étudier et de développer des générateurs d'animation pour simuler la parole expressive et le rire d’un ACA. En partant de la relation liant prosodie de la parole et comportements multimodaux, notre générateur d'animation prend en entrée les signaux audio prononcés et fournit en sortie des comportements multimodaux. Notre travail vise à utiliser un modèle statistique pour saisir la relation entre les signaux donnés en entrée et les signaux de sortie; puis cette relation est transformée en modèle d’animation 3D. Durant l'étape d’apprentissage, le modèle statistique est entrainé à partir de paramètres communs qui sont composés de paramètres d'entrée et de sortie. La relation entre les signaux d'entrée et de sortie peut être capturée et caractérisée par les paramètres du modèle statistique. Dans l'étape de synthèse, le modèle entrainé est utilisé pour produire des signaux de sortie (expressions faciale, mouvement de tête et du torse) à partir des signaux d'entrée (F0, énergie de la parole ou pseudo-phonème du rire). La relation apprise durant la phase d'apprentissage peut être rendue dans les signaux de sortie. Notre module proposé est basé sur des variantes des modèles de Markov cachés (HMM), appelées HMM contextuels. Ce modèle est capable de capturer la relation entre les mouvements multimodaux et de la parole (ou rire); puis cette relation est rendue par l’animation de l’ACA.
Type de document :
Thèse
Intelligence artificielle [cs.AI]. Télécom ParisTech, 2014. Français. 〈NNT : 2014ENST0050〉
Liste complète des métadonnées

Littérature citée [124 références]  Voir  Masquer  Télécharger

https://pastel.archives-ouvertes.fr/tel-01354335
Contributeur : Abes Star <>
Soumis le : jeudi 18 août 2016 - 15:49:08
Dernière modification le : jeudi 11 janvier 2018 - 06:23:39
Document(s) archivé(s) le : samedi 19 novembre 2016 - 19:21:05

Fichier

TheseDing2.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01354335, version 1

Citation

Yu Ding. Modèle statistique de l'animation expressive de la parole et du rire pour un agent conversationnel animé. Intelligence artificielle [cs.AI]. Télécom ParisTech, 2014. Français. 〈NNT : 2014ENST0050〉. 〈tel-01354335〉

Partager

Métriques

Consultations de la notice

330

Téléchargements de fichiers

91