New insights into hierarchical clustering and linguistic normalization for speaker diarization

Résumé : Face au volume croissant de données audio et multimédia, les technologies liées à l'indexation de données et à l'analyse de contenu ont suscité beaucoup d'intérêt dans la communauté scientifique. Parmi celles-ci, la segmentation et le regroupement en locuteurs, répondant ainsi à la question 'Qui parle quand ?' a émergé comme une technique de pointe dans la communauté de traitement de la parole. D'importants progrès ont été réalisés dans le domaine ces dernières années principalement menés par les évaluations internationales du NIST. Tout au long de ces évaluations, deux approches se sont démarquées : l'une est bottom-up et l'autre top-down. L'ensemble des systèmes les plus performants ces dernières années furent essentiellement des systèmes types bottom-up, cependant nous expliquons dans cette thèse que l'approche top-down comporte elle aussi certains avantages. En effet, dans un premier temps, nous montrons qu'après avoir introduit une nouvelle composante de purification des clusters dans l'approche top-down, nous obtenons des performances comparables à celles de l'approche bottom-up. De plus, en étudiant en détails les deux types d'approches nous montrons que celles-ci se comportent différemment face à la discrimination des locuteurs et la robustesse face à la composante lexicale. Ces différences sont alors exploitées au travers d'un nouveau système combinant les deux approches. Enfin, nous présentons une nouvelle technologie capable de limiter l'influence de la composante lexicale, source potentielle d'artefacts dans le regroupement et la segmentation en locuteurs. Notre nouvelle approche se nomme Phone Adaptive Training par analogie au Speaker Adaptive Training
Type de document :
Thèse
Other. Télécom ParisTech, 2012. English. 〈NNT : 2012ENST0019〉
Liste complète des métadonnées

https://pastel.archives-ouvertes.fr/pastel-00958322
Contributeur : Abes Star <>
Soumis le : mercredi 12 mars 2014 - 11:42:08
Dernière modification le : jeudi 11 janvier 2018 - 06:23:38
Document(s) archivé(s) le : jeudi 12 juin 2014 - 11:11:59

Fichier

these_Bozonnet.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : pastel-00958322, version 1

Citation

Simon Bozonnet. New insights into hierarchical clustering and linguistic normalization for speaker diarization. Other. Télécom ParisTech, 2012. English. 〈NNT : 2012ENST0019〉. 〈pastel-00958322〉

Partager

Métriques

Consultations de la notice

388

Téléchargements de fichiers

1333