Skip to Main content Skip to Navigation
Theses

New insights into hierarchical clustering and linguistic normalization for speaker diarization

Résumé : Face au volume croissant de données audio et multimédia, les technologies liées à l'indexation de données et à l'analyse de contenu ont suscité beaucoup d'intérêt dans la communauté scientifique. Parmi celles-ci, la segmentation et le regroupement en locuteurs, répondant ainsi à la question 'Qui parle quand ?' a émergé comme une technique de pointe dans la communauté de traitement de la parole. D'importants progrès ont été réalisés dans le domaine ces dernières années principalement menés par les évaluations internationales du NIST. Tout au long de ces évaluations, deux approches se sont démarquées : l'une est bottom-up et l'autre top-down. L'ensemble des systèmes les plus performants ces dernières années furent essentiellement des systèmes types bottom-up, cependant nous expliquons dans cette thèse que l'approche top-down comporte elle aussi certains avantages. En effet, dans un premier temps, nous montrons qu'après avoir introduit une nouvelle composante de purification des clusters dans l'approche top-down, nous obtenons des performances comparables à celles de l'approche bottom-up. De plus, en étudiant en détails les deux types d'approches nous montrons que celles-ci se comportent différemment face à la discrimination des locuteurs et la robustesse face à la composante lexicale. Ces différences sont alors exploitées au travers d'un nouveau système combinant les deux approches. Enfin, nous présentons une nouvelle technologie capable de limiter l'influence de la composante lexicale, source potentielle d'artefacts dans le regroupement et la segmentation en locuteurs. Notre nouvelle approche se nomme Phone Adaptive Training par analogie au Speaker Adaptive Training
Document type :
Theses
Complete list of metadatas

https://pastel.archives-ouvertes.fr/pastel-00958322
Contributor : Abes Star :  Contact
Submitted on : Wednesday, March 12, 2014 - 11:42:08 AM
Last modification on : Friday, July 31, 2020 - 10:44:07 AM
Document(s) archivé(s) le : Thursday, June 12, 2014 - 11:11:59 AM

File

these_Bozonnet.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : pastel-00958322, version 1

Citation

Simon Bozonnet. New insights into hierarchical clustering and linguistic normalization for speaker diarization. Other. Télécom ParisTech, 2012. English. ⟨NNT : 2012ENST0019⟩. ⟨pastel-00958322⟩

Share

Metrics

Record views

470

Files downloads

2968