Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant

Shiuan Sung Lin

Thèse Année : 2007

Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant

(1)

Shiuan Sung Lin

Fonction : Auteur

Laboratoire Traitement et Communication de l'Information

Résumé

Les trois sources principalement utilisées en reconnaissance vocale automatique (Automatic Speech Recognition, ASR) sont les modèles acoustiques, le dictionnaire et le modèle de langage. Elles sont habituellement conçues et optimisées de manière séparée. Notre travail a proposé une méthodologie, à savoir un apprentissage discriminant sur un grand graphe de décodage, pour optimiser conjointement les paramètres de ces différents modèles, en se fondant sur l'intégration des ressources dans un transducteur fini pondéré dont les poids des transitions sont estimés par de manière discriminante. Dans ce cadre d'apprentissage, les paramètres du modèle sont ajustés itérativement de façon à réduire progressivement le nombre d'erreurs de retranscription commises par le système. Nous considérons en particulier dans ce travail de mettre en oeuvre ce cadre d'apprentissage pour une tâche de reconnaissance à « grand vocabulaire » : la transcription automatique des nouvelles de la radio française. Nous proposons plusieurs techniques pour un accélérer les algorithmes de décodage, afin de rendre ce type d'apprentissage computationnellement faisable. Une série d'expériences conduites sur cette tâche montrent qu'une reduction de 1 point du taux d'erreur de retranscription peut être obtenu, démontrant que cette méthodologie d'apprentissage permet d'améliorer les performances des systèmes de reconnaissance. Diverses extensions de cette méthode seront finalement présentées et discutées.

Domaines

Fichier principal

thesis.pdf (1.45 Mo)

Ecole Télécom ParisTech : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00002785

Soumis le : jeudi 24 janvier 2008-08:00:00

Dernière modification le : lundi 9 octobre 2023-12:49:40

Archivage à long terme le : samedi 26 novembre 2016-14:46:13

Dates et versions

pastel-00002785 , version 1 (24-01-2008)

Identifiants

HAL Id : pastel-00002785 , version 1

Citer

Shiuan Sung Lin. Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant. domain_other. Télécom ParisTech, 2007. English. ⟨NNT : ⟩. ⟨pastel-00002785⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL CNRS PARISTECH LTCI

215 Consultations

822 Téléchargements

Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager