Vers le temps réel en transcription automatique de la parole grand vocabulaire

Leila Zouari

Résumé

Large vocabulary speech recognition systems based on hidden Markov models (HMM) make use of many tens of thousands of Gaussian distributions to achieve improved recognition. Hence, the computation of the state likelihood is time consuming. As the performance and the speed of such recognition systems are closely related to the number of HMM Gaussians, reducing the number of Gaussians without decreasing the system performance is of major interest.
Assuming that only few Gaussians dominate the state likelihood, Gaussian selection techniques have been developed to detect them. These techniques are based on classification and can be divided into two categories: state and model based methods.
In order to improve the state-based Gaussian selection we propose an original clustering and a multi-level Gaussian selection.
The clustering algorithm use a new Gaussian similarity distance.
In model based methods the classification is applied to the Gaussian distributions of all the models. The contextual information is lost due to merging distributions of the different contexts. So we introduce a contextual Gaussian selection.
In recent years, as an alternative to the Gaussian selection, sub-vector quantization was successfully used to reduce the acoustic models complexity. Unfortunally, these techniques make use of the classification by merging different contexts. Hence we investigate a contextual sub-vector quantization.
The proposed algorithms are evaluated within a framework of large vocabulary continuous speech recognition. Results outperform some existing methods.

Malgré les progrés importants réalisés ces dernières décennies, les systèmes de reconnaissance de la parole spontanée grand vocabulaire sont encore beaucoup trop lents pour être utilisés dans des contextes réels. Le travail effectué au cours de cette thèse s'attache alors à proposer des méthodes de réduction du temps de calcul de ces systèmes en vue de permettre leur utilisation dans de tels contextes.
Parmi les tâches pour lesquelles l'optimisation du temps de reconnaissance est possible, nous nous sommes concentrés sur le calcul des probabilités des modèles, tâche occupant à elle seule souvent plus de la moitié du temps global de traitement. Les distributions des modles acoustiques utilisés par les systèmes de reconnaissance sont généralement représentées par des mélanges de gaussiennes. Le calcul des probabilités d'émissions relatives est donc particulièrement lié au nombre de gaussiennes considérées dans ces mélanges. Notre travail s'est porté alors sur la proposition et l'évaluation de méthodes de sélection de gaussiennes.
Les méthodes de sélection de gaussiennes existantes sont basées sur la classification. Pour améliorer cette classification, nous avons proposé une approche de partitionnement hiérarchique basée sur la similarité entre les distributions gaussiennes. La distance de Kullback-Leibler symétrisée et pondérée a été introduite à cet effet. Suite à la classification des gaussiennes, un algorithme de sélection multi-niveaux est appliqué.
Les mélanges de distributions gaussiennes correspondent à des contextes d'apparition différents. Malheureusement, Les méthodes de sélection existantes ne prennent pas en compte ces différents contextes, puisque lorsque le nombre de gaussiennes par état est faible, toutes les distributions sont mélangées avant d' être regroupées. Ainsi, nous avons développé une méthode de sélection contextuelle des gaussiennes.
Les méthodes de sous-quantification vectorielle sont apparues comme une alternative aux approches basées sur la sélection des gaussiennes. En regroupant toutes les distributions, elles mélangent certains contextes. Ainsi, nous avons introduit une sous-quantification vectorielle contextuelle.

Towards real time in large vocabulary speech recognition

Vers le temps réel en transcription automatique de la parole grand vocabulaire

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager