Bandwidth extension tools for audio digital signals - Archive ouverte HAL Access content directly
Theses Year : 2002

Bandwidth extension tools for audio digital signals

Techniques d'enrichissement de spectre des signaux audionumériques

(1)
1

Abstract

To maintain a reasonable perceived quality and to reduce degradations, classical audio or speech source coding algorithms need to limit the audio bandwidth and to operate at low sampling rates. For a data rate of 20 kbit/s for instance, the bandwidth of audio signals doesn't exceed 6kHz with classical audio coders. The signals produced suffer from some quality degradation due to the lack of high energy components. To overcome this problem, new methods for improving the quality of bandlimited signal are proposed in this document. With the use of a little more transmitted information, bandwidth extension tools allow the recovery of spectral highband components and thus enhance the quality of such bandlimited signals. The method exploits signal redundancy in the spectral domain and uses lowband components to synthesise the fullband signal. This thesis was completed through a contract with France Telecom R&D. The project aim was to design an effective and low bitrate bandwidth extension tool. The PAT (Perceptual Audio Transposition) technology produced during these 3 years was proposed in DRM (Digital Radio Mondiale) and MPEG-4 (Moving Picture Experts Group) consortiums. This document is split into four parts. Based on psychoacoustics properties and characteristics of treated audio signals, the first part introduces bandwidth extension tools. According to these considerations, a first bandwidth extension scheme is introduced. The process of bandwidth extension can be divided in two independent tasks: the extension of the frequency components (high frequency regeneration) and the highband spectral envelope estimation. The second part is dedicated to estimation, coding and adjustment of the spectral envelope. Two particular techniques are considered: The first method is based on linear prediction, and the second method consists of modelling the spectral envelope in the frequency domain. The third part examines in detail several techniques for high frequency regeneration. In particular, spectral translations in the frequency domain and non-linear distortions are developed. Finally, in the fourth part, a new bandwidth extension scheme is proposed. Subjective tests evaluate the performances of this technique in the context of MPEG-4 normalisation. A new method for highband audio compression techniques is introduced in this document. For same quality, subjective tests demonstrate that the bitrate reduction is about 25%. This new bandwidth extension tool demonstrates high performance in audio coding.
Afin de limiter les dégradations liées au codage bas-débit des signaux audionumériques, la stratégie adoptée par la plupart des systèmes de compression de parole et de musique consiste à ne pas transmettre le contenu hautes-fréquences. C'est ainsi qu'aux environs des 20kbit/s, les codeurs de musique actuels ne restituent pas les sons avec leur qualité naturelle (leur bande passante étant limitée aux environs des 6kHz). Les sons ainsi codés/décodés deviennent ternes et perdent de leur qualité. On se propose d'étudier dans cette thèse de nouvelles techniques susceptibles de palier à cette perte des aigus. Les systèmes d'enrichissement de spectre permettent, avec très peu de données additionnelles, de rehausser la bande passante, et donc la qualité de ces signaux à bande-limitée. Le principe de ces techniques consiste à exploiter les informations comprises dans le spectre basse-fréquence afin de synthétiser le signal pleine-bande de qualité proche de celle de l'original. Dans le cadre d'un contrat financé par France Télécom R&D , l'objectif de cette thèse est la réalisation d'un système d'enrichissement de spectre des signaux audionumériques (parole et musique). La technique PAT (Perceptual Audio Transposition) implémentée a fait l'objet de deux propositions de normalisation dans les instances DRM (Digital Radio Mondiale) et MPEG-4 (Moving Picture Experts Group). Le document est structuré en 4 parties. La première partie s'attache à introduire les principes de l'extension de bande en se fondant sur les propriétés psychoacoustiques et les caractéristiques des signaux audio mis en jeux. Grâce à cette étude préalable, l'enrichissement des signaux sonores est réalisé en deux étapes: une étape d'extension de la structure fine du spectre et une étape d'ajustement de l'enveloppe, qui font l'objet des deux chapitres suivants. Ainsi, la seconde partie est consacrée aux techniques d'estimation, de transmission et d'ajustement d'enveloppe spectrale. Deux techniques particulières sont développées: L'une basée sur la prédiction linéaire et l'autre sur la modélisation d'enveloppe par facteurs d'échelle dans le domaine fréquentiel. Dans la troisième partie, les différentes solutions permettant d'étendre la structure fine spectrale sont abordées. L'étude s'est portée notamment sur les translations de spectre dans le domaine fréquentiel et sur les distorsions non-linéaires. Enfin, en quatrième partie, on présente un schéma complet d'enrichissement de spectre avant d'en évaluer ses performances dans le cadre de la normalisation MPEG-4. Une toute nouvelle technique de compression des signaux audionumériques est ainsi introduite dans cette thèse. Celle-ci a montré un réel intérêt dans le domaine de la compression du son. Pour une qualité équivalente, la réduction de débit obtenue est de l'ordre de 25%.
Fichier principal
Vignette du fichier
Bandwidth_Extension_Tools_Patrice_Collen_Nov_2002.pdf (1.69 Mo) Télécharger le fichier

Dates and versions

pastel-00000512 , version 1 (19-01-2004)

Identifiers

  • HAL Id : pastel-00000512 , version 1

Cite

Patrice Collen. Bandwidth extension tools for audio digital signals. domain_other. Télécom ParisTech, 2002. English. ⟨NNT : ⟩. ⟨pastel-00000512⟩
206 View
846 Download

Share

Gmail Facebook Twitter LinkedIn More