Enrichissement de la conférence audio en voix sur IP au travers de l'amélioration de la qualité et de la spatialisation sonore

Arnault Nagle

Résumé

Ce travail de thèse s'intéresse à la conférence audio en Voix sur IP et plus précisément à son enrichissement au travers de l'amélioration de la qualité (bande élargie et traitement d'amélioration) et de la spatialisation sonore. Cette évolution de la conférence audio sera examinée à la lumière des architectures centralisée et distribuée de la conférence sur IP standard. L'objectif est d'étudier des solutions en termes d'architecture intégrant la spatialisation et des extensions pour gérer et contrôler cette spatialisation. Il conviendra aussi d'effectuer les tests montrant les qualités audio et de spatialisation résultantes. Notre première contribution a été de proposer des architectures permettant d'allier la conférence audio en voix sur IP, les méthodes de spatialisation retenues, les terminaux ou pont de conférence ainsi que les traitements d'améliorations connus (annulation d'écho ou de bruit, etc.). Nous avons montré qu'il semblait difficile par exemple d'utiliser conjointement la spatialisation et la commutation de flux. Par contre la solution utilisant un pont mixeur ne présentait pas d'inconvénient pour inclure la spatialisation tout en conservant l'ensemble des traitements de qualité. Par cette configuration, nous garantissons en plus l'interopérabilité avec les réseaux voix existants. Les solutions distribuées sont tout autant réalisables dans la théorie mais pâtissent actuellement des limites des terminaux. Pour une interopérabilité avec les autres réseaux voix, il est en plus nécessaire d'avoir une entité de mixage pour créer un contenu monophonique. Par la suite, nous avons souligné les avantages et les inconvénients de l'utilisation de pont de conférence de type mixeur et de type répliquant pour proposer une solution de pont mixte. Cette solution fonctionne tantôt en mode répliquant, tantôt en mode mixeur suivant les capacités des terminaux. Par ailleurs, nous avons validé une méthode de réduction de la bande passante d'un pont répliquant vers un terminal, basée sur le masquage auditif. La seconde contribution de nos travaux consiste en de nouvelles solutions protocolaires adaptées à la gestion et au contrôle de la spatialisation. Nous avons donc défini les extensions nécessaires à la gestion et au transport du son spatialisé. Nous avons tout d'abord défini les spécifications permettant de commander un positionnement de locuteurs dans une conférence audio spatialisée. Nous avons cherché à présenter toutes les solutions possibles pour les gestions automatique ou manuelle. Dans le cas de la spatialisation sur un pont de conférence, nous avons ainsi souligné le fait que cette gestion ne pouvait se faire par l'intermédiaire du protocole SIP, car ce n'est pas le rôle de ce dernier de transporter dans ses messages des informations sur les contenus ou des commandes de spatialisation. Nous avons proposé une solution basée sur ce qui se fait dans les conférences audio standard : une solution de web-pilotage certes propriétaire à chaque fournisseur de services mais en cohérence avec la gestion des protocoles de Voix sur IP. Pour la conférence avec un pont mixeur, nous avons établi les paramètres du protocole de signalisation SIP nécessaires au transport de flux asymétriques tout en garantissant une interopérabilité avec les terminaux existants. La nécessité de transporter ces flux asymétriques est due à notre hypothèse de départ concernant l'équipement des terminaux : prise de son monophonique et restitution sur casque ou deux haut-parleurs. Notre troisième contribution s'exprime au travers d'une campagne de tests pour valider nos solutions en termes de qualité audio et de qualité de spatialisation. Ces tests nous ont amené à définir des nouveaux protocoles adaptés à ces architectures audio spatialisées. Nous justifions dans un premier temps nos choix de codeurs et dans un second temps nos choix de tests. Nous avons montré dans un premier temps que les codeurs n'étaient pas perçus de la même façon suivant que l'on écoute en écoute monaurale ou en écoute diotique. Il ressort de ces tests que les codeurs G.711 (PCM) et G.722 (ADPCM) sont les plus adaptés à la conférence audio centralisée avec une qualité jugée nettement supérieure aux codeurs CELP. Ces deux codeurs sont de plus de faible complexité, robustes au transcodage, à la perte de trames, au transport de contenu binaural et au transport de contenus multi-locuteur. Quant aux codeurs CELP, ils sont à utiliser uniquement lorsque les contraintes de débit sont fortes. Concernant la conférence audio distribuée wideband, les codeurs AMR-WB à 23.85 kbits/s, G.729.1 à 32 kbits/s et G.722 à 64 kbits/s semblent les plus adaptés quelle que soit la perte de trames. Ils ont une qualité jugée équivalente. En narrowband, les codeurs G.711, AMR à 12.2 kbits/s et G.729.1 à 12 kbits/s obtiennent les meilleures notes de qualité, quelle que soit la perte de trames. Au final, dans tous les cas distribués, le choix du codeur dépendra des contraintes de l'application suivant un compromis complexité/débit.

Enrichissement de la conférence audio en voix sur IP au travers de l'amélioration de la qualité et de la spatialisation sonore

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager