WO2005006811A1

WO2005006811A1 - Traitement de signal binaural a efficacite amelioree

Info

Publication number: WO2005006811A1
Application number: PCT/FR2003/001793
Authority: WO
Inventors: Sébastien Moreau
Original assignee: France Telecom
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2005-01-20
Also published as: AU2003255673A1

Abstract

L’invention concerne un procédé de traitement de signal de commande d’émission sonore binaurale, consistant à appliquer à ce signal de commande (xg, xd) un traitement (h1, h2, h3, h4) annulant des déformations acoustiques attendues (C1, C2, C3, C4), ce procédé étant caractérisé en ce qu’il met en oeuvre un tel traitement dans le domaine temporel.

Description

« Traitement de signal binaural à efficacité améliorée »

L'invention se situe dans le domaine de la spatialisation sonore, plus précisément dans celui des techniques dites binaurales dont le but est de restituer aux niveaux des tympans de l'auditeur des signaux dits binauraux qui seraient présents en situation d'écoute réelle, c'est-à-dire comportant les effets de filtrage créés par l'interaction des ondes sonores avec le corps de l'auditeur (torse, tête et pavillons des oreilles). Les signaux binauraux sont les signaux captés par les tympans dans une situation d'écoute réelle. Ils contiennent les effets de filtrage qui découlent de l'interaction entre le son et le corps (torse, tête et pavillons des oreilles principalement) de l'auditeur. Qu'ils soient enregistrés (à proximité des tympans) où synthétisés (grâce aux HRTF), ces signaux doivent donc être diffusés à proximité des tympans de l'auditeur. L'idée d'adapter des signaux binauraux à un dispositif de diffusion par haut-parleurs se retrouve dans les brevets de B.S. Atal et M.R. Schroeder (référence a). La technique décrite servait à l'analyse subjective d'acoustique de salles en recréant, après avoir mesuré des réponses impulsionnelles binaurales, la réverbération en certains points de chacune d'elle. Le binaural s'est ensuite développé comme véritable technique de création et de reproduction de champs sonores en trois dimensions. Les signaux binauraux nécessitent d'être reproduits au niveau des tympans de l'auditeur sans modification. Le moyen de diffusion le plus approprié est intuitivement le casque d'écoute. Cependant, son utilisation n'est parfois pas possible comme par exemple dans des situations où l'isolement avec l'extérieur n'est pas souhaité. D'autre part la diffusion par haut-parleurs de signaux binauraux préalablement adaptés permet de résoudre des problèmes inhérents à la diffusion par casque. Le casque peut donc poser parfois certains problèmes : sources sonores frontale perçues en hauteur, localisation in-head (à l'intérieur de la tête), inversion avant arrière dans la localisation des sources sonores notamment dues au caractère propre à un seul individu des signaux binauraux, mais aussi d'autres types de problèmes tels que l'isolement par rapport au monde réel. La diffusion par haut-parleurs peut alors permettre dans une certaine mesure de surmonter ces problèmes. Cependant, la diffusion telle quelle des signaux binauraux par haut- parleurs ne permet pas leur reproduction correcte aux niveau des tympans de l'auditeur (Figure 1 ). En effet, chacun des signaux binauraux destinés sans modification à une seule oreille va être perçu par les deux oreilles (trajets directs et trajets croisés) et de plus déformé lors de la propagation entre les haut-parleurs et les oreilles de l'auditeur (interaction du son avec le corps de ce dernier). Une technique de calcul de filtres permettant de traiter des signaux binauraux pour les diffuser par haut-parleurs est décrite à la référence [b] dans un contexte de synthèse de sources sonores virtuelles. La technique de calcul des filtres permettant ce traitement se situe dans le domaine fréquentiel. Le canal (ou chemin) acoustique de propagation des signaux lorsqu'ils sont émis par les haut-parleurs est compensé (inversé) pour un certain nombre de fréquences dépendant de la longueur de la transformée fréquentielle. Cette compensation, qui n'est pas exacte, se base sur la résolution d'un système linéaire dit aux moindres carrés. Un paramètre de régularisation dépendant de la fréquence influe sur la résolution. Ce paramètre de régularisation vise à réduire les erreurs engendrées lorsque la transformée fréquentielle est de longueur trop courte. La technique décrite à la référence [b] nécessite, du fait qu'elle ait lieu dans le domaine fréquentiel, que la longueur des filtres calculés soit importante pour en obtenir une bonne approximation et minimiser les effets indésirables de la convolution. Le paramètre de régularisation introduit dans le calcul des filtres a pour rôle de minimiser ces effets en réduisant la longueur effective de ces filtres. L'approximation visée des filtres est en contrepartie moins bonne. Le but est ici d'adapter les signaux binauraux à la diffusion par haut- parleurs, avec des performances satisfaisantes en comparaison avec celles obtenues jusqu'à présent avec les techniques connues. Pour cela, il s'agit d'une part de corriger au mieux (ou d'anticiper) les modifications subies par les signaux lors de leur propagation jusqu'aux tympans, et d'autre part d'annuler au mieux les trajets croisés entre haut- parleurs et oreilles opposées. On propose pour cela selon l'invention un procédé de traitement de signal de commande d'émission sonore binaurale, consistant à appliquer à ce signal de commande un traitement annulant une déformation acoustique, ce procédé étant caractérisé en ce qu'il met en œuvre un tel traitement dans le domaine temporel. On propose également selon l'invention un support d'information portant un signal de commande d'émission sonore binaurale caractérisé en ce qu'il est constitué d'une information sonore à laquelle a été appliqué un filtre temporel consistant en la multiplication par au moins une matrice qui constitue une transformation annulant la déformation de propagation sonore attendue lors de l'utilisation de ce support. On propose également un dispositif émetteur d'ondes sonores binaurales comprenant des haut-parleurs et un moyen de traitement d'au moins un signal de commande de haut-parleur, le moyen de traitement étant prévu pour appliquer au signal de commande un traitement d'annulation de déformation acoustique attendue, caractérisé en ce que les moyens de traitement sont prévus pour appliquer un tel traitement dans le domaine temporel. On propose en outre une onde sonore binaurale émise par un haut- parleur à partir d'un signal de commande du haut parleur, le signal de commande du haut-parleur consistant en un signal initial traité pour une annulation de la déformation acoustique attendue, caractérisé en ce que le signal de commande se présente sous la forme d'un signal initial ayant subi un tel traitement dans le domaine temporel. D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée qui va suivre, faite en référence aux figures annexées sur lesquelles : - la figure 1 représente une situation d'écoute classique ; - la figure 2 représente une implémentation d'écoute conforme à l'invention ; - les figures 4a à 6c sont des tracés réalisés dans le cadre d'une mise en œuvre de l'invention. On rappellera qu'on se donne au départ pour objectif optimal de reproduire aux niveaux des tympans de l'auditeur des signaux binauraux au moyen de haut-parleurs. A la figure 1, en situation d'écoute, la position exacte des hauts parleurs n'ayant pour l'instant aucune importance, les signaux alimentant les haut-parleurs sont les signaux y_G et y_D représentés chacun sous la forme d'un vecteur d'échantillons temporels. Les signaux captés par les tympans sont les signaux _G et x_D représentés également chacun sous la forme d'un vecteur d'échantillons temporels. Si y_G et y_D sont des signaux binauraux, chacun va être déformé lors de sa propagation jusqu'à chaque tympan de l'auditeur. Ces distorsions sont décrites par les filtres RIF de réponses impulsionnelles de longueur n c_{l t} c₂ , c₃ et c₄ entre les HP et les oreilles de l'auditeur. On va, dans la suite de la description, exposer la façon dont on élabore une étape de filtrage des signaux binauraux précédant leur diffusion par haut-parleurs, cette étape permettant de les reproduire identiques à eux-mêmes au niveaux des tympans de l'auditeur. La Figure 2 représente l'implémentation présentée ici du système d'écoute de signaux binauraux au moyen de deux haut-parleurs. On cherche à définir les réponses impulsionnelles h_x , h₂ , h₃ et h₄ des filtres RIF (réponse impulsionnelle finie) qui permettront de reproduire les signaux binauraux identiques à eux-mêmes au niveau des tympans de l'auditeur. Les filtres RIF définis par les réponses impulsionnelles C_j , c₂ , c₃ et c₄ sont les filtres qui caractérisent le canal acoustique entre les haut-parleurs et les oreilles de l'auditeur. Ce sont les réponses impulsionnelles mesurées ou calculées entre chaque haut-parleur et chaque oreille de l'auditeur (4 mesures) et qui peuvent prendre en compte les éventuels effets de réflexion, diffusion et diffraction du son créés par des obstacles présents dans l'environnement. Nous allons maintenant détailler le calcul des réponses impulsionnelles des filtres h^ h₂, h₃ et h₄ en se basant sur les notations de la Figure 2 qui sont les suivantes : x_G et x_D : les deux signaux binauraux destinés respectivement aux oreilles gauche et droite de l'auditeur, représentés chacun sous la forme d'un vecteur d'échantillons temporels. hi , h₂, h₃ et h₄ : réponses impulsionnelles de longueur m des filtres RIF à calculer. h_{1 =} [Λi(0) l (ï) - -l)]' , h₂ = |Λ(0) 72,(1) - h₂(m-\)] , h₃

. y _G ^et _D ^: '^es deux signaux alimentant respectivement les haut-parleurs gauche et droit, représentés chacun sous la forme d'un vecteur d'échantillons temporels. c_t , c₂ , c₃ et c₄ : réponses impulsionnelles de longueur n entre les HP et les tympans de l'auditeur.

_Cl =[_Cl(0) _Cl(l) ••• (Λ-l)]' , c₂ =[c₂(0) c₂(\) • •• c₂(«-l)]' , c₃ =[c₃(0) e₃(l) - c₃(«-iyf , c₄ =[c₄(0) c₄(l) .- c₄(«-l)]' . _G et x_D : les signaux arrivant effectivement aux oreilles de l'auditeur, représentés chacun sous la forme d'un vecteur d'échantillons temporels. On peut exprimer les signaux y_G et y_D alimentant les haut-parleurs d'après les signaux binauraux x_G et x_D et les filtres h_{l s} h₂ , h₃ et h₄ que l'on cherche à calculer :

où * désigne l'opération de convolution. On peut également exprimer les signaux x_G et x_Darrivant aux tympans de l'auditeur d'après les signaux y_G et y_D alimentant les haut- parleurs et les réponses impulsionnelles c_{l t} c₂ , c₃ et c₄ entre les haut- parleurs et chaque oreille de l'auditeur :

En combinant ces deux systèmes en un seul, on obtient :

ou encore :

^' Le but d'une telle implémentation est de reproduire les signaux binauraux d'origine au niveau des oreilles de l'auditeur. Ceci se traduit par le fait que si x_G est une impulsion de Dirac et x_D est nul, _G est également une impulsion de Dirac et x_D est également nul. Inversement, si x_D est une impulsion de Dirac et x_G est nul, x_D est également une impulsion de Dirac et x_G est également nul. Ceci est exprimé dans l'équation matricielle suivante. Cependant, les filtres c_t , c₂ , c₃ et c₄ n'étant pas à phase minimale (les signaux émis par les haut-parleurs mettent un certain temps avant d'arriver aux oreilles de l'auditeur), on cherche en fait à reproduire les signaux binauraux avec un certain retard δ défini ci-après et que l'on introduit dans l'équation suivante : δ 0 c₁ *h₁ +c₃ *h₃ c, * h₂ +c₃ * h₄ 0 δ c₂ *h_! +c₄ *h₃ c₂ *h₂ + c₄ * h₄ avec δ = [0 ••• 010---0], impulsion de Dirac retardée de r échantillons exprimée

sous la forme d'un vecteur de longueur m+n-1 et 0 = [θ 0 ••• 0], vecteur nul de longueur m+n-1. Afin de supprimer l'opérateur * désignant la convolution, on cherche à exprimer, dans le domaine temporel, la convolution comme un produit de matrice. On remplace pour cela les vecteurs c_lt c₂, c₃ et c₄ par les matrices de dimension (m + n-ï)xm C_t, C₂, C₃ et C₄, matrices de type

Toeplitz pour lesquelles les éléments de chaque diagonale sont identiques et définies de la façon suivante (référence [c]).

c₃ ) c₄(0) 0 ) 0,(0) c₄(l) c₄(0) 0 ^': c₃(l) ^•• c₄(l) \

C₃ = c₃(n-l) ^': 0, 0) C_Λ = c₄(n-ï) --.c₄(0) 0 φι-l) 0 c₄(n-l) c₄(\)

0 0 c₃(n-ï) 0 0 c₄(«-l)

Le système peut alors se réécrire de la façon suivante : δ 0 C^+C,.!^ C_jh.+^h, o δ C₂.h_I+C₄.h₃ C₂.h₂+C₄.h₄ soit :

La technique présentée ici se base donc sur une représentation temporelle de l'opération de convolution (filtrage) par un produit de matrice permettant de poser différemment le problème acoustique mis en jeu et de calculer les filtres souhaités directement dans le domaine temporel. Ce dernier système est un système linéaire surdéterminé qui ne

possède pas de solution exacte (la matrice contient plus de

lignes que de colonnes). On calcul donc une approximation dites aux moindres carrés des coefficients des filtres h_j , h₂ , h₃ et h₄. Ce calcul fait

intervenir la pseudo inverse de Moore-Penrose de la matrice et

s'effectue de la façon suivante :

La technique présentée ici se déroule directement dans le domaine temporel et permet d'obtenir directement des filtres de longueur bien plus réduite tout en en préservant une bonne approximation. Leur utilisation est alors bien plus aisée et efficace. On illustre maintenant un exemple chiffré de mise en œuvre de l'invention : deux haut-parleurs forment la base d'un triangle isocèle et un auditeur le sommet, l'angle formé par les deux côtés de même longueur mesure 20° (cet angle mesure 60° pour la configuration d'écoute stéréophonique standard). L'auditeur se trouve face aux haut-parleurs. Les réponses impulsionnelles des filtres h_t , h₂ , h₃ et h₄ pour cette configuration d'écoute sont calculées d'après l'équation matricielle précédente. Il est nécessaire pour cela de modéliser analytiquement ou de mesurer les réponses impulsionnelles des filtres c_t , c₂ , c₃ et c₄. On utilise ici les mesures d'HRTF correspondant aux positions des haut-parleurs effectuées sur le KEMAR (mannequin) par le CIPIC. Ces mesures sont disponibles sur Internet [d]. Le vecteur δ choisi correspond à un retard introduit de r - 100 échantillons soit : δ = [o-.- o ι o -^.- o] 99

Sur les Figure 3a à 6c sont tracés les signaux (dans les domaines temporel et fréquentiel) arrivant au niveau des tympans de l'auditeur. Aux figures 3a à 4c, il s'agit des tracés obtenus lorsque x_G = l

(impulsion de Dirac) et χ_D = 0. χ_G est alors très proche d'une impulsion de Dirac retardée de 100 échantillons (Figures 3a à 3c) et x_D est très proche de zéro (Figures 4a a à 4c). Aux figures 5a à 6c, il s'agit des tracés obtenus lorsque χ_G = 0 et x_D = 1. x_G est alors quasiment nul (Figure 5a à 5c) et x_D est très proche de l'impulsion de Dirac mise en entrée retardée de 100 échantillons (Figures 6a à 6c).

[a] B. S. Atal et M. R. Schroeder, Apparent Sound Source Translator, U.S. Patent 3,236,949, 22 février 1966.

[b] F. Orduna-Bustamente et al., Sound Recording and Reproduction Systems, U.S. Patent 5,862,227, 19 janvier 1999. [c] M. Miyoshi and Y. Kaneda, Inverse Filtering of Room Acoustics, IEEE TASSP, vol. 36, no 2, pp. 145-152, Feb. 1988. [d] V. R. Algazi, R. O. Duda, D. M. Thompson and C. Avendano, The CIPIC HRTF Database, Proc. 2001 IEEE Workshop on Applications of Signal Processing to Audio and Electroacoustics, pp. 99-102, Mohonk Mountain House, New Paltz, NY, Oct. 21-24, 2001 , http://interface.cipic.ucdavis.edu/CIL_html/CIL_HRTF_database.htm

Claims

REVENDICATIONS

1. Procédé de traitement de signal de commande d'émission sonore binaurale, consistant à appliquer à ce signal de commande (x_g, X_d) un traitement (hi, h₂, h₃, h ) annulant des déformations acoustiques attendues (c₁,c₂, c₃, c₄), ce procédé étant caractérisé en ce qu'il met en œuvre un tel traitement dans le domaine temporel.

2. Procédé de traitement selon la revendication 1 , caractérisé en ce qu'il comprend le fait de multiplier le signal de commande (x_g, X_d) dans le domaine temporel par au moins une matrice dont le produit réalise la transformation inverse des déformations de convolutions acoustiques attendues (cι,c₂, c₃, c ).

3. Procédé selon la revendication 2, caractérisé en ce que la matrice inversant les déformations de convolutions acoustiques attendues est une matrice inverse d'une matrice (C) dont le produit dans le domaine temporel approxime les convolutions attendues.

4. Procédé selon la revendication 3, caractérisé en ce qu'il comprend l'étape consistant à déduire la matrice (C) dont le produit approxime les déformations de convolutions par une élaboration de matrice de type Toeplitz.

5. Procédé selon l'une quelconque des revendications 2 à 4, caractérisé en ce que l'inverse de la matrice approximant les convolutions est obtenue par la formule (C'c ^C¹ ou C est la matrice approximant les convolutions.

6. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il inclut l'étape consistant à déterminer la déformation de propagation acoustique par modélisation analytique.

7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il inclut l'étape consistant à déterminer la déformation de propagation acoustique par mesure expérimentale.

8. Dispositif émetteur d'ondes sonores binaurales comprenant au moins un haut-parleur et des moyens de traitement d'au moins un signal de commande (x_g, X_d) de haut-parleur, les moyens de traitement étant prévus pour appliquer au signal de commande (x_g, x_t) un traitement (h-i, h₂, h₃, h₄) d'annulation de déformations acoustiques attendues (c₁,C₂, c₃, c₄) caractérisé en ce que les moyens de traitement sont prévus pour appliquer un tel traitement dans le domaine temporel.

9. Dispositif selon la revendication précédente, caractérisé en ce que les moyens de traitement sont prévus pour appliquer au signal de commande un produit dans le domaine temporel par au moins une matrice, matrice dont le produit a pour effet d'inverser les déformations attendues de convolutions acoustiques.

10. Dispositif selon la revendication 9, caractérisé en ce que la matrice inversant les déformations de convolutions acoustiques est une matrice inverse d'une matrice (C) dont le produit dans le domaine temporel forme l'approximation des convolutions attendues (cι,c₂, c₃, c₄).

11. Dispositif selon l'une quelconque des revendications 8 à 10, caractérisé en ce que les déformations acoustiques attendues (cι,c₂, c₃, c₄) sont des déformations attendues entre les hauts-parleurs et les tympans d'un utilisateur.

12. Onde sonore binaurale émise par un haut-parleur à partir d'un signal de commande du haut parleur, le signal de commande du haut- parleur consistant en un signal initial (x_g, X ) traité pour une annulation de la déformation acoustique attendue, caractérisé en ce que l'onde sonore se présente sous la forme d'une onde correspondant à un signal initial (x_g, X_d) ayant subi un tel traitement d'annulation dans le domaine temporel.

13. Onde sonore selon la revendication 12, caractérisée en ce que le signal de commande du haut-parleur consiste en un signal initial (x_g, X_d) multiplié par au moins une matrice, matrice dont le produit dans le domaine temporel réalise la transformation inverse des déformations de convolutions acoustiques attendues (cι,c₂, c₃, c ).

14. Onde sonore selon la revendication 13, caractérisé en ce que la matrice inversant les déformations de convolutions acoustiques attendues est une matrice inverse d'une matrice (C) dont le produit dans le domaine temporel forme l'approximation des convolutions attendues.

15. Onde selon l'une quelconque des revendications 12 à 14, caractérisée en ce que les déformations acoustiques attendues sont des déformations attendues (c₁,c₂, c₃, c₄) entre les hauts-parleurs et les tympans d'un utilisateur.

16. Support d'information portant un signal de commande d'émission sonore binaurale (y_g, y_d), le signal de commande consistant en un signal initial (x_g, X_d) traité pour une annulation des déformations acoustiques attendues (cι,c₂, c₃, c ), caractérisé en ce que le signal de commande d'émission sonore se présente sous la forme d'un signal initial (x_g, X_d) ayant subi un tel traitement d'annulation (h-i, h₂, h₃, h ) dans le domaine temporel.

17. Support d'information selon la revendication 16, caractérisé en ce que le signal de commande (y_g> y ) consiste en un signal initial (x_g, x_d) multiplié dans le domaine temporel par au moins une matrice, matrice dont le produit réalise la transformation inverse des déformations de convolutions acoustiques (c-ι,c₂, c₃, c₄) attendues.