« Traitement de signal binaural à efficacité améliorée »
L'invention se situe dans le domaine de la spatialisation sonore, plus précisément dans celui des techniques dites binaurales dont le but est de restituer aux niveaux des tympans de l'auditeur des signaux dits binauraux qui seraient présents en situation d'écoute réelle, c'est-à-dire comportant les effets de filtrage créés par l'interaction des ondes sonores avec le corps de l'auditeur (torse, tête et pavillons des oreilles). Les signaux binauraux sont les signaux captés par les tympans dans une situation d'écoute réelle. Ils contiennent les effets de filtrage qui découlent de l'interaction entre le son et le corps (torse, tête et pavillons des oreilles principalement) de l'auditeur. Qu'ils soient enregistrés (à proximité des tympans) où synthétisés (grâce aux HRTF), ces signaux doivent donc être diffusés à proximité des tympans de l'auditeur. L'idée d'adapter des signaux binauraux à un dispositif de diffusion par haut-parleurs se retrouve dans les brevets de B.S. Atal et M.R. Schroeder (référence a). La technique décrite servait à l'analyse subjective d'acoustique de salles en recréant, après avoir mesuré des réponses impulsionnelles binaurales, la réverbération en certains points de chacune d'elle. Le binaural s'est ensuite développé comme véritable technique de création et de reproduction de champs sonores en trois dimensions. Les signaux binauraux nécessitent d'être reproduits au niveau des tympans de l'auditeur sans modification. Le moyen de diffusion le plus approprié est intuitivement le casque d'écoute. Cependant, son utilisation n'est parfois pas possible comme par exemple dans des situations où l'isolement avec l'extérieur n'est pas souhaité. D'autre part la diffusion par haut-parleurs de signaux binauraux préalablement adaptés permet de résoudre des problèmes inhérents à la diffusion par casque. Le casque peut donc poser parfois certains problèmes : sources sonores frontale perçues en hauteur, localisation in-head (à l'intérieur de la tête), inversion avant arrière dans la localisation des sources sonores notamment dues au caractère propre à un seul individu des signaux
binauraux, mais aussi d'autres types de problèmes tels que l'isolement par rapport au monde réel. La diffusion par haut-parleurs peut alors permettre dans une certaine mesure de surmonter ces problèmes. Cependant, la diffusion telle quelle des signaux binauraux par haut- parleurs ne permet pas leur reproduction correcte aux niveau des tympans de l'auditeur (Figure 1 ). En effet, chacun des signaux binauraux destinés sans modification à une seule oreille va être perçu par les deux oreilles (trajets directs et trajets croisés) et de plus déformé lors de la propagation entre les haut-parleurs et les oreilles de l'auditeur (interaction du son avec le corps de ce dernier). Une technique de calcul de filtres permettant de traiter des signaux binauraux pour les diffuser par haut-parleurs est décrite à la référence [b] dans un contexte de synthèse de sources sonores virtuelles. La technique de calcul des filtres permettant ce traitement se situe dans le domaine fréquentiel. Le canal (ou chemin) acoustique de propagation des signaux lorsqu'ils sont émis par les haut-parleurs est compensé (inversé) pour un certain nombre de fréquences dépendant de la longueur de la transformée fréquentielle. Cette compensation, qui n'est pas exacte, se base sur la résolution d'un système linéaire dit aux moindres carrés. Un paramètre de régularisation dépendant de la fréquence influe sur la résolution. Ce paramètre de régularisation vise à réduire les erreurs engendrées lorsque la transformée fréquentielle est de longueur trop courte. La technique décrite à la référence [b] nécessite, du fait qu'elle ait lieu dans le domaine fréquentiel, que la longueur des filtres calculés soit importante pour en obtenir une bonne approximation et minimiser les effets indésirables de la convolution. Le paramètre de régularisation introduit dans le calcul des filtres a pour rôle de minimiser ces effets en réduisant la longueur effective de ces filtres. L'approximation visée des filtres est en contrepartie moins bonne. Le but est ici d'adapter les signaux binauraux à la diffusion par haut- parleurs, avec des performances satisfaisantes en comparaison avec celles obtenues jusqu'à présent avec les techniques connues.
Pour cela, il s'agit d'une part de corriger au mieux (ou d'anticiper) les modifications subies par les signaux lors de leur propagation jusqu'aux tympans, et d'autre part d'annuler au mieux les trajets croisés entre haut- parleurs et oreilles opposées. On propose pour cela selon l'invention un procédé de traitement de signal de commande d'émission sonore binaurale, consistant à appliquer à ce signal de commande un traitement annulant une déformation acoustique, ce procédé étant caractérisé en ce qu'il met en œuvre un tel traitement dans le domaine temporel. On propose également selon l'invention un support d'information portant un signal de commande d'émission sonore binaurale caractérisé en ce qu'il est constitué d'une information sonore à laquelle a été appliqué un filtre temporel consistant en la multiplication par au moins une matrice qui constitue une transformation annulant la déformation de propagation sonore attendue lors de l'utilisation de ce support. On propose également un dispositif émetteur d'ondes sonores binaurales comprenant des haut-parleurs et un moyen de traitement d'au moins un signal de commande de haut-parleur, le moyen de traitement étant prévu pour appliquer au signal de commande un traitement d'annulation de déformation acoustique attendue, caractérisé en ce que les moyens de traitement sont prévus pour appliquer un tel traitement dans le domaine temporel. On propose en outre une onde sonore binaurale émise par un haut- parleur à partir d'un signal de commande du haut parleur, le signal de commande du haut-parleur consistant en un signal initial traité pour une annulation de la déformation acoustique attendue, caractérisé en ce que le signal de commande se présente sous la forme d'un signal initial ayant subi un tel traitement dans le domaine temporel. D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée qui va suivre, faite en référence aux figures annexées sur lesquelles : - la figure 1 représente une situation d'écoute classique ;
- la figure 2 représente une implémentation d'écoute conforme à l'invention ; - les figures 4a à 6c sont des tracés réalisés dans le cadre d'une mise en œuvre de l'invention. On rappellera qu'on se donne au départ pour objectif optimal de reproduire aux niveaux des tympans de l'auditeur des signaux binauraux au moyen de haut-parleurs. A la figure 1, en situation d'écoute, la position exacte des hauts parleurs n'ayant pour l'instant aucune importance, les signaux alimentant les haut-parleurs sont les signaux y
G et y
D représentés chacun sous la forme d'un vecteur d'échantillons temporels. Les signaux captés par les tympans sont les signaux
G et x
D représentés également chacun sous la forme d'un vecteur d'échantillons temporels. Si y
G et y
D sont des signaux binauraux, chacun va être déformé lors de sa propagation jusqu'à chaque tympan de l'auditeur. Ces distorsions sont décrites par les filtres RIF de réponses impulsionnelles de longueur n c
l t c
2 , c
3 et c
4 entre les HP et les oreilles de l'auditeur. On va, dans la suite de la description, exposer la façon dont on élabore une étape de filtrage des signaux binauraux précédant leur diffusion par haut-parleurs, cette étape permettant de les reproduire identiques à eux-mêmes au niveaux des tympans de l'auditeur. La Figure 2 représente l'implémentation présentée ici du système d'écoute de signaux binauraux au moyen de deux haut-parleurs. On cherche à définir les réponses impulsionnelles h
x , h
2 , h
3 et h
4 des filtres RIF (réponse impulsionnelle finie) qui permettront de reproduire les signaux binauraux identiques à eux-mêmes au niveau des tympans de l'auditeur. Les filtres RIF définis par les réponses impulsionnelles C
j , c
2 , c
3 et c
4 sont les filtres qui caractérisent le canal acoustique entre les haut-parleurs et les oreilles de l'auditeur. Ce sont les réponses impulsionnelles mesurées ou calculées entre chaque haut-parleur et chaque oreille de l'auditeur (4 mesures) et qui peuvent prendre en compte les éventuels effets de
réflexion, diffusion et diffraction du son créés par des obstacles présents dans l'environnement. Nous allons maintenant détailler le calcul des réponses impulsionnelles des filtres h^ h
2, h
3 et h
4 en se basant sur les notations de la Figure 2 qui sont les suivantes : x
G et x
D : les deux signaux binauraux destinés respectivement aux oreilles gauche et droite de l'auditeur, représentés chacun sous la forme d'un vecteur d'échantillons temporels. hi , h
2, h
3 et h
4 : réponses impulsionnelles de longueur m des filtres RIF à calculer. h
1 = [Λi(0) l (ï) - -l)]' , h
2 = |Λ(0) 72,(1) - h
2(m-\)] , h
3
. y
G et D : '
es deux signaux alimentant respectivement les haut-parleurs gauche et droit, représentés chacun sous la forme d'un vecteur d'échantillons temporels. c
t , c
2 , c
3 et c
4 : réponses impulsionnelles de longueur n entre les HP et les tympans de l'auditeur.
Cl =[
Cl(0)
Cl(l) ••• (Λ-l)]' , c
2 =[c
2(0) c
2(\) • •• c
2(«-l)]' , c
3 =[c
3(0) e
3(l) - c
3(«-iyf , c
4 =[c
4(0) c
4(l) .- c
4(«-l)]' .
G et x
D : les signaux arrivant effectivement aux oreilles de l'auditeur, représentés chacun sous la forme d'un vecteur d'échantillons temporels. On peut exprimer les signaux y
G et y
D alimentant les haut-parleurs d'après les signaux binauraux x
G et x
D et les filtres h
l s h
2 , h
3 et h
4 que l'on cherche à calculer :
où * désigne l'opération de convolution.
On peut également exprimer les signaux x
G et x
Darrivant aux tympans de l'auditeur d'après les signaux y
G et y
D alimentant les haut- parleurs et les réponses impulsionnelles c
l t c
2 , c
3 et c
4 entre les haut- parleurs et chaque oreille de l'auditeur :
En combinant ces deux systèmes en un seul, on obtient :
ou encore :
' Le but d'une telle implémentation est de reproduire les signaux binauraux d'origine au niveau des oreilles de l'auditeur. Ceci se traduit par le fait que si x
G est une impulsion de Dirac et x
D est nul,
G est également une impulsion de Dirac et x
D est également nul. Inversement, si x
D est une impulsion de Dirac et x
G est nul, x
D est également une impulsion de Dirac et x
G est également nul. Ceci est exprimé dans l'équation matricielle suivante. Cependant, les filtres c
t , c
2 , c
3 et c
4 n'étant pas à phase minimale (les signaux émis par les haut-parleurs mettent un certain temps avant d'arriver aux oreilles de l'auditeur), on cherche en fait à reproduire les signaux binauraux avec un certain retard δ défini ci-après et que l'on introduit dans l'équation suivante : δ 0 c
1 *h
1 +c
3 *h
3 c, * h
2 +c
3 * h
4 0 δ c
2 *h
! +c
4 *h
3 c
2 *h
2 + c
4 * h
4 avec
δ = [0 ••• 010---0], impulsion de Dirac retardée de r échantillons exprimée
sous la forme d'un vecteur de longueur m+n-1 et 0 = [θ 0 ••• 0], vecteur nul de longueur m+n-1. Afin de supprimer l'opérateur * désignant la convolution, on cherche à exprimer, dans le domaine temporel, la convolution comme un produit de matrice. On remplace pour cela les vecteurs clt c2, c3 et c4 par les matrices de dimension (m + n-ï)xm Ct, C2, C3 et C4, matrices de type
Toeplitz pour lesquelles les éléments de chaque diagonale sont identiques et définies de la façon suivante (référence [c]).
c
3 ) c
4(0) 0 ) 0,(0) c
4(l) c
4(0) 0
': c
3(l)
•• c
4(l) \
C3 = c3(n-l) ': 0, 0) CΛ = c4(n-ï) --.c4(0) 0 φι-l) 0 c4(n-l) c4(\)
0 0 c3(n-ï) 0 0 c4(«-l)
Le système peut alors se réécrire de la façon suivante : δ 0 C^+C,.!^ C
jh.+^h, o δ C
2.h
I+C
4.h
3 C
2.h
2+C
4.h
4 soit :
La technique présentée ici se base donc sur une représentation temporelle de l'opération de convolution (filtrage) par un produit de matrice permettant de poser différemment le problème acoustique mis en jeu et de calculer les filtres souhaités directement dans le domaine temporel. Ce dernier système est un système linéaire surdéterminé qui ne
possède pas de solution exacte (la matrice contient plus de
lignes que de colonnes). On calcul donc une approximation dites aux moindres carrés des coefficients des filtres h
j , h
2 , h
3 et h
4. Ce calcul fait
intervenir la pseudo inverse de Moore-Penrose de la matrice et
s'effectue de la façon suivante :
La technique présentée ici se déroule directement dans le domaine temporel et permet d'obtenir directement des filtres de longueur bien plus réduite tout en en préservant une bonne approximation. Leur utilisation est alors bien plus aisée et efficace. On illustre maintenant un exemple chiffré de mise en œuvre de l'invention : deux haut-parleurs forment la base d'un triangle isocèle et un auditeur le sommet, l'angle formé par les deux côtés de même longueur mesure 20° (cet angle mesure 60° pour la configuration d'écoute stéréophonique standard). L'auditeur se trouve face aux haut-parleurs. Les réponses impulsionnelles des filtres ht , h2 , h3 et h4 pour cette configuration d'écoute sont calculées d'après l'équation matricielle précédente. Il est nécessaire pour cela de modéliser analytiquement ou de
mesurer les réponses impulsionnelles des filtres ct , c2 , c3 et c4. On utilise ici les mesures d'HRTF correspondant aux positions des haut-parleurs effectuées sur le KEMAR (mannequin) par le CIPIC. Ces mesures sont disponibles sur Internet [d]. Le vecteur δ choisi correspond à un retard introduit de r - 100 échantillons soit : δ = [o-.- o ι o -.- o] 99
Sur les Figure 3a à 6c sont tracés les signaux (dans les domaines temporel et fréquentiel) arrivant au niveau des tympans de l'auditeur. Aux figures 3a à 4c, il s'agit des tracés obtenus lorsque xG = l
(impulsion de Dirac) et χD = 0. χG est alors très proche d'une impulsion de Dirac retardée de 100 échantillons (Figures 3a à 3c) et xD est très proche de zéro (Figures 4a a à 4c). Aux figures 5a à 6c, il s'agit des tracés obtenus lorsque χG = 0 et xD = 1. xG est alors quasiment nul (Figure 5a à 5c) et xD est très proche de l'impulsion de Dirac mise en entrée retardée de 100 échantillons (Figures 6a à 6c).
[a] B. S. Atal et M. R. Schroeder, Apparent Sound Source Translator, U.S. Patent 3,236,949, 22 février 1966.
[b] F. Orduna-Bustamente et al., Sound Recording and Reproduction Systems, U.S. Patent 5,862,227, 19 janvier 1999. [c] M. Miyoshi and Y. Kaneda, Inverse Filtering of Room Acoustics, IEEE TASSP, vol. 36, no 2, pp. 145-152, Feb. 1988. [d] V. R. Algazi, R. O. Duda, D. M. Thompson and C. Avendano, The CIPIC HRTF Database, Proc. 2001 IEEE Workshop on Applications of Signal Processing to Audio and Electroacoustics, pp. 99-102, Mohonk Mountain House, New Paltz, NY, Oct. 21-24, 2001 , http://interface.cipic.ucdavis.edu/CIL_html/CIL_HRTF_database.htm