WO2005015954A2

WO2005015954A2 - Procede et dispositif de traitement de donnees sonores en contexte ambiophonique

Info

Publication number: WO2005015954A2
Application number: PCT/FR2004/002009
Authority: WO
Inventors: Jérôme DANIEL; Sébastien Moreau
Original assignee: France Telecom
Priority date: 2003-07-30
Filing date: 2004-07-27
Publication date: 2005-02-17
Also published as: WO2005015954A3; FR2858512A1

Abstract

La présente invention concerne le traitement de signaux captés pour obtenir des composantes ambiophoniques. Cette opération (1), dite de matriçage, est effectuée en appliquant une matrice à ces signaux captés qui est corrigée pour préserver une orthonormalité entre les harmoniques ambiophoniques et, de là, minimiser un effet de repliement de composantes ambiophoniques sur des composantes en cours d'estimation.

Description

Procédé et dispositif de traitement de données sonores en contexte ambiophonique

La présente invention concerne le traitement de données sonores en contexte ambiophonique, notamment dans le cadre d'une prise de son spatialisée à partir d'un microphone 3D.

On estime des composantes spatiales de champ acoustique réel à partir de signaux captés par un nombre limité de capteurs sonores, tels que des capsules piézoélectriques agencées selon une antenne microphonique. Pour une représentation tridimensionnelle du champ acoustique, cette antenne peut se présenter sous la forme d'un microphone 3D dont les capsules sont réparties sensiblement sur une sphère. Ci-après, on assimile ces composantes spatiales du champ à des composantes dites "composantes harmoniques sphériques". Toutefois, on indique qu'une distribution des capteurs de l'antenne microphonique, autre qu'une distribution sphérique, peut aussi être envisagée.

En règle générale, plus le nombre de capteurs prévus dans le microphone est élevé et plus l'ordre des composantes spatiales obtenues peut être élevé. [.'"ordre" d'une composante spatiale se rattache à la fréquence angulaire avec laquelle elle "scrute" le champ sonore. Ainsi, la considération d'ordres élevés offre une résolution spatiale accrue du champ représenté. De manière générale encore, le nombre de capteurs à prévoir est toujours supérieur ou égal au nombre total de composantes spatiales qu'il est possible de déterminer.

On définit par les termes "encodage ambiophonique" l'étape consistant à obtenir ces composantes spatiales du champ. Cet encodage permet ainsi de transmettre une représentation du champ sonore sous forme de signaux dits

"ambiophoniques" (traduction du mot anglais "ambisonic"), éventuellement codés en compression par ailleurs, puis d'en faire, moyennant une opération de décodage ambiophonique sur les signaux transmis, une diffusion sur haut- parleurs ou sur casque afin de reproduire les impressions auditives spatiales qui auraient été éprouvées à la place de l'antenne microphonique.

L'encodage ambiophonique est utilisé notamment en prise de son directive, pour l'extraction d'informations spatiales et l'analyse d'une scène sonore, ou encore pour une manipulation du champ sonore.

On connaît notamment par le document :

"A Highly Scalable Spherical Microphone Array Based on an Orthonormal Décomposition of the Sound Field', Jens Meyer - Gary Elko, Vol. Il-pp.1781- 1784 in Proc. ICASSP 2002, une méthode d'estimation exacte des composantes ambiophoniques si l'on dispose d'une mesure du champ acoustique sur toute la surface d'une sphère, et partant d'un modèle a priori de description du champ, en utilisant par exemple l'expression mathématique de la pression en surface d'une sphère rigide, ou encore les directivités de type cardioïde pour des capteurs placés sur un support acoustiquement transparent.

Toutefois, en pratique, on ne dispose de mesures qu'en un nombre limité de points, puisque la distribution de capteurs ne peut être que discrète et finie. En conséquence, l'estimation est sujette à des artefacts dits "aliasing spatial". Il s'agit d'une erreur irréductible qui apparaît comme un défaut de consistance de l'information spatiale captée lorsque la longueur d'onde n'est plus assez grande devant l'espacement entre les capsules, donc pour des fréquences supérieures à une fréquence dite "d'aliasing" qui dépend notamment du nombre de capteurs et du rayon du microphone s'il est de géométrie sphérique. Par ailleurs, il n'existe pas de distribution géométrique discrète tridimensionnelle dans le placement des capsules à la surface de la sphère qui puisse satisfaire certaines propriétés, notamment l'orthonormalité des harmoniques sphériques, sur laquelle se base l'approche théorique évoquée dans le document cité ci-avant, en particulier pour l'estimation de composantes spatiales d'ordres élevés.

En effet, le procédé d'estimation à partir d'un nombre fini de signaux, dans ce document, est basé sur un calcul théorique exploitant la connaissance du champ acoustique à la surface d'une sphère (distribution continue de points de mesure), acoustiquement transparente ou bien solide. Ce calcul consiste, pour l'estimation d'une composante spatiale donnée, en une "projection" du champ sonore mesuré sur la fonction harmonique sphérique associée. A cet effet, le calcul exploite implicitement les propriétés d'orthonormalité des harmoniques sphériques. En fait, la distribution discrète et finie de capteurs, pour une géométrie quelconque, ne permet pas de préserver strictement l'orthonormalité des harmoniques sphériques entre elles, au moins à partir de l'ordre 2 ou 3. En conséquence, la méthode de projection n'assure pas la bonne séparation des composantes spatiales. Certaines composantes estimées sont ainsi "polluées" par d'autres composantes présentes dans le champ.

La présente invention vient améliorer la situation.

Elle propose à cet effet un procédé de traitement de données sonores en contexte ambiophonique, dans lequel : a) on obtient N signaux émanant de capteurs sonores, b) on forme une base d'harmoniques ambiophoniques comportant un nombre total de KM composantes sous la forme d'une matrice de base comportant N colonnes et K_M lignes, où K_M est inférieur ou égal à N, et c) on applique un traitement de matriçage aux N signaux pour obtenir des composantes ambiophoniques des N signaux, exprimées dans ladite base des harmoniques.

Selon une définition générale de l'invention, à l'étape c), on applique auxdits N signaux une matrice corrigée vérifiant sensiblement la condition :

D.YM' ≈ I. OÙ

- D est la matrice corrigée,

- Y ^l est la transposée de la matrice représentant ladite base des harmoniques ambiophoniques, et

- I est la matrice identité.

On s'efforce ainsi, dès le traitement de matriçage, à respecter la condition d'orthonormalité entre les harmoniques ambiophoniques constituant la base précitée. On comprendra ainsi que le terme "corrigée" qualifiant la matrice D vise notamment cette compensation du défaut d'orthonormalité au sens de l'invention.

Toutefois, comme indiqué ci-avant, le nombre N de signaux captés est généralement supérieur au nombre total KM de composantes ambiophoniques qu'il est possible d'obtenir. Déterminer les coefficients de la matrice corrigée D reviendrait donc à résoudre un système de N inconnues avec, au plus, KM équations.

Dans une première approche, on cherche à minimiser une influence des composantes d'ordres m' inférieurs à un ordre courant m dans l'estimation des composantes ambiophoniques d'ordre m.

En effet, on indique que l'étape de matriçage précitée est souvent suivie d'une égalisation spectrale pour compenser une directivité intrinsèque de chaque capteur dans la capture du champ. Typiquement, l'amplification due à cette égalisation est prépondérante pour les ordres élevés par rapport aux ordres plus faibles, en particulier dans les basses fréquences. Le phénomène d'aliasing précité est d'autant plus gênant que les autres composantes "polluantes" sont d'ordres plus bas par rapport aux composantes à estimer car l'erreur induite par les premières composantes d'ordres faibles est alors d'autant plus amplifiée sur les composantes d'ordres plus élevés, en particulier en basses fréquences.

Dans un mode de réalisation selon la première approche, les coefficients d_m ^σ _n de la matrice corrigée D sont obtenus par vérification d'un système de K_m équations à N inconnues d°_n[i] (1<i≤N), de type :

I ^N

C, -Y » = ∑ C ] P] = 0 Po r (m ≠ m ' ou n ≠ n ' )

;'=1 avec m'≤m≤M, K_m =(m+1)², et où :

d_m ^σ _n sont les coefficients de la matrice corrigée D = dl , et

/ - y _'n' ^sont '^es coefficients de la transposée de la matrice de base

On indique que les indices m, n et σ sont définis comme suit :

- m est l'ordre de la composante, - n est compris entre 0 et m,

- et σ vaut -1 ou 1 , sauf pour l'ordre m=0.

Ainsi, le nombre total K_m de composantes jusqu'à l'ordre m est donné par la relation K_m = (m+1)² . Toujours dans cette première approche, on peut exprimer alors la matrice corrigée D comme la matrice pseudo-inverse de la transposée de la matrice de base YM- La matrice corrigée D est déterminée alors avantageusement par la relation :

Si l'on choisit d'obtenir un ordre maximum M_mj_C des composantes ambiophoniques, tel que M_mjc <E(VN)-1 (où Ε(x) signifie la partie entière de x), la matrice corrigée D s'exprime avantageusement par la relation O = (Y_M.Y_M'y Y_Mmic , où :

- Y_Mmh est une matrice représentant la base des harmoniques d'ordre maximum choisi M_mj_C, et

- Y_M est une matrice représentant la base des harmoniques d'ordre maximum M qu'il est possible d'atteindre avec Ν signaux et défini par

Dans une seconde approche, comme le nombre Ν de signaux est généralement tel que Ν>(M+1)², où M est l'ordre maximum qu'il est possible d'atteindre avec lesdits N signaux, il subsiste N-KM degrés de liberté pour estimer les coefficients d°„ de la matrice corrigée D (avec KM=(M+1 )² ).

Selon cette seconde approche, préférentiellement complémentaire de la première approche, on cherche à minimiser une influence potentielle de composantes d'ordres supérieurs à M dans l'estimation des KM composantes ambiophoniques.

En effet, comme indiqué ci-avant, lorsque la longueur d'onde n'est plus assez grande devant l'espacement entre les capsules, donc pour des fréquences supérieures à la fréquence d'aliasing, l'estimation des composantes ambiophoniques n'est plus fiable. En d'autres termes, l'estimation des composantes ambiophoniques, de manière générale, n'est valable que dans un domaine de basses fréquences inférieures à cette fréquence d'aliasing. Plus particulièrement, on verra plus loin que cette fréquence d'aliasing diminue lorsque l'ordre m d'une composante ambiophonique augmente. Ainsi, plus l'ordre m d'une composante estimée est élevé et plus la bande de fréquences, dans laquelle son estimation est valide, est réduite.

On comprendra ainsi que chercher à minimiser la "pollution" des composantes d'ordre M par des composantes d'ordres M' supérieurs à l'ordre M permet d'élargir la bande de fréquences où l'estimation des composantes d'ordre M est valide, au-delà des fréquences d'aliasing liées aux ordres M'.

Dans un mode de réalisation selon cette seconde approche, l'estimation des coefficients d_m ^σ _n de la matrice corrigée D s'effectue alors par minimisation d'une expression de type : t 2 t*]M '] ~ 2-ι 2-ι "-mn-ym'n'

M<m'≤M' 0≤n'≤m',σ'=±\ où M' correspond à un ordre supérieur à l'ordre maximum M.

Préférentiellement, on estime les coefficients d°_m de la matrice corrigée D par une minimisation d'une expression de type :

faisant intervenir un facteur de pondération γ_m,_m' pour donner une importance moins forte aux composantes d'ordres m' supérieurs aux ordres m des composantes déjà estimées. Dans un mode de réalisation particulièrement avantageux selon cette seconde approche, ladite minimisation est effectuée par calcul au sens des moindres carrés et consiste à résoudre N-K_M équations du type :

^^ = 0 , avec / = 1 , 2 (N-K_M),

où d „[i,] sont N-KM inconnues parmi N inconnues.

Les N-KM coefficients ainsi déterminés sont réinjectés dans la relation générale D.Y_M ^{t =} I ci-avant, et l'on obtient ainsi une expression D' de la matrice corrigée, bien adaptée pour les hautes fréquences.

Préférentiellement, on prévoit alors à l'étape c) deux opérations de matriçage différenciées en : d) une première bande de basses fréquences des composantes ambiophoniques, où l'on applique une matrice corrigée D donnée par une relation du type : D = ≠nv(Y_M') = {Y_M.Y_M'y Y_M , c2) une seconde bande de hautes fréquences des composantes ambiophoniques, où l'on applique une matrice corrigée D' dont les coefficients sont obtenus par minimisation d'une expression du type :

Les opérations ci) et c2) sont ensuite suivies d'une sommation des deux matriçages voie par voie.

Ainsi, on prévoit préférentiellement de filtrer les Km composantes ambiophoniques, en aval de modules de matriçage, en conservant :

- les composantes basses fréquences, lorsque ces composantes ambiophoniques sont obtenues par un matriçage utilisant la matrice D selon la première approche, et - les composantes hautes fréquences, lorsque ces composantes ambiophoniques sont obtenues par un matriçage utilisant la matrice D' selon la seconde approche.

En variante, on peut filtrer plutôt les N signaux initiaux :

- avec des filtres passe-bas, puis appliquer ces signaux filtrés à un matriçage utilisant la matrice D corrigée selon la première approche, et

- avec des filtres passe-haut, puis appliquer ces signaux filtrés à un matriçage utilisant la matrice D' corrigée selon la seconde approche, et sommer enfin les composantes ambiophoniques résultant une à une des deux matriçages.

Toutefois, il est plus avantageux de filtrer les composantes ambiophoniques en aval des matriçages, puisqu'il n'y a à prévoir que 2xKm filtres dans ce cas, alors qu'un filtrage des N signaux en amont des matriçages nécessiterait 2xN filtres, soit 2x(N-Km) filtres supplémentaires (avec N>Km).

On indique en outre, de façon plus générale, que la matrice D' corrigée selon la seconde approche permet aussi d'obtenir, à elle seule, une évaluation satisfaisante des composantes ambiophoniques sur toute le spectre de fréquences. Ainsi, dans une variante simple des étapes d) et c2) ci-avant de deux matriçages séparés, un unique matriçage utilisant cette matrice D' est aussi envisagé.

De façon générale, on comprendra que l'application du procédé au sens de l'invention permet d'améliorer la qualité du traitement des signaux sonores par encodage ambiophonique et, de là, augmenter les performances à la restitution. En outre, les capteurs du microphone étant généralement de positions spatiales respectives globalement prédéterminées, on peut former, à l'étape b), la base d'harmoniques ambiophoniques par échantillonnage spatial en fonction d'une estimation grossière des positions des capteurs. Avantageusement, l'application de la matrice corrigée D, à l'étape c), permet de compenser sensiblement des erreurs de positions des capteurs.

On indique qu'à cet effet, une mesure d'étalonnage d'un champ acoustique de répartition spatiale bien connue peut être mise en œuvre.

La présente invention vise aussi un dispositif pour encoder des signaux sonores en composantes ambiophoniques, comportant au moins :

- une entrée propre à recevoir N signaux émanant de capteurs sonores montés sur une antenne microphonique, et

- un module de matriçage appliquant auxdits N signaux au moins une matrice de base, représentative d'une base d'harmoniques ambiophoniques, pour obtenir des composantes ambiophoniques estimées des N signaux et exprimées dans ladite base.

Dans le dispositif au sens de l'invention, ladite matrice de base comporte des coefficients de gains ajustés pour minimiser préférentiellement au moins une influence de composantes d'ordres m' inférieurs à un ordre courant m d'une composante estimée, dans des basses fréquences, inférieures à une fréquence limite.

Comme indiqué ci-avant, le matriçage unique à partir de la matrice corrigée D' selon la seconde approche permet à lui seul d'obtenir une évaluation satisfaisante des composantes ambiophoniques. On comprendra ainsi que les coefficients de cette matrice de base D' sont avantageusement de gains ajustés pour minimiser aussi une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à la fréquence limite précitée.

En variante, le module de matriçage est agencé pour appliquer en outre une seconde matrice de base comportant des coefficients calculés pour minimiser au moins une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite.

Préférentiellement, le module de matriçage comporte un sous-module de séparation desdits N signaux en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, pour appliquer deux traitements respectifs de matriçage pour les signaux basses fréquences et pour les signaux hautes fréquences, ainsi qu'un sous-module de sommation voie par voie pour sommer les composantes ambiophoniques obtenues dans les deux gammes de fréquences.

Dans une variante plus avantageuse car utilisant seulement 2xKm filtres au lieu de 2xN filtres, le module de matriçage comporte un sous-module de filtrage desdites Km composantes ambiophoniques en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, ainsi qu'un sous-module de sommation voie par voie pour sommer les composantes ambiophoniques filtrées dans les deux gammes de fréquences.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :

- la figure 1 est un schéma général illustrant le traitement de signaux microphoniques, en aval d'un microphone tridimensionnel, ici de géométrie sphérique,

- la figure 2 représente les courbes d'égalisation appliquée aux composantes issues du module de matriçage 1 de la figure 1 ,

- les figures 3a à 3d montrent une simulation de l'erreur relative ε_mn ^σIB_mn moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, de l'estimation des composantes ambiophoniques par le procédé classique de "projection" simple, respectivement pour un ordre maximum égal à 1 , pour un ordre maximum égal à 2, pour un ordre maximum égal à 3 et pour un ordre maximum égal à 4, pour un dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires, - la figure 4 représente une carte du résidu de "non orthonormalité" pour des composantes ambiophoniques jusqu'à l'ordre 6 inclus et pour les 32 positions illustrées sur la figure 1 ,

- les figures 5a à 5d montrent la simulation de l'erreur relative ε_mn ^σIB_mn ^σ moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, de l'estimation des composantes ambiophoniques par le procédé au sens de l'invention, respectivement pour un ordre maximum égal à 1 , pour un ordre maximum égal à 2, pour un ordre maximum égal à 3 et pour un ordre maximum égal à 4, pour un même dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires,

- la figure 6 illustre une représentation par une métrique tridimensionnelle dans un repère de coordonnées sphériques, d'harmoniques sphériques

Y _n de différents ordres,

- la figure 7 représente en détail le module de matriçage 1 de la figure 1 , dans une réalisation particulière de l'invention,

- la figure 8 représente en détail le module de matriçage 1 de la figure 1 , dans une réalisation avantageuse de l'invention, variante de la réalisation de la figure 7,

- et la figure 9 représente en détail le module de matriçage 1 de la figure 1 , utilisant trois modules de matriçage dans une réalisation encore plus avantageuse.

On se réfère tout d'abord à la figure 1 , sur laquelle un dispositif de traitement des signaux microphoniques reçoit N signaux issus d'une antenne microphonique 3. Les N signaux individuels dits "primaires" sont captés par autant de capsules microphoniques CM. Dans l'exemple représenté, ces capteurs sont incrustés à la surface d'une sphère S, par exemple supposée rigide. Ainsi, dans le cas d'une distribution sphérique de l'antenne microphonique, chaque capteur occupe sensiblement le sommet d'un polyèdre régulier circonscrit dans la sphère. Le polyèdre représenté sur la figure 1 comporte 32 sommets et le microphone 3D, autant de capteurs.

Pour un tétraèdre, on prévoit 4 capteurs. Pour un cube, on prévoit 6 capteurs. Pour un octaèdre, on prévoit 8 capteurs. Pour un dodécaèdre, on prévoit 12 capteurs, etc. On remarque donc qu'en géométrie sphérique, le nombre de capteurs ne peut varier que par quanta. Si l'on choisit d'obtenir un nombre total K de composantes ambiophoniques, on doit prévoir par excès un nombre supérieur N de capteurs. C'est la raison pour laquelle le nombre N de signaux captés est généralement supérieur au nombre total KM de composantes ambiophoniques qu'il est possible d'obtenir. De façon plus générale, le nombre N de capsules microphoniques est en fait supérieur au nombre KM de composantes harmoniques sphériques acquises et/ou retenues après traitement.

Le microphone 3 dit alors "ambiophonique", basé ici sur une distribution sphérique de capsules microphoniques élémentaires, a pour vocation de produire un "encodage acoustique" de champs acoustiques 3D naturels, basé sur leur décomposition en harmoniques sphériques.

On rappelle ci-après les principes habituels pour encoder un champ acoustique en harmoniques sphériques 3D, qui s'appuient sur une projection du champ capté à la surface d'une sphère. On considère à cet effet un champ acoustique, en l'absence de la sphère microphonique (donc en champ libre), défini par la série de Fourier-Bessel :

P(r) = ∑j^mj_m ) ∑B_m° :_n{û_r) , ( .1)

«ι=0 0≤n≤ ,σ=±l où les fonctions harmoniques sphériques Y°_n définissent une base orthonormée au sens du produit scalaire qu'on appelle "projection" par la suite, avec une expression générale du type :

, qui se traduit par :

δy est le symbole de Kronecker qui vaut 1 si i=j et 0 sinon.

Les harmoniques sphériques Y „ sont des fonctions réelles bornées, comme représenté sur la figure 6, en fonction de l'ordre m et des indices n et σ. On indique que n est compris entre 0 et m et que σ vaut +1 ou -1 , sauf pour l'ordre 0. Ainsi, le nombre K_m de composante pour un ordre courant m vaut : K_m= (m+1)²

Sur la figure 6, les parties sombres et claires correspondent respectivement aux valeurs positives et négatives des fonctions harmoniques sphériques. Plus l'ordre m est élevé et plus la fréquence angulaire (et donc la discrimination entre fonctions) est élevée.

Le module 1 de matriçage de la figure 1 , appliqué aux N signaux microphoniques élémentaires, fournit alors des composantes "brutes"

K_n ^{r r} du champ acoustique capté.

On décrit ci-après l'étape d'égalisation spectrale de ces composantes brutes, qui suit donc l'opération de matriçage des N signaux captés.

La décomposition donnée par l'expression (.1) et ses propriétés d'orthonormalité suggèrent qu'en fixant r=a (où a est le rayon du microphone 3D) et en réalisant une projection définie par le produit scalaire ci-dessus des termes de la série sur chaque harmonique sphérique Y°_n , on obtient la composante ambiophonique correspondante brute B _n à un facteur j^mj_m(ka) près.

On peut appliquer un principe similaire aux cas de capteurs possédant éventuellement une directivité intrinsèque (par exemple des capsules cardioïdes), et/ou par les propriétés acoustiques de leur support (par exemple une sphère rigide ou encore acoustiquement transparente supportant les capsules).

On décrit ci-après l'influence d'une directivité intrinsèque dans la capture du champ, en particulier dans le cas de capsules encastrées dans une sphère solide. On indique ensuite comment compenser, à partir de filtres égaliseurs, une telle directivité.

Une sphère microphonique solide, de rayon a, centrée à l'origine O, induit un champ diffracté, et le champ de pression à sa surface (et dans la direction i7, ) vaut :

où les coefficients de pondération des harmoniques sphériques

W„(ka) = : r traduisent la directivité intrinsèque des capteurs.

{kafh_m- \ka)j-^

Ces coefficients sont fonction de la fréquence. Dans le cas de capteurs à directivité cardioïde G(< ) = α + (l -û.)cos(<9) (directivité en champ lointain), montés sur une structure acoustiquement transparente et orientés radialement vers l'extérieur, on indique que le terme de pondération serait à remplacer par : _m(ka) = j"¹ (aj_m(ka)-j^'(l-a)j_m Xka)) , où a dépend en pratique de la fréquence (les capsules tendent à devenir omnidirectives (α =1), en basses fréquences).

Compte tenu des propriétés présumées d'orthonormalité de la base, on déduit généralement les composantes ambiophoniques B_m ^σ _n du champ initial à partir du champ de pression en surface de la sphère, moyennant des opérations de projection et d'égalisation, exprimées ainsi :

E = EQ_m(p_R

, où le filtre égaliseur

BQ_m = ^ ( .3) m compense la pondération W_m exprimée ci-avant.

En pratique, ces filtres égaliseurs ne sont pas stables pour m≥ Leur amplification tend vers l'infini en très basses fréquences. En outre, la stricte description mathématique ( .1) ne peut donner lieu à une représentation stable, car le cas de champs acoustiques ordinaires impliquerait des signaux B°_n éventuellement d'amplitude infinie.

Avantageusement, on incorpore une pré-compensation de champ proche (notamment celui des haut-parleurs utilisés au stade de la restitution), et l'on cherche donc à estimer des composantes :

j^^OTC(Λ/c) =__l — B°_m , où les filtres F ^lc ω) traduisent l'effet d'un champ

proche (pour une distance R dite de référence) sur les composantes harmoniques sphériques.

En se référant encore à la figure 1 , le module 2 d'égalisation de chacune des composantes B°_n™^{s r c} permet d'obtenir des composantes -- égalisées (EQ^^d ) et compensées en champ proche (r/c - R/c). c est la vitesse acoustique. La distance r correspondrait alors à une distance des capsules par rapport à l'origine O et la distance R correspondrait à la distance dite de "référence" entre la position de haut-parleurs de restitution et la position d'un auditeur.

Des précisions sur cette compensation de champ proche et, de manière plus générale, sur l'encodage ambiophonique sont données dans la demande française non encore publiée FR-0214444.

On indique simplement ici que, pour obtenir les composantes B°„ ™^C{RIC) conformes à une transmission de données encodées en contexte ambiophonique, on applique un banc de filtres égaliseurs avec précompensation de champ proche sur les composantes ambiophoniques brutes σ rougfι(r/c)

B m, n

On indique toutefois que la pré-compensation de champ proche peut être appliquée directement sur les composantes brutes, sans prévoir nécessairement d'égalisation, en particulier si la directivité intrinsèque des capteurs ne nécessite pas une telle égalisation.

Comme les K composantes ambiophoniques, obtenues après égalisation et compensation en champ proche, sont bornées et non divergentes, on peut les stocker dans une mémoire du dispositif de traitement tel que représenté sur la figure 1 , ou encore les transmettre via un réseau de communication, à partir du module 5, de stockage MEM et/ou communication COM, représenté sur la figure 1. On se réfère à la figure 2 pour décrire ci-après l'effet d'un défaut d'orthonormalité et, de là, l'effet de l'aliasing spatial sur des composantes ambiophoniques égalisées et pré-compensées en champ proche.

Dans le cas d'une sphère rigide, les filtres d'égalisation sont notés

, et se basent sur les filtres EQ_m définis par l'équation ( .3). La figure 2 illustre ce cas d'une sphère rigide, ainsi que celui de capteurs cardioïdes parfaits ( =1/2), jusqu'à l'ordre m=4. Plus précisément, la figure 1 représente les courbes d'égalisation de composantes issues du matriçage, en fonction de leur ordre m, pour a=5cm (rayon du microphone) et R=1 ,5m (distance de référence des haut-parleurs). Le cas de la sphère rigide est représenté par des traits interrompus et celui de capteurs cardioïdes parfaits par des traits continus.

De façon générale, on remarque que plus l'ordre d'une composante augmente et plus l'égalisation pré-compensée applique un gain important à cette composante. Ce phénomène est accru dans un domaine de basses fréquences, jusqu'à plus de 1 kHz.

On comprendra ainsi qu'une erreur due à l'aliasing spectral et qui se traduit par une "pollution" des composantes d'ordres faibles sur une composante d'ordre plus élevé sera amplifiée pour cette composante d'ordre élevé, en particulier dans les basses fréquences.

Le cas d'un microphone "cardioïde parfait' est plus favorable (l'écart entre les courbes d'amplification m≈4 et m=1 étant plus réduit que pour un microphone sphérique) puisqu'il possède déjà une directivité d'ordre 1. Dès lors, il ne requiert qu'une égalisation finie en très basse fréquence jusqu'à l'ordre 1. Toutefois, une cardioïcité parfaite ne se rencontre pas en pratique, en particulier pour les basses fréquences. Dans ce qui suit, on évalue l'effet de l'aliasing sur l'estimation des composantes ambiophoniques basée sur une projection classique. A cet effet, on évalue plus précisément une erreur entre les composantes B_m ^σ _n telles qu'obtenues par le calcul classique et les composantes B_m ^σ _n qui auraient été obtenues si les conditions d'orthonormalité étaient respectées.

Comme indiqué ci-avant, en pratique, on ne dispose que d'un nombre fini de capteurs et, de ce fait, on doit "échantillonner" spatialement la mesure du champ à la surface de la sphère. Habituellement, on considère que l'échantillonnage spatial de la base harmonique sphérique par l'ensemble des directions w, des N capsules préserve l'orthonormalité de la base échantillonnée et tronquée à l'ordre maximum M.

Si l'on décrit l'échantillonnage directionnel des fonctions harmoniques par les vecteurs = [ («ι) «₂) ^•" )L ^{alors ces} vecteurs tels que m≤M constituent une base orthonormée au sens du produit scalaire :

= i ^y-^γ,T ' ^{ce qui se traduit par :}

= <^„A,A_σ> pour tous m ei m'≤ M.

On estime les composantes ambiophoniques du champ à partir du vecteur des signaux captés p, pour une projection "discrète", par :

C = EQ_{m P} ( -4)

L'empilement des vecteurs γ_m ^σ _n compose une matrice Y = •••[ qui définit l'échantillonnage de la base harmonique sphérique. Cette matrice est susceptible de correspondre à une matrice de "ré-encodage" dans le contexte de la restitution. Le vecteur colonne B = [^••• B_m ^σ _n •••[ est défini comme suit. L'application de la relation ( .4) s'exprime alors de façon plus synthétique par :

B = Diag([EQ₀ - EQ_m -]).D.p , avec D = ^Y ( .5)

On définit ainsi une opération de matriçage dite "Down-Matrixing" dans la

littérature anglo-saxonne à partir de la matrice — Y qu'applique un module de

N matriçage classique.

Les filtres d'égalisation mis en batterie en aval du module de matriçage sont les filtres d'égalisation EQ„, qui interviennent comme éléments diagonaux de la matrice Diag([EQ₀ ••• EQ„, •••]) .

Ainsi, l'estimation ( .5) s'accompagne d'une erreur, du fait que l'orthogonalité n'est pas réellement assurée entre les composantes y „ tels que m≤M et les ,^'„, tels que m'>M. Cette erreur vaut : = ( .6)

Elle traduit l'effet d'aliasing spatial correspondant au repliement (à la "pollution") du spectre harmonique sphérique, et ici à un repliement des composantes B°,^' _n, d'ordre supérieur à l'ordre M sur celle estimée B_m ^σ _n . Le degré de repliement potentiel de la composante B l_n, est indiqué par le coefficient de repliement y^σ _m y_m ^σ,_n^ . Le repliement n'est nul que si l'échantillonnage préserve l'orthogonalité des deux harmoniques sphériques.

Comme indiqué ci-avant en référence à la figure 2, l'erreur due au repliement est d'autant amplifiée que l'ordre m', supérieur à m, est élevé et que la fréquence est basse (voir le cas réaliste d'une sphère rigide en traits interrompus). Ce phénomène devient moins significatif à partir des fréquences élevées (ou quand le rayon a diminue) puisque les gains en égalisation deviennent voisins pour tous les ordres m.

En outre, le fort niveau d'égalisation en basses fréquences, notamment pour les composantes d'ordres plus élevés, s'accompagne d'une amplification du bruit interne des capteurs. Si les N signaux captés incluent des bruits de même énergie |p|² et décorrélés entre eux, ces bruits se retrouvent dans les

composantes estimées avec le niveau — |EQ_m(<»)|²|/?|². L'amplification du bruit

suit donc les courbes de la figure 1 , mais rabaissées d'un gain -10.logιo(/V) dB (soit -15dB pour Λ/=32). Cette amplification est d'autant plus forte que le rayon du microphone est petit.

Sur la figure 3a, on a représenté en trait plein l'erreur relative ε_m ^σ B_m ^σ _n notamment pour l'ordre m=1. On voit qu'au-delà de la fréquence de 16 kHz, dans l'exemple représenté, cette erreur dépasse la valeur seuil de 1. Ainsi, l'estimation de la composante d'ordre m=1 devient complètement inconsistante pour des fréquences supérieures à 16 kHz. Cette fréquence de 16 kHz correspond à la fréquence d'aliasing f_A pour l'ordre m=1.

Plus généralement, les simulations des figures 3a à 3d montrent des anomalies très fortes pour les composantes d'ordre élevé 3 ou 4. L'évolution de l'erreur pour les composantes d'ordres 1 à 4 (de la figure 3a à la figure 3d) est très nette. L'estimation devient complètement inconsistante si l'erreur atteint la valeur 1. Ces figures illustrent clairement l'apparition de l'aliasing spatial inhérent, signalé ainsi par les courbes d'erreur qui passent la valeur critique de 1. En particulier, ces simulations ont montré que les composantes d'un ordre m courant sont polluées aussi bien par les composantes d'ordres plus élevés que par les composantes d'ordres inférieurs, déjà estimées, comme on le verra en référence à la figure 4. Ce repliement des composantes d'ordres inférieurs est particulièrement gênant dans les basses fréquences, avec l'effet de l'amplification due à l'égalisation.

La figure 4 représente de façon synthétique la carte du résidu de "non f 1 "\ orthonormalité" (c'est-à-dire la matrice abs — Y.Y' -I_K ) pour les

^N ) composantes jusqu'à l'ordre 6 inclus et pour les 32 positions illustrées sur la figure 1. Les rectangles délimités par les indices (m-1 , m) en abscisse, et (m'-1 , m') en ordonnées signalent le repliement de composantes d'ordre m' sur des composantes d'ordre m. Ces rectangles sont de ton d'autant plus foncé que le repliement potentiel est important.

Ainsi, le module de matriçage tel qu'il est défini dans l'état de la technique antérieure n'est pas bien adapté. Notamment, il ne permet pas une estimation satisfaisante des composantes d'ordres supérieurs à l'ordre 2 ou 3, à cause d'un défaut d'orthonormalité, et ce, même pour un domaine de très basses fréquences et pour une géométrie quelconque du réseau de capteurs.

La présente invention propose une estimation optimale des composantes sonores spatiales pour réduire les effets négatifs de l'aliasing spatial.

A cet effet, le matriçage décrit ci-avant est amélioré, préférentiellement en affinant d'abord l'estimation des composantes spatiales du champ dans le domaine des basses fréquences, en dessous de la fréquence d'aliasing, puis en cherchant à minimiser le repliement potentiel d'ordres supérieurs à l'ordre maximum fixé. En d'autres mots, on cherche alors à éliminer les termes de repliement potentiel venant des composantes d'ordres m' inférieurs ou égaux à l'ordre m de chaque composante estimée, et, le cas échéant d'ordre(s) supérieur(s), tant que le nombre total de ces composantes n'excède pas le nombre N de signaux captés. Ainsi, l'estimation des composantes est exempte d'erreur au moins dans un domaine basses fréquences, comme on le verra ci-après.

On indique ci-après un calcul permettant d'abord de minimiser l'effet de l'aliasing dans les basses fréquences.

Dans le cas d'une simple distribution sphérique, la matrice de correction D, définie dans la relation ( .5) ci-avant, s'exprime sous la forme :

où les éléments d'indices (m,n,σ) sont classés suivant la règle suivante

- m croissant (jusqu'à l'ordre maximum M);

- n croissant de 0 à m;

- σ=+1 puis -1 (sauf pour n=0).

La matrice D est composée des vecteurs-lignes dζ_ln , qui étaient fixés d'emblée à y^„ /N dans la relation ( .5) de l'art antérieur. Dans le domaine des basses fréquences (en dessous de la fréquence d'aliasing spatial), l'erreur d'estimation se présente maintenant sous la forme : ( -7)

(

On reconnaît ici le terme de repliement potentiel sous la forme à^σ _mn.y^σ _mn Pour éliminer le repliement le plus nuisible qui induit une erreur amplifiée dans les basses et moyennes fréquences, on élimine d'abord le repliement des composantes d'ordre m' inférieur ou égal à l'ordre m des composantes estimées. Ce repliement est le terme d'erreur le plus important à éliminer en priorité. Autrement dit, les N éléments d^,[i] du vecteur d^σ _mn sont des variables qui doivent satisfaire le système à K_m = (m+1)² équations suivant:

/ ^N < -y»v = ∑ l-- J = 0 pour (m ≠ m' ou n ≠ n')

.=1 avec m'≤m.

Il convient de remarquer toutefois que Ton ne peut éliminer le repliement de composantes d'ordres supérieurs que si le nombre de composantes bien "contrôlées" reste inférieur ou égal au nombre N de signaux captés. Par exemple, pour un microphone d'ordre 4 (25 composantes) avec 32 capteurs, on peut éliminer le repliement de 7 composantes supplémentaires B ,^' _n, d'ordre

5, que Ton peut choisir en fonction des incidences principales du champ capté. Il est cependant préférable, a priori, d'assurer un traitement homogène au sein d'un même ordre. Ainsi, on élimine préférentiellement le repliement de composantes jusqu'à Tordre maximum M tel que KM=( +1 )²<Λ/, et ce, pour l'estimation de composantes d'ordre m≤M. Dans ce cas, le système à résoudre s'exprime ainsi :

où I_κ est la matrice identité de rang KM.

En l'absence d'autre critère d'optimisation, on définit alors une première matrice corrigée D comme la pseudo-inverse:

Bien entendu, il est possible que la configuration des capsules sur le microphone soit telle que Tordre maximum M_m\c qui peut être réellement atteint soit inférieur à Tordre maximum théorique M. Ainsi, si les composantes estimées sont d'ordre maximal M_m/C<M, la matrice corrigée D est calculée dans un premier temps comme une sous-matrice du système ( .10), à savoir :

Les figures 5a à 5d montrent la simulation de Terreur relative ε_mn ^σ/B_mn ^σ moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, dans l'estimation des composantes ambiophoniques par le procédé au sens de l'invention, respectivement pour un ordre maximum de 1 à 4, pour un dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires. Ces figures 5a à 5d sont à comparer respectivement avec les figures 3a à 3d décrites ci-avant. On constate en particulier sur la figure 3d que la notion de "fréquence d'aliasing" n'a plus réellement de sens, puisque Terreur relative est supérieure à la valeur critique 1 , dans les basses fréquences, pour tous les ordres jusqu'à M=4. Si Ton avait choisi de se limiter à l'obtention de composantes jusqu'à Tordre

on comprend que l'effet de l'aliasing induit par les composantes d'ordre supérieur M=4 sur Tordre choisi

polluerait notablement l'estimation des composantes d'ordre maximum M_m.c=3.

Ainsi, dans une réalisation préférée, on minimise globalement le repliement potentiel venant d'ordres M' encore plus élevés que Tordre maximum M évoqué ci-dessus, dans une étape ultérieure. De façon générale, on indique que cette étape ultérieure a pour effet d'étendre le domaine d'estimation valide à des fréquences plus élevées.

En général le nombre total KM de composantes tel que défini ci-avant par :

K_M = ( +1)² est inférieur au nombre de signaux acquis N. La relation ( .9) ci-dessus laisse donc (N-KM) degrés de liberté (N inconnues pour KM équations), qu'il est possible d'exploiter pour minimiser "globalement' le repliement des composantes d'ordre(s) supérieur(s) à M. Il s'agit de minimiser en fait le terme μ défini par :

avec contrainte de vérifier la relation (.9). Le facteur de pondération γ_{m m} < permet de donner une importance moins forte au traitement des ordres m' plus élevés par exemple, et en fonction de Tordre m des composantes estimées. D'après la relation (.9) il possible d'exprimer, pour chaque composante à estimer, les N inconnues d _n i] en fonction de (N-K_M) variables d°„[i,] , choisies parmi les N inconnues. Le terme μ de la relation (.11) s'exprime alors aussi en fonction de ces (N-KM) variables, et c'est sous cette forme que la contrainte (.9) s'exprime. Ainsi, la minimisation du repliement se fait en posant :

La relation (.11) ramène alors à un système linéaire à (N-KM) équations et autant d'inconnues qui peut revêtir l'expression habituelle d'une optimisation au sens des moindres carrés, comme on le verra ci-après. La résolution de l'équation (.12) puis de l'équation (.9) se fait simplement selon des techniques classiques d'inversion de matrice ou de système linéaire.

Dans un premier temps, on applique une décomposition matricielle classique dite "QR", qui fournit : Y_W.E = Q.R , où :

- Q est une matrice carrée unitaire telle que Q.Q^τ=lκ,

- R est une matrice triangulaire supérieure et - E est une matrice de permutation (E.E^T=IΛ_/), dont les éléments non-nuls sont égaux à 1 , et qui opère un classement des valeurs propres dans un ordre favorable.

On pose ensuite : R=Rκ.A où R est la sous-matrice carrée composée des K premières colonnes de R, et A est définie par :

A=inv(R_κ).R Cette matrice A a pour sous-matrice carrée gauche la matrice identité \κ. L'introduction de cette matrice A=[l_κ A'], (d'éléments a,y) permet d'exprimer KM inconnues en fonction de (N-K_M) autres. Le système ( .9) se reformule donc ainsi:

AE^TΣ>^T = R_K ^~ Q^T = C d'où Ton déduit:

[premières K colonnes de (D.E)] = C-A'.D' ,

OÙ D'= [dernières (N - K) colonnes de (D.E) , ( .13) soit encore :

pour 1</< où k est un indice associé à (mn") de sorte que Ton peut exprimer les termes de ( .11) ainsi :

d -y« = y» l> ( -15)

d'où ^β«,-y» [e,] ( .16)

Les termes (.16) s'expriment sous la forme matricielle :

qui est une matrice à (KM- KM) lignes et (N- KM) colonnes. De là, les termes de la relation ( .15) s'écrivent dans l'ensemble : [premières K colonnes de

+ Y' ,yD'

Finalement, le système d'équations ( .12)( .11), qui fait intervenir les termes

décrits ci-dessus sous forme matricielle,

s'écrit sous la forme synthétique (avec d'abord γ_Wm^,=^) • '

= 0 , ( .17)

Les (N- KM) inconnues du sous-problème de minimisation se déduisent ainsi:

D -

( .18)

Finalement, on obtient alors les KM inconnues restantes en appliquant la relation (.13).

On notera que si Ton choisit des facteurs de pondération y_mnr variables suivant m ou m', il faut considérer chaque ordre m séparément, substituer à Y'J .ΛΠ la matrice r_m.Y']M,/vπ_ ^avec -^'

r„, gn 4 r, m, m

et appliquer la relation (.18) aux sous-matrices de D' et C respectivement composées de leurs colonnes correspondant à Tordre m.

Ce calcul peut être mené rapidement en utilisant un programme informatique adéquat tel que MATLAB ®. La seconde matrice corrigée D', ainsi obtenue, est appliquée avantageusement à la partie "hautes fréquences" des N signaux reçus, tandis que la première matrice corrigée D, obtenue par une relation du type de la relation ( .10), est préférentiellement appliquée à la partie "basses fréquences" des N signaux reçus. Ainsi, pour la partie "hautes fréquences" des signaux reçus où l'aliasing spatial affecte les composantes spatiales estimées, on effectue avantageusement une correction du matriçage pour obtenir une estimation valide des composantes dans un domaine de fréquences jusqu'à la fréquence d'aliasing des composantes d'ordres M' supérieurs à Tordre maximum M. Sur les figures 5a à 5d, on remarque systématiquement que le seuil critique de 1 n'est dépassé que pour les hautes fréquences (d'aliasing) et pour les composantes d'ordres élevés.

En se référant à la figure 7, le module de matriçage 1 d'un dispositif de traitement de signaux sonores, selon une réalisation préférée de la présente invention, comporte une entrée (flèche E) par laquelle il reçoit N signaux directement du microphone sphérique 3 de la figure 1 , ou, optionnellement, d'un module intermédiaire 4 qui sera décrit plus loin (représenté à cet effet en traits pointillés). Le module de matriçage 1 comporte un sous-module 11 de séparation des N signaux reçus en au moins deux bandes de fréquences, respectivement inférieures à une fréquence limite ή_ décrite ci-après, et supérieures à cette fréquence limite ft..

On explique ci-après la raison du choix de scinder en basses fréquences et hautes fréquences les N signaux à traiter et/ou les composantes obtenues par le matriçage utilisant D, d'une part, et par le matriçage utilisant D', d'autre part. Bien que les matrices D et D' offrent, théoriquement, la même qualité d'estimation dans le domaine basse fréquence, il a été constaté mathématiquement que la première matrice D met en jeu une moindre moyenne quadratique de ses coefficients. Le premier matriçage utilisant D limite alors l'introduction du bruit de mesure (des capsules) dans les composantes estimées. Il apparaît alors avantageux d'appliquer la matrice D sur une bande de basses fréquences et la matrice D' sur une bande de moyennes et/ou hautes fréquences, complémentaires.

On décrit ci-après comment prédéterminer la "fréquence limite" ή_ précitée, séparant ces deux bandes hautes et basses fréquences. Elles sont avantageusement définies séparément pour chaque composante estimée. Plus particulièrement, le choix d'appliquer la matrice D plutôt que la matrice D' dans une bande de basses fréquences est motivé par le fait que le bruit de mesure introduit dans l'estimation est particulièrement amplifié en basses fréquences, et ce, d'autant plus, et sur une bande plus large, que Tordre m des composantes estimées est élevé. Ainsi, la fréquence limite f|_ "de séparation" croît en principe avec Tordre m. Ces fréquences de séparation f|_ sont, le cas échant, différentes et en général inférieures aux fréquences d'aliasing f_A associées aux ordres m courants.

Dans un mode de réalisation préféré, le traitement pour obtenir chaque composante ambiophonique est donc différencié en deux bandes de fréquences. Les N signaux provenant du réseau microphonique sont traités en parallèle par deux matrices D et D', produisant chacune un jeu de K composantes ambiophoniques. On considère alors que les signaux résultant du matriçage D sont "de meilleure qualité" dans un domaine de basses fréquences que ceux résultants de D', alors que ceux résultant de D' sont "de meilleure qualité" dans un domaine de hautes fréquences. On considère également que la fréquence à partir de laquelle un matriçage devient plus favorable que Tautre pour l'estimation peut varier suivant la composante estimée.

En pratique, on peut utiliser un banc de filtres passe-bas 111 et un banc de filtres passe-haut 112. Le module de matriçage proprement dit, portant la référence 12 sur la figure 7, est scindé en deux sous-modules 121 et 122 qui appliquent respectivement les matrices corrigées D et D' calculées comme décrit ci-avant, aux parties basses fréquences et hautes fréquences des N signaux captés. A la sortie de chaque sous-module 121 et 122, on obtient alors K composantes. Ces 2K composantes sont enfin appliquées à un sous- module 13 de sommation voie par voie pour sommer ainsi les composantes ambiophoniques obtenues dans les deux gammes de fréquences. Finalement, les K composantes obtenues en sortie du module de matriçage 1 sont des composantes brutes que Ton applique avantageusement ensuite au module d'égalisation 2 de la figure 1 , avec pré-compensation de champ proche, tel que décrit ci-avant.

Ainsi, on prévoit préférentiellement une opération de matriçage différenciée selon deux bandes de fréquences, en séparant préalablement les signaux à traiter suivant ces deux bandes, puis de sommer les résultats des deux matriçages voie par voie. Ce mode d'implémentation est avantageusement mis en œuvre en l'absence de contrainte de temps réel, par exemple lors d'un enregistrement dédié à une écoute différée. Dans une variante plus économique, on n'utilise qu'une seule matrice choisie comme étant optimale pour le domaine des basses fréquences, si par exemple le besoin de transmission temps réel l'impose. Plutôt que de prévoir des filtres passe-haut et passe-bas, on indique qu'un algorithme de calcul inspiré d'une transformée de Fourier rapide peut aussi être utilisé pour prévoir des traitements adaptés notamment à la géométrie du microphone et/ou pour la définition de la matrice corrigée D.

On se réfère maintenant à la figure 8 pour décrire une réalisation plus avantageuse que celle représentée sur la figure 7 et selon laquelle les filtres passe-haut 111 B et passe-bas 112B du module de filtrage 11 B sont ici situés en aval du module de matriçage 12 suivant les deux matrices D (sous-module 121) et D' (sous-module 122). Plus particulièrement, le sous-module des filtres passe-haut 111 B suit directement le sous-module de matriçage 121 utilisant la matrice D, et le sous-module des filtres passe-bas 112B suit directement le sous-module de matriçage 122 utilisant la matrice D'. Les signaux matrices et filtrés respectivement dans les hautes fréquences et dans les basses fréquences sont ensuite sommés voie par voie par le module 13. On obtient finalement K composantes ambiophoniques pour N signaux sonores initiaux. On comprendra ainsi que, par rapport au mode de réalisation de la figure 7, on réalise une économie de 2x(N-K) filtres.

Toutefois, on rappelle que la seconde matrice corrigée D' permet d'éliminer en outre, aussi bien que la matrice D, le repliement de toute composante d'ordre m' inférieur ou égal à Tordre m de chaque composante estimée. De ce fait et de la même manière qu'avec la matrice D, la seconde matrice D' a pour propriété d'éviter l'apparition des erreurs d'estimation en basses fréquences, en plus de diminuer les erreurs d'estimation jusqu'à la fréquence dite "d'aliasing" f_A propre à chaque composante. Elle pourrait donc en principe être avantageusement appliquée sur une bande basse et moyenne fréquence allant au moins jusqu'à la fréquence d'aliasing, cette dernière dépendant de la composante estimée.

Au-delà de cette fréquence, l'information spatiale accessible via les signaux captés n'est plus suffisamment consistante, ce qui se traduit par une erreur relative en général supérieure à la valeur critique de 1 , quelle que soit la matrice utilisée pour le traitement. En particulier, l'incohérence statistique des relations de phase entre les signaux captés ne permet plus de contrôler la directivité "effective" des composantes reconstituées, et donc de reconstituer leur directivité théorique (comme indiqué ci-avant en référence à la figure 6). Il peut être alors préférable d'appliquer dans cette bande haute fréquence un troisième matriçage D" qui limite les efforts inutiles de reconstitution de directivité, et par la même occasion, qui limite des effets d'interférence inappropriés entre les signaux à traiter. Ce mode de réalisation avantageux est décrit plus loin en référence à la figure 9. On indique que cette troisième matrice D" peut être définie suivant la méthode classique dite "de projection", décrite ci-avant en référence à l'art antérieur.

Dans le mode de réalisation de la figure 9 où Ton combine le matriçage D' et un matriçage supplémentaire D", la fréquence de séparation entre les "moyennes" fréquences et les "hautes" fréquences correspond préférentiellement à la "fréquence d'aliasing spatiaf associée à un ordre courant d'une composante et repérée approximativement (pour une composante pour chaque ordre) sur les figures 5a à 5d. Ces fréquences peuvent être déterminées d'après des valeurs statistiques issues de simulations, avec grand nombre de tirages, ou encore par calcul.

Ainsi on comprendra que le traitement au sens de l'invention est extensible à plus de deux bandes de fréquences (et autant de matrices opérant en parallèle). Dans le cas de trois matrices D, D', D" représenté sur la figure 9, les résultats de ces trois matriçages D, D', D" peuvent être mixés après avoir été séparés en trois bandes respectivement basses (jusqu'à la fréquence limite fι_), moyennes (entre la fréquence limite _ et la fréquence d'aliasing f_A) et hautes fréquences (au-delà de la fréquence d'aliasing f_A).

En se référant alors à la figure 9, on applique les trois matrices D, D' et D" de traitement en parallèle (sous-modules respectifs 121 , 122 et 123 du module de matriçage 12), puis on filtre les signaux résultants suivants trois bandes de fréquences (sous-modules de filtrage respectifs 111 C, 112C et 113C), que Ton somme ensuite en mixant en particulier les signaux correspondant à la même composante ambiophonique (module de sommation 13). Les filtres LP (pour "Low-Pass") sont des filtres passe-bas 111C jusqu'à la fréquence limite _ dépendant éventuellement de Tordre de la composante traitée. Les filtres BP (pour "Band-Pass") sont des filtres passe-bande 112C entre la fréquence limite ^ et la fréquence d'aliasing f_A. Les filtres HP (pour "High-Pass") sont des filtres passe-haut 113C à partir de la fréquence d'aliasing f_A. On rappelle que, pour l'ensemble des filtres, les fréquences fι_ et f_A dépendent préférentiellement de la composante traitée.

Ainsi, l'élimination ou la minimisation du repliement potentiel jusqu'à un certain ordre, typiquement fonction du nombre de capteurs, est obtenue par la mise en œuvre de l'invention. Toutefois, le repliement potentiel non éliminé, venant de composantes d'ordres plus élevés, se manifeste de façon effective à partir d'une certaine fréquence "d'aliasing" (d'autant plus basse que Tordre estimé est élevé). Au-delà des fréquences d'aliasing précitées, Terreur d'estimation n'est, de toutes façons, plus contrôlable puisque, de fait, la longueur d'onde devient inférieure à l'espacement entre capteurs. Ce que propose finalement la présente invention est de limiter les effets de l'aliasing, sans bien entendu pouvoir supprimer pour autant l'aliasing lui-même.

C'est la raison pour laquelle la troisième matrice D" du sous-module de matriçage 123 relié, sur la figure 9, au sous-module de filtrage 113C passe- haut, peut être construite simplement en utilisant la méthode classique "par projection" de l'art antérieur.

Toutefois, on indique ci-après des étapes de traitement supplémentaires pour apporter une amélioration de l'estimation des composantes ambiophoniques dans les hautes fréquences.

La partie hautes-fréquences des signaux captés subit, lorsque ces signaux sont sommés, en particulier au matriçage, un "filtrage en peigne", avec pour conséquence possible un effet gênant de coloration sonore subjective. Plus particulièrement, ce phénomène vient de la sommation (lors du matriçage dans le cas présent) de signaux corrélés mais dont les relations de phase varient périodiquement en fonction de la fréquence (notamment parce qu'ils sont retardés les uns par rapport aux autres), créant des effets de résonance puis de creux en des fréquences régulièrement espacées dans le spectre sonore. Pour réduire cet effet et, de là, l'effet subjectif de coloration qui en résulte généralement, un moyen consiste à appliquer des filtres décorrélateurs (décorrélés entre eux) sur la partie hautes-fréquences des signaux captés, donc en amont du module de matriçage. Des méthodes pour la définition de tels filtres sont présentées par exemple dans :

- Gary S. Kendall, "The Decorrelation of Audio Signais and its Impact on

Spatial Imagery", Computer Music Journal 19:4, pp. 71-87, 1995. Lorsque cette option est choisie, la décorrélation partielle préalable des signaux est assurée par une batterie de filtres décorrélateurs placée en amont du matriçage (dans le module 4 de la figure 1). Avantageusement, on peut donc mener une décorrélation sur la partie hautes-fréquences des signaux captés. Elle consiste à insérer une batterie de filtres décorrélateurs (décorrélés entre eux, pour la partie hautes-fréquences) dans le module optionnel 4, en amont du module de matriçage 1 représenté sur la figure 1.

Par ailleurs, on remarque que les courbes d'égalisation de la figure 2 deviennent croissantes pour des fréquences supérieures à environ 1 kHz. Ce phénomène est lié à la compensation de la directivité propre de la capture du champ et non plus vraiment aux directivités propres des capteurs. Surtout, on remarque que le rapport entre les courbes d'égalisation des différents ordres devient proche de 1 (amplification relative de moins de 1dB). Or, dans le domaine des hautes fréquences au-delà des fréquences d'aliasing, l'inconsistance indiquée ci-avant dans l'estimation des composantes ambiophoniques peut induire un effet négatif, audible à la restitution.

On applique préférentiellement ici une correction de gain à apporter pour toutes les composantes ambiophoniques dans le domaine des hautes fréquences. Cette correction consiste à aplanir la pente (d'environ 6dB/octave) de l'égalisation originale, pour toutes les composantes. On ajuste ainsi à un même niveau d'égalisation toutes les composantes pour tous les ordres, suivant un critère de préservation globale de l'énergie. Cette correction de gain est combinée avantageusement à une compensation de la réponse en fréquence des capsules (en dehors de toute considération spatiale). A cet effet, on indique que, dans le cas où la variété des caractéristiques individuelles (réponses en fréquence) des capsules l'impose, une correction peut être introduite par application de filtres égaliseurs (préégalisation individuelle) au niveau du module optionnel 4 de la figure 1 , sur chaque signal avant matriçage. En variante, si une simple correction de gain suffit, cette correction peut être directement intégrée dans la matrice appliquée par le module de matriçage 1.

Ainsi, le dispositif de traitement des N signaux sonores, d'un système de prise de son d'un champ acoustique 3D tel que représenté sur la figure 2, de type dit "ambiophonique modifié avec pré-compensation de champ proche", comporte en aval du microphone 3 :

- optionnellement, le module 4 qui applique une égalisation individuelle des N signaux initiaux et ou une décorrélation des N signaux à partir d'un banc de filtres approprié,

- le module de matriçage 1 qui applique au moins une matrice corrigée D pour l'estimation des composantes ambiophoniques dans les basses fréquences et, optionnellement, une seconde matrice corrigée D¹ pour de plus hautes fréquences,

- optionnellement, le module d'égalisation 2 pour compenser une directivité intrinsèque des capteurs, avec préférentiellement une pré-compensation de champ proche, et

- optionnellement, le module 5 de stockage MEM et/ou de communication COM pour mémoriser et/ou transmettre les K composantes ambiophoniques traitées, via un réseau distant.

En pratique, les filtres d'égalisation du module 2 peuvent être implémentés sous forme FIR (pour "finite impulse response") par transformée de Fourier inverse des réponses en fréquences calculées d'après les formules analytiques du type ( .3) ou ( .3bis) ci-avant. En variante, une implémentation des filtres sous forme IIR ("infinité impulse response") serait normalement plus économique.

On indique surtout que, dans le module de matriçage 1 au sens de l'invention, l'estimation de chaque composante spatiale met en jeu non seulement l'échantillonnage spatial de la fonction harmonique sphérique associée (en particulier ses valeurs dans les directions des capsules), mais aussi l'échantillonnage spatial des autres fonctions harmoniques. De façon avantageuse, la matrice qu'applique le module de matriçage 1 permet d'assurer sensiblement une orthonormalité entre les fonctions harmoniques et, de là, de minimiser, voire d'annuler, les termes de repliement potentiel évoqués ci-avant.

Claims

Revendications

1. Procédé de traitement de données sonores en contexte ambiophonique, dans lequel : a) on obtient N signaux émanant de capteurs sonores, b) on forme une base d'harmoniques ambiophoniques comportant un nombre total de KM composantes sous la forme d'une matrice de base (YM) comportant N colonnes et K lignes, où K est inférieur ou égal à N, et c) on applique un traitement de matriçage (1) aux N signaux pour obtenir des composantes ambiophoniques des N signaux, exprimées dans ladite base des harmoniques, caractérisé en ce que, à l'étape c), on applique auxdits N signaux une matrice corrigée (D) vérifiant sensiblement la condition :

D.Y_M ^l = I, où - D est la matrice corrigée,

- Y_M ^{ est la transposée de la matrice représentant ladite base des harmoniques ambiophoniques, et

- I est la matrice identité.

2. Procédé selon la revendication 1 , caractérisé en ce que les coefficients d _n de la matrice corrigée D sont obtenus par vérification d'un système de K_m équations à N inconnues

(1<i≤N), de type :

. ^N

<C-y»v = ∑ M yl>^'] = 0 pour (m ≠ m' ou n ≠ n')

1=1 avec m'≤m≤M, K_m =(rn+1)², et où :

- d° sont les coefficients de la matrice corrigée D = d° et - y_m ^σ, sont les coefficients de la transposée de la matrice de base

YM - [- y_M ^σ -J. de manière à minimiser une influence des composantes d'ordres m' inférieurs à un ordre courant m dans l'estimation des composantes ambiophoniques d'ordre m.

3. Procédé selon Tune des revendications 1 et 2, caractérisé en ce que la matrice corrigée D correspond à la matrice pseudo-inverse de la transposée de la matrice de base (YM) et s'exprime par la relation : O = pmv(Y_M ^t) = (Y_M.Y_M'y Y_M

4. Procédé selon Tune des revendications 1 et 2, dans lequel on choisit d'obtenir un ordre maximum M_mj_C des composantes ambiophoniques, tel que

M_mc < E(vîv)-l , où Ε(x) signifie la partie entière de x, caractérisé en ce que la matrice corrigée D s'exprime par la relation O = (Y_M.Y_M ^!y Y_Mmic , où :

- Y_M est une matrice représentant la base des harmoniques d'ordre maximum choisi M_mj_C, et

- Y_M est une matrice représentant la base des harmoniques d'ordre maximum M qu'il est possible d'atteindre avec N signaux et défini par

5. Procédé selon Tune des revendications précédentes, dans lequel le nombre Ν de signaux est tel que Ν>(M+1)², où M est Tordre maximum qu'il est possible d'atteindre avec lesdits N signaux, laissant N-KM degrés de liberté dans l'estimation des coefficients d_m ^σ _n de la matrice corrigée D, caractérisé en ce que les coefficients d_m ^σ _n de la matrice corrigée D sont estimés par minimisation d'une expression de type :

où M' correspond à un ordre supérieur à Tordre maximum M, de manière à minimiser une influence potentielle de composantes d'ordres supérieurs à M dans l'estimation des KM composantes ambiophoniques.

6. Procédé selon la revendication 5, caractérisé en ce que les coefficients d_m ^σ _n de la matrice corrigée D sont estimés par minimisation d'une expression de type :

faisant intervenir un facteur de pondération γ_m,m' pour donner une importance moins forte aux composantes d'ordres m' supérieurs aux ordres m des composantes déjà estimées.

7. Procédé selon Tune des revendications 5 et 6, caractérisé en ce que ladite minimisation est effectuée par calcul au sens des moindres carrés et consiste à résoudre N-KM équations du type : dμ ].A. ,AT]

= 0 , avec / = 1 , 2, ... , (N-K_M),

où -C[_/] sont N-KM inconnues parmi N inconnues.

8. Procédé selon Tune des revendications 5 à 7, prises en combinaison avec Tune des revendications 2 à 4, caractérisé en ce que Tétape c) comporte deux opérations de matriçage différenciées en : d) une première bande de basses fréquences des composantes ambiophoniques, où Ton applique une matrice corrigée D donnée par une relation du type : D = pwv(Y ) = (Y_M.Y_M ^ly^l.Y_M , c2) une seconde bande de hautes fréquences des composantes ambiophoniques, où Ton applique une matrice corrigée D' dont les coefficients sont calculés par minimisation d'une expression du type :

et en ce que les opérations d ) et c2) sont suivies d'une sommation des deux matriçages voie par voie.

9. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : d) égaliser (EQ_m) les composantes ambiophoniques obtenues à Tétape c) pour compenser une pondération (W_m) des harmoniques ambiophoniques liée à une directivité intrinsèque des capteurs sonores.

10. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : e) compenser un effet de champ proche (1/F_m ^(R/c)) sur les composantes ambiophoniques obtenues à Tétape c).

11. Procédé selon la revendication 10, prise en combinaison avec la revendication 9, caractérisé en ce que Ton applique un banc de filtres égaliseurs avec pré-compensation de champ proche (EQ_m(ω)/F_m ^(R/c)(ω)) sur les composantes ambiophoniques obtenues à Tétape c).

12. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : ai ) préalablement à Tétape c), appliquer auxdits N signaux un banc de filtres décorrélateurs dans les hautes fréquences avec introduction d'un déphasage sensiblement aléatoire entre les N signaux pour limiter un effet de coloration dû à un filtrage en peigne résultant de Tétape de matriçage c).

13. Dispositif pour encoder des signaux sonores en composantes ambiophoniques, comportant au moins :

- une entrée (E) propre à recevoir N signaux émanant de capteurs sonores, et - un module de matriçage (1 ) appliquant auxdits N signaux au moins une matrice de base, représentative d'une base d'harmoniques ambiophoniques, pour obtenir Km composantes ambiophoniques estimées des N signaux et exprimées dans ladite base, caractérisé en ce que ladite matrice de base comporte des coefficients de gains ajustés pour minimiser au moins une influence de composantes d'ordres m' inférieurs à un ordre courant m d'une composante estimée, dans des basses fréquences, inférieures à une fréquence limite (fι_).

14. Dispositif selon la revendication 13, caractérisé en ce que les coefficients de ladite matrice de base (D') sont de gains ajustés en outre pour minimiser une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite (fι_).

15. Dispositif selon la revendication 13, caractérisé en ce que ledit module de matriçage (1 ) est agencé pour appliquer en outre une seconde matrice de base comportant des coefficients calculés pour minimiser au moins une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite (fi.).

16. Dispositif selon la revendication 15, caractérisé en ce que le module de matriçage (1) comporte un sous-module (11 ) de séparation desdits N signaux en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, pour appliquer deux traitements respectifs de matriçage (121 ,122) pour les signaux basses fréquences et pour les signaux hautes fréquences, ainsi qu'un sous-module (13) de sommation voie par voie pour sommer les composantes ambiophoniques obtenues dans les deux gammes de fréquences.

17. Dispositif selon la revendication 15, caractérisé en ce que le module de matriçage (1 ) comporte un sous-module (11 B) de filtrage desdites Km composantes ambiophoniques en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, ainsi qu'un sous-module (13B) de sommation voie par voie pour sommer les composantes ambiophoniques filtrées dans les deux gammes de fréquences.

18. Dispositif selon l'une des revendications 13 à 17, caractérisé en ce qu'il comporte, en amont du module de matriçage, un banc de filtres décorrélateurs (4) dans les hautes fréquences, à appliquer auxdits N signaux pour introduire un déphasage sensiblement aléatoire entre les N signaux et limiter un effet de coloration dû à un filtrage en peigne résultant du matriçage.

19. Dispositif selon l'une des revendications 13 à 18, caractérisé en ce qu'il comporte, en aval du module de matriçage (1 ), un module d'égalisation (2) des composantes ambiophoniques pour compenser une pondération (W_m) des harmoniques ambiophoniques liée à une directivité des capteurs sonores.

20. Dispositif selon Tune des revendications 13 à 19, caractérisé en ce qu'il comporte, en aval du module de matriçage (1 ), un module de filtrage (2) pour compenser un effet de champ proche dans l'estimation desdites composantes ambiophoniques, le dispositif comportant en outre des moyens de stockage des composantes ainsi compensées et/ou des moyens de transmission des composantes ainsi compensées via un réseau de communication.