WO2005015954A2 - Procede et dispositif de traitement de donnees sonores en contexte ambiophonique - Google Patents

Procede et dispositif de traitement de donnees sonores en contexte ambiophonique Download PDF

Info

Publication number
WO2005015954A2
WO2005015954A2 PCT/FR2004/002009 FR2004002009W WO2005015954A2 WO 2005015954 A2 WO2005015954 A2 WO 2005015954A2 FR 2004002009 W FR2004002009 W FR 2004002009W WO 2005015954 A2 WO2005015954 A2 WO 2005015954A2
Authority
WO
WIPO (PCT)
Prior art keywords
components
matrix
signals
surround
matrixing
Prior art date
Application number
PCT/FR2004/002009
Other languages
English (en)
Other versions
WO2005015954A3 (fr
Inventor
Jérôme DANIEL
Sébastien Moreau
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2005015954A2 publication Critical patent/WO2005015954A2/fr
Publication of WO2005015954A3 publication Critical patent/WO2005015954A3/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to the processing of sound data in a surround context, in particular in the context of a spatialized sound recording from a 3D microphone.
  • Spatial components of the real acoustic field are estimated from signals picked up by a limited number of sound sensors, such as piezoelectric capsules arranged according to a microphone antenna.
  • this antenna can be in the form of a 3D microphone, the capsules of which are distributed substantially over a sphere.
  • these spatial components of the field are assimilated to components called "spherical harmonic components".
  • spherical harmonic components components
  • the term "surround encoding" defines the step consisting in obtaining these spatial components of the field. This encoding thus makes it possible to transmit a representation of the sound field in the form of so-called signals.
  • “ambiophonic” transformation of the English word “ambisonic”
  • possibly compression coded in addition then to make of it, by means of a surround decoding operation on the transmitted signals, a diffusion on loudspeakers or on headphones in order to reproduce the spatial auditory impressions which would have been experienced instead of the antenna microphone.
  • Surround encoding is used in particular when taking its directive, for extracting spatial information and analyzing a sound scene, or for manipulating the sound field.
  • the estimation method from a finite number of signals is based on a theoretical calculation exploiting the knowledge of the acoustic field at the surface of a sphere (continuous distribution of measurement points), acoustically transparent or solid.
  • This calculation consists, for the estimation of a given spatial component, in a "projection" of the sound field measured on the associated spherical harmonic function.
  • the calculation implicitly exploits the properties of orthonormality of spherical harmonics.
  • the discrete and finite distribution of sensors, for any geometry does not strictly preserve the orthonormality of the spherical harmonics between them, at least from the order 2 or 3. Consequently, the projection method does not ensure the proper separation of the spatial components. Certain estimated components are thus "polluted" by other components present in the field.
  • the present invention improves the situation.
  • a process for processing sound data in a surround context in which: a) N signals from sound sensors are obtained, b) a base of surround harmonics is formed comprising a total number of KM components in the form a basic matrix comprising N columns and K M rows, where K M is less than or equal to N, and c) a matrixing treatment is applied to the N signals in order to obtain surround components of the N signals, expressed in said base of harmonics.
  • step c) a corrected matrix is applied to said N signals, substantially verifying the condition:
  • the number N of signals picked up is generally greater than the total number KM of surround components that it is possible to obtain. Determining the coefficients of the corrected matrix D would therefore amount to solving a system of N unknowns with, at most, KM equations.
  • the abovementioned matrixing step is often followed by a spectral equalization to compensate for an intrinsic directivity of each sensor in the capture of the field.
  • the amplification due to this equalization is preponderant for the high orders compared to the weak orders, in particular in the low frequencies.
  • the aforementioned aliasing phenomenon is all the more annoying as the other "polluting" components are of lower orders compared to the components to be estimated because the error induced by the first components of weak orders is then all the more amplified on higher order components, especially at low frequencies.
  • the coefficients d m ⁇ n of the corrected matrix D are obtained by checking a system of K m equations with N unknowns d ° n [i] (1 ⁇ i ⁇ N), Of type :
  • indices m, n and ⁇ are defined as follows:
  • - m is the order of the component, - n is between 0 and m,
  • the corrected matrix D is then advantageously determined by the relation:
  • - Y Mmh is a matrix representing the base of the harmonics of maximum order chosen M m j C .
  • - Y M is a matrix representing the base of the harmonics of maximum order M which it is possible to reach with ⁇ signals and defined by
  • the estimation of the components surround sound is no longer reliable.
  • the estimation of the surround components in general, is only valid in a low frequency domain lower than this aliasing frequency. More particularly, it will be seen later that this aliasing frequency decreases when the order m of a surround component increases.
  • the higher the order m of an estimated component the more the frequency band, in which its estimate is valid, is reduced.
  • the estimation of the coefficients d m ⁇ n of the corrected matrix D is then carried out by minimization of an expression of type: t 2 t *] M '] ⁇ 2- ⁇ 2 - ⁇ "-mn-ym'n '
  • M ⁇ m' ⁇ M '0 ⁇ n' ⁇ m', ⁇ ' ⁇ ⁇ where M' corresponds to an order greater than the maximum order M.
  • the coefficients d ° m of the corrected matrix D are estimated by minimizing an expression of type: involving a weighting factor ⁇ m , m ' to give less importance to the components of orders m' greater than the orders m of the components already estimated.
  • said minimization is carried out by calculation in the sense of least squares and consists in solving NK M equations of the type:
  • the N initial signals can be filtered instead:
  • the matrix D 'corrected according to the second approach also makes it possible to obtain, on its own, a satisfactory evaluation of the surround components over the entire frequency spectrum.
  • steps d) and c2) above of two separate stampings a single stamping using this matrix D 'is also envisaged.
  • the application of the method within the meaning of the invention makes it possible to improve the quality of the processing of the sound signals by surround encoding and, from there, to increase the performance on restitution.
  • the microphone sensors are generally of respective predetermined overall spatial positions, it is possible to form, in step b), the basis of surround harmonics by spatial sampling as a function of a rough estimate of the positions of the sensors.
  • the application of the corrected matrix D, in step c) makes it possible to substantially compensate for position errors of the sensors.
  • the present invention also relates to a device for encoding sound signals into surround components, comprising at least:
  • a matrixing module applying to said N signals at least one basic matrix, representative of a base of surround harmonics, in order to obtain estimated surround components of the N signals and expressed in said base.
  • said basic matrix comprises gain coefficients adjusted to preferentially minimize at least one influence of components of orders m 'lower than a current order m of an estimated component, in low frequencies , below a limit frequency.
  • the single matrixing from the corrected matrix D 'according to the second approach alone makes it possible to obtain a satisfactory evaluation of the surround components. It will thus be understood that the coefficients of this basic matrix D 'are advantageously of gains adjusted to also minimize an influence of components of orders M' greater than a maximum order M of the components estimated, in high frequencies, greater than the limit frequency supra.
  • the matrixing module is arranged to further apply a second basic matrix comprising coefficients calculated to minimize at least one influence of components of orders M 'greater than a maximum order M of the components estimated, in high frequencies, greater than said limit frequency.
  • the matrixing module comprises a sub-module for separating said N signals into at least two frequency bands, respectively less than said limit frequency and greater than said limit frequency, to apply two respective matrixing treatments for the low frequency signals and for high frequency signals, as well as a channel summing sub-module for summing the surround components obtained in the two frequency ranges.
  • the matrixing module comprises a sub-module for filtering said Km surround components in at least two frequency bands, respectively below said limit frequency and above said frequency limit, as well as a channel-by-channel summation submodule for summing the filtered surround components in the two frequency ranges.
  • FIG. 1 is a general diagram illustrating the processing of microphonic signals, downstream of a three-dimensional microphone, here of spherical geometry,
  • FIG. 2 represents the equalization curves applied to the components coming from the matrixing module 1 of FIG. 1,
  • FIG. 4 represents a map of the residue of "non-orthonormality" for surround components up to and including order 6 and for the 32 positions illustrated in FIG. 1,
  • FIG. 5a to 5d show the simulation of the relative error ⁇ mn ⁇ IB mn ⁇ mean (solid lines) and its variance (in dashed lines), in absolute value and as a function of frequency, of the estimation of the components surrounds by the method within the meaning of the invention, respectively for a maximum order equal to 1, for a maximum order equal to 2, for a maximum order equal to 3 and for a maximum order equal to 4, for the same device at 32 capsules and for a set of 200 random incidences,
  • FIG. 6 illustrates a representation by a three-dimensional metric in a coordinate system of spherical coordinates, of spherical harmonics
  • FIG. 7 shows in detail the matrixing module 1 of FIG. 1, in a particular embodiment of the invention
  • FIG. 8 represents in detail the matrixing module 1 of FIG. 1, in an advantageous embodiment of the invention, variant of the embodiment of FIG. 7,
  • FIG. 9 shows in detail the matrixing module 1 of Figure 1, using three matrixing modules in an even more advantageous embodiment.
  • FIG. 1 on which a device for processing the microphone signals receives N signals from a microphone antenna 3.
  • the N individual so-called "primary" signals are picked up by as many CM microphone capsules.
  • these sensors are embedded on the surface of a sphere S, for example assumed to be rigid.
  • each sensor occupies substantially the top of a regular polyhedron circumscribed in the sphere.
  • the polyhedron shown in Figure 1 has 32 vertices and the 3D microphone, as many sensors.
  • the number of sensors can only vary by quanta. If one chooses to obtain a total number K of surround components, one must anticipate by excess a greater number N of sensors. This is the reason why the number N of signals picked up is generally greater than the total number KM of surround components which it is possible to obtain. More generally, the number N of microphone capsules is in fact greater than the number KM of spherical harmonic components acquired and / or retained after processing.
  • the microphone 3 then called “surround”, based here on a spherical distribution of elementary microphone capsules, aims to produce an "acoustic encoding" of natural 3D acoustic fields, based on their decomposition into spherical harmonics.
  • the spherical harmonics Y lie real bounded functions, as shown in FIG. 6, as a function of the order m and the indices n and ⁇ .
  • n is between 0 and m and that ⁇ is +1 or -1, except for the order 0.
  • the dark and light parts correspond respectively to the positive and negative values of the spherical harmonic functions.
  • a similar principle can be applied to the case of sensors possibly having an intrinsic directivity (for example cardioid capsules), and / or by the acoustic properties of their support (for example a rigid or acoustically transparent sphere supporting the capsules).
  • an intrinsic directivity for example cardioid capsules
  • acoustic properties of their support for example a rigid or acoustically transparent sphere supporting the capsules.
  • the surround components B m ⁇ n of the initial field are generally deduced from the surface pressure field of the sphere, using projection and equalization operations, expressed as follows:
  • a near-field pre-compensation (including that of the speakers used at the restitution stage) is incorporated, and we therefore seek to estimate components:
  • the equalization module 2 of each of the components B ° n TM src makes it possible to obtain components - equalized (EQ ⁇ d ) and compensated in the near field (r / c - R / vs). it's here acoustic speed.
  • the distance r would then correspond to a distance of the capsules relative to the origin O and the distance R would correspond to the distance called "reference" between the position of reproduction loudspeakers and the position of a listener.
  • the near field pre-compensation can be applied directly to the raw components, without necessarily providing for equalization, in particular if the intrinsic directivity of the sensors does not require such equalization.
  • K surround components obtained after equalization and compensation in the near field, are limited and not divergent, it is possible to store them in a memory of the processing device as shown in FIG. 1, or even to transmit them via a communication network, from module 5, MEM storage and / or COM communication, shown in FIG. 1.
  • a communication network from module 5, MEM storage and / or COM communication, shown in FIG. 1.
  • FIG. 2 Reference is made to FIG. 2 to describe below the effect of a lack of orthonormality and, hence, the effect of spatial aliasing on equalized and pre-compensated near-field surround components.
  • the case of the rigid sphere is represented by broken lines and that of perfect cardioid sensors by continuous lines.
  • the surround components of the field are estimated from the vector of the captured signals p, for a "discrete" projection, by:
  • the column vector B [ • •• B m ⁇ n ••• [is defined as follows. The application of the relation (.4) is then expressed in a more synthetic way by:
  • the equalization filters placed in battery downstream of the matrixing module are the EQ pursueequalization filters, which act as diagonal elements of the Diag matrix ([EQ 0 ••• EQ admir, •••]).
  • the error due to aliasing is amplified the more the order m ', greater than m, is high and the frequency is low (see the realistic case of a rigid sphere in lines discontinued). This phenomenon becomes less significant from the high frequencies (or when the radius has decreases) since the gains in equalization become close for all the orders m.
  • the high level of equalization at low frequencies is accompanied by an amplification of the internal noise of the sensors. If the N signals picked up include noises of the same energy
  • this error exceeds the threshold value of 1.
  • FIG. 4 synthetically represents the map of the residue of "non f 1" ⁇ orthonormal equation "(that is to say the matrix abs - YY '-I K ) for the
  • the matrixing module as defined in the state of the prior art is not well suited. In particular, it does not allow a satisfactory estimate of the components of orders greater than order 2 or 3, because of a lack of orthonormality, even for a domain of very low frequencies and for any geometry of the network of sensors.
  • the present invention provides an optimal estimation of the spatial sound components to reduce the negative effects of spatial aliasing.
  • the matrixing described above is improved, preferably by first refining the estimation of the spatial components of the field in the low frequency domain, below the aliasing frequency, then by seeking to minimize aliasing potential for orders greater than the maximum order set. In other words, we then seek to eliminate the terms of potential aliasing coming from the components of orders m 'less than or equal to the order m of each component estimated, and, if necessary of order (s) higher ( s), as long as the total number of these components does not exceed the number N of signals received.
  • the estimation of the components is error free at least in a low frequency domain, as will be seen below.
  • the matrix D is composed of the vector-lines d ⁇ ln , which were fixed from the start at y ⁇ personally/ N in relation (.5) of the prior art.
  • the estimation error is now presented as: (-7)
  • Ton can eliminate aliasing of higher order components only if the number of well "controlled" components remains less than or equal to the number N of signals picked up. For example, for a microphone of order 4 (25 components) with 32 sensors, we can eliminate the folding of 7 additional components B, ' n , of order
  • the configuration of the capsules on the microphone is such that the maximum order M m ⁇ c which can actually be reached is less than the theoretical maximum order M.
  • the corrected matrix D is first calculated as a sub-matrix of the system (.10), namely :
  • Figures 5a to 5d show the simulation of Relative Terror ⁇ mn ⁇ / B mn ⁇ mean (solid lines) and its variance (in dashed lines), in absolute value and as a function of frequency, in the estimation of the surround components by the method within the meaning of the invention, respectively for a maximum order of 1 to 4, for a device with 32 capsules and for a set of 200 random incidences.
  • Figures 5a to 5d are to be compared respectively with Figures 3a to 3d described above.
  • the potential folding is generally minimized coming from orders M ′ even higher than the maximum order M mentioned above, in a subsequent step.
  • this subsequent step has the effect of extending the valid estimation domain to higher frequencies.
  • R R ⁇ .A
  • R the square sub-matrix composed of the first K columns of R
  • A is defined by:
  • Ton chooses weighting factors y mnr varying according to m or m ', it is necessary to consider each order m separately, substitute for Y'J . ⁇ the matrix r m .Y'] M, / v ⁇ _ with - '
  • the second corrected matrix D ' is advantageously applied to the "high frequency” part of the N signals received, while the first corrected matrix D, obtained by a relation of the type of the relation (.10), is preferably applied to the "low frequencies" part of the N signals received.
  • a matrix correction is advantageously carried out in order to obtain a valid estimate of the components in a frequency domain up to the aliasing frequency.
  • components of orders M ' greater than the maximum order M.
  • the matrixing module 1 of a sound signal processing device has an input (arrow E) by which it receives N signals directly from the spherical microphone 3 of Figure 1, or, optionally, of an intermediate module 4 which will be described later (shown for this purpose in dotted lines).
  • the matrixing module 1 comprises a sub-module 11 for separating the N signals received into at least two frequency bands, respectively less than a limit frequency ⁇ _ described below, and greater than this limit frequency ft ..
  • the N signals to be processed and / or the components obtained by the matrixing using D on the one hand, and by the matrixing using D ', on the other hand go.
  • the matrices D and D 'theoretically offer the same quality of estimation in the low frequency domain, it has been found mathematically that the first matrix D involves a lower quadratic mean of its coefficients.
  • the first matrixing using D then limits the introduction of measurement noise (capsules) into the estimated components. It then appears advantageous to apply the matrix D on a band of low frequencies and the matrix D 'on a band of medium and / or high frequencies, complementary.
  • the processing for obtaining each surround component is therefore differentiated into two frequency bands.
  • the N signals coming from the microphone network are processed in parallel by two matrices D and D ', each producing a set of K surround components. It is then considered that the signals resulting from the matrixing D are "of better quality" in a low frequency domain than those resulting from D ', while those resulting from D' are “of better quality” in a high frequency domain. It is also considered that the frequency from which a matrixing becomes more favorable than the other for the estimation can vary according to the estimated component.
  • the matrixing module proper bearing the reference 12 in FIG. 7, is split into two sub-modules 121 and 122 who respectively apply the corrected matrices D and D 'calculated as described above, to the low frequency and high frequency parts of the N signals picked up.
  • K components At the output of each sub-module 121 and 122, we then obtain K components.
  • K components obtained at the output of the matrixing module 1 are raw components which are then advantageously applied to the equalization module 2 of FIG. 1, with near-field pre-compensation, as described above.
  • a matrixing operation differentiated according to two frequency bands is preferably provided, by separating the signals to be processed according to these two bands beforehand, then summing the results of the two matrixing channels by channel.
  • This implementation mode is advantageously implemented in the absence of real time constraints, for example during a recording dedicated to deferred listening.
  • only one matrix chosen as being optimal for the low frequency domain is used, if for example the need for real-time transmission imposes it.
  • a calculation algorithm inspired by a fast Fourier transform can also be used to provide treatments adapted in particular to the geometry of the microphone and / or for the definition of the corrected matrix D.
  • FIG. 8 describes a more advantageous embodiment than that shown in FIG. 7 and according to which the high-pass filters 111 B and low-pass 112B of the filter module 11 B are here located downstream of the module of matrixing 12 according to the two matrices D (sub-module 121) and D '(sub-module 122). More particularly, the high-pass filter sub-module 111 B directly follows the matrixing sub-module 121 using the matrix D, and the low-pass filter sub-module 112B directly follows the matrixing sub-module 122 using the matrix D '. The matrix signals and filtered respectively in the high frequencies and in the low frequencies are then summed channel by channel by the module 13. One obtains finally K surround components for N initial sound signals. It will thus be understood that, compared with the embodiment of FIG. 7, a saving of 2x (NK) filters is achieved.
  • NK 2x
  • the second corrected matrix D ′ makes it possible to further eliminate, as well as the matrix D, the aliasing of any component of order m ′ less than or equal to the order m of each estimated component. Therefore and in the same way as with the matrix D, the second matrix D 'has the property of avoiding the appearance of estimation errors at low frequencies, in addition to reducing the estimation errors up to the so-called "aliasing" frequency f A specific to each component. It could therefore in principle be advantageously applied to a low and medium frequency band going at least up to the aliasing frequency, the latter depending on the estimated component.
  • the spatial information accessible via the captured signals is no longer sufficiently consistent, which results in a relative error generally greater than the critical value of 1, whatever the matrix used for the processing. .
  • the statistical inconsistency of the phase relationships between the captured signals no longer makes it possible to control the "effective" directivity of the reconstructed components, and therefore to reconstruct their theoretical directivity (as indicated above with reference to FIG. 6).
  • This mode advantageous embodiment is described below with reference to Figure 9. It is indicated that this third matrix D "can be defined according to the conventional method called" projection ", described above with reference to the prior art.
  • the frequency of separation between the" medium “frequencies and the" high “frequencies preferentially corresponds to the" associated spatial aliasing frequency to a current order of a component and marked approximately (for a component for each order) in FIGS. 5a to 5d.
  • These frequencies can be determined based on statistical values from simulations, with a large number of draws, or by calculation.
  • the processing within the meaning of the invention is extensible to more than two frequency bands (and as many matrices operating in parallel).
  • the results of these three matrixes D, D', D" can be mixed after having been separated into three respectively low bands (up to the frequency limit f ⁇ _), medium (between the limit frequency _ and the frequency of aliasing f A ) and high frequencies (beyond the frequency of aliasing f A ).
  • the three matrices D, D ′ and D ′′ of parallel processing are applied (respective submodules 121, 122 and 123 of the matrixing module 12), then the following resulting signals are filtered three frequency bands (respective filter sub-modules 111 C, 112C and 113C), which you then sum by mixing in particular the signals corresponding to the same surround component (summation module 13).
  • LP filters for "Low-Pass ” are low-pass filters 111C up to the limit frequency _ possibly depending on the order of the component processed.
  • BP filters for" Band-Pass ” are band-pass filters 112C between the limit frequency ⁇ and the aliasing frequency f A.
  • the HP filters (for "High-Pass”) are 113C high-pass filters from the aliasing frequency f A.
  • the frequencies f ⁇ _ and f A preferentially depend on the component treated.
  • the partial partial decorrelation of the signals is ensured by a battery of decorrelating filters placed upstream of the matrixing (in module 4 of Advantageously, it is therefore possible to conduct a decorrelation on the high-frequency part of the signals picked up.
  • This consists of inserting a battery of decorrelator filters (decorrelated together, for the high-frequency part) in the optional module 4, upstream of the matrixing module 1 shown in FIG. 1.
  • a gain correction to be applied is preferably applied here for all the surround components in the high frequency range.
  • This correction consists in flattening the slope (of approximately 6dB / octave) of the original equalization, for all the components. We thus adjust to the same level of equalization all the components for all the orders, according to a criterion of global preservation of energy.
  • This gain correction is advantageously combined with compensation for the frequency response of the capsules (apart from any spatial consideration). To this end, it is indicated that, if the variety of individual characteristics (frequency responses) of the capsules so requires, a correction can be introduced by applying equalizing filters (individual pre-equalization) at the level of the optional module 4 of the Figure 1, on each signal before stamping. As a variant, if a simple gain correction is sufficient, this correction can be directly integrated into the matrix applied by the matrixing module 1.
  • the device for processing the N sound signals, of a sound pick-up system for a 3D acoustic field as shown in FIG. 2, of the so-called "modified surround sound with near field pre-compensation" type, comprises downstream of microphone 3:
  • module 4 which applies an individual equalization of the N initial signals and or a decorrelation of the N signals from an appropriate filter bank,
  • the matrixing module 1 which applies at least one corrected matrix D for the estimation of the surround components in the low frequencies and, optionally, a second corrected matrix D 1 for higher frequencies,
  • the equalization module 2 to compensate for an intrinsic directivity of the sensors, preferably with a near field pre-compensation, and
  • the MEM storage and / or COM communication module 5 for storing and / or transmitting the K surround components processed, via a remote network.
  • equalization filters of module 2 can be implemented in FIR form (for "finite impulse response") by Fourier transform inverse of the frequency responses calculated according to the analytical formulas of the type (.3) or (.3bis) above.
  • FIR finite impulse response
  • IIR finity impulse response
  • the estimation of each spatial component involves not only the spatial sampling of the associated spherical harmonic function (in particular its values in the directions of the capsules ), but also the spatial sampling of the other harmonic functions.
  • the matrix applied by the matrixing module 1 makes it possible to substantially ensure orthonormality between the harmonic functions and, from there, to minimize, or even cancel, the terms of potential aliasing mentioned above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

La présente invention concerne le traitement de signaux captés pour obtenir des composantes ambiophoniques. Cette opération (1), dite de matriçage, est effectuée en appliquant une matrice à ces signaux captés qui est corrigée pour préserver une orthonormalité entre les harmoniques ambiophoniques et, de là, minimiser un effet de repliement de composantes ambiophoniques sur des composantes en cours d'estimation.

Description

Procédé et dispositif de traitement de données sonores en contexte ambiophonique
La présente invention concerne le traitement de données sonores en contexte ambiophonique, notamment dans le cadre d'une prise de son spatialisée à partir d'un microphone 3D.
On estime des composantes spatiales de champ acoustique réel à partir de signaux captés par un nombre limité de capteurs sonores, tels que des capsules piézoélectriques agencées selon une antenne microphonique. Pour une représentation tridimensionnelle du champ acoustique, cette antenne peut se présenter sous la forme d'un microphone 3D dont les capsules sont réparties sensiblement sur une sphère. Ci-après, on assimile ces composantes spatiales du champ à des composantes dites "composantes harmoniques sphériques". Toutefois, on indique qu'une distribution des capteurs de l'antenne microphonique, autre qu'une distribution sphérique, peut aussi être envisagée.
En règle générale, plus le nombre de capteurs prévus dans le microphone est élevé et plus l'ordre des composantes spatiales obtenues peut être élevé. [.'"ordre" d'une composante spatiale se rattache à la fréquence angulaire avec laquelle elle "scrute" le champ sonore. Ainsi, la considération d'ordres élevés offre une résolution spatiale accrue du champ représenté. De manière générale encore, le nombre de capteurs à prévoir est toujours supérieur ou égal au nombre total de composantes spatiales qu'il est possible de déterminer.
On définit par les termes "encodage ambiophonique" l'étape consistant à obtenir ces composantes spatiales du champ. Cet encodage permet ainsi de transmettre une représentation du champ sonore sous forme de signaux dits
"ambiophoniques" (traduction du mot anglais "ambisonic"), éventuellement codés en compression par ailleurs, puis d'en faire, moyennant une opération de décodage ambiophonique sur les signaux transmis, une diffusion sur haut- parleurs ou sur casque afin de reproduire les impressions auditives spatiales qui auraient été éprouvées à la place de l'antenne microphonique.
L'encodage ambiophonique est utilisé notamment en prise de son directive, pour l'extraction d'informations spatiales et l'analyse d'une scène sonore, ou encore pour une manipulation du champ sonore.
On connaît notamment par le document :
"A Highly Scalable Spherical Microphone Array Based on an Orthonormal Décomposition of the Sound Field', Jens Meyer - Gary Elko, Vol. Il-pp.1781- 1784 in Proc. ICASSP 2002, une méthode d'estimation exacte des composantes ambiophoniques si l'on dispose d'une mesure du champ acoustique sur toute la surface d'une sphère, et partant d'un modèle a priori de description du champ, en utilisant par exemple l'expression mathématique de la pression en surface d'une sphère rigide, ou encore les directivités de type cardioïde pour des capteurs placés sur un support acoustiquement transparent.
Toutefois, en pratique, on ne dispose de mesures qu'en un nombre limité de points, puisque la distribution de capteurs ne peut être que discrète et finie. En conséquence, l'estimation est sujette à des artefacts dits "aliasing spatial". Il s'agit d'une erreur irréductible qui apparaît comme un défaut de consistance de l'information spatiale captée lorsque la longueur d'onde n'est plus assez grande devant l'espacement entre les capsules, donc pour des fréquences supérieures à une fréquence dite "d'aliasing" qui dépend notamment du nombre de capteurs et du rayon du microphone s'il est de géométrie sphérique. Par ailleurs, il n'existe pas de distribution géométrique discrète tridimensionnelle dans le placement des capsules à la surface de la sphère qui puisse satisfaire certaines propriétés, notamment l'orthonormalité des harmoniques sphériques, sur laquelle se base l'approche théorique évoquée dans le document cité ci-avant, en particulier pour l'estimation de composantes spatiales d'ordres élevés.
En effet, le procédé d'estimation à partir d'un nombre fini de signaux, dans ce document, est basé sur un calcul théorique exploitant la connaissance du champ acoustique à la surface d'une sphère (distribution continue de points de mesure), acoustiquement transparente ou bien solide. Ce calcul consiste, pour l'estimation d'une composante spatiale donnée, en une "projection" du champ sonore mesuré sur la fonction harmonique sphérique associée. A cet effet, le calcul exploite implicitement les propriétés d'orthonormalité des harmoniques sphériques. En fait, la distribution discrète et finie de capteurs, pour une géométrie quelconque, ne permet pas de préserver strictement l'orthonormalité des harmoniques sphériques entre elles, au moins à partir de l'ordre 2 ou 3. En conséquence, la méthode de projection n'assure pas la bonne séparation des composantes spatiales. Certaines composantes estimées sont ainsi "polluées" par d'autres composantes présentes dans le champ.
La présente invention vient améliorer la situation.
Elle propose à cet effet un procédé de traitement de données sonores en contexte ambiophonique, dans lequel : a) on obtient N signaux émanant de capteurs sonores, b) on forme une base d'harmoniques ambiophoniques comportant un nombre total de KM composantes sous la forme d'une matrice de base comportant N colonnes et KM lignes, où KM est inférieur ou égal à N, et c) on applique un traitement de matriçage aux N signaux pour obtenir des composantes ambiophoniques des N signaux, exprimées dans ladite base des harmoniques.
Selon une définition générale de l'invention, à l'étape c), on applique auxdits N signaux une matrice corrigée vérifiant sensiblement la condition :
D.YM' ≈ I. OÙ
- D est la matrice corrigée,
- Y l est la transposée de la matrice représentant ladite base des harmoniques ambiophoniques, et
- I est la matrice identité.
On s'efforce ainsi, dès le traitement de matriçage, à respecter la condition d'orthonormalité entre les harmoniques ambiophoniques constituant la base précitée. On comprendra ainsi que le terme "corrigée" qualifiant la matrice D vise notamment cette compensation du défaut d'orthonormalité au sens de l'invention.
Toutefois, comme indiqué ci-avant, le nombre N de signaux captés est généralement supérieur au nombre total KM de composantes ambiophoniques qu'il est possible d'obtenir. Déterminer les coefficients de la matrice corrigée D reviendrait donc à résoudre un système de N inconnues avec, au plus, KM équations.
Dans une première approche, on cherche à minimiser une influence des composantes d'ordres m' inférieurs à un ordre courant m dans l'estimation des composantes ambiophoniques d'ordre m.
En effet, on indique que l'étape de matriçage précitée est souvent suivie d'une égalisation spectrale pour compenser une directivité intrinsèque de chaque capteur dans la capture du champ. Typiquement, l'amplification due à cette égalisation est prépondérante pour les ordres élevés par rapport aux ordres plus faibles, en particulier dans les basses fréquences. Le phénomène d'aliasing précité est d'autant plus gênant que les autres composantes "polluantes" sont d'ordres plus bas par rapport aux composantes à estimer car l'erreur induite par les premières composantes d'ordres faibles est alors d'autant plus amplifiée sur les composantes d'ordres plus élevés, en particulier en basses fréquences.
Dans un mode de réalisation selon la première approche, les coefficients dm σ n de la matrice corrigée D sont obtenus par vérification d'un système de Km équations à N inconnues d°n[i] (1<i≤N), de type :
Figure imgf000007_0001
I N
C, -Y » = ∑ C ] P] = 0 Po r (m ≠ m ' ou n ≠ n ' )
;'=1 avec m'≤m≤M, Km =(m+1)2, et où :
dm σ n sont les coefficients de la matrice corrigée D = dl , et
/ - y 'n' sont 'es coefficients de la transposée de la matrice de base
On indique que les indices m, n et σ sont définis comme suit :
- m est l'ordre de la composante, - n est compris entre 0 et m,
- et σ vaut -1 ou 1 , sauf pour l'ordre m=0.
Ainsi, le nombre total Km de composantes jusqu'à l'ordre m est donné par la relation Km = (m+1)2 . Toujours dans cette première approche, on peut exprimer alors la matrice corrigée D comme la matrice pseudo-inverse de la transposée de la matrice de base YM- La matrice corrigée D est déterminée alors avantageusement par la relation :
Figure imgf000008_0001
Si l'on choisit d'obtenir un ordre maximum MmjC des composantes ambiophoniques, tel que Mmjc <E(VN)-1 (où Ε(x) signifie la partie entière de x), la matrice corrigée D s'exprime avantageusement par la relation O = (YM.YM'y YMmic , où :
- YMmh est une matrice représentant la base des harmoniques d'ordre maximum choisi MmjC, et
- YM est une matrice représentant la base des harmoniques d'ordre maximum M qu'il est possible d'atteindre avec Ν signaux et défini par
Figure imgf000008_0002
Dans une seconde approche, comme le nombre Ν de signaux est généralement tel que Ν>(M+1)2, où M est l'ordre maximum qu'il est possible d'atteindre avec lesdits N signaux, il subsiste N-KM degrés de liberté pour estimer les coefficients d°„ de la matrice corrigée D (avec KM=(M+1 )2 ).
Selon cette seconde approche, préférentiellement complémentaire de la première approche, on cherche à minimiser une influence potentielle de composantes d'ordres supérieurs à M dans l'estimation des KM composantes ambiophoniques.
En effet, comme indiqué ci-avant, lorsque la longueur d'onde n'est plus assez grande devant l'espacement entre les capsules, donc pour des fréquences supérieures à la fréquence d'aliasing, l'estimation des composantes ambiophoniques n'est plus fiable. En d'autres termes, l'estimation des composantes ambiophoniques, de manière générale, n'est valable que dans un domaine de basses fréquences inférieures à cette fréquence d'aliasing. Plus particulièrement, on verra plus loin que cette fréquence d'aliasing diminue lorsque l'ordre m d'une composante ambiophonique augmente. Ainsi, plus l'ordre m d'une composante estimée est élevé et plus la bande de fréquences, dans laquelle son estimation est valide, est réduite.
On comprendra ainsi que chercher à minimiser la "pollution" des composantes d'ordre M par des composantes d'ordres M' supérieurs à l'ordre M permet d'élargir la bande de fréquences où l'estimation des composantes d'ordre M est valide, au-delà des fréquences d'aliasing liées aux ordres M'.
Dans un mode de réalisation selon cette seconde approche, l'estimation des coefficients dm σ n de la matrice corrigée D s'effectue alors par minimisation d'une expression de type : t 2 t*]M '] ~ 2-ι 2-ι "-mn-ym'n'
M<m'≤M' 0≤n'≤m',σ'=±\ où M' correspond à un ordre supérieur à l'ordre maximum M.
Préférentiellement, on estime les coefficients d°m de la matrice corrigée D par une minimisation d'une expression de type :
Figure imgf000009_0001
faisant intervenir un facteur de pondération γm,m' pour donner une importance moins forte aux composantes d'ordres m' supérieurs aux ordres m des composantes déjà estimées. Dans un mode de réalisation particulièrement avantageux selon cette seconde approche, ladite minimisation est effectuée par calcul au sens des moindres carrés et consiste à résoudre N-KM équations du type :
^^ = 0 , avec / = 1 , 2 (N-KM),
où d „[i,] sont N-KM inconnues parmi N inconnues.
Les N-KM coefficients ainsi déterminés sont réinjectés dans la relation générale D.YM t = I ci-avant, et l'on obtient ainsi une expression D' de la matrice corrigée, bien adaptée pour les hautes fréquences.
Préférentiellement, on prévoit alors à l'étape c) deux opérations de matriçage différenciées en : d) une première bande de basses fréquences des composantes ambiophoniques, où l'on applique une matrice corrigée D donnée par une relation du type : D = ≠nv(YM') = {YM.YM'y YM , c2) une seconde bande de hautes fréquences des composantes ambiophoniques, où l'on applique une matrice corrigée D' dont les coefficients sont obtenus par minimisation d'une expression du type :
Figure imgf000010_0001
Les opérations ci) et c2) sont ensuite suivies d'une sommation des deux matriçages voie par voie.
Ainsi, on prévoit préférentiellement de filtrer les Km composantes ambiophoniques, en aval de modules de matriçage, en conservant :
- les composantes basses fréquences, lorsque ces composantes ambiophoniques sont obtenues par un matriçage utilisant la matrice D selon la première approche, et - les composantes hautes fréquences, lorsque ces composantes ambiophoniques sont obtenues par un matriçage utilisant la matrice D' selon la seconde approche.
En variante, on peut filtrer plutôt les N signaux initiaux :
- avec des filtres passe-bas, puis appliquer ces signaux filtrés à un matriçage utilisant la matrice D corrigée selon la première approche, et
- avec des filtres passe-haut, puis appliquer ces signaux filtrés à un matriçage utilisant la matrice D' corrigée selon la seconde approche, et sommer enfin les composantes ambiophoniques résultant une à une des deux matriçages.
Toutefois, il est plus avantageux de filtrer les composantes ambiophoniques en aval des matriçages, puisqu'il n'y a à prévoir que 2xKm filtres dans ce cas, alors qu'un filtrage des N signaux en amont des matriçages nécessiterait 2xN filtres, soit 2x(N-Km) filtres supplémentaires (avec N>Km).
On indique en outre, de façon plus générale, que la matrice D' corrigée selon la seconde approche permet aussi d'obtenir, à elle seule, une évaluation satisfaisante des composantes ambiophoniques sur toute le spectre de fréquences. Ainsi, dans une variante simple des étapes d) et c2) ci-avant de deux matriçages séparés, un unique matriçage utilisant cette matrice D' est aussi envisagé.
De façon générale, on comprendra que l'application du procédé au sens de l'invention permet d'améliorer la qualité du traitement des signaux sonores par encodage ambiophonique et, de là, augmenter les performances à la restitution. En outre, les capteurs du microphone étant généralement de positions spatiales respectives globalement prédéterminées, on peut former, à l'étape b), la base d'harmoniques ambiophoniques par échantillonnage spatial en fonction d'une estimation grossière des positions des capteurs. Avantageusement, l'application de la matrice corrigée D, à l'étape c), permet de compenser sensiblement des erreurs de positions des capteurs.
On indique qu'à cet effet, une mesure d'étalonnage d'un champ acoustique de répartition spatiale bien connue peut être mise en œuvre.
La présente invention vise aussi un dispositif pour encoder des signaux sonores en composantes ambiophoniques, comportant au moins :
- une entrée propre à recevoir N signaux émanant de capteurs sonores montés sur une antenne microphonique, et
- un module de matriçage appliquant auxdits N signaux au moins une matrice de base, représentative d'une base d'harmoniques ambiophoniques, pour obtenir des composantes ambiophoniques estimées des N signaux et exprimées dans ladite base.
Dans le dispositif au sens de l'invention, ladite matrice de base comporte des coefficients de gains ajustés pour minimiser préférentiellement au moins une influence de composantes d'ordres m' inférieurs à un ordre courant m d'une composante estimée, dans des basses fréquences, inférieures à une fréquence limite.
Comme indiqué ci-avant, le matriçage unique à partir de la matrice corrigée D' selon la seconde approche permet à lui seul d'obtenir une évaluation satisfaisante des composantes ambiophoniques. On comprendra ainsi que les coefficients de cette matrice de base D' sont avantageusement de gains ajustés pour minimiser aussi une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à la fréquence limite précitée.
En variante, le module de matriçage est agencé pour appliquer en outre une seconde matrice de base comportant des coefficients calculés pour minimiser au moins une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite.
Préférentiellement, le module de matriçage comporte un sous-module de séparation desdits N signaux en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, pour appliquer deux traitements respectifs de matriçage pour les signaux basses fréquences et pour les signaux hautes fréquences, ainsi qu'un sous-module de sommation voie par voie pour sommer les composantes ambiophoniques obtenues dans les deux gammes de fréquences.
Dans une variante plus avantageuse car utilisant seulement 2xKm filtres au lieu de 2xN filtres, le module de matriçage comporte un sous-module de filtrage desdites Km composantes ambiophoniques en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, ainsi qu'un sous-module de sommation voie par voie pour sommer les composantes ambiophoniques filtrées dans les deux gammes de fréquences.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :
- la figure 1 est un schéma général illustrant le traitement de signaux microphoniques, en aval d'un microphone tridimensionnel, ici de géométrie sphérique,
- la figure 2 représente les courbes d'égalisation appliquée aux composantes issues du module de matriçage 1 de la figure 1 ,
- les figures 3a à 3d montrent une simulation de l'erreur relative εmn σIBmn moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, de l'estimation des composantes ambiophoniques par le procédé classique de "projection" simple, respectivement pour un ordre maximum égal à 1 , pour un ordre maximum égal à 2, pour un ordre maximum égal à 3 et pour un ordre maximum égal à 4, pour un dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires, - la figure 4 représente une carte du résidu de "non orthonormalité" pour des composantes ambiophoniques jusqu'à l'ordre 6 inclus et pour les 32 positions illustrées sur la figure 1 ,
- les figures 5a à 5d montrent la simulation de l'erreur relative εmn σIBmn σ moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, de l'estimation des composantes ambiophoniques par le procédé au sens de l'invention, respectivement pour un ordre maximum égal à 1 , pour un ordre maximum égal à 2, pour un ordre maximum égal à 3 et pour un ordre maximum égal à 4, pour un même dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires,
- la figure 6 illustre une représentation par une métrique tridimensionnelle dans un repère de coordonnées sphériques, d'harmoniques sphériques
Y n de différents ordres,
- la figure 7 représente en détail le module de matriçage 1 de la figure 1 , dans une réalisation particulière de l'invention,
- la figure 8 représente en détail le module de matriçage 1 de la figure 1 , dans une réalisation avantageuse de l'invention, variante de la réalisation de la figure 7,
- et la figure 9 représente en détail le module de matriçage 1 de la figure 1 , utilisant trois modules de matriçage dans une réalisation encore plus avantageuse.
On se réfère tout d'abord à la figure 1 , sur laquelle un dispositif de traitement des signaux microphoniques reçoit N signaux issus d'une antenne microphonique 3. Les N signaux individuels dits "primaires" sont captés par autant de capsules microphoniques CM. Dans l'exemple représenté, ces capteurs sont incrustés à la surface d'une sphère S, par exemple supposée rigide. Ainsi, dans le cas d'une distribution sphérique de l'antenne microphonique, chaque capteur occupe sensiblement le sommet d'un polyèdre régulier circonscrit dans la sphère. Le polyèdre représenté sur la figure 1 comporte 32 sommets et le microphone 3D, autant de capteurs.
Pour un tétraèdre, on prévoit 4 capteurs. Pour un cube, on prévoit 6 capteurs. Pour un octaèdre, on prévoit 8 capteurs. Pour un dodécaèdre, on prévoit 12 capteurs, etc. On remarque donc qu'en géométrie sphérique, le nombre de capteurs ne peut varier que par quanta. Si l'on choisit d'obtenir un nombre total K de composantes ambiophoniques, on doit prévoir par excès un nombre supérieur N de capteurs. C'est la raison pour laquelle le nombre N de signaux captés est généralement supérieur au nombre total KM de composantes ambiophoniques qu'il est possible d'obtenir. De façon plus générale, le nombre N de capsules microphoniques est en fait supérieur au nombre KM de composantes harmoniques sphériques acquises et/ou retenues après traitement.
Le microphone 3 dit alors "ambiophonique", basé ici sur une distribution sphérique de capsules microphoniques élémentaires, a pour vocation de produire un "encodage acoustique" de champs acoustiques 3D naturels, basé sur leur décomposition en harmoniques sphériques.
On rappelle ci-après les principes habituels pour encoder un champ acoustique en harmoniques sphériques 3D, qui s'appuient sur une projection du champ capté à la surface d'une sphère. On considère à cet effet un champ acoustique, en l'absence de la sphère microphonique (donc en champ libre), défini par la série de Fourier-Bessel :
P(r) = ∑jmjm ) ∑Bm° :nr) , ( .1)
«ι=0 0≤n≤ ,σ=±l où les fonctions harmoniques sphériques Y°n définissent une base orthonormée au sens du produit scalaire qu'on appelle "projection" par la suite, avec une expression générale du type :
, qui se traduit par :
Figure imgf000016_0001
δy est le symbole de Kronecker qui vaut 1 si i=j et 0 sinon.
Les harmoniques sphériques Y „ sont des fonctions réelles bornées, comme représenté sur la figure 6, en fonction de l'ordre m et des indices n et σ. On indique que n est compris entre 0 et m et que σ vaut +1 ou -1 , sauf pour l'ordre 0. Ainsi, le nombre Km de composante pour un ordre courant m vaut : Km= (m+1)2
Sur la figure 6, les parties sombres et claires correspondent respectivement aux valeurs positives et négatives des fonctions harmoniques sphériques. Plus l'ordre m est élevé et plus la fréquence angulaire (et donc la discrimination entre fonctions) est élevée.
Le module 1 de matriçage de la figure 1 , appliqué aux N signaux microphoniques élémentaires, fournit alors des composantes "brutes"
Kn r r du champ acoustique capté.
On décrit ci-après l'étape d'égalisation spectrale de ces composantes brutes, qui suit donc l'opération de matriçage des N signaux captés.
La décomposition donnée par l'expression (.1) et ses propriétés d'orthonormalité suggèrent qu'en fixant r=a (où a est le rayon du microphone 3D) et en réalisant une projection définie par le produit scalaire ci-dessus des termes de la série sur chaque harmonique sphérique Y°n , on obtient la composante ambiophonique correspondante brute B n à un facteur jmjm(ka) près.
On peut appliquer un principe similaire aux cas de capteurs possédant éventuellement une directivité intrinsèque (par exemple des capsules cardioïdes), et/ou par les propriétés acoustiques de leur support (par exemple une sphère rigide ou encore acoustiquement transparente supportant les capsules).
On décrit ci-après l'influence d'une directivité intrinsèque dans la capture du champ, en particulier dans le cas de capsules encastrées dans une sphère solide. On indique ensuite comment compenser, à partir de filtres égaliseurs, une telle directivité.
Une sphère microphonique solide, de rayon a, centrée à l'origine O, induit un champ diffracté, et le champ de pression à sa surface (et dans la direction i7, ) vaut :
Figure imgf000017_0001
où les coefficients de pondération des harmoniques sphériques
W„(ka) = : r traduisent la directivité intrinsèque des capteurs.
{kafhm- \ka)j-^
Ces coefficients sont fonction de la fréquence. Dans le cas de capteurs à directivité cardioïde G(< ) = α + (l -û.)cos(<9) (directivité en champ lointain), montés sur une structure acoustiquement transparente et orientés radialement vers l'extérieur, on indique que le terme de pondération serait à remplacer par : m(ka) = j"1 (ajm(ka)-j'(l-a)jm Xka)) , où a dépend en pratique de la fréquence (les capsules tendent à devenir omnidirectives (α =1), en basses fréquences).
Compte tenu des propriétés présumées d'orthonormalité de la base, on déduit généralement les composantes ambiophoniques Bm σ n du champ initial à partir du champ de pression en surface de la sphère, moyennant des opérations de projection et d'égalisation, exprimées ainsi :
E = EQm(pR
Figure imgf000018_0001
, où le filtre égaliseur
BQm = ^ ( .3) m compense la pondération Wm exprimée ci-avant.
En pratique, ces filtres égaliseurs ne sont pas stables pour m≥ Leur amplification tend vers l'infini en très basses fréquences. En outre, la stricte description mathématique ( .1) ne peut donner lieu à une représentation stable, car le cas de champs acoustiques ordinaires impliquerait des signaux B°n éventuellement d'amplitude infinie.
Avantageusement, on incorpore une pré-compensation de champ proche (notamment celui des haut-parleurs utilisés au stade de la restitution), et l'on cherche donc à estimer des composantes :
j^OTC(Λ/c) =__l — B°m , où les filtres F lc ω) traduisent l'effet d'un champ
proche (pour une distance R dite de référence) sur les composantes harmoniques sphériques.
En se référant encore à la figure 1 , le module 2 d'égalisation de chacune des composantes B°ns r c permet d'obtenir des composantes -- égalisées (EQ^d ) et compensées en champ proche (r/c - R/c). c est la vitesse acoustique. La distance r correspondrait alors à une distance des capsules par rapport à l'origine O et la distance R correspondrait à la distance dite de "référence" entre la position de haut-parleurs de restitution et la position d'un auditeur.
Des précisions sur cette compensation de champ proche et, de manière plus générale, sur l'encodage ambiophonique sont données dans la demande française non encore publiée FR-0214444.
On indique simplement ici que, pour obtenir les composantes B°„ ™C{RIC) conformes à une transmission de données encodées en contexte ambiophonique, on applique un banc de filtres égaliseurs avec précompensation de champ proche sur les composantes ambiophoniques brutes σ rougfι(r/c)
B m, n
Figure imgf000019_0001
On indique toutefois que la pré-compensation de champ proche peut être appliquée directement sur les composantes brutes, sans prévoir nécessairement d'égalisation, en particulier si la directivité intrinsèque des capteurs ne nécessite pas une telle égalisation.
Comme les K composantes ambiophoniques, obtenues après égalisation et compensation en champ proche, sont bornées et non divergentes, on peut les stocker dans une mémoire du dispositif de traitement tel que représenté sur la figure 1 , ou encore les transmettre via un réseau de communication, à partir du module 5, de stockage MEM et/ou communication COM, représenté sur la figure 1. On se réfère à la figure 2 pour décrire ci-après l'effet d'un défaut d'orthonormalité et, de là, l'effet de l'aliasing spatial sur des composantes ambiophoniques égalisées et pré-compensées en champ proche.
Dans le cas d'une sphère rigide, les filtres d'égalisation sont notés
Figure imgf000020_0001
, et se basent sur les filtres EQm définis par l'équation ( .3). La figure 2 illustre ce cas d'une sphère rigide, ainsi que celui de capteurs cardioïdes parfaits ( =1/2), jusqu'à l'ordre m=4. Plus précisément, la figure 1 représente les courbes d'égalisation de composantes issues du matriçage, en fonction de leur ordre m, pour a=5cm (rayon du microphone) et R=1 ,5m (distance de référence des haut-parleurs). Le cas de la sphère rigide est représenté par des traits interrompus et celui de capteurs cardioïdes parfaits par des traits continus.
De façon générale, on remarque que plus l'ordre d'une composante augmente et plus l'égalisation pré-compensée applique un gain important à cette composante. Ce phénomène est accru dans un domaine de basses fréquences, jusqu'à plus de 1 kHz.
On comprendra ainsi qu'une erreur due à l'aliasing spectral et qui se traduit par une "pollution" des composantes d'ordres faibles sur une composante d'ordre plus élevé sera amplifiée pour cette composante d'ordre élevé, en particulier dans les basses fréquences.
Le cas d'un microphone "cardioïde parfait' est plus favorable (l'écart entre les courbes d'amplification m≈4 et m=1 étant plus réduit que pour un microphone sphérique) puisqu'il possède déjà une directivité d'ordre 1. Dès lors, il ne requiert qu'une égalisation finie en très basse fréquence jusqu'à l'ordre 1. Toutefois, une cardioïcité parfaite ne se rencontre pas en pratique, en particulier pour les basses fréquences. Dans ce qui suit, on évalue l'effet de l'aliasing sur l'estimation des composantes ambiophoniques basée sur une projection classique. A cet effet, on évalue plus précisément une erreur entre les composantes Bm σ n telles qu'obtenues par le calcul classique et les composantes Bm σ n qui auraient été obtenues si les conditions d'orthonormalité étaient respectées.
Comme indiqué ci-avant, en pratique, on ne dispose que d'un nombre fini de capteurs et, de ce fait, on doit "échantillonner" spatialement la mesure du champ à la surface de la sphère. Habituellement, on considère que l'échantillonnage spatial de la base harmonique sphérique par l'ensemble des directions w, des N capsules préserve l'orthonormalité de la base échantillonnée et tronquée à l'ordre maximum M.
Si l'on décrit l'échantillonnage directionnel des fonctions harmoniques par les vecteurs = [ («ι) «2) " )L alors ces vecteurs tels que m≤M constituent une base orthonormée au sens du produit scalaire :
= i y-γ,T ' ce qui se traduit par :
= <^„A,Aσ> pour tous m ei m'≤ M.
On estime les composantes ambiophoniques du champ à partir du vecteur des signaux captés p, pour une projection "discrète", par :
C = EQm P ( -4)
L'empilement des vecteurs γm σ n compose une matrice Y = •••[ qui définit l'échantillonnage de la base harmonique sphérique. Cette matrice est susceptible de correspondre à une matrice de "ré-encodage" dans le contexte de la restitution. Le vecteur colonne B = [•• Bm σ n •••[ est défini comme suit. L'application de la relation ( .4) s'exprime alors de façon plus synthétique par :
B = Diag([EQ0 - EQm -]).D.p , avec D = ^Y ( .5)
On définit ainsi une opération de matriçage dite "Down-Matrixing" dans la
littérature anglo-saxonne à partir de la matrice — Y qu'applique un module de
N matriçage classique.
Les filtres d'égalisation mis en batterie en aval du module de matriçage sont les filtres d'égalisation EQ„, qui interviennent comme éléments diagonaux de la matrice Diag([EQ0 ••• EQ„, •••]) .
Ainsi, l'estimation ( .5) s'accompagne d'une erreur, du fait que l'orthogonalité n'est pas réellement assurée entre les composantes y „ tels que m≤M et les ,'„, tels que m'>M. Cette erreur vaut : = ( .6)
Figure imgf000022_0001
Elle traduit l'effet d'aliasing spatial correspondant au repliement (à la "pollution") du spectre harmonique sphérique, et ici à un repliement des composantes B°,' n, d'ordre supérieur à l'ordre M sur celle estimée Bm σ n . Le degré de repliement potentiel de la composante B ln, est indiqué par le coefficient de repliement yσ m ym σ,n^ . Le repliement n'est nul que si l'échantillonnage préserve l'orthogonalité des deux harmoniques sphériques.
Comme indiqué ci-avant en référence à la figure 2, l'erreur due au repliement est d'autant amplifiée que l'ordre m', supérieur à m, est élevé et que la fréquence est basse (voir le cas réaliste d'une sphère rigide en traits interrompus). Ce phénomène devient moins significatif à partir des fréquences élevées (ou quand le rayon a diminue) puisque les gains en égalisation deviennent voisins pour tous les ordres m.
En outre, le fort niveau d'égalisation en basses fréquences, notamment pour les composantes d'ordres plus élevés, s'accompagne d'une amplification du bruit interne des capteurs. Si les N signaux captés incluent des bruits de même énergie |p|2 et décorrélés entre eux, ces bruits se retrouvent dans les
composantes estimées avec le niveau — |EQm(<»)|2|/?|2. L'amplification du bruit
suit donc les courbes de la figure 1 , mais rabaissées d'un gain -10.logιo(/V) dB (soit -15dB pour Λ/=32). Cette amplification est d'autant plus forte que le rayon du microphone est petit.
Sur la figure 3a, on a représenté en trait plein l'erreur relative εm σ Bm σ n notamment pour l'ordre m=1. On voit qu'au-delà de la fréquence de 16 kHz, dans l'exemple représenté, cette erreur dépasse la valeur seuil de 1. Ainsi, l'estimation de la composante d'ordre m=1 devient complètement inconsistante pour des fréquences supérieures à 16 kHz. Cette fréquence de 16 kHz correspond à la fréquence d'aliasing fA pour l'ordre m=1.
Plus généralement, les simulations des figures 3a à 3d montrent des anomalies très fortes pour les composantes d'ordre élevé 3 ou 4. L'évolution de l'erreur pour les composantes d'ordres 1 à 4 (de la figure 3a à la figure 3d) est très nette. L'estimation devient complètement inconsistante si l'erreur atteint la valeur 1. Ces figures illustrent clairement l'apparition de l'aliasing spatial inhérent, signalé ainsi par les courbes d'erreur qui passent la valeur critique de 1. En particulier, ces simulations ont montré que les composantes d'un ordre m courant sont polluées aussi bien par les composantes d'ordres plus élevés que par les composantes d'ordres inférieurs, déjà estimées, comme on le verra en référence à la figure 4. Ce repliement des composantes d'ordres inférieurs est particulièrement gênant dans les basses fréquences, avec l'effet de l'amplification due à l'égalisation.
La figure 4 représente de façon synthétique la carte du résidu de "non f 1 "\ orthonormalité" (c'est-à-dire la matrice abs — Y.Y' -IK ) pour les
^N ) composantes jusqu'à l'ordre 6 inclus et pour les 32 positions illustrées sur la figure 1. Les rectangles délimités par les indices (m-1 , m) en abscisse, et (m'-1 , m') en ordonnées signalent le repliement de composantes d'ordre m' sur des composantes d'ordre m. Ces rectangles sont de ton d'autant plus foncé que le repliement potentiel est important.
Ainsi, le module de matriçage tel qu'il est défini dans l'état de la technique antérieure n'est pas bien adapté. Notamment, il ne permet pas une estimation satisfaisante des composantes d'ordres supérieurs à l'ordre 2 ou 3, à cause d'un défaut d'orthonormalité, et ce, même pour un domaine de très basses fréquences et pour une géométrie quelconque du réseau de capteurs.
La présente invention propose une estimation optimale des composantes sonores spatiales pour réduire les effets négatifs de l'aliasing spatial.
A cet effet, le matriçage décrit ci-avant est amélioré, préférentiellement en affinant d'abord l'estimation des composantes spatiales du champ dans le domaine des basses fréquences, en dessous de la fréquence d'aliasing, puis en cherchant à minimiser le repliement potentiel d'ordres supérieurs à l'ordre maximum fixé. En d'autres mots, on cherche alors à éliminer les termes de repliement potentiel venant des composantes d'ordres m' inférieurs ou égaux à l'ordre m de chaque composante estimée, et, le cas échéant d'ordre(s) supérieur(s), tant que le nombre total de ces composantes n'excède pas le nombre N de signaux captés. Ainsi, l'estimation des composantes est exempte d'erreur au moins dans un domaine basses fréquences, comme on le verra ci-après.
On indique ci-après un calcul permettant d'abord de minimiser l'effet de l'aliasing dans les basses fréquences.
Dans le cas d'une simple distribution sphérique, la matrice de correction D, définie dans la relation ( .5) ci-avant, s'exprime sous la forme :
Figure imgf000025_0001
où les éléments d'indices (m,n,σ) sont classés suivant la règle suivante
- m croissant (jusqu'à l'ordre maximum M);
- n croissant de 0 à m;
- σ=+1 puis -1 (sauf pour n=0).
La matrice D est composée des vecteurs-lignes dζln , qui étaient fixés d'emblée à y^„ /N dans la relation ( .5) de l'art antérieur. Dans le domaine des basses fréquences (en dessous de la fréquence d'aliasing spatial), l'erreur d'estimation se présente maintenant sous la forme : ( -7)
Figure imgf000025_0002
(
On reconnaît ici le terme de repliement potentiel sous la forme àσ mn.yσ mn Pour éliminer le repliement le plus nuisible qui induit une erreur amplifiée dans les basses et moyennes fréquences, on élimine d'abord le repliement des composantes d'ordre m' inférieur ou égal à l'ordre m des composantes estimées. Ce repliement est le terme d'erreur le plus important à éliminer en priorité. Autrement dit, les N éléments d^,[i] du vecteur dσ mn sont des variables qui doivent satisfaire le système à Km = (m+1)2 équations suivant:
Figure imgf000026_0001
/ N < -y»v = ∑ l-- J = 0 pour (m ≠ m' ou n ≠ n')
.=1 avec m'≤m.
Il convient de remarquer toutefois que Ton ne peut éliminer le repliement de composantes d'ordres supérieurs que si le nombre de composantes bien "contrôlées" reste inférieur ou égal au nombre N de signaux captés. Par exemple, pour un microphone d'ordre 4 (25 composantes) avec 32 capteurs, on peut éliminer le repliement de 7 composantes supplémentaires B ,' n, d'ordre
5, que Ton peut choisir en fonction des incidences principales du champ capté. Il est cependant préférable, a priori, d'assurer un traitement homogène au sein d'un même ordre. Ainsi, on élimine préférentiellement le repliement de composantes jusqu'à Tordre maximum M tel que KM=( +1 )2<Λ/, et ce, pour l'estimation de composantes d'ordre m≤M. Dans ce cas, le système à résoudre s'exprime ainsi :
Figure imgf000026_0002
où Iκ est la matrice identité de rang KM.
En l'absence d'autre critère d'optimisation, on définit alors une première matrice corrigée D comme la pseudo-inverse:
Figure imgf000026_0003
Bien entendu, il est possible que la configuration des capsules sur le microphone soit telle que Tordre maximum Mm\c qui peut être réellement atteint soit inférieur à Tordre maximum théorique M. Ainsi, si les composantes estimées sont d'ordre maximal Mm/C<M, la matrice corrigée D est calculée dans un premier temps comme une sous-matrice du système ( .10), à savoir :
Figure imgf000027_0001
Les figures 5a à 5d montrent la simulation de Terreur relative εmn σ/Bmn σ moyenne (traits continus) et sa variance (en traits interrompus), en valeur absolue et en fonction de la fréquence, dans l'estimation des composantes ambiophoniques par le procédé au sens de l'invention, respectivement pour un ordre maximum de 1 à 4, pour un dispositif à 32 capsules et pour un ensemble de 200 incidences aléatoires. Ces figures 5a à 5d sont à comparer respectivement avec les figures 3a à 3d décrites ci-avant. On constate en particulier sur la figure 3d que la notion de "fréquence d'aliasing" n'a plus réellement de sens, puisque Terreur relative est supérieure à la valeur critique 1 , dans les basses fréquences, pour tous les ordres jusqu'à M=4. Si Ton avait choisi de se limiter à l'obtention de composantes jusqu'à Tordre
Figure imgf000027_0002
on comprend que l'effet de l'aliasing induit par les composantes d'ordre supérieur M=4 sur Tordre choisi
Figure imgf000027_0003
polluerait notablement l'estimation des composantes d'ordre maximum Mm.c=3.
Ainsi, dans une réalisation préférée, on minimise globalement le repliement potentiel venant d'ordres M' encore plus élevés que Tordre maximum M évoqué ci-dessus, dans une étape ultérieure. De façon générale, on indique que cette étape ultérieure a pour effet d'étendre le domaine d'estimation valide à des fréquences plus élevées.
En général le nombre total KM de composantes tel que défini ci-avant par :
KM = ( +1)2 est inférieur au nombre de signaux acquis N. La relation ( .9) ci-dessus laisse donc (N-KM) degrés de liberté (N inconnues pour KM équations), qu'il est possible d'exploiter pour minimiser "globalement' le repliement des composantes d'ordre(s) supérieur(s) à M. Il s'agit de minimiser en fait le terme μ défini par :
Figure imgf000028_0001
avec contrainte de vérifier la relation (.9). Le facteur de pondération γm m < permet de donner une importance moins forte au traitement des ordres m' plus élevés par exemple, et en fonction de Tordre m des composantes estimées. D'après la relation (.9) il possible d'exprimer, pour chaque composante à estimer, les N inconnues d n i] en fonction de (N-KM) variables d°„[i,] , choisies parmi les N inconnues. Le terme μ de la relation (.11) s'exprime alors aussi en fonction de ces (N-KM) variables, et c'est sous cette forme que la contrainte (.9) s'exprime. Ainsi, la minimisation du repliement se fait en posant :
Figure imgf000028_0002
La relation (.11) ramène alors à un système linéaire à (N-KM) équations et autant d'inconnues qui peut revêtir l'expression habituelle d'une optimisation au sens des moindres carrés, comme on le verra ci-après. La résolution de l'équation (.12) puis de l'équation (.9) se fait simplement selon des techniques classiques d'inversion de matrice ou de système linéaire.
Dans un premier temps, on applique une décomposition matricielle classique dite "QR", qui fournit : YW.E = Q.R , où :
- Q est une matrice carrée unitaire telle que Q.Qτ=lκ,
- R est une matrice triangulaire supérieure et - E est une matrice de permutation (E.ET=IΛ/), dont les éléments non-nuls sont égaux à 1 , et qui opère un classement des valeurs propres dans un ordre favorable.
On pose ensuite : R=Rκ.A où R est la sous-matrice carrée composée des K premières colonnes de R, et A est définie par :
A=inv(Rκ).R Cette matrice A a pour sous-matrice carrée gauche la matrice identité \κ. L'introduction de cette matrice A=[lκ A'], (d'éléments a,y) permet d'exprimer KM inconnues en fonction de (N-KM) autres. Le système ( .9) se reformule donc ainsi:
AETΣ>T = RK ~ QT = C d'où Ton déduit:
[premières K colonnes de (D.E)] = C-A'.D' ,
OÙ D'= [dernières (N - K) colonnes de (D.E) , ( .13) soit encore :
Figure imgf000029_0001
pour 1</< où k est un indice associé à (mn") de sorte que Ton peut exprimer les termes de ( .11) ainsi :
d -y« = y» l> ( -15)
Figure imgf000029_0002
d'où β«,-y» [e,] ( .16)
Figure imgf000029_0003
Les termes (.16) s'expriment sous la forme matricielle :
Figure imgf000029_0004
qui est une matrice à (KM- KM) lignes et (N- KM) colonnes. De là, les termes de la relation ( .15) s'écrivent dans l'ensemble : [premières K colonnes de
Figure imgf000030_0001
+ Y' ,yD'
Finalement, le système d'équations ( .12)( .11), qui fait intervenir les termes
décrits ci-dessus sous forme matricielle,
Figure imgf000030_0002
s'écrit sous la forme synthétique (avec d'abord γWm,=^) • '
Figure imgf000030_0003
= 0 , ( .17)
Les (N- KM) inconnues du sous-problème de minimisation se déduisent ainsi:
D -
Figure imgf000030_0004
( .18)
Finalement, on obtient alors les KM inconnues restantes en appliquant la relation (.13).
On notera que si Ton choisit des facteurs de pondération ymnr variables suivant m ou m', il faut considérer chaque ordre m séparément, substituer à Y'J .ΛΠ la matrice rm.Y']M,/vπ_ avec -'
r„, gn 4 r, m, m
Figure imgf000030_0005
et appliquer la relation (.18) aux sous-matrices de D' et C respectivement composées de leurs colonnes correspondant à Tordre m.
Ce calcul peut être mené rapidement en utilisant un programme informatique adéquat tel que MATLAB ®. La seconde matrice corrigée D', ainsi obtenue, est appliquée avantageusement à la partie "hautes fréquences" des N signaux reçus, tandis que la première matrice corrigée D, obtenue par une relation du type de la relation ( .10), est préférentiellement appliquée à la partie "basses fréquences" des N signaux reçus. Ainsi, pour la partie "hautes fréquences" des signaux reçus où l'aliasing spatial affecte les composantes spatiales estimées, on effectue avantageusement une correction du matriçage pour obtenir une estimation valide des composantes dans un domaine de fréquences jusqu'à la fréquence d'aliasing des composantes d'ordres M' supérieurs à Tordre maximum M. Sur les figures 5a à 5d, on remarque systématiquement que le seuil critique de 1 n'est dépassé que pour les hautes fréquences (d'aliasing) et pour les composantes d'ordres élevés.
En se référant à la figure 7, le module de matriçage 1 d'un dispositif de traitement de signaux sonores, selon une réalisation préférée de la présente invention, comporte une entrée (flèche E) par laquelle il reçoit N signaux directement du microphone sphérique 3 de la figure 1 , ou, optionnellement, d'un module intermédiaire 4 qui sera décrit plus loin (représenté à cet effet en traits pointillés). Le module de matriçage 1 comporte un sous-module 11 de séparation des N signaux reçus en au moins deux bandes de fréquences, respectivement inférieures à une fréquence limite ή_ décrite ci-après, et supérieures à cette fréquence limite ft..
On explique ci-après la raison du choix de scinder en basses fréquences et hautes fréquences les N signaux à traiter et/ou les composantes obtenues par le matriçage utilisant D, d'une part, et par le matriçage utilisant D', d'autre part. Bien que les matrices D et D' offrent, théoriquement, la même qualité d'estimation dans le domaine basse fréquence, il a été constaté mathématiquement que la première matrice D met en jeu une moindre moyenne quadratique de ses coefficients. Le premier matriçage utilisant D limite alors l'introduction du bruit de mesure (des capsules) dans les composantes estimées. Il apparaît alors avantageux d'appliquer la matrice D sur une bande de basses fréquences et la matrice D' sur une bande de moyennes et/ou hautes fréquences, complémentaires.
On décrit ci-après comment prédéterminer la "fréquence limite" ή_ précitée, séparant ces deux bandes hautes et basses fréquences. Elles sont avantageusement définies séparément pour chaque composante estimée. Plus particulièrement, le choix d'appliquer la matrice D plutôt que la matrice D' dans une bande de basses fréquences est motivé par le fait que le bruit de mesure introduit dans l'estimation est particulièrement amplifié en basses fréquences, et ce, d'autant plus, et sur une bande plus large, que Tordre m des composantes estimées est élevé. Ainsi, la fréquence limite f|_ "de séparation" croît en principe avec Tordre m. Ces fréquences de séparation f|_ sont, le cas échant, différentes et en général inférieures aux fréquences d'aliasing fA associées aux ordres m courants.
Dans un mode de réalisation préféré, le traitement pour obtenir chaque composante ambiophonique est donc différencié en deux bandes de fréquences. Les N signaux provenant du réseau microphonique sont traités en parallèle par deux matrices D et D', produisant chacune un jeu de K composantes ambiophoniques. On considère alors que les signaux résultant du matriçage D sont "de meilleure qualité" dans un domaine de basses fréquences que ceux résultants de D', alors que ceux résultant de D' sont "de meilleure qualité" dans un domaine de hautes fréquences. On considère également que la fréquence à partir de laquelle un matriçage devient plus favorable que Tautre pour l'estimation peut varier suivant la composante estimée.
En pratique, on peut utiliser un banc de filtres passe-bas 111 et un banc de filtres passe-haut 112. Le module de matriçage proprement dit, portant la référence 12 sur la figure 7, est scindé en deux sous-modules 121 et 122 qui appliquent respectivement les matrices corrigées D et D' calculées comme décrit ci-avant, aux parties basses fréquences et hautes fréquences des N signaux captés. A la sortie de chaque sous-module 121 et 122, on obtient alors K composantes. Ces 2K composantes sont enfin appliquées à un sous- module 13 de sommation voie par voie pour sommer ainsi les composantes ambiophoniques obtenues dans les deux gammes de fréquences. Finalement, les K composantes obtenues en sortie du module de matriçage 1 sont des composantes brutes que Ton applique avantageusement ensuite au module d'égalisation 2 de la figure 1 , avec pré-compensation de champ proche, tel que décrit ci-avant.
Ainsi, on prévoit préférentiellement une opération de matriçage différenciée selon deux bandes de fréquences, en séparant préalablement les signaux à traiter suivant ces deux bandes, puis de sommer les résultats des deux matriçages voie par voie. Ce mode d'implémentation est avantageusement mis en œuvre en l'absence de contrainte de temps réel, par exemple lors d'un enregistrement dédié à une écoute différée. Dans une variante plus économique, on n'utilise qu'une seule matrice choisie comme étant optimale pour le domaine des basses fréquences, si par exemple le besoin de transmission temps réel l'impose. Plutôt que de prévoir des filtres passe-haut et passe-bas, on indique qu'un algorithme de calcul inspiré d'une transformée de Fourier rapide peut aussi être utilisé pour prévoir des traitements adaptés notamment à la géométrie du microphone et/ou pour la définition de la matrice corrigée D.
On se réfère maintenant à la figure 8 pour décrire une réalisation plus avantageuse que celle représentée sur la figure 7 et selon laquelle les filtres passe-haut 111 B et passe-bas 112B du module de filtrage 11 B sont ici situés en aval du module de matriçage 12 suivant les deux matrices D (sous-module 121) et D' (sous-module 122). Plus particulièrement, le sous-module des filtres passe-haut 111 B suit directement le sous-module de matriçage 121 utilisant la matrice D, et le sous-module des filtres passe-bas 112B suit directement le sous-module de matriçage 122 utilisant la matrice D'. Les signaux matrices et filtrés respectivement dans les hautes fréquences et dans les basses fréquences sont ensuite sommés voie par voie par le module 13. On obtient finalement K composantes ambiophoniques pour N signaux sonores initiaux. On comprendra ainsi que, par rapport au mode de réalisation de la figure 7, on réalise une économie de 2x(N-K) filtres.
Toutefois, on rappelle que la seconde matrice corrigée D' permet d'éliminer en outre, aussi bien que la matrice D, le repliement de toute composante d'ordre m' inférieur ou égal à Tordre m de chaque composante estimée. De ce fait et de la même manière qu'avec la matrice D, la seconde matrice D' a pour propriété d'éviter l'apparition des erreurs d'estimation en basses fréquences, en plus de diminuer les erreurs d'estimation jusqu'à la fréquence dite "d'aliasing" fA propre à chaque composante. Elle pourrait donc en principe être avantageusement appliquée sur une bande basse et moyenne fréquence allant au moins jusqu'à la fréquence d'aliasing, cette dernière dépendant de la composante estimée.
Au-delà de cette fréquence, l'information spatiale accessible via les signaux captés n'est plus suffisamment consistante, ce qui se traduit par une erreur relative en général supérieure à la valeur critique de 1 , quelle que soit la matrice utilisée pour le traitement. En particulier, l'incohérence statistique des relations de phase entre les signaux captés ne permet plus de contrôler la directivité "effective" des composantes reconstituées, et donc de reconstituer leur directivité théorique (comme indiqué ci-avant en référence à la figure 6). Il peut être alors préférable d'appliquer dans cette bande haute fréquence un troisième matriçage D" qui limite les efforts inutiles de reconstitution de directivité, et par la même occasion, qui limite des effets d'interférence inappropriés entre les signaux à traiter. Ce mode de réalisation avantageux est décrit plus loin en référence à la figure 9. On indique que cette troisième matrice D" peut être définie suivant la méthode classique dite "de projection", décrite ci-avant en référence à l'art antérieur.
Dans le mode de réalisation de la figure 9 où Ton combine le matriçage D' et un matriçage supplémentaire D", la fréquence de séparation entre les "moyennes" fréquences et les "hautes" fréquences correspond préférentiellement à la "fréquence d'aliasing spatiaf associée à un ordre courant d'une composante et repérée approximativement (pour une composante pour chaque ordre) sur les figures 5a à 5d. Ces fréquences peuvent être déterminées d'après des valeurs statistiques issues de simulations, avec grand nombre de tirages, ou encore par calcul.
Ainsi on comprendra que le traitement au sens de l'invention est extensible à plus de deux bandes de fréquences (et autant de matrices opérant en parallèle). Dans le cas de trois matrices D, D', D" représenté sur la figure 9, les résultats de ces trois matriçages D, D', D" peuvent être mixés après avoir été séparés en trois bandes respectivement basses (jusqu'à la fréquence limite fι_), moyennes (entre la fréquence limite _ et la fréquence d'aliasing fA) et hautes fréquences (au-delà de la fréquence d'aliasing fA).
En se référant alors à la figure 9, on applique les trois matrices D, D' et D" de traitement en parallèle (sous-modules respectifs 121 , 122 et 123 du module de matriçage 12), puis on filtre les signaux résultants suivants trois bandes de fréquences (sous-modules de filtrage respectifs 111 C, 112C et 113C), que Ton somme ensuite en mixant en particulier les signaux correspondant à la même composante ambiophonique (module de sommation 13). Les filtres LP (pour "Low-Pass") sont des filtres passe-bas 111C jusqu'à la fréquence limite _ dépendant éventuellement de Tordre de la composante traitée. Les filtres BP (pour "Band-Pass") sont des filtres passe-bande 112C entre la fréquence limite ^ et la fréquence d'aliasing fA. Les filtres HP (pour "High-Pass") sont des filtres passe-haut 113C à partir de la fréquence d'aliasing fA. On rappelle que, pour l'ensemble des filtres, les fréquences fι_ et fA dépendent préférentiellement de la composante traitée.
Ainsi, l'élimination ou la minimisation du repliement potentiel jusqu'à un certain ordre, typiquement fonction du nombre de capteurs, est obtenue par la mise en œuvre de l'invention. Toutefois, le repliement potentiel non éliminé, venant de composantes d'ordres plus élevés, se manifeste de façon effective à partir d'une certaine fréquence "d'aliasing" (d'autant plus basse que Tordre estimé est élevé). Au-delà des fréquences d'aliasing précitées, Terreur d'estimation n'est, de toutes façons, plus contrôlable puisque, de fait, la longueur d'onde devient inférieure à l'espacement entre capteurs. Ce que propose finalement la présente invention est de limiter les effets de l'aliasing, sans bien entendu pouvoir supprimer pour autant l'aliasing lui-même.
C'est la raison pour laquelle la troisième matrice D" du sous-module de matriçage 123 relié, sur la figure 9, au sous-module de filtrage 113C passe- haut, peut être construite simplement en utilisant la méthode classique "par projection" de l'art antérieur.
Toutefois, on indique ci-après des étapes de traitement supplémentaires pour apporter une amélioration de l'estimation des composantes ambiophoniques dans les hautes fréquences.
La partie hautes-fréquences des signaux captés subit, lorsque ces signaux sont sommés, en particulier au matriçage, un "filtrage en peigne", avec pour conséquence possible un effet gênant de coloration sonore subjective. Plus particulièrement, ce phénomène vient de la sommation (lors du matriçage dans le cas présent) de signaux corrélés mais dont les relations de phase varient périodiquement en fonction de la fréquence (notamment parce qu'ils sont retardés les uns par rapport aux autres), créant des effets de résonance puis de creux en des fréquences régulièrement espacées dans le spectre sonore. Pour réduire cet effet et, de là, l'effet subjectif de coloration qui en résulte généralement, un moyen consiste à appliquer des filtres décorrélateurs (décorrélés entre eux) sur la partie hautes-fréquences des signaux captés, donc en amont du module de matriçage. Des méthodes pour la définition de tels filtres sont présentées par exemple dans :
- Gary S. Kendall, "The Decorrelation of Audio Signais and its Impact on
Spatial Imagery", Computer Music Journal 19:4, pp. 71-87, 1995. Lorsque cette option est choisie, la décorrélation partielle préalable des signaux est assurée par une batterie de filtres décorrélateurs placée en amont du matriçage (dans le module 4 de la figure 1). Avantageusement, on peut donc mener une décorrélation sur la partie hautes-fréquences des signaux captés. Elle consiste à insérer une batterie de filtres décorrélateurs (décorrélés entre eux, pour la partie hautes-fréquences) dans le module optionnel 4, en amont du module de matriçage 1 représenté sur la figure 1.
Par ailleurs, on remarque que les courbes d'égalisation de la figure 2 deviennent croissantes pour des fréquences supérieures à environ 1 kHz. Ce phénomène est lié à la compensation de la directivité propre de la capture du champ et non plus vraiment aux directivités propres des capteurs. Surtout, on remarque que le rapport entre les courbes d'égalisation des différents ordres devient proche de 1 (amplification relative de moins de 1dB). Or, dans le domaine des hautes fréquences au-delà des fréquences d'aliasing, l'inconsistance indiquée ci-avant dans l'estimation des composantes ambiophoniques peut induire un effet négatif, audible à la restitution.
On applique préférentiellement ici une correction de gain à apporter pour toutes les composantes ambiophoniques dans le domaine des hautes fréquences. Cette correction consiste à aplanir la pente (d'environ 6dB/octave) de l'égalisation originale, pour toutes les composantes. On ajuste ainsi à un même niveau d'égalisation toutes les composantes pour tous les ordres, suivant un critère de préservation globale de l'énergie. Cette correction de gain est combinée avantageusement à une compensation de la réponse en fréquence des capsules (en dehors de toute considération spatiale). A cet effet, on indique que, dans le cas où la variété des caractéristiques individuelles (réponses en fréquence) des capsules l'impose, une correction peut être introduite par application de filtres égaliseurs (préégalisation individuelle) au niveau du module optionnel 4 de la figure 1 , sur chaque signal avant matriçage. En variante, si une simple correction de gain suffit, cette correction peut être directement intégrée dans la matrice appliquée par le module de matriçage 1.
Ainsi, le dispositif de traitement des N signaux sonores, d'un système de prise de son d'un champ acoustique 3D tel que représenté sur la figure 2, de type dit "ambiophonique modifié avec pré-compensation de champ proche", comporte en aval du microphone 3 :
- optionnellement, le module 4 qui applique une égalisation individuelle des N signaux initiaux et ou une décorrélation des N signaux à partir d'un banc de filtres approprié,
- le module de matriçage 1 qui applique au moins une matrice corrigée D pour l'estimation des composantes ambiophoniques dans les basses fréquences et, optionnellement, une seconde matrice corrigée D1 pour de plus hautes fréquences,
- optionnellement, le module d'égalisation 2 pour compenser une directivité intrinsèque des capteurs, avec préférentiellement une pré-compensation de champ proche, et
- optionnellement, le module 5 de stockage MEM et/ou de communication COM pour mémoriser et/ou transmettre les K composantes ambiophoniques traitées, via un réseau distant.
En pratique, les filtres d'égalisation du module 2 peuvent être implémentés sous forme FIR (pour "finite impulse response") par transformée de Fourier inverse des réponses en fréquences calculées d'après les formules analytiques du type ( .3) ou ( .3bis) ci-avant. En variante, une implémentation des filtres sous forme IIR ("infinité impulse response") serait normalement plus économique.
On indique surtout que, dans le module de matriçage 1 au sens de l'invention, l'estimation de chaque composante spatiale met en jeu non seulement l'échantillonnage spatial de la fonction harmonique sphérique associée (en particulier ses valeurs dans les directions des capsules), mais aussi l'échantillonnage spatial des autres fonctions harmoniques. De façon avantageuse, la matrice qu'applique le module de matriçage 1 permet d'assurer sensiblement une orthonormalité entre les fonctions harmoniques et, de là, de minimiser, voire d'annuler, les termes de repliement potentiel évoqués ci-avant.

Claims

Revendications
1. Procédé de traitement de données sonores en contexte ambiophonique, dans lequel : a) on obtient N signaux émanant de capteurs sonores, b) on forme une base d'harmoniques ambiophoniques comportant un nombre total de KM composantes sous la forme d'une matrice de base (YM) comportant N colonnes et K lignes, où K est inférieur ou égal à N, et c) on applique un traitement de matriçage (1) aux N signaux pour obtenir des composantes ambiophoniques des N signaux, exprimées dans ladite base des harmoniques, caractérisé en ce que, à l'étape c), on applique auxdits N signaux une matrice corrigée (D) vérifiant sensiblement la condition :
D.YM l = I, où - D est la matrice corrigée,
- YM { est la transposée de la matrice représentant ladite base des harmoniques ambiophoniques, et
- I est la matrice identité.
2. Procédé selon la revendication 1 , caractérisé en ce que les coefficients d n de la matrice corrigée D sont obtenus par vérification d'un système de Km équations à N inconnues
Figure imgf000040_0001
(1<i≤N), de type :
Figure imgf000040_0002
. N
<C-y»v = ∑ M yl>'] = 0 pour (m ≠ m' ou n ≠ n')
1=1 avec m'≤m≤M, Km =(rn+1)2, et où :
- d° sont les coefficients de la matrice corrigée D = d° et - ym σ, sont les coefficients de la transposée de la matrice de base
YM - [- yM σ -J. de manière à minimiser une influence des composantes d'ordres m' inférieurs à un ordre courant m dans l'estimation des composantes ambiophoniques d'ordre m.
3. Procédé selon Tune des revendications 1 et 2, caractérisé en ce que la matrice corrigée D correspond à la matrice pseudo-inverse de la transposée de la matrice de base (YM) et s'exprime par la relation : O = pmv(YM t) = (YM.YM'y YM
4. Procédé selon Tune des revendications 1 et 2, dans lequel on choisit d'obtenir un ordre maximum MmjC des composantes ambiophoniques, tel que
Mmc < E(vîv)-l , où Ε(x) signifie la partie entière de x, caractérisé en ce que la matrice corrigée D s'exprime par la relation O = (YM.YM !y YMmic , où :
- YM est une matrice représentant la base des harmoniques d'ordre maximum choisi MmjC, et
- YM est une matrice représentant la base des harmoniques d'ordre maximum M qu'il est possible d'atteindre avec N signaux et défini par
Figure imgf000041_0001
5. Procédé selon Tune des revendications précédentes, dans lequel le nombre Ν de signaux est tel que Ν>(M+1)2, où M est Tordre maximum qu'il est possible d'atteindre avec lesdits N signaux, laissant N-KM degrés de liberté dans l'estimation des coefficients dm σ n de la matrice corrigée D, caractérisé en ce que les coefficients dm σ n de la matrice corrigée D sont estimés par minimisation d'une expression de type :
Figure imgf000042_0001
où M' correspond à un ordre supérieur à Tordre maximum M, de manière à minimiser une influence potentielle de composantes d'ordres supérieurs à M dans l'estimation des KM composantes ambiophoniques.
6. Procédé selon la revendication 5, caractérisé en ce que les coefficients dm σ n de la matrice corrigée D sont estimés par minimisation d'une expression de type :
Figure imgf000042_0002
faisant intervenir un facteur de pondération γm,m' pour donner une importance moins forte aux composantes d'ordres m' supérieurs aux ordres m des composantes déjà estimées.
7. Procédé selon Tune des revendications 5 et 6, caractérisé en ce que ladite minimisation est effectuée par calcul au sens des moindres carrés et consiste à résoudre N-KM équations du type : dμ ].A. ,AT]
= 0 , avec / = 1 , 2, ... , (N-KM),
où -C[/] sont N-KM inconnues parmi N inconnues.
8. Procédé selon Tune des revendications 5 à 7, prises en combinaison avec Tune des revendications 2 à 4, caractérisé en ce que Tétape c) comporte deux opérations de matriçage différenciées en : d) une première bande de basses fréquences des composantes ambiophoniques, où Ton applique une matrice corrigée D donnée par une relation du type : D = pwv(Y ) = (YM.YM lyl.YM , c2) une seconde bande de hautes fréquences des composantes ambiophoniques, où Ton applique une matrice corrigée D' dont les coefficients sont calculés par minimisation d'une expression du type :
Figure imgf000043_0001
et en ce que les opérations d ) et c2) sont suivies d'une sommation des deux matriçages voie par voie.
9. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : d) égaliser (EQm) les composantes ambiophoniques obtenues à Tétape c) pour compenser une pondération (Wm) des harmoniques ambiophoniques liée à une directivité intrinsèque des capteurs sonores.
10. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : e) compenser un effet de champ proche (1/Fm (R/c)) sur les composantes ambiophoniques obtenues à Tétape c).
11. Procédé selon la revendication 10, prise en combinaison avec la revendication 9, caractérisé en ce que Ton applique un banc de filtres égaliseurs avec pré-compensation de champ proche (EQm(ω)/Fm (R/c)(ω)) sur les composantes ambiophoniques obtenues à Tétape c).
12. Procédé selon Tune des revendications précédentes, caractérisé en ce qu'il comporte en outre Tétape suivante : ai ) préalablement à Tétape c), appliquer auxdits N signaux un banc de filtres décorrélateurs dans les hautes fréquences avec introduction d'un déphasage sensiblement aléatoire entre les N signaux pour limiter un effet de coloration dû à un filtrage en peigne résultant de Tétape de matriçage c).
13. Dispositif pour encoder des signaux sonores en composantes ambiophoniques, comportant au moins :
- une entrée (E) propre à recevoir N signaux émanant de capteurs sonores, et - un module de matriçage (1 ) appliquant auxdits N signaux au moins une matrice de base, représentative d'une base d'harmoniques ambiophoniques, pour obtenir Km composantes ambiophoniques estimées des N signaux et exprimées dans ladite base, caractérisé en ce que ladite matrice de base comporte des coefficients de gains ajustés pour minimiser au moins une influence de composantes d'ordres m' inférieurs à un ordre courant m d'une composante estimée, dans des basses fréquences, inférieures à une fréquence limite (fι_).
14. Dispositif selon la revendication 13, caractérisé en ce que les coefficients de ladite matrice de base (D') sont de gains ajustés en outre pour minimiser une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite (fι_).
15. Dispositif selon la revendication 13, caractérisé en ce que ledit module de matriçage (1 ) est agencé pour appliquer en outre une seconde matrice de base comportant des coefficients calculés pour minimiser au moins une influence de composantes d'ordres M' supérieurs à un ordre maximum M des composantes estimées, dans des hautes fréquences, supérieures à ladite fréquence limite (fi.).
16. Dispositif selon la revendication 15, caractérisé en ce que le module de matriçage (1) comporte un sous-module (11 ) de séparation desdits N signaux en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, pour appliquer deux traitements respectifs de matriçage (121 ,122) pour les signaux basses fréquences et pour les signaux hautes fréquences, ainsi qu'un sous-module (13) de sommation voie par voie pour sommer les composantes ambiophoniques obtenues dans les deux gammes de fréquences.
17. Dispositif selon la revendication 15, caractérisé en ce que le module de matriçage (1 ) comporte un sous-module (11 B) de filtrage desdites Km composantes ambiophoniques en au moins deux bandes de fréquences, respectivement inférieures à ladite fréquence limite et supérieures à ladite fréquence limite, ainsi qu'un sous-module (13B) de sommation voie par voie pour sommer les composantes ambiophoniques filtrées dans les deux gammes de fréquences.
18. Dispositif selon l'une des revendications 13 à 17, caractérisé en ce qu'il comporte, en amont du module de matriçage, un banc de filtres décorrélateurs (4) dans les hautes fréquences, à appliquer auxdits N signaux pour introduire un déphasage sensiblement aléatoire entre les N signaux et limiter un effet de coloration dû à un filtrage en peigne résultant du matriçage.
19. Dispositif selon l'une des revendications 13 à 18, caractérisé en ce qu'il comporte, en aval du module de matriçage (1 ), un module d'égalisation (2) des composantes ambiophoniques pour compenser une pondération (Wm) des harmoniques ambiophoniques liée à une directivité des capteurs sonores.
20. Dispositif selon Tune des revendications 13 à 19, caractérisé en ce qu'il comporte, en aval du module de matriçage (1 ), un module de filtrage (2) pour compenser un effet de champ proche dans l'estimation desdites composantes ambiophoniques, le dispositif comportant en outre des moyens de stockage des composantes ainsi compensées et/ou des moyens de transmission des composantes ainsi compensées via un réseau de communication.
PCT/FR2004/002009 2003-07-30 2004-07-27 Procede et dispositif de traitement de donnees sonores en contexte ambiophonique WO2005015954A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR03/09388 2003-07-30
FR0309388A FR2858512A1 (fr) 2003-07-30 2003-07-30 Procede et dispositif de traitement de donnees sonores en contexte ambiophonique

Publications (2)

Publication Number Publication Date
WO2005015954A2 true WO2005015954A2 (fr) 2005-02-17
WO2005015954A3 WO2005015954A3 (fr) 2008-07-24

Family

ID=34043677

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/002009 WO2005015954A2 (fr) 2003-07-30 2004-07-27 Procede et dispositif de traitement de donnees sonores en contexte ambiophonique

Country Status (2)

Country Link
FR (1) FR2858512A1 (fr)
WO (1) WO2005015954A2 (fr)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2182744A1 (fr) 2008-10-30 2010-05-05 Deutsche Telekom AG Retransmission d'un champ sonore dans une zone de sonorisation ciblée
EP2469892A1 (fr) 2010-09-15 2012-06-27 Deutsche Telekom AG Reproduction d'un champ sonore dans une zone de sonorisation ciblée
US8358091B2 (en) 2006-10-11 2013-01-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space
US9736608B2 (en) 2013-11-28 2017-08-15 Dolby International Ab Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
FR3050601A1 (fr) * 2016-04-26 2017-10-27 Arkamys Procede et systeme de diffusion d'un signal audio a 360°
WO2019110913A1 (fr) 2017-12-05 2019-06-13 Orange Traitement de données d'une séquence vidéo pour un zoom sur un locuteur détecté dans la séquence

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
CN108886649B (zh) 2016-03-15 2020-11-10 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
EP0966179A2 (fr) * 1998-06-20 1999-12-22 Central Research Laboratories Limited Méthode de synthétisation d'un signal acoustique
WO2003061336A1 (fr) * 2002-01-11 2003-07-24 Mh Acoustics, Llc Systeme audio base sur au moins des faisceaux propres de second ordre

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
EP0966179A2 (fr) * 1998-06-20 1999-12-22 Central Research Laboratories Limited Méthode de synthétisation d'un signal acoustique
WO2003061336A1 (fr) * 2002-01-11 2003-07-24 Mh Acoustics, Llc Systeme audio base sur au moins des faisceaux propres de second ordre

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GERZON M A: "AMBISONICS IN MULTICHANNEL BROADCASTING AND VIDEO" JOURNAL OF THE AUDIO ENGINEERING SOCIETY, AUDIO ENGINEERING SOCIETY. NEW YORK, US, vol. 33, no. 11, novembre 1985 (1985-11), pages 859-871, XP000794618 ISSN: 0004-7554 *
MEYER J ET AL: "A highly scalable spherical microphone array based on an orthonormal decomposition of the soundfield" 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.02CH37334), PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (CASSP'02), ORLANDO, FL, USA, 13-17 MAY 2002, 2002, pages II-1781-4 vol.2, XP002285176 2002, Piscataway, NJ, USA, IEEE, USA ISBN: 0-7803-7402-9 cité dans la demande *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8358091B2 (en) 2006-10-11 2013-01-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space
EP2182744A1 (fr) 2008-10-30 2010-05-05 Deutsche Telekom AG Retransmission d'un champ sonore dans une zone de sonorisation ciblée
EP2469892A1 (fr) 2010-09-15 2012-06-27 Deutsche Telekom AG Reproduction d'un champ sonore dans une zone de sonorisation ciblée
US10244339B2 (en) 2013-11-28 2019-03-26 Dolby International Ab Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US9736608B2 (en) 2013-11-28 2017-08-15 Dolby International Ab Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US10602293B2 (en) 2013-11-28 2020-03-24 Dolby International Ab Methods and apparatus for higher order ambisonics decoding based on vectors describing spherical harmonics
FR3050601A1 (fr) * 2016-04-26 2017-10-27 Arkamys Procede et systeme de diffusion d'un signal audio a 360°
WO2017187053A1 (fr) * 2016-04-26 2017-11-02 Arkamys Procédé et système de diffusion d'un signal audio à 360°
CN109661824A (zh) * 2016-04-26 2019-04-19 阿嘉米斯 广播360°音频信号的方法和系统
US20190132695A1 (en) * 2016-04-26 2019-05-02 Arkamys Method and system of broadcasting a 360° audio signal
US10659902B2 (en) 2016-04-26 2020-05-19 Arkamys Method and system of broadcasting a 360° audio signal
WO2019110913A1 (fr) 2017-12-05 2019-06-13 Orange Traitement de données d'une séquence vidéo pour un zoom sur un locuteur détecté dans la séquence
US11076224B2 (en) 2017-12-05 2021-07-27 Orange Processing of data of a video sequence in order to zoom to a speaker detected in the sequence

Also Published As

Publication number Publication date
WO2005015954A3 (fr) 2008-07-24
FR2858512A1 (fr) 2005-02-04

Similar Documents

Publication Publication Date Title
EP1992198B1 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP1583306B1 (fr) Démodulateur COFDM
EP0531242B1 (fr) Procédé de filtrage adapté d&#39;un signal transformé en sous-bandes, et dispositif de filtrage correspondant
EP1999998A1 (fr) Procede de synthese binaurale prenant en compte un effet de salle
EP1886535B1 (fr) Procede pour produire une pluralite de signaux temporels
WO2009106783A1 (fr) Procede et dispositif pour la determination de fonctions de transfert de type hrtf
EP1606974A1 (fr) Procede pour traiter un signal electrique de son
EP1546916A2 (fr) Procede et systeme de traitement d&#39;une representation d&#39;un champ acoustique
FR2996094A1 (fr) Procede et systeme de restitution d&#39;un signal audio
WO2003073791A2 (fr) Procédé et dispositif de pilotage d&#39;un ensemble de restitution d&#39;un champ acoustique
WO2005015954A2 (fr) Procede et dispositif de traitement de donnees sonores en contexte ambiophonique
EP2656344B1 (fr) Filtrage perfectionne dans le domaine transforme
EP3559947B1 (fr) Traitement en sous-bandes d&#39;un contenu ambisonique réel pour un décodage perfectionné
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
EP4184505B1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
FR3112017A1 (fr) Equipement électronique comprenant un simulateur de distorsion
WO2005096268A2 (fr) Procede de traitement de donnees sonores, en particulier en contexte ambiophonique
FR3069693B1 (fr) Procede et systeme de traitement d&#39;un signal audio incluant un encodage au format ambisonique
FR2943867A1 (fr) Traitement d&#39;egalisation de composantes spatiales d&#39;un signal audio 3d
EP2529522B1 (fr) Procede de reduction de longueur de canal, filtre et signal correspondants
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales
FR3067186A1 (fr) Procede de suppression de signaux multi-trajets pour recepteur de signaux radio modules en frequence
EP0824798B1 (fr) Filtrage adaptatif a sous-bandes
WO2005006811A1 (fr) Traitement de signal binaural a efficacite amelioree

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase