WO2005096268A2 - Procede de traitement de donnees sonores, en particulier en contexte ambiophonique - Google Patents

Procede de traitement de donnees sonores, en particulier en contexte ambiophonique Download PDF

Info

Publication number
WO2005096268A2
WO2005096268A2 PCT/FR2005/000402 FR2005000402W WO2005096268A2 WO 2005096268 A2 WO2005096268 A2 WO 2005096268A2 FR 2005000402 W FR2005000402 W FR 2005000402W WO 2005096268 A2 WO2005096268 A2 WO 2005096268A2
Authority
WO
WIPO (PCT)
Prior art keywords
order
components
frequency
distance
sound
Prior art date
Application number
PCT/FR2005/000402
Other languages
English (en)
Other versions
WO2005096268A3 (fr
Inventor
Jérôme DANIEL
Sébastien Moreau
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2005096268A2 publication Critical patent/WO2005096268A2/fr
Publication of WO2005096268A3 publication Critical patent/WO2005096268A3/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present invention relates to the processing of sound data.
  • Techniques relating to the propagation of a sound wave in three-dimensional space involving in particular a simulation and / or a specialized sound reproduction, implement audio signal processing methods applied to the simulation of acoustic and psycho-acoustic phenomena .
  • Such processing methods provide for spatial encoding of the acoustic field, its transmission and its spatial reproduction on a set of speakers or on headphones of a stereophonic headset.
  • a first category of treatments relates to processes for synthesizing room effects, or more generally environmental effects. From a description of one or more sound sources (signal emitted, position, orientation, directivity, or other) and based on a room effect model (involving room geometry, or even an acoustic perception desired), we calculate and describe a set of elementary acoustic phenomena (direct, reflected or diffracted waves), or even a macroscopic acoustic phenomenon (reverberant and diffuse field), making it possible to translate the spatial effect at a listener located at a selected point of auditory perception, in three-dimensional space.
  • a second category of process concerns the positional or directional rendering of sound sources.
  • the methods according to this second category are qualified as "creators of three-dimensional sound images", because of the distribution in three-dimensional space of the feeling of the position of the sources by a listener.
  • Methods according to the second category generally include a first step of spatial encoding of elementary acoustic events which produces a representation of the sound field in three-dimensional space. In a second step, this representation is transmitted or stored for deferred use. In a third decoding step, the decoded signals are delivered to speakers or headphones of a playback device.
  • the present invention falls rather into the second category mentioned above. It concerns in particular the spatial encoding of sound sources and a specification of the three-dimensional sound representation of these sources. It applies as well to an encoding of "virtual" sound sources (applications where sound sources are simulated such as games, a spatialized conference, or other), as an "acoustic" encoding of a natural sound field, when taking sound through one or more three-dimensional networks of microphones.
  • the "ambiophonic" (from the English “ambisonic”) approach is preferred.
  • Surround encoding which will be described in detail below, consists of representing signals relating to one or more sound waves in a base of spherical harmonics (in spherical coordinates involving in particular an elevation angle and an azimuthal angle, characterizing a direction of the sound (s)).
  • the components representing these signals and expressed in this base of spherical harmonics are also a function, for waves emitted in the near field, of a distance between the sound source emitting this field and a point corresponding to the origin of the base of spherical harmonics. More particularly, this dependence on the distance is expressed as a function of the sound frequency, as will be seen below.
  • This surround approach offers a large number of possible functionalities, in particular in terms of simulation of virtual sources, and, in general, has the following advantages: - it translates, in a rational way, the reality of acoustic phenomena and provides a spatial auditory rendering realistic, convincing and immersive;
  • the representation of acoustic phenomena is scalable: it offers a spatial resolution which can be adapted to different situations. Indeed, this representation can be transmitted and used as a function of rate constraints during the transmission of the encoded signals and / or of limitations of the restitution device;
  • the surround representation is flexible and it is possible to simulate a rotation of the sound field, or even, at restitution, to adapt the decoding of the surround signals to any restitution device, of various geometries.
  • the encoding of virtual sources is essentially directional.
  • the encoding functions are equivalent to calculating gains which depend on the incidence of the sound wave expressed by the spherical harmonic functions which depend on the elevation angle and the azimuth angle in spherical coordinates.
  • the loudspeakers, at restitution are far away. This results in a distortion (or curvature) of the shape of the reconstructed wave fronts.
  • the components of the sound signal in the base of spherical harmonics, for a near field in fact also depend on the distance from the source and on the sound frequency.
  • these components can be expressed mathematically in the form of a polynomial, the variable of which is inversely proportional to the aforementioned distance and to the sound frequency.
  • the surround components in the sense of their theoretical expression, are divergent in low frequencies and, in particular, their amplitude tends to infinity when the sound frequency decreases towards zero, when these components represent a sound in near field emitted by a source located at a finite distance.
  • This mathematical phenomenon is known, in the field of surround representation, already for order 1, by the term "bass boost", in particular by:
  • This phenomenon becomes particularly critical for high spherical harmonic orders involving high power polynomials.
  • the present invention improves the situation.
  • a method for processing sound data in which: a) signals representative of at least one sound propagating in three-dimensional space and coming from a source located at a distance from a point are coded of reference, to obtain a representation of the sound by components expressed in a base of spherical harmonics of respective orders and of origin corresponding to said reference point, b) and, in particular to correct a near field effect, one applies a attenuation of the amplitude of said components relatively in a range of low frequencies extending substantially, for each component, up to a high frequency defined as a function of: - the order m of this component, and
  • the above-mentioned high frequency is increasing with the order m of the associated component.
  • High frequency filtering means are then applied to said components having, for each current component of order m, a cutoff frequency close to the high frequency which is associated with this current component of order m.
  • the amplitudes of the respective components of order l, ..., m, m + l, ..., M have, for a given frequency, a maximum as a function of a restitution distance defined between a restitution device and a listening point.
  • the aforementioned high frequency, associated with a component of order m + 1, corresponds substantially to this given frequency if the amplitude of a component of order immediately lower m is maximum for a restitution distance corresponding substantially to the distance from the point above reference.
  • This embodiment is particularly advantageous in an application for encoding a virtual source, in particular for high orders (greater than 2).
  • a plurality of amplitudes of components of respective orders 1, 2, ..., M is formed and the acoustic frequency is determined for which this combination reaches a maximum for a substantially corresponding restitution distance at said distance from the reference point. Then, this acoustic frequency corresponds substantially to the high frequency associated with the component of order M of the above-mentioned cumulative.
  • the variation of said high frequency is substantially refined with the order of the associated current component.
  • the aforementioned high-pass filtering means have an increasing slope with the frequency and extending, for a current component of order m to be filtered, over a range in frequencies delimited substantially, on the one hand, by the high frequency associated with a component of order m-1, and, on the other hand, by the high frequency associated with said current component of order m.
  • a high-pass filter is applied separately for each group of components of the same order m. This solution is advantageous in particular when it is planned to implement filters with finite impulse response, non-recursive by nature.
  • the filtering means apply to said components a maximum amplification, substantially of the same order of magnitude for all orders 1, ..., of said components.
  • the attenuation of step b) is combined with another chosen processing, in particular an equalization of said components and / or a pre-compensation for a near field effect and / or a modeling of a field close to encode a virtual source.
  • a cascade filter is applied (consisting of elementary filtering cells, in particular of the recursive type) comprising a plurality of outputs each delivering a signal specific to a group of filtered components, of the same order m, in order to achieve both the attenuation of step b) and the encoding of a virtual source with modeling of a near field, as a variant of the aforementioned implementation of a separate filtering for each group of components of the same order m.
  • the attenuation of step b) is applied to components originating from a plurality of signals acquired by a sound pickup.
  • the abovementioned distance between the source and the reference point is preferably defined, in this context, by a radius characteristic of an area of representativeness of a spatial sound field.
  • the equalization and / or precompensation treatment of a near field effect, applied to said components is corrected by high-pass filtering to apply the attenuation of step b).
  • the aforementioned source is a virtual sound source modeled with a near field effect.
  • the characteristics of the high-pass filtering combined with a modeled near field effect exhibit, at increasing frequencies, an attenuation in the low frequencies followed by an amplification peak substantially at the aforementioned high frequency.
  • the same peak amplitude is applied, preferably lower or of the order of 5dB, for all orders l, ..., m ,. ,., M of said components.
  • a high-pass filtering is applied to component signals intended to be processed in order to then supply a reproduction device.
  • This solution is particularly advantageous when a virtual source has been modeled to generate the surround components, as will be seen below.
  • FIG. 1A schematically illustrates the position of a source S with respect to a reference point O, for example in an acquisition space
  • FIG. 1B schematically illustrates the position of the loudspeakers HP with respect to a reference point O ', for example a listening point , in the restitution space
  • FIG. 1A schematically illustrates the position of a source S with respect to a reference point O, for example in an acquisition space
  • FIG. 1B schematically illustrates the position of the loudspeakers HP with respect to a reference point O ', for example a listening point , in the restitution space
  • FIG. 3A represents the planned processing operations which are applied to a signal to model a virtual source
  • FIG. 3B represents an acquisition system and the treatments provided in a surround context
  • Figures 6 A to 6D represent the modeling error under the respective conditions of Figures 5A to 5D as a function of the distance r from a current point M at the reference point O
  • FIGS. 7A and 7C represent the maxima reached by the Bessel functions (in absolute value) as a function of the distance r, for a source located at 1 meter and for respective frequencies of 464, 2Hz and 483.5Hz
  • FIGS. 7B and 7D represent the amplitude of the Fourier-Bessel series truncated on a half-axis directed towards / and passing through the source (located at 1 m), assuming respectively a 2D restitution and a 3D restitution
  • FIGS. 8C and 8D show the parameters of FIGS. 8A and 8B, according to a 3D representation
  • FIG. 9B represents the responses of the field functions close corrected by high-pass filtering within the meaning of the invention (the field functions p uncorrected rock being left in dotted lines for the comparison)
  • FIG. 10 represents a cascade filter structure of integrating cells Ii of order 1, directly taken from a nested factorization
  • FIG. 11 represents a filter structure whose principle follows that of FIG. 10 but whose integrating cells are associated with rectifiers (or "inverters") of slope in the low frequencies, within the meaning of the present invention
  • FIG. 12 represents a filter structure in factorized form and generalization of the filter bank according to the structure of FIG. 11.
  • the present invention is situated in the field of sound spatialization and, more precisely, that of spatial encoding, that is to say of the representation of a natural acoustic field (in particular for sound recording) or virtual (by simulation of a virtual source) by audio signals, with a view to reproducing the acoustic field (in particular, wave fronts) on a listening area, by means of loudspeakers a restitution device.
  • spatial encoding amounts to describing a sound field encoded in the form of spatial components B n called "spherical harmonics".
  • the decomposition of the field into such spherical harmonics is carried out around a reference point O.
  • the real angular functions Y ° n ( ⁇ , ⁇ ) are the spherical harmonics.
  • the functions j m (kr) are radial functions called "spherical Bessel functions".
  • This spatialization has the advantages of being independent of the restitution device and therefore of being able to adapt to a multitude of devices by means of spatial decoding (matrixing and possibly filtering operation, as will be seen below). It also allows manipulation of the acoustic field (in particular rotations). In addition, if one has to operate with a variable "rendering" constraint, it is possible to omit restitution signals without significantly degrading the spatial resolution of the restored sound images, while preserving spatial information and coherence. More precisely, this degradation is progressive with the elimination of the high order components.
  • p is the distance between the source and the reference point O ( Figure 1 A).
  • the spatial components B mn ⁇ are of amplitude similar or less than S, they undergo a strong amplification which tends to be infinite at low frequency, as shown FIG. 2A (representing a divergent amplification at low frequency of the surround components, this divergence being caused by the near field effect).
  • the transfer functions F m ( ⁇ ) (which will also be noted as a function of kp below) have a slope of -mx ⁇ dB / octave, and the transfer functions which characterize them are by nature unstable (already for m ⁇ l). Their use would therefore not be of great interest in practice.
  • This near-field effect must be taken into account both for the modeling of a virtual source and for the acquisition of real sound signals, in particular for spatial encoding into spherical harmonics from a sound recording (for example by a network of microphones, as we will see later). It has been shown that the required processing could involve theoretically divergent equalization filters.
  • the reproduction of the encoded sound field is typically done on loudspeakers HP placed at a finite distance R from a reference point O 'in the reproduction space (this reference point O' being often a privileged listening point).
  • This reference point O' being often a privileged listening point.
  • the Applicant has observed that it is recommended, if not required for correct reconstruction, to compensate for the near field effect of the loudspeakers.
  • By proposing to introduce this near field compensation from the encoding we put in play functions of transfer of finite amplitude since their slopes of
  • FIG. 1B shows the (finite) amplification of the surround components comprising the near field effect of the loudspeakers located at a distance R of 1.5 meters from the reference point O ': - in solid lines, for a source located at 3 meters, and, in dotted lines, for a source located at 1 meter.
  • the limiting amplification is (R / p) (linear), or mx201og ⁇ 0 (R / p) dB.
  • near field control filters which result from the combination of a near field effect (for a distance p between the point of reference O and the source S in the space of FIG. 1A) and of its compensation (for a distance R between the reference point O 'and the loudspeakers in the reproduction space of FIG. 1B):
  • the battery of filters to be applied constitutes a distance encoding module which supplements the directional encoding module already described in the prior art. More precisely, an input signal S (here from a virtual source) is applied to the same module 31 for encoding distance r and compensation for the near field effect H m .
  • the next module 32 retrieves signals characterized by their order m and completes the position encoding by a direction encoding, with the azimuth and elevation angles.
  • We obtain the near-field compensated surround components B ° n the first of which are noted W (order 0), X, Y, Z (order 1), etc.
  • a so-called "3D" microphone comprises a plurality of piezoelectric sensors distributed over the surface of a sphere whose center preferably corresponds to the reference point O in Figure 1A.
  • the audio signals Si coming from the sensors are preferably converted by the module 33 into digital signals Si N , which are then applied to a matrixing module 34 which delivers raw surround components B m ⁇ n which must still be filtered by a module 35 equalization and, if necessary, near-field compensation, to finally obtain exploitable B ° n components, suitable for being transmitted, stored in memory, or other, for a future restitution.
  • the equalization filters 35 are characterized by transfer functions EQ m ( ⁇ ) of finite amplification, as shown in FIG. 4, with an amplitude in the low frequencies which increases with the order m.
  • These filters are of practical practical use for the processing of the signals picked up by a network of microphone capsules distributed on the surface of a rigid sphere (of radius 2.6 cm in the example of FIG. 4), after matrixing of said signals. .
  • This 2.6 cm radius already corresponds to a critical case which poses a problem of excessive amplification in low frequencies (called "bass boost").
  • the filters H m ( ⁇ ) and EQ m ( ⁇ ) described above can lead to, in certain cases, an excessive amplification in low frequency: - when the sources "interior" are too close (ie when p is much smaller than the distance of restitution R, or still when p is smaller than the restitution distance R, and this, with high orders m); - Or even when the sound pickup device is small (as shown by the strong amplification in the low frequencies of Figure 4).
  • the first case leads to signals whose energy and dynamics are problematic at different points of the digital audio and electroacoustic chain, in particular to restitution, for example digital-analog conversion, preamplification, with a limitation of the maximum power. speakers.
  • restitution for example digital-analog conversion, preamplification, with a limitation of the maximum power. speakers.
  • the gain of the signal delivered to a loudspeaker relative to the original signal S is expressed below by way of indication, as a function of the relative positions of the virtual source and loudspeaker, after M order encoding and decoding for N loudspeakers regularly distributed in a circle:
  • is the angle, seen from the center O, between a virtual source and a running speaker.
  • Equation (7) thus describes how the amplifications H m ( ⁇ ) relate to those applied to the signals from the loudspeakers.
  • the solution proposed within the meaning of the invention consists of a processing which involves a reduced amplification (or even an attenuation) on the low frequency bands, this attenuation depending on the order m.
  • the "radial span" of the components of order m is thus described by the factor j m (kr) .r m (kp), illustrated by FIGS. 5A to 5D, and where J m (kr) denotes the Bessel function d 'order m.
  • the amplitude of the maximum of the Bessel functions increases, as a function of the order m, in particular in near field conditions (FIG. 5D at a frequency of 500 Hz). This increase in the amplitude to the maximum of the Bessel functions is all the more marked at low frequency, as shown in the right part of FIG. 5B for a frequency of 100 Hz.
  • the amplitude of the components increases: in near field conditions, - in the low frequencies, and - with the order m of the components.
  • M p M D 7 S ⁇ (2m + ⁇ ) j m .j m (kr) .F m (kp) .P m ( ⁇ s ⁇ ), (10)
  • the present invention proposes here to reduce the amplification in the low frequencies of the spatial encoding as a function of a targeted reconstruction zone, characterized by a radius relative to the reference point O (normally corresponding to the preferred listening point) .
  • Figures 5 A and 5C clearly show that at 100 Hz, only the first components (up to order 2 or 3) contribute significantly to the reconstruction over a radius of 1 m, while at 500 Hz , the components contribute more significantly to the reconstruction, at least up to order 10 ( Figures 5B and 5D).
  • m 0 to 10
  • the solution recommended within the meaning of the present invention consists of the following: - given that the higher-order components are only significantly useful for reconstruction on a targeted area beyond a frequency which increases in function of the order, - in the complementary domain of low frequencies (for each order) where, moreover, the amplification effect is excessive for high orders, it is therefore not necessary to respect the theoretical encoding components, and it is then possible to reduce their amplitude (or even attenuate them) without substantially degrading the quality of final reconstruction on the targeted restitution area.
  • the application of the invention of the invention preferably materializes by the combination of filters or methods of the type described above (equalization, near field compensation, or others) with filters high pass, which gradually weight the spatial components according to their order and frequency.
  • these filters have the effect of substantially truncating the spatial representation at an appropriate order and at each frequency.
  • the combination of the transfer functions described above (F m , H m , EQ m ) and a high-pass filter is effected by the contribution of a single filter performing the two functions of equalization (and / or near-field compensation) and attenuation in low frequencies.
  • each equalizing filter is defined by a finite impulse response calculated by inverse Fourier transform of a transfer function (in the frequency domain).
  • the signals representing the 3D sound field are possibly themselves of reasonable amplitude.
  • the sound field was composed with directional encoding methods without control of the near field, that is to say without distance coding.
  • each virtual source tends to be reproduced by a reduced number of speakers at the same time.
  • these loudspeakers have a power or a yield limited or even insufficient at low frequencies, for questions of size and / or price (especially when a reproduction device must include a large number of loudspeakers). In the absence of a good sound level, rendering at low frequency may then be deemed unsatisfactory or disappointing by the listeners, and harm the spatial impression.
  • An advantageous embodiment offers a significant improvement in rendering at low frequency in this case.
  • filtering is applied to the spatial components of the field by high-pass filters associated with a target radius slightly smaller than the radius R of the loudspeaker device, preferably just sufficient to encompass the audience.
  • This precaution has the effect of truncating the spatial representation to a lower order at low frequencies, and therefore putting the speakers to work with less angular selectivity.
  • the distribution of low frequencies is thus distributed over a larger set of loudspeakers, without however degrading the reconstruction of the field on the listening area. For the same sound level received by the listeners, each speaker will individually deliver a lower sound level than in a conventional embodiment. If necessary, provision is made to apply equalization at low frequencies after spatial decoding and before broadcasting.
  • FIGS. 7B and 7D show the amplitude of the truncated Fourier-Bessel series (representing the amplitude of the sound pressure field), on a half-axis directed towards (and passing through) the source, assuming respectively 2D rendering and 3D rendering.
  • the dashed curve describes the theoretical amplitude law of the virtual source (with a decrease in l /
  • the truncated representation at the order m + 1 is optimal within the meaning of an energy focusing criterion at the location of the virtual source.
  • the components of order m are particularly beneficial for the reconstruction of the field on a disc (or a 3D ball) of radius p, and little harmful to its properties outside this area.
  • the characteristics of the microphone device dimensions, background noise of microphones, and others. It is assumed that the size of the device is small compared to the distance from the sources. The waves received will therefore be considered as plane.
  • the range of the approximation is proportional to the wavelength and we can define this error as a function of the product kr C j b i e (proportional to the frequency and the radius) generically for each truncation order M: _ ⁇ PM (fo -ttfeg) ⁇ Pi btéûf au e M ( target kr) where M traverses the sphere (respectively the circle) unit for the "3D" approximation
  • this error is an increasing function of kr C i b i e up to a value of the order of magnitude of 1 reached for frequencies and / or rays from which we consider that the approximation of the field is totally wrong.
  • this error begins to grow slowly over a relatively small range of kr c i b i e values. Then, it grows quite strongly before reaching a maximum. Finally, this error is all the smaller, for a given value kr c ji e , the greater the truncation order considered M.
  • the components of order M + l are not essential for the reconstruction taking into account the tolerance threshold fixed.
  • the tolerance threshold fixed fixed.
  • the accuracy of sound reproduction that can be achieved depends in part on the size of the acquisition system. Indeed, if this is small, the high orders, particularly at low frequency, will only be very weakly present in the captured sound field and their estimation will be all the more difficult.
  • the spatial domain of representation is limited by a condition of exclusion of sound sources.
  • this domain is at best a 3D ball (or a 2D disc) centered on the reference point where the source or sources are excluded.
  • limit radii - either independently of the restitution: this limiting radius then only depends on the distance p from the source, - either by considering that the reconstruction area must be delimited by the loudspeakers (arranged at a radius R from the listening point O 1 ), by excluding the encoded source, - or again by considering a listening area of radius R 'smaller than the radius R of the area delimited by the loudspeakers and excluding the encoded source.
  • the objective is to define high-pass filters which are combined, either with the distance encoding filters H m (equation (6)), or directly with the near field transfer functions F m (equation (4)), when the combination results in a stable filter.
  • the resulting filters are to replace the filters H m (z) (of the distance encoding module 31) in the spatial encoding scheme of FIG. 3 A.
  • the near field compensation of the loudspeakers is advantageously applied to K spatial components resulting from the encoding of all the sources, rather than to the NxM signals processed by the N distance encoding modules (a module comprising M filters , shown on the left side of Figure 3 A, for each of the N sources).
  • the properties of the high-pass filters as a function of the target reconstruction radius, and more particularly in depending on the distance from the virtual source.
  • the following properties must be taken into account: - the limit frequencies above which it is important to preserve the phase and amplitude properties of the near field transfer functions F m ( ⁇ ), the slope of these filters at low frequencies, - the "speed" of establishing this slope, once the frequency has dropped below the limit frequency mentioned above, the order of each filter (relative to the order m of the components concerned), as well as its form (with finite or infinite impulse response, cascade of cells, or others), - the maximum amplification and the width of the frequency range where it appears, the resulting amplification after recombination (spatial decoding) of the spatial components , representative of the level of the signals for electro-acoustic diffusion, the properties of the recomposed field: o beyond the valid reconstruction limit zone: we will be particularly interested in the case criticism of simulated sources inside the loudspeaker network (in
  • the first criterion concerns the slope of the high pass filter.
  • the slope of -m.6dB per octave (due to the near field function F m (kp)) must be straightened.
  • a high-pass filter of order greater than or equal to the current order m is put at stake, therefore with a slope of at least m.6dB / octave.
  • Figures 8 A to 8D show the limit frequencies fii m (m) on the near field curves F m (kp).
  • the diamonds therefore reflect a "sufficient" level of amplification of the components.
  • This level is reached when we truncate the representation (2D ( Figures 8A and 8B) and 3D ( Figures 8C and 8D)) optimally within the meaning of the criterion of energy focus on the location of the virtual source (as we saw it with reference to FIGS. 7A to 7D).
  • this level is very moderate (around 3 to 4 dB) and increases very little with the order m.
  • the phase at these limit frequencies evolves in turn according to a quasi-linear law with the order m.
  • FIG. 8A the amplitude is represented and, in FIG. 8B, the phase of the near field transfer functions F m (kr) (case 2D), for orders m ranging from 1 to 20 ( the curves appearing from left to right).
  • F m (kr) case 2D
  • Figures 8C and 8D show these parameters but for maxima calculated on the j m (kr) F m (kp), according to an approximation of 3D representation and no longer 2D.
  • FIG. 9B shows the responses of the near field functions F m "corrected” by high-pass filtering H (m) within the meaning of the invention.
  • Near field functions "uncorrected” are left in dotted lines for comparison. It is observed that in accordance with the constraints fixed above, the association F m .H (m) causes a rejection of the modes of order m at the frequency f re m) at a level of approximately 5 to 6 dB. Finally, we note that these resulting “filtering means” only imply a modest maximum amplification, of the same order of magnitude (around 4dB) for all orders m, spanning the frequency spectrum.
  • the following criteria are considered as joint optimization parameters and no longer necessarily as values fixed a priori: - speed of transition between the slopes, limit frequency for respecting the near field properties (implying a quality of the reconstruction on the disk which excludes the virtual source), - overall properties of the reconstructed field (with positioning of the energy focal point, possibly displaced relative to the virtual source).
  • this embodiment offers the advantage of bringing into play less complex filters in terms of number of coefficients, which, in return, have a slower speed to compensate and reverse the slope of the energy spectrum, therefore having a transition less frank.
  • the location r of the maximum of this series depends on the high-pass filters H (m) . We try to make this place r close to p for each frequency. For a given filter structure, provision is made to apply a constraint optimization algorithm including this criterion.
  • the filters are produced (in particular a filter by order m of component) combining the near field function F m and the high-pass filtering H (m) in the form of a finite impulse response (RIF ), therefore non-recursive.
  • these filters are produced in the form of an infinite impulse response (RU), therefore recursive.
  • RU infinite impulse response
  • a battery of filters is produced as a whole in a factored form comprising a set of RII filters cascaded and contributing simultaneously to several outputs of the filter battery. Similar embodiments are also contemplated combining the equalization functions with high pass filters.
  • a filter (by component or, more preferably, by group of components of the same order m) combining the near field effect of the encoded source, the near field precompensation of the restitution speakers, and a high-pass filtering of order greater than or equal to 1.
  • the high-pass filter be of order at least equal to m to compensate for the amplification slope fairly quickly;
  • a filter combining the effect of the near field (filter of order m) with a high pass of order greater than or equal to m and of slope in the low frequencies at least equal to mx 6dB / octave . It is therefore a stable filter and no longer an integrator. All of these filters constitute a first distance encoding module, applied separately to each source. The near field compensation can then be applied then, after mixing the spatial encoding results of the different sources, if necessary only at the time of the restitution;
  • a filter structure generalizing the previous structure, where high-passes are possibly introduced at the passage of each stage (of order m to m + 1) of the filter bank, applied to the signals emanating from the "upper” stages (m lower) and reused for the "lower” floors (upper m).
  • the frequency limit is defined according to the size of the "valid" reconstruction area targeted; - The "fast” compensation / straightening criterion for the slope of the near field transfer functions F m ( ⁇ ) below the frequency limit defined above, so that the maximum amplification is reduced; The criterion of focusing energy on the location of the virtual source; - A criterion for controlling the spectral coloring in the signals resulting from the recombination of the spatial components (spatial decoding) and during the acoustic diffusion of these signals; - A possible constraint of the filter structure.
  • RII filters provision is also made to make the adjustment of the filter coefficients configurable. Once the optimization has been carried out for a given source distance (for example a reference distance), the coefficients are deduced for any other distance by application of a scale factor on the frequency axis.
  • a high-pass filter is associated with each cell Ii, so that the near field effect deemed “useful” is preserved beyond limit frequencies defined for each order, and that below these frequencies, the slope ( cause of excessive amplification) is compensated fairly quickly.
  • a filter structure of the type represented in FIG. 11 is then obtained, the principle of which follows that of the structure represented in FIG. 10 but whose integrating cells are associated with rectifiers (or “stoppers") of slope in the low frequencies .
  • the filters presented here are stable, even with first order high pass only. It is therefore proposed to introduce order 2 high-pass cells rather than order 1. Although this involves an additional processing cost, the latter nevertheless remains advantageous.
  • processing cells H (m ′ n) are inserted in branches of the filter structure which in particular make it possible to pass on an attenuation, in the low frequencies, in the different signals which make up each output of the structure, which does not not allow the structure described above with reference to FIG. 11.
  • These cells H (m, n) are typically filters of the high-pass type, but also, where appropriate, filters called "bypass" (advantageously without cost of additional treatment).
  • FIG. 12 shows this filter structure with a factorized and generalized form of the filter bank according to the structure of FIG. 11.
  • the required amplification and electro-acoustic power characteristics are less great, but allow the desired spatial properties to be described in a satisfactory manner (reconstruction of the field on a targeted listening area, preservation of the curvature of the wave fronts), - the spatial properties of the field outside the valid reconstruction zone, when the listening zone goes beyond it (case of nearby sources, inside the loudspeaker network), are such that the formation of strong energy interference and limit the auditory sensation of coloring, - when the virtual source is inside the loudspeaker network, the reconstructed sound field has a focal point in energy (with a local maximum) on the place of the virtual source, with a realistic effect especially when the virtual source moves among the audience,
  • a near field compensation processing is defined, either downstream of the encoding of all the sources, or even within of the encoding module, so that the calculation can be the least costly.
  • a mixing means can be provided for audio or audiovisual production, virtual or augmented reality, shows with electroacoustic means, multimedia compositions, or the like, using processing within the meaning of the invention.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un traitement de données sonores, en contexte ambiophonique dans lequel : a) on code des signaux représentatifs d'au moins un son se propageant dans l'espace tridimensionnel et issu d'une source située à une distance (ρ) d'un point de référence (O), pour obtenir une représentation du son par des composantes exprimées dans une base d'harmoniques sphériques d'ordres m respectifs et d'origine correspondant au point de référence (O), b) et, notamment pour corriger un effet de champ proche, on applique une atténuation de l'amplitude de ces composantes relativement dans une gamme de basses fréquences s'étendant sensiblement, pour chaque composante, jusqu'à une fréquence haute définie en fonction de : - l'ordre m de cette composante, et - de ladite distance (ρ) entre la source et le point de référence (O).

Description

Procédé de traitement de données sonores, en particulier en contexte ambiophonique
La présente invention concerne le traitement de données sonores.
Des techniques relatives à la propagation d'une onde sonore dans l'espace tridimensionnel, impliquant notamment une simulation et/ou une restitution sonores spécialisées, mettent en œuvre des procédés de traitement du signal audio appliqués à la simulation de phénomènes acoustiques et psycho-acoustiques. De tels procédés de traitement prévoient un encodage spatial du champ acoustique, sa transmission et sa reproduction spatialisée sur un ensemble de haut-parleurs ou sur des écouteurs d'un casque stéréophonique.
Parmi les techniques de son spatialisé, on distingue deux catégories de traitements complémentaires l'une de l'autre mais qui sont généralement mises en œuvre, l'une et l'autre, au sein d'un même système.
D'une part, une première catégorie de traitements concerne les procédés de synthèse d'effet de salle, ou plus généralement d'effets environnementaux. A partir d'une description d'une ou plusieurs sources sonores (signal émis, position, orientation, directivité, ou autre) et en se basant sur un modèle d'effet de salle (impliquant une géométrie de salle, ou encore une perception acoustique souhaitée), on calcule et l'on décrit un ensemble de phénomènes acoustiques élémentaires (ondes directes, réfléchies ou diffractées), ou encore un phénomène acoustique macroscopique (champ réverbéré et diffus), permettant de traduire l'effet spatial au niveau d'un auditeur situé à un point choisi de perception auditive, dans l'espace tridimensionnel. On calcule alors un ensemble de signaux associés typiquement aux réflexions (sources "secondaires", actives par réémission d'une onde principale reçue, ayant un attribut de position spatiale) et/ou associés à une réverbération tardive (signaux décorrélés pour un champ diffus). D'autre part, une seconde catégorie de procédés concerne le rendu positionnel ou directionnel de sources sonores. Ces procédés sont appliqués à des signaux déterminés par un procédé de la première catégorie décrite ci-avant (impliquant des sources primaires et secondaires) en fonction de la description spatiale (position de la source) qui leur est associée. En particulier, de tels procédés selon cette seconde catégorie permettent d'obtenir des signaux à diffuser sur des haut-parleurs ou écouteurs, pour finalement donner à un auditeur l'impression auditive de sources sonores placées à des positions respectives prédéterminées, autour de l'auditeur. Les procédés selon cette seconde catégorie sont qualifiés de "créateurs d'images sonores tridimensionnelles", du fait de la répartition dans l'espace tridimensionnel du ressenti de la position des sources par un auditeur. Des procédés selon la seconde catégorie comportent généralement une première étape d'encodage spatial des événements acoustiques élémentaires qui produit une représentation du champ sonore dans l'espace tridimensionnel. Dans une seconde étape, cette représentation est transmise ou stockée pour un usage différé. Dans une troisième étape, de décodage, les signaux décodés sont délivrés sur des haut-parleurs ou des écouteurs d'un dispositif de restitution.
La présente invention s'inscrit plutôt dans la seconde catégorie précitée. Elle concerne en particulier l'encodage spatial de sources sonores et une spécification de la représentation sonore tridimensionnelle de ces sources. Elle s'applique aussi bien à un encodage de sources sonores "virtuelles" (applications où des sources sonores sont simulées telles que des jeux, une conférence spatialisée, ou autres), qu'un encodage "acoustique" d'un champ sonore naturel, lors d'une prise de son par un ou plusieurs réseaux tridimensionnels de microphones.
Parmi les techniques envisageables de spatialisation du son, l'approche "ambiophonique" (de l'anglais "ambisonic") est préférée. L'encodage ambiophonique, qui sera décrit en détail plus loin, consiste à représenter des signaux relatifs à une ou plusieurs ondes sonores dans une base d'harmoniques sphériques (en coordonnées sphériques impliquant notamment un angle d'élévation et un angle azimutal, caractérisant une direction du ou des sons). Les composantes représentant ces signaux et exprimées dans cette base d'harmoniques sphériques sont aussi fonction, pour les ondes émises en champ proche, d'une distance entre la source sonore émettant ce champ et un point correspondant à l'origine de la base des harmonique sphériques. Plus particulièrement, cette dépendance de la distance s'exprime en fonction de la fréquence sonore, comme on le verra plus loin.
Cette approche ambiophonique offre un grand nombre de fonctionnalités possibles, notamment en terme de simulation de sources virtuelles, et, de manière générale, présente les avantages suivants : - elle traduit, de façon rationnelle, la réalité des phénomènes acoustiques et apporte un rendu auditif spatial réaliste, convaincant et immersif ;
- la représentation des phénomènes acoustiques est scalable : elle offre une résolution spatiale qui peut être adaptée à différentes situations. En effet, cette représentation peut être transmise et exploitée en fonction de contraintes de débit lors de la transmission des signaux encodés et/ou de limitations du dispositif de restitution ;
- la représentation ambiophonique est flexible et il est possible simuler une rotation du champ sonore, ou encore, à la restitution, d'adapter le décodage des signaux ambiophoniques à tout dispositif de restitution, de géométries diverses.
Dans l'approche ambiophonique connue, l'encodage des sources virtuelles est essentiellement directionnel. Les fonctions d'encodage reviennent à calculer des gains qui dépendent de l'incidence de l'onde sonore exprimée par les fonctions harmoniques sphériques qui dépendent de l'angle d'élévation et de l'angle azimutal en coordonnées sphériques. En particulier, au décodage, on suppose que les haut-parleurs, à la restitution, sont lointains. Il en résulte une distorsion (ou une incurvation) de la forme des fronts d'onde reconstruits. En effet, comme indiqué ci-avant, les composantes du signal sonore dans la base des harmoniques sphériques, pour un champ proche, dépendent en fait aussi de la distance de la source et de la fréquence sonore. Plus précisément, ces composantes peuvent s'exprimer mathématiquement sous la forme d'un polynôme dont la variable est inversement proportionnelle à la distance précitée et à la fréquence sonore. Ainsi, les composantes ambiophoniques, au sens de leur expression théorique, sont divergentes dans les basses fréquences et, en particulier, leur amplitude tend vers l'infini quand la fréquence sonore décroît vers zéro, lorsque ces composantes représentent un son en champ proche émis par une source située à une distance finie. Ce phénomène mathématique est connu, dans le domaine de la représentation ambiophonique, déjà pour l'ordre 1, par le terme de "bass boost", notamment par :
- M.A.GERZON, "General Metatheory ofAuditory Localisation", preprint 3306 of the 92nd AES Convention, 1992, page 52.
Ce phénomène devient particulièrement critique pour des ordres d'harmoniques sphériques élevées impliquant des polynômes de puissance élevée.
La présente invention vient améliorer la situation.
Elle propose à cet effet un procédé de traitement de données sonores, dans lequel : a) on code des signaux représentatifs d'au moins un son se propageant dans l'espace tridimensionnel et issu d'une source située à une distance d'un point de référence, pour obtenir une représentation du son par des composantes exprimées dans une base d'harmoniques sphériques d'ordres respectifs et d'origine correspondant audit point de référence, b) et, notamment pour corriger un effet de champ proche, on applique une atténuation de l'amplitude desdites composantes relativement dans une gamme de basses fréquences s'étendant sensiblement, pour chaque composante, jusqu'à une fréquence haute définie en fonction de : - l'ordre m de cette composante, et
- de ladite distance entre la source et le point de référence.
Préférentiellement, la fréquence haute précitée est croissante avec l'ordre m de la composante associée. On applique alors auxdites composantes des moyens de filtrage passe-haut en fréquences présentant, pour chaque composante courante d'ordre m, une fréquence de coupure voisine de la fréquence haute qui est associée à cette composante courante d'ordre m.
Selon une autre caractéristique particulière, les amplitudes des composantes respectives d'ordre l,...,m,m+l,...,M présentent, pour une fréquence donnée, un maximum en fonction d'une distance de restitution définie entre un dispositif de restitution et un point d'écoute. La fréquence haute précitée, associée à une composante d'ordre m+1, correspond sensiblement à cette fréquence donnée si l'amplitude d'une composante d'ordre immédiatement inférieur m est maximum pour une distance de restitution correspondant sensiblement à la distance du point de référence précitée. Cette réalisation est particulièrement avantageuse dans une application à l'encodage d'une source virtuelle, en particulier pour des ordres élevés (supérieurs à 2).
Dans une variante de réalisation, on forme un cumul d'amplitudes de composantes d'ordres respectifs 1 ,2,...,M et l'on détermine la fréquence acoustique pour laquelle ce cumul atteint un maximum pour une distance de restitution correspondant sensiblement à ladite distance du point de référence. Alors, cette fréquence acoustique correspond sensiblement à la fréquence haute associée à la composante d'ordre M du cumul précité.
Avantageusement, la variation de ladite fréquence haute est sensiblement affine avec l'ordre de la composante courante associée.
Préférentiellement, les moyens de filtrage passe-haut précités présentent une pente croissante avec la fréquence et s'étendant, pour une composante courante d'ordre m à filtrer, sur une plage en fréquences délimitée sensiblement, d'une part, par la fréquence haute associée à une composante d'ordre m-1, et, d'autre part, par la fréquence haute associée à ladite composante courante d'ordre m.
Dans un mode de réalisation particulier, on applique séparément un filtre passe-haut pour chaque groupe de composantes d'un même ordre m. Cette solution est avantageuse notamment lorsqu'il est prévu de mettre en œuvre des filtres à réponse impulsionnelle finie, non récursifs par nature.
Avantageusement, les moyens de filtrage appliquent auxdites composantes une amplification maximale, sensiblement d'un même ordre de grandeur pour tous les ordres 1,..., desdites composantes.
Dans une réalisation préférée, on combine l'atténuation de l'étape b) à un autre traitement choisi, notamment une égalisation desdites composantes et/ou une pré- compensation d'un effet de champ proche et/ou une modélisation d'un champ proche pour encoder une source virtuelle.
En particulier, on applique un filtre en cascade (constitué de cellules élémentaires de filtrages notamment de type récursif) comportant une pluralité de sorties délivrant chacune un signal propre à un groupe de composantes filtrées, de même ordre m, pour réaliser à la fois l'atténuation de l'étape b) et l'encodage d'une source virtuelle avec modélisation d'un champ proche, en variante de la mise en œuvre précitée d'un filtrage séparé pour chaque groupe de composantes d'un même ordre m.
Dans un contexte d'acquisition de signaux, on applique l'atténuation de l'étape b) à des composantes issues d'une pluralité de signaux acquis par une prise de son. La distance précitée entre la source et le point de référence est définie préférentiellement, dans ce contexte, par un rayon caractéristique d'une zone de représentativité d'un champ sonore spatial.
Dans ce contexte d'acquisition, le traitement d'égalisation et/ou de précompensation d'un effet de champ proche, appliqué auxdites composantes, est corrigé par un filtrage passe-haut pour appliquer l'atténuation de l'étape b).
Dans une autre application à l'encodage d'une source virtuelle, la source précitée est une source sonore virtuelle modélisée avec un effet de champ proche. Dans cette application, les caractéristiques du filtrage passe-haut combiné à un effet de champ proche modélisé présentent, à fréquences croissantes, une atténuation dans les basses fréquences suivie d'un pic d'amplification sensiblement à la fréquence haute précitée.
Selon une caractéristique avantageuse, dans ce contexte, on applique sensiblement une même amplitude de pic, préférentiellement inférieure ou de l'ordre de 5dB, pour tous les ordres l,...,m,. ,.,M desdites composantes.
Préférentiellement, on applique un filtrage passe-haut à des signaux de composantes destinés à être traités pour alimenter ensuite un dispositif de restitution. Cette solution est particulièrement avantageuse lorsque l'on a modélisé une source virtuelle pour générer les composantes ambiophoniques, comme on le verra plus loin.
D'autres avantages et caractéristiques de l'invention apparaîtront d'ailleurs à la lecture de la description détaillée ci-après et à l'examen des figures qui l'accompagnent, sur lesquelles : - la figure 1A illustre schématiquement la position d'une source S par rapport à un point de référence O, par exemple dans un espace d'acquisition, - la figure 1B illustre schématiquement la position des haut-parleurs HP par rapport à un point de référence O', par exemple un point d'écoute, dans l'espace de restitution, la figure 2A représente une amplification divergente en basse fréquence des composantes ambiophoniques d'ordre m=l,2,...,8, causée par un effet de champ proche (la source étant disposée à 1 mètre du point de référence O de la figure 1 A), en fonction de la fréquence sonore, la figure 2B représente l'amplification des composantes ambiophoniques au niveau de haut-parleurs situés à une distance R de 1,5 mètres du point de référence O' de la figure 1B, avec compensation d'effet de champ proche pour une source située à 3 mètres (en traits pleins) et pour une source située à 1 mètre (en traits pointillés), la figure 3 A représente les traitements prévus qui sont appliqués à un signal pour modéliser une source virtuelle,
- la figure 3B représente un système d'acquisition et les traitements prévus en contexte ambiophonique, - la figure 4 représente l'amplitude de composantes ambiophoniques enregistrées et égalisées d'ordre m=0, 1,2,3,4, en fonction de la fréquence sonore, la figure 5 A représente l'amplitude des fonctions de Bessel (en valeur absolue) aux ordres m=0,l,2,3,4,...en fonction de la distance r d'un point courant M au point de référence O (figure 1A), pour une onde plane et à une fréquence de 100Hz, la figure 5B représente l'amplitude des fonctions de Bessel (en valeur absolue) aux ordres m=0,l,2,...,10 en fonction de la distance r d'un point courant M au point de référence O, pour une source située à 1 m du point O et à une fréquence de 100Hz, - la figure 5C représente l'amplitude des fonctions de Bessel (en valeur absolue) aux ordres m=0, 1,2,3,..., 10 en fonction de la distance r d'un point courant M au point de référence O (figure 1 A), pour une onde plane et à une fréquence de 500Hz, la figure 5D représente l'amplitude des fonctions de Bessel (en valeur absolue) aux ordres m=0,l,2,...,10 en fonction de la distance r d'un point courant M au point de référence O, pour une source située à 1 m du point O et à une fréquence de 500Hz, les figures 6 A à 6D représentent l'erreur des modélisations dans les conditions respectives des figures 5A à 5D en fonction de la distance r d'un point courant M au point de référence O, les figures 7A et 7C représentent les maxima atteints par les fonctions de Bessel (en valeur absolue) en fonction de la distance r, pour une source située à 1 mètre et pour des fréquences respectives de 464,2Hz et 483,5Hz,
- les figures 7B et 7D représentent l'amplitude de la série de Fourier-Bessel tronquée sur un demi-axe dirigé vers / et passant par la source (située à 1 m), en supposant respectivement une restitution 2D et une restitution 3D, les figures 8A et 8B représentent respectivement l'amplitude et la phase des fonctions de transfert de champ proche Fm(kr), en représentation 2D, pour des ordres m allant de 1 à 20 (les courbes se présentant de gauche à droite), les carrés (respectivement les losanges) indiquant les valeurs de fréquence où la contribution du filtrage passe-haut combiné à la compensation de champ proche, d'ordre m (respectivement d'ordre m-1), est maximale à l'endroit de la source virtuelle (r=p), les figures 8C et 8D reprennent les paramètres des figures 8A et 8B, selon une représentation 3D, - la figure 9 A illustre l'allure des filtres mis en jeu pour la simulation d'une source à p=lm, les fréquences limites et de réjection étant marquées par des barres verticales en traits pointillés, en fonction de l'ordre m (1,2,3, ...,20), la figure 9B représente les réponses des fonctions de champ proche corrigées par un filtrage passe-haut au sens de l'invention (les fonctions de champ proche non corrigées étant laissées en traits pointillés pour la comparaison), la figure 10 représente une structure de filtre en cascade de cellules intégratrices Ii d'ordre 1, directement tirée d'une factorisation imbriquée, la figure 11 représente une structure de filtre dont le principe suit celui de la figure 10 mais dont les cellules intégratrices sont associées à des redresseurs (ou "inverseurs") de pente dans les basses fréquences, au sens de la présente invention, et la figure 12 représente une structure de filtre à forme factorisée et généralisée de la batterie de filtres selon la structure de la figure 11.
On rappelle que la présente invention se situe dans le domaine de la spatialisation sonore et, plus précisément, celui de l'encodage spatial, c'est-à-dire de la représentation d'un champ acoustique naturel (notamment en prise de son) ou virtuel (par simulation d'une source virtuelle) par des signaux audio, en vue d'une reproduction du champ acoustique (en particulier, de fronts d'onde) sur une zone d'écoute, au moyen de haut-parleurs d'un dispositif de restitution. Bien entendu, de tels haut-parleurs peuvent être sous la forme d'écouteurs (ou "oreillettes"). L'encodage spatial revient à décrire un champ sonore encodé sous forme de composantes spatiales B n dites "harmoniques sphériques". En se référant à la figure 1A, la décomposition du champ en de telles harmoniques sphériques" est réalisée autour d'un point de référence O. En tout point M d'azimut θr , d'élévation δr et de rayon r, d'une boule exempte de source et centrée sur le point O, le champ de pression (sonore) s'exprime sous la forme :
Figure imgf000012_0001
avec comme nombre d'onde k = 2ττf le (où/est la fréquence sonore et c, la vitesse du son). Les fonctions angulaires réelles Y°n (θ,δ) sont les harmoniques sphériques. Les fonctions jm(kr) sont des fonctions radiales dites "fonctions de Bessel sphériques".
En général, on ne retient qu'un nombre fini de composantes Bm σ n , chacune caractérisée par un "ordre" m (entier compris entre 0 et M). Eventuellement, on ne retient parmi elles que celles ayant un caractère proprement horizontal, c'est-à-dire telles que m=n dans l'expression (1) ci-avant.
Cette spatialisation a pour avantages d'être indépendante du dispositif de restitution et donc de pouvoir s'adapter à une multitude de dispositifs moyennant un décodage spatial (opération de matriçage et éventuellement de filtrage, comme on le verra plus loin). Elle permet aussi des manipulations du champ acoustique (notamment des rotations). En outre, si l'on doit opérer à contrainte "de rendu" variable, on peut omettre des signaux de restitution sans dégrader significativement la résolution spatiale des images sonores restituées, tout en préservant une information et une cohérence spatiales. Plus exactement, cette dégradation est progressive avec l'élimination des composantes d'ordre élevé. On s'attache ici à l'encodage spatial de champ acoustique contenant une source S à faible distance du point M de la figure 1A de sorte que l'on qualifie cette situation de "champ proche" (source à distance finie). En fait, cette situation correspond à tout champ acoustique CP réaliste. Les caractéristiques des composantes spatiales traduisant respectivement une onde plane et une onde sphérique de même incidence (θ, δ) et portant un signal S (décrit ici dans le domaine fréquentiel et tel que mesuré au point de référence O), sont données par :
Bm σ n = S.Y:n(θ,δ) (2)
Bm σ n = S.Fm ("le ω Y n θ,δ) (3)
Dans l'expression (3), la fonction de transfert ci-après a été introduite pour traduire l'effet de champ proche : ^ CV) = ∑ m + n (2jωp/c)-n , avec ω=2πf (4) T0 (m - n)ln\
On rappelle que p est la distance entre la source et le point de référence O (figure 1 A). Alors que dans le cas de l'onde plane (équation (2)), les composantes spatiales Bmn σ sont d'amplitude semblable ou inférieure à S, elles subissent une forte amplification qui tend à être infinie en basse fréquence, comme le montre la figure 2A (représentant une amplification divergente en basse fréquence des composantes ambiophoniques, cette divergence étant causée par l'effet de champ proche). Les fonctions de transfert Fm(ω) (que l'on notera aussi en fonction de kp ci-après) ont une pente de -mxόdB/octave, et les fonctions de transfert qui les caractérisent sont par nature instables (déjà pour m≥l). Leur usage ne serait donc pas d'un grand intérêt en pratique.
Cet effet de champ proche doit être pris en compte tant pour la modélisation d'une source virtuelle que pour l'acquisition de signaux sonores réels, notamment pour l'encodage spatial en harmoniques sphériques à partir d'une prise de son (par exemple par un réseau de microphones, comme on le verra plus loin). Il a été montré que le traitement requis pouvait mettre en jeu des filtres d'égalisation théoriquement divergents.
En se référant à la figure 1B, la restitution du champ sonore encodé se fait typiquement sur des haut-parleurs HP placés à distance finie R d'un point de référence O' dans l'espace de restitution (ce point de référence O' étant souvent un point d'écoute privilégié). La Demanderesse a observé qu'il est recommandé, sinon requis pour une reconstruction correcte, de compenser l'effet de champ proche des haut-parleurs. En proposant d'introduire cette compensation de champ proche dès l'encodage, on met en jeu des fonctions de transfert d'amplitude finie puisque leurs pentes de
-m x 6dB/octave sont compensées par des pentes opposées. En pratique, cette compensation s'effectue à partir de filtres stables. On a représenté sur la figure 1B l'amplification (finie) des composantes ambiophoniques comprenant l'effet de champ proche des haut-parleurs situés à une distance R de 1,5 mètres du point de référence O' : - en traits pleins, pour une source située à 3 mètres, et, en traits pointillés, pour une source située à 1 mètre.
L'amplification limite est de (R/p) (en linéaire), soit mx201ogι0(R/p) dB.
Cette première approche de la Demanderesse a ainsi résolu le problème de représentation du champ comportant du champ proche par des signaux audio d'amplitude finie (notamment en basse fréquence), tout en offrant une représentation du champ par des composantes spatiales équivalentes aux composantes B σ nui mentionnées plus haut (1), mais "compensées" par un traitement du type :
Figure imgf000014_0001
Ainsi, on peut implémenter des filtres de "contrôle de champ proche" qui résultent de la combinaison d'un effet de champ proche (pour une distance p entre le point de référence O et la source S dans l'espace de la figure 1A) et de sa compensation (pour une distance R entre le point de référence O' et les haut-parleurs dans l'espace de restitution de la figure 1B) :
Figure imgf000015_0001
Ces filtres seront notés parfois plus simplement Hm(ω) ci-après. En se référant à la figure 2B, l'amplification de ces filtres de compensation est limitée en basse fréquence à mx20 logιo(R p) dB. On notera que Ho(ω)=l pour tout ω.
En se référant à la figure 3 A, la batterie de filtres à appliquer constitue un module d'encodage de distance qui complète le module d'encodage directionnel déjà décrit dans l'art antérieur. Plus précisément, on applique un signal d'entrée S (ici issu d'une source virtuelle) à un même module 31 d'encodage de distance r et de compensation d'effet de champ proche Hm. Le module suivant 32 récupère des signaux caractérisés par leur ordre m et complète l'encodage de position par un encodage de direction, avec les angles d'azimut et d'élévation. On obtient les composantes ambiophoniques compensées en champ proche B°n dont les premières sont notées W (ordre 0), X, Y, Z (ordre 1), etc.
Dans le cas d'un dispositif de prise de son tel que représenté à titre d'exemple sur la figure 3B, un microphone dit "3D" comporte une pluralité de capteurs piézoélectriques répartis sur la surface d'une sphère dont le centre correspond préférentiellement au point de référence O de la figure 1A. Les signaux audio Si issus des capteurs sont préférentiellement convertis par le module 33 en signaux numériques SiN, lesquels sont appliqués ensuite à un module de matriçage 34 qui délivre des composantes ambiophoniques brutes Bm σ n qu'il faut encore filtrer par un module 35 d'égalisation et, le cas échéant, de compensation de champ proche, pour obtenir enfin des composantes B°n exploitables, propres à être transmises, stockées en mémoire, ou autre, en vue d'une restitution future. On retiendra surtout que les filtres d'égalisation 35 sont caractérisés par des fonctions de transfert EQm(ω) d'amplification finie, comme le montre la figure 4, avec une amplitude dans les basses fréquences qui augmente avec l'ordre m. Ces filtres sont d'utilisation pratique efficace pour le traitement des signaux captés par un réseau de capsules microphoniques réparties sur la surface d'une sphère rigide (de rayon 2,6 cm dans l'exemple de la figure 4), après matriçage desdits signaux. Ce rayon de 2,6 cm correspond déjà à un cas critique qui pose un problème d'amplification excessive dans les basses fréquences (dite "bass boost").
Toutefois, même si cette approche de compensation de champ proche s'est avérée très avantageuse en pratique, notamment parce qu'elle assure une amplification finie, les filtres Hm(ω) et EQm(ω) décrits ci-avant peuvent entraîner, dans certains cas, une amplification excessive en basse fréquence : - lorsque les sources "intérieures" sont trop proches (c'est-à-dire lorsque p est beaucoup plus petit que la distance de restitution R, ou encore lorsque p est plus petit que la distance de restitution R, et ce, avec des ordres m élevés) ; - ou encore lorsque le dispositif de prise de son est de petites dimensions (comme le montre la forte amplification dans les basses fréquences de la figure 4).
Le premier cas conduit à des signaux dont l'énergie et la dynamique posent problème en différents points de la chaîne audionumérique et électroacoustique, en particulier à la restitution, par exemple la conversion numérique-analogique, la préamplification, avec une limitation de la puissance maximale des haut-parleurs. On constate souvent l'apparition de fortes figures d'interférence acoustique hors d'une zone de reconstruction contrôlée.
D'ailleurs, on exprime ci-dessous à titre indicatif le gain du signal délivré à un haut- parleur par rapport au signal d'origine S, en fonction des positions relatives de la source virtuelle et du haut-parleur, après encodage d'ordre M et décodage pour N haut- parleurs régulièrement répartis sur un cercle :
Figure imgf000017_0001
où γ est l'angle, vu du centre O, entre une source virtuelle et un haut-parleur courrant.
L'équation (7) décrit ainsi comment les amplifications Hm(ω) se reportent sur celles appliquées aux signaux des haut-parleurs.
En prise de son, c'est le bruit de mesure (et éventuellement l'erreur de positionnement ou d'étalonnage des capsules) qui est amplifié démesurément en basse fréquence. Cet effet peut dégrader le rapport signal à bruit final, quasiment de façon inexploitable dans certains cas.
Or, la Demanderesse a constaté que, quand bien même une compensation d'effet de champ proche serait prévue, pour une zone de reconstruction valide visée, la représentation stricte des composantes spatiales dans un domaine basse fréquence, où des problèmes d'amplification surviennent, n'est pas réellement utile en pratique. La solution proposée au sens de l'invention consiste en un traitement qui implique une amplification réduite (voire une atténuation) sur les bandes de basses fréquences, cette atténuation dépendant de l'ordre m.
On considère ici, à titre d'exemple, une représentation bidimensionnelle (2D) mettant en jeu la participation des composantes "horizontales" Bσ mm (pour lesquelles n=m) dans un plan d'observation horizontal contenant le point de référence O. Cette représentation permet aussi d'appréhender une reconstruction par un réseau horizontal de haut-parleurs, par exemple régulièrement distribués sur un cercle. Toutefois, on indique que la qualité d'approximation tridimensionnelle (3D), impliquant toutes les composantes jusqu'à un ordre donné, pour une reconstruction par un réseau 3D de haut-parleurs, par exemple régulièrement distribués sur une sphère, est en général meilleure à ordre m égal, même dans un plan d'observation horizontal. Toutefois, la Demanderesse a observé que dans le cas 3D, on déduisait des limites fréquentielles assez semblables au cas 2D.
Pour une onde sphérique ou plane (avec la source en un point p = p.up , donc de direction décrite par le vecteur unitaire ûp et à la distance p du point de référence O, cette distance étant éventuellement infinie), cette onde portant un signal S (décrit dans le domaine fréquentiel et tel que mesuré au point O), le champ de pression généré s'exprime par :
p(f) = , et, pour une onde plane : p(r ) = SejkF S (8)
Figure imgf000018_0001
Dans ce cas, la qualité d'approximation d'une représentation et/ou reconstruction 2D d'ordre M est donnée pour chaque fréquence f (ou nombre d'onde k=2πf/c) par la série de Fourier-Bessel tronquée à l'ordre M :
Figure imgf000018_0002
où θ désigne l'angle, vu du centre O, entre le point de mesure r et la direction de provenance de l'onde. Le facteur de champ proche Tm(kp) est égal à 1 pour l'onde plane ( p = ∞). La "portée radiale" des composantes d'ordre m est ainsi décrite par le facteur jm(kr).rm(kp), illustré par les figures 5A à 5D, et où Jm(kr) désigne la fonction de Bessel d'ordre m.
Sur la figure 5 A, on a représenté l'amplitude des composantes spatiales (en fait, des fonctions de Bessel Jra(kr) en valeur absolue) d'ordre m=0, 1,2,3,4 en fonction du rayon r (en mètres) et pour une fréquence de 100Hz, dans le cas d'une onde plane. Sur la figure 5B, on a représenté l'amplitude des fonctions de Bessel Jm(kr) en valeur absolue, d'ordre m=0,l,2,3,4,...,10 en fonction du rayon r (en mètres) et pour une fréquence de 100Hz, dans le cas d'une onde sphérique en champ proche, avec la source située à une distance p de 1 mètre du point de référence O. Sur la figure 5C, on a représenté l'amplitude des fonctions de Bessel Jm(kr) en valeur absolue d'ordre m=0, 1,2,3,...,10 en fonction du rayon r (en mètres) et pour une fréquence plus élevée, de 500Hz, dans le cas d'une onde plane. Sur la figure 5D, on a représenté l'amplitude des fonctions de Bessel Jm(kr) en valeur absolue, d'ordre m=0, 1 ,2, ..., 10 en fonction du rayon r (en mètres) et pour une fréquence de 500Hz, dans le cas d'une onde sphérique en champ proche, avec la source située à une même distance p de 1 mètre. On constate en particulier que l'amplitude du maximum des fonctions de Bessel augmente, en fonction de l'ordre m, en particulier en conditions de champ proche (figure 5D à une fréquence de 500Hz). Cette augmentation de l'amplitude au maximum des fonctions de Bessel est d'autant plus marquée en basse fréquence, comme le montre la partie de droite de la figure 5B pour une fréquence de 100Hz. Ainsi, l'amplitude des composantes augmente : en conditions de champ proche, - dans les basses fréquences, et - avec l'ordre m des composantes.
Dans le cas d'une représentation 3D, la qualité d'approximation est donnée par la série de Fourier-Bessel sphérique tronquée : M pM D 7 = S∑(2m + \)jm.jm(kr).Fm(kp).Pm(∞sθ) , (10)
où les Pm désignent les polynômes de Legendre.
La présente invention propose ici de réduire l'amplification dans les basses fréquences de l'encodage spatial en fonction d'une zone de reconstruction visée, caractérisée par un rayon par rapport au point de référence O (correspondant normalement au point d'écoute privilégié).
On rappelle que pour une fréquence (donc une longueur d'onde) donnée, les composantes spatiales de chaque ordre participent à la reconstruction du champ acoustique à partir d'une distance (au "centre de référence" O) d'autant plus grande, proportionnellement à la longueur d'onde, que l'ordre est élevé. Inversement, si l'on cible une zone de reconstruction limitée et caractérisée par un rayon indépendant de la fréquence (ou de la longueur d'onde), on en déduit que les composantes d'ordre supérieur ne sont significativement utiles à la reconstruction sur la zone considérée qu'au-delà d'une fréquence qui croît (ou encore en deçà d'une longueur d'onde qui décroît) en fonction de l'ordre m.
Les figures 5 A et 5C montrent bien qu'à 100 Hz, seules les premières composantes (jusqu'à l'ordre 2 ou 3) contribuent de manière non négligeable à la reconstruction sur un rayon de 1 m, alors qu'à 500 Hz, les composantes contribuent plus significativement à la reconstruction, au moins jusqu'à l'ordre 10 (figures 5B et 5D).
Le cas d'une onde sphérique (source à distance finie p des figures 5B et 5D) suscite des commentaires supplémentaires. On sait d'après la théorie que la reconstruction ne peut dépasser ni même atteindre le rayon p. Le champ de pression est d'ailleurs théoriquement infini à cette distance et dans la direction de la source (c'est-à-dire sur le lieu de la source). De fait, on constate que les contributions manifestent une amplitude croissante en fonction de l'ordre m et très marquée au-delà du rayon p (ce qui se constate aisément pour la fréquence de 100 Hz). On constate également qu'elles convergent vers un niveau non nul en r=p, ce qui montre que l'erreur due au cumul des contributions absentes (d'ordres m' supérieurs à l'ordre maximal M fixé, quelle que soit la valeur de M) est infinie pour r≥p. Parallèlement, la progression de la reconstruction en fonction de M "se tasse", bornée par le rayon r=p, contrairement au cas de l'onde plane. Des courbes d'erreur relative errm(r) sur l'axe θ=0, peuvent être données par : errm(r) = {p(r)-pM(r))ip(r) (11)
On a représenté sur les figures 6 A à 6D l'erreur relative d'approximation du champ sur le demi axe partant du point O et orienté suivant l'incidence de l'onde, pour des troncatures d'ordres m=0 à 10 (courbes s'étalant de gauche à droite), dans les mêmes conditions respectives que celles des figures 5A à 5D. Pour une fréquence donnée, on peut ainsi définir un ordre maximal M au-delà duquel la prise en compte de nouvelles composantes n'apporte pas de progression significative dans la reconstruction. Cet ordre limite décroît quand la fréquence décroît. On développe plus loin des critères pour définir un ordre de troncature recommandé en fonction de la fréquence.
Ainsi, la solution préconisée au sens de la présente invention consiste en ce qui suit : - étant donné que les composantes d'ordre supérieur ne sont significativement utiles à la reconstruction sur une zone visée qu'au-delà d'une fréquence qui croît en fonction de l'ordre, - dans le domaine complémentaire des basses fréquences (pour chaque ordre) où d'ailleurs l'effet d'amplification se montre excessif pour les ordres élevés, il n'est donc pas nécessaire de respecter l'encodage théorique des composantes, et il est alors possible de réduire leur amplitude (voire les atténuer) sans dégrader substantiellement la qualité de reconstruction finale sur la zone de restitution visée. - En pratique et de manière très générale, l'application de l'invention de l'invention se matérialise préférentiellement par la combinaison de filtres ou procédés du type décrit ci-avant (égalisation, compensation de champ proche, ou autres) avec des filtres passe-haut, lesquels pondèrent progressivement les composantes spatiales en fonction de leur ordre et de la fréquence. Dans une réalisation particulière, ces filtres ont pour effet d'opérer sensiblement une troncature de la représentation spatiale à un ordre approprié et à chaque fréquence. - On précise que dans des modes préférés de réalisation, la combinaison des fonctions de transfert décrites ci-avant (Fm, Hm, EQm) et d'un filtre passe-haut s'effectue par la contribution d'un seul filtre réalisant les deux fonctions d'égalisation (et/ou compensation en champ proche) et d'atténuation dans les basses fréquences. On indique qu'un tel filtre, par simplification de pôles de l'un et de zéros de l'autre, est à la fois stable et moins coûteux que la mise en cascade des deux traitements, comme on le verra plus loin. Pour un microphone 3D tel que représenté sur la figure 3B, on fixe l'étendue de la reconstruction visée (c'est-à-dire le rayon limite R) par rapport à la taille du réseau de capteurs. On sait que plus le rayon limite visé R est grand par rapport au réseau de capteurs, plus le niveau maximal d'égalisation requis (les filtres EQm(w)) est grand, et inversement. On propose en particulier de régler ce rayon limite en fonction d'un critère d'amplification maximale des composantes spatiales, fixé au préalable. Ce critère d'amplification a un impact direct sur le rapport signal à bruit résultant. On comprendra ainsi que le module 35 de la figure 3B effectue en outre un filtrage passe- haut, en combinaison des traitements supplémentaires d'égalisation et de compensation de champ proche (NFC) mentionnés ci-avant.
Plus particulièrement, pour le traitement des signaux captés sur un réseau de microphones, l'objectif est de définir des filtres passe-haut qui seront combinés aux filtres égaliseurs EQm(w) qui présentent typiquement une pente de -mxόdB/octave (au moins localement, dans une région fréquentielle dépendant de l'ordre m), comme on l'a vu précédemment. Les filtres passe-haut à introduire pour corriger ces filtres égaliseurs doivent donc en général présenter une pente de compensation. Ces filtres doivent donc être au moins d'ordre m. Dans une implémentation avantageuse, chaque filtre égaliseur est défini par une réponse impulsionnelle finie calculée par transformée de Fourier inverse d'une fonction de transfert (dans le domaine fréquentiel). Dans ce cas de figure, on propose par exemple d'appliquer à cette fonction de transfert une pondération spectrale traduisant le filtre passe-haut, c'est-à-dire approximativement une fonction affine de la fréquence. En première approximation, on propose de définir les fréquences de coupure des filtres passe-haut d'après les fréquences fiim (m) calculées ci-après (équation (12)) et reportées sur le tableau qui suit.
Pour le traitement d'une représentation spatiale déjà composée, les signaux représentant le champ sonore 3D sont éventuellement eux-mêmes d'amplitude raisonnable. On peut considérer par exemple le cas où le champ sonore a été composé avec des procédés d'encodage directionnel sans contrôle du champ proche, c'est-à-dire sans codage de distance. Au moment de la restitution (après décodage spatial), chaque source virtuelle tend à être restituée par un nombre réduit de haut-parleurs en même temps. Or, il arrive que ces haut-parleurs aient une puissance ou un rendement limité voire insuffisant en basses fréquences, pour des questions de taille et/ou de prix (surtout quand un dispositif de restitution doit comporter un nombre important de haut- parleurs). A défaut d'un bon niveau sonore, le rendu en basse fréquence risque alors d'être jugé insatisfaisant ou décevant par les auditeurs, et nuire à l'impression spatiale.
Un mode de réalisation avantageux propose une amélioration sensible du rendu en basse fréquence dans ce cas. A cet effet, on applique aux composantes spatiales du champ un filtrage par des filtres passe-haut associés à un rayon limite visé légèrement plus réduit que le rayon R du dispositif de haut-parleurs, de préférence juste suffisant pour englober l'auditoire. Cette précaution a pour effet de tronquer la représentation spatiale à un ordre plus bas en basses fréquences, et donc de mettre les haut-parleurs à contribution avec une moindre sélectivité angulaire. On répartit ainsi la diffusion des basses fréquences sur un ensemble plus important de haut-parleurs, sans toutefois dégrader la reconstruction du champ sur la zone d'écoute. Pour un même niveau sonore reçu par les auditeurs, chaque haut-parleur délivrera individuellement un moindre niveau sonore que dans une réalisation classique. On prévoit le cas échéant d'appliquer une égalisation en basses fréquences après décodage spatial et avant la diffusion.
On s'intéresse ci-après à la fréquence fijm (m) à laquelle les composantes d'ordre m ont leur plus forte utilité à la distance p du centre O (dans l'exemple décrit en contexte de simulation). Ces composantes offrent le maximum de leur participation Jm(kr).Fm(kp) (ou jm(kr).Fm(kp), en 3D) en r=p. Ce maximum coïncide d'ailleurs avec celui de Jm(kr) (respectivement jm(kr))-
On a représenté sur les figures 7A et 7C les différentes contributions radiales à différents ordres m respectivement à une fréquence de 464,2 Hz et à 483,5 Hz, en fonction de la distance r. On remarquera en particulier que pour r=p (1 mètre ici), c'est la fonction de Bessel à l'ordre m=7 qui présente un maximum.
On a représenté sur les figures 7B et 7D l'amplitude de la série de Fourier-Bessel tronquée (représentant l'amplitude du champ de pression sonore), sur un demi-axe dirigé vers (et passant par) la source, en supposant respectivement une restitution 2D et une restitution 3D. Sur ces figures, la courbe en tirets décrit la loi d'amplitude théorique de la source virtuelle (avec une décroissance en l/|r-p|). On note que les approximations 3D (figure 7D) sont plus satisfaisantes que les approximations 2D (figure 7B), de croissance et d'amplitude plus faibles.
Ces figures 7B et 7D font apparaître en particulier une propriété très intéressante, à travers des courbes d'amplitude des séries tronquées, calculées sur le demi-axe (θ=0) partant de O et orienté vers la source virtuelle. A la fréquence fi.m (m), la série tronquée à l'ordre M=m+1 (avec m=7 dans l'exemple à la fréquence 464,2 Hz) atteint sensiblement son maximum en r=p, c'est-à-dire sur le lieu de la source virtuelle. On vérifie cette propriété pour tous les ordres m>2.
Ainsi, à la fréquence limite fiim (m), la représentation tronquée à l'ordre m+1 est optimale au sens d'un critère de focalisation d'énergie sur le lieu de la source virtuelle.
Elle décroît ensuite (quand r>p), de façon non monotone mais pour atteindre, au point (r=2p) diamétralement opposé (donc à égale distance) par rapport au lieu de la source virtuelle, en moyenne un niveau semblable à celui au point de référence O (amplitude 1). Il s'agit là d'une situation favorable, car relativement cohérente avec la réalité en terme de décroissance de l'amplitude en fonction de la distance à la source. Selon les observations ci-avant, on déduit facilement les fréquences fι,m (m) associée à une distance quelconque p, d'après des valeurs krιιm (m) indépendantes de cette distance, et décrites dans le tableau qui suit pour quelques ordres m, à partir de l'expression : 2*tâ)p/c ≈ kr£ => fiï) = kri ).c/(2πp) (12)
Figure imgf000025_0001
Figure imgf000025_0002
On remarque que ces valeurs suivent approximativement une fonction affine de l'ordre m.
On note aussi que les valeurs sont voisines entre le cas de reconstruction 2D (Jm) et le cas de reconstruction 3D (jm), ce qui indique que les traitements appliqués dans cette réalisation sont efficaces dans les deux cas (2D et 3D), avec une certaine compatibilité d'un cas à l'autre.
On définit par ailleurs directement, de façon plus précise et pour chaque ordre M, la fréquence pour laquelle on observe le maximum du module de la série tronquée
\pM (r.û )| calculée sur le demi-axe (0,ùp) passant par la source d'après l'équation (9)
(respectivement pM°D)(r.Ûp) , d'après l'équation (10)). A titre indicatif, les valeurs du paramètre kr du tableau ci-après permettent de calculer ces fréquences pour les 10 premiers ordres en utilisant à nouveau la formule (12). Toutefois, on a constaté que pour les ordres plus élevés, les valeurs de kr pouvaient être déduites d'une extrapolation affine avec : kr (2D) = 0,995.(M-2)+2,355 (pour M>2) et kr (3D) = l,015.(M-2)+2,836 (pour M>2). On précise que dans ce cas, les valeurs ainsi déduites et que l'on appellera ft (M) pmax pourraient être substituées aux valeurs
Figure imgf000026_0001
utilisées dans la suite pour obtenir plus de précision. On indique que la valeur fpmaχ(1) pour l'ordre M=l permet d'ailleurs de définir la valeur manquante fiim (m_0)-
Figure imgf000026_0002
On retiendra que, pour toutes les fréquences f supérieures à la fréquence limite fiim (m) (ou pour k≤kriim (m)), les composantes d'ordre m sont particulièrement bénéfiques à la reconstruction du champ sur un disque (ou une boule en 3D) de rayon p, et peu néfastes à ses propriétés en dehors de cette zone. En contexte d'acquisition, pour la définition des filtres passe-haut, en plus de la taille de la zone de reproduction visée (avec prise en compte d'un rayon limite), il est avantageux de tenir compte des caractéristiques du dispositif microphonique (dimensions, bruit de fond des microphones, et autre). On suppose que la taille du dispositif est petite devant la distance des sources. Les ondes captées seront donc considérées comme planes. Pour définir l'utilité des composantes de différents ordres m en fonction de la fréquence et sur une zone de rayon donné, on se base sur un critère d'erreur. On introduit par exemple à cet effet une erreur moyenne quadratique normalisée, calculée sur l'enveloppe de la zone de reconstruction visée, soit notamment une sphère (de rayon rcjte) si l'on considère une approximation "3D" ou un cercle horizontal si l'on considère une approximation "2D". Puisque l'on a affaire à des ondes planes, la portée de l'approximation est proportionnelle à la longueur d'onde et l'on peut définir cette erreur en fonction du produit krCjbie (proportionnel à la fréquence et au rayon) de façon générique pour chaque ordre de troncature M : _ \\PM (fo-ttfeg) ~ Pi btéûf au e M (krcible)
Figure imgf000027_0001
où M parcourt la sphère (respectivement le cercle) unité pour l'approximation "3D"
(respectivement "2D").
Pour chaque ordre M, cette erreur est une fonction croissante de krCibie jusqu'à une valeur de l'ordre de grandeur de 1 atteinte pour des fréquences et/ou rayons à partir desquelles on considère que l'approximation du champ est totalement erronée. En général, cette erreur commence par croître doucement sur une plage de valeurs de krcibie relativement petites. Puis, elle croît assez fortement avant d'atteindre un maximum. Enfin, cette erreur est d'autant plus faible, pour une valeur krcj ie donnée, que l'ordre de troncature considéré M est grand.
On se donne un seuil de tolérance d'erreur toi (inférieur à l'erreur maximale observée), jusqu'auquel on considère que l'approximation est satisfaisante. On déduit alors des valeurs limite krmiC (M) de krcibie pour lesquelles l'erreur atteint ledit seuil. En choisissant de surcroît un rayon limite rCi ie pour la reproduction, on calcule aisément pour chaque ordre M la fréquence f,™ (M) au-dessus de laquelle les composantes d'ordre M sont utiles à la reconstruction sur la zone ciblée. On spécifie ainsi qu'à partir de cette fréquence, la courbe d'égalisation théorique d'ordre M montrée sur la figure 4 doit être préservée, en phase et en amplitude. En revanche, à la fréquence fmic (M), les composantes d'ordre M+l ne sont pas indispensables à la reconstruction compte tenu du seuil de tolérance fixé. Considérant des composantes d'ordre M, on recommande donc d'atténuer, fortement si nécessaire, les courbes d'amplifications de l'égalisation théorique (de la figure 4) à la fréquence fmic(M ~x l'atténuation devenant de moins en moins prononcée lorsque la fréquence augmente jusqu'à fm (M) La précision de la reproduction sonore qu'il est possible d'atteindre dépend en partie de la taille du système d'acquisition. En effet, si celle-ci est petite, les ordres élevés, particulièrement en basse fréquence, ne seront que très faiblement présents dans le champ sonore capté et leur estimation sera d'autant plus difficile.
Lorsque l'on reporte ces fréquences sur les courbes de niveau de bruit des signaux résultant de l'égalisation théorique, on y repère des niveaux maximaux. Si l'on juge ces niveaux excessifs, on pourra refaire une estimation des critères requis, notamment en termes de rayon cible et/ou de seuil de tolérance à l'erreur, afin d'obtenir un niveau de bruit maximal acceptable. On définit ainsi les filtres passe-haut à utiliser pour corriger les courbes d'égalisation théorique telles montrées sur la figure 4, préférentiellement de la façon suivante : à partir d'un rayon limite et d'une erreur de reconstruction, on déduit, selon la méthode présentée plus haut, les fréquences de coupures de chaque ordre. Le choix de ces deux paramètres (rayon limite et erreur) contient en lui les limites intrinsèques du système d'acquisition (dimensions, bruit de fond des microphones, etc).
On décrit ci-après le contexte de l'encodage d'une source virtuelle, en tenant compte de la détermination des fréquences limites expliquée ci- avant.
Pour l'encodage de sources virtuelles (en particulier pour une synthèse de fronts d'onde, notamment sphériques), on rappelle que le domaine spatial de représentation, donc de reconstruction possible, est limité par une condition d'exclusion des sources sonores. En particulier, avec une approche basée sur les harmoniques sphériques, ce domaine est au mieux une boule en 3D (ou un disque en 2D) centrée sur le point de référence où la ou les sources sont exclues. On peut donc définir la zone de reconstruction limite (ou visée) par un rayon légèrement inférieur à la distance de la source :
Figure imgf000028_0001
avec α <1.
De manière générale, on propose différents choix pour fixer des rayons limite : - soit indépendamment de la restitution : ce rayon limite ne dépend alors que de la distance p de la source, - soit en considérant que la zone de reconstruction doit être délimitée par les haut-parleurs (disposés à un rayon R du point d'écoute O 1), en excluant la source encodée, - soit encore en considérant une zone d'écoute de rayon R' inférieur au rayon R de la zone délimitée par les haut-parleurs et excluant la source encodée.
On choisit ici de développer le premier choix. On comprend que les traitements appropriés aux deux autres choix se déduisent facilement du traitement appliqué pour le premier choix, par exemple par adaptation d'un paramètre de distance min(p, R) ou min(ρ, R') au lieu de p.
Dans l'exemple décrit, on considère une source monopolaire et ponctuelle. Bien entendu, on prévoit une généralisation de ce traitement au cas de sources multipolaires ayant une certaine directivité, ou ayant une certaine extension dans l'espace.
L'objectif est de définir des filtres passe-haut qui sont combinés, soit aux filtres encodeurs de distance Hm (équation (6)), soit directement aux fonctions de transfert de champ proche Fm (équation (4)), lorsque la combinaison donne lieu à un filtre stable.
Les filtres résultants sont à substituer aux filtres Hm(z) (du module d'encodage de distance 31) dans le schéma d'encodage spatial de la figure 3 A. Dans le deuxième cas et suivant le nombre N de sources à encoder, la compensation du champ proche des haut-parleurs est avantageusement appliquée sur K composantes spatiales résultant de l'encodage de l'ensemble des sources, plutôt que sur les NxM signaux traités par les N modules d'encodage de distance (un module comprenant M filtres, montrés sur la partie gauche de la figure 3 A, pour chacune des N sources).
Différents critères sont proposés ci-après pour déterminer les propriétés des filtres passe-haut en fonction du rayon de reconstruction visé, et plus particulièrement en fonction de la distance de la source virtuelle. Typiquement, les propriétés suivantes doivent être prises en compte : - les fréquences limite au-dessus desquelles il est important de préserver les propriétés de phase et d'amplitude des fonctions de transfert de champ proche Fm(ω), la pente de ces filtres en basses fréquences, - la "rapidité" d'établissement de cette pente, une fois la fréquence descendue en dessous de la fréquence limite évoquée plus haut, l'ordre de chaque filtre (par rapport à l'ordre m des composantes concernées), ainsi que sa forme (à réponse impulsionnelle finie ou infinie, cascade de cellules, ou autres), - l'amplification maximale et la largeur de la plage de fréquences où elle apparaît, l'amplification résultante après recombinaison (décodage spatial) des composantes spatiales, représentative du niveau des signaux pour la diffusion électro-acoustique, les propriétés du champ recomposé : o au-delà de la zone limite de reconstruction valide : on s'intéressera notamment au cas critique de sources simulées à l'intérieur du réseau de haut-parleurs (on évite en particulier à l'auditeur une sensation auditive désagréable lorsqu'il se trouve hors de la zone de reconstruction valide possible, c'est-à-dire plus loin du centre O que ne l'est la source virtuelle), o on introduit un critère de focalisation de l'énergie, de préférence sur le lieu de la source virtuelle.
Dans la suite, on s'intéresse particulièrement au cas d'une source virtuelle pouvant être à l'intérieur du réseau de haut-parleurs. Le premier critère concerne la pente du filtre passe-haut. La pente de -m.6dB par octave (due à la fonction de champ proche Fm(kp)) doit être redressée. A cet effet, on met enjeu un filtre passe-haut d'ordre supérieur ou égal à l'ordre courant m, donc avec une pente d'au moins m.6dB/octave.
On a vu dans le cas des figures 7A à 7D que le rendu optimal prévu d'après le critère de focalisation d'énergie sur la source virtuelle, a lieu pour M=8. En effet, on constate expérimentalement ce résultat dans les mêmes conditions.
En reprenant l'exemple d'une distance de source p=lm, les figures 8 A à 8D reportent les fréquences limite fiim (m) sur les courbes de champ proche Fm(kp). Les losanges reflètent donc un niveau d'amplification "suffisant" des composantes. Ce niveau est atteint lorsque l'on tronque la représentation (2D (figures 8A et 8B) et 3D (figures 8C et 8D)) de façon optimale au sens du critère de focalisation d'énergie sur le lieu de la source virtuelle (comme on l'a vu en référence aux figures 7A à 7D). On voit que ce niveau est très modéré (autour de 3 à 4 dB) et augmente très peu avec l'ordre m. On constate également qu'à niveau similaire, la phase en ces fréquences limite évolue quant à elle suivant une loi quasi-linéaire avec l'ordre m.
On souligne que pour la reconstruction correcte de l'onde et de sa courbure, la préservation de la phase est essentielle dans la bande des hautes fréquences qui n'est pas atténuée.
Plus particulièrement, sur la figure 8A, on a représenté l'amplitude et, sur la figure 8B, la phase des fonctions de transfert de champ proche Fm(kr) (cas 2D), pour des ordres m allant de 1 à 20 (les courbes se présentant de gauche à droite). Pour chaque ordre m, les carrés (respectivement les losanges) signalent les valeurs de fréquence où la contribution Jm(kr).Fm(kp) d'ordre m (respectivement d'ordre m-1) est maximale à l'endroit de la source virtuelle (r=p). Les figures 8C et 8D reprennent ces paramètres mais pour des maxima calculés sur les jm(kr)Fm(kp), selon une approximation de représentation 3D et non plus 2D.
Dans un choix de mise en œuvre préférée, on propose comme substituts aux filtres de champ proche Fm, de réaliser des filtres Dm qui leur soient sensiblement conformes pour les fréquences respectivement supérieures à fun "1"1 et dont le spectre d'énergie décroît en dessous de ces fréquences pour atteindre un niveau négligeable aux fréquences respectives fu,m (m" ^
Sur la figure 9 A (illustrant les filtres mis en jeu pour la simulation d'une source à p=lm), les fréquences limite et de réjection sont marquées par des barres verticales discontinues, pour les fonctions pures de filtrage passe-haut au sens de l'invention, en fonction de l'ordre m (1,2,3,...,20) croissant de la gauche vers la droite.
On a représenté sur la figure 9B les réponses des fonctions de champ proche Fm "corrigées" par un filtrage passe-haut H(m) au sens de l'invention. Les fonctions de champ proche "non-corrigées" sont laissées en traits pointillés pour la comparaison. On observe que conformément aux contraintes fixées ci-avant, l'association Fm.H(m) provoque une réjection des modes d'ordre m à la fréquence fre m) à un niveau d'environ 5 à 6 dB. On note enfin que ces "moyens de filtrages" résultants n'impliquent qu'une amplification maximale modeste, du même ordre de grandeur (environ 4dB) pour tous les ordres m, en s'étalant sur le spectre fréquentiel.
Une propriété intéressante est que les "bosses" (maxima des fonctions de transfert corrigées) ainsi formées dans les spectres d'amplitude des fonctions de transfert Dm se "relaient" d'ordre m en ordre m+1. De cette façon, l'amplification globale, par recombinaison des composantes spatiales lors du décodage spatial, se répartit mieux sur l'échelle des fréquences. Ce critère est dénommé "tuilage des bosses d'amplification" . Dans une réalisation particulière, on considère les critères suivants comme paramètres d'optimisation conjointe et non plus nécessairement comme des valeurs fixées a priori : - rapidité de transition entre les pentes, fréquence limite de respect des propriétés de champ proche (impliquant une qualité de la reconstruction sur le disque qui exclut la source virtuelle), - propriétés globales du champ reconstruit (avec positionnement du point de focalisation d'énergie, éventuellement déplacé par rapport à la source virtuelle).
De manière générale, cette réalisation offre l'avantage de mettre en jeu des filtres moins complexes en termes de nombre de coefficients, qui, en contrepartie, ont une rapidité moindre pour compenser et inverser la pente du spectre d'énergie, présentant donc une transition moins franche.
Le problème à résoudre ou optimiser se formalise mathématiquement en considérant une variante de la série tronquée ?^ (équation (9) ci-avant), ou encore p( D en 3D
(équation (10)), où les termes sont pondérés par les fonctions de transfert des filtres passe-haut à optimiser. On note désormais H(m)(f) ou encore H(m)(kp) ces filtres passe- haut à combiner aux fonctions de champ proche Fm(kp). La série tronquée et pondérée a pour expression (sur le demi axe θ=0 dirigé vers et passant par la source virtuelle) :
Figure imgf000033_0001
Le lieu r du maximum de cette série dépend des filtres passe-haut H(m). On cherche à ce que ce lieu r soit proche de p pour chaque fréquence. Pour une structure de filtre donnée, on prévoit d'appliquer un algorithme d'optimisation sous contrainte incluant ce critère.
On vise préférentiellement la réalisation de filtres numériques. Néanmoins, on indique plus loin que des filtres analogiques peuvent être prévus suivant les mêmes optimisations que pour les filtres numériques. On envisage différentes structures de filtres : Dans un mode de réalisation, on réalise les filtres (en particulier un filtre par ordre m de composante) combinant la fonction de champ proche Fm et le filtrage passe-haut H(m) sous la forme d'une réponse impulsionnelle finie (RIF), donc non-récursive. - Dans une variante, on réalise ces filtres sous forme de réponse impulsionnelle infinie (RU), donc récursive. - Dans une autre variante, on réalise une batterie de filtres dans son ensemble sous une forme factorisée comprenant un ensemble de filtres RII mis en cascade et contribuant simultanément à plusieurs sorties de la batterie de filtres. On envisage également des modes de réalisation similaires combinant les fonctions d'égalisation avec des filtres passe-haut.
On propose les solutions suivantes (avec amélioration graduelle) :
- Un filtre (par composante ou, plus préférentiellement, par groupe de composantes de même ordre m) combinant l'effet de champ proche de la source encodée, la précompensation du champ proche des haut-parleurs de restitution, et un filtrage passe- haut d'ordre supérieur ou égal à 1. En fait, il est recommandé que le filtre passe-haut soit d'ordre au moins égal à m pour compenser la pente d'amplification assez rapidement ; - Pour chaque ordre m, un filtre combinant l'effet du champ proche (filtre d'ordre m) avec un passe-haut d'ordre supérieur ou égal à m et de pente dans les basses fréquences au moins égale à m x 6dB/octave. Il s'agit donc d'un filtre stable et non plus intégrateur. L'ensemble de ces filtres constitue un premier module d'encodage de distance, appliqué séparément à chaque source. La compensation de champ proche peut alors être appliquée ensuite, après mixage des résultats d'encodage spatial des différentes sources, le cas échéant seulement au moment de la restitution ;
- Une solution de même type que la précédente, où l'on met en œuvre préférentiellement des filtres d'ordre au moins 2m, afin non seulement de redresser la pente d'amplification mais de l'inverser pour que les composantes spatiales aient une énergie faible, voire négligeable, dans un domaine de basses fréquences où elle ne sont pas jugées utiles ; - Une batterie de filtres traduisant le champ proche (avec une sortie par ordre). On prévoit ici une cascade de cellules intégratrices d'ordre 1 inspirée d'une "factorisation imbriquée" de l'expression mathématique de la fonction de transfert, avec une combinaison à chaque cellule intégratrice d'un filtre passe-haut d'ordre égal ou supérieur à 1 et de pente au moins égale à 6dB/octave dans les basses fréquences. On notera avec intérêt que l'association du filtre passe-haut et de l'intégrateur d'ordre 1 est de coût sensiblement égal au filtre passe-haut lui-même (par simplification du numérateur et du dénominateur) ;
- Une structure de filtres généralisant la structure précédente, où des passe-haut sont éventuellement introduits au passage de chaque étage (d'ordre m à m+1) de la batterie de filtres, appliqués aux signaux émanant des étages "supérieurs" (m inférieurs) et réutilisés pour les étages "inférieurs" (m supérieurs).
On rappelle que ce sont les fonctions Fm qui sont "pondérées" par les filtres passe-haut, et non pas les fonctions Hm, lesquels contiennent en plus la compensation de champ proche des haut-parleurs. Cette compensation de champ proche est appliquée ensuite, soit directement en sortie du module d'encodage de distance, pour chaque source, soit communément à toutes les sources encodées en aval des modules d'encodage spatial, soit encore seulement au moment du décodage spatial, pour la restitution.
Pour la détermination des coefficients des filtres mis en jeu, on prévoit la mise en oeuvre de procédures de type "optimisation sous contrainte", avec combinaison d'un ou plusieurs critères et contraintes d'optimisation, parmi les suivants : - Le critère de préservation des propriétés de champ proche (phase et amplitude des fonctions de transfert Fm(ω)) dans les domaines haute fréquence jugés utiles pour chaque ordre de composante spatiale. La limite fréquentielle est définie suivant la taille de la zone de reconstruction "valide" visée ; - Le critère de compensation/redressement "rapide" de la pente des fonctions de transfert de champ proche Fm(ω) en dessous de la limite fréquentielle définie ci-dessus, de sorte que l'amplification maximale soit réduite ; Le critère de focalisation d'énergie sur le lieu de la source virtuelle ; - Un critère de contrôle de la coloration spectrale dans les signaux résultant de la recombinaison des composantes spatiales (décodage spatial) et lors de la diffusion acoustique de ces signaux ; - Une éventuelle contrainte de la structure de filfre.
Dans le cas de filtres RII, on prévoit également de rendre paramétrable le réglage des coefficients des filtres. Une fois l'optimisation réalisée pour une distance de source donnée (par exemple une distance de référence), on déduit les coefficients pour toute autre distance par application d'un facteur d'échelle sur l'axe des fréquences.
Dans un mode particulier d'optimisation, on réalise une optimisation pour des filtres analogiques (en temps "continu" et non discret). On définit ensuite analytiquement les coefficients en fonction de la distance (par distorsion de l'échelle des fréquences), et l'on revient au domaine numérique en faisant une transformée bilinéaire classique.
On décrit ci-après une structure factorisée de filtres, dans un mode de réalisation actuellement préféré de l'invention. La fonction de transfert traduisant le champ proche est identifiée sous la forme :
Figure imgf000036_0001
avec τ = pic
Un traitement de factorisation imbriquée (pour "nested factorization") donne : rm(z) = ι+ (cml +E1 (cffl2 +E1 (cm3 +E1( )(cffl4 +...)))), (i5)
1 l + z~ avec comme cellule intégratrice d'ordre 1 : i, (z) = 4τ/_ l- z- (m + n)\
On note aussi que Cmn = (m — )\n\ Pour l'implémentation du banc de filtres Tm(z), la factorisation imbriquée (équation (15)) suggère une structure globale efficace avec cascade de cellules Ii d'ordre 1, comme représenté sur la figure 10, sur laquelle on a représenté une structure optimale d'une batterie de filtres traduisant les fonctions de champ proche rm(z), directement tirée d'une factorisation imbriquée.
On associe à chaque cellule Ii un filtre passe-haut, de sorte que l'effet de champ proche jugé "utile" soit préservé au-delà de fréquences limites définies pour chaque ordre, et qu'en deçà de ces fréquences, la pente (cause d'amplification excessive) soit compensée assez rapidement.
Une propriété commune des filtres passe-haut, dans une implémentation ou dans une autre, est de comporter un zéro à la fréquence nulle (soit en z=l), qui compense le pôle de Ii. En notant H(m'm)(z) le filtre passe-haut associé à la m6"16 cellule cascadée Ii de la figure 10, on substitue finalement à celle-ci le filtre L(m)(z)=H(ra'm)(z).I1(z).
On notera que par simplification du terme (1-z"1) au numérateur et au dénominateur, le filtre résultant L m)(z) est de coût de réalisation voisin de celui du filtre passe-haut H(m)(z). On propose de surcroît de "distribuer" l'amplification par les gains C,™ en remplaçant chaque gain Cm,m par un facteur C'm,m =Cm,m/Cm.ι,m.ι introduit dans la cellule T\ de la ligne correspondante, et en corrigeant les autres gains Cm,n par un remplacement par C'm,n =Cm>n/Cn>n. Avantageusement, on économise M gains, en mettant en jeu des gains raisonnables, les gains Cmn atteignant des valeurs très élevées m et n croissent.
On obtient alors une structure de filtre du type représenté sur la figure 11, dont le principe suit celui de la structure représentée sur la figure 10 mais dont les cellules intégratrices sont associées à des redresseurs (ou "stoppeurs") de pente dans les basses fréquences. Les filtres présentés ici sont stables, même avec des passe-haut d'ordre 1 seulement. On propose donc d'introduire des cellules passe-haut d'ordre 2 plutôt que d'ordre 1. Bien qu'impliquant un coût de traitement supplémentaire, ce dernier reste toutefois avantageux.
On propose également ci-après un filtre plus général tel que représenté sur la figure 12 offrant plus de liberté sur les propriétés finales des filtres. On infroduit en effet des cellules de traitement H(m'n) dans des embranchements de la structure de filtres qui permettent notamment de répercuter une atténuation, dans les basses fréquences, dans les différents signaux qui composent chaque sortie de la structure, ce que ne permet pas la structure décrite ci-avant en référence à la figure 11. Ces cellules H(m,n) sont typiquement des filtres de type passe-haut, mais aussi, le cas échéant des filtres dits "bypass" (avantageusement sans coût de traitement supplémentaire).
On a représenté sur la figure 12 cette structure de filtre à forme factorisée et généralisée de la batterie de filtres selon la structure de la figure 11.
Dans le cas où pour un indice m, le filtre H "1'"1"^ opère déjà une atténuation dans les basses fréquences avec une pente d'au moins 6dB/octave, on envisage éventuellement de définir la cellule L(m)=Iι.H(m,m) avec une fonction H(m,m) qui soit d'ordre 0, et notamment l'identité.
On propose par ailleurs une factorisation des gains C'mn. On propose en effet de distribuer les C'mn en gains C'mn≈ „ C'm,n-ι, dont certains sont avantageusement intégrés au filtres passe-haut H(m'n).
Ainsi, selon l'un des avantages que procure la présente invention : - pour l'encodage de sources virtuelles, les caractéristiques d'amplification et de puissance électro-acoustique requises sont moins grandes, mais permettent de décrire de façon satisfaisante les propriétés spatiales voulues (reconstruction du champ sur une zone d'écoute visée, préservation de la courbure des fronts d'onde), - les propriétés spatiales du champ hors de la zone de reconstruction valide, lorsque la zone d'écoute va au-delà (cas de sources proches, intérieures au réseau de haut- parleurs), sont telles que l'on peut éviter la formation d'interférences de forte énergie et y limiter la sensation auditive de coloration, - lorsque la source virtuelle est à l'intérieur du réseau de haut-parleurs, le champ acoustique reconstruit présente un point de focalisation en énergie (avec un maximum local) sur le lieu de la source virtuelle, avec un effet réaliste notamment lorsque la source virtuelle se déplace parmi l'auditoire,
- le coût de calcul économique de la batterie de filtres d'encodage de distance, s'appuyant avantageusement sur une factorisation d'opérations. En particulier dans le cas d'une combinaison avantageusement factorisée avec un traitement de compensation de champ proche. Dans ce cas, cette combinaison est appliquée aux composantes spatiales résultant de la sommation des sorties des modules d'encodage spatial des différentes sources (encodage directionnel et en distance). On met alors en jeu un filtre d'ordre m par composante d'ordre m. En appliquant la compensation de champ proche dès l'encodage de distance de chaque source, on ne met en jeu qu'un filtre d'ordre m par groupe de composantes d'ordre m et par source, de façon particulièrement avantageuse. En fonction du nombre N de sources à encoder, de l'ordre maximal M et de la caractéristique 2D ou 3D, on définit un traitement de compensation de champ proche, soit en aval de l'encodage de toutes les sources, soit au sein même du module d'encodage, de sorte que le calcul puisse être le moins coûteux.
La présente invention trouve des applications notamment à la prise de son musicale ou documentaire (partage d'ambiance sonore immersive), ou autre. Il peut être prévu un moyen de mixage pour production audio ou audiovisuelle, réalité virtuelle ou augmentée, spectacles avec moyens électroacoustiques, compositions multimédia, ou autre, utilisant un traitement au sens de l'invention.

Claims

REVENDICATIONS
1. Procédé de traitement de données sonores, dans lequel : a) on code des signaux représentatifs d'au moins un son se propageant dans l'espace tridimensionnel et issu d'une source située à une distance (p) d'un point de référence
(O), pour obtenir une représentation du son par des composantes (Bmnσ) exprimées dans une base d'harmoniques sphériques d'ordres (0,1,..., m,..., M) respectifs et d'origine correspondant audit point de référence (O), b) et, notamment pour corriger un effet de champ proche, on applique une atténuation de l'amplitude desdites composantes „m ) relativement dans une gamme de basses fréquences s'étendant sensiblement, pour chaque composante, jusqu'à une fréquence haute (fiim(m)) définie en fonction de :
- l'ordre m de cette composante, et
- de ladite distance (p) entre la source et le point de référence (O).
2. Procédé selon la revendication 1, caractérisé en ce que ladite fréquence haute est croissante avec l'ordre m de la composante associée, et en ce que l'on applique auxdites composantes des moyens de filtrage passe-haut en fréquences présentant, pour chaque composante courante d'ordre m, une fréquence de coupure voisine de ladite fréquence haute associée à cette composante courante d'ordre m.
3. Procédé selon la revendication 2, caractérisé en ce que les moyens de filtrage passe- haut présentent une pente croissante avec la fréquence et s'étendant, pour une composante courante d'ordre m à filtrer, sur une plage en fréquences délimitée sensiblement, d'une part, par la fréquence haute associée à une composante d'ordre m- 1, et, d'autre part, par la fréquence haute associée à ladite composante courante d'ordre m (figure 9A).
4. Procédé selon l'une des revendications précédentes, caractérisé en ce que les amplitudes (Jm(kr)) des composantes respectives d'ordre l,2,...,m,m+l,...,M présentent, pour une fréquence donnée, un maximum en fonction d'une distance de restitution (R) définie entre un dispositif de restitution et un point d'écoute, et en ce que ladite fréquence haute associée à une composante d'ordre m+1 correspond sensiblement à ladite fréquence donnée si l'amplitude d'une composante d'ordre immédiatement inférieur m est maximum pour une distance de restitution (R) correspondant sensiblement à ladite distance (p) du point de référence (figures 7A-7B).
5. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que l'on forme un cumul d'amplitudes de composantes d'ordres respectifs 1,2,..., M et l'on détermine la fréquence acoustique pour laquelle ce cumul atteint un maximum pour une distance de restitution (R) correspondant sensiblement à ladite distance (p) du point de référence, et en ce que ladite fréquence acoustique correspond sensiblement à la fréquence haute associée à la composante d'ordre M dudit cumul.
6. Procédé selon l'une des revendications 4 et 5, caractérisé en ce que la variation de ladite fréquence haute est sensiblement affine avec l'ordre de la composante courante associée (m ; M).
7. Procédé selon l'une des revendications 2 à 6, caractérisé en ce que l'on applique séparément un filtre passe-haut pour chaque groupe de composantes d'un même ordre m.
8. Procédé selon l'une des revendications 2 à 7, caractérisé en ce que les moyens de filtrage appliquent auxdites composantes une amplification maximale, sensiblement d'un même ordre de grandeur pour tous les ordres 1,...,M desdits composantes.
9. Procédé selon l'une des revendications précédentes, dans lequel on combine l'atténuation de l'étape b) à un autre traitement choisi, notamment une égalisation desdites composantes et/ou une précompensation d'un effet de champ proche (NFC) et/ou une modélisation d'un champ proche pour encoder une source virtuelle.
10. Procédé selon l'une des revendications 2, 3, 4 et 6 à 8, prises en combinaison avec la revendication 9, caractérisé en ce que l'on applique un filtre en cascade comportant une pluralité de sorties délivrant chacune un signal propre à un groupe de composantes filtrées, de même ordre m, pour réaliser à la fois l'atténuation de l'étape b) et l'encodage d'une source virtuelle avec modélisation d'un champ proche.
11. Procédé selon l'une des revendications 1 à 9, dans lequel on applique l'atténuation de l'étape b) à des composantes issues d'une pluralité de signaux acquis par une prise de son, caractérisé en ce que ladite distance (p) entre la source et le point de référence (O) est définie par un rayon caractéristique d'une zone de représentativité d'un champ sonore spatial.
12. Procédé selon la revendication 11, prise en combinaison avec la revendication 9, caractérisé en ce que le traitement d'égalisation et/ou de précompensation d'un effet de champ proche, appliqué auxdites composantes, est corrigé par un filtrage passe-haut pour appliquer l'atténuation de l'étape b).
13. Procédé selon l'une des revendications 1 à 10, dans lequel ladite source est une source sonore virtuelle modélisée avec un effet de champ proche, caractérisé en ce que l'on applique, à fréquences croissantes, une atténuation dans les basses fréquences suivie d'un pic d'amplification à ladite fréquence haute (figure 9B).
14. Procédé selon la revendication 13, caractérisé en ce que l'on applique sensiblement une même amplitude de pic, inférieure ou de l'ordre de 5dB, pour tous les ordres 1,...,m,...,M desdites composantes.
15. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'on applique le filtrage passe-haut à des signaux de composantes, destinés à être traités ensuite pour alimenter un dispositif de restitution.
PCT/FR2005/000402 2004-03-01 2005-02-21 Procede de traitement de donnees sonores, en particulier en contexte ambiophonique WO2005096268A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0402101A FR2866974A1 (fr) 2004-03-01 2004-03-01 Procede de traitement sonores, en particulier en contexte ambiophonique
FR0402101 2004-03-01

Publications (2)

Publication Number Publication Date
WO2005096268A2 true WO2005096268A2 (fr) 2005-10-13
WO2005096268A3 WO2005096268A3 (fr) 2006-06-08

Family

ID=34834167

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/000402 WO2005096268A2 (fr) 2004-03-01 2005-02-21 Procede de traitement de donnees sonores, en particulier en contexte ambiophonique

Country Status (2)

Country Link
FR (1) FR2866974A1 (fr)
WO (1) WO2005096268A2 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102333265A (zh) * 2011-05-20 2012-01-25 南京大学 一种基于连续声源概念的三维局部空间声场重放方法
CN113362864A (zh) * 2021-06-16 2021-09-07 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751817A (en) * 1996-12-30 1998-05-12 Brungart; Douglas S. Simplified analog virtual externalization for stereophonic audio
WO2000019415A2 (fr) * 1998-09-25 2000-04-06 Creative Technology Ltd. Procede et dispositif de reproduction audio tridimensionnelle
FR2844894A1 (fr) * 2002-09-23 2004-03-26 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751817A (en) * 1996-12-30 1998-05-12 Brungart; Douglas S. Simplified analog virtual externalization for stereophonic audio
WO2000019415A2 (fr) * 1998-09-25 2000-04-06 Creative Technology Ltd. Procede et dispositif de reproduction audio tridimensionnelle
FR2844894A1 (fr) * 2002-09-23 2004-03-26 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102333265A (zh) * 2011-05-20 2012-01-25 南京大学 一种基于连续声源概念的三维局部空间声场重放方法
CN102333265B (zh) * 2011-05-20 2014-02-19 南京大学 一种基于连续声源概念的三维局部空间声场重放方法
CN113362864A (zh) * 2021-06-16 2021-09-07 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
FR2866974A1 (fr) 2005-09-02
WO2005096268A3 (fr) 2006-06-08

Similar Documents

Publication Publication Date Title
EP1563485A1 (fr) Procede de traitement de donnees sonores et dispositif d&#39;acquisition sonore mettant en oeuvre ce procede
EP1992198B1 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
WO2006075077A2 (fr) Procede et dispositif d’individualisation de hrtfs par modelisation
EP0559530A1 (fr) Procédé et système de spatialisation artificielle de signaux audio-numériques
WO2004086818A1 (fr) Procede pour traiter un signal electrique de son
WO2011045506A1 (fr) Traitement de donnees sonores encodees dans un domaine de sous-bandes
EP1886535B1 (fr) Procede pour produire une pluralite de signaux temporels
EP1586220B1 (fr) Procede et dispositif de pilotage d&#39;un ensemble de restitution a partir d&#39;un signal multicanal
WO2003073791A2 (fr) Procédé et dispositif de pilotage d&#39;un ensemble de restitution d&#39;un champ acoustique
EP2113913A1 (fr) Procédé et système de reconstitution de basses fréquences dans un signal audio
FR2996094A1 (fr) Procede et systeme de restitution d&#39;un signal audio
EP3400599B1 (fr) Encodeur ambisonique ameliore d&#39;une source sonore a pluralite de reflexions
EP1652406A1 (fr) SYSTEME ET PROCEDE DE DETERMINATION D UNE REPRESENTATION D&amp;a pos;UN CHAMP ACOUSTIQUE
FR3065137A1 (fr) Procede de spatialisation sonore
WO2005096268A2 (fr) Procede de traitement de donnees sonores, en particulier en contexte ambiophonique
EP1994526B1 (fr) Synthese et spatialisation sonores conjointes
FR3009158A1 (fr) Spatialisation sonore avec effet de salle
EP4184505B1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
WO2005015954A2 (fr) Procede et dispositif de traitement de donnees sonores en contexte ambiophonique
FR2943867A1 (fr) Traitement d&#39;egalisation de composantes spatiales d&#39;un signal audio 3d
FR3132974A1 (fr) Procede de traitement d’un signal sonore numerique
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase