WO2004080124A1 - Procede de traitement de donnees sonores compressees, pour spatialisation - Google Patents

Procede de traitement de donnees sonores compressees, pour spatialisation Download PDF

Info

Publication number
WO2004080124A1
WO2004080124A1 PCT/FR2004/000385 FR2004000385W WO2004080124A1 WO 2004080124 A1 WO2004080124 A1 WO 2004080124A1 FR 2004000385 W FR2004000385 W FR 2004000385W WO 2004080124 A1 WO2004080124 A1 WO 2004080124A1
Authority
WO
WIPO (PCT)
Prior art keywords
signals
matrix
sub
filters
sound
Prior art date
Application number
PCT/FR2004/000385
Other languages
English (en)
Inventor
Abdellatif Benjelloun Touimi
Marc Emerit
Jean-Marie Pernaux
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to DE602004001868T priority Critical patent/DE602004001868T2/de
Priority to US10/547,311 priority patent/US20060198542A1/en
Priority to EP04712070A priority patent/EP1600042B1/fr
Publication of WO2004080124A1 publication Critical patent/WO2004080124A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the invention relates to a processing of sound data for a spatialized reproduction of acoustic signals.
  • headphones are preferably used.
  • the constraints of this type of terminal (computing power, memory size) make it difficult to implement sound spatialization techniques.
  • the sound spatialization covers two different types of processing. From a monophonic audio signal, one seeks to give the illusion to a listener that the sound source (s) are at well positioned precise space (which we want to be able to modify in real time), and immersed in a space with specific acoustic properties (reverberation, or other acoustic phenomena such as occlusion). For example, on mobile type telecommunication terminals, it is natural to envisage a sound rendering with a stereophonic headset. The most effective technique for positioning sound sources is then binaural synthesis.
  • HRTFs from the English "Head Related Transfer Functions"
  • HRTFs are therefore functions of a spatial position, more particularly of an azimuth angle ⁇ and an elevation angle ⁇ , and of the sound frequency f.
  • a similar spatialization processing consists of a so-called “transaural” synthesis, in which there are simply more than two speakers in one restitution device (which then takes the form of a helmet with two left and right ear cups).
  • the implementation of this technique is done in so-called "jicanale" form (processing shown schematically in Figure 1 relating to the prior art).
  • the source signal is filtered by the HRTF function of the left ear and by the HRTF function of the right ear.
  • the two left and right channels deliver acoustic signals which are then broadcast to the listener's ears with stereo headphones.
  • This bi-channel binaural synthesis is of the so-called "statigue" type, because in this case, the positions of the sound sources do not change over time.
  • the audio and / or speech streams are transmitted in a compressed coded format.
  • frequency type encoders or by frequency transform
  • the MPEG-2/4 standard are considered below.
  • time / frequency transformation can take the form of a filter bank in frequency sub-bands or an MDCT type transform (for "Modified Discrete Cosine Transfor").
  • subband domain a domain defined in a space of frequency subbands, a domain of a temporal space transformed into frequency or a frequency domain.
  • the conventional method consists in first decoding, carrying out the sound spatialization processing on the time signals, then recoding the resulting signals, for transmission to a reproduction terminal.
  • This tedious succession of steps is often very costly in terms of computing power, the memory required for processing and the algorithmic delay introduced. It is therefore often unsuitable for the constraints imposed by the machines where the processing takes place and for the communication constraints.
  • the present invention improves the situation.
  • One of the aims of the present invention is to propose a method for processing sound data grouping the coding / decoding operations in compression of the audio streams and the spatialization of said streams.
  • Another object of the present invention is to propose a process for processing sound data, by spatialization, which adapts to a variable number (dynamically) of sound sources to be positioned.
  • a general aim of the present invention is to propose a method for processing sound data, by spatialization, allowing a wide distribution of spatialized sound data, in particular a distribution for the general public, the reproduction devices being simply equipped with a decoder of the received signals and with reproduction loudspeakers.
  • a process for processing sound data for a spatialized reproduction of acoustic signals, in which: a) at least one first set and one second set of weighting terms, representative of a direction of perception of said acoustic signal by a listener; b) and said acoustic signals are applied to at least two sets of filter units, arranged in parallel, to deliver at least a first output signal and a second output signal each corresponding to a linear combination of the acoustic signals weighted by One set of weighting terms respectively from the first set and the second set and filtered by said filtering units.
  • Each acoustic signal in step a) of the method within the meaning of the invention is at least partially coded in compression and is expressed in the form of a vector of sub-signals associated with respective frequency sub-bands, and each filtering unit is arranged to perform a matrix filtering applied to each vector, in the space of the frequency sub-bands.
  • each matrix filtering is obtained by conversion, in the space of the frequency sub-bands, of a filter with impulse response (finite or infinite) defined in the time space.
  • Such an impulse response filter is preferably obtained by determining an acoustic transfer function depending on a direction of perception of a sound and the frequency of this sound.
  • these transfer functions are expressed by a linear combination of terms depending on the frequency and weighted by terms depending on the direction, which allows, as indicated above, on the one hand , to process a variable number of acoustic signals in step a) and, on the other hand, to dynamically vary the position of each source over time.
  • such an expression of the transfer functions "integrates" the interaural delay which is conventionally applied to one of the output signals, with respect to the other, before the restitution, in binaural processing.
  • matrices of gain filters associated with each signal are provided.
  • said first and second output signals being preferably intended to be decoded into first and second restitution signals
  • the above-mentioned linear combination already takes account of a time difference between these first and second restitution signals, advantageously.
  • the combination of the techniques of linear decomposition of HRTFs with filtering techniques in the sub-band field makes it possible to take advantage of the advantages of the two techniques to arrive at sound spatialization systems at low complexity and reduced memory for multiple encoded audio signals.
  • direct filtering of signals in the coded domain allows the economy of a complete decoding by audio stream before proceeding to the spatialization of the sources, which implies a considerable gain in complexity.
  • the sound spatialization of audio streams can occur at different points in a transmission chain (servers, network nodes or terminals).
  • the nature of the application and the architecture of the communication used can favor one case or another.
  • the spatialization processing is preferably carried out at the level of the terminals in a decentralized architecture and, on the contrary, at the level of the audio bridge (or MCU for "Mul tipoint Control Uni t") in a centralized architecture.
  • the spatialization can be carried out either in the server or in the terminal, or even during the creation of content.
  • a spatialization processing is preferably provided directly at the level a content server.
  • the present invention can also find applications in the field of the transmission of multiple audio streams. included in structured sound scenes, as provided by the MPEG-4 standard.
  • FIG. 1 schematically illustrates a processing corresponding to a binaural "dual-channel" static synthesis for temporal digital audio signals Si, of the prior art
  • FIG. 2 schematically shows an implementation of binaural synthesis based on the linear decomposition of HRTFs for non-coded temporal digital audio signals, of the prior art
  • FIG. 3 schematically represents a system, within the meaning of the prior art, of binaural spatialization of N audio sources initially coded, then completely decoded for spatialization processing in the time domain and then recoded for transmission to one or more devices restitution, here from a server;
  • FIG. 4 schematically represents a system, within the meaning of the present invention, of binaural spatialization of N audio sources partially decoded for spatialization processing in the sub-band domain and then completely recoded for transmission to one or more restitution, here from a server;
  • FIG. 5 schematically shows a sound spatialization processing in the field of sub-bands, at sense of the invention, based on the linear decomposition of HRTFs in the binaural context;
  • FIG. 6 schematically shows an encoding / decoding process for spatialization, carried out in the sub-band domain and based on a linear decomposition of transfer functions in the ambisonic context, in an alternative embodiment of the invention
  • FIG. 7 schematically represents a binaural spatialization processing of N coded audio sources, within the meaning of the present invention, carried out with a communication terminal, according to a variant of the system of FIG. 4;
  • FIG. 8 schematically shows an architecture of a centralized teleconferencing system, with an audio bridge between a plurality of terminals;
  • FIG. 9 schematically represents a processing, within the meaning of the present invention, of spatialization of (Nl) coded audio sources among N sources at the input of an audio bridge of a system according to FIG. 8, carried out near this audio bridge , according to a variant of the system of the figure.
  • FIG. 1 a conventional treatment of "two-channel" binaural synthesis.
  • This processing consists in filtering the signal of the sources (Si) which one wishes to position at a position chosen in space by the acoustic transfer functions left (HRTF_1) and right (HRTF_r) corresponding to the direction ( ⁇ i, ⁇ i) appropriate.
  • Two signals are obtained which are then added to the left and right signals resulting from the spatialization of other sources, to give the global signals L and R broadcast to the left and right ears of a listener.
  • the number of filters required is then 2.N for a static binaural synthesis and 4.N for a dynamic binaural synthesis, N being the number of audio streams to be spatialized.
  • each HRTF filter is first broken down into a minimum phase filter, characterized by its module, and into a pure delay ⁇ .
  • the spatial and frequency dependencies of the modules of the HRTFs are separated thanks to a linear decomposition.
  • These modules of HRTFs transfer functions are then written as a sum of spatial functions C n ( ⁇ , ⁇ ) and reconstruction filters L n (f), as expressed below:
  • These coefficients have the particularity of depending only on the position [ ⁇ , ⁇ ] where one wishes to place the source, and not on the frequency f. The number of these coefficients depends on the number P of basic vectors that has been kept for reconstruction.
  • the N signals from all the sources weighted by the "directional" coefficient C ⁇ ⁇ are then added (for the right channel and the left channel, separately), then filtered by the filter corresponding to the nth basic vector.
  • the addition of an additional source does not require the addition of two additional filters (often FIR or IIR type).
  • the P basic filters are in fact shared by all the sources present. This implementation is called “multi channel”.
  • the coefficients C n i correspond to the directional coefficients for the source i at the position ( ⁇ i, ⁇ i) and for the reconstruction filter n. They are noted C for the left channel (L) and D for the right channel (R). It is indicated that the principle of processing the right path R is the same as that of the left path L. However, the arrows in dotted lines for the treatment of the right path have not been represented for the sake of clarity of the drawing. Between the two vertical lines in broken lines in FIG. 2, a system denoted I, of the type represented in FIG. 3, is then defined.
  • a first method is based on a so-called Karhunen-Loeve decomposition and is described in particular in document WO94 / 10816.
  • Another method is based on the principal component analysis of HRTFs and is described in WO96 / 13962. The more recent document FR-2782228 also describes such an implementation.
  • a step of decoding the N signals is necessary before the spatialization processing proper.
  • This step requires considerable computing resources (which is problematic on current communication terminals, in particular of portable type). Furthermore, this step causes a delay on the processed signals, which affects the interactivity of the communication. If the transmitted sound scene comprises a large number of sources (N), the decoding step may in fact become more costly in computing resources than the sound spatialization step proper. In fact, as indicated above, the cost of calculating the binaural "multi-channel" synthesis depends very little on the number of sound sources to be spatialized.
  • the spatialization of N sound sources (forming for example part of a complex MPEG4 type sound scene) therefore requires: - a complete decoding of the N audio sources Si, ..., Si, .. ., S ⁇ encoded at the input of the represented system (noted "System I") to obtain N decoded audio streams, corresponding for example to PCM signals (for "Puise Code Modulation”), - a spatialization processing in the time domain (“System T”) to obtain two spatialized signals L and R,
  • the decoding of the N coded streams is necessary before the stage of spatialization of the sound sources, which leads to an increase in the cost of calculation and the addition of a delay due to the processing of the decoder. It says that the initial audio sources are generally stored directly in coded format, in current content servers.
  • the number of signals resulting from the spatialization processing is generally greater than two, which further increases the cost of calculation to completely recode these signals before their transmission by the communication network.
  • FIG. 4 Reference is now made to FIG. 4 to describe an implementation of the method within the meaning of the present invention.
  • this operation mainly consists in recovering the parameters of the sub-bands from the coded binary audio stream. This operation depends on the initial encoder used. It can consist, for example, of an entropy decoding followed by an inverse quantization as in an MPEG-1 Layer III coder. Once these parameters of the sub-bands have been found, the processing is carried out in the domain of the sub-bands, as will be seen below.
  • the overall calculation cost of the spatialization operation of the coded audio streams is then considerably reduced. Indeed, the initial decoding operation in a conventional system is replaced by a partial decoding operation of much lower complexity.
  • the computing load in a system within the meaning of the invention becomes substantially constant as a function of the number of audio streams that it is desired to spatialize. Compared to conventional systems, a gain is obtained in terms of computation cost which then becomes proportional to the number of audio streams that one wishes to spatialize.
  • the partial decoding operation results in a lower processing time than the full decoding operation, which is particularly interesting in an interactive communication context.
  • System II The system for implementing the method according to the invention, performing the spatialization in the sub-band domain, is denoted "System II" in FIG. 4.
  • the binaural transfer functions or HRTFs are accessible in the form of temporal impulse responses. These functions generally consist of 256 time samples, at a sampling frequency of 44.1 kHz (typical in the audio field). These impulse responses can come from measurements or acoustic simulations.
  • the pre-processing steps for obtaining the parameters in the sub-band domain are preferably the following:
  • G is a matrix of filters.
  • the D directional coefficients C n i, D n i to be applied in the domain of the sub-bands are scalars of the same values as the C n i and D n i respectively in the time domain);
  • the filter matrices Gi applied independently to each source "integrate" a conventional delay calculation operation for adding the interaural delay between a signal Li and a signal R ⁇ to return.
  • delay lines ⁇ ⁇ FIG. 2
  • the dependency relationship between the aliasing components of the different sub-bands is preferably preserved during the filtering operation so that their removal is ensured by the bank of synthesis filters.
  • critical sampling means that the number of all the output samples of the sub-bands corresponds to the number of samples in input. This filter bank is also supposed to satisfy the condition for perfect reconstruction.
  • the complete filtering matrix is then calculated in sub-bands by the following formula:
  • K (L / M) -1 (characterizing the bank of filters used)
  • L being the length of the analysis and synthesis filters of the filter banks used.
  • corresponds to the number of bands which overlap enough on one side with the bandwidth of a filter in the filter bank. It therefore depends on the type of filter banks used in the chosen coding. For example, for the MDCT filter bank, ⁇ can be taken equal to 2 or 3. For the Pseudo-QMF filter bank of MPEG-1 coding, ⁇ is taken equal to 1.
  • the result of this transposition of a finite or infinite impulse response filter to the domain of the subbands is a matrix of filters of size MxM.
  • MxM filters of size
  • the filters of the main diagonal and of a few adjacent sub-diagonals can be used to obtain a result similar to that obtained by filtering in the time domain (without thereby altering the quality of the reproduction).
  • the matrix S sb (z) resulting from this transposition, then reduced, is that used for the filtering in sub-bands.
  • the expression of the polyphase matrices E (z) and R (z) for an MDCT filter bank is indicated below. / 4 AAC, or Dolby AC-2 & AC-3, or TDAC of the Applicant.
  • the following processing can also be adapted to a Pseudo-QMF type filter bank of the MPEG-1/2 Layer I-II coder.
  • R ⁇ z) J M T ⁇ + J M ⁇ [z- 1 , where JM corresponds to the anti-identity matrix of size MM and T 0 and 1) are matrices of size MxM resulting from the following partition:
  • the polyphase analysis matrix is then expressed as follows:
  • the values of the window (-1) 'h (2lM + k) are typically provided, with 0 ⁇ k ⁇ 2M -l, 0 ⁇ l ⁇ m -l.
  • partial decoding of N audio sources S ⁇ , ... / Si, ... S N coded in compression is carried out, to obtain signals S ⁇ l ..., If f ... f S N preferably corresponding to signal vectors whose coefficients are values each assigned to a sub-band.
  • partial decoding is understood to mean a processing which makes it possible to obtain from the coded signals in compression such signal vectors in the field of sub-bands. We can also obtain position information from which are deduced the respective gain values G ⁇ f ...
  • the spatialization processing is carried out in a server connected to a communication network.
  • these signal vectors L and R can be completely recoded in compression to broadcast the compressed signals L and R (left and right channels) in the communication network and intended for the restitution terminals.
  • an initial step of partial decoding of the coded signals Si is provided, before the spatialization processing.
  • this step is much less expensive and faster than the complete decoding operation which was necessary in the prior art ( Figure 3).
  • the L and R signal vectors are already expressed in the sub-band domain and the partial recoding of FIG. 4 to obtain the coded signals in L and R compression is faster and less costly than a complete coding such as shown in figure 3. It is indicated that the two vertical broken lines in FIG. 5 delimit the spatialization processing carried out in “System II” in FIG. 4.
  • the present invention also relates to such a system comprising means for processing partially coded signals If, for the implementation of the method according to the invention.
  • This last document presents a method for transposing a finite impulse response (FIR) filter in the sub-band domain of pseudo-QMF filter banks of the MPEG-1 Layer I-II coder and MDCT of the MPEG-2/4 coder AAC.
  • the equivalent filtering operation in the sub-band domain is represented by a matrix of FIR filters.
  • this proposal fits in the context of a transposition of HRTFs filters, directly in their classical form and not in the form of a linear decomposition as expressed by the equation Eq [l] above and on a basis of filters in the sense of the invention.
  • a drawback of the method within the meaning of this last document consists in that the spatialization processing cannot be adapted to any number of sources or encoded audio streams to be spatialized.
  • each HRTF filter (of order 200 for an FIR and of order 12 for an IIR) gives rise to a matrix of filters (square) of dimension equal to the number of sub-bands of the bank of filters used.
  • an adaptation of a linear decomposition of HRTFs in the sub-band domain does not present this problem since the number (P) of matrices of basic filters L n and R n is much more reduced.
  • These matrices are then permanently stored in a memory (of the content server or of the playback terminal) and allow simultaneous spatialization processing of any number of sources, as shown in FIG. 5.
  • a generalization of the spatialization processing in the sense of FIG. 5 is described below to other processing of sound rendering, such as a processing called "ambisonic encoding".
  • a sound rendering system can generally be in the form of a real or virtual sound recording system (for a simulation) consisting of an encoding of the sound field. This phase consists in recording p sound signals in a real way or in simulating such signals (virtual encoding) corresponding to the whole of a sound scene comprising all the sounds, as well as a room effect.
  • the aforementioned system can also be in the form of a sound rendering system consisting in decoding the signals coming from the sound pickup to adapt them to the sound rendering translator devices (such as a plurality of speakers or a stereo headphones).
  • the p signals are transformed into n signals which supply the n loudspeakers.
  • binaural synthesis consists in taking a real sound recording, using a pair of microphones introduced into the ears of a human head (artificial or real).
  • N audio streams Sj represented in the sub-band domain after partial decoding undergo spatialization processing, for example ambisonic encoding, to deliver p signals Ei encoded in the sub-band domain .
  • spatialization processing therefore respects the general case governed by the equation Eq [2] above.
  • the application to the signals Sj of the matrix of filters Gy (to define the interaural delay ITD) is no longer necessary here, in the ambisonic context.
  • the filters K j i (f) are fixed and depend, at constant frequency, only on the sound rendering system and its arrangement with respect to a listener. This situation is shown in Figure 6 (to the right of the vertical dotted line), in the example of the ambisonic context.
  • the Ei signals spatially encoded in the subband domain are completely recoded in compression, transmitted in a communication network, recovered in a rendering terminal, partially decoded in compression to obtain a representation in the subband domain. bands.
  • an encoding format with three signals W, X, Y for p sound sources is expressed, for encoding, by:
  • Table I values of the coefficients defining the filters K ⁇ (f) for 0 ⁇ f ⁇ f
  • Table II values of the coefficients defining the filters K ⁇ (f) for f ⁇ f ⁇ f 2
  • coded signals (Si) emanate from N remote terminals. They are spatialized at the level of the teleconference server (for example at the level of an audio bridge for a star architecture as represented in FIG. 8), for each participant. This step, carried out in the sub-band domain after a partial decoding phase, is followed by a partial recoding.
  • the signals thus coded in compression are then transmitted via the network and, upon reception by a rendering terminal, are decoded completely in compression and applied to the two left and right channels 1 and r, respectively, of the rendering terminal, in the case of binaural spatialization.
  • the decoding processing in compression thus makes it possible to deliver two time signals left and right which contain the information of positions of N distant speakers and which supply two respective loudspeakers (headset with two headsets).
  • m channels can be recovered at the output of the communication server, if the encoding / decoding in spatialization are carried out by the server.
  • This spatialization can be static or dynamic and, moreover, interactive. Thus, the position of the speakers is fixed or may vary over time. If the spatialization is not interactive, the position of the different speakers is fixed: the listener cannot modify it. On the other hand, if the spatialization is interactive, each listener can configure their terminal to position the voice of the N other speakers where he wishes, substantially in real time.
  • the reproduction terminal receives ⁇ audio streams (Si) coded in compression (MPEG, AAC, or other) from a communication network.
  • the terminal After a partial decoding to obtain the signal vectors (Si), the terminal (“JJ System") processes these signal vectors to spatialize the audio sources, here in binaural synthesis, in two signal vectors L and R which are then applied to banks synthesis filters for decoding in compression.
  • the left and right PCM signals, respectively 1 and r, resulting from this decoding are then intended to supply directly to the loudspeakers.
  • This type of processing advantageously adapts to a decentralized teleconferencing system (several terminals connected in point-to-point mode).
  • This scene can be simple, or even complex as often in the context of MPEG-4 transmissions where the sound scene is transmitted in a structured format.
  • the client terminal receives, from a multimedia server, a multiplex bit stream corresponding to each of the coded primitive audio objects, as well as instructions as to their composition for reconstructing the sound scene.
  • "Audio object” means an elementary bit stream obtained by an MPEG-4 Audio coder.
  • the MPEG-4 System standard provides a special format, called "AudioBIFS" (for "BInary Format for Scene description”), in order to transmit these instructions.
  • the role of this format is to describe the spatiotemporal composition of audio objects.
  • these different decoded streams can undergo further processing.
  • a sound spatialization processing step can be carried out.
  • the manipulations to be performed are represented by a graph.
  • the decoded audio signals at the input of the graph are provided.
  • Each node of the graph represents a type of processing to be carried out on an audio signal.
  • the various sound signals are provided at the output of the graph to be restored or to be associated with other media objects (images or other).
  • transform coders used mainly for high quality audio transmission. (monophonic and multi-channel). This is the case for AAC and TwinVQ encoders based on the MDCT transform.
  • the low decoding layer In a receiving MPEG-4 terminal, it then suffices to integrate the low decoding layer at the nodes of the upper layer which provides specific processing, such as binaural spatialization by HRTFs filters.
  • the nodes of the "AudioBIFS" graph which involve binaural spatialization can be treated directly in the field of sub-bands (MDCT for example).
  • MDCT sub-bands
  • the processing of the signals for spatialization can only be carried out at the audio bridge.
  • the terminals TER1, TER2, TER3 and TER4 receive flows already mixed and therefore no processing can be carried out at their level for spatialization.
  • the audio bridge must carry out a spatialization of the speakers coming from the terminals for each of the N subsets made up of (Nl) speakers among the N participating in the conference. Processing in the coded field naturally brings more benefit.
  • FIG. 9 schematically represents the processing system provided in the audio bridge. This processing is thus carried out on a subset of (Nl) audio signals coded among the N at the input of the bridge.
  • the left and right coded audio frames in the case of binaural spatialization, or the m coded audio frames in the case of a general spatialization (for example in ambisonic encoding) as represented in FIG. 9, which result from this processing are thus transmitted to the remaining terminal which participates in the teleconference but which is not included in this subset (corresponding to an "audio terminal").
  • N processing operations of the type described above are carried out in the audio bridge (N subsets of (Nl) coded signals). It is indicated that the partial coding in FIG.
  • the position of the sound source to be spatialized can vary over time, which amounts to varying over time the directional coefficients of the domain of the subbands n i and D ⁇ .
  • the variation of the value of these coefficients is preferably done in a discrete manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un traitement de données sonores, pour une restitution spatialisée de signaux acoustiques. On obtient, pour chaque signal acoustique, au moins un premier jeu et un second jeu de termes pondérateurs, représentatifs d'une direction de perception dudit signal acoustique par un auditeur. On applique ensuite à au moins deux jeux d'unités de filtrage, disposées en parallèle, lesdits signaux acoustiques, pour délivrer au moins un premier et un second signal de sortie (L,R) correspondant à une combinaison linéaire des signaux délivrés par ces unités de filtrage respectivement pondérés par l'ensemble des termes pondérateurs du premier jeu et du second jeu. Au sens de l'invention, chaque signal acoustique à traiter est au moins partiellement codé en compression et s'exprime sous la forme d'un vecteur de sous-signaux associés à des sous-bandes de fréquences respectives. Chaque unité de filtrage effectue un filtrage matriciel appliqué à chaque vecteur, dans l'espace des sous-bandes fréquentielles.

Description

Procédé de traitement de données sonores compressées, pour spatialisation
L'invention concerne un traitement de données sonores pour une restitution spatialisée de signaux acoustiques.
L'apparition de nouveaux formats de codage de données sur les réseaux de télécommunications permet la transmission de scènes sonores complexes et structurées comprenant des sources sonores multiples. En général, ces sources sonores sont spatialisées, c'est-à-dire qu'elles sont traitées de manière à apporter un rendu final réaliste en terme de position des sources et d'effet de salle (réverbération). C'est le cas par exemple du codage selon la norme MPEG-4 qui permet de transmettre des scènes sonores complexes comprenant des sons compressés ou non, et des sons de synthèse, auxquels sont associés des* paramètres de spatialisation (position, effet de la salle environnante) . Cette transmission se fait sur des réseaux avec contraintes, et le rendu sonore dépend du type de terminal utilisé. Sur un terminal mobile de type PDA par exemple
(pour " Personal Digi tal Assistant ") , on utilisera de manière préférentielle un casque d'écoute. Les contraintes de ce type de terminaux (puissance de calcul, taille mémoire) rendent difficile l' implémentation de techniques de spatialisation du son.
La spatialisation sonore recouvre deux types de traitements différents. A partir d'un signal audio monophonique, on cherche à donner l'illusion à un auditeur que la ou les sources sonores sont à des positions bien précises de l'espace (que l'on souhaite pouvoir modifier en temps réel) , et plongées dans un espace ayant des propriétés acoustiques particulières (réverbération, ou autres phénomènes acoustiques tels que l'occlusion). A titre d'exemple, sur des terminaux de télécommunication de type mobile, il est naturel d'envisager un rendu sonore avec un casque d'écoute stéréophonique. La technique de positionnement des sources sonores la plus efficace est alors la synthèse binaurale.
Elle consiste, pour chaque source sonore, à filtrer le signal monophonique par des fonctions de transfert acoustiques, appelées HRTFs (de l'anglais "Head Related Transfer Functions ") , qui modélisent les transformations engendrées par le torse, la tête et le pavillon de l'oreille de l'auditeur sur un signal provenant d'une source sonore. Pour chaque position de l'espace, on peut mesurer une paire de ces fonctions (une pour l'oreille droite, une pour l'oreille gauche) . Les HRTFs sont donc des fonctions d'une position spatiale, plus particulièrement d'un angle d'azimut θ et d'un angle d'élévation φ, et de la fréquence sonore f . On obtient alors, pour un sujet donné, une base de données de fonctions de transfert acoustiques de N positions de l'espace pour chaque oreille, dans lesquelles un son peut être "placé" (ou " spatialisé " selon la terminologie utilisée ci-après) .
On indique qu'un traitement de spatialisation similaire consiste en une synthèse dite " transaurale" , dans laquelle on prévoit simplement plus de deux haut-parleurs dans un dispositif de restitution (qui se présente alors sous une forme différente d'un casque à deux oreillettes gauche et droite) .
De manière classique, la mise en œuvre de cette technique se fait sous forme dite "jicanale" (traitement représenté schématiquement sur la figure 1 relative à l'art antérieur) . Pour chaque source sonore à positionner selon le couple d'angles azimutal et d'élévation [θ,φ] , on filtre le signal de la source par la fonction HRTF de l'oreille gauche et par la fonction HRTF de l'oreille droite. Les deux canaux gauche et droit délivrent des signaux acoustiques qui sont alors diffusés aux oreilles de l'auditeur avec un casque d'écoute stéréophonique. Cette synthèse binaurale bicanale est de type dit ci-après "statigue", car dans ce cas, les positions des sources sonores n'évoluent pas dans le temps.
Si l'on souhaite, au contraire, faire varier les positions des sources sonores dans l'espace au cours du temps
(synthèse " dynamique") , les filtres utilisés pour modéliser les HRTFs (oreille gauche et oreille droite) doivent être modifiés. Toutefois, ces filtres étant pour la plupart du type à réponse impulsionnelle finie (FIR) ou à réponse impulsionnelle infinie (IIR) , des problêmes de discontinuités des signaux de sortie gauche et droit apparaissent, entraînant des " clicks " audibles. La solution technique classiquement employée pour pallier ce problème est de faire tourner deux jeux de filtres binauraux en parallèle. Le premier jeu simule une position
[θl,φl] à l'instant tl, le second une position [Θ2,φ2] à l'instant t2. Le signal donnant l'illusion d'un déplacement entre les positions aux instants tl et t2 est alors obtenu par un fondu enchaîné des signaux gauche et droit résultant des processus de filtrage pour la position [θl,φl] et pour la position [Θ2,φ2] . Ainsi, la complexité du système de positionnement des sources sonores est alors multipliée par deux (deux positions à deux instants) par rapport au cas statique.
Afin de pallier ce problème, des techniques de décomposition linéaire des HRTFs ont été proposées (traitement représenté schématiquement sur la figure 2 relative à l'art antérieur). L'un des avantages de ces techniques est qu'elles permettent une mise en œuvre dont la complexité dépend beaucoup moins du nombre total de sources à positionner dans l'espace. En effet, ces techniques permettent de décomposer les HRTFs sur une base de fonctions communes à toutes les positions de l'espace, et ne dépendant donc que de la fréquence, ce qui permet de réduire le nombre de filtres nécessaires. Ainsi, ce nombre de filtres est fixe, indépendamment du nombre de sources et/ou du nombre de positions de sources à prévoir. L'ajout d'une source sonore supplémentaire n'ajoute alors que des opérations de multiplication par un jeu de coefficients de pondération et par un retard τ± , ces coefficients et ce retard ne dépendant que de la position [θ,φ] . Aucun filtre supplémentaire n'est donc nécessaire.
Ces techniques de décomposition linéaire ont aussi un intérêt dans le cas de la synthèse binaurale dynamique
(i.e. lorsque la position des sources sonores varie au cours du temps) . En effet, dans cette configuration, on ne fait plus varier les coefficients des filtres, mais les valeurs des coefficients de pondération et des retards en fonction uniquement de la position. Le principe décrit ci- dessus de décomposition linéaire des filtres de rendu sonore se généralise à d'autres approches, comme on le verra ci-après.
Par ailleurs, dans les différents services de communication de groupe (téléconférence, audioconférence, visioconférence, ou autre) ou de communication "en flux continu " (de l'anglais " STREAMING" ) , pour adapter un débit binaire à la largeur de la bande passante fournie par un réseau, les flux audio et/ou de parole sont transmis sous un format codé compressé. On ne considère ci-après que des flux initialement compressés par des codeurs de type fréquentiel (ou par transformée en fréquence) tels que ceux opérant selon la norme MPEG-1 (Layer I-II-III), la norme MPEG-2/4 AAC, la norme MPEG-4 T inVQ, la norme Dolby AC-2, la norme Dolby AC-3, ou encore une norme UIT-T G.722.1 en codage de parole, ou encore le procédé de codage TDAC de la Demanderesse. L'utilisation de tels codeurs revient à effectuer d'abord une transformation temps/fréquence sur des blocs du signal temporel. Les paramètres obtenus sont ensuite quantifiés et codés pour être transmis dans une trame avec d'autres informations complémentaires nécessaires pour le décodage. Cette transformation temps/fréquence peut prendre la forme d'un banc de filtres en sous-bandes de fréquences ou encore une transformée de type MDCT (pour "Modified Discrète Cosinus Transfor ") . Ci-après, on désignera par les mêmes termes " domaine des sous -bandes" un domaine défini dans un espace de sous-bandes fréquentielles, un domaine d'un espace temporel transformé en fréquence ou un domaine fréquentiel.
Pour effectuer la spatialisation sonore sur de tels flux, la méthode classique consiste à faire d'abord un décodage, réaliser le traitement de spatialisation sonore sur les signaux temporels, puis recoder les signaux qui en résultent, pour une transmission vers un terminal de restitution. Cette succession d'étapes, fastidieuse, est souvent très coûteuse en terme de puissance de calcul, de la mémoire nécessaire pour le traitement et du délai algorithmique introduit. Elle est donc souvent inadaptée aux contraintes imposées par les machines où s ' effectue le traitement et aux contraintes de communication.
La présente invention vient améliorer la situation.
L'un des buts de la présente invention est de proposer un procédé de traitement de données sonores regroupant les opérations de codage/décodage en compression des flux audio et de spatialisation desdits flux.
Un autre but de la présente invention est de proposer un procédé de traitement de données sonores, par spatialisation, qui s'adapte à un nombre variable (dynamiquement) de sources sonores à positionner.
Un but général de la présente invention est de proposer un procédé de traitement de données sonores , par spatialisation, permettant une large diffusion des données sonores spatialisées, en particulier une diffusion pour le grand public, les dispositifs de restitution étant simplement équipés d'un décodeur des signaux reçus et de haut-parleurs de restitution.
Elle propose à cet effet un procédé de traitement de données sonores, pour une restitution spatialisée de signaux acoustiques, dans lequel : a) on obtient, pour chaque signal acoustique, au moins un premier jeu et un second jeu de termes pondérateurs, représentatifs d'une direction de perception dudit signal acoustique par un auditeur ; b) et on applique à au moins deux jeux d'unités de filtrage, disposées en parallèle, lesdits signaux acoustiques, pour délivrer au moins un premier signal de sortie et un second signal de sortie correspondant chacun à une combinaison linéaire des signaux acoustiques pondérés par 1 ' ensemble des termes pondérateurs respectivement du premier jeu et du second jeu et filtrés par lesdites unités de filtrage.
Chaque signal acoustique à l'étape a) du procédé au sens de l'invention est au moins partiellement codé en compression et s'exprime sous la forme d'un vecteur de sous-signaux associés à des sous-bandes de fréquences respectives, et chaque unité de filtrage est agencée pour effectuer un filtrage matriciel appliqué à chaque vecteur, dans l'espace des sous-bandes fréquentielles . Avantageusement, chaque filtrage matriciel est obtenu par conversion, dans l'espace des sous-bandes fréquentielles, d'un filtre à réponse impulsionnelle (finie ou infinie) défini dans l'espace temporel. Un tel filtre à réponse impulsionnelle est préferentiellement obtenu par détermination d'une fonction de transfert acoustique dépendant d'une direction de perception d'un son et de la fréquence de ce son.
Selon une caractéristique avantageuse de l'invention, ces fonctions de transfert s'expriment par une combinaison linéaire de termes dépendant de la fréquence et pondérés par des termes dépendant de la direction, ce qui permet, comme indiqué ci-avant, d'une part, de traiter un nombre variable de signaux acoustiques à l'étape a) et, d'autre part, de faire varier dynamiquement la position de chaque source dans le temps. En outre, une telle expression des fonctions de transfert " intègre " le retard interaural qui est classiquement appliqué à l'un des signaux de sortie, par rapport à l'autre, avant la restitution, dans les traitements binauraux. A cet effet, on prévoit des matrices de filtres de gains associés à chaque signal .
Ainsi, lesdits premier et second signaux de sortie étant préferentiellement destinés à être décodés en des premier et second signaux de restitution, la combinaison linéaire précitée tient déjà compte d'un décalage temporel entre ces premier et second signaux de restitution, de façon avantageuse . Finalement, entre l'étape de réception/décodage des signaux reçus par un dispositif de restitution et l'étape de restitution elle-même, on peut ne prévoir aucune étape supplémentaire de spatialisation sonore, ce traitement de spatialisation étant complètement effectué en amont et directement sur des signaux codés.
Selon l'un des avantages que procure la présente invention, l'association des techniques de décomposition linéaire des HRTFs aux techniques de filtrage dans le domaine des sous-bandes permet de profiter des avantages des deux techniques pour arriver à des systèmes de spatialisation sonore à faible complexité et à mémoire réduite pour des signaux audio codés multiples.
En effet, dans une architecture "bicanale " classique, le nombre de filtres à utiliser est fonction du nombre de sources à positionner. Comme indiqué ci-avant, ce problème ne se retrouve pas dans une architecture basée sur la décomposition linéaire des HRTFs. Cette technique est donc préférable en termes de puissance de calcul, mais aussi d'espace mémoire nécessaire au stockage des filtres binauraux. Enfin, cette architecture permet de gérer de manière optimale la synthèse binaurale dynamique, car elle permet d'effectuer le " fading" entre deux instants tl et t2 sur des coefficients qui ne dépendent que de la position, et ne nécessite donc pas deux jeux de filtres en parallèle .
Selon un autre avantage que procure la présente invention, le filtrage direct des signaux dans le domaine codé permet l'économie d'un décodage complet par flux audio avant de procéder à la spatialisation des sources, ce qui implique un gain considérable en complexité.
Selon un autre avantage que procure la présente invention, la spatialisation sonore de flux audio peut intervenir à différents points d'une chaîne de transmission (serveurs, nœuds du réseau ou terminaux). La nature de l'application et l'architecture de la communication utilisée peuvent favoriser un cas ou un autre. Ainsi, dans un contexte de téléconférence, le traitement de spatialisation est préferentiellement effectué au niveau des terminaux dans une architecture décentralisée et, au contraire, au niveau du pont audio (ou MCU pour "Mul tipoint Control Uni t ") dans une architecture centralisée. Pour des applications de " streaming" audio, notamment sur des terminaux mobiles, la spatialisation peut être réalisée soit dans le serveur, soit dans le terminal, ou encore lors de la création de contenu. Dans ces différents cas, une diminution de la complexité de traitement et aussi de la mémoire nécessaire pour le stockage des filtres HRTF est toujours appréciée. Par exemple, pour des terminaux mobiles (téléphones portables de seconde et troisième générations, PDA, ou micro-ordinateurs de poche) ayant des contraintes fortes en terme de capacité de calcul et de taille mémoire, on prévoit préferentiellement un traitement de spatialisation directement au niveau d'un serveur de contenus.
La présente invention peut trouver aussi des applications dans le domaine de la transmission de flux audio multiples inclus dans des scènes sonores structurées, comme le prévoit la norme MPEG-4.
D'autres caractéristiques, avantages et applications de 1 ' invention apparaîtront à 1 ' examen de la description détaillée ci-après, et des dessins annexés sur lesquels :
- la figure 1 illustre schématiquement un traitement correspondant à une synthèse binaurale "bicanale" statique pour des signaux audionumériques temporels Si, de l'art antérieur ;
- la figure 2 représente schématiquement une mise en œuvre de la synthèse binaurale basée sur la décomposition linéaire des HRTFs pour des signaux audionumériques temporels non codés, de l'art antérieur ; - la figure 3 représente schématiquement un système, au sens de l'art antérieur, de spatialisation binaurale de N sources audio initialement codées, puis complètement décodées pour le traitement de spatialisation dans le domaine temporel et ensuite recodées pour une transmission à un ou plusieurs dispositifs de restitution, ici à partir d'un serveur ;
- la figure 4 représente schématiquement un système, au sens de la présente invention, de spatialisation binaurale de N sources audio partiellement décodées pour le traitement de spatialisation dans le domaine des sous- bandes et ensuite recodées complètement pour la transmission à un ou plusieurs dispositifs de restitution, ici à partir d'un serveur ;
- la figure 5 représente schématiquement un traitement de spatialisation sonore dans le domaine des sous-bandes, au sens de l'invention, basé sur la décomposition linéaire des HRTFs dans le contexte binaural ;
- la figure 6 représente schématiquement un traitement d'encodage/décodage pour spatialisation, mené dans le domaine des sous-bandes et basé sur une décomposition linéaire de fonctions de transfert dans le contexte ambisonique, dans une variante de réalisation de l'invention ;
- la figure 7 représente schématiquement un traitement de spatialisation binaurale de N sources audio codées, au sens de la présente invention, effectué auprès d'un terminal de communication, selon une variante du système de la figure 4 ;
- la figure 8 représente schématiquement une architecture d'un système de téléconférence centralisée, avec un pont audio entre une pluralité de terminaux ; et
- la figure 9 représente schématiquement un traitement, au sens de la présente invention, de spatialisation de (N-l) sources audio codées parmi N sources en entrée d'un pont audio d'un système selon la figure 8, effectué auprès de ce pont audio, selon une variante du système de la figure .
On se réfère tout d'abord à la figure 1 pour décrire un traitement classique de synthèse binaurale "bicanale" . Ce traitement consiste à filtrer le signal des sources (Si) que l'on souhaite positionner à une position choisie dans l'espace par les fonctions de transfert acoustiques gauche (HRTF_1) et droite (HRTF_r) correspondant à la direction (θi,φi) appropriée. On obtient deux signaux qui sont alors additionnés aux signaux gauches et droits résultant de la spatialisation des autres sources, pour donner les signaux globaux L et R diffusés aux oreilles gauche et droite d'un auditeur. Le nombre de filtres nécessaires est alors de 2.N pour une synthèse binaurale statique et de 4.N pour une synthèse binaurale dynamique, N étant le nombre de flux audio à spatialiser.
On se réfère maintenant à la figure 2 pour décrire un traitement classique de synthèse binaurale basée sur la décomposition linéaire des HRTFs. Ici, chaque filtre HRTF est d'abord décomposé en un filtre à phase minimale, caractérisé par son module, et en un retard pur τ . Les dépendances spatiales et fréquentielles des modules des HRTFs sont séparées grâce à une décomposition linéaire. Ces modules des fonctions de transfert HRTFs s'écrivent alors comme une somme de fonctions spatiales Cn (θ, φ) et de filtres de reconstruction Ln(f), comme exprimé ci-après :
Figure imgf000015_0001
Chaque signal d'une source S à spatialiser (i=l,...,N) est pondéré par des coefficients Cni(θ,φ) (n=l,...,P) issus de la décomposition linéaire des HRTFs. Ces coefficients ont pour particularité de ne dépendre que de la position [ θ, φ] où l'on souhaite placer la source, et non de la fréquence f . Le nombre de ces coefficients dépend du nombre P de vecteurs de base que l'on a conservé pour la reconstruction. Les N signaux de toutes les sources pondérés par le coefficient " directionnel " Cπι sont alors additionnés (pour le canal droit et le canal gauche, séparément) , puis filtrés par le filtre correspondant au nième vecteur de base. Ainsi, contrairement à la synthèse binaurale "bicanale", l'ajout d'une source supplémentaire ne nécessite pas l'ajout de deux filtres additionnels (souvent de type FIR ou IIR) . Les P filtres de base sont en effet partagés par toutes les sources présentes . Cette mise en œuvre est dite "mul ti canal e" . De plus, dans le cas de la synthèse binaurale dynamique, il est possible de faire varier les coefficients Cai(θ,φ) sans apparition de clicks en sortie du dispositif. Dans ce cas, seulement 2.P filtres sont nécessaires, alors que 4.N filtres étaient nécessaires pour la synthèse bicanale.
Sur la figure 2, les coefficients Cni correspondent aux coefficients directionnels pour la source i à la position (θi,φi) et pour le filtre de reconstruction n. On les note C pour la voie gauche (L) et D pour la voie droite (R) . On indique que le principe de traitement de la voie droite R est le même que celui de la voie gauche L. Toutefois, les flèches en traits pointillés pour le traitement de la voie droite n'ont pas été représentées par souci de clarté du dessin. Entre les deux lignes verticales en trait discontinu de la figure 2, on définit alors un système noté I, du type représenté sur la figure 3.
Toutefois, avant de se reporter à la figure 3, on indique que différentes méthodes ont été proposées pour déterminer les fonctions spatiales et les filtres de reconstruction. Une première méthode est basée sur une décomposition dite de Karhunen-Loeve et est décrite notamment dans le document WO94/10816. Une autre méthode repose sur l'analyse en composantes principales des HRTFs et est décrite dans W096/13962. Le document FR-2782228 plus récent décrit aussi une telle mise en œuvre.
Dans le cas où un traitement de spatialisation de ce type se fait au niveau du terminal de communication, une étape de décodage des N signaux est nécessaire avant le traitement de spatialisation proprement dit. Cette étape demande des ressources de calcul considérables (ce qui est problématique sur les terminaux de communication actuels notamment de type portable) . Par ailleurs, cette étape entraîne un délai sur les signaux traités, ce qui nuit à l'interactivité de la communication. Si la scène sonore transmise comprend un grand nombre de sources (N) , l'étape de décodage peut en fait devenir plus coûteuse en ressources de calcul que l'étape de spatialisation sonore proprement dite. En effet, comme indiqué ci-avant, le coût de calcul de la synthèse binaurale "mul ticanale" ne dépend que très peu du nombre de sources sonores à spatialiser.
Le coût de calcul de l'opération de spatialisation des N flux audio codés (dans la synthèse multicanale de la figure 2) peut donc se déduire des étapes suivantes (pour la synthèse de l'un des deux canaux de rendu gauche ou droit) :
- décodage (pour N signaux) ,
- application du retard interaural Xi,
- multiplication par les gains positionnels Cni (PxN gains pour l'ensemble des N signaux), - sommation des N signaux pour chaque filtre de base d'indice n, - filtrage des P signaux par les filtres de base,
- et sommation des P signaux de sortie des filtres de base.
Dans le cas où la spatialisation ne se fait pas au niveau d'un terminal mais au niveau d'un serveur (cas de la figure 3) , ou encore dans un nœud d'un réseau de communication (cas d'un pont audio en téléconférence) , il faut en plus rajouter une opération de codage complet du signal de sortie.
En se référant à la figure 3, la spatialisation de N sources sonores (faisant par exemple partie d'une scène sonore complexe de type MPEG4) nécessite donc : - un décodage complet des N sources audio Si, ..., Si, ..., Sκ codées en entrée du système représenté (noté " Système I") pour obtenir N flux audio décodés, correspondant par exemple à des signaux PCM (pour " Puise Code Modula tion ") , - un traitement de spatialisation dans le domaine temporel ("Système T") pour obtenir deux signaux spatialisés L et R,
- et ensuite un recodage complet sous forme de canaux gauche et droit L et R, véhiculés dans le réseau de communication pour être reçus par un ou plusieurs dispositifs de restitution.
Ainsi, le décodage des N flux codés est nécessaire avant l'étape de spatialisation des sources sonores, ce qui entraîne une augmentation du coût de calcul et l'ajout d'un délai dû au traitement du décodeur. On indique que les sources audio initiales sont généralement stockées directement sous format codé, dans les serveurs de contenus actuels.
On indique en outre que pour une restitution sur plus de deux haut-parleurs (synthèse transaurale ou encore en contexte " ambisonique" que l'on décrit ci-après), le nombre de signaux résultant du traitement de spatialisation est généralement supérieur à deux, ce qui augmente encore le coût de calcul pour recoder complètement ces signaux avant leur transmission par le réseau de communication.
On se réfère maintenant à la figure 4 pour décrire une mise en œuvre du procédé au sens de la présente invention.
Elle consiste à associer l' implémentation "multicanale" de la synthèse binaurale (figure 2) aux techniques de filtrage dans le domaine transformé (domaine dit " des sous-bandes ") afin de ne pas avoir à réaliser N opérations de décodage complètes avant l'étape de spatialisation. On réduit ainsi le coût de calcul global de l'opération. Cette " intégration " des opérations de codage et de spatialisation peut être effectuée dans le cas d'un traitement au niveau d'un terminal de communication ou d'un traitement au niveau d'un serveur comme représenté sur la figure 4.
Les différentes étapes de traitement des données ainsi que l'architecture du système sont décrites en détail ci- aprês . Dans le cas d'une spatialisation de signaux audio codés multiples, au niveau du serveur comme dans l'exemple représenté sur la figure 4, une opération de décodage partiel est encore nécessaire. Toutefois, cette opération est beaucoup moins coûteuse que l'opération de décodage dans un système conventionnel tel que représenté sur la figure 3. Ici, cette opération consiste principalement à récupérer les paramètres des sous-bandes à partir du flux audio binaire, codé. Cette opération dépend du codeur initial utilisé. Elle peut consister par exemple en un décodage entropique suivi d'une quantification inverse comme dans un codeur MPEG-1 Layer III. Une fois ces paramètres des sous-bandes retrouvés, le traitement est effectué dans le domaine des sous-bandes, comme on le verra ci-après.
Le coût de calcul global de l'opération de spatialisation des flux audio codés est alors considérablement réduit. En effet, l'opération initiale de décodage dans un système conventionnel est remplacée par une opération de décodage partiel de complexité bien moindre. La charge de calcul dans un système au sens de l'invention devient sensiblement constante en fonction du nombre de flux audio que l'on souhaite spatialiser. Par rapport aux systèmes conventionnels, on obtient un gain en terme de coût de calcul qui devient alors proportionnel au nombre de flux audio que l'on souhaite spatialiser. De plus, l'opération de décodage partiel entraîne un délai de traitement inférieur à l'opération de décodage complet, ce qui est particulièrement intéressant dans un contexte de communication interactive.
Le système pour la mise en œuvre du procédé selon l'invention, effectuant la spatialisation dans le domaine des sous-bandes, est noté "Système II" sur la figure 4.
On décrit ci-après l'obtention des paramètres dans le domaine des sous-bandes à partir de réponses impulsionnelles binaurales.
De manière classique, les fonctions de transfert binaurales ou HRTFs sont accessibles sous la forme de réponses impulsionnelles temporelles. Ces fonctions sont constituées en général de 256 échantillons temporels, à une fréquence d'échantillonnage de 44,1 kHz (typique dans le domaine de l' audio). Ces réponses impulsionnelles peuvent être issues de mesures ou de simulations acoustiques .
Les étapes de pré-traitement pour l'obtention des paramètres dans le domaine des sous-bandes sont préferentiellement les suivantes :
- extraction du retard interaural à partir de réponses impulsionnelles binaurales hj (n) et hr (n) (si l'on dispose de D directions de l'espace mesurées, on obtient un vecteur de D valeurs de retard interaural ITD (exprimé en secondes) ) ;
- modélisation des réponses impulsionnelles binaurales sous forme de filtres à phase minimale ; - choix du nombre de vecteurs de base (P) que l'on souhaite conserver pour la décomposition linéaire des HRTFS ;
- décomposition linéaire des réponses à phase minimale selon la relation Eq[l] ci-avant (on obtient ainsi les D coefficients directionnels Cni et Dni qui ne dépendent que de la position de la source sonore à spatialiser et les P vecteurs de base qui ne dépendent que de la fréquence) ; - modélisation des filtres de base Ln et Rn sous forme de filtres IIR ou FIR ;
- calcul de matrices de filtres de gains G dans le domaine des sous-bandes à partir des D valeurs d'ITD
(ces retards TD sont alors considérés comme des filtres FIR destinés à être transposés dans le domaine des sous-bandes, comme on le verra ci-après.
Dans le cas général, G est une matrice de filtres.
Les D coefficients directionnels Cni , Dni à appliquer dans le domaine des sous-bandes sont des scalaires de mêmes valeurs que les Cni et Dni respectivement dans le domaine temporel) ;
- transposition des filtres de base Ln et Rn, initialement sous forme IIR ou FIR, dans le domaine des sous-bandes (cette opération donne des matrices de filtres, notées ci-après Ln et Ra, à appliquer dans le domaine des sous-bandes. La méthode pour effectuer cette transposition est indiquée ci-après) .
On remarquera que les matrices de filtres Gi appliqués de manière indépendante à chaque source " intègrent" une opération classique de calcul de retard pour l'ajout du retard interaural entre un signal Li et un signal R± à restituer. En effet, dans le domaine temporel, on prévoit classiquement des lignes à retard τ± (figure 2) à appliquer à un signal " oreille gauche" par rapport à un signal " oreille droi te" . Dans le domaine des sous-bandes, on prévoit plutôt une telle matrice de filtres Gi , lesquels permettent en outre d'ajuster des gains (par exemple en énergie) de certaines sources par rapport à d' autres .
Dans le cas d'une transmission à partir d'un serveur vers des terminaux de restitution, toutes ces étapes sont effectuées avantageusement hors ligne. Les matrices de filtres ci-avant sont donc calculées une fois puis stockées définitivement en mémoire du serveur. On notera en particulier que le jeu des coefficients de pondération Cni , Dni reste avantageusement inchangé du domaine temporel au domaine des sous-bandes.
Pour des techniques de spatialisation basées sur du filtrage par des filtres HRTFs et ajout du retard ITD (pour " Interaural Time Delay") tel que la synthèse binaurale et transaurale, ou encore des filtres de fonctions de transfert dans le contexte ambisonique, une difficulté s'est présentée pour trouver des filtres équivalents à appliquer sur des échantillons dans le domaine des sous-bandes. En effet, ces filtres issus du banc de filtres d'analyse doivent préferentiellement être construits de manière à ce que les signaux temporels gauche et droite restitués par le banc de filtres de synthèse présentent le même rendu sonore, et sans aucun artefact, que celui obtenu par une spatialisation directe sur un signal temporel . La conception de filtres permettant d'aboutir à un tel résultat n'est pas immédiate. En effet, la modification du spectre du signal apporté par un filtrage dans le domaine temporel ne peut être réalisée directement sur les signaux des sous-bandes sans tenir compte du phénomène de recouvrement de spectre
( " aliasing" ) introduit par le banc de filtres d'analyse.
La relation de dépendance entre les composantes d ' aliasing des différentes sous-bandes est préferentiellement conservée lors de 1 ' opération du filtrage pour que leur suppression soit assurée par le banc de filtres de synthèse .
On décrit ci-après un procédé pour transposer un filtre S(z), de type FIR ou IIR, rationnel (sa transformée en z étant un quotient de deux polynômes) dans le cas d'une décomposition linéaire de HRTFs ou de fonctions de transfert de ce type, dans le domaine des sous-bandes, pour un banc de filtres à M sous-bandes et à échantillonnage critique, défini respectivement par ses filtres d'analyse et de synthèse Hk(z) et Fk(z) , où
0≤k≤M-l. On entend par " échantillonnage cri tique " le fait que le nombre de l'ensemble des échantillons de sorties des sous-bandes correspond au nombre d'échantillons en entrées. Ce banc de filtres est supposé aussi satisfaire à la condition de reconstruction parfaite.
On considère tout d'abord une matrice de transfert S(z) correspondant au filtre scalaire S(z), qui s'exprime comme suit :
Figure imgf000025_0001
où Sfc(2) (O≤k≤M-1) sont les composantes polyphasées du filtre S(z) .
Ces composantes sont obtenues de manière directe pour un filtre FIR. Pour les filtres IIR, une méthode de calcul est indiquée dans :
[1] A. Benjelloun Touimi, "Trai ement du signal audio dans le domaine codé : techniques et applications" thèse de doctorat de l'Ecole Nationale Supérieure des Télécommunications de Paris, (Annexe A, p.141), Mai 2001.
On détermine ensuite des matrices polyphasées, E(z) et R(z), correspondant respectivement aux bancs de filtres d'analyse et de synthèse. Ces matrices sont déterminées définitivement pour le banc de filtres considéré.
On calcule alors la matrice de filtrage complète en sous- bandes par la formule suivante :
Ssb (z) =zκE (z) S (z)R(z) , où zκ correspond à une avance avec K=(L/M)-1 (caractérisant le banc de filtres utilisé), L étant la longueur des filtres d'analyse et de synthèse des bancs de filtres utilisés. On construit ensuite la matrice Ssb(z) dont les lignes sont obtenues à partir de celles de Ssb(z) comme suit : [0 ... Ssb (z) ... Ssbϋ(z) ... Ssb (z) ... 0] ( 0≤n≤M-l) , où : - i est l'indice de la (i+l)ième ligne et compris entre 0 et M-l,
- 1 = i-δ mod[M], où δ correspond à un nombre choisi de sous-diagonales adjacentes, la notation mod [M] correspondant à une opération de soustraction modulo M, - n = i+δ mod [M] , la notation mod [M] correspondant à une opération d'addition modulo M.
On indique que le nombre choisi δ correspond au nombre de bandes qui se recouvrent suffisamment d'un côté avec la bande passante d'un filtre du banc de filtres. Il dépend donc du type de bancs de filtres utilisés dans le codage choisi. A titre d'exemple, pour le banc de filtres MDCT, δ peut être pris égal à 2 ou 3. Pour le banc de filtres Pseudo-QMF du codage MPEG-1, δ est pris égal à 1.
On notera que le résultat de cette transposition d'un filtre à réponse impulsionnelle finie ou infinie au domaine des sous-bandes est une matrice de filtres de taille MxM. Cependant, tous les filtres de cette matrice ne sont pas considérés lors du filtrage en sous-bandes. Avantageusement, seuls les filtres de la diagonale principale et de quelques sous-diagonales adjacentes peuvent être utilisés pour obtenir un résultat similaire à celui obtenu par un filtrage dans le domaine temporel (sans altérer pour autant la qualité de la restitution) . La matrice Ssb(z) résultant de cette transposition, puis réduite, est celle utilisée pour le filtrage en sous- bandes .
A titre d'exemple, on indique ci-après les expression des matrices polyphasées E(z) et R(z) pour un banc de filtres MDCT, largement utilisé dans des codeurs par transformée actuels tels que ceux opérant selon les standards MPEG-2/4 AAC, ou Dolby AC-2 & AC-3, ou TDAC de la Demanderesse. Le traitement ci-après peut aussi bien s'adapter à un banc de filtres de type Pseudo-QMF du codeur MPEG-l/2 Layer I-II.
Un banc de filtres MDCT est généralement défini par une matrice T ≈[tif/] , de taille M χ 2M , dont les éléments s ' expriment comme suit : π f . 1 , M + l ,ι = IΈW cos — k + - 1 + 0≤k≤M -l et 0</ <2 -l
M où h[l] correspond à la fenêtre de pondération dont un choix possible est la fenêtre sinusoïdale qui s ' exprime sous la forme suivante :
h[I] ≈ s / + - 0 ≤l ≤ 2M -l . 2 2M
Les matrices polyphasées d ' analyse et de synthèse sont alors données respectivement par les formules suivantes :
E(z) = T,JM +T0JMz-1 /
R{z) = JMTÏ +JMΥ[z-1 , où JM correspond à la matrice anti-identité de
Figure imgf000028_0001
taille M M et T0 et 1) sont des matrices de taille MxM résultant de la partition suivante :
T=[T„ T,]. On indique que pour ce banc de filtres L = 2M et K- .
Pour des bancs de filtres de type Pseudo-QMF de MPEG-1/2 Layer I-II, on définit une fenêtre de pondération h[i] , i = 0...L-lf et une matrice de modulation en cosinus C = [cu], de taille Mχ2M , dont les coefficients sont donnés par :
, 0≤l≤2M-l et 0≤k≤M-l,
M\ 2 avec les relations suivantes : X =2w et K = 2m-1 où m est un entier. Plus particulièrement dans le cas du codeur MPEG-l/2 Layer I-II, ces paramètres prennent les valeurs suivantes : M =32, L = 512 , m≈ïs et K =15.
La matrice polyphasée d'analyse s'exprime alors comme suit :
E(z)=C " «.M ' 'M-' où g0(z) et & (z) sont des matrices diagonales définies par :
> o(z) = diag[G0(z) Gλ(Z) - GM.,( )], l(z) = diag[GM(z) GM+1(z) - G2M,(z)],
avec G k{-z2) = ∑l(~1) h(2lM + k)z-2' , 0≤k≤2M-l .
1=0 Dans la norme MPEG-1 Audio Layer I-II, on fournit typiquement les valeurs de la fenêtre (-1)' h(2lM + k) , avec 0≤ k ≤ 2M -l , 0 ≤l ≤ m -l .
La matrice polyphasée de synthèse peut alors se déduire simplement par la formule suivante :
R(z) = z-(2ra-,)Er(z-1)
Ainsi, en se référant maintenant à la figure 4 au sens de la présente invention, on procède à un décodage partiel de N sources audio Sι,.../Si,... SN codées en compression, pour obtenir des signaux Sιl ..., Si f ...f SN correspondant préferentiellement à des vecteurs signaux dont les coefficients sont des valeurs affectées chacune à une sous-bande. On entend par " décodage partiel " un traitement permettant d'obtenir à partir des signaux codés en compression de tels vecteurs signaux dans le domaine des sous-bandes. On peut obtenir en outre des informations de position desquelles sont déduites des valeurs respectives de gains Gι f ...f Gi , ..., GN (pour la synthèse binaurale) et des coefficients Cn (pour l'oreille gauche) et Dni (pour l'oreille droite) pour le traitement de spatialisation conformément à l'équation Eq[l] donnée ci-avant, comme le montre la figure 5. Toutefois, le traitement de spatialisation est mené directement dans le domaine des sous-bandes et l'on applique les 2P matrices Ln et Rn de filtres de base, obtenues comme indiqué ci-avant, aux vecteurs signaux Si pondérés par les coefficients scalaires Cni et D„i , respectivement. En se référant à la figure 5, les vecteurs signaux L et R, résultant du traitement de spatialisation dans le domaine des sous-bandes (par exemple dans un système de traitement noté "Système II" sur la figure 4) s'expriment alors par les relations suivantes, dans une représentation par leur transformée en z :
Figure imgf000030_0001
Dans l'exemple représenté sur la figure 4, le traitement de spatialisation est effectué dans un serveur relié à un réseau de communication. Ainsi, ces vecteurs signaux L et R peuvent être recodës complètement en compression pour diffuser les signaux compressés L et R (canaux gauche et droit) dans le réseau de communication et à destination des terminaux de restitution.
Ainsi, une étape initiale de décodage partiel des signaux codés Si est prévue, avant le traitement de spatialisation. Toutefois, cette étape est beaucoup moins coûteuse et plus rapide que l'opération de décodage complet qui était nécessaire dans l'art antérieur (figure 3) . De plus, les vecteurs signaux L et R sont déjà exprimés dans le domaine des sous-bandes et le recodage partiel de la figure 4 pour obtenir les signaux codés en compression L et R est plus rapide et moins coûteux qu'un codage complet tel que représenté sur la figure 3. On indique que les deux traits discontinus verticaux de la figure 5 délimitent le traitement de spatialisation effectué dans le " Système II" de la figure 4. A ce titre, la présente invention vise aussi un tel système comportant des moyens de traitement des signaux partiellement codés Si , pour la mise en œuvre du procédé selon l'invention.
On indique que le document :
[2] "A Generic Framework for Fil tering in Subband Domain" A. Benjelloun Touimi, IEEE 9th Workshop on Digital Signal Processing, Hunt, Texas, USA, Octobre 2000, ainsi que le document [1] cité ci-avant, concernent une méthode générale de calcul d'une transposition dans le domaine des sous-bandes d'un filtre de réponse impulsionnelle finie ou infinie.
On indique en outre que des techniques de spatialisation sonore dans le domaine des sous-bandes ont été proposées récemment, notamment dans un autre document : [3] " Subband-Domain Fil tering of MPEG Audio Signais" , C.A. Lanciani and R. W. Schafer, IEEE Int. Conf. on Acoust., Speech, Signal Proc . , 1999.
Ce dernier document présente une méthode permettant de transposer un filtre à réponse impulsionnelle finie (FIR) dans le domaine des sous-bandes des bancs de filtres pseudo-QMF du codeur MPEG-1 Layer I-II et MDCT du codeur MPEG-2/4 AAC. L'opération de filtrage équivalente dans le domaine des sous-bandes est représentée par une matrice de filtres FIR. En particulier, cette proposition s'inscrit dans le contexte d'une transposition de filtres HRTFs, directement sous leur forme classique et non pas sous la forme d'une décomposition linéaire telle qu'exprimée par l'équation Eq[l] ci-avant et sur une base de filtres au sens de l'invention. Ainsi, un inconvénient de la méthode au sens de ce dernier document consiste en ce que le traitement de spatialisation ne peut pas s'adapter à un nombre quelconque de sources ou de flux audio encodés à spatialiser.
On indique que, pour une position donnée, chaque filtre HRTF (d'ordre 200 pour un FIR et d'ordre 12 pour un IIR) donne lieu à une matrice de filtres (carrée) de dimension égale au nombre de sous-bandes du banc de filtres utilisé. Dans le document [3] cité ci-avant, on doit prévoir un nombre de HRTFs suffisant pour représenter les différentes positions dans l'espace, ce qui pose un problème de taille mémoire si l'on souhaite spatialiser une source à une position quelconque dans l'espace.
En revanche, une adaptation d'une décomposition linéaire des HRTFs dans le domaine des sous-bandes, au sens de la présente invention, ne présente pas ce problème puisque le nombre (P) de matrices de filtres de base Ln et Rn est beaucoup plus réduit. Ces matrices sont alors stockées définitivement dans une mémoire (du serveur de contenu ou du terminal de restitution) et permettent un traitement simultané de spatialisation d'un nombre quelconque de sources, comme représenté sur la figure 5. On décrit ci-après une généralisation du traitement de spatialisation au sens de la figure 5 à d'autres traitements de rendu sonore, tels qu'un traitement dit d' " encodage ambisonique" . En effet, un système de rendu sonore peut se présenter de manière générale sous la forme d'un système de prise de son réel ou virtuel (pour une simulation) consistant en un encodage du champ sonore. Cette phase consiste à enregistrer p signaux sonores de manière réelle ou à simuler de tels signaux (encodage virtuel) correspondant à l'ensemble d'une scène sonore comprenant tous les sons, ainsi qu'un effet de salle.
Le système précité peut aussi se présenter sous la forme d'un système de rendu sonore consistant à décoder les signaux issus de la prise de son pour les adapter aux dispositifs de traducteurs de rendu sonore (tels qu'une pluralité de haut-parleurs ou un casque de type stéréophonique) . On transforme les p signaux en n signaux qui alimentent les n haut-parleurs .
A titre d'exemple, la synthèse binaurale consiste à réaliser une prise de son réel, à l'aide d'une paire de microphones introduit dans les oreilles d'une tête humaine (artificielle ou réelle) . On peut aussi simuler l'enregistrement en réalisant la convolution d'un son monophonique avec la paire de HRTFs correspondant à une direction souhaitée de la source sonore virtuelle. A partir d'un ou plusieurs signaux monophoniques provenant de sources prédéterminées, on obtient deux signaux (oreille gauche et oreille droite) correspondant à une phase dite " d ' encodage binaural " , ces deux signaux étant simplement appliqués ensuite à un casque à deux oreillettes (tel qu'un casque stéréophonique) .
Toutefois, d'autres encodages et décodages sont possibles à partir de la décomposition de filtre correspondant à des fonctions de transfert sur une base de filtres. Comme indiqué ci-avant, les dépendances spatiales et fréquentielles des fonctions de transfert, de type HRTFs, sont séparées grâce à une décomposition linéaire et s'écrivent comme une somme de fonctions spatiales C,.(0,p) et de filtres de reconstruction Lt(f) qui dépendent de la fréquence :
HRTF(θ,φ,f) = C,(θ,φ)I if) ι=l
Toutefois, on indique que cette expression peut être généralisée à tout type d'encodage, pour n sources sonores S.(f) et un format d'encodage comprenant p signaux en sortie, à :
Ei(f) = ∑XiJ(θ,φ).SJ(f), l ≤ i ≤ p Eq[2] =1 où, par exemple dans le cas d'une synthèse binaurale, Xij peut s'exprimer sous la forme d'un produit des filtres de gains Gj et des coefficients Cij, Dij .
On se réfère à la figure 6 sur laquelle N flux audio Sj représentés dans le domaine des sous-bandes après décodage partiel, subissent un traitement de spatialisation, par exemple un encodage ambisonique, pour délivrer p signaux Ei encodés dans le domaine des sous-bandes. Un tel traitement de spatialisation respecte donc le cas général régi par l'équation Eq[2] ci-avant. On remarquera d'ailleurs sur la figure 6 que l'application aux signaux Sj de la matrice des filtres Gy (pour définir le retard interaural ITD) n'est plus nécessaire ici, dans le contexte ambisonique.
De même, une relation générale, pour un format de décodage comprenant p signaux E, ( ) et un format de rendu sonore comprenant m signaux, est donnée par :
Figure imgf000035_0001
Pour un système de rendu sonore donné, les filtres Kji (f) sont fixes et ne dépendent, à fréquence constante, que du système de rendu sonore et de sa disposition par rapport à un auditeur. Cette situation est représentée sur la figure 6 (à droite du trait vertical en pointillés) , dans l'exemple du contexte ambisonique. Par exemple, les signaux Ei encodés spatialement dans le domaine des sous- bandes sont recodés complètement en compression, transmis dans un réseau de communication, récupérés dans un terminal de restitution, décodés partiellement en compression pour en obtenir une représentation dans le domaine des sous-bandes. Finalement, on retrouve, après ces étapes, sensiblement les même signaux Ei décrits ci- avant, dans le terminal. Un traitement dans le domaine des sous-bandes du type exprimé par l'équation Εq[3] permet alors de récupérer m signaux Dj , spatialement décodés et prêts à être restitués après décodage en compression. Bien entendu, plusieurs systèmes de décodage peuvent être agencés en série, selon l'application visée.
Par exemple, dans le contexte ambisonique bidimensionnel d'ordre 1, un format d'encodage avec trois signaux W, X, Y pour p sources sonores s'exprime, pour l'encodage, par :
Figure imgf000036_0001
Pour le décodage " ambisonique " auprès d'un dispositif de restitution à cinq haut-parleurs sur deux bandes de fréquences [0 , f ] et { f , f avec /J=400Hz et f2 correspondant à une bande passante des signaux considérés, les filtres Kβ(f) prennent les valeurs numériques constantes sur ces deux bandes de fréquences, données dans les tableaux I et II ci-après.
Tableau I : valeurs des coefficients définissant les filtres Kβ(f) pour 0 < f ≤ f
Figure imgf000036_0002
Tableau II : valeurs des coefficients définissant les filtres Kβ(f) pour f < f ≤ f2
Figure imgf000037_0001
Bien entendu, des procédés de spatialisation différents (contexte ambisonique et synthèse binaurale et/ou transaurale) peuvent être combinés auprès d'un serveur et/ou auprès d'un terminal de restitution, de tels procédés de spatialisation respectant l'expression générale d'une décomposition linéaire de fonctions de transfert dans l'espace des fréquences, comme indiqué ci-
On décrit ci-après une mise en œuvre du procédé au sens de l'invention dans une application liée à une téléconférence entre terminaux distants .
En se référant à nouveau à la figure 4, des signaux codés (Si) émanent de N terminaux distants. Ils sont spatialisés au niveau du serveur de téléconférence (par exemple au niveau d'un pont audio pour une architecture en étoile telle que représentée sur la figure 8) , pour chaque participant. Cette étape, effectuée dans le domaine des sous-bandes après une phase de décodage partiel, est suivie d'un recodage partiel. Les signaux ainsi codés en compression sont ensuite transmis via le réseau et, dès réception par un terminal de restitution, sont décodés complètement en compression et appliqués aux deux voies gauche et droite 1 et r, respectivement, du terminal de restitution, dans le cas d'une spatialisation binaurale. Au niveau des terminaux, le traitement de décodage en compression permet ainsi de délivrer deux signaux temporels gauche et droit qui contiennent l'information de positions de N locuteurs distants et qui alimentent deux haut-parleurs respectifs (casque à deux oreillettes) . Bien entendu, pour une spatialisation générale, par exemple dans le contexte ambisonique, m voies peuvent être récupérées en sortie du serveur de communication, si 1 ' encodage/décodage en spatialisation sont effectués par le serveur. Toutefois, il est avantageux, en variante, de prévoir l'encodage en spatialisation auprès du serveur et le décodage en spatialisation auprès du terminal à partir des p signaux codés en compression, d'une part, pour limiter le nombre de signaux à véhiculer via le réseau (en général p<m) et, d'autre part, pour adapter le décodage spatial aux caractéristiques de rendu sonore de chaque terminal (par exemple le nombre de haut-parleurs qu'il comporte, ou autres) .
Cette spatialisation peut être statique ou dynamique et, en outre, interactive. Ainsi, la position des locuteurs est fixe ou peut varier au cours du temps . Si la spatialisation n'est pas interactive, la position des différents locuteurs est fixe : l'auditeur ne peut pas la modifier. En revanche, si la spatialisation est interactive, chaque auditeur peut configurer son terminal pour positionner la voix des N autres locuteurs où il le souhaite, sensiblement en temps réel.
En se référant maintenant à la figure 7, le terminal de restitution reçoit Ν flux audio (Si) codés en compression (MPEG, AAC, ou autres) d'un réseau de communication. Après un décodage partiel pour obtenir les vecteurs signaux (Si) , le terminal ("Système JJ") traite ces vecteurs signaux pour spatialiser les sources audio, ici en synthèse binaurale, dans deux vecteurs signaux L et R qui sont ensuite appliqués à des bancs de filtres de synthèse en vue d'un décodage en compression. Les signaux PCM gauche et droit, respectivement 1 et r, résultant de ce décodage sont ensuite destinés à alimenter directement des haut-parleurs . Ce type de traitement s'adapte avantageusement à un système de téléconférence décentralisé (plusieurs terminaux connectés en mode point à point) .
On décrit ci-après le cas d'un " streaming" ou d'un téléchargement d'une scène sonore, notamment dans le contexte de codage en compression selon la norme MPEG-4.
Cette scène peut être simple, ou encore complexe comme souvent dans le cadre de transmissions MPEG-4 où la scène sonore est transmise sous un format structuré. Dans le contexte MPEG-4, le terminal client reçoit, à partir d'un serveur multimédia, un flux binaire multiplexe correspondant à chacun des objets audio primitifs codés, ainsi que des instructions quant à leur composition pour reconstruire la scène sonore. On entend par " objet audio" un flux binaire élémentaire obtenu par un codeur MPEG-4 Audio. La norme MPEG-4 Système fournit un format spécial, appelé "AudioBIFS" (pour "BInary Format for Scène description ") , afin de transmettre ces instructions. Le rôle de ce format est de décrire la composition spatiotemporelle des objets audio. Pour construire la scène sonore et assurer un certain rendu, ces différents flux décodés peuvent subir un traitement ultérieur. Particulièrement, une étape de traitement de spatialisation sonore peut être effectuée.
Dans le format "AudioBIFS", les manipulations à effectuer sont représentées par un graphe. On prévoit les signaux audio décodés en entrée du graphe . Chaque nœud du graphe représente un type de traitement à réaliser sur un signal audio. On prévoit en sortie du graphe les différents signaux sonores à restituer ou à associer à d'autres objets média (images ou autre) .
Les algorithmes utilisés sont mis à jour dynamiquement et sont transmis avec le graphe de la scène. Ils sont décrits sous forme de routines écrites dans un langage spécifique tel que " SAOL" (pour "Structured Audio Score Language") . Ce langage possède des fonctions prédéfinies qui incluent notamment et de façon particulièrement avantageuse des filtres FIR et IIR (qui peuvent alors correspondre à des HRTFs, comme indiqué ci-avant) .
En outre, dans les outils de compression audio fournis par la norme MPEG-4, on trouve des codeurs par transformée utilisés surtout pour la transmission audio haute qualité (monophonique et multivoies). C'est le cas des codeurs AAC et TwinVQ basés sur la transformée MDCT.
Ainsi, dans le contexte MPEG-4, les outils permettant de mettre en œuvre le procédé au sens de l'invention sont déjà présents.
Dans un terminal MPEG-4 récepteur, il suffit alors d'intégrer la couche basse de décodage aux nœuds de la couche supérieure qui assure des traitements particuliers, telle que la spatialisation binaurale par des filtres HRTFs. Ainsi, après décodage partiel des flux binaires audio élémentaires démultiplexés et issus d'un même type de codeur (MPEG-4 AAC par exemple) , les nœuds du graphe "AudioBIFS" qui font intervenir une spatialisation binaurale peuvent être traités directement dans le domaine des sous-bandes (MDCT par exemple). L'opération de synthèse par banc de filtres n'est effectuée qu'après cette étape.
Dans une architecture de téléconférence multipoint centralisée telle que représentée sur la figure 8, entre quatre terminaux dans l'exemple représenté, le traitement des signaux pour la spatialisation ne peut s'effectuer qu'au niveau du pont audio. En effet, les terminaux TER1, TER2 , TER3 et TER4 reçoivent des flux déjà mixés et donc aucun traitement ne peut être réalisé à leur niveau pour la spatialisation.
On comprend qu'une réduction de la complexité de traitement est particulièrement souhaitée dans ce cas. En effet, pour une conférence à N terminaux ( N> 3 ) , le pont audio doit réaliser une spatialisation des locuteurs issus des terminaux pour chacun des N sous-ensembles constitués de (N-l) locuteurs parmi les N participant à la conférence. Un traitement dans le domaine codé apporte bien entendu plus de bénéfice.
La figure 9 représente schématiquement le système de traitement prévu dans le pont audio. Ce traitement est ainsi effectué sur un sous-ensemble de (N-l) signaux audio codés parmi les N en entrée du pont . Les trames audio codés gauche et droit dans le cas d'une spatialisation binaurale, ou les m trames audio codés dans le cas d'une spatialisation générale (par exemple en encodage ambisonique) tel que représenté sur la figure 9, qui résultent de ce traitement sont ainsi transmises au terminal restant qui participe à la téléconférence mais qui ne figure pas parmi ce sous-ensemble (correspondant à un " terminal audi teur") . Au total, N traitements du type décrit ci-avant sont réalisés dans le pont audio (N sous- ensembles de (N-l) signaux codés) . On indique que le codage partiel de la figure 9 désigne l'opération de construction de la trame audio codée après le traitement de spatialisation et à transmettre sur une voie (gauche ou droit). A titre d'exemple, il peut s'agir d'une quantification des vecteurs signaux L et R qui résultent du traitement de spatialisation, en se basant sur un nombre de bits alloué et calculé suivant un critère psychoacoustique choisi. Les traitements classiques de codage en compression après l'application du banc de filtres d'analyse peuvent donc être maintenus et effectués avec la spatialisation dans le domaine des sous-bandes.
Par ailleurs, comme indiqué ci-avant, la position de la source sonore à spatialiser peut varier au cours du temps, ce qui revient à faire varier au cours du temps les coefficients directionnels du domaine des sous-bandes ni et Dπ . La variation de la valeur de ces coefficients se fait préferentiellement de manière discrète.
Bien entendu, la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemples mais elle s'étend à d'autres variantes définies dans le cadre des revendications ci-après.

Claims

Revendications
1. Procédé de traitement de données sonores, pour une restitution spatialisée de signaux acoustiques, dans lequel : a) on obtient, pour chaque signal acoustique, au moins un premier jeu et un second jeu de termes pondérateurs, représentatifs d'une direction de perception dudit signal acoustique par un auditeur ; et b) on applique à au moins deux jeux d'unités de filtrage, disposées en parallèle, lesdits signaux acoustiques, pour délivrer au moins un premier signal de sortie (L) et un second signal de sortie (R) correspondant chacun à une combinaison linéaire des signaux acoustiques pondérés par l'ensemble des termes pondérateurs respectivement du premier jeu { Cni) et du second jeu {Dni) et filtrés par lesdites unités de filtrage, caractérisé en ce que chaque signal acoustique à l'étape a) est au moins partiellement codé en compression et s'exprime sous la forme d'un vecteur de sous-signaux associés à des sous-bandes de fréquences respectives, et en ce que chaque unité de filtrage est agencée pour effectuer un filtrage matriciel appliqué à chaque vecteur, dans l'espace des sous-bandes fréquentielles .
2. Procédé selon la revendication 1, caractérisé en ce que chaque filtrage matriciel est obtenu par conversion, dans l'espace des sous-bandes fréquentielles, d'un filtre représenté par une réponse impulsionnelle dans l'espace temporel .
3. Procédé selon la revendication 2, caractérisé en ce que chaque filtre à réponse impulsionnelle est obtenu par détermination d'une fonction de transfert acoustique dépendant d'une direction de perception d'un son et de la fréquence de ce son.
4. Procédé selon la revendication 3, caractérisé en ce que lesdites fonctions de transfert s'expriment par une combinaison linéaire de termes dépendant de la fréquence et pondérés par des termes dépendant de la direction (Eq[l]) .
5. Procédé selon l'une des revendications précédentes, caractérisé en ce que lesdits termes pondérateurs du premier et du second jeu dépendent de la direction du son.
6. Procédé selon la revendication 5, caractérisé en ce que la direction est définie par un angle azimutal (θ) et un angle d'élévation (φ) .
7. Procédé selon l'une des revendications 2 et 3, caractérisé en ce que le filtrage matriciel s'exprime à partir d'un produit matriciel faisant intervenir des matrices polyphasées (E(z), R(z)) correspondant à des bancs de filtres d'analyse et de synthèse et d'une matrice de transfert (S(z)) dont les éléments sont fonction du filtre à réponse impulsionnelle.
8. Procédé selon l'une des revendications précédentes, caractérisé en ce que la matrice du filtrage matriciel est de forme réduite et comporte une diagonale et un nombre prédéterminé (δ) de sous-diagonales adjacentes, inférieures et supérieures dont les éléments ne sont pas tous nuls.
9. Procédé selon la revendication 8, prise en combinaison avec la revendication 7, caractérisé en ce que les lignes de la matrice du filtrage matriciel s ' expriment par : [0 ... Ssbii(z) ... Ssbϋ(z) ... Ssb in(z) ... 0], où :
- i est l'indice de la (i+l)ième ligne et compris entre 0 et M-l, M correspondant à un nombre total de sous-bandes,
- 1 = i-δ mod [M] , où δ correspond audit nombre de sous- diagonales adjacentes, la notation mod [M] correspondant à une opération de soustraction modulo M,
- n = i+δ mod [M] , la notation mod [M] correspondant à une opération d'addition modulo M, et Ssbij (z) sont les coefficients de ladite matrice produit faisant intervenir les matrices polyphasées des bancs de filtres d'analyse et de synthèse et de ladite matrice de transfert.
10. Procédé selon l'une des revendications 7 à 9, caractérisé en ce que ladite matrice produit s'exprime par Ssb(z) = zκ E(z)S(z)R(z) , où
- zκ est une avance définie par le terme K=(L/M)-1 où L est la longueur de la réponse impulsionnelle des filtres d'analyse et de synthèse des bancs de filtres et M le nombre total de sous-bandes,
- E(z) est la matrice polyphasée correspondant au banc de filtres d'analyse, - R(z) est la matrice polyphasée correspondant au banc de filtres de synthèse, et - S(z) correspond à ladite matrice de transfert.
11. Procédé selon l'une des revendications 7 à 10, caractérisé en ce que ladite matrice de transfert s ' exprime par :
Figure imgf000047_0001
''S -n 5>W S,(z) • 2w z-S M, -2 w z-'S
S ( z) = Λ,f-1 W S,(z) 5M-3W
S,(z)
"^(z) 'V,W $.0
où S (z) sont les composantes polyphasées du filtre à réponse impulsionnelle S(z), avec k compris entre 0 et M-l et M correspondant à un nombre total de sous-bandes.
12. Procédé selon l'une des revendications 7 à 11, caractérisé en ce que lesdits bancs de filtres opèrent en échantillonnage critique.
13. Procédé selon l'une des revendications 7 à 12, caractérisé en ce que lesdits bancs de filtres satisfont à une propriété de reconstruction parfaite.
14. Procédé selon l'une des revendications 2 à 13, caractérisé en ce que le filtre à réponse impulsionnelle est un filtre rationnel, s ' exprimant sous la forme d'une fraction de deux polynômes .
15. Procédé selon la revendication 14, caractérisé en ce que ladite réponse impulsionnelle est infinie.
16. Procédé selon l'une des revendications 8 à 15, caractérisé en ce que ledit nombre prédéterminé (δ) de sous-diagonales adjacentes est fonction d'un type de banc de filtres utilisé dans le codage en compression choisi.
17. Procédé selon la revendication 16, caractérisé en ce que ledit nombre prédéterminé (δ) est compris entre 1 et
5.
18. Procédé selon l'une des revendications 7 à 17, caractérisé en ce que les éléments de matrice (La , Rn) résultant dudit produit matriciel sont stockés dans une mémoire et réutilisés pour tous signaux acoustiques partiellement codés et à spatialiser.
19. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte en outre une étape d) consistant à appliquer un banc de filtres de synthèse auxdits premier (L) et second signaux de sortie (R) , avant leur restitution.
20. Procédé selon la revendication 19, caractérisé en ce qu'il comporte en outre une étape c) préalable à l'étape d) consistant à véhiculer les premier et second signaux dans un réseau de communication, à partir d'un serveur distant et vers un dispositif de restitution, sous forme codée et spatialisée, et en ce que l'étape b) est effectuée auprès dudit serveur distant.
21. Procédé selon la revendication 19, caractérisé en ce qu'il comporte en outre une étape c) préalable à l'étape d) consistant à véhiculer les premier et second signaux dans un réseau de communication, à partir d'un pont audio d'un système de téléconférence multipoints, d'architecture centralisée, et vers un dispositif de restitution dudit système de téléconférence, sous forme codée et spatialisée, et en ce que l'étape b) est effectuée auprès dudit pont audio.
22. Procédé selon la revendication 19, caractérisé en ce qu'il comporte en outre une étape ultérieure à l'étape a) consistant à véhiculer lesdits signaux acoustiques sous forme codée en compression dans un réseau de communication, à partir d'un serveur distant et vers un terminal de restitution, et en ce que les étapes b) et d) sont effectuées auprès dudit terminal de restitution.
23. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'on applique à l'étape b) une spatialisation sonore par synthèse binaurale basée sur une décomposition linéaire de fonctions de transfert acoustiques.
24. Procédé selon la revendication 23, caractérisé en ce que l'on applique en outre, à l'étape b) , une matrice de filtres de gains { G±) à chaque signal acoustique partiellement codé (Si) , en ce que lesdits premier et second signaux de sortie sont destinés à être décodés en des premier et second signaux de restitution (l,r), et en ce que l'application de ladite matrice de filtres de gains revient à appliquer un décalage temporel choisi (ITD) entre lesdits premier et second signaux de restitution.
25. Procédé selon l'une des revendications 1 à 22, caractérisé en ce que l'on obtient, à l'étape a), plus de deux jeux de termes pondérateurs, et en ce que l'on applique aux signaux acoustiques, à l'étape b) , plus de deux jeux d'unités de filtrage, pour délivrer plus de deux signaux de sortie comportant des signaux ambisoniques encodés .
PCT/FR2004/000385 2003-02-27 2004-02-18 Procede de traitement de donnees sonores compressees, pour spatialisation WO2004080124A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE602004001868T DE602004001868T2 (de) 2003-02-27 2004-02-18 Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe
US10/547,311 US20060198542A1 (en) 2003-02-27 2004-02-18 Method for the treatment of compressed sound data for spatialization
EP04712070A EP1600042B1 (fr) 2003-02-27 2004-02-18 Procede de traitement de donnees sonores compressees, pour spatialisation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR03/02397 2003-02-27
FR0302397A FR2851879A1 (fr) 2003-02-27 2003-02-27 Procede de traitement de donnees sonores compressees, pour spatialisation.

Publications (1)

Publication Number Publication Date
WO2004080124A1 true WO2004080124A1 (fr) 2004-09-16

Family

ID=32843028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/000385 WO2004080124A1 (fr) 2003-02-27 2004-02-18 Procede de traitement de donnees sonores compressees, pour spatialisation

Country Status (7)

Country Link
US (1) US20060198542A1 (fr)
EP (1) EP1600042B1 (fr)
AT (1) ATE336151T1 (fr)
DE (1) DE602004001868T2 (fr)
ES (1) ES2271847T3 (fr)
FR (1) FR2851879A1 (fr)
WO (1) WO2004080124A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691578A2 (fr) 2005-02-04 2006-08-16 LG Electronics Inc. Dispositif pour la réalisation de son virtuel tridimensionnel et procédé correspondant
CN101455095B (zh) * 2006-03-28 2011-03-30 法国电信 在变换域中用于有效的双耳声音空间化的方法和装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
KR100754220B1 (ko) 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
EP1994526B1 (fr) * 2006-03-13 2009-10-28 France Telecom Synthese et spatialisation sonores conjointes
EP1994796A1 (fr) * 2006-03-15 2008-11-26 Dolby Laboratories Licensing Corporation Restitution binaurale utilisant des filtres de sous-bandes
US8266195B2 (en) * 2006-03-28 2012-09-11 Telefonaktiebolaget L M Ericsson (Publ) Filter adaptive frequency resolution
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
KR101496760B1 (ko) * 2008-12-29 2015-02-27 삼성전자주식회사 서라운드 사운드 가상화 방법 및 장치
US8639046B2 (en) * 2009-05-04 2014-01-28 Mamigo Inc Method and system for scalable multi-user interactive visualization
CN102577441B (zh) * 2009-10-12 2015-06-03 诺基亚公司 用于音频处理的多路分析
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9491299B2 (en) * 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
FR3009158A1 (fr) * 2013-07-24 2015-01-30 Orange Spatialisation sonore avec effet de salle
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10598506B2 (en) * 2016-09-12 2020-03-24 Bragi GmbH Audio navigation using short range bilateral earpieces
FR3065137B1 (fr) 2017-04-07 2020-02-28 Axd Technologies, Llc Procede de spatialisation sonore

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021386A (en) * 1991-01-08 2000-02-01 Dolby Laboratories Licensing Corporation Coding method and apparatus for multiple channels of audio information representing three-dimensional sound fields
US6470087B1 (en) * 1996-10-08 2002-10-22 Samsung Electronics Co., Ltd. Device for reproducing multi-channel audio by using two speakers and method therefor

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021386A (en) * 1991-01-08 2000-02-01 Dolby Laboratories Licensing Corporation Coding method and apparatus for multiple channels of audio information representing three-dimensional sound fields
US6470087B1 (en) * 1996-10-08 2002-10-22 Samsung Electronics Co., Ltd. Device for reproducing multi-channel audio by using two speakers and method therefor

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LANCIANI C A ET AL: "Psychoacoustically-based processing of MPEG-I layer 1-2 encoded signals", MULTIMEDIA SIGNAL PROCESSING, 1997., IEEE FIRST WORKSHOP ON PRINCETON, NJ, USA 23-25 JUNE 1997, NEW YORK, NY, USA,IEEE, US, 23 June 1997 (1997-06-23), pages 53 - 58, XP010233896, ISBN: 0-7803-3780-8 *
LANCIANI C A ET AL: "SUBBAND-DOMAIN FILTERING OF MPEG AUDIO SIGNALS", 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PHOENIX, AZ, MARCH 15 - 19, 1999, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY: IEEE, US, vol. 2, 15 March 1999 (1999-03-15), pages 917 - 920, XP000900271, ISBN: 0-7803-5042-1 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691578A2 (fr) 2005-02-04 2006-08-16 LG Electronics Inc. Dispositif pour la réalisation de son virtuel tridimensionnel et procédé correspondant
EP1691578A3 (fr) * 2005-02-04 2009-07-15 LG Electronics Inc. Dispositif pour la réalisation de son virtuel tridimensionnel et procédé correspondant
US8005244B2 (en) 2005-02-04 2011-08-23 Lg Electronics, Inc. Apparatus for implementing 3-dimensional virtual sound and method thereof
CN101455095B (zh) * 2006-03-28 2011-03-30 法国电信 在变换域中用于有效的双耳声音空间化的方法和装置

Also Published As

Publication number Publication date
ES2271847T3 (es) 2007-04-16
DE602004001868D1 (de) 2006-09-21
EP1600042B1 (fr) 2006-08-09
FR2851879A1 (fr) 2004-09-03
EP1600042A1 (fr) 2005-11-30
ATE336151T1 (de) 2006-09-15
DE602004001868T2 (de) 2007-03-08
US20060198542A1 (en) 2006-09-07

Similar Documents

Publication Publication Date Title
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
JP5090436B2 (ja) 変換ドメイン内で効率的なバイノーラルサウンド空間化を行う方法およびデバイス
EP2143102B1 (fr) Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d&#39;ordinateur associes
WO2007101958A2 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP2374124A1 (fr) Codage perfectionne de signaux audionumériques multicanaux
FR2875351A1 (fr) Procede de traitement de donnees par passage entre domaines differents de sous-bandes
EP2005420A1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP1695335A1 (fr) Procede de synthese et de spatialisation sonores
EP2319037A1 (fr) Reconstruction de données audio multicanal
EP3935629A1 (fr) Codage audio spatialisé avec interpolation et quantification de rotations
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
EP1994526B1 (fr) Synthese et spatialisation sonores conjointes
WO2006075079A1 (fr) Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles
Touimi et al. Efficient method for multiple compressed audio streams spatialization
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2022003275A1 (fr) Codage optimise d&#39;une information representative d&#39;une image spatiale d&#39;un signal audio multicanal
Pernaux Efficient Method for Multiple Compressed Audio Streams Spatialization

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004712070

Country of ref document: EP

Ref document number: 10547311

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004712070

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2004712070

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10547311

Country of ref document: US