WO2011045506A1 - Traitement de donnees sonores encodees dans un domaine de sous-bandes - Google Patents

Traitement de donnees sonores encodees dans un domaine de sous-bandes Download PDF

Info

Publication number
WO2011045506A1
WO2011045506A1 PCT/FR2010/052119 FR2010052119W WO2011045506A1 WO 2011045506 A1 WO2011045506 A1 WO 2011045506A1 FR 2010052119 W FR2010052119 W FR 2010052119W WO 2011045506 A1 WO2011045506 A1 WO 2011045506A1
Authority
WO
WIPO (PCT)
Prior art keywords
ear
channel
lateral
virtual
channels
Prior art date
Application number
PCT/FR2010/052119
Other languages
English (en)
Inventor
Marc Emerit
Rozenn Nicol
Grégory PALLONE
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to US13/500,955 priority Critical patent/US8976972B2/en
Priority to EP10781956A priority patent/EP2489206A1/fr
Publication of WO2011045506A1 publication Critical patent/WO2011045506A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the invention relates to a sound data processing.
  • a sound data processing In the context of processing sound data in a multichannel format (5.1 or more), we seek to provide a 3D spatialization effect called "Virtual Surround".
  • Such treatments involve filters that aim to reproduce a sound field at the entrances of a person's ear canals. Indeed, a listener is able to locate the sounds in the space with a certain precision, thanks to the perception of the sounds by his two ears.
  • the signals emitted by the sound sources undergo acoustic transformations by spreading to the ears. These acoustic transformations are characteristic of the acoustic channel established between a sound source and a point of the auditory canal of the individual.
  • Each ear has its own acoustic channel, and these acoustic channels depend on the position and orientation of the source relative to the listener, the shape of the head and ear of the listener, but also the acoustic environment (eg a reverberation due to a room effect).
  • These acoustic channels can be modeled by filters commonly called “Head Impulse Responses” or “Head Related Impulse Responses” (HRIR), or “Head Transfer Functions” or HRTF (“Head Related Transfer Functions”). "in English) according to whether we give respectively a representation in the time domain or frequency. Referring to FIG.
  • the HRTFs functions for the left ear and for the right ear are identical for the sources which lie in the median plane (plane P which separates the left half of the right half of the body as illustrated in figure 2).
  • Acoustic indices exploited by the brain to locate sounds are often classified into two families of indices:
  • transaural playback means listening on two remote speakers of audio content initially in a multi-channel format.
  • a stamping channels hereinafter referred to as “downmix” or “downmix”.
  • Downmix processing is a matrix processing that allows to go from N channels to M channels with N> M. It will be considered in the following that a “Downmix” treatment (since it does not take into account spatialisation effects) does not involve a filter based on HRTF functions.
  • "Downmix” processing matrices used in sound reproduction devices (PC, DVD, TV, etc.) have constant coefficients that are independent of time and frequency.
  • SG and SR are respectively left and right stereo output signals
  • EAVG and EAVD are respectively input signals which would have been intended to supply left side speakers AVG and right AVD (illustrated in FIG. 2)
  • E ARG and E ARD are respectively input signals that would have been intended to supply left rear ARG loudspeakers and right ARD rear speakers, located behind the AU listener of FIG. 2,
  • Ec is an input signal that would have been intended to power a central loudspeaker C located in front of the AU listener, and
  • the treatment referred to below as "ITU Downmix” does not allow the precise spatial perception of sound events.
  • a "Downmix” type treatment in general, does not allow spatial perception since it does not involve an HRTF filter.
  • the feeling of immersion that multi-channel content can offer is then lost with headphone listening compared to listening on a system with more than two speakers (for example in the format 5.1 as illustrated in the figure 2).
  • a sound supposed to be emitted by a moving source from the front to the back of the listener is not correctly reproduced on a simply stereo system (on a headset or a pair of high Speakers).
  • a sound present only in the S-channel G (OR SR) and processed by the downmix ITU submix is only output in the left (or right, respectively) atrium in the case of listening. on the headphones, whereas in the case of listening on a system with more than two speakers (for example in the 5.1 format), the right ear (or left, respectively) also perceives a diffraction signal.
  • Downmix binaural a binaural format
  • the virtual loudspeakers are created by the so-called “binaural synthesis” technique.
  • This technique consists in applying sound transfer functions of the head (HRTF) to audio signals monophonic, to obtain a binaural signal that allows, when listening to the headphones, to have the feeling that sound sources come from a particular direction of space.
  • the signal of the right ear is obtained by filtering the monophonic signal by the HRTF function of the right ear and the signal of the left ear is obtained by filtering this same monophonic signal by the HRTF function of the left ear.
  • the resulting binaural signal is then available for headphone listening.
  • FIG. 3A A transfer function defined by a filter is associated with each acoustic path between an ear of the listener and a virtual speaker (placed as recommended in the multi-channel format 5.1 in the example shown).
  • a transfer function defined by a filter is associated with each acoustic path between an ear of the listener and a virtual speaker (placed as recommended in the multi-channel format 5.1 in the example shown).
  • HCg (respectively HCd) is the filter corresponding to an HRTF for the path between the central loudspeaker C and the left ear OG (respectively right OD) of the listener,
  • HGg (respectively HDd) is the filter corresponding to an HRTF called "ipsi- lateral" (ear “illuminated” by the loudspeaker) for the direct path (solid line) between the AVG left lateral loudspeaker (respectively right lateral AVD) and the left ear OG (respectively right OD) of the listener,
  • HGd (respectively HDg) is the filter corresponding to a so-called “contralateral” HRTF (ear in the "shadow” of the head) for the indirect path (in dashed lines) between the left lateral loudspeaker AVG (respectively right lateral AVD) and the right ear OD (respectively left OG) of the listener,
  • HGSg (respectively HDSd) is the filter corresponding to an ipsi-lateral HRTF for the direct path (solid line) between the ARG left rear speaker
  • HDSg is the filter corresponding to a contralateral HRTF for the indirect path (in dashed lines) between the ARG left rear loudspeaker (ARD right rear respectively) and the right OD ear
  • this standard provides an embodiment in which a multi-channel signal is transported in the form of stereo downmix and spatialization parameters (CLD for Channel Level Difference, ICC for Inter-channel). Channel Coherence ", and CPC for" Channel Prediction Coefficient ").
  • CLD Stereo Downmix and spatialization parameters
  • ICC Inter-channel
  • CPC Channel Prediction Coefficient
  • These parameters make it possible, in a first step, to implement stereo expansion downmix processing to three L ', R' and C signals.
  • they allow the expansion of L signals. , R 'and C to obtain 5.1 signals (denoted L, Ls, R, Rs, C and LFE for "Low Frequency Effect").
  • the C and LFE signals are not separated.
  • Signal C is used for binaural Downmix processing. So here, from two monophonic signals, three signals are first constructed (for respective left channels L ', right R' and center C ').
  • channels L and Ls respectively, of the left and right surround virtual speakers in 5.1 format, for sample 1 of the frequency band m in time-frequency transform
  • - is the expression of the spectrum of the HRTF for a path between a right speaker in 5.1 format and the right ear
  • - is the expression of the spectrum of the HRTF for a path between a left loudspeaker in 5.1 format and the left ear
  • the present invention improves the situation.
  • the applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
  • a first advantage that arises from such a construction is the significant reduction in the complexity of the treatments.
  • central virtual speaker transfer functions no longer need to be taken into account.
  • the coefficients of the matrix are no longer expressed as a function of the HRTFs spectra but simply as a function of the spatialization gains of the M channels on the N virtual speakers located in a field. hemisphere around a first ear.
  • contra-lateral relative to the right ear of the listener, deconvolved by an ipsi-lateral transfer function, relating to the left ear, for a virtual left speaker, direct or respectively ambient,
  • contra-lateral relative to the left ear of the listener, deconvolved by an ipsi-lateral transfer function, relative to the right ear, for a virtual right speaker, direct or respectively ambient,
  • ipsi-lateral corresponding to selected interaural delays, and - are selected weights.
  • the coefficient g may have an advantageous value of 0.707 (corresponding to the root of 1/2, when a half energy distribution of the signal of the central loudspeaker is provided on the side loudspeakers), as recommended in the "Downmix ITU" treatment.
  • the matrix filtering is expressed according to a product of matrices of type:
  • the filtering of the contralateral component defined by the counter-lateral transfer function deconvolved by the ipsilateral transfer function makes it possible to reduce the stamp distortion provided by the binauralization processing.
  • a filtering returns to a low-pass filtering delayed by a value corresponding to the interaural delay.
  • the brain perceives, on one ear, the original signal (without treatment) and, on the other ear, the delayed and filtered signal passes low. Beyond the cutoff frequency, the difference in perceived level compared to the diotic listening of the attenuated moose signal of 6dB, is minimal. On the other hand, under the cutoff frequency, the signal is perceived twice as strong. For signals containing frequencies below the cutoff frequency, the difference in timbre will therefore consist of an amplification of the low frequencies.
  • Such de-stamping may advantageously be eliminated simply by high-pass filtering, which may be the same for all HRTFs transfer functions (speaker directions).
  • high-pass filtering which may be the same for all HRTFs transfer functions (speaker directions).
  • the above-mentioned de-stamping can advantageously be applied to the binaural stereo signal resulting from the submixing.
  • an automatic gain control can be advantageously provided at the end of the treatment, so that so that the levels that the Downmix processing and the Binauralization process would deliver in the sense of the invention are Similar.
  • there is provided at the end of the processing chain a high-pass filter and an automatic gain control.
  • a selected gain is also applied to two left-channel and right-channel signals in two-channel representation (binaural or transaural®), before restitution, the selected gain being controlled to limit a signal energy. of left and right channels, at most, to a signal energy of the virtual loudspeakers.
  • preferential automatic gain control is applied to the two left and right channel signals, downstream from the application of the variable frequency weighting factor.
  • the coefficients of the aforementioned matrix and intervening in the matrix filtering vary according to the frequency, according to a weighting of a factor (Gain) chosen and less than one, if the frequency is lower than a threshold chosen, and one if not.
  • the factor is about 0.5 and the chosen frequency threshold is about 500 Hz to eliminate a color distortion.
  • Another advantage provided by the invention is the transport of the encoded signal and its processing with a decoder to improve its sound quality, for example a decoder type MPEG Surround ®.
  • a decoder type MPEG Surround ® for example a decoder type MPEG Surround ®.
  • no transfer function is applied for the direct paths (ipsi-lateral contributions) and additional processing is provided on the indirect paths (spectrum of the counter-lateral transfer function deconvolved by the function ipsi-lateral transfer)
  • the untreated part of the stereo submix ipsilateral contributions
  • the above can be generalized to any type of downmix processing.
  • downmix processing to two channels usually involves applying weighting to the channels (virtual speakers), then summing the N channels to two output signals.
  • Applying binaural spatialization processing to Downmix processing involves applying to the N weighted channels the HRTF filters corresponding to the positions of the N virtual speakers. Since these filters are equal to 1 for the ipsi-lateral contributions, we find the Downmix treatment by applying the sum of the ipsi-lateral contributions.
  • the signals obtained by a binauralization processing in the sense of the invention are presented as being derived from a sum of Downmix type signals and a stereo signal comprising the localization indices necessary for the brain to perceive the spatialization of the sounds.
  • This second signal is hereinafter referred to as "Downmix Binaural Additionnel", so that the treatment in the sense of the invention here called “Downmix Binaural” is such that:
  • a can be a coefficient between 0 and 1.
  • a listener user can choose the level of coefficient a between 0 and 1, continuously or by switching between 0 and 1 (in "ON-OFF" mode). . So, we can choose a a weighting of the second treatment "Downmix Binaural Additional" global processing using matrix filtering within the meaning of the invention.
  • This embodiment has the advantage of requiring only a low bandwidth for the transmission of the results of Downmix and DBA processing, from an encoder to a decoder as shown in FIG. 7 described below, by only requesting the bit rate if the result of the DBA treatment is significant compared to the result of the Downmix.
  • 0; 0.25; 0.5; 0.75; 1.
  • This additional signal requires only a small amount of flow to transport it. Indeed, it presents itself as a residual signal, filtered low-pass and thus a priori much less energetic than the Downmix signal. In addition, it has redundancies with the Downmix signal. This property can be exploited advantageously in conjunction with Dolby Surround, Dolby Prologic or MPEG Surround type codecs.
  • the "Downmix Binaural Additional" signal can then be compressed and transported additionally and / or scalable to the Downmix signal, with little bit rate.
  • the addition of the two stereo signals allows the listener to take full advantage of the binaural signal with a quality very close to a 5.1 format.
  • a second processing leading when executed in conjunction with the first processing, to a spatialization of the N virtual loudspeakers respectively associated with the N channels to obtain a bi-channel, binaural or transaural representation.
  • the application of the second processing is decided optionally (for example as a function of the bit rate, the spatialized rendering capabilities of a terminal, or others).
  • the first aforementioned treatment can be applied in an encoder communicating with a decoder, while the second treatment is advantageously applied to the decoder.
  • the treatment management in the sense of the invention may advantageously be conducted by a computer program comprising instructions for implementing the method according to the invention, when this program is executed by a processor, for example with a decoder in particular .
  • the invention also aims at such a program.
  • the present invention also relates to a module equipped with a processor and a memory and capable of executing this computer program.
  • a module in the sense of the invention for the processing of sound data encoded in a subband domain, for binaural or transaural® bi-channel rendering, then comprises means for applying matrix filtering to switch from a representation.
  • N channel sound with N> 0, to a two-channel representation.
  • the N-channel sound representation consists of considering N virtual loudspeakers surrounding a listener's head, and, for each virtual loudspeaker of at least part of the loudspeakers:
  • the applied matrix filtering comprises a multiplicative coefficient defined by the spectrum, in the field of the subbands, of the second transfer function deconvolved by the first transfer function.
  • Such a module may advantageously be a decoder of the MPEG Surround® type and furthermore include decoding means of the MPEG Surround® type, or may alternatively be implanted in such a decoder.
  • FIG. 1 shows schematically a restitution on two speakers around the head of a listener
  • FIG. 2 shows schematically a reproduction of five speakers in 5.1 multi-channel format
  • FIG. 3A schematically represents the ipsilateral (solid lines) and counter-lateral (dashed lines) paths in multi-channel 5.1 format;
  • FIG. 3B shows a prior art processing scheme for switching from a multi-channel 5.1 format illustrated in Fig. 3A to a binaural or transaural format
  • FIG. 4A schematically represents the ipsilateral (solid lines) and contra-lateral (dashed lines) paths in multi-channel 5.1 format, with the ipsilateral and counter-lateral paths of the central loudspeaker;
  • FIG. 4B represents a processing diagram for the transition from a multi-channel 5.1 format illustrated in FIG. 4A to a binaural or transaural format, with only four filters in an embodiment within the meaning of the invention;
  • FIG. 5 illustrates a treatment equivalent to the application of one of the filters of FIG. 4B
  • FIG. 6 illustrates an additional processing of high pass filtering and automatic gain control to be applied to the outputs SG and SD to avoid a color distortion and a difference in tone between a "downmix" treatment and a treatment according to the invention. invention
  • FIG. 7 illustrates the situation of a treatment in the sense of the invention, made with the encoder in an exemplary embodiment of the invention, particularly in the case of an additional DBA treatment to be combined with the Downmix treatment.
  • FIG. 4A is firstly described to describe an example of implementation of the processing to switch from a multi-channel representation (format 5.1 in the example described) to a binaural or transaural stereo two-channel representation. .
  • a multi-channel representation format 5.1 in the example described
  • a binaural or transaural stereo two-channel representation format 5.1 in the example described
  • five speakers configured in 5.1 format are illustrated:
  • the channels associated with speaker positions for example the AVG and ARG loudspeakers of FIG. 4A
  • speaker positions for example the AVG and ARG loudspeakers of FIG. 4A
  • first hemisphere with respect to the listener that of the left ear OG
  • second hemisphere relative to the listener that of his right ear OD
  • first and second hemispheres are separated by the median plane of the listener.
  • the additional treatment preferably comprises the application of filtering (C / I) AVG, (C / I) A VD, (C / I) ARG, (C / I) ARD (FIG. 4B) defined, in the coded domain (or transformed) by the spectrum of a counter-lateral acoustic transfer function deconvolved by an ipsilateral transfer function.
  • the ipsi-lateral transfer function is associated with a direct acoustic path Uvc IAVD, RG, URD (FIG.
  • the spatialization of the virtual speaker is provided by a pair of transfer functions HRTF (expressed in the frequency domain) or HRIR (expressed in the time domain). These transfer functions translate the ipsi-lateral path (direct path between the loudspeaker and the closest ear in solid lines in FIG. 4 A) and the contra-lateral path (path between the loudspeaker and the ear masked by the listener's head in dashed lines in Figure 4A).
  • the filter associated with the ipsi-lateral path is advantageously omitted and a filter corresponding to the transfer function is used for the contra-lateral path. counter-lateral deconvolved by the ipsilateral transfer function. Thus, for each virtual speaker (except the central speaker C), only one filter is used.
  • the referenced filter (C / I) ARG is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the rear left speaker ARG and the right ear OD deconvolved by the function of ipsi-lateral transfer of the path between the left rear loudspeaker ARG and the left ear OG of the individual, - the filter referenced (C / I) A RD is defined, in the transformed domain, by the spectrum of the function counter-lateral transfer of the path between the rear right speaker
  • a VG is defined in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the left lateral loudspeaker AVG and the right ear OD deconvolved by the ipsilateral transfer function of the path between the AVG left lateral speaker and the left ear OG of the individual, and
  • the referenced filter (C / I) AVD is defined, in the transformed domain, by the spectrum of the counter-lateral transfer function of the path between the right lateral loudspeaker AVD and the left ear OG deconvolved by the function of ipsilateral lateral transfer of the path between the right lateral speaker AVD and the right ear OD of the individual.
  • the signal which, in encoding 5.1, is intended to supply the central loudspeaker C (in the median plane of symmetry of the listener's head), is distributed in two fractions (preferably equal to 50% and 50%) on two channels adding to two respective channels of the left and right side speakers.
  • the associated signal is mixed with the signals associated with the ARG left rear speaker and ARD right rear speaker.
  • central loudspeakers front speaker for a reproduction of the midrange frequencies, front speaker for a reproduction of low frequencies, or other
  • the channel associated with a central speaker position C, in the median plane is divided into a first and a second signal fraction, respectively added to the AVG speaker channel in the first hemisphere (around the ear left OG) and to the AVD loudspeaker channel in the second hemisphere (around the right ear OD), it is not necessary to provide for filtering by the transfer functions associated with the loudspeakers in the plane median, without any change in the perception of the spatialization of the sound stage in binaural or transaural restitution.
  • the processing complexity is greatly reduced since the filters associated with the loudspeakers located in the median plane are removed. Another advantage is that the coloring effect of the associated signals is reduced.
  • the spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined in the transformed domain by:
  • the spectrum of the contralateral transfer function deconvolved by the ipsilateral transfer function can be defined, in the transformed domain, by: and being the gain and the phase of the
  • each filter is equivalent to applying:
  • an equalizer filter 1 preferably of the low-pass type
  • interaural delay (or "ITD") 10 to take account of the differences in path between a virtual source and each ear
  • the unfiltered signal components possibly an attenuation 12 with respect to the unfiltered signal components (for example the AVG component on the SG channel of FIG. 4B).
  • the applied ITD delay is “substantially” interaural, the term “substantially” referring in particular to the fact that the strict morphology of the listener may not be rigorously taken into account (eg if HRTFs are used by default, including HRTFs called “Kemar head”).
  • the binaural synthesis of a virtual loudspeaker consists simply of playing without modification the input signal on the relative ipsi-lateral channel (channel SG in FIG. 4B) and to apply to the signal to be played on the counter-lateral channel (SD channel in FIG. 4B) a corresponding AVG filter (C / I) in application of delay, attenuation and low-pass filtering.
  • the resulting signal is delayed, attenuated and filtered by eliminating the high frequencies, which results, from the point of view of auditory perception, in masking the signal received by the "counter-lateral" ear (OD, in the example where the virtual speaker is the left side AVG), relative to the signal received by the "ipsi-lateral” ear (OG).
  • the coloration that can be perceived is therefore directly that of the signal received by the ipsilateral ear.
  • this signal undergoes no transformation and, therefore, the treatment in the sense of the invention should provide only a weak coloration.
  • a processing of the output signals SG and SD of FIG. 4B can be provided consisting in applying a high-pass filter FPH followed by an automatic gain control AGC.
  • the high-pass filter is equivalent to applying the "Gain" factor described above, with:
  • Gain 0.5 if the frequency f is less than 500 Hz and
  • this factor is applied globally at the output of the signals SG and SD, alternatively from an individual application to each coefficient of the matrix explained below.
  • the automatic gain control is calibrated on the overall intensity of the signals corresponding to the Downmix treatment, given by:
  • the gains g and g s are applied globally to the signal C for the gain g and to the signals ARG and ARD for the gain g s .
  • the energy of the left channel signals S'G and the right channel S ' D is thus limited at the end of this treatment, to the maximum, to the overall energy I D 2 of the signals from the top virtual speakers.
  • the recovered signals S 'G and S'D can finally be routed to a sound reproduction device in binaural stereophonic mode.
  • the overall intensity of the signals is usually calculated directly from the energy of the input signals.
  • this data will be taken into account for the estimation of the intensity l D.
  • the implementation of the invention results in a suppression of monaural location indices.
  • the more a source deviates from the median plane the more the interaural indices become predominant to the detriment of the monaural indices.
  • the angle between the side speakers (or between the rear speakers) is greater than 60 °, Monaural clues have little influence on the perceived position of the virtual speakers.
  • the difference perceived here is less than the difference that the listener could perceive from the fact that the HRTFs used would not be specific to him (for example models of HRTFs drawn from the so-called "Kemar head” technique). .
  • the spatial perception of the signal is respected, and this, without bringing color and retaining the timbre of the sound sources.
  • the solution within the meaning of the present invention divides the number of filters to provide substantially by two and further corrects the coloring effects.
  • the choice of the position of the virtual loudspeakers can significantly influence the quality of the result of the spatialization. Indeed, it has proved preferable to place the virtual speakers side and rear +/- 45 ° with respect to the median plane, rather than +/- 30 ° of the median plane according to the configuration recommended by the International Telecommunications Union (ITU). Indeed, when the virtual speakers approach the median plane, the ipsi-lateral and contra-lateral HRTF functions tend to resemble each other and the previous simplifications may no longer give a satisfactory spatialization.
  • ITU International Telecommunications Union
  • the position of a lateral loudspeaker is advantageously in an angular sector of 10 ° to 90 ° and preferably 30 to 60 ° from a plane of symmetry P and facing the face of the listener. More particularly, the position of a lateral loudspeaker will preferably be close to 45 ° from the plane of symmetry.
  • a processing module within the meaning of the invention 72 intervenes directly downstream of an encoder 71, to deliver, as indicated previously, processed data according to a treatment of the type:
  • Downmix + ⁇ DBA (with DBA for "Downmix Binaural Additional").
  • DBA Downmix Binaural Additional
  • the coefficients of the matrix are such that:
  • the global processing matrix H 1 1, k is still expressed as the sum of two matrices:, with
  • the matrix consists of applying function-based filtering
  • the present invention is not limited to the embodiment described before by way of example; it extends to other variants.
  • it has been described above the case of a processing of two initial stereo signals to encode and spatialize to binaural stereo and passing through a 5.1 spatialization.
  • the SG and SD channels of FIG. 4B may furthermore undergo dynamic low-pass filtering of the Dolby® or other type.
  • the present invention also relates to a MOD module (FIG. 4B) for processing sound data, for the transition from a multi-channel format to a binaural or transaural format, in the transformed domain, the elements of which could be those illustrated in FIG. 4B.
  • a module then comprises processing means, such as a PROC processor and a MEM working memory, for the implementation of the invention. It can be implemented in any type of decoder, including a sound reproduction device (PC, walkman, mobile phone, or other) and possibly movie viewing. Alternatively, the module may be designed to operate separately from the restitution, for example to prepare binaural or transaural format content, for subsequent decoding.
  • the present invention also relates to a computer program, downloadable via a telecommunication network and / or stored in a memory of a processing module of the aforementioned type and / or stored on a memory medium intended to cooperate with a reader of such a module processing, and comprising instructions for the implementation of the invention, when they are executed by a processor of said module.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

L'invention concerne le traitement de données sonores encodées dans un domaine de sous-bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal. Cette représentation sonore à N canaux consiste à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs : une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur. Le filtrage matriciel appliqué au sens de l'invention comporte un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.

Description

Traitement de données sonores encodées dans un domaine de sous-bandes
L'invention concerne un traitement de données sonores. Dans le contexte du traitement de données sonores dans un format multicanal (5.1 ou plus), on cherche à procurer un effet de spatialisation 3D appelé « Virtual Surround ». De tels traitements impliquent des filtres qui visent à reproduire un champ sonore aux entrées des conduits auditifs d'une personne. En effet, un auditeur est capable de localiser les sons dans l'espace avec une certaine précision, grâce à la perception des sons par ses deux oreilles. Les signaux émis par les sources sonores subissent des transformations acoustiques en se propageant jusqu'aux oreilles. Ces transformations acoustiques sont caractéristiques du canal acoustique s'établissant entre une source sonore et un point du conduit auditif de l'individu. Chaque oreille possède son propre canal acoustique, et ces canaux acoustiques dépendent de la position et de l'orientation de la source relativement à l'auditeur, de la forme de la tête et de l'oreille de l'auditeur, mais aussi de l'environnement acoustique (par exemple une réverbération due à un effet de salle). Ces canaux acoustiques peuvent être modélisés par des filtres appelés communément "Réponses Impulsionnelles de la tête" ou HRIR (pour "Head Related Impulse Responses" en anglais), ou encore "Fonctions de transferts de la tête" ou HRTF ("Head Related Transfer Functions" en anglais) selon que l'on en donne respectivement une représentation dans le domaine temporel ou encore fréquentiel. En référence à la figure 1, on a représenté un chemin "direct" CD d'une source HPl à l'oreille (gauche) OG de l'auditeur AU (vu de dessus), cette oreille OG étant située directement en regard de la source HPl. On a représenté aussi un chemin "croisé" CC entre une source HP2 et cette même oreille OG de l'auditeur AU, le chemin CC traversant la tête TET de l'auditeur AU car la source HP2 est disposée de l'autre côté du plan médian P par rapport à la source HP2. Dans un milieu sans réverbération (par exemple une chambre anéchoïque), en considérant que les visages humains sont symétriques, les fonctions HRTFs pour l'oreille gauche et pour l'oreille droite (dites ci-après respectivement "HRTF gauche" et "HRTF droite") sont identiques pour les sources qui se situent dans le plan médian (plan P qui sépare la moitié gauche de la moitié droite du corps comme illustré sur la figure 2). Les indices acoustiques exploités par le cerveau pour localiser les sons sont souvent classés en deux familles d'indices :
les indices dits "monauraux" concernant la localisation d'un son à partir d'une seule oreille, et
- les indices dits " interauraux" concernant la localisation d'un son par le cerveau en exploitant les différences entre les signaux perçus à l'oreille gauche et l'oreille droite.
On décrit ci-après des techniques connues de traitement de données sonores au format multi-canal (par exemple à plus de deux haut-parleurs) en vue d'une restitution sur deux haut-parleurs seulement, par exemple sur un casque avec un effet de spatialisation 3D.
On entend alors par les termes « restitution binaurale » l'écoute sur casque de contenus audio initialement au format multi-canal (par exemple au format 5.1 , ou d'autres formats délivrant plus de deux voies), ces contenus audio étant traités notamment avec un mixage des canaux pour délivrer seulement deux signaux alimentant, en configuration dite "binaurale", les deux mini haut-parleurs (ou "oreillettes") d'un casque classique stéréophonique). Ainsi, dans la transformation d'un format "multi- canal" vers un format "binaural", on cherche à offrir une qualité de spatialisation et d'immersion au casque proche ou équivalente à celle obtenue avec un système de restitution multi-canal comportant autant de haut-parleurs distants que de canaux. Par ailleurs, on entend par les termes « restitution transaurale® » l'écoute sur deux haut- parleurs distants de contenus audio initialement dans un format multi-canal. Classiquement, pour une écoute d'un contenu audio au format multi-canal 5.1 sur un casque stéréophonique ou sur une paire de haut-parleurs, on effectue un matriçage des canaux, appelé ci-après "sous-mixage" ou "Downmix". Un traitement "Downmix" est un traitement matriciel qui permet de passer de N canaux à M canaux avec N>M. On considérera dans la suite qu'un traitement "Downmix" (dès lors qu'il ne tient pas compte d'effets de spatialisation) ne fait pas intervenir de filtre à base de fonctions HRTF. En général, les matrices du traitement "Downmix" utilisées dans des appareils de restitution sonore (ordinateur PC, lecteur de DVD, télévision, ou autres) ont des coefficients constants qui ne dépendent ni du temps ni de la fréquence. Des traitements "Downmix" récents présentent maintenant des matrices dont les coefficients dépendent du temps et de la fréquence et sont ajustés à chaque instant en fonction d'une représentation temps et fréquence des signaux d'entrée. Ce type de matrice permet par exemple d'éviter que les signaux d'entrées s'annulent en s'additionnant. Une version à matrice constante d'un traitement de type "Downmix", nommé "Downmix ITU", a été normalisée par l'Union Internationale des Télécommunications ou "ITU" (pour "International Télécommunication Union"). Ce traitement est appliqué par la mise en œuvre des équations suivantes :
SG = EAVG + Ec * 0,707 + EARG * 0,707
SR = EAVD + Ec * 0,707 + EARD * 0,707,
où :
SG et SR sont respectivement des signaux stéréo de sortie de gauche et de droite, EAVG et EAVD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs latéraux gauche AVG et droit AVD (illustrés sur la figure 2),
- EARG et EARD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs arrière gauche ARG et arrière droit ARD, situés derrière l'auditeur AU de la figure 2,
Ec est un signal d'entrée qui aurait été destiné à alimenter un haut-parleur central C situé en face de l'auditeur AU, et
- 0,707 représente une approximation de la racine carrée de 1/2. On peut considérer de tels gains comme des gains appliqués aux haut-parleurs.
A titre d'exemple, le traitement dit ci-après "Downmix ITU" ne permet pas la perception spatiale précise des événements sonores. Comme indiqué précédemment d'ailleurs, un traitement de type "Downmix", de façon générale, ne permet pas la perception spatiale puisqu'il ne fait pas intervenir de filtre HRTF. Le sentiment d'immersion que peuvent offrir les contenus au format multi-canal est alors perdu avec une écoute au casque par rapport à l'écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1 comme illustré sur la figure 2). A titre d'exemple, un son supposé être émis par une source mobile de l'avant vers l'arrière de l'auditeur, n'est pas correctement restitué sur un système simplement stéréo (sur un casque à oreillettes ou une paire de haut-parleurs). En outre, un son présent uniquement dans le canal SG (OU SR) et traité par le sous-mixage " Downmix ITU" n'est restitué que dans l'oreillette gauche (ou droite, respectivement) dans le cas d'une écoute au casque, alors que dans le cas d'une écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1), l'oreille droite (ou gauche, respectivement) perçoit, elle aussi, un signal par diffraction.
Afin de pallier ces inconvénients, le procédé de sous-mixage vers un format binaural, dit "Downmix binaural", a été développé. Il consiste à placer virtuellement cinq (ou plus) haut-parleurs dans un environnement sonore restitué sur deux voies seulement, comme si cinq sources (ou plus) étaient à spatialiser pour une restitution binaurale.
Ainsi, un contenu au format multi-canal est diffusé sur des haut-parleurs "virtuels" dans un contexte de restitution binaurale. Les utilisations d'une telle technique se retrouvent actuellement principalement dans les lecteurs DVD (sur ordinateurs PC, sur des télévisions, sur des lecteurs de salon, ou autres), et bientôt sur les terminaux mobiles pour la lecture de données télévisuelles ou vidéo.
Dans le procédé "Downmix binaural", les haut-parleurs virtuels sont créés par la technique dite de "synthèse binaurale". Cette technique consiste à appliquer des fonctions de transfert acoustique de la tête (HRTF), à des signaux audio monophoniques, afin d'obtenir un signal binaural qui permet, lors d'une écoute au casque, d'avoir la sensation que les sources sonores proviennent d'une direction particulière de l'espace. Le signal de l'oreille droite est obtenu en filtrant le signal monophonique par la fonction HRTF de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la fonction HRTF de l'oreille gauche. Le signal binaural résultant est alors disponible pour une écoute sur casque.
Cette mise en œuvre est illustrée sur la figure 3A. Une fonction de transfert définie par un filtre est associée à chaque chemin acoustique entre une oreille de l'auditeur et un haut-parleur virtuel (placé comme préconisé dans le format multi-canal 5.1 dans l'exemple représenté). Ainsi, en référence à la figure 3B, pour dix chemins acoustiques en tout :
- HCg (respectivement HCd) est le filtre correspondant à une HRTF pour le chemin entre le haut-parleur central C et l'oreille gauche OG (respectivement droite OD) de l'auditeur,
HGg (respectivement HDd) est le filtre correspondant à une HRTF dite "ipsi- latérale" (oreille "éclairée" par le haut-parleur) pour le chemin direct (en trait plein) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur,
- HGd (respectivement HDg) est le filtre correspondant à une HRTF dite "contra- latérale" (oreille dans "l'ombre" de la tête) pour le chemin indirect (en traits pointillés) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille droite OD (respectivement gauche OG) de l'auditeur,
HGSg (respectivement HDSd) est le filtre correspondant à une HRTF ipsi-latérale pour le chemin direct (en trait plein) entre le haut-parleur arrière gauche ARG
(respectivement arrière droit ARD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur, et
- HGSd (respectivement HDSg) est le filtre correspondant à une HRTF contra- latérale pour le chemin indirect (en traits pointillés) entre le haut-parleur arrière gauche ARG (respectivement arrière droit ARD) et l'oreille droite OD
(respectivement gauche OG) de l'auditeur. Un inconvénient de cette technique est sa complexité puisqu'il faut deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra- latérale), donc dix filtres en tout dans le cas d'un format 5.1.
Le problème est accru lorsqu'il s'agit de manipuler ces fonctions de transfert au cours de différents traitements tels que ceux selon la norme MPEG et en particulier le traitement appelé « MPEG surround » ®. En effet, en référence au point 6.1 1.4.2.2.2 du document « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/IEC JTC 1/SC 29 (21 juillet 2006), on prévoit un filtrage matriciel, dans le domaine des sous-bandes m (notées aussi k(k) ici), du type :
Figure imgf000008_0001
pour passer de deux signaux monophoniques à des signaux stéréophoniques en représentation binaurale.
En effet, cette norme prévoit un mode de réalisation dans lequel un signal multi-canal est transporté sous la forme d'un mixage (downmix) stéréo et de paramètres de spatialisation (notés CLD pour "Channel Level Différence", ICC pour "Inter-Channel Cohérence", et CPC pour "Channel Prédiction Coefficient"). Ces paramètres permettent dans une première étape de mettre en œuvre un traitement d'expansion du mixage (ou « downmix ») stéréo vers trois signaux L', R' et C. Dans une seconde étape, ils permettent l'expansion des signaux L', R' et C pour obtenir des signaux 5.1 (notés L, Ls, R, Rs, C et LFE pour « Low Frequency Effect »). Dans le mode binaural, les signaux C et LFE ne sont pas séparés. Le signal C est utilisé pour le traitement de Downmix binaural. Donc ici, à partir de deux signaux monophoniques, on construit d'abord trois signaux (pour des canaux respectifs gauche L', droit R' et centre C'). Ainsi, la notation
Figure imgf000009_0001
désigne une matrice de traitement d'expansion de signaux stéréo vers ces trois canaux. Les traitements suivants sont ensuite :
* un traitement d'expansion de ces trois canaux vers N canaux en configuration multi- canal, par exemple 5 canaux en format 5.1, et
* un traitement de spatialisation de N haut-parleurs virtuels respectivement associés à ces N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :
, pour le trajet d'un haut-parleur central associé au canal précité C
Figure imgf000009_0002
vers l'oreille gauche, , pour le trajet du haut-parleur associé au
Figure imgf000009_0003
central C vers l'oreille droite, our les trajets ipsi-latéraux vers l'oreille gauche,
Figure imgf000009_0004
, pour les trajets contra-latéraux vers
Figure imgf000009_0005
l'oreille gauche,
¾ , pour les trajets contra-latéraux vers
Figure imgf000009_0006
l'oreille droite, , pour les trajets ipsi-latéraux vers l'oreille
Figure imgf000009_0007
droite,
où :
et représentent des gains relatifs à appliquer au signal du canal L' pour
Figure imgf000009_0008
définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance au format 5.1, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence,
- ou représentent des gains relatifs à appliquer au signal du canal R' pour
Figure imgf000009_0009
Figure imgf000009_0010
définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance au format 5.1, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,
Figure imgf000010_0002
et
Figure imgf000010_0003
sont des déphasages correspondant à des retards interauraux, et
Figure imgf000010_0004
sont des pondérations telles que :
Figure imgf000010_0001
On retiendra en particulier que :
- est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille gauche d'un auditeur, - est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille droite d'un auditeur, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur
Figure imgf000010_0005
gauche d'ambiance au format 5.1 et l'oreille gauche,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche d'ambiance au format 5.1 et l'oreille droite,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit d'ambiance au format 5.1 et l'oreille gauche,
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur
Figure imgf000010_0006
droit d'ambiance au format 5.1 et l'oreille droite,
est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur - droit au format 5.1 et l'oreille gauche, et
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit au format 5.1 et l'oreille droite, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche au format 5.1 et l'oreille gauche, et
- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur
Figure imgf000011_0001
gauche au format 5.1 et l'oreille droite.
On retrouve ainsi dix filtres associés aux fonctions de transfert HRTFs précitées pour le format 5.1 vers une représentation binaurale dans cet exemple. Il s'en suit le problème complexité que pose cette technique, nécessitant deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra-latérale).
La présente invention vient améliorer la situation.
A cet effet, elle propose tout d'abord un procédé de traitement de données sonores encodées dans un domaine de sous-bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, cette représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur.
Avantageusement, le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.
Un premier avantage qui découle d'une telle construction est la réduction significative de la complexité des traitements. Déjà, comme on le verra en détail plus loin, les fonctions de transfert du haut-parleur virtuel central n'ont plus besoin d'être prises en compte. Ainsi, il n'est pas nécessaire de prendre en compte les fonctions de transfert de tous les haut-parleurs virtuels, mais d'une partie seulement des haut-parleurs virtuels.
Une autre simplification qui découle de la construction au sens de l'invention est qu'il n'est plus nécessaire de prévoir de fonction de transfert pour les trajets ipsi-latéraux. Par exemple, dans le cas d'un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi-canal (binaurale ou transaurale), en passant par une représentation intermédiaire sur les N canaux, avec N>2, comme dans le cas de la norme décrite ci-avant, les coefficients de la matrice s'expriment, pour un trajet contra- latéral, notamment en fonction de gains de spatialisation respectifs des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille. Toutefois, de façon avantageuse, pour un trajet ipsi-latéral, les coefficients de la matrice ne s'expriment plus en fonction des spectres de HRTFs mais simplement en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille.
Ainsi, si la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut-parleur virtuel d'ambiance comme dans le « virtual surround », les coefficients de la matrice s'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (par exemple de type « P MF » pour « Pseudo-Quadrature Mirror Filters »), par :
Figure imgf000012_0001
Si les fonctions HRTF sont symétriques on a
Figure imgf000012_0002
- pour les trajets contra- latéraux vers
Figure imgf000013_0001
l'oreille gauche ;
- , pour les trajets contra- latéraux vers
Figure imgf000013_0002
l'oreille droite ; " seulement, pour les trajets ipsi-latéraux vers l'oreille
Figure imgf000013_0003
gauche ;
- seulement, pour les trajets ipsi-latéraux vers l'oreille droite,
Figure imgf000013_0004
où :
- et représentent des gains relatifs à appliquer à un même premier signal
Figure imgf000013_0005
(par exemple le signal du canal L' dans une configuration initiale à trois canaux, comme décrit ci-avant) pour définir des canaux L et Ls respectivement des haut- parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,
- ou
Figure imgf000013_0006
représentent des gains relatifs à appliquer à un même deuxième signal (par exemple le canal R') pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence,
- ou est l'expression du spectre de la fonction de transfert de type HRTF
Figure imgf000013_0007
contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance,
- ou est l'expression du spectre de la fonction de transfert de type HRTF
Figure imgf000013_0008
Figure imgf000013_0009
contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance,
- et sont des déphasages entre fonctions de transfert contra-latérale et
Figure imgf000013_0010
Figure imgf000013_0011
ipsi-latérale correspondant à des retards interauraux choisis, et -
Figure imgf000014_0003
sont des pondérations choisies.
Typiquement, le coefficient g peut avoir une valeur avantageuse de 0,707 (correspondant à la racine de 1/2, lorsqu'on prévoit une répartition en énergie de moitié du signal du haut-parleur central sur les haut-parleurs latéraux), comme préconisé dans le traitement « Downmix ITU ».
Plus précisément, par la mise en œuvre de l'invention, le filtrage matriciel s'exprime selon un produit de matrices de type :
Figure imgf000014_0001
ou :
- Wl,m représente la matrice de traitement d'expansion de signaux stéréo vers M' cana x, avec M'>2 (par exemple M'=3), et représente un traitement matriciel
Figure imgf000014_0002
global comportant :
* un traitement d'expansion de M' canaux vers les N canaux, avec N>3 (par exemple 5, pour un format 5.1), et
* un traitement de spatial isation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®. Un autre inconvénient du procédé "Downmix binaural" au sens de l'art antérieur est qu'il ne respecte pas le timbre du son initial, que restitue bien le traitement "Downmix", car les filtres du traitement binaural résultant des HRTFs modifient fortement le spectre des signaux et apportent ainsi des effets de "coloration" en comparaison du "Downmix". La grande majorité des utilisateurs préfèrent d'ailleurs le "Downmix" même si le "Downmix binaural" procure effectivement une perception spatiale extracrânienne des sons. L'inconvénient du dé-timbrage (ou "coloration") apporté par le "Downmix Binaural" n'est pas compensé par l'apport des effets de spatialisation, selon le ressenti des utilisateurs.
Là encore, la construction au sens de la présente invention vient améliorer la situation. La mise en œuvre de l'invention telle que décrite ci-avant permet de préserver de toute distorsion le timbre perçu des sources sonores.
En effet, le filtrage de la composante contra-latérale défini par la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale permet de réduire la distorsion de timbre apportée par le traitement de binauralisation. Comme on le verra plus loin, un tel filtrage revient à un filtrage passe-bas retardé d'une valeur correspondant au retard interaural. On peut choisir avantageusement une fréquence de coupure du filtre passe-bas pour tous les couples de HRTF à environ 500 Hz, avec une pente de filtre très importante. Le cerveau perçoit, sur une oreille, le signal original (sans traitement) et, sur l'autre oreille, le signal retardé et filtré passe bas. Au-delà de la fréquence de coupure, la différence de niveau perçue par rapport à l'écoute diotique du signal orignal atténué de 6dB, est minime. En revanche, sous la fréquence de coupure, le signal est perçu deux fois plus fort. Pour les signaux contenant des fréquences sous la fréquence de coupure, la différence de timbre consistera donc en une amplification des basses fréquences.
Un tel dé-timbrage peut avantageusement être éliminé simplement par un filtrage passe-haut, qui peut être le même pour toutes les fonctions de transfert HRTFs (directions de haut-parleurs). Dans le cas d'un traitement pour une restitution binaurale, le dé-timbrage précité peut avantageusement être appliqué sur le signal stéréo binaural résultant du sous-mixage. Pour éviter en outre une différence de sonie entre les résultats d'un traitement de type « Downmix » et un traitement de binauralisation au sens de l'invention, on peut avantageusement prévoir en outre un contrôle de gain automatique en fin de traitement, pour faire en sorte que les niveaux que délivreraient le traitement Downmix et le traitement de binauralisation au sens de l'invention soient similaires. A cet effet, comme on le verra en détail plus loin, on prévoit en bout de chaîne de traitement un filtre passe-haut et un contrôle automatique de gain.
Ainsi, en termes plus génériques, on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi-canal (binaurale ou transaurale®), avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels. Dans une mise en œuvre pratique, on applique préférentiellement un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence.
On tire avantage en outre du traitement au sens de l'invention pour éliminer la distorsion de coloration apportée par le traitement de binauralisation habituel. Π apparaît en effet que le traitement de réduction de distorsion de coloration est très simple à réaliser lorsqu'il est mis en œuvre dans le domaine transformé des sous- bandes. En effet, les équations ci-avant donnant les coefficients de matrices deviennent simplement :
Figure imgf000016_0001
La pondération « Gain » dans les équations ci-dessus étant telle que, dans un exemple de réalisation :
Gain = 0,5 si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence f est elle-même inférieure à 500 Hz) et Gain = 1, sinon.
Ainsi, en termes plus génériques, les coefficients de la matrice précitée et intervenant dans le filtrage matriciel varient en fonction de la fréquence, selon une pondération d'un facteur (Gain) choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon. Dans l'exemple de réalisation donné ci- avant, le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration.
Il est possible aussi d'appliquer ce gain directement en sortie de traitement, en particulier aux signaux de sortie avant restitution sur haut-parleurs ou oreillettes, en appliquant aux équations :
Figure imgf000017_0001
gain précité, comme suit
Figure imgf000017_0002
La pondération « Gain » et le contrôle automatique de gain peuvent aussi être intégrés dans un même traitement, comme suit :
Figure imgf000017_0003
si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence
même inférieure à 500 Hz) et , sinon.
Figure imgf000017_0004
Un autre avantage que procure l'invention est le transport du signal encodé et son traitement auprès d'un décodeur pour améliorer sa qualité sonore, par exemple un décodeur de type MPEG Surround ®. Dans le contexte de l'invention où aucune fonction de transfert n'est appliquée pour les trajets directs (contributions ipsi-latérales) et un traitement supplémentaire est prévu sur les trajets indirects (spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale), il est intéressant de constater qu'en appliquant un gain de 0,707 aux signaux des canaux central, et d'ambiance (arrière- gauche et arrière-droit), alors la partie non traitée du sous-mixage stéréo (les contributions ipsi- latérales) présente la même forme que le résultat d'un traitement de type Downmix ITU. On peut généraliser ce qui précède à tout type de traitement de sous-mixage (Downmix). En effet, un traitement Downmix vers deux canaux consiste généralement à appliquer une pondération aux canaux (des haut-parleurs virtuels), puis à sommer les N canaux vers deux signaux de sortie. Appliquer un traitement de spatialisation binaurale au traitement Downmix consiste à appliquer aux N canaux pondérés les filtres HRTF correspondant aux positions des N haut-parleurs virtuels. Comme ces filtres sont égaux à 1 pour les contributions ipsi-latérales, on retrouve bien le traitement de Downmix en appliquant la somme des contributions ipsi-latérales.
Donc, les signaux obtenus par un traitement de binauralisation au sens de l'invention se présentent comme étant issus d'une somme de signaux de type Downmix et d'un signal stéréo comprenant les indices de localisation nécessaires au cerveau pour percevoir la spatialisation des sons. Ce second signal est appelé ci- après "Downmix Binaural Additionnel" , de sorte que le traitement au sens de l'invention appelé ici "Downmix Binaural" est tel que :
"Downmix Binaural" = "Downmix" + "Downmix Binaural Additionnel" .
Cette dernière équation peut être généralisée à :
"Downmix Binaural" = "Downmix"+ a "Downmix Binaural Additionnel"
Dans cette équation, a peut être un coefficient compris entre 0 et 1. Par exemple, un utilisateur auditeur peut choisir le niveau du coefficient a entre 0 et 1, continûment ou en basculant entre 0 et 1 (en mode « ON - OFF »). Ainsi, on peut choisir une pondération a du deuxième traitement "Downmix Binaural Additionnel" traitement global utilisant le filtrage matriciel au sens de l'invention.
On peut considérer aussi la pondération a dans cette équation comme une fonction de quantification, par exemple basée sur un seuillage en énergie du résultat du traitement DBA pour « Downmix Binaural Additionnel » (avec par exemple, α=0 si le résultat du traitement DBA présente, dans une bande spectrale donnée, une énergie inférieure à un seuil, et =1, sinon, pour cette même bande spectrale). Cette réalisation présente l'avantage de ne requérir qu'une faible bande passante pour la transmission des résultats des traitements Downmix et DBA, d'un codeur à un décodeur comme représenté sur la figure 7 décrite plus loin, en ne sollicitant du débit que si le résultat du traitement DBA est significatif par rapport au résultat du Downmix. Bien entendu, on peut prévoir différents seuils avec par exemple α=0 ; 0,25 ; 0,5; 0,75 ; 1. Ce signal additionnel ne nécessite que peu de débit pour le transporter. En effet, il se présente comme un signal résiduel, filtré passe-bas et donc a priori beaucoup moins énergétique que le signal Downmix. En outre, il présente des redondances avec le signal Downmix. Cette propriété peut être exploitée avantageusement conjointement avec des codées de type Dolby Surround, Dolby Prologic ou MPEG Surround.
Le signal "Downmix Binaural Additionnel" peut alors être compressé et transporté de manière additionnelle et/ou scalable au signal Downmix, avec peu de débit. Lors d'une écoute au casque, l'addition des deux signaux stéréo permet à l'auditeur de profiter pleinement du signal binaural avec une qualité très proche d'un format 5.1.
Ainsi, il suffit de décoder le signal "Downmix Binaural Additionnel" et de l'ajouter directement au signal Downmix. On peut prévoir de réaliser un codeur scalable, transportant par exemple par défaut un signal stéréo sans effet de binauralisation, et, si le débit le permet, transportant en outre une surcouche de signal additionnel pour la binauralisation. Dans le cas du codeur MPEG Surround, dans lequel il est prévu actuellement, dans l'un de ses modes opératoires, de transporter un signal stéréo (de type Downmix) et de réaliser le traitement de binauralisation dans le domaine codé (ou transformé), on obtient une complexité réduite et une meilleure qualité de rendu. Dans le cas d'un rendu sur casque, le décodeur a simplement à calculer le signal "Downmix Binaural Additionnel". La complexité est donc réduite, sans aucun risque de dégradation du signal de type Downmix. La qualité sonore n'en peut être qu'améliorée.
De telles caractéristiques se résument comme suit : le filtrage matriciel au sens de l'invention consiste à appliquer, dans un mode de réalisation avantageux :
- un premier traitement de sous-mixage des N canaux vers deux signaux stéréo (par exemple de type Downmix), et
- un deuxième traitement menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®.
Avantageusement, l'application du deuxième traitement est décidée en option (par exemple en fonction du débit, des capacités de restitution spatialisée d'un terminal, ou autres). Le premier traitement précité peut être appliqué dans un codeur communiquant avec un décodeur, tandis que le second traitement est avantageusement appliqué auprès du décodeur.
La gestion des traitements au sens de l'invention peut avantageusement être menée par un programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'invention, lorsque ce programme est exécuté par un processeur, par exemple auprès d'un décodeur notamment. A ce titre, l'invention vise aussi un tel programme. La présente invention vise aussi un module équipé d'un processeur et d'une mémoire et susceptible d'exécuter ce programme informatique. Un module au sens de l'invention, pour le traitement de données sonores encodées dans un domaine de sous- bandes, en vue d'une restitution bi-canal de type binaurale ou transaurale®, comporte alors des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal. La représentation sonore à N canaux consiste à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur.
Le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.
Un tel module peut avantageusement être un décodeur de type MPEG Surround® et comporter en outre des moyens de décodage de type MPEG Surround®, ou peut, en variante, être implanté dans un tel décodeur. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :
- la figure 1 représente schématiquement une restitution sur deux haut-parleurs autour de la tête d'un auditeur ;
- la figure 2 représente schématiquement une restitution sur cinq haut-parleurs en format multi-canal 5.1 ;
- la figure 3A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra- latéraux (traits pointillés) en format multi-canal 5.1 ;
la figure 3B représente un schéma de traitement de l'art antérieur pour le passage d'un format multi-canal 5.1 illustré sur la figure 3 A à un format binaural ou transaural ; - la figure 4A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra-latéraux (traits pointillés) en format multi-canal 5.1, avec en outre les trajets ipsi-latéraux et contra-latéraux du haut-parleur central ;
la figure 4B représente un schéma de traitement pour le passage d'un format multi- - canal 5.1 illustré sur la figure 4 A à un format binaural ou transaural, à quatre filtres seulement dans une réalisation au sens de l'invention ;
- la figure 5 illustre un traitement équivalant à l'application de l'un des filtres de la figure 4B ;
- la figure 6 illustre un traitement additionnel de filtrage passe-haut et de contrôle automatique de gain à appliquer aux sorties SG et SD pour éviter une distorsion de coloration et une différence de timbre entre un traitement "Downmix" et un traitement au sens de l'invention ;
- la figure 7 illustre la situation d'un traitement au sens de l'invention, réalisé auprès du codeur dans un exemple de réalisation possible de l'invention, en particulier dans le cas d'un traitement additionnel DBA à combiner au traitement Downmix.
On se réfère tout d'abord à la figure 4A pour décrire un exemple de mise en œuvre du traitement pour passer d'une représentation multi-canal (format 5.1 dans l'exemple décrit) à une représentation bi-canal stéréo binaurale ou transaurale®. Sur cette figure, cinq haut-parleurs en configuration selon le format 5.1 sont illustrés :
- un haut-parleur frontal C situé face à l'auditeur, dans un plan médian (plan P de la figure 2),
- un haut-parleur latéral gauche AVG,
un haut-parleur latéral droit AVD, et
- un haut-parleur arrière gauche ARG pour produire un effet dit "surround",
- un haut-parleur arrière droit ARD pour produire aussi un effet dit "surround".
En référence maintenant à la figure 4B, la restitution du contenu audio en contexte binaural ou transaural est destinée à être effectuée sur une première voie SG et une deuxième voie SD, ce contenu étant initialement encodé dans un format multi-canal (à N canaux avec N=5 dans l'exemple décrit) dans lequel chaque canal est associé à une position de haut-parleur par rapport à l'auditeur (figure 4A).
Avantageusement, les canaux associés à des positions de haut-parleurs (par exemple les haut-parleurs AVG et ARG de la figure 4A) dans un premier hémisphère par rapport à l'auditeur (celui de l'oreille gauche OG) sont regroupés et appliqués directement à la voie SQ de la figure 4B. Les canaux associés aux positions des haut- parleurs AVD et ARD dans un second hémisphère par rapport à l'auditeur (celui de son oreille droite OD) sont regroupés et appliqués directement à l'autre voie SD de la figure 4B. On précise que les premier et second hémisphères sont séparés par le plan médian de l'auditeur. Ces composantes de signaux AVG, ARG étant directement appliquées à la voie SQ, d'une part, et les composantes de signaux AVD, ARD étant directement appliquées à la voie SD, d'autre part, on relèvera, dans l'exemple de la figure 4B, qu'aucun traitement particulier ne leur est appliqué.
En référence à nouveau à la figure 4B, les canaux AVG et ARG associés à des positions du premier hémisphère sont regroupés et appliqués aussi à la deuxième voie SD, et les canaux AVD et ARD associés à des positions du second hémisphère sont regroupés et appliqués aussi à la première voie SG- Ici, on prévoit un traitement supplémentaire à appliquer :
- à chaque canal AVG et ARG du premier hémisphère destiné à la seconde voie SD, et
- à chaque canal AVD et ARD du second hémisphère destiné à la première voie SQ. Le traitement supplémentaire comporte préférentiellement l'application d'un filtrage (C/I)AVG, (C/I)AVD, (C/I)ARG, (C/I)ARD (figure 4B) défini, dans le domaine codé (ou transformé) par le spectre d'une fonction de transfert acoustique contra-latérale déconvoluée par une fonction de transfert ipsi-latérale. Plus précisément, la fonction de transfert ipsi-latérale est associée à un chemin acoustique direct Uvc IAVD, RG, URD (figure 4A) entre une position de haut-parleur et une oreille de l'auditeur et la fonction de transfert contra-latérale est associée à un chemin acoustique CAVG, CAVD, CARG* CARD (figure 4A) traversant la tête de l'auditeur, entre la position de haut-parleur précitée et l'autre oreille de l'auditeur.
Ainsi, pour chaque canal associé à un haut-parleur virtuel situé en dehors du plan médian (donc tous les haut-parleurs sauf le haut-parleur frontal), la spatialisation du haut-parleur virtuel est assurée par une paire de fonctions de transfert HRTF (exprimées dans le domaine des fréquences) ou HRIR (exprimées dans le domaine temporel). Ces fonctions de transfert traduisent le trajet ipsi-latéral (trajet direct entre le haut-parleur et l'oreille la plus proche en trait plein sur la figure 4 A) et le trajet contra-latéral (trajet entre le haut-parleur et l'oreille masquée par la tête de l'auditeur en traits pointillés sur la figure 4A).
Plutôt que d'utiliser des fonctions de transfert brutes pour chaque trajet comme au sens de l'art antérieur, on supprime avantageusement le filtre associé au trajet ipsi-latéral et on utilise pour le trajet contra-latéral un filtre correspondant à la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Ainsi, pour chaque haut-parleur virtuel (hormis le haut-parleur central C), un seul filtre est utilisé.
Ainsi, en référence à la figure 4B :
- le filtre référencé (C/I)ARG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille gauche OG de l'individu, - le filtre référencé (C/I)ARD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière droit
ARD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière droit ARD et l'oreille droite OD de l'individu, - le filtre référencé (C/I)AVG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille gauche OG de l'individu, et
- le filtre référencé (C/I)AVD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra- latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille droite OD de l'individu.
Par ailleurs, le signal qui, en encodage 5.1, est destiné à alimenter le haut-parleur central C (dans le plan médian de symétrie de la tête de l'auditeur), est distribué en deux fractions (préférentiellement de manière égale à 50% et 50%) sur deux voies s'additionnant sur deux voies respectives des haut-parleurs latéraux gauche et droit. De la même façon, s'il est prévu un haut-parleur arrière dans le plan médian, le signal associé est mixé avec les signaux associés aux haut-parleurs arrière gauche ARG et arrière droit ARD. Bien entendu, s'il existe plusieurs haut-parleurs centraux (haut- parleur frontal pour une restitution des fréquences médium, haut-parleur frontal pour une restitution des fréquences basses, ou autres) leurs signaux sont additionnés et répartis encore sur les signaux associés aux haut-parleurs latéraux.
Comme le canal associé à une position centrale C de haut-parleur, dans le plan médian, est réparti en une première et une seconde fraction de signal, respectivement additionnée au canal du haut-parleur AVG dans le premier hémisphère (autour de l'oreille gauche OG) et au canal du haut-parleur AVD dans le second hémisphère (autour de l'oreille droite OD), il n'est pas nécessaire de prévoir des filtrages par les fonctions de transfert associées aux haut-parleurs se trouvant dans le plan médian, et ce sans changement de la perception de la spatialisation de la scène sonore en restitution binaurale ou transaurale®.
Bien entendu, il est possible aussi de prévoir un traitement de passage d'un format multi-canal à N canaux, avec N plus grand encore que 5 (format 7.1 ou autres) à un format binaural. A cet effet, il suffit, en ajoutant deux haut-parleurs latéraux supplémentaires, de prévoir les mêmes types de filtres (représentés par la HRTF contra-latérale déconvoluée par la HRTF ipsi-latérale) par exemple pour deux haut- parleurs supplémentaires dans le format initial 7.1.
La complexité de traitement est largement réduite puisque les filtres associés aux haut- parleurs situés dans le plan médian sont supprimés. Un autre avantage consiste en ce que l'effet de coloration des signaux associés est réduit.
Le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par :
- le gain de la transformée de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale, et
- le retard défini par la différence des phases respectives des fonctions de transfert contra-latérale et ipsi-latérale,
et éventuellement en fonction d'une estimation de cohérence entre la voie gauche - et la voie droite, notamment dans le cas d'une seule source mono initiale à spatialiser au format 5.1 puis au format binaural (ce cas étant décrit plus loin).
En première approximation, on peut simplement considérer que le rapport des gains respectifs des transformées des fonctions de transfert, dans chaque bande de fréquences considérée, est voisin du gain de la transformée la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Les gains des transformées des fonctions de transfert contra-latérale et ipsi-latérale, ainsi que leurs phases, dans chaque bande spectrale, sont données par exemple à l'annexe C de la norme précitée « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/ŒC JTC 1/SC 29 (21 juillet 2006), pour une transformée PQMF dans 64 sous-bandes.
Ainsi, en première approximation, pour un trajet contra- latéral et dans une bande spectrale m donnée, le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par : et
Figure imgf000027_0002
étant le gain et la phase de la
Figure imgf000027_0001
fonction de transfert contra- latérale et et étant le gain et la phase de la
Figure imgf000027_0003
Figure imgf000027_0004
fonction de transfert ipsi- latérale. En référence à la figure 5, chaque filtre est équivalent à appliquer :
- un filtrage égaliseur 1 1, préférentiellement de type passe-bas,
avantageusement un retard interaural (ou « ITD ») 10, pour tenir compte des - différences de trajet entre une source virtuelle et chaque oreille, et
éventuellement une atténuation 12 par rapport aux composantes de signaux non - filtrées (par exemple la composante AVG sur la voie SG de la figure 4B).
Il convient d'indiquer ici que le retard ITD appliqué est "sensiblement" interaural, le terme "sensiblement" se référant notamment au fait qu'il peut ne pas être rigoureusement tenu compte de la morphologie stricte de l'auditeur (par exemple si des HRTFs sont utilisées par défaut, notamment des HRTFs dites "de la tête de Kemar").
Ainsi, la synthèse binaurale d'un haut-parleur virtuel (AVG par exemple) consiste simplement à jouer sans modification le signal d'entrée sur la voie relative ipsi-latérale (voie SG sur la figure 4B) et appliquer au signal à jouer sur la voie contra-latérale (voie SD sur la figure 4B) un filtre (C/I)AVG correspondant en l'application d'un retard, d'une atténuation et d'un filtrage passe-bas. Ainsi, le signal résultant est retardé, atténué et filtré en éliminant les fréquences aiguës, ce qui se traduit, du point de vue de la perception auditive, par un masquage du signal reçu par l'oreille "contra-latérale" (OD, dans l'exemple où le haut-parleur virtuel est le latéral gauche AVG), relativement au signal reçu par l'oreille "ipsi-latérale" (OG).
La coloration qui peut être perçue est donc directement celle du signal reçu par l'oreille ipsi-latérale. Or, de façon avantageuse, ce signal ne subit aucune transformation et, par conséquent, le traitement au sens de l'invention ne devrait apporter qu'une faible coloration. Toutefois, à titre de précaution complémentaire, en référence à la figure 6, on peut prévoir un traitement des signaux de sortie SG et SD de la figure 4B consistant à appliquer un filtre passe-haut FPH, suivi d'un contrôle automatique de gain CAG.
Le filtre passe-haut revient à appliquer le facteur « Gain » décrit ci-avant, avec :
Gain = 0,5 si la fréquence f est inférieure à 500 Hz et
Gain = 1 sinon.
Avantageusement, dans cette réalisation, ce facteur est appliqué globalement en sortie des signaux SG et SD, en variante d'une application individuelle à chaque coefficient de la matrice explicitée plus loin.
Figure imgf000028_0001
Avantageusement, le contrôle automatique de gain est calé sur l'intensité globale des signaux correspondant au traitement Downmix, donnée par :
I > OU SOnt leS
Figure imgf000028_0002
Figure imgf000028_0003
énergies respectives des signaux des canaux avant gauche, avant droit, arrière gauche, arrière droit et centre, d'un format 5.1. Les gains g et gs sont des appliqués globalement au signal C pour le gain g et aux signaux ARG et ARD pour le gain gs. En d'autres termes, on limite ainsi l'énergie des signaux de voie gauche S'G et de voie droite S 'D à l'issue de ce traitement, au maximum, à l'énergie ID 2 globale des signaux des haut-parleurs virtuels. Les signaux récupérés S 'G et S'D peuvent être finalement acheminés vers un dispositif de restitution sonore, en mode stéréophonique binaural.
En pratique, dans un codeur notamment de type MPEG Surround, l'intensité globale des signaux est habituellement calculée directement à partir de l'énergie des signaux d'entrée. Ainsi, dans une variante cette donnée sera prise en compte pour l'estimation de l'intensité lD .
La mise en œuvre de l'invention résulte alors en une suppression des indices de localisation monauraux. Or, plus une source s'écarte du plan médian, plus les indices interauraux deviennent prédominants au détriment des indices monauraux. Compte tenu du fait que dans la recommandation ITU-R BS.775 concernant la disposition des haut-parleurs du système 5.1, l'angle entre les haut-parleurs latéraux (ou entre les haut- parleurs arrière) est supérieure à 60°, la suppression des indices monauraux n'a que peu d'influence sur la position perçue des haut-parleurs virtuels. D'ailleurs, la différence perçue ici est inférieure à la différence que pourrait percevoir l'auditeur du fait que les HRTFs utilisées ne lui seraient pas propres (par exemple des modèles de HRTFs tirés de la technique dite de la « tête de Kemar »).
Ainsi, la perception spatiale du signal est respectée, et ce, sans apporter de coloration et en conservant le timbre des sources sonores.
Plus encore, la solution au sens de la présente invention divise le nombre de filtres à prévoir sensiblement par deux et corrige en outre les effets de coloration. Par ailleurs, il a été observé que le choix de la position des haut-parleurs virtuels peut notablement influencer la qualité du résultat de la spatialisation. En effet, il s'est avéré préférable de placer les haut-parleurs virtuels latéraux et arrières à +/- 45° par rapport au plan médian, plutôt qu'à +/- 30° du plan médian selon la configuration recommandée par l'Union Internationale des Télécommunications (ITU). En effet, lorsque les haut-parleurs virtuels se rapprochent du plan médian, les fonctions HRTFs ipsi-latérale et contra-latérale tendent à se ressembler et les simplifications précédentes peuvent ne plus donner une spatialisation satisfaisante.
Ainsi, en termes génériques, en considérant un format multi-canal initial définissant au moins quatre positions :
de deux haut-parleurs latéraux, symétriques par rapport au plan médian, et de deux haut-parleurs arrière, symétriques par rapport au plan médian,
la position d'un haut-parleur latéral est avantageusement comprise dans un secteur angulaire de 10° à 90° et préférentiellement de 30 à 60° à partir d'un plan de symétrie P et face au visage de l'auditeur. Plus particulièrement, la position d'un haut-parleur latéral sera préférentiellement voisine de 45° à partir du plan de symétrie. On se réfère maintenant à la figure 7 pour décrire une réalisation possible de l'invention dans laquelle le traitement au sens de l'invention intervient après l'étape de codage des données sonores, par exemple avant la transmission via un réseau 73 vers un décodeur 74. Ici, un module de traitement au sens de l'invention 72 intervient directement en aval d'un codeur 71, pour délivrer, comme indiqué précédemment, des données traitées selon un traitement du type :
Downmix + α DBA (avec DBA pour "Downmix Binaural Additionnel"). On décrit ci-après une réalisation possible d'un tel traitement.
En partant d'un signal 5.0 (L, R, C, Ls, Rs) à coder et transporter, on considère traitement de Downmix global de type :
Figure imgf000030_0001
Les signaux et correspondent donc aux deux signaux stéréo, sans effet de
Figure imgf000030_0006
Figure imgf000030_0007
spatialisation, que pourrait délivrer un décodeur pour alimenter deux haut-parleurs en restitution sonore.
Le calcul du traitement de Downmix, sans filtrage de binauralisation, devrait donc permettre de retrouver ces deux signaux et , ce qui s'exprime alors par
Figure imgf000030_0004
Figure imgf000030_0005
exemple comme suit :
Figure imgf000030_0002
En appliquant maintenant un filtrage binaural et en répartissant le signal du haut- parleur central sur les canaux L et R de manière égale avec le gain g, on obtient :
Figure imgf000030_0003
Figure imgf000031_0001
Si on utilise pour le filtrage contra-latéral les fonctions HRTF contra-latérales déconvoluées par les fonctions HRTF ipsi-latérales, on a ,
Figure imgf000031_0008
et
Figure imgf000031_0002
et donc :
Figure imgf000031_0003
Le Downmix binaural additionnel s'écrit :
Figure imgf000031_0004
En reprenant l'exemple d'un filtrage matriciel s'exprimant selon un produit de matrices de type : où W représente une matrice de
Figure imgf000031_0006
Figure imgf000031_0005
traitement d'expansion de deux signaux stéréo vers M' canaux, avec M'>2 (par exemple M'=3), cette matrice W s'exprimant comme une matrice 2x6 du type :
Figure imgf000031_0007
Figure imgf000032_0001
En particulier, dans la norme MPEG Surround précitée, les coefficients de la matrice sont tels que :
Figure imgf000032_0002
Figure imgf000032_0003
En développant ce produit, on trouve
Figure imgf000032_0004
En cherchant une addition de deux matrices distinctes, on trouve :
Figure imgf000032_0005
ce qui s'écrira ci-après :
Figure imgf000032_0006
avec pour le traitement Downmix et
Figure imgf000033_0005
pour Ie traitement Downmix Binaural Additionnel.
On peut considérer, dans ce mode de réalisation, que les coefficients de la matrice sont bien donnés par :
Figure imgf000033_0001
Figure imgf000033_0002
comme exposé précédemment.
On peut considérer en première approximation qu'un canal latéral (droit ou gauche) et le canal latéral arrière correspondant (droit ou gauche respectivement) sont décorrélés entre eux. Cette hypothèse est raisonnable dans la mesure où le canal arrière ne fait que reprendre en général la réverbération de salle ou autre (retardée dans le temps) du signal du canal latéral. Dans ce cas, les canaux L et Ls et les canaux R et Rs ont des supports temps fréquences disjoints et on a alors , et :
Figure imgf000033_0004
Figure imgf000033_0003
L'hypothèse ci-avant ne peut pas être vérifiée en revanche pour tous les signaux. Dans le cas où les signaux auraient un support temps fréquence commun, il est préférable de chercher à conserver les énergies des signaux. Cette précaution est préconisée d'ailleurs dans la norme MPEG Surround. En effet, l'addition de signaux en opposition de phase
Figure imgf000034_0004
s'annule. Comme indiqué ci-avant, une telle situation n'intervient jamais en pratique si l'on considère le cas d'une salle avec un effet de réverbération sur les canaux Surround.
Néanmoins, dans l'exemple décrit ci-après, on utilise des variantes des formules ci- avant pour préserver l'énergie des signaux dans le traitement Downmix, comme suit :
Figure imgf000034_0001
La matrice de traitement global H1 l,k s'exprime encore comme la somme de deux matrices : , avec
Figure imgf000034_0002
Figure imgf000034_0003
et avec :
Figure imgf000035_0001
Figure imgf000035_0002
La matrice Η^'" ne contient aucun terme relatif aux coefficients de filtrage HRTF.
Cette matrice traite globalement les opérations de spatialisation de deux canaux (M=2) vers cinq canaux (N=5) et les opérations de sous-mixage de ces cinq canaux vers deux canaux. Dans un mode de réalisation particulier dans lequel on transporte un signal "Downmix" issu des signaux 5.0 à coder, les coefficients g, wij , et
Figure imgf000035_0008
peuvent être calculés par le codeur pour que cette matrice s'approche de la matrice unité. En effet, on doit avoir :
Figure imgf000035_0003
La matrice consiste quant à elle à appliquer des filtrages basés sur des fonctions
Figure imgf000035_0004
HRTF contra-latérales déconvoluées par des fonctions ipsi-latérales. On notera que passer par un traitement Downmix décrit ci-dessus est un mode de réalisation particulier. L'invention peut être mise en œuvre aussi avec d'autres types de matrices de Downmix.
D'ailleurs, la réalisation introduite ci-avant est décrite à titre d'exemple. Il apparaît en effet qu'il n'est pas nécessaire, en pratique, de cherche à estimer les signaux Lo et Ro par l'application de la matrice " car ces signaux sont transmis du codeur au
décodeur, lequel dispose bien de ces signaux et , et éventuellement des
Figure imgf000035_0006
Figure imgf000035_0007
paramètres de spatialisation, pour reconstruire les signaux pour la restitution sonore (éventuellement binaurale si le décodeur a bien reçu les paramètres de spatialisation). Cette dernière réalisation présente deux avantages. D'une part, le nombre de traitements à réaliser pour retrouver les signaux Lo et R0 est ainsi réduit. D'autre part, on améliore la qualité des signaux de sortie : le passage au domaine transformé et retour au domaine de départ, ainsi que l'application de la matrice Η'0"' , dégradent nécessairement les signaux. Une réalisation avantageuse consiste donc à appliquer le traitement suivant :
Figure imgf000036_0001
Il apparaît en outre que la matrice
Figure imgf000036_0006
peut encore être simplifiée. En effet, en revenant à l'expression : , on peut calculer les expressions des
Figure imgf000036_0002
cinq signaux intermédiaires avec le traitement de Downmix binaural comme suit
Figure imgf000036_0003
Avec encore , on parvient à :
Figure imgf000036_0005
Figure imgf000036_0004
Figure imgf000037_0001
et
Figure imgf000037_0002
Ces expressions sont simplifiées par rapport à leur calcul habituel. On peut néanmoins, encore ici, prendre la précaution de ne pas mener à une annulation de signaux en opposition de phase en cherchant à préserver les niveaux d'énergie des différents signaux dans le traitement Downmix, comme préconisé ci-avant. On obtient alors :
Figure imgf000037_0003
ave
Figure imgf000038_0001
L'expression de la matrice
Figure imgf000038_0003
est alors la suivante :
Figure imgf000038_0002
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite avant à titre d'exemple ; elle s'étend à d'autres variantes. Ainsi, on a décrit ci-avant le cas d'un traitement de deux signaux stéréo initiaux à encoder et spatialiser vers du stéréo binaural et en passant par une spatialisation 5.1. Néanmoins, l'invention s'applique en outre au traitement d'un signal mono initial (cgs- N=l dans l'expression générale N>0 donnée ci-avant et s' appliquant au nombre de canaux initiaux à traiter). En reprenant par exemple le cas de la norme « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/BEC JTC 1/SC 29 (21 juillet 2006), les équations présentées au point 6.11.4.1.3.1, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1- 5i » et consistant à traiter d'emblée les voies surround avant la voie centrale), se simplifient en :
Figure imgf000039_0001
Figure imgf000039_0002
De même, les équations présentées au point 6.1 1.4.1.3.2, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1-5 » et consistant à traiter d'emblée la voie centrale, puis à traiter l'effet surround sur chaque voie gauche et droite), se simplifient en :
Figure imgf000040_0001
et
Figure imgf000040_0002
Plus généralement, il est possible de prévoir d'autres traitements des signaux ou de composantes de signaux destinés à être restitués en format binaural ou transaural. Par exemple, les voies SG et SD de la figure 4B peuvent subir en outre un filtrage passe-bas dynamique de type Dolby® ou autres.
La présente invention vise aussi un module MOD (figure 4B) de traitement de données sonores, pour le passage d'un format multi-canal vers un format binaural ou transaural, dans le domaine transfonné, dont les éléments pourraient être ceux illustrés sur la figure 4B. Un tel module comporte alors des moyens de traitement, tels qu'un processeur PROC et une mémoire de travail MEM, pour la mise en œuvre de l'invention. Il peut être implanté dans tout type de décodeur, notamment d'un dispositif de restitution sonore (ordinateur PC, baladeur, téléphone mobile, ou autre) et éventuellement de visionnage de film. En variante, le module peut être conçu pour opérer séparément de la restitution, par exemple pour préparer des contenus au format binaural ou transaural, en vue d'un décodage ultérieur.
La présente invention vise aussi un programme informatique, téléchargeable via un réseau de télécommunication et/ou stocké dans une mémoire d'un module de traitement du type précité et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur d'un tel module de traitement, et comportant des instructions pour la mise en œuvre de l'invention, lorsqu'elles sont exécutées par un processeur dudit module.

Claims

Revendications
1. Procédé de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal,
ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :
- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur,
le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.
2. Procédé selon la revendication 1, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi- canal, en passant par une représentation intermédiaire sur lesdits N canaux, avec N>2, et dans lequel les coefficients de la matrice s'expriment, pour un trajet contra-latéral, au moins en fonction de gains de spatialisation respectifs des M canaux sur les N haut- parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille,
tandis que pour un trajet ipsi-latéral, les coefficients de la matrice s'expriment en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille.
3. Procédé selon la revendication 2, dans lequel la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut- parleur virtuel d'ambiance, les coefficients de la matrice s 'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (PQMF), par :
- pour les trajets d'un haut-parleur virtuel central vers l'oreille
Figure imgf000043_0001
gauche,
- pour les trajets d'un haut-parleur virtuel central vers l'oreille
Figure imgf000043_0002
droite,
- P ur les trajets contra-latéraux
Figure imgf000043_0003
vers l'oreille gauche ;
- pour les trajets contra-latéraux vers
Figure imgf000043_0004
l'oreille droite ;
- , Pour les trajets ipsi-latéraux vers l'oreille gauche ;
Figure imgf000043_0005
- , pour les trajets ipsi-latéraux vers l'oreille droite ;
Figure imgf000043_0006
où :
- g est un gain de répartition de mixage d'un canal de haut-parleur virtuel central vers des canaux de haut-parleurs directs gauche et droit,
- et représentent des gains relatifs à appliquer à un même premier signal
Figure imgf000043_0007
pour définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,
- ou
Figure imgf000043_0008
représentent des gains relatifs à appliquer à un même deuxième signal pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps- fréquence, - ou i. est l'expression du spectre de la fonction de transfert de type HRTF
Figure imgf000044_0001
contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance,
- ou est l'expression du spectre de la fonction de transfert de type HRTF
Figure imgf000044_0002
contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance,
- sont des déphasages entre fonctions de transfert contra-latérale et
Figure imgf000044_0003
ipsi-latérale correspondant à des retards interauraux choisis, et
- sont des pondérations choisies.
Figure imgf000044_0004
4. Procédé selon l'une des revendications précédentes, dans lequel les coefficients de la matrice varient en fonction de la fréquence, selon une pondération d'un facteur choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon.
5. Procédé selon la revendication 4, dans lequel le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration.
6. Procédé selon l'une des revendications précédentes, dans lequel on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi- canal, avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels.
7. Procédé selon la revendication 6, prise en combinaison avec l'une des revendications 4 et 5, dans lequel on applique un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence.
8. Procédé selon l'une des revendications 3 à 7, dans lequel le filtrage matriciel s'exprime selon un produit de matrices de type : ou :
Figure imgf000045_0001
- W l'm représente une matrice de traitement d'expansion de signaux stéréo vers M' canaux, avec M'>2, et
1 0 0 0 0 0
représente un traitement matriciel global
Figure imgf000045_0002
comportant :
* un traitement d'expansion de M' canaux vers lesdits N canaux, avec N>3, et
* un traitement de spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :
Figure imgf000045_0003
9. Procédé selon l'une des revendications précédentes, dans lequel le filtrage matriciel consiste à appliquer :
- un premier traitement (DOWNMIX) de sous-mixage des N canaux vers deux signaux stéréo, et
- un deuxième traitement (DBA) menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®.
10. Procédé selon la revendication 9, dans lequel on choisit une pondération (a) du deuxième traitement dans ledit filtrage matriciel.
11. Procédé selon la revendication 10, dans lequel le premier traitement est appliqué dans un codeur communiquant avec un décodeur, et le second traitement est appliqué dans ledit décodeur.
12. Procédé selon l'une des revendications 9 à 11, prises en combinaison avec la revendication 8, dans lequel la matrice :
Figure imgf000046_0001
s'écrit comme une somme de matrices avec :
Figure imgf000046_0002
- une première matrice représentant le premier traitement s 'exprimant par :
Figure imgf000046_0003
- et une deuxième matrice représentant le deuxième traitement s 'exprimant par , avec :
Figure imgf000046_0004
Figure imgf000046_0005
13. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque ce programme est exécuté par un processeur.
14. Module de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®,
le module comportant des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :
une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et
- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur,
le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.
15. Module selon la revendication 14, comportant en outre des moyens de décodage de type MPEG Surround®.
PCT/FR2010/052119 2009-10-12 2010-10-08 Traitement de donnees sonores encodees dans un domaine de sous-bandes WO2011045506A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/500,955 US8976972B2 (en) 2009-10-12 2010-10-08 Processing of sound data encoded in a sub-band domain
EP10781956A EP2489206A1 (fr) 2009-10-12 2010-10-08 Traitement de donnees sonores encodees dans un domaine de sous-bandes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0957118 2009-10-12
FR0957118 2009-10-12

Publications (1)

Publication Number Publication Date
WO2011045506A1 true WO2011045506A1 (fr) 2011-04-21

Family

ID=42145029

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/052119 WO2011045506A1 (fr) 2009-10-12 2010-10-08 Traitement de donnees sonores encodees dans un domaine de sous-bandes

Country Status (3)

Country Link
US (1) US8976972B2 (fr)
EP (1) EP2489206A1 (fr)
WO (1) WO2011045506A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865688A (zh) * 2022-11-25 2023-03-28 天津光电通信技术有限公司 一种双通道高速模拟采集回放设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY181365A (en) * 2012-09-12 2020-12-21 Fraunhofer Ges Forschung Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
FR3012247A1 (fr) * 2013-10-18 2015-04-24 Orange Spatialisation sonore avec effet de salle, optimisee en complexite
WO2015058818A1 (fr) 2013-10-22 2015-04-30 Huawei Technologies Co., Ltd. Appareil et procédé de compression d'un ensemble de réponses impulsionnelles spatiales binaurales à n canaux
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
DE102014214052A1 (de) * 2014-07-18 2016-01-21 Bayerische Motoren Werke Aktiengesellschaft Virtuelle Verdeckungsmethoden
EP2980789A1 (fr) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé permettant d'améliorer un signal audio et système d'amélioration sonore
US9749757B2 (en) * 2014-09-02 2017-08-29 Oticon A/S Binaural hearing system and method
US9596544B1 (en) * 2015-12-30 2017-03-14 Gregory Douglas Brotherton Head mounted phased focused speakers
EP3453190A4 (fr) * 2016-05-06 2020-01-15 DTS, Inc. Systèmes de reproduction audio immersifs
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
KR102502383B1 (ko) * 2017-03-27 2023-02-23 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN108156561B (zh) * 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
TWI740206B (zh) * 2019-09-16 2021-09-21 宏碁股份有限公司 訊號量測的校正系統及其校正方法
US11212631B2 (en) 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
EP4035426A1 (fr) * 2019-09-23 2022-08-03 Dolby Laboratories Licensing Corporation Codage/décodage audio avec paramètres de transformation
CN112653985B (zh) * 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442277B1 (en) * 1998-12-22 2002-08-27 Texas Instruments Incorporated Method and apparatus for loudspeaker presentation for positional 3D sound
US7505601B1 (en) * 2005-02-09 2009-03-17 United States Of America As Represented By The Secretary Of The Air Force Efficient spatial separation of speech signals

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004103023A1 (fr) * 1995-09-26 2004-11-25 Ikuichiro Kinoshita Procede de preparation de tableau de fonction de transfert pour localiser une image sonore virtuelle, support d'enregistrement sur lequel ce tableau est enregistre et procede d'edition de signal acoustique utilisant ce support
EP0990368B1 (fr) * 1997-05-08 2002-04-24 STMicroelectronics Asia Pacific Pte Ltd. Procede et appareil d'abaissement du domaine frequentiel a forcage de commutation de blocs pour fonctions de decodage audio
KR20080093024A (ko) * 2006-02-07 2008-10-17 엘지전자 주식회사 부호화/복호화 장치 및 방법
DE602007004451D1 (de) * 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
JP4572945B2 (ja) * 2008-03-28 2010-11-04 ソニー株式会社 ヘッドフォン装置、信号処理装置、信号処理方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442277B1 (en) * 1998-12-22 2002-08-27 Texas Instruments Incorporated Method and apparatus for loudspeaker presentation for positional 3D sound
US7505601B1 (en) * 2005-02-09 2009-03-17 United States Of America As Represented By The Secretary Of The Air Force Efficient spatial separation of speech signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ISO/IEC 23003-1:2006/FDIS, MPEG Surround", ITU STUDY GROUP 16 - VIDEO CODING EXPERTS GROUP -ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 AND ITU-T SG16 Q6), XX, XX, no. N8324, 21 July 2006 (2006-07-21), XP030014816 *
INFORMATION TECHNOLOGY - MPEG AUDIO TECHNOLOGIES - PART 1: MPEG SURROUND, 21 July 2006 (2006-07-21)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865688A (zh) * 2022-11-25 2023-03-28 天津光电通信技术有限公司 一种双通道高速模拟采集回放设备

Also Published As

Publication number Publication date
EP2489206A1 (fr) 2012-08-22
US8976972B2 (en) 2015-03-10
US20120201389A1 (en) 2012-08-09

Similar Documents

Publication Publication Date Title
EP2489206A1 (fr) Traitement de donnees sonores encodees dans un domaine de sous-bandes
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
JP4874555B2 (ja) 聴覚情景の後部残響音ベースの合成
CA2820199C (fr) Generation de signal pour des signaux binauraux
FR2790634A1 (fr) Procede de synthese d&#39;un champ sonore tridimensionnel
WO2004049759A1 (fr) Egalisation de la sortie dans un reseau d&#39;elargissement stereo
WO2007101958A2 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP1886535B1 (fr) Procede pour produire une pluralite de signaux temporels
CN101855917A (zh) 生成具有增强的感知质量的立体声信号的方法和装置
EP2000002A2 (fr) Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme
EP2005420A1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP3729832B1 (fr) Traitement d&#39;un signal monophonique dans un décodeur audio 3d restituant un contenu binaural
JP7286876B2 (ja) 変換パラメータによるオーディオ符号化/復号化
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
CA3142575A1 (fr) Systeme de localisation sonore psychoacoustique d&#39;un casque d&#39;ecoute stereo et methode connexe de reconstitution de signaux sonores psychoacoustiques stereo
EP3920552A1 (fr) Traitement centralise d&#39;un flux audio d&#39;entree
Toledo et al. The role of spectral features in sound localization
KR20060004529A (ko) 입체 음향을 생성하는 장치 및 방법
WO2006075079A1 (fr) Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles
WO2017032946A1 (fr) Procédé de mesure de filtres phrtf d&#39;un auditeur, cabine pour la mise en oeuvre du procédé, et procédés permettant d&#39;aboutir à la restitution d&#39;une bande sonore multicanal personnalisée
FR3002406A1 (fr) Procede et dispositif de generation de signaux d&#39;alimentation destines a un systeme de restitution sonore

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10781956

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010781956

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13500955

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE