WO2017153697A1 - Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal - Google Patents

Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal Download PDF

Info

Publication number
WO2017153697A1
WO2017153697A1 PCT/FR2017/050547 FR2017050547W WO2017153697A1 WO 2017153697 A1 WO2017153697 A1 WO 2017153697A1 FR 2017050547 W FR2017050547 W FR 2017050547W WO 2017153697 A1 WO2017153697 A1 WO 2017153697A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
coding
spatialization
signal
model
Prior art date
Application number
PCT/FR2017/050547
Other languages
English (en)
Inventor
Bertrand FATUS
Stéphane RAGOT
Marc Emerit
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Priority to US16/083,741 priority Critical patent/US10930290B2/en
Priority to CN201780015676.XA priority patent/CN108885876B/zh
Priority to EP17713746.0A priority patent/EP3427260B1/fr
Priority to ES17713746T priority patent/ES2880343T3/es
Publication of WO2017153697A1 publication Critical patent/WO2017153697A1/fr
Priority to US17/130,567 priority patent/US11664034B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to the field of coding / decoding of digital signals.
  • the coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
  • the present invention relates to parametric multichannel encoding and decoding of multichannel audio signals.
  • the invention is therefore concerned with multichannel signals, and in particular with binaural signals which are sound signals recorded with microphones placed at the entrance of the duct of each ear (of a person or of a manikin) or else synthesized artificially through filters known as Head-Related Impulse Response (HRIR) or HRTF (Head-Related Transfer Function) filters in the frequency domain, which are a function of the direction and distance of the sound source and morphology of the subject.
  • HRIR Head-Related Impulse Response
  • HRTF Head-Related Transfer Function
  • a stereo signal is also composed of two channels but it does not generally allow a perfect reproduction of the sound scene in 3D.
  • a stereo signal can be constructed by taking a given signal on the left channel and a null signal on the right channel, listening for such a signal will give a sound source location on the left but in a natural environment this artifice is not possible because the signal to the right ear is a filtered version (including a time shift and attenuation) of the signal to the left ear depending on the morphology of the person.
  • Parametric multichannel coding is based on the extraction and coding of spatial information parameters so that at decoding these spatial characteristics can be used to recreate the same spatial image as in the original signal.
  • codecs based on this principle are in 3GPP e-AAC + or MPEG Surround standards.
  • codecs based on this principle are in 3GPP e-AAC + or MPEG Surround standards.
  • a parametric stereo coding / decoding technique is for example described in the document by J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, titled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005 : 9, pp. 1305-1322. This example is repeated with reference to FIGS. 1 and 2 respectively describing an encoder and a parametric stereo decoder.
  • Figure 1 describes a stereo encoder receiving two audio channels, a left channel (denoted L for Left in English) and a right channel (noted R for Right in English).
  • the time signals L (n) and R (n), where n is the entire index of the samples, are processed by the blocks 101, 102, 103 and 104 which perform a short-term Fourier analysis.
  • the transformed signals L [k] and R [k], where k is the integer index of the frequency coefficients, are thus obtained.
  • Block 105 performs a channel reduction processing or "downmix" in English to obtain in the frequency domain from the left and right signals, a monophonic signal hereinafter called mono signal.
  • mono signal a monophonic signal hereinafter called mono signal.
  • the passive "downmix" which corresponds to a direct matrixing of the stereo channels to combine them into a single signal - the coefficients of the downmix matrix are generally real and of predetermined (fixed) values;
  • Extraction of spatial information parameters is also performed in block 105.
  • the extracted parameters are as follows.
  • the ICLD or ILD or CLD (InterChannel / Channel Level Difference) parameters also called interchannel intensity differences, characterize the energy ratios per frequency subband between the left and right channels. These parameters make it possible to position sound sources in the stereo horizontal plane by panning. They are challenge
  • each frequency band of index b 0, ..., B-1 comprises the frequency lines in the interval [ k b , k b + 1 - 1], the symbol * indicates the complex conjugate and B is the number of sub-bands.
  • ICPD or IPD (InterChannel Phase Difference) parameters also called phase differences, are defined according to the following relation:
  • ICPD [b] ⁇ ( ⁇ ' ⁇ - 1 L [k] .R * [k]) (2) where A indicates the argument (phase) of the complex operand.
  • ICTD inter-channel time shift
  • ITD InterChannel Time Difference
  • the ICC parameter (for "InterChannel Coherence") represents the level of inter-channel correlation (or coherence) and is associated with the spatial width of a sound source; the ICC can be defined as:
  • the ICLD and ICPD parameters are extracted by analysis of the stereo signals, by the block 105.
  • the parameters ICTD or ICC can also be extracted by subband from the spectra L [k] and R [k]; however, their extraction is generally simplified by assuming an identical interchannel time shift for each sub-band and in this case a parameter can be extracted from the time channels L (n) and R (n).
  • the mono signal M [k] is transformed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or overlay) and a mono coding (block 109) is then realized.
  • the stereo parameters are quantized and coded in block 110.
  • the spectrum of the signals (L [/ c], R [k]) is divided according to a nonlinear frequency scale of ERB (equivalent Rectangular Bandwidth) or Bark type.
  • the parameters (ICLD, ICPD, ICC, ITD) are encoded by scalar quantization possibly followed by entropy coding and / or differential coding.
  • the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential entropy coding.
  • the non-uniform quantization step exploits the that the higher the value of the ICLD, the lower the sensitivity to changes in this parameter.
  • coding For the coding of the mono signal (block 109), several quantification techniques with or without memory are possible, for example coding with “Coded Pulse Modulation” (MIC), its version with adaptive prediction called “Adapted differential pulse coded modulation”. "(ADPCM) or more advanced techniques such as transform perceptual coding or Code Excited Linear Prediction (CELP) coding or multi-mode coding.
  • MIC Coded Pulse Modulation
  • ADPCM Adapted differential pulse coded modulation
  • CELP Code Excited Linear Prediction
  • EVS Extended Voice Services
  • the input signal of the EVS (mono) codec is sampled at the frequency of 8, 16, 32 or 48 kHz and the codec may represent audio telephony tapes (narrowband, NB), wideband (WB), super-wideband (super-wideband, SWB) or full band (fullband, FB).
  • the rates of the EVS codec are divided into two modes:
  • VBR Variable rate mode
  • DTX discontinuous transmission mode
  • the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions (n) and M '(n) of the decoded mono signal.
  • This decorrelation necessary only when the ICC parameter is used, makes it possible to increase the spatial width of the mono source M (n).
  • These two signals (n) and M '(n) are passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (or formatting) (block 208) for reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
  • a parametric stereo codec developed with a specific mode for encoding binaural signals is given by the G.722 Annex D standard, particularly in the 56 + 8 kbit / s broadband Rlws stereo coding mode.
  • This codec works with "short" 5ms frames in 2 modes: a "transient” mode where ICLDs are coded on 38 bits and a "normal” mode where ICLDs are coded on 24 bits with a full band ITD / IPD on 5 bits. ITD estimation details, coding of ICLD and ITD parameters are not repeated here. It should be noted that the ICLDs are coded by "decimation” by distributing the coding of the ICLDs over several successive frames, by encoding only a subset of the parameters of a given frame.
  • the spectra L [k] and R [k] can for example be divided into B frequency sub-bands according to the ERB scale.
  • the coding of an ICLD block of a given frame can be realized for example with:
  • This rate of approximately 7 kbit / s can be reduced on average by using variable rate entropy coding, for example Huffman coding; however, the reduction of flow can not be drastic in most cases.
  • the coder of FIG. 1 is a stereo coder operating for example at rates of 16.4, 24.4, 32, 48, 64, 96, 128 kbit / s and that it relies on a downmix coded by a mono EVS coded, then for the lowest bit rates, for example 16.4 kbit / s in stereo, if the downmix is coded with the mono EVS codec at 13.2 kbit / s, only 3.2 kbit / s remains to encode all the spatial parameters to faithfully represent a spatial image. If we must code not only ICLD parameters, but also other spatial parameters, it is understood that the encoding of the ICLD parameters described above requires too much bit rate.
  • the invention improves the situation of the state of the art.
  • a method of parametric coding of a multichannel digital audio signal comprising a step of coding a signal resulting from a channel reduction processing applied to the multichannel signal and coding spatialization information of the multichannel signal.
  • the method is such that it comprises the following steps: extracting a plurality of spatialization information from the multichannel signal;
  • the method of encoding spatialization information is based on a model-based approach that approximates spatial information.
  • the coding of a plurality of spatial information is reduced to the coding of an angle parameter which considerably reduces the coding rate compared with the direct coding of the spatial information.
  • the bit rate necessary for encoding this parameter is therefore reduced.
  • the spatialization information is defined by frequency subbands of the multichannel audio signal and at least one angle parameter per subband is determined and coded.
  • the method further comprises the steps of calculating a reference spatialization and coding information of this reference spatialization information.
  • the coding of reference information can improve the quality of decoding.
  • the coding rate of this reference information does not require too much flow.
  • This method is particularly well suited to coding interchannel time shift (ITD) and / or interchannel difference (ILD) type spatial information.
  • the method further comprises the following steps:
  • a representation model by spatialization information is obtained. It can be fixed and stored in memory.
  • This fixed and registered model is for example a sinus shape model.
  • This type of model is adapted to the form of ITD or ILD information depending on the position of the source.
  • obtaining a representation model of the spatialization information is performed by selecting in a table of models defined for different values of the spatialization information.
  • the index of the chosen model can then be in one embodiment, encoded and transmitted.
  • the invention also relates to a method of parametric decoding of a multichannel digital audio signal comprising a step of decoding a signal resulting from a channel reduction processing applied to the multichannel and coded signal and decoding spatialization information. multichannel signal.
  • the method is such that it comprises the following steps for decoding at least one spatialization information:
  • this method based on the use of a spatialization information representation model makes it possible to retrieve the information with good quality without having to have too much flow. .
  • an eplurality of spatialization information is found by the decoding of a simple angle parameter.
  • the method comprises a step of receiving and decoding a model table index and obtaining the at least one representation model of spatialization information to be decoded from the decoded index.
  • the invention relates to a parametric encoder of a multichannel digital audio signal comprising a coding module of a signal from a channel reduction processing module applied to the multichannel signal and spatialization information coding modules of the multichannel signal.
  • the encoder is such that it comprises: a module for extracting a plurality of spatialization information from the multichannel signal;
  • a coding module for the at least one determined angle parameter for coding the spatialization information extracted during the coding of spatialization information.
  • the encoder has the same advantages as the method it implements.
  • the invention relates to a parametric decoder of a multichannel digital audio signal comprising a decoding module of a signal resulting from a channel reduction processing applied to the multichannel signal and encoded and a spatialization information decoding module of the multichannel signal.
  • the decoder is such that it comprises:
  • the decoder has the same advantages as the method it implements.
  • the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention, when these instructions are executed by a processor, to a computer program comprising instructions. code for implementing the steps of a decoding method according to the invention, when these instructions are executed by a processor.
  • the invention finally relates to a storage medium readable by a processor on which is recorded a computer program comprising code instructions for executing the steps of the encoding method as described and / or the decoding method as described.
  • FIG. 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described
  • FIG. 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described
  • FIG. 3 illustrates a parametric encoder according to one embodiment of the invention
  • FIGS. 4a, 4b and 4c illustrate the steps of the coding method according to different embodiments of the invention by a detailed illustration of the spatial information coding blocks;
  • FIGS. 5a and 5b illustrate the notions of sound perception in 3D and 2D and
  • FIG. 5c illustrates a schematic representation of polar coordinates (distance, azimuth) of an audio source in the horizontal plane with respect to a listener, in the case binaural;
  • FIG. 6a illustrates representations of total energy models of HRTFs adapted to represent ILD-type spatial information
  • FIG. 6b illustrates a stereo microphone configuration of the ORTF type capturing an example of a two-channel signal to be coded according to an embodiment of the coding method of the invention
  • FIG. 7 illustrates a parametric decoder as well as the decoding method according to one embodiment of the invention
  • FIG. 8 illustrates an alternative embodiment of a parametric encoder according to the invention
  • FIG. 9 illustrates an alternative embodiment of a parametric decoder according to the invention.
  • FIG. 10 illustrates a hardware example of a device incorporating an encoder able to implement the coding method according to one embodiment of the invention or a decoder able to implement the decoding method according to one embodiment. of the invention.
  • FIG. 3 a two-channel signal parametric encoder according to an embodiment of the invention, delivering both a mono bit stream and spatial information parameters of the input signal is now described.
  • This figure shows both the entities, hardware modules or software driven by a processor of the coding device and the steps implemented by the coding method according to one embodiment of the invention.
  • the encoder described in Figure 3 will be called “stereo encoder” even if it allows the encoding of binaural signals.
  • the ICLD, ICTD, ICPD parameters will be respectively denoted ILD, ITD, IPD even if the signal is not binaural.
  • the invention applies similarly to other types of mono coding (eg IETF OPUS, ITU-T G.722) operating at identical or different sampling rates.
  • mono coding eg IETF OPUS, ITU-T G.722
  • Each time channel (L (n) and R (n)) sampled at 16 kHz is first pre-filtered by a High Pass Filter (HPF) typically eliminating components below 50 Hz ( blocks 301 and 302).
  • HPF High Pass Filter
  • This pre-filtering is optional, but it can be used to avoid DC bias in estimating parameters such as ICTD or ICC.
  • the channels L '(n) and ff' (n) coming from pre-filtering blocks are analyzed in frequencies by discrete Fourier transform with overlapping sinusoidal windowing of 50% length 40 ms or 640 samples (blocks 303 to 306) .
  • the 40ms analysis window covers the current frame and the future frame.
  • the future frame corresponds to a "future" signal segment commonly called "lookahead" of 20 ms.
  • other windows may be used, for example an asymmetrical low-delay window called "ALDO" in the EVS codec.
  • the analysis windowing can be made adaptive according to the current frame, in order to use an analysis with a long window on stationary segments and an analysis with short windows on transitional / non-transitory segments. stationary, possibly with transition windows between long and short windows.
  • the coefficients of index 0 ⁇ k ⁇ 160 are complex and correspond to a sub-band of 25 Hz width centered on the frequency of k.
  • the spectra L [k] and R [k] are combined in block 307 to obtain a mono (downmix) signal M [k] in the frequency domain.
  • This signal is converted into time by inverse FFT and windowing-overlap with the "lookahead" part of the previous frame (blocks 308-310).
  • the phase of the channel L for each frequency sub-band is chosen as the reference phase
  • the channel R is aligned according to the phase of the channel L for each sub-band by the following formula:
  • R '[k] e j CPD ⁇ R [k] (7)
  • R' [k] is the channel aligned R
  • k is the index of a coefficient in the O-th frequency subband
  • ICPD [ b] is the inter-channel phase difference in the sixth frequency subband given by equation (2).
  • phase alignment therefore conserves energy and avoids attenuation problems by eliminating the influence of the phase.
  • This "downmix” corresponds to the "downmix” described in the document by Breebart et al. or:
  • the lookahead for the calculation of the mono signal (20 ms) and the mono coding / decoding delay to which is added the delay T to align the mono synthesis (20 ms) correspond to an additional delay of 2 frames (40 ms) compared to the current frame.
  • the shifted mono signal is then coded (block 312) by the mono EVS encoder, for example at a rate of 13.2, 16.4 or 24.4 kbit / s.
  • the coding may be performed directly on the non-shifted signal; in this case the shift can be performed after decoding.
  • the block 313 introduces a delay of two frames on the spectra L [k], R [k] and M [k] in order to obtain the spectra L bU f [k], R bU f [k] and M bU f [k].
  • the coding of the spatial information is implemented in the blocks 315 to 319 according to a coding method of the invention.
  • the coding includes an optional step of classifying the input signal in block 321.
  • This classification block makes it possible to switch from one coding mode to another.
  • One of the coding modes being that implementing the invention for coding the spatialization information.
  • the other coding modes are not detailed here, but it will be possible to use conventional stereo or multichannel coding techniques including parametric coding techniques with ILD, ITD, IPD, ICC parameters.
  • the classification is indicated here with the input L and R time signals, possibly the signals in the frequency domain and the stereo or multichannel parameters can also be used for the classification.
  • the classification can also be used to apply the invention to a given spatial parameter (for example to code the ITD or the ILD), in other words, to switch the spatial parameter coding type with a possible choice between a coding method according to a model as in the invention or an alternative coding method of the state of the art.
  • a given spatial parameter for example to code the ITD or the ILD
  • the spatial parameters are extracted (block 314) from the spectra L [k], R [k] and M [k] shifted by two frames: L bU f [k], R bU f ⁇ ⁇ and M bU f [k ] and coded (blocks 315 to 319) according to an encoding method described with reference to Figures 4a to 4c and detailing blocks 315 and 317.
  • the spectra L bU f [k] and R bU are, for example, divided into frequency sub-bands.
  • a 1/3 octave subband cutout defined in Table 1 below will be taken:
  • the frequency line of index k 320 which corresponds to the frequency of Nyquist is not taken into account here.
  • B 35 sub-bands, these are defined by the following boundaries in the case where the input signal is sampled at 16 kHz:
  • ILD [b] 10. log 10 ⁇ ⁇ (11) where ff L 2 [b] and ⁇ [b] represent the energy of the left channel ⁇ L bU f [k]) and the right channel (R buf [ k]):
  • the ITD and ICC parameters are extracted in the time domain (block 320).
  • these parameters can be extracted in the frequency domain (block 314), which is not shown in Figure 3 to not weigh down the figure.
  • An exemplary embodiment of the ITD estimation in the frequency domain is given in ITU-T G.722 Appendix D from the product L [/ c]. i? * [/ c] smoothed.
  • the ITD and ICC parameters are estimated as follows.
  • the ITD is sought by intercorrelation according to the equation (3) repeated here:
  • ITD max_ d ⁇ T ⁇ d ⁇ 1 ⁇ ! ⁇ + ⁇ ).
  • the ITD obtained according to equation (3) is then smoothed to attenuate its temporal variations.
  • the interest of smoothing is to attenuate the fluctuations of the instantaneous ITD which can degrade the quality of the spatial synthesis at the decoder.
  • the retained smoothing method is beyond the scope of the invention and is not detailed here.
  • the ICC is also calculated according to the equation (4) defined above.
  • the spatial parameters or information ILD and ITD are coded according to a method that is the subject of the invention and described with reference to FIGS. 4a to 4c, which detail the blocks 315 and 317 of FIG. 3 according to various embodiments of the invention. . These blocks 315 and 317 implement methods based on models of respective representations of the ITD and ILD information.
  • Some parameters of the respective models obtained at the output of the blocks 315 and 317 are then coded at 316 and 318 for example according to a scalar quantization method.
  • All spatialization information thus encoded is multiplexed by the multiplexer 322 before being transmitted.
  • Figures 5a and 5b recall some important notions about sound perception.
  • Figure 5a is illustrated a median plane M, a frontal plane F and a horizontal plane H, relative to the head of a listener.
  • the sound perception allows a 3D location of a sound source, this location is typically identified by spherical coordinates (r, ⁇ , ⁇ ) according to Figure 5b; in the case of a stereo signal, the perception is on a horizontal plane and in this case polar coordinates (r, ⁇ ) are sufficient to locate the source in 2D.
  • a stereo signal only allows reproduction on a line between 2 loudspeakers on the horizontal plane, whereas a binaural signal normally allows a 3D perception.
  • the signal is considered to comprise a sound source located in the horizontal plane.
  • a virtual source associated with the multichannel signal it may be useful to define the position of a virtual source associated with the multichannel signal to be encoded.
  • the position of the source is specified by the polar coordinates (r, ⁇ ).
  • the angle ⁇ is defined between the front axis 530 of the listener and the axis of the source 520.
  • the two ears of the listener are represented in 550R for the right ear and in 550L for the left ear.
  • the time shift information between the two channels of a binaural signal is associated with the interaural difference in time, that is, the time difference that a sound takes to reach both ears. If the source is directly in front of the listener, the wave arrives at the same time in both ears and the ITD information is zero.
  • interaural time difference can be simplified by using a geometric approximation in the form of the following sine law:
  • is the azimuth in the horizontal plane
  • a is the radius of a spherical approximation of the head
  • This law is independent of frequency, and is known to give good results in terms of spatial localization.
  • a virtual sound source can therefore be localized with an angle ⁇ and the ITD information can be deduced by the following formula:
  • ITD max may, for example, correspond to 630 ⁇ , which is the perceptual separation limit between two pulses. For larger ITD values the subject will hear two different sounds and will not be able to interpret the sounds as a single sound source.
  • sine law may be replaced by the Woodworth ITD model defined in R.S. Woodworth, Experimental Psychology (Holt, NY), 1938, pp. 520-523, by the following equation:
  • ITD (6) a (sin (e) + e) / c (17) which is valid for a far field (typically a source at a distance of at least 10 a).
  • ITD max a (1 + TT / 2) / C (19)
  • ITD (6) ITD max (sin (e) + ⁇ ) (20)
  • the block 315 which receives an interchannel time shift information (ITD) by the extraction module 320 comprises a module 410 for obtaining a representation model of the offset information.
  • the ITD max value can be made flexible by encoding either this value directly or by coding the difference between this value and a predetermined value. This approach makes it possible to extend the application of the ITD model to more general cases, but it has the disadvantage of requiring an additional bit rate.
  • block 412 appears in dashed lines in FIG. 4a.
  • a module 411 for determining the angle ⁇ as defined above is used to obtain an angle defined by the sound source. More precisely, this module searches for the azimuth parameter ⁇ which makes it possible to get as close as possible to the extracted ITD.
  • this angle can be obtained analytically:
  • the asin function can be approximated.
  • This search can be performed by pre-storing the different candidate values of ITD max .
  • sin (e) from the ITD model in a table M [TD for a search interval that can be T [- ⁇ / 2, ⁇ / 2] assuming that the ITD is symmetric when the source is in front or behind the subject.
  • the values of ⁇ are discretized, for example with a step of 1 ° over the search interval.
  • the angle parameter ⁇ determined in block 411 is then coded according to a conventional coding method, for example by 4-bit scalar quantization by block 316. This block performs a quantization index search.
  • the number of bits allocated to the coding of the azimuth may be different, and the quantization levels may be non-uniform to take into account the perceptual limits of the location of a sound source according to the azimuth.
  • this parameter which makes it possible to code the ITD time shift information, possibly with the ITD max coding (block 412) as additional information if the value predefined by the ITD model has to be adapted. Spatialization information will therefore be found at decoding by decoding the angle parameter, possibly by decoding ITD max , and applying the same representation model of the ITD.
  • the bit rate required for coding this angle parameter is small (for example 4 bits per frame) when no correction of the pre-defined ITD max value in the model is coded. Thus, the coding of this spatialization information (ITD) is little consumer in flow.
  • the single-angle coding ⁇ can be implemented to encode the spatialization information of a binaural signal.
  • an ITD may be estimated per frequency band, for example by taking a B-subband cut defined above.
  • an angle ⁇ per frequency band is coded and transmitted to the decoder, which for the example of B sub-bands gives B angles to be transmitted.
  • the estimation of the ITD can be ignored for certain high frequency bands for which the phase differences are not perceptible.
  • a subband cut with a resolution other than 25 Hz may be used; it will thus be possible to group some sub-bands because the 1/3 octave cut or the ERB scale may be too fine for the ITD coding. This avoids coding too many angles per frame.
  • the ITD is then converted to an angle as in the case of a single angle described above with a bit allocation that can be either fixed or variable depending on the importance of the sub-bit. bandaged.
  • a vector quantization can be implemented in block 316.
  • FIG. 4b represents an alternative embodiment of the invention that can replace the mode described in FIG. 4a. The principle of this variant is to combine in particular the blocks 411 and 316 in a block 432.
  • the model as defined for the interchannel time shift information may not be fixed and can be parameterized.
  • Each model defines a set of ITD values according to an angle parameter: the sine law and the Woodworth law are two examples of models.
  • a model index and an angle index also called an angle parameter to be coded according to FIG. the following equation:
  • N M is the number of models in the ITD model table
  • NQ (TO) is the number of azimuth angles considered for the m-th model
  • M ITD (m, t) corresponds to a precise value of the ITD information.
  • the index of angle t corresponds in fact to an angle ⁇ covering the interval] - ⁇ ⁇ ⁇ ] with a step of
  • the model M ITD (m, t) is implicitly a function of the azimuth angle, since the index t actually represents a quantization index of the angle 0.
  • the model M ITD (m, t) is an efficient way to combine the relation between ITD and 0, and the quantization of 0 over ⁇ ⁇ ( ⁇ ) levels, and potentially use several models (at least one), indexed by m opt when more than one model is used.
  • Ng m the size of the ITD information.
  • the coding of a correction information of the ITD max value is optional, so the block 312 is indicated in dotted lines.
  • the bit budget allocated to the ITD max encoding is zero, then the pre-defined ITD max value will be taken from the representation model of the ITD.
  • the representation model of the ITD can be generalized so as to reduce itself only to the horizontal plane but also to include the elevation. In this case, two angles are determined, the azimuth angle ⁇ and the elevation angle ⁇ .
  • 0, .., ⁇ ⁇ ( ⁇ ) -1 with ⁇ ⁇ ( ⁇ ) the number of elevation angles considered for the m-th model and p opt representing the elevation angle to be encoded.
  • the block 316 of FIG. 4b will be able to code and multiplex in different ways with a fixed or variable rate coding of the information m opt , opt , p opt and ITD max than when these must be transmitted.
  • ITD interchannel intensity difference
  • ILD glob (0) max ILD sin (9) (30)
  • the reference ILD can be defined - in deferred time, when defining the ILD model, taking a normalized signal base or HRTFs filter base - taking the maximum of the total ILD of a signal binaural. It is considered in the invention that this sine law applies not only to the total (or global) ILD but also to the ILD by subbands; in this case, the parameter ILD max depends on the index of the subband and the model becomes:
  • ILD [b] ⁇ e) ILD max [b] sin ⁇ e) (31)
  • ITD max a value ITD max has been defined
  • Another example of a model is the ORTF stereo microphone configuration shown in Figure 6b.
  • subband ILD model may be defined in relation to an ORTF microphone configuration as follows:
  • the block 317 which receives an interchannel difference in intensity (ILD) information by the extraction module 314, comprises a module 420 of FIG. obtaining a representation model of interchannel intensity difference (ILD) information.
  • This model is for example the model as defined above in equation (30) or with other models described in this document.
  • the angle parameter ⁇ already defined in 411 can be re-used at the decoder to find the global ILD or the ILD in sub-bands as defined by equation (30), (31) or (35); this makes it possible to "mutualize” the coding of the ITD and the ILD. In the case where the max ILD value is not fixed, it is determined at 423 and coded.
  • a module 421 for estimating inter-channel intensity difference information is implemented from the angle parameter obtained by block 411 for encoding the offset information. time (ITD) and secondly the representation model of equation (30), (31) or (35).
  • the module 422 calculates a residue of the ILD information, i.e., the difference between the actual inter-channel intensity difference (ILD) information extracted at 314 and the difference information of Interdanal Intensity (ILD) estimated at 421 from the ILD model.
  • This residue may be encoded at 318 for example by a conventional scalar quantization method.
  • the quantization table can for example be limited to a dynamic of +/- 12 dB with a step of 3 dB.
  • This ILD residue makes it possible to improve the quality of decoding of the ILD information in the case where the ILD model is too specific and applies only to the signal to be encoded in the current frame; it is recalled that a classification may possibly be used to the encoder to avoid such cases, however in the general case it may be useful to encode an ILD residue.
  • the coding of these parameters as well as the angle of the ITD makes it possible to recover the inter-channel intensity difference (ILD) information from the decoder of the binaural audio signal with a good quality.
  • ITD inter-channel intensity difference
  • spatialization information (global or by sub-bands) will therefore be found at decoding by applying the same representation model and decoding, if appropriate, the residual and ILD parameters of reference.
  • the rate required to code these parameters is lower than if the ILD information itself were coded, especially when the ILD residue does not have to be transmitted and used.
  • This ILD model using only a global ILD value is however very simplistic because in general the ILD is defined on several sub-bands.
  • B sub-bands in a 1/3 octave or ERB scale cut have been defined.
  • the representation model of the ILD is thus extended to several sub-bands. This extension applies to the invention described in Figure 4a, however the associated description is given below in the context of Figure 4b to avoid too much redundancy.
  • the model is a function of angle ⁇ and possibly elevation; this model can be the same in all the sub-bands, or vary according to the sub-bands.
  • the variant embodiment described in FIG. 4b is considered for the coding of the ILD.
  • ITD interchannel intensity difference
  • the model as defined for interchannel intensity difference (ILD) information is not fixed but is parameterizable.
  • the model is defined by a max ILD value and an angle parameter.
  • N M is the number of models in the ILD model table
  • Ng (m) is the number of azimuth angles considered for the mth model
  • M ILD (m, t) corresponds to a precise value of the ILD and dist information
  • ) is a distance criterion between ILD vectors.
  • this search can be simplified by using the angle information already obtained in block 432 for the ITD model.
  • FIGS. 6c to 6g An exemplary ILD model is illustrated in Figures 6c to 6g for several frequency bands.
  • the corresponding values (in dB) in the form of tables are not given here so as not to burden the text, approximate values can be drawn from the graphs of FIGS. 6c to 6g.
  • This figure considers the case of a 1/3 octave cut already defined previously.
  • each figure represents the ILD for the frequency band defined by the octave third number defined in Table 1 above with a center frequency fc function of the band.
  • Each point marked with a circle on each sub-figure corresponds to a value M ILD (m, t); in addition to defining the ILD table associated with the model, the sine law scaled by a pre-defined and subband-dependent ILD max parameter has also been shown.
  • the representation model of the ILD may be generalized so as not to be reduced only to the horizontal plane but also to include the elevation.
  • the search for two angles becomes:
  • 0, .., ⁇ ⁇ ( ⁇ ) -1 with ⁇ ⁇ ( ⁇ ) the number of elevation angles considered for the m-th model and p opt representing the elevation angle to be encoded.
  • an exemplary ILD model (m, t, p) can be obtained from a set of HRTFs as follows. Given the HRTFs filters for ⁇ and ⁇ , we can: - calculate the ILDs by subband between left and right channels by subband
  • the multidimensional table M ILD (m, t, p) can be seen as a pattern of directivity brought back to the domain of the ILD.
  • An index of the selected law m opt is then coded and transmitted to the decoder at 318.
  • an ILD residue can be calculated (blocks 421 and 422) and coded.
  • M ITD ILD (m, t, p) and M ILD (m, t, p)) we can define a joint model in block 450: M ITD ILD (m, t, p) whose inputs include candidate values of ITD and ILD; thus, for different discrete values representing ⁇ and ⁇ "vectors" (ITD, ILD) are defined.
  • ITD discrete values representing ⁇ and ⁇ "vectors"
  • the distance measurement used for the search must combine the distance on the ITD and the distance on the ILD, however it is still possible to perform a separate search.
  • an index of the selected law m opt , the azimuth angle t opt and the elevation angle p opt determined at 453, are encoded at 331 and transmitted to the decoder, likewise for FIGS. 4b, the parameters ITD max , ILD max and the residue ILD can be determined and coded.
  • FIG. 8 A variant of the encoder illustrated in FIG. 3 implementing the joint model of FIG. 4c is illustrated in FIG. 8. It will be noted that in this variant of the encoder the parameters ITD and ICC are estimated in block 314. Moreover, it is considered that here the general case where IPD parameters are also extracted and coded in block 332. Blocks 330 and 331 correspond to the blocks indicated and detailed in FIG. 4c.
  • This decoder comprises a demultiplexer 701 in which the coded mono signal is extracted to be decoded at 702 by a mono EVS decoder (according to specifications 3GPP TS 26.442 or TS 26.443) in this example.
  • the part of the bitstream corresponding to the EVS mono encoder is decoded according to the bit rate used at the encoder. It is assumed here that there is no loss of frames or bit errors on the bit stream to simplify the description, however, known frame loss correction techniques can obviously be implemented in the decoder.
  • the decoded mono signal corresponds to M (n) in the absence of channel errors.
  • a short-term discrete Fourier transform analysis with the same windowing as the encoder is performed on M (n) (blocks 703 and 704) to obtain the spectrum M [k].
  • a decorrelation in the frequency domain (block 720) is also applied. This decorrelation can also be applied in the time domain.
  • synthesis block 708 it is for example possible to reconstruct a two-channel signal with the following processing on the decoded mono signal and transformed into frequencies:
  • ITD is the decoded ITD for the k-line (if only one ITD is coded, this value is identical for the different lines of index k) and NFFT is the length of the FFT and the inverse FFT (blocks 704, 709, 712).
  • the spectra L [k] and R [k] are thus calculated and then converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 709 to 714) to obtain the synthesized channels L (n) and R (n). .
  • Parameters that have been encoded to obtain the spatialization information are decoded at 705, 715, and 718.
  • the angle parameter ⁇ is decoded with possibly an ITD max value.
  • the module 706 for obtaining a representation model of an interchannel time shift information is implemented to obtain this model.
  • this model can be defined by the equation (15) defined above. So, from this model and the decoded angle parameter, it is possible for the module 707 to determine the inter-channel time shift information (ITD) of the multichannel signal.
  • inter-channel intensity difference (ILD) information are coded, they are decoded by the decoding module of these parameters at 715, to the decoder.
  • the residual (ILD) and reference ILD (ILD max ) parameters are decoded to 715.
  • this model can be defined by the equation (30) defined above.
  • ILD residual parameters i.e., the difference between the actual interchannel intensity difference (ILD) information and the interchannel intensity difference information ( ILD), the reference ILD parameter (ILD max ) and the 705 decoded angle parameter for the ITD information
  • ILD interchannel
  • the decoder of FIG. 7 is related to the coder of FIG. 4a. It will be understood that if the coding according to the invention is according to FIGS. 4b or 4c, the decoder will be modified accordingly to decode in particular model and angle indices in the form m opt , opt opt , opt opt and reconstruct the values of ITD and ILD according to the model used and indices associated with reconstruction values
  • the decoder of FIG. 7 is thus modified as illustrated in FIG. 9.
  • the decoded ILD and ITD parameters are not directly reconstructed.
  • Stereo synthesis (block 708) is replaced by binaural synthesis (block 920).
  • the decoding of the ILD and ITD information is reduced to a decoding (block 910) of the angular coordinates.
  • HRTFs (block 930) it is therefore possible to decode a binaural signal and not a stereo signal.
  • the HRTFs filters may be applied in the time domain.
  • the invention has been described from a decomposition of stereo channels by discrete Fourier transform.
  • the invention is also applicable to other complex representations, such as for example the Modulated Complex Lapped Transform (MCLT) decomposition combining a modified discrete cosine transform (MDCT) and a discrete modified sinus transform (MDST), as well as the case of Pseudo-Quadrature Mirror Filter (PQMF) filter banks.
  • MCLT Modulated Complex Lapped Transform
  • MDCT modified discrete cosine transform
  • MDST discrete modified sinus transform
  • PQMF Pseudo-Quadrature Mirror Filter
  • the encoders and decoders as described with reference to FIGS. 3 and 7 may be integrated in multimedia equipment of the set-top box type or audio or video content player. They can also be integrated into communication equipment of the mobile phone or communication gateway type.
  • FIG. 10 represents an exemplary embodiment of such an equipment in which an encoder as described with reference to FIGS. 3, 8 and 4a to 4c or a decoder as described with reference to FIG. 7 or 9, according to the invention is integrated.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting a plurality of spatialization information from the multichannel signal, obtaining at least one representation model of extracted spatialization information, determining at least one angle parameter of a model obtained and encoding the at least one angle parameter determined to code the spatialization information extracted during the coding spatialization information.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of receiving and decoding at least one coded angle parameter, obtaining at least one spatialization information representation model and determining a plurality of spatialisation information of the multichannel signal from the at least one obtained model and the at least one decoded angle parameter.
  • the memory MEM can store the representation model or models of different spatialization information that are used in the coding and decoding methods according to the invention.
  • FIGS. 3, 4 on the one hand and 7 on the other hand show the steps of an algorithm of such a computer program respectively for the encoder and the decoder.
  • the computer program can also be stored on a memory medium readable by a reader of the device or equipment or downloadable in the memory space thereof.
  • Such equipment as an encoder comprises an input module capable of receiving a multichannel signal, for example a binaural signal comprising the R and L channels for right and left, either by a communication network or by reading a stored content. on a storage medium.
  • This multimedia equipment may also include means for capturing such a binaural signal.
  • the device as an encoder comprises an output module capable of transmitting a mono signal M resulting from a channel reduction processing and at least an angle parameter ⁇ making it possible to apply a representation model of a piece of information. spatialization to find this spatial information. If necessary, other parameters such as ILD, ILD or reference ITD residual parameters (ILDmax or ITDmax) are also transmitted via the output module.
  • Such equipment as a decoder comprises an input module able to receive a mono signal M resulting from a channel reduction processing and at least an angle parameter ⁇ making it possible to apply a representation model of the information spatialization to find this spatial information. If necessary, to retrieve the spatialization information, other parameters such as ILD, ILD or reference ITD residual parameters (ILDmax or ITDmax) are also received via the input module E.
  • the device as a decoder comprises an output module capable of transmitting a multichannel signal, for example a binaural signal comprising the R and L channels for right and left.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

L'invention se rapporte à un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage (312) d'un signal (M) issu d'un traitement de réduction de canaux (307) appliqué au signal multicanal et de codage d'informations de spatialisation du signal multicanal. Le procédé est tel qu'il comporte les étapes suivantes : - extraction (314, 320) d'une pluralité d'informations de spatialisation du signal multicanal; - obtention (315, 317) d'au moins un modèle de représentation des informations de spatialisation extraites; - détermination (315, 411) d'au moins un paramètre d'angle d'un modèle obtenu; - codage (316, 318) du au moins un paramètre d'angle déterminé pour coder les informations de spatialisations extraite lors du codage d'informations de spatialisation. L'invention se rapporte également à un procédé de décodage d'un tel signal codé et des dispositifs de codage et de décodage correspondants.

Description

Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
La présente invention concerne le domaine du codage/décodage des signaux numériques.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).
Plus particulièrement, la présente invention se rapporte au codage et au décodage multicanal paramétrique de signaux audio multicanaux.
L'invention s'intéresse donc aux signaux multicanaux, et en particulier aux signaux binauraux qui sont des signaux sonores enregistrés avec des microphones placés à l'entrée du conduit de chaque oreille (d'une personne ou d'un mannequin) ou bien synthétisés artificiellement par le biais de filtres connus sous le nom de filtres HRIR (Head-Related Impulse Response) dans le domaine temporel ou HRTF (Head-Related Transfer Function) dans le domaine fréquentiel, qui sont fonction de la direction et de la distance de la source sonore et de la morphologie du sujet. Les signaux binauraux sont associés à une écoute typiquement au casque ou oreillette et présentent l'avantage de représenter une image spatiale donnant l'illusion d'être naturellement au milieu d'une scène sonore; il s'agit donc d'une reproduction de la scène sonore en 3D avec seulement 2 canaux. On notera qu'il est possible d'écouter un son binaural sur des haut-parleurs moyennant des traitements complexes pour inverser les filtres HRIR/HRTF et reconstituer des signaux binauraux.
On distingue ici les signaux binauraux des signaux stéréo. Un signal stéréo est aussi constitué de deux canaux mais il ne permet pas en général une reproduction parfaite de la scène sonore en 3D. Par exemple, un signal stéréo peut être construit en prenant un signal donné sur le canal gauche et un signal nul sur le canal droit, à l'écoute un tel signal donnera une localisation de source sonore sur la gauche mais dans un environnement naturel cet artifice n'est pas possible car le signal à l'oreille droite est une version filtrée (incluant un décalage temporel et une atténuation) du signal à l'oreille gauche en fonction de la morphologie de la personne.
Le codage multicanal paramétrique se base sur l'extraction et le codage de paramètres d'information spatiale afin qu'au décodage ces caractéristiques spatiales puissent être utilisées pour recréer la même image spatiale que dans le signal original. Des exemples de codées basés sur ce principe se trouvent dans les standards 3GPP e-AAC+ ou MPEG Surround. On considère ici à titre d'exemple le cas du codage stéréo paramétrique avec N=2 canaux, dans la mesure où sa description est plus simple que dans le cas de N>2 canaux.
Une technique de codage/décodage stéréo paramétrique est par exemple décrite dans le document de J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, intitulé "Parametric Coding of Stereo Audio" dans EURASIP Journal on Applied Signal Processing 2005:9, pp. 1305-1322. Cet exemple est repris en référence aux figures 1 et 2 décrivant respectivement un codeur et un décodeur stéréo paramétrique.
Ainsi, la figure 1 décrit un codeur stéréo recevant deux canaux audio, un canal gauche (noté L pour Left en anglais) et un canal droit (noté R pour Right en anglais).
Les signaux temporels L(n) et R(n), où n est l'indice entier des échantillons, sont traités par les blocs 101, 102, 103 et 104 qui effectuent une analyse de Fourier court-terme. Les signaux transformés L [k] et R [k], où k est l'indice entier des coefficients fréquentiels, sont ainsi obtenus.
Le bloc 105 effectue un traitement de réduction de canaux ou "downmix" en anglais pour obtenir dans le domaine fréquentiel à partir des signaux gauche et droit, un signal monophonique ci-après nommé signal mono. Plusieurs techniques ont été développées pour le traitement de réduction des canaux ou "downmix" stéréo à mono. Ce "downmix" peut être effectué dans le domaine temporel ou fréquentiel. On distingue en général :
- Le "downmix" passif qui correspond à un matriçage direct des canaux stéréo pour les combiner en un seul signal - les coefficients de la matrice de downmix sont en général réels et de valeurs prédéterminées (fixes);
- Le "downmix" actif (adaptatif) qui inclut un contrôle de l'énergie et/ou de la phase en plus de la combinaison des deux canaux stéréo.
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105. Les paramètres extraits sont les suivants.
Les paramètres ICLD ou ILD ou CLD (pour " InterChannel / Channel Level Différence" en anglais), encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit. Ces paramètres permettent de positionner des sources sonores dans le plan horizontal stéréo par "panning". Ils sont défi
Figure imgf000004_0001
où L[k] et R[k] correspondent aux coefficients spectraux (complexes) des canaux L et R, chaque bande de fréquence d'indice b = 0, ... , B— 1 comprend les raies fréquentielles dans l'intervalle [kb, kb+1— 1] , le symbole * indique le conjugué complexe et B est le nombre de sous-bandes. Les paramètres ICPD ou IPD (pour "InterChannel Phase Différence" en anglais), encore appelés différences de phase, sont définis suivant la relation suivante:
ICPD [b] = ^ (∑'^-1 L[k]. R* [k]) (2) où A indique l'argument (la phase) de l'opérande complexe.
On peut également définir de façon équivalente à l'ICPD, un décalage temporel intercanal appelé ICTD ou ITD (pour "InterChannel Time Différence" en anglais). L'ITD peut être mesuré par exemple comme le retard maximisant l'intercorrélation entre L et R:
Figure imgf000005_0001
où d définit l'intervalle de recherche du maximum. On notera que la corrélation à l'équation (3) peut être normalisée.
A la différence des paramètres ICLD, ICPD et ICTD qui sont des paramètres de localisation, le paramètre ICC (pour "InterChannel Cohérence" en anglais) représente le niveau de corrélation (ou cohérence) inter-canal et est associé à la largeur spatiale d'une source sonore; l'ICC peut être défini comme :
ICC = max_d≤T≤d |∑^-0 T-1 L(n + T). i?(n) | (4) où la corrélation peut être normalisée comme pour l'éq. (3).
Il est noté dans l'article de Breebart et al. que les paramètres ICC ne sont pas nécessaires dans les sous-bandes réduites à un seul coefficient fréquentiel - en effet les différences d'amplitude et de phase décrivent complètement la spatialisation dans ce cas "dégénéré".
Les paramètres ICLD et ICPD sont extraits par analyse des signaux stéréo, par le bloc 105. Les paramètres ICTD ou ICC peuvent également être extraits par sous-bande à partir des spectres L[k] et R [k] ; cependant leur extraction est en général simplifiée en supposant un décalage temporel intercanal identique pour chaque sous-bande et dans ce cas un paramètre peut être extrait à partir des canaux temporels L(n) et R(n).
Le signal mono M[k] est transformé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est ensuite réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.
En général le spectre des signaux (L[/c], R [k]) est divisé suivant une échelle fréquentielle non-linéaire de type ERB (Equivalent Rectangular Bandwidth) ou Bark. Les paramètres (ICLD, ICPD, ICC, ITD) sont codés par quantification scalaire éventuellement suivie d'un codage entropique et/ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, l'ICLD est codée par un quantificateur non-uniforme (allant de -50 à +50 dB) avec codage entropique différentiel. Le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible.
Pour le codage du signal mono (bloc 109), plusieurs techniques de quantification avec ou sans mémoire sont possibles, par exemple le codage à "Modulation par Impulsions Codées" (MIC), sa version avec prédiction adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA) ou des techniques plus évoluées comme le codage perceptuel par transformée ou le codage "Code Excited Linear Prédiction" (CELP) ou un codage multi-modes.
On s'intéresse ici plus particulièrement au standard 3GPP EVS (Pour « Enhanced Voice Services ») qui utilise un codage multi-modes. Les détails algorithmiques du codée EVS sont fournis dans les spécifications 3GPP TS 26.441 à 26.451 et ils ne sont donc pas repris ici. Par la suite, on fera référence à ces spécifications par la dénomination EVS.
Le signal d'entrée du codée EVS (mono) est échantillonné à la fréquence de 8, 16, 32 ou 48 kHz et le codée peut représenter des bandes audio téléphoniques (narrowband, NB), élargie (wideband, WB), super-élargie (super-wideband, SWB) ou pleine bande (fullband, FB). Les débits du codée EVS sont divisés en deux modes:
o "EVS Primary" :
o débits fixes: 7.2, 8, 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128 o mode à débit variable (VBR) avec un débit moyen proche de 5.9 kbit/s pour la parole active
o mode "channel-aware" à 13.2 en WB et SWB uniquement o "EVS AMR-WB 10" dont les débits sont identiques au codée 3GPP AMR- WB (9 modes)
A cela s'ajoute le mode de transmission discontinue (DTX) dans lequel les trames détectées comme inactives sont remplacées par des trames SID (SID Primary ou SID AMR- WB 10) qui sont transmises de façon intermittente, environ une fois toutes les 8 trames.
Au décodeur 200, en référence à la figure 2, le signal mono est décodé (bloc 201), un dé-corrélateur est utilisé (bloc 202) pour produire deux versions (n) et M'(n) du signal mono décodé. Cette décorrélation, nécessaire uniquement lorsque le paramètre ICC est utilisé, permet d'augmenter la largeur spatiale de la source mono M(n). Ces deux signaux (n) et M'(n) sont passés dans le domaine fréquentiel (blocs 203 à 206) et les paramètres stéréo décodés (bloc 207) sont utilisés par la synthèse (ou mise en forme) stéréo (bloc 208) pour reconstruire les canaux gauche et droit dans le domaine fréquentiel. Ces canaux sont enfin reconstruits dans le domaine temporel (blocs 209 à 214).
Un exemple de codage stéréo paramétrique cherchant à représenter des signaux binauraux (sans respecter la nature des filtres HRTF) est décrit dans l'article de Pasi Ojala, Mikko Tammi, Miikka Vilermo, intitulé "Parametric binaural audio coding", dans Proc. ICASSP, 2010, pp. 393-396. Deux paramètres sont codés pour restituer une image spatiale avec une localisation proche d'une image binaurale: l'ICLD et l'ITD. De plus un paramètre ALC (pour « Ambiance Level Control » en anglais) similaire à l'ICC est également codé, permettant de contrôler le niveau de Γ « ambiance » associée à l'utilisation de canaux décorrélés. Ce codée est décrit pour des signaux en bande super-élargie avec des trames de 20 ms et un débit de 20 ou 32 kbit/s pour coder le signal mono auquel s'ajoute un débit de 5 kbit/s pour coder les paramètres spatiaux.
Un autre exemple de codée stéréo paramétrique développé avec un mode spécifique pour coder des signaux binauraux est donné par la norme G.722 Annexe D, en particulier dans le mode de codage stéréo Rlws en bande élargie à 56+8 kbit/s. Ce codée fonctionne avec des trames "courtes" de 5 ms selon 2 modes: un mode "transitoire" où des ICLD sont codés sur 38 bits et un mode "normal" où des ICLD sont codés sur 24 bits avec un ITD /IPD pleine bande sur 5 bits. Les détails d'estimation de l'ITD, de codage des paramètres ICLD et ITD ne sont pas repris ici. On notera que les ICLD sont codés par « décimation » en distribuant le codage des ICLDs sur plusieurs trames successives, en ne codant qu'un sous- ensemble des paramètres d'une trame donnée.
Dans les deux exemples il est important de noter qu'il ne s'agit pas de codées binauraux, mais de codées stéréo cherchant à reproduire une image spatiale similaire à un signal binaural.
On notera que le cas du codage multicanal paramétrique avec N>2 suit le même principe du cas N=2, cependant en général le downmix peut ne pas être mono mais stéréo et les paramètres inter-canaux doivent couvrir plus que 2 canaux. Un exemple de réalisation est donné dans le standard MPEG Surround où des paramètres ICLD, ICTD et ICC sont codés. On notera aussi que le décodeur MPEG Surround inclut une restitution binaurale, paramétrée par des filtres HRTFs.
Considérons à présent le cas d'un codage et décodage stéréo de paramètres de type ICLD tel que décrit aux figures 1 et 2 et prenons le cas d'un signal en bande élargie, échantillonné à 16 kHz et analysé avec des trames de 20 ms et un fenêtrage sinusoïdal couvrant 40 ms (dont 20 ms de "lookahead"). Pour l'extraction des paramètres ICLD (bloc 105), les spectres L[k] et R [k] peuvent être par exemple découpés en B sous-bandes de fréquences selon l'échelle ERB. Pour chaque trame, l'ICLD de la sous-bande b=0,...,34 est calculée suivant l'équation:
Figure imgf000007_0001
où a [b] et σ [δ] représentent respectivement l'énergie du canal gauche (L[/c]) et du canal droit (R[k]):
Figure imgf000008_0001
Selon l'état de l'art, le codage d'un bloc de 35 ICLD d'une trame donnée peut être réalisé par exemple avec:
• 5 bits pour le premier paramètre ICLD (codé en absolu),
· 4 bits pour les 32 paramètres ICLD suivants (codés en différentiel),
• 3 bits pour les 2 derniers paramètres ICLD (codés en différentiel). ce qui donne un total de 5 + 32x4 + 2x3 = 139 bits / trame, soit un débit proche de 7 kbit/s dans le cas de trames de 20 ms. Ce débit ne comprend pas les autres paramètres.
Ce débit d'approximativement 7 kbit/s peut être réduit en moyenne en utilisant un codage entropique à débit variable, par exemple un codage de Huffman; cependant la réduction de débit ne pourra pas être drastique dans la plupart des cas.
Pour diviser le débit du codage des paramètres ICLD par 2, il serait possible d'utiliser l'approche de codage alterné décrit précédemment dans le cas du codage G.722 stéréo. Cependant, le débit associé reste important pour un codage avec 35 sous-bandes et 20 ms de trame; de plus, la résolution temporelle du codage serait réduite ce qui peut être problématique dans le cas de signaux non stationnaires. Une autre approche consisterait à réduire le nombre de sous-bandes pour aller de 35 à par exemple 20 sous-bandes. Cela réduirait le débit associé aux paramètres ICLD, mais dégraderait en général la fidélité de l'image spatiale synthétisée.
Si on suppose que le codeur de la figure 1 est un codeur stéréo fonctionnant par exemple à des débits de 16.4, 24.4, 32, 48, 64, 96, 128 kbit/s et qu'il s'appuie sur un downmix codé par un codée EVS mono, alors pour les plus bas débits, par exemple 16.4 kbit/s en stéréo, si le downmix est codé avec le codée EVS mono à 13.2 kbit/s, il ne reste que 3.2 kbit/s pour coder tous les paramètres spatiaux afin de représenter fidèlement une image spatiale. Si on doit coder non seulement des paramètres ICLD, mais également d'autres paramètres spatiaux, on comprend que le codage des paramètres ICLD décrit précédemment requiert trop de débit.
Il existe donc un besoin pour représenter les paramètres spatiaux d'un signal multicanal de façon efficace, à un débit aussi faible que possible et avec une qualité acceptable.
L'invention vient améliorer la situation de l'état de l'art.
A cet effet, elle propose un procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et de codage d'informations de spatialisation du signal multicanal. Le procédé est tel qu'il comporte les étapes suivantes : - extraction d'une pluralité d'informations de spatialisation du signal multicanal ;
- obtention d'au moins un modèle de représentation des informations de spatialisation extraites ;
- détermination d'au moins un paramètre d'angle d'un modèle obtenu ;
- codage du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.
La méthode de codage des informations de spatialisation s'appuie sur une approche basée modèle qui permet d'approximer les informations spatiales. Ainsi le codage d'une pluralité d'informations spatiales se réduit au codage d'un paramètre d'angle ce qui réduit considérablement le débit de codage par rapport au codage direct de l'information spatiale. Le débit nécessaire au codage de ce paramètre est donc réduit.
Dans un mode particulier de réalisation en sous bandes, les informations de spatialisation sont définies par sous-bandes de fréquence du signal audio multicanal et au moins un paramètre d'angle par sous-bande est déterminé et codé.
Dans un mode de réalisation particulier, le procédé comporte en outre les étapes de calcul d'une information de spatialisation de référence et de codage de cette information de spatialisation de référence.
Ainsi, le codage d'une information de référence peut améliorer la qualité de décodage. Le débit de codage de cette information de référence ne nécessite pas un débit trop important.
Cette méthode est particulièrement bien adaptée au codage de l'information spatiale de type décalage temporel intercanal (ITD) et/ou de type différence d'intensité intercanale (ILD).
Pour améliorer encore la qualité de décodage de l'information de type ILD, le procédé comporte en outre les étapes suivantes:
- estimation d'une information de différence d'intensité intercanale à partir du modèle obtenu et du paramètre d'angle déterminé ;
- codage de la différence entre l'information de différence d'intensité intercanale extraite et estimée.
Le codage de ce résidu nécessite un débit de codage supplémentaire mais cette méthode apporte toujours un gain en débit par rapport au codage direct de l'information de spatialisation ILD.
Dans un mode particulier de réalisation, un modèle de représentation par information de spatialisation est obtenu. Il peut être fixé et stocké en mémoire.
Ce modèle fixé et enregistré est par exemple un modèle de forme en sinus. Ce type de modèle est adapté à la forme de l'information ITD ou ILD selon la position de la source. Dans une variante de réalisation, l'obtention d'un modèle de représentation des informations de spatialisation est effectuée par la sélection dans une table de modèles définis pour différentes valeurs des informations de spatialisation.
Plusieurs modèles peuvent être sélectionnables en fonction de caractéristiques du signal multicanal. Cela permet d'adapter au mieux le modèle d'information de spatialisation au signal.
L'index du modèle choisi peut alors être dans un mode de réalisation, codé et transmise.
Dans une variante de réalisation un modèle de représentation commun à plusieurs informations de spatialisation est obtenu.
Cela permet de mutualiser la sélection d'un modèle à plusieurs informations de spatialisation, ce qui réduit les opérations de traitement à effectuer.
L'invention se rapporte également à un procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et de décodage d'informations de spatialisation du signal multicanal. Le procédé est tel qu'il comporte les étapes suivantes pour décoder au moins une information de spatialisation :
- réception et décodage d'au moins un paramètre d'angle codé ;
- obtention d'au moins un modèle de représentation d'informations de spatialisation ;
- détermination d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d' angle décodé.
De la même façon que pour le codage, cette méthode basée sur l'utilisation d'un modèle de représentation des informations de spatialisation permet de retrouver l'information avec une bonne qualité sans qu'il ne soit nécessaire d'avoir un trop grand débit. A débit réduit, un epluralité d'informations de spatialisation est retrouvée par le décodage d'un simple paramètre d'angle.
Dans un mode particulier de réalisation, le procédé comporte une étape de réception et de décodage d'un index de table de modèles et d'obtention du au moins un modèle de représentation des informations de spatialisation à décoder à partir de l'index décodé.
Ainsi, il est possible d'adapter le modèle à utiliser selon les caractéristiques du signal multicanal.
L'invention se rapporte à un codeur paramétrique d'un signal audionumérique multicanal comportant un module de codage d'un signal issu d'un module de traitement de réduction de canaux appliqué au signal multicanal et des modules de codage d'informations de spatialisation du signal multicanal. Le codeur est tel qu'il comporte : - un module d'extraction d'une pluralité d'informations de spatialisation du signal multicanal ;
- un module d'obtention d'au moins un modèle de représentation des informations de spatialisation extraites ;
- un module de détermination d'au moins un paramètre d'angle d'un modèle obtenu ;
- un module de codage du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.
Le codeur présente les mêmes avantages que le procédé qu'il met en œuvre.
L'invention se rapporte à un décodeur paramétrique d'un signal audionumérique multicanal comportant un module de décodage d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et un module de décodage d'informations de spatialisation du signal multicanal. Le décodeur est tel qu'il comporte :
- un module de réception et décodage d'au moins un paramètre d'angle codé ; - un module d'obtention d'au moins un modèle de représentation des informations de spatialisation ;
- un module de détermination d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.
Le décodeur présente les mêmes avantages que le procédé qu'il met en œuvre.
Enfin, l'invention se rapporte à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'invention, lorsque ces instructions sont exécutées par un processeur, à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de décodage selon l'invention, lorsque ces instructions sont exécutées par un processeur.
L'invention se rapporte enfin à support de stockage lisible par un processeur sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de codage tel que décrit et /ou du procédé de décodage tel que décrit.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la figure 1 illustre un codeur mettant en œuvre un codage paramétrique connu de l'état de l'art et précédemment décrit;
- la figure 2 illustre un décodeur mettant en œuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit; - la figure 3 illustre un codeur paramétrique selon un mode de réalisation de l'invention;
- les figures 4a, 4b et 4c illustrent les étapes du procédé de codage selon différents modes de réalisation de l'invention par une illustration détaillée des blocs de codage d'informations spatiales;
- les figures 5a, 5b illustrent les notions de perception sonore en 3D et 2D et la figure 5c illustre une représentation schématique de coordonnées polaires (distance, azimuth) d'une source audio dans le plan horizontal par rapport à un auditeur, dans le cas binaural ;
- la figure 6a illustre des représentations de modèles d'énergie totale de HRTFs adaptés à représenter des informations spatiales de type ILD ;
- la figure 6b illustre une configuration de microphones stéréo de type ORTF captant un exemple de signal à deux canaux à coder selon un mode de réalisation du procédé de codage de l'invention ;
- les figures 6c à 6g illustrent des représentations d'un modèle d'information MILD (m, t) (pour m =0 et t correspondant à un azimuth de 0 à 360°) de spatialisation de type
ILD par sous-bandes dans une découpe en 1/3 d'octave, en fonction de l'angle d'azimuth ; la figure 7 illustre un décodeur paramétrique ainsi que le procédé de décodage selon un mode de réalisation de l'invention ;
- la figure 8 illustre une variante de réalisation d'un codeur paramétrique selon l'invention;
- la figure 9 illustre une variante de réalisation d'un décodeur paramétrique selon l'invention ; et
- la figure 10 illustre un exemple matériel d'un équipement incorporant un codeur apte à mettre en œuvre le procédé de codage selon un mode de réalisation de l'invention ou un décodeur apte à mettre en œuvre le procédé de décodage selon un mode de réalisation de l'invention.
En référence à la figure 3, un codeur paramétrique de signaux à deux canaux selon un mode de réalisation de l'invention, délivrant à la fois un train binaire mono et des paramètres d'information spatiale du signal d'entrée est maintenant décrit. Cette figure présente à la fois les entités, modules hardwares ou logiciels pilotés par un processeur du dispositif de codage et les étapes mises en œuvre par le procédé de codage selon un mode de réalisation de l'invention.
On décrit ici le cas d'un signal à deux canaux. L'invention s'applique également au cas d'un signal multicanal avec un nombre de canaux supérieur à 2.
Pour éviter d'alourdir le texte, le codeur décrit à la figure 3 sera appelé "codeur stéréo" même s'il permet le codage de signaux binauraux. De même les paramètres ICLD, ICTD, ICPD seront respectivement notés ILD, ITD, IPD même si le signal n'est pas binaural. Ce codeur stéréo paramétrique tel qu'illustré utilise un codage mono EVS selon les spécifications 3GPP TS 26.442 (code source en virgule fixe) ou TS 26.443 (code source en virgule flottante), il fonctionne avec des signaux stéréo ou multicanaux échantillonnés à la fréquence d'échantillonnage Fs de 8, 16, 32 et 48 kHz, avec des trames de 20 ms. Par la suite, sans perte de généralité, la description est principalement donnée pour le cas Fs =16 kHz et pour le cas N=2 canaux.
Il est à noter que le choix d'une longueur de trames de 20 ms n'est en aucun cas restrictif dans l'invention qui s'applique pareillement dans des variantes du mode de réalisation où la longueur de trames est différente, par exemple de 5 ou 10 ms, avec un autre codée qu'EVS.
Par ailleurs, l'invention s'applique pareillement à d'autres types de codage mono (ex : IETF OPUS, UIT-T G.722) opérant à des fréquences d'échantillonnage identiques ou non.
Chaque canal temporel (L(n) et R (n)) échantillonné à 16 kHz est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant typiquement les composantes en dessous de 50 Hz (blocs 301 et 302). Ce pré-filtrage est optionnel, mais il peut être utilisé pour éviter le biais dû à la composante continue (DC) dans l'estimation de paramètres comme l'ICTD ou l'ICC.
Les canaux L'(n) et ff'(n) issus des blocs de pré -filtrage sont analysés en fréquences par transformée de Fourier discrète avec fenêtrage sinusoïdal à recouvrement de 50% de longueur 40 ms soit 640 échantillons (blocs 303 à 306). Pour chaque trame, le signal (L'(n) , ff'(n)) est donc pondéré par une fenêtre d'analyse symétrique couvrant 2 trames de 20 ms soit 40 ms (soit 640 échantillons pour s=16 kHz). La fenêtre d'analyse de 40 ms couvre la trame courante et la trame future. La trame future correspond à un segment de signal "futur" communément appelé "lookahead" de 20 ms. Dans des variantes de l'invention, d'autres fenêtres pourront être utilisées, par exemple une fenêtre asymétrique à bas retard appelée "ALDO" dans le codée EVS. De plus, dans des variantes, le fenêtrage d'analyse pourra être rendu adaptatif en fonction de la trame courante, afin d'utiliser une analyse avec une fenêtre longue sur des segments stationnaires et une analyse avec des fenêtres courtes sur des segments transitoires/non stationnaires, avec éventuellement des fenêtres de transition entre fenêtres longue et courte.
Pour la trame courante de 320 échantillons (20 ms à s=16 kHz), les spectres obtenus, L [k] et R [k] (/c=0.. .320), comprennent 321 coefficients complexes, avec une résolution de 25 Hz par coefficient fréquentiel. Le coefficient d'indice k=0 correspond à la composante continue (0 Hz), il est réel. Le coefficient d'indice /c=320 correspond à la fréquence de Nyquist (8000 Hz pour s=16 kHz), il est aussi réel. Les coefficients d'indice 0 < k <160 sont complexes et correspondent à une sous-bande de largeur 25 Hz centrée sur la fréquence de k.
Les spectres L[k] et R [k] sont combinés dans le bloc 307 pour obtenir un signal mono (downmix) M[k] dans le domaine fréquentiel. Ce signal est converti en temps par FFT inverse et fenêtrage-recouvrement avec la partie "lookahead" de la trame précédente (blocs 308 à 310).
Un exemple de technique de « downmix » fréquentiel est décrit dans le document intitulé "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder" par Samsudin, E. Kurniawati, N. Boon Poh, F. Sattar, S. George, dans Proc. ICASSP, 2006. Dans ce document, les canaux L et R sont alignés en phase avant d'effectuer le traitement de réduction des canaux.
Plus précisément, la phase du canal L pour chaque sous-bande fréquentielle est choisie comme la phase de référence, le canal R est aligné selon la phase du canal L pour chaque sous-bande par la formule suivante:
R'[k] = ej 'CPD^R[k] (7) où R'[k] est le canal R aligné, k est l'indice d'un coefficient dans la ôieme sous-bande fréquentielle, ICPD [b] est la différence de phase inter-canal dans la ôieme sous-bande fréquentielle donnée par l'équation (2).
A noter que lorsque la sous-bande d'indice b est réduite à un coefficient fréquentiel, on trouve:
R' [k] = \R [k] \. e^L [k] (8) Finalement le signal mono obtenu par le "downmix" du document de Samsudin et al. cité précédemment est calculé en moyennant le canal L et le canal R' aligné, selon l'équation suivante:
Figure imgf000014_0001
L'alignement en phase permet donc de conserver l'énergie et d'éviter les problèmes d'atténuation en éliminant l'influence de la phase. Ce "downmix" correspond au "downmix" décrit dans le document de Breebart et al. où:
M[k] = w^ik] + w2R[k] (10)
ej.ICPD [b]
avec w-^ = 0,5 et w2 = dans le cas où la sous-bande d'indice b ne comporte qu'une valeur fréquentielle d'indice k.
D'autres méthodes de « downmix » peuvent bien sûr être choisies sans modifier la portée de l'invention.
Le retard algorithmique du codée EVS est de 30,9375 ms à s=8 kHz et 32 ms pour les autres fréquences FS=16, 32 ou 48 kHz. Ce retard inclut la trame courante de 20 ms, le retard supplémentaire par rapport à la longueur de trame est donc de 10,9375 ms à s=8 kHz et 12 ms pour les autres fréquences (soit 192 échantillons à Fs =16 kHz), le signal mono est retardé (bloc 311) de T= 320-192= 128 échantillons pour que le retard accumulé entre le signal mono décodé par EVS et les canaux stéréo originaux devienne un multiple de la longueur de trames (320 échantillons). Par suite, pour synchroniser l'extraction de paramètres stéréo (bloc 314) et la synthèse spatiale à partir du signal mono effectué au décodeur, le lookahead pour le calcul du signal mono (20 ms) et le retard de codage/décodage mono auquel est ajouté le retard T pour aligner la synthèse mono (20 ms) correspondent à un retard supplémentaire de 2 trames (40 ms) par rapport à la trame courante. Ce retard de 2 trames est spécifique à la mise en œuvre détaillée ici, en particulier il est lié aux fenêtres symétriques sinusoïdales de 20 ms. Ce retard pourrait être différent. Dans une variante de réalisation, on pourrait obtenir un retard d'une trame avec une fenêtre optimisée avec un recouvrement plus faible entre fenêtres adjacentes avec un bloc 311 n'introduisant pas de retard (Γ=0).
Le signal mono décalé est ensuite codé (bloc 312) par le codeur EVS mono par exemple à un débit de 13,2, 16,4 ou 24,4 kbit/s. Dans des variantes, le codage pourra être effectué directement sur le signal non décalé ; dans ce cas le décalage pourra être effectué après décodage.
On considère dans un mode particulier de réalisation de l'invention, illustré ici à la figure 3, que le bloc 313 introduit un retard de deux trames sur les spectres L [k] , R [k] et M[k] afin d'obtenir les spectres LbUf [k] , RbUf [k] et MbUf [k].
On pourrait de façon plus avantageuse en termes de quantité de données à stocker, décaler les sorties du bloc 314 d'extraction des paramètres ou encore les sorties des blocs de quantification 318, 316 et 319. On pourrait également introduire ce décalage au décodeur à la réception du train binaire du codeur stéréo.
Parallèlement au codage mono, le codage de l'information spatiale est mis en œuvre dans les blocs 315 à 319 selon un procédé de codage de l'invention. Par ailleurs, le codage comprend une étape optionnelle de classification du signal d'entrée dans le bloc 321.
Ce bloc de classification, selon le signal multicanal à coder peut permettre de passer d'un mode de codage à un autre. Un des modes de codage étant celui mettant en œuvre l'invention pour le codage des informations de spatialisation. Les autres modes de codage ne sont pas détaillés ici, mais on pourra utiliser des techniques classiques de codage stéréo ou multicanal dont des techniques de codage paramétrique avec des paramètres ILD, ITD, IPD, ICC. La classification est ici indiquée avec les signaux temporels L et R en entrée, éventuellement les signaux dans le domaine fréquentiel et les paramètres stéréo ou multicanal pourront aussi servir à la classification. On pourra également utiliser la classification pour appliquer l'invention à un paramètre spatial donné (par exemple pour coder l'ITD ou l'ILD), autrement dit pour commuter le type de codage de paramètres spatiaux avec un choix possible entre une méthode de codage selon un modèle comme dans l'invention ou une méthode de codage alternative de l'état de l'art.
Les paramètres spatiaux sont extraits (bloc 314) à partir des spectres L [k], R[k] et M[k] décalés de deux trames: LbUf [k], RbUf \ \ et MbUf [k] et codés (blocs 315 à 319) selon un procédé de codage décrit en référence aux figures 4a à 4c et détaillant les blocs 315 et 317.
Pour l'extraction des paramètres ILD (bloc 314), les spectres LbUf [k] et RbUf \ \ sont par exemple découpés en sous-bandes de fréquences.
Dans un mode de réalisation, on prendra une découpe en sous-bandes en 1/3 d'octave définie au tableau 1 ci-dessous :
Figure imgf000016_0001
Figure imgf000016_0002
Tableau 1
Ce tableau couvre tous les cas de fréquence d'échantillonnage, par exemple pour un codeur avec une fréquence d'échantillonnage à 16kHz on retiendra uniquement les B=20 premières sous-bandes. Ainsi, on pourra définir le tableau :
0 4 6 7 9 11 14 18 22 28 36 45 57 71 90 113 143 180 226 285 320]
Le tableau ci-dessus délimite (en indice de raies de Fourier) les sous-bandes fréquentielles d'indice b = 0 à B-l pour le cas s=16 kHz. Chaque sous-bande d'indice b comprend les coefficients kb=Q à kb+1— 1. La raie fréquentielle d'indice k =320 qui correspond à la fréquence de Nyquist n'est pas prise en compte ici. Dans des variantes, on pourra utiliser une autre découpe en sous-bandes, par exemple selon l'échelle ERB ; dans ce cas, on pourra utiliser B=35 sous-bandes, celles-ci sont définies par les frontières suivantes dans le cas où le signal d'entrée est échantillonné à 16 kHz:
1 2 3 5 6 8 10 12 14 17 20 23 27 31 35 40 46 52 58 66 74 83 93 104 117 130 145 162 181 201 224 249 277 307 320] Le tableau ci-dessus délimite (en indice de raies de Fourier) les sous-bandes fréquentielles d'indice b = 0 à B-l. Par exemple la première sous-bande (b=0) va du coefficient kb=Q à kb+1— 1 = 0; elle est donc réduite à un seul coefficient qui représente 25 Hz. De même, la dernière sous-bande (k=34) va du coefficient kb=307 à kb+1— 1 = 319, elle comprend 12 coefficients (300 Hz). La raie fréquentielle d'indice k =320 qui correspond à la fréquence de Nyquist n'est pas prise en compte ici.
Pour chaque trame, l'ILD de la sous-bande b =0, ...,B-l est calculée suivant les équations (5) et (6) reprises ici:
ILD [b] = 10. log10 \^ (11) où ffL 2 [b] et σ [b] représentent respectivement l'énergie du canal gauche {LbUf [k]) et du canal droit (Rbuf [k]):
Figure imgf000017_0001
Selon un mode de réalisation particulier, les paramètres ITD et ICC sont extraits dans le domaine temporel (bloc 320). Dans des variantes de l'invention ces paramètres pourront être extraits dans le domaine fréquentiel (bloc 314), ce qui n'est pas représenté sur la figure 3 pour ne pas alourdir la figure. Un exemple de réalisation de l'estimation de l'ITD dans le domaine fréquentiel est donné dans la norme UIT-T G.722 Annexe D à partir du produit L [/c]. i?* [/c] lissé.
Dans un mode de réalisation les paramètres ITD et ICC sont estimés de la façon suivante. L'ITD est recherché par intercorrélation selon l'équation (3) reprise ici :
ITD = max_d≤T≤d Σ^1!^ + τ). Κ(η) (13) avec par exemple d= 630μ8 x Fs , soit 10 échantillons à 16 kHz. Cette valeur de 630μ8 s'obtient pour le cas binaural, à partir de la loi de Woodworth définie ci-après, avec une approximation sphérique de la tête (avec un rayon moyen =8,5cm) et un azimuth θ = π/2.
L'ITD obtenu selon l'équation (3) est ensuite lissé pour atténuer ses variations temporelles. L'intérêt du lissage est d' atténuer les fluctuations de l'ITD instantané qui peuvent dégrader la qualité de la synthèse spatiale au décodeur. La méthode de lissage retenue dépasse le cadre de l'invention et elle n'est pas détaillée ici.
Lors du calcul de l'ITD on calcule aussi l'ICC selon l'équation (4) définie ci-avant.
Les paramètres ou informations spatiales ILD et ITD sont codés selon une méthode faisant l'objet de l'invention et décrite en référence aux figures 4a à 4c qui détaillent les blocs 315 et 317 de la figure 3 selon différents modes de réalisation de l'invention. Ces blocs 315 et 317 mettent en œuvre des méthodes basées sur des modèles de représentations respectives des informations ITD et ILD.
Certains paramètres des modèles respectifs obtenus à la sortie des blocs 315 et 317 sont ensuite codés en 316 et 318 par exemple selon une méthode de quantification scalaire.
Toutes les informations de spatialisation ainsi codées sont multiplexées par le multiplexeur 322 avant d'être transmises.
On rappelle aux figures 5a et 5b certaines notions importantes sur la perception sonore. A la figure 5a est illustré un plan médian M, un plan frontal F et un plan horizontal H, par rapport à la tête d'un auditeur. La perception sonore permet une localisation en 3D d'une source sonore, cette localisation est typiquement identifiée par des coordonnées sphériques (r, θ, φ) selon la figure 5b ; dans le cas d'un signal stéréo, la perception se fait sur un plan horizontal et dans ce cas des coordonnées polaires (r, Θ) suffisent à localiser la source en 2D. On rappelle également qu'un signal stéréo ne permet une reproduction que sur une ligne entre 2 haut-parleurs sur le plan horizontal, alors qu'un signal binaural permet normalement une perception en 3D.
Dans un mode de réalisation on considère que le signal comprend une source sonore située dans le plan horizontal.
Dans le cas d'un signal binaural, il peut être utile de définir la position d'une source virtuelle associée au signal multicanal à coder. Comme illustré à la figure 5c, si on considère uniquement le cas d'une source sonore 510 située dans le plan horizontal (2D) autour de la personne représentée par une tête approximée par une sphère en 540, la position de la source est spécifiée par les coordonnées polaires (r, Θ).
L'angle Θ est défini entre l'axe frontal 530 de l'auditeur et l' axe de la source 520. Les deux oreilles de l'auditeur sont représentées en 550R pour l'oreille droite et en 550L pour l'oreille gauche. L'information de décalage temporel entre les deux canaux d'un signal binaural est associée avec la différence interaurale de temps, c'est-à-dire la différence de temps que met un son à arriver aux deux oreilles. Si la source est directement devant l' auditeur, l'onde arrive au même moment aux deux oreilles et l'information d'ITD est nulle.
La différence interaurale de temps (ITD) peut être simplifiée en utilisant une approximation géométrique sous la forme de la loi en sinus suivante:
ÎTD 6) = asin(9)/c (14)
où Θ est l'azimuth dans le plan horizontal, a est le rayon d'une approximation sphérique de la tête et c la vitesse du son (en m.s ) qui peut être définie comme c=343 m.s . Cette loi est indépendante de la fréquence, et elle est connue pour donner de bons résultats en termes de localisation spatiale. Une source sonore virtuelle peut donc être localisée avec un angle Θ et l'information ITD peut être déduite par la formule suivante:
ΙΤΌ {Θ) = ITDmaxsin(e) (15)
ITDmax = a/c (16)
La valeur donnée à ITDmax peut par exemple correspondre à 630 μβ, qui est la limite de séparation perceptuelle entre deux impulsions. Pour des valeurs d'ITD plus grandes le sujet entendra deux sons différents et ne pourra pas interpréter les sons comme une seule source sonore.
Dans des variantes de l'invention la loi en sinus pourra être remplacée par le modèle d'ITD de Woodworth défini dans l'ouvrage de R.S Woodworth, Expérimental Psychology (Holt, New York), 1938, pp. 520-523, par l'équation suivante:
ITD(6) = a(sin(e) + e)/c (17) qui est valable pour un champ lointain (typiquement une source à une distance d'au moins 10. a). En reprenant le principe d'une normalisation par une valeur maximale ITDmax comme à l'équation (15), le modèle d'ITD selon la loi de Woodworth peut être écrit sous la forme :
77\D(0) — ITDmax(sin(&) + &) (18) où
ITDmax = a(l + TT/2)/C (19)
Dans des variantes, il serait possible de définir un facteur multiplicatif qui ne représente pas la valeur maximale de l'ITD mais une valeur proportionnelle par exemple le facteur a/c. L'invention s'applique également dans ce cas. Par exemple, pour simplifier l'expression de la loi de Woodworth il est possible d'écrire :
ITD(6) = ITDmax(sin(e) + Θ) (20) où
ITDmax = a/c (21)
Dans ce cas la valeur de ITDmax ne représente pas la valeur maximale de l'ITD. Par la suite, cet « écart de notation » sera utilisé.
Ainsi, en référence à la figure 4a, le bloc 315 qui reçoit une information de décalage temporel intercanal (ITD) par le module d'extraction 320, comprend un module 410 d'obtention d'un modèle de représentation de l'information de décalage temporel interacanal. Ce modèle est par exemple le modèle tel que défini ci-dessus à l'équation (15) avec un valeur ITDmax=630^s prédéfinie dans le modèle ou le modèle de l'équation (20).
Dans des variantes, la valeur ITDmax pourra être rendue flexible en codant soit cette valeur directement, soit en codant la différence entre cette valeur et une valeur pré- déterminée. Cette approche permet en effet d'étendre l'application du modèle d'ITD à des cas plus généraux, mais elle a pour inconvénient de nécessiter un débit supplémentaire. Pour indiquer que le codage explicite de la valeur ITDmax est optionnelle, le bloc 412 apparaît en pointillés à la figure 4a.
Un module 411 de détermination de l'angle Θ tel que défini ci-dessus est mis en œuvre pour obtenir angle défini par la source sonore. Plus précisément ce module recherche le paramètre d' azimuth Θ qui permet de s'approcher au plus près de l'ITD extrait. Quand la loi est connue comme à l'équation (15), cet angle peut être obtenu de façon analytique :
Θ = asin(ITD/ITDmax) (22)
Dans des variantes, la fonction asin pourra être approximée.
Une approche équivalente pour déterminer azimuth peut être mise en œuvre dans le bloc 411. Selon cette approche, la détermination de l'angle Θ pour la loi en sinus fait appel à une recherche à l'aide du modèle d'ITD, de la valeur la plus proche en fonction des valeurs possibles d' azimuth:
Θ = argmineeT(lTD - lTDmaxsin(e)f (23)
Cette recherche peut être effectuée en pré-stockant les différentes valeurs candidates de ITDmax. sin(e) issues du modèle d'ITD dans une table M[TD pour un intervalle de recherche qui peut être T = [—π/2, π/2] en supposant que l'ITD est symétrique lorsque la source est devant ou derrière le sujet. Dans ce cas, les valeurs de Θ sont discrétisées, par exemple avec un pas de 1° sur l'intervalle de recherche.
Dans le cas de la loi de Woodworth, on peut également suivre la même approche que ci-dessus pour la loi en sinus. L'expression analytique de la fonction inverse de sin(6) + Θ n'étant pas triviale, on pourra préférer la recherche :
Θ = argmineeT(lTD - IT Dmax sin e) + Θ))2 (24)
Le paramètre d'angle Θ déterminé dans le bloc 411 est ensuite codé selon une méthode de codage classique par exemple par quantification scalaire sur 4 bits par le bloc 316. Ce bloc réalise une recherche de l'indice de quantification
i = argmin]=0 15(0 - Qe [j])2 (25) où la table est donnée pour le cas d'une quantification scalaire uniforme sur 4 bits Qe = {-n - -7 0, § (26)
Dans des variantes, le nombre de bits alloué au codage de l'azimuth pourra être différent, et les niveaux de quantification pourront être non uniformes pour tenir compte des limites perceptuelles de la localisation d'une source sonore selon l' azimuth.
C'est le codage de ce paramètre qui permet de coder l'information de décalage temporel ITD, avec éventuellement le codage de ITDmax (bloc 412) comme information supplémentaire si la valeur pré -déterminée par le modèle d'ITD doit être adaptée. L'information de spatialisation sera donc retrouvée au décodage en décodant le paramètre d'angle, éventuellement en décodant ITDmax, et en appliquant le même modèle de représentation de l'ITD. Le débit nécessaire au codage de ce paramètre d' angle est faible (par exemple 4 bits par trame) lorsqu' aucune correction de la valeur ITDmax pré -définie dans le modèle n'est codée. Ainsi, le codage de cette information de spatialisation (ITD) est peu consommateur en débit.
A très bas débit, le codage d'un seul angle Θ peut être mis en œuvre pour coder l'information de spatialisation d'un signal binaural.
Dans une variante de réalisation, on pourra estimer un ITD par bande de fréquences, par exemple en prenant une découpe en B sous-bandes définie précédemment. Dans ce cas, un angle Θ par bande de fréquence est codé et transmis au décodeur, ce qui pour l'exemple de B sous-bandes donne B angles à transmettre.
Dans une autre variante, on pourra ignorer l'estimation de l'ITD pour certaines bandes de fréquences hautes pour lesquelles les différences de phases ne sont pas perceptibles. De même, on pourra omettre l'estimation de l'ITD pour des très basses fréquences. Par exemple, l'ITD pourra ne pas être estimé pour les bandes supérieures à 1 kHz, et pour une découpe en sous-bande comme définie précédemment on pourra retenir les bandes b = 0 à 11 dans le mode de réalisation utilisant le 1/3 d'octave et 1 à 16 dans les variantes utilisant l'échelle ERB (la première bande b =0 étant omise dans ce dernier cas car il s'agit de fréquences inférieures à 25 Hz). Dans des variantes de l'invention, une découpe en sous- bande avec une résolution différente de 25 Hz pourra être utilisée ; on pourra ainsi regrouper certaines sous-bandes car la découpe en 1/3 d'octave ou l'échelle ERB peut être trop fine pour le codage de l'ITD. Ceci évite de coder trop d' angles par trame. Pour chaque bande fréquentielle, l'ITD est ensuite converti en un angle comme dans le cas d'un angle unique décrit ci-dessus avec une allocation de bits qui peut être soit fixe, soit variable en fonction de l'importance de la sous-bande. Dans toutes ces variantes où plusieurs angles sont déterminés et codés, une quantification vectorielle pourra être mise en œuvre dans le bloc 316. La figure 4b représente une variante de réalisation de l'invention qui peut remplacer le mode décrit à la figure 4a. Le principe de cette variante est de combiner en particulier les blocs 411 et 316 en un bloc 432.
Dans cette variante de réalisation, on considère la définition de plusieurs modèles « concurrents » pour coder l'ITD, sachant que l'invention s'applique aussi lorsqu'un seul modèle d'ITD est défini.
Ainsi, le modèle tel que défini pour l'information de décalage temporel intercanal (ITD) peut ne pas être fixé et être paramétrable. Chaque modèle définit un ensemble de valeurs d'ITD en fonction d'un paramètre d'angle : la loi en sinus et la loi de Woodworth constituent deux exemples de modèles. Dans cette variante, pour le codage, à partir d'une table de modèles d'ITD obtenue en 430, on détermine dans le bloc 432 un indice de modèle et un indice d' angle (encore appelé paramètre d'angle) à coder selon l'équation suivante :
(mopt, topt ) = argmin m=o wM-i (ITD - MITD (m, t))2 (27)
t=o,...,Ne(m)-i où NM est le nombre de modèles dans la table de modèles ITD, NQ (TO) est le nombre d'angles d'azimuth considérés pour le m-ième modèle et MITD (m, t) correspond à une valeur précise de l'information ITD.
Un exemple de modèle MITD (m, t) est donné ci-dessous dans le cas d'un modèle d'indice m = 0 suivant une loi de Woodworth comme à l'équation 20 avec ITDmax= 0.2551 ms :
MITD (m = l, t = 0 ... 7) = [-0.5362 -0.3807 -0.1978 0 0.1978 0.3807 0.5362 0.6558] où chaque valeur est en ms. L'indice d' angle t correspond en fait à un angle Θ couvrant l'intervalle ] ~ < ~] avec un pas de
Cette table peut également être ramené à des échantillons par exemple dans le cas d'un échantillonnage à 16 kHz on obtient de façon équivalente : MITD (m = l, t = 0 ... 7) = [-8.5795 -6.0919 -3.1648 0 3.1648 6.0919 8.5795 10.4930]
Dans ce cas, V0 (m)=8 et 7VM=1. Il est donc possible de coder l'information ITD sur 3 bits avec ce modèle unique.
On remarquera que pour un indice de modèle m donné, le modèle MITD (m, t) est implicitement fonction de l'angle d'azimuth, dans la mesure où l'indice t représente en fait un indice de quantification de l'angle 0. Ainsi, le modèle MITD (m, t) est un moyen efficace de combiner la relation entre ITD et 0, et la quantification de 0 sur Νθ (τή) niveaux, et d'utiliser potentiellement plusieurs modèles (au moins un), indexés par mopt lorsque plus d'un modèle est utilisé.
On considère par exemple dans un mode de réalisation le cas de deux modèles différents : m=0 : Un modèle binaural défini précédemment avec la loi de Woodworth avec ITD(fi) = ITDmax(sin(e) + 0) et ITDmax = 10 (échantillons à 16 kHz) m=l : Un modèle selon une loi en sinus comme à l'équation (15) mais pour un micro A-B (2 microphones omnidirectionnels séparés d'une distance a). La loi en sinus s'applique ici aussi, seul le paramètre a dépend de la distance entre les microphones : 1ΤΌ (Θ) = lTDmaxsin(e) et ITDmax = 30 (échantillons à 16 kHz)
On remarquera que la taille Ng m) peut être identique pour tous les modèles, mais dans le cas général il est possible que des tailles différentes soient utilisées. Par exemple on pourra définir NQ (m) = 16 et NM=2. Il est donc possible de coder l'information ITD sur 4+1=5 bits.
Un index de la loi sélectionnée mopt est alors codé sur [log2 NMl bits et transmis au décodeur en plus de l'angle d'azimuth topt codé sur
Figure imgf000023_0001
bits. Dans l'exemple pris ci-dessus, on pourra coder mopt sur 1 bit, et topt sur 4 bits.
Dans une variante, on pourra remplacer le modèle m=0 par une table d'ITD en fonction de azimuth issue de mesures réelles de HRTFs, sans loi paramétrique, mais avec des valeurs d'ITD estimées sur les données réelles ; dans ce cas, la taille Νθ (τή) pourra dépendre de la résolution angulaire utilisée pour mesurer des HRTFs (en supposant qu' aucune interpolation angulaire n'a été appliquée).
Comme à la figure 4a, le codage d'une information de correction de la valeur ITDmax est optionnel, ainsi le bloc 312 est indiqué en pointillés. Quand le budget de bits alloué au codage de ITDmax est nul, on prendra donc la valeur de ITDmax pré -définie dans le modèle de représentation de l'ITD.
Dans une variante de l'invention le modèle de représentation de l'ITD pourra être généralisé pour se réduire uniquement au plan horizontal mais aussi inclure l'élévation. Dans ce cas, deux angles sont déterminés, l'angle d'azimuth Θ et l'angle d'élévation φ.
La recherche des deux angles peut se faire selon l'équation suivante : (mopt, topt , popt ) = argmin m=0 JVM -I QTD - MITD (m, t, p))2 (28)
t=0,...,Ng (m)-l
ρ=0,..,Νφ (τή)-1 avec Νφ (ιη) le nombre d'angles d'élévation considérés pour le m-ième modèle et popt représentant l'angle d'élévation à coder.
Dans l'invention, on cherche aussi à réduire le débit de codage d'autres informations de spatialisation que l'ITD, comme l'information de spatialisation de différence d'intensité intercanale (ILD). On notera que le bloc 316 de la figure 4b pourra coder et multiplexer de différentes façons avec un codage à débit fixe ou variable des informations mopt, topt , popt ainsi ITDmax que quand celles-ci doivent être transmises.
Ainsi, de la même façon que pour l'ITD on peut recourir à une paramétrisation de l'ILD. Dans le cas binaural, d'après la thèse de Jérôme Daniel, intitulée « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Université Paris 6, Juillet 2011, l'ILD peut également être approximée selon la loi suivante:
ILD(r, e) = 80n fr; e) (29)
J cin(10) '
où / est la fréquence, r la distance avec la source sonore et c la vitesse du son.
En définissant une ILD relative ILDmax il est possible sous certaines conditions de réduire cette approximation à l'équation:
ILDglob (0) = ILDmaxsin(9) (30)
La loi ci-dessus n'est qu'une approximation correspondant au niveau global des HRTFs à un azimuth donné ; elle ne permet pas de caractériser complètement la coloration spectrale donnée par les HRTFs mais elle caractérise uniquement leur niveau global.
L'ILD de référence peut être définie - en temps différé, lors de la définition du modèle d'ILD, en prenant une base de signaux normalisés ou une base de filtres HRTFs - en prenant le maximum de l'ILD total d'un signal binaural. On considère dans l'invention que cette loi en sinus s'applique non seulement à l'ILD totale (ou globale) mais aussi à l'ILD par sous- bandes ; dans ce cas, le paramètre ILDmax dépend de l'indice de la sous-bande et le modèle devient :
ILD [b] {e) = ILDmax [b]sin{e) (31)
Expérimentalement, on peut vérifier que si l'on calcule l'énergie des filtres HRTFs
(illustrée en référence à la figure 6a pour plusieurs valeurs d'élévation φ), il apparaît que l'approximation de l'ILD globale (au sens de différence de niveau global entre canaux) suit une loi en sinus pour les élévations représentées φ = 0°, 15° et 30°, en fonction de l'azimuth Θ.
On notera que même si la symétrie du demi-plan frontral (azimuth dans [0, 180] degrés) et le demi-plan à l'arrière de la tête (azimuth dans [180,360] degrés) n'est en général pas totalement valable, cette loi en sinus est utilisée dans l'invention pour coder et décoder l'ILD.
Comme pour le cas de l'ITD où une valeur ITDmax a été définie, on peut donc soit transmettre le paramètre ILDmax, soit utiliser une valeur ILDmax pré-déterminée et stockée, pour en dériver une valeur ILDglob (6) selon l'équation (30) et ainsi appliquer un ILD global, valable sur tout le spectre du signal pour obtenir une location rudimentaire (globale).
Un autre exemple de modèle s'appuie sur la configuration de microphones stéréo ORTF illustrée à la figure 6b.
Dans cet exemple, le modèle d'ILD en sous-bandes pourra être défini en rapport avec une configuration de microphones ORTF comme suit :
ILD 6) = L(0) - ff (0) = a(cos(e - 0O) - cos(0 + 0O)) (32) avec
L(0) = (l + cos(0 - 0O)) (33) ff (0) = (l + cos(e + 0O)) (34) où θ0 (en radians) correspond à 55°.
Il est possible d'écrire ce modèle également sous la forme :
ÎLD {e) = L(0) - ff (0) = a(cos(0)cos(0o) + sin(0)sin(0o)) (35) On peut là encore définir une valeur ILDmax qui correspond à :
ILDmax = a (36)
Là encore, on suppose que le modèle défini à l'équation 35 s'applique non seulement au cas d'un ILD total (ou global) mais aussi à l'ILD en sous-bandes ; dans ce cas le paramètre ILDmax (ou une version proportionnelle) sera dépendant de la sous-bande sous la forme ILD [b]max. Ainsi, en référence à la figure 4a, de la même façon que pour l'information ITD, le bloc 317 qui reçoit une information de différence d'intensité intercanale (ILD) par le module d'extraction 314, comprend un module 420 d'obtention d'un modèle de représentation de l'information de différence d'intensité intercanale (ILD). Ce modèle est par exemple le modèle tel que défini ci-dessus à l'équation (30) ou avec d'autres modèles décrits dans ce document.
Le paramètre d'angle Θ déjà défini en 411 peut être ré-utilisé au décodeur pour retrouver l'ILD global ou l'ILD en sous-bandes tel que défini par l'équation (30), (31) ou (35) ; cela permet en effet de « mutualiser » le codage de l'ITD et de l'ILD. Dans le cas où la valeur ILDmax n'est pas fixée, celle-ci est déterminée en 423 et codée.
Dans un mode de réalisation particulier, un module 421 d'estimation d'une information de différence d'intensité intercanale est mis en œuvre à partir d'une part du paramètre d'angle obtenu par le bloc 411 pour coder l'information de décalage temporel (ITD) et d'autre part du modèle de représentation de l'équation (30), (31) ou (35). De façon optionnelle, le module 422 calcule un résidu de l'information ILD, c'est-à-dire la différence entre l'information de différence d'intensité intercanale (ILD) réelle extraite en 314 et l'information de différence d'intensité intercanale (ILD) estimée en 421 à partir du modèle d'ILD.
Ce résidu peut être codé en 318 par exemple par une méthode classique de quantification scalaire. Cependant, contrairement au codage d'un ILD direct, la table de quantification peut être par exemple limitée à une dynamique de +/-12 dB avec un pas de 3 dB.
Ce résidu ILD permet d'améliorer la qualité de décodage de l'information ILD dans le cas où le modèle d'ILD est trop spécifique et ne s'applique qu'au signal à coder dans la trame courante ; on rappelle qu'une classification peut éventuellement être utilisée au codeur pour éviter de tels cas, cependant dans le cas général il peut être utile de coder un résidu d'ILD.
Ainsi, le codage de ces paramètres ainsi que celui d'angle de l'ITD permet de retrouver au décodeur l'information de différence d'intensité intercanale (ILD) du signal audio binaural avec une bonne qualité.
De la même façon que pour l'ITD, l'information de spatialisation (globale ou par sous-bandes) sera donc retrouvée au décodage en appliquant le même modèle de représentation et en décodant le cas échéant les paramètres de résidu et d'ILD de référence. Le débit nécessaire au codage de ces paramètres est plus faible que si l'information ILD elle- même était codée, en particulier lorsque le résidu ILD n'a pas à être transmis et qu'on utilise le ou les paramètre(s) ILDmax pré-définis dans le ou les modèle(s) d'ILD. Ainsi, le codage de cette information de spatialisation (ILD) est peut consommateur en débit.
Ce modèle d'ILD n'utilisant qu'une valeur d'ILD globale est cependant très simpliste car en général l'ILD est défini sur plusieurs sous-bandes. Dans le codeur décrit précédemment, B sous-bandes suivant une découpe en 1/3 d'octave ou suivant l'échelle ERB ont été définies. Pour permettre de représenter plus qu'un paramètre d'ILD total (ou global) le modèle de représentation de l'ILD est donc étendu à plusieurs sous-bandes. Cette extension s'applique à l'invention décrite à la figure 4a, cependant la description associée est donnée ci-après dans le contexte de la figure 4b pour éviter trop de redondance. Le modèle est fonction de l'angle Θ et éventuellement de l'élévation ; ce modèle peut être le même dans toutes les sous-bandes, ou varier selon les sous-bandes.
On considère la variante de réalisation décrite à la figure 4b pour le codage de l'ILD. Comme pour l'ITD, dans cette variante on définit des modèles de représentation de l'ILD. Le modèle tel que défini pour l'information de différence d'intensité intercanale (ILD) n'est pas fixé mais est paramétrable. Le modèle est défini par une valeur ILDmax et un paramètre d'angle. Dans le cas général, à partir d'une table de modèles ILD obtenue en 440, on détermine un indice de modèle mopt et un indice d'angle à coder en 442 selon l'équation suivante : mopt, topt ) = argmin m=o wM-i dist(lLD, MILD (m, t)) (37)
t=o,...,Ne(m)-i où NM est le nombre de modèles dans la table de modèles ILD, Ng (m) est le nombre d'angles d'azimuth considérés pour le m— ième modèle, MILD (m, t) correspond à une valeur précise de l'information ILD et dist , . ) est un critère de distance entre vecteurs d'ILD.
Cependant, dans une variante de réalisation, cette recherche pourra être simplifiée en utilisant l'information d'angle déjà obtenue dans le bloc 432 pour le modèle d'ITD. On notera que les valeurs t = 0, ... , Νθ (τή) — 1 pour le modèle d'ILD ne correspondent pas forcément au même ensemble de valeurs que pour le modèle d'ITD, cependant il est avantageux d'harmoniser ces ensembles pour avoir une cohérence entre modèles de représentation pour l'ILD et l'ITD.
On pourra par exemple prendre comme critères possibles de distance :
dist(X, Y) = |∑f Zo1 X[b] -∑f ¾ Y[b] \Q (38) où q = 1 ou 2.
Un exemple de modèle d'ILD est illustré aux figures 6c à 6g pour plusieurs bandes de fréquence. On ne donne pas ici les valeurs correspondantes (en dB) sous la forme de tableaux pour ne pas alourdir le texte, des valeurs approximatives pourront être tirées des graphiques des figures 6c à 6g. Cette figure considère le cas d'une découpe en 1/3 d'octave déjà définie précédemment. Ainsi chaque figure représente l'ILD pour la bande de fréquence définie par le numéro de tiers d'octave défini dans le tableau 1 ci-avant avec une fréquence centrale fc fonction de la bande. Chaque point marqué avec un cercle sur chaque sous-figure correspond à une valeur MILD (m, t) ; en plus de définir la table d'ILD associé au modèle on a aussi montré la loi en sinus mise à l'échelle par un paramètre ILDmax pré-défini et dépendant de la sous-bande.
Dans une variante de l'invention le modèle de représentation de l'ILD pourra être généralisé pour ne pas se réduire uniquement au plan horizontal mais aussi inclure l'élévation. Dans ce cas, la recherche de deux angles devient :
(mopt, topt , popt ) = ar grain m=o JVM -I dist(lLD, MILD (m, t, p)) (39)
ί=0, ...,Νθ (τη)-ί
ρ=0,..,Νφ (τή)-1 avec Νφ (ιη) le nombre d'angles d'élévation considérés pour le m-ième modèle et popt représentant l'angle d'élévation à coder.
Dans une variante, un exemple de modèle MILD (m, t, p) peut être obtenu à partir d'un jeu de HRTFs de la façon suivante. Etant donnés les filtres HRTFs pour Θ et φ, on peut : - calculer les ILDs par sous-bande entre canaux gauche et droit par sous-bande
- éventuellement normaliser les ILDs
- stocker les IlDs et déterminer la valeur de ILDmaxdans chaque sous-bande pour ajuster un facteur de dilatation des ILD
La table multidimensionnelle MILD (m, t, p) peut être vue comme un modèle de directivité ramené au domaine de l'ILD.
Un index de la loi sélectionnée mopt est alors codé et transmis au décodeur en 318.
De la même façon que pour la figure 4a, un résidu ILD pourra être calculé (blocs 421 et 422) et codé.
Jusqu'ici des modèles séparés ont été considérés pour l'ITD et l'ILD, même s'il a été noté que la détermination de l' angle peut être « mutualisée ». Par exemple, l' azimuth peut être déterminé en utilisant le modèle d'ITD et ce même angle est directement utilisé pour le modèle d'ILD. On considère maintenant une autre variante de réalisation faisant appel à un « modèle intégré » (conjoint). Cette variante est décrite à la figure 4c. Dans cette variante, plutôt que d' avoir des modèles séparés pour l'ITD et l'ILD (
MITD (m, t, p) et MILD (m, t, p) ) on pourra définir un modèle conjoint dans le bloc 450 : MITD ILD (m, t, p) dont les entrées comprennent des valeurs candidates d'ITD et d'ILD ; ainsi, pour différentes valeurs discrètes réprésentant Θ et φ des « vecteurs » (ITD, ILD) sont définis. Dans ce cas, la mesure de distance utilisée pour la recherche doit combiner la distance sur l'ITD et la distance sur l'ILD, cependant il est encore possible d'effectuer une recherche séparée.
Ainsi, un index de la loi sélectionnée mopt, de l' angle d'azimuth topt et de l'angle d'élévation popt déterminés en 453, sont codés en 331 et transmis au décodeur, de même pour les figures 4a et 4b, les paramètres ITDmax, ILDmax et le résidu ILD peuvent être déterminés et codés.
Une variante du codeur illustré à la figure 3 mettant en œuvre le modèle conjoint de la figure 4c est illustrée à la figure 8. On notera que dans cette variante de codeur les paramètres ITD et ICC sont estimés dans le bloc 314. De plus on considère ici le cas général où des paramètres IPD sont également extraits et codés dans le bloc 332. Les blocs 330 et 331 correspondent aux blocs indiqués et détaillés à la figure 4c.
En référence à la figure 7 un décodeur selon un mode de réalisation de l'invention est maintenant décrit.
Ce décodeur comporte un démultiplexeur 701 dans lequel le signal mono codé est extrait pour être décodé en 702 par un décodeur EVS mono (selon les spécifications 3GPP TS 26.442 ou TS 26.443) dans cet exemple. La partie du train binaire correspondant au codeur EVS mono est décodée selon le débit utilisé au codeur. On suppose ici qu'il n'y a pas de perte de trames ni d'erreurs binaires sur le train binaire pour simplifier la description, cependant des techniques connues de correction de perte de trames peuvent bien évidemment être mises en œuvre dans le décodeur.
Le signal mono décodé correspond à M(n) en l'absence d'erreurs de canal. Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée sur M (n) (blocs 703 et 704) pour obtenir le spectre M [k] . On considère ici qu'une décorrélation dans le domaine fréquentiel (bloc 720) est également appliquée. Cette décorrélation pourra également été appliquée dans le domaine temporel.
Les détails de mise en œuvre du bloc 708 pour la synthèse du signal stéréo ne sont pas présentés ici car ils dépassent le cadre de l'invention, mais les techniques classiques de synthèse connues de l'état de l'art pourront être utilisées.
Dans le bloc de synthèse 708, il est par exemple possible de reconstruire un signal à deux canaux avec le traitement suivant sur le signal mono décodé et transformé en fréquences:
L[k] = c^ik] (40)
R[k] = c2M[k\e-i2nklTD'NFFT (41) où c = 10ÎLD [Ù]/10 (avec b l'indice de la sous-bande contenant la raie d'indice k),
Figure imgf000030_0001
et
Figure imgf000030_0002
ITD est l'ITD décodé pour la raie k (si un seul ITD est codé, cette valeur est identique pour les différentes raies d'indice k) et NFFT est la longueur de la FFT et de la FFT inverse (blocs 704, 709, 712).
On peut également prendre en compte le paramètre ICC décodé en 718 pour recréer une ambiance sonore (bruit de fond) non localisée pour améliorer la qualité.
Les spectres L [k] et R [k] sont ainsi calculés et ensuite convertis dans le domaine temporel par FFT inverse, fenêtrage, addition et recouvrement (blocs 709 à 714) pour obtenir les canaux synthétisés L(n) et R (n).
Les paramètres qui ont été codés pour obtenir les informations de spatialisation sont décodés en 705, 715 et 718.
En 718, ce sont les informations ICCq [b] qui sont décodés si toutefois elles ont été codées.
En 705, c'est le paramètre d'angle Θ qui est décodé avec éventuellement une valeur ITDmax. A partir de ce paramètre, le module 706 d'obtention d'un modèle de représentation d'une information de décalage temporel intercanal est mis en œuvre pour obtenir ce modèle. Comme pour le codeur, ce modèle peut être défini par l'équation (15) défini ci-dessus. Ainsi, à partir de ce modèle et du paramètre d'angle décodé, il est possible au module 707 de déterminer l'information de décalage temporel intercanal (ITD) du signal multicanal.
Si au décodeur un angle par fréquence ou par bande de fréquence est codé, alors ces différents angles par fréquence ou bandes de fréquences sont décodés pour définir les informations ITD par fréquence ou bandes de fréquence.
De la même façon, dans le cas où des paramètres permettant de coder l'information de différence d'intensité intercanale (ILD) sont codés, ils sont décodés par le module de décodage de ces paramètres en 715, au décodeur.
Ainsi, les paramètres de résidu (Resid. ILD) et d'ILD de référence (ILDmax) sont décodés en 715.
A partir de ces paramètres, le module 716 d'obtention d'un modèle de représentation d'une information de différence d'intensité intercanale est mis en œuvre pour obtenir ce modèle. Comme pour le codeur, ce modèle peut être défini par l'équation (30) défini ci-dessus.
Ainsi, à partir de ce modèle, des paramètres de résidu d'ILD (c'est-à-dire la différence entre l'information de différence d'intensité intercanale (ILD) réelle et l'information de différence d'intensité intercanale (ILD) estimée avec le modèle), du paramètre d'ILD de référence (ILDmax) et du paramètre d'angle décodé en 705 pour l'information ITD, il est possible au module 717 de déterminer l'information de différence d'intensité intercanale (ILD) du signal multicanal.
Si au codeur les paramètres de codage de l'ILD ont été déclinés par bande de fréquence, alors ces différents paramètres par bandes de fréquences sont décodés pour définir les informations ILD par fréquence ou bandes de fréquence.
On notera que le décodeur de la figure 7 est en rapport avec le codeur de la figure 4a. On comprendra que si le codage selon l'invention se fait selon les figures 4b ou 4c, le décodeur sera modifié en conséquence pour décoder en particulier des indices de modèles et d' angles sous la forme mopt, topt , popt et reconstruire les valeurs d'ITD et d'ILD en fonction du modèle utilisé et des indices associés à des valeurs de reconstruction
Dans une variante de l'invention le décodeur de la figure 7 est ainsi modifié comme illustré à la figure 9. Dans cette variante, les paramètres ILD et ITD décodés ne sont pas directement reconstruits. La synthèse stéréo (bloc 708) est remplacée par une synthèse binaural (bloc 920). Ainsi le décodage des informations ILD et ITD se réduit à un décodage (bloc 910) des coordonnées angulaires. En utilisant une base pré -définie de HRTFs (bloc 930) il est donc possible de décoder un signal binaural et non un signal stéréo. Dans des variantes, on pourra appliquer les filtres HRTFs dans le domaine temporel. Le codeur présenté en référence à la figure 3 et le décodeur présenté en référence à la figure 7 ont été décrits dans le cas d'application particulière de codage et décodage stéréo. L'invention a été décrite à partir d'une décomposition des canaux stéréo par transformée de Fourier discrète. L'invention s'applique également à d'autres représentations complexes, comme par exemple la décomposition MCLT (Modulated Complex Lapped Transform) combinant une transformée discrète en cosinus modifiée (MDCT) et transformée discrète en sinus modifiée (MDST), ainsi qu'au cas de bancs de filtres de type Pseudo-Quadrature Mirror Filter (PQMF). Ainsi le terme de "raie fréquentielle" utilisé dans la description détaillé peut être étendu à la notion de "sous-bande" ou de "bande de fréquence", sans changer la nature de l'invention.
Les codeurs et décodeurs tels que décrits en référence aux figures 3 et 7 peuvent être intégrés dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Ils peuvent également être intégré dans des équipements de communication de type téléphone mobile ou passerelle de communication.
La figure 10 représente un exemple de réalisation d'un tel équipement dans lequel un codeur tel que décrit en référence aux figures 3, 8 et 4a à 4c ou un décodeur tel que décrit en référence à la figure 7 ou 9, selon l'invention est intégré. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Dans le cas d'un codeur, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction d'une pluralité d'informations de spatialisation du signal multicanal, d'obtention d'au moins un modèle de représentation des informations de spatialisation extraites, de détermination d'au moins un paramètre d'angle d'un modèle obtenu et de codage du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.
Dans le cas d'un décodeur, le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de réception et décodage d'au moins un paramètre d'angle codé, d'obtention d'au moins un modèle de représentation d'informations de spatialisation et de détermination d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé. La mémoire MEM peut stocker le ou les modèles de représentation de différentes informations de spatialisation qui sont utilisés dans les procédés de codage et de décodage selon l'invention.
Typiquement, les descriptions des figures 3, 4 d'une part et 7 d'autre part reprennent les étapes d'un algorithme d'un tel programme informatique respectivement pour le codeur et pour le décodeur. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou équipement ou téléchargeable dans l'espace mémoire de celui-ci.
Un tel équipement en tant que codeur comporte un module d'entrée apte à recevoir un signal multicanal par exemple un signal binaural comportant les canaux R et L pour droit et gauche, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal binaural.
Le dispositif en tant que codeur comporte un module de sortie apte à transmettre un signal mono M issu d'un traitement de réduction de canaux et au minimum, un paramètre d'angle Θ permettant d'appliquer un modèle de représentation d'une information de spatialisation pour retrouver cette information spatiale. Le cas échéant, d'autres paramètres comme les paramètres de résidu d'ILD, d'ILD ou d'ITD de référence (ILDmax ou ITDmax) sont aussi transmis via le module de sortie.
Un tel équipement en tant que décodeur comporte un module d'entrée apte à recevoir un signal mono M issu d'un traitement de réduction de canaux et au minimum un paramètre d'angle Θ permettant d'appliquer un modèle de représentation de l'information de spatialisation pour retrouver cette information spatiale. Le cas échéant, pour retrouver l'information de spatialisation, d'autres paramètres comme les paramètres de résidu d'ILD, d'ILD ou d'ITD de référence (ILDmax ou ITDmax) sont également reçues via le module d'entrée E.
Le dispositif en tant que décodeur comporte un module de sortie apte à transmettre un signal multicanal par exemple un signal binaural comportant les canaux R et L pour droit et gauche.

Claims

REVENDICATIONS
1. Procédé de codage paramétrique d'un signal audionumérique multicanal comportant une étape de codage (312) d'un signal (M) issu d'un traitement de réduction de canaux (307) appliqué au signal multicanal et de codage d'informations de spatialisation du signal multicanal, caractérisé en ce qu'il comporte les étapes suivantes :
- extraction (314, 320) d'une pluralité d'informations de spatialisation du signal multicanal ;
- obtention (315, 317) d'au moins un modèle de représentation des informations de spatialisation extraites ;
- détermination (315,411) d'au moins un paramètre d'angle d'un modèle obtenu ;
- codage (316, 318) du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.
2. Procédé de codage selon la revendication 1 , caractérisé en ce que les informations de spatialisation sont définies par sous-bandes de fréquence du signal audio multicanal et en ce qu'au moins un paramètre d'angle par sous-bande est déterminé et codé.
3. Procédé selon l'une des revendications 1 à 2, caractérisé en ce qu'il comporte en outre les étapes de calcul d'une information de spatialisation de référence et de codage de cette information de spatialisation de référence.
4. Procédé de codage selon l'une des revendications précédentes, caractérisé en ce qu'une des informations de spatialisation est une information de décalage temporel intercanal
(ITD).
5. Procédé de codage selon l'une des revendications précédentes, caractérisé en ce qu'une des informations de spatialisation est une information de différence d'intensité intercanale (ILD).
6. Procédé selon la revendication 5, caractérisé en ce qu'il comporte en outre les étapes suivantes pour coder une information de différence d'intensité intercanale :
- estimation d'une information de différence d'intensité intercanale à partir du modèle obtenu et du paramètre d'angle déterminé ;
- codage de la différence entre l'information de différence d'intensité intercanale extraite et estimée.
7. Procédé selon l'une des revendications précédentes, caractérisé en ce que un modèle de représentation par information de spatialisation est obtenu.
8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un modèle de représentation commun à plusieurs informations de spatialisation est obtenu.
9. Procédé de codage selon l'une des revendications 1 à 8, caractérisé en ce que l'obtention d'un modèle de représentation des informations de spatialisation est effectuée par la sélection dans une table de modèles définis pour différentes valeurs des informations de spatialisation.
10. Procédé selon la revendication 9, caractérisé en ce qu'un index de la table correspondant au modèle sélectionné est codé.
11. Procédé de décodage paramétrique d'un signal audionumérique multicanal comportant une étape de décodage (702) d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et de décodage (705, 715) d'informations de spatialisation du signal multicanal, caractérisé en ce qu'il comporte les étapes suivantes pour décoder au moins une information de spatialisation :
- réception et décodage (705, 715) d'au moins un paramètre d'angle codé ;
- obtention (706, 716) d'au moins un modèle de représentation d'informations de spatialisation ;
- détermination (707, 717) d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.
12. Procédé de décodage selon la revendication 11, caractérisé en ce qu'il comporte une étape de réception et de décodage d'un index de table de modèles et d'obtention du au moins un modèle de représentation des informations de spatialisation à décoder à partir de l'index décodé.
13. Codeur paramétrique d'un signal audionumérique multicanal comportant un module de codage (312) d'un signal (M) issu d'un module de traitement de réduction de canaux (307) appliqué au signal multicanal et des modules (315, 317, 316, 318) de codage d'informations de spatialisation du signal multicanal, caractérisé en ce qu'il comporte :
- un module d'extraction (314, 320) d'une pluralité d'informations de spatialisation du signal multicanal ;
- un module d'obtention (315, 317) d'au moins un modèle de représentation des informations de spatialisation extraites ;
- un module de détermination (411) d'au moins un paramètre d'angle d'un modèle obtenu ;
- un module de codage (316, 318) du au moins un paramètre d'angle déterminé pour coder les informations de spatialisation extraites lors du codage d'informations de spatialisation.
14. Décodeur paramétrique d'un signal audionumérique multicanal comportant un module de décodage (702) d'un signal issu d'un traitement de réduction de canaux appliqué au signal multicanal et codé et un module de décodage (705, 7015) d'informations de spatialisation du signal multicanal, caractérisé en ce qu'il comporte :
- un module de réception et décodage (705, 715) d'au moins un paramètre d'angle codé ;
- un module d'obtention (706, 716) d'au moins un modèle de représentation des informations de spatialisation ;
- un module de détermination (707, 717) d'une pluralité d'informations de spatialisation du signal multicanal à partir du au moins un modèle obtenu et du au moins un paramètre d'angle décodé.
15. Support de stockage lisible par un processeur sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de codage selon l'une des revendications 1 à 10 et/ou du procédé de décodage selon l'une des revendications 11 à 12.
PCT/FR2017/050547 2016-03-10 2017-03-10 Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal WO2017153697A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US16/083,741 US10930290B2 (en) 2016-03-10 2017-03-10 Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
CN201780015676.XA CN108885876B (zh) 2016-03-10 2017-03-10 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
EP17713746.0A EP3427260B1 (fr) 2016-03-10 2017-03-10 Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
ES17713746T ES2880343T3 (es) 2016-03-10 2017-03-10 Codificación y descodificación optimizada de información de espacialización para la codificación y la descodificación paramétrica de una señal de audio multicanal
US17/130,567 US11664034B2 (en) 2016-03-10 2020-12-22 Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1652034A FR3048808A1 (fr) 2016-03-10 2016-03-10 Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
FR1652034 2016-03-10

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/083,741 A-371-Of-International US10930290B2 (en) 2016-03-10 2017-03-10 Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
US17/130,567 Division US11664034B2 (en) 2016-03-10 2020-12-22 Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal

Publications (1)

Publication Number Publication Date
WO2017153697A1 true WO2017153697A1 (fr) 2017-09-14

Family

ID=56008743

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2017/050547 WO2017153697A1 (fr) 2016-03-10 2017-03-10 Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal

Country Status (6)

Country Link
US (2) US10930290B2 (fr)
EP (1) EP3427260B1 (fr)
CN (1) CN108885876B (fr)
ES (1) ES2880343T3 (fr)
FR (1) FR3048808A1 (fr)
WO (1) WO2017153697A1 (fr)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008105A1 (fr) * 2018-07-05 2020-01-09 Nokia Technologies Oy Détermination d'un codage de paramètre audio spatial et d'un décodage associé
CN112219237A (zh) * 2018-04-09 2021-01-12 诺基亚技术有限公司 空间音频参数的量化
WO2021064311A1 (fr) * 2019-10-02 2021-04-08 Orange Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
EP3803857A4 (fr) * 2018-05-31 2022-03-16 Nokia Technologies Oy Signalisation de paramètres audio spatiaux
US11470436B2 (en) 2018-04-06 2022-10-11 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US11785408B2 (en) 2017-11-06 2023-10-10 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
EP4175269A4 (fr) * 2020-06-24 2024-03-13 Nippon Telegraph & Telephone Procédé de décodage de signaux sonores, dispositif de décodage de signaux sonores, programme et support d'enregistrement
WO2021260825A1 (fr) * 2020-06-24 2021-12-30 日本電信電話株式会社 Procédé de codage de signal audio, dispositif de codage de signal audio, programme et support d'enregistrement
CN115691514A (zh) * 2021-07-29 2023-02-03 华为技术有限公司 一种多声道信号的编解码方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080252510A1 (en) * 2005-09-27 2008-10-16 Lg Electronics, Inc. Method and Apparatus for Encoding/Decoding Multi-Channel Audio Signal
US20110103591A1 (en) * 2008-07-01 2011-05-05 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
WO2004072956A1 (fr) * 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Codage audio
ATE430360T1 (de) * 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN1993733B (zh) * 2005-04-19 2010-12-08 杜比国际公司 空间音频参数量化器、去量化器及参数量化、去量化方法
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
KR101450940B1 (ko) * 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
ATE557386T1 (de) * 2008-06-26 2012-05-15 France Telecom Raumsynthese mehrkanaliger tonsignale
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
WO2011045548A1 (fr) * 2009-10-15 2011-04-21 France Telecom Codage/decodage parametrique bas debit optimise
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
US8923995B2 (en) * 2009-12-22 2014-12-30 Apple Inc. Directional audio interface for portable media device
WO2011080916A1 (fr) * 2009-12-28 2011-07-07 パナソニック株式会社 Dispositif et procédé de codage audio
CA2731045C (fr) * 2010-02-05 2015-12-29 Qnx Software Systems Co. Systeme de spatialisation evoluee
EP2596494B1 (fr) * 2010-07-20 2020-08-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Décodeur audio, procédé de décodage audio et programme d'ordinateur
CN103262159B (zh) * 2010-10-05 2016-06-08 华为技术有限公司 用于对多声道音频信号进行编码/解码的方法和装置
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2477188A1 (fr) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codage et décodage des positions de rainures d'événements d'une trame de signaux audio
FR2973551A1 (fr) * 2011-03-29 2012-10-05 France Telecom Allocation par sous-bandes de bits de quantification de parametres d'information spatiale pour un codage parametrique
CN104464742B (zh) * 2014-12-31 2017-07-11 武汉大学 一种3d音频空间参数全方位非均匀量化编码系统及方法
JP6797187B2 (ja) * 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080252510A1 (en) * 2005-09-27 2008-10-16 Lg Electronics, Inc. Method and Apparatus for Encoding/Decoding Multi-Channel Audio Signal
US20110103591A1 (en) * 2008-07-01 2011-05-05 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
GAO LI ET AL: "Azimuthal Perceptual Resolution Model Based Adaptive 3D Spatial Parameter Coding", 5 January 2015, NETWORK AND PARALLEL COMPUTING; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 534 - 545, ISBN: 978-3-642-36762-5, ISSN: 0302-9743, XP047303645 *
J. BREEBAART; S. VAN DE PAR; A. KOHLRAUSCH; E. SCHUIJERS: "Parametric Coding of Stereo Audio", EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING, vol. 9, 2005, pages 1305 - 1322, XP002514252
JÉRÔME DANIEL, REPRÉSENTATION DE CHAMPS ACOUSTIQUES, APPLICATION À LA TRANSMISSION ET À LA REPRODUCTION DE SCÈNES SONORES COMPLEXES DANS UN CONTEXTE MULTIMÉDIA, July 2011 (2011-07-01)
PASI OJALA; MIKKO TAMMI; MIIKKA VILERMO: "Parametric binaural audio coding", PROC. ICASSP, 2010, pages 393 - 396, XP031697729
R.S WOODWORTH, EXPÉRIMENTAL PSYCHOLOGY (HOLT, NEW YORK, 1938, pages 520 - 523
SAMSUDIN, E. KURNIAWATI; N. BOON POH; F. SATTAR; S. GEORGE: "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder", PROC. ICASSP, 2006
TACKSUNG CHOI ET AL: "Virtual Sound Rendering in a Stereophonic Loudspeaker Setup", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, USA, vol. 19, no. 7, 1 September 2011 (2011-09-01), pages 1962 - 1974, XP011329897, ISSN: 1558-7916, DOI: 10.1109/TASL.2011.2104954 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11785408B2 (en) 2017-11-06 2023-10-10 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US11832080B2 (en) 2018-04-06 2023-11-28 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US11470436B2 (en) 2018-04-06 2022-10-11 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
CN112219237A (zh) * 2018-04-09 2021-01-12 诺基亚技术有限公司 空间音频参数的量化
US11412336B2 (en) 2018-05-31 2022-08-09 Nokia Technologies Oy Signalling of spatial audio parameters
US11832078B2 (en) 2018-05-31 2023-11-28 Nokia Technologies Oy Signalling of spatial audio parameters
EP3803857A4 (fr) * 2018-05-31 2022-03-16 Nokia Technologies Oy Signalisation de paramètres audio spatiaux
CN112639966A (zh) * 2018-07-05 2021-04-09 诺基亚技术有限公司 空间音频参数编码和关联解码的确定
US20210295855A1 (en) * 2018-07-05 2021-09-23 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11676612B2 (en) 2018-07-05 2023-06-13 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
WO2020008105A1 (fr) * 2018-07-05 2020-01-09 Nokia Technologies Oy Détermination d'un codage de paramètre audio spatial et d'un décodage associé
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
WO2021064311A1 (fr) * 2019-10-02 2021-04-08 Orange Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés

Also Published As

Publication number Publication date
US10930290B2 (en) 2021-02-23
CN108885876B (zh) 2023-03-28
EP3427260B1 (fr) 2021-04-28
US20210110835A1 (en) 2021-04-15
EP3427260A1 (fr) 2019-01-16
FR3048808A1 (fr) 2017-09-15
CN108885876A (zh) 2018-11-23
ES2880343T3 (es) 2021-11-24
US20190066701A1 (en) 2019-02-28
US11664034B2 (en) 2023-05-30

Similar Documents

Publication Publication Date Title
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP2489039B1 (fr) Codage/décodage paramétrique bas débit optimisé
EP2656342A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
CN108369810B (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d&#39;information spatiale pour un codage paramétrique
EP2005420A1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
FR2903562A1 (fr) Spatialisation binaurale de donnees sonores encodees en compression.
EP3935629A1 (fr) Codage audio spatialisé avec interpolation et quantification de rotations
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
EP2489040A1 (fr) Decodage parametrique stereo optimise
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d&#39;un traitement de décorrélation
FR2857552A1 (fr) Procede de decodage d&#39;un signal permettant de reconstituer une scene sonore a transformation temps-frequence faible complexite, et dispositif correspondant

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017713746

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2017713746

Country of ref document: EP

Effective date: 20181010

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17713746

Country of ref document: EP

Kind code of ref document: A1