WO2011073600A1 - Parametric stereo encoding/decoding having downmix optimisation - Google Patents

Parametric stereo encoding/decoding having downmix optimisation Download PDF

Info

Publication number
WO2011073600A1
WO2011073600A1 PCT/FR2010/052807 FR2010052807W WO2011073600A1 WO 2011073600 A1 WO2011073600 A1 WO 2011073600A1 FR 2010052807 W FR2010052807 W FR 2010052807W WO 2011073600 A1 WO2011073600 A1 WO 2011073600A1
Authority
WO
WIPO (PCT)
Prior art keywords
stereo
signal
information
channels
amplitude
Prior art date
Application number
PCT/FR2010/052807
Other languages
French (fr)
Inventor
Stéphane RAGOT
Thi Minh Nguyet Hoang
Balazs Kovesi
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2011073600A1 publication Critical patent/WO2011073600A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • the present invention relates to the field of coding / decoding of digital signals.
  • the coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
  • the present invention relates to the parametric encoding / decoding of multichannel audio signals, especially stereophonic signals hereinafter called stereo signals.
  • This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener, in order to recreate the same spatial image as in the original signal.
  • Such a parametric encoding / decoding technique is for example described in the document entitled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005 by J. Breebaart and S. van de Par and A. Kohlrausch and E. Schuijers. : 9, 1305-1322. This example is repeated with reference to FIGS. 1 and 2 respectively describing an encoder and a parametric stereo decoder.
  • FIG. 1 describes an encoder receiving two audio channels, a left channel
  • the time channels L (n) and .R (n) are processed by the blocks 101, 102 and 103, 104 respectively which perform a short-term Fourier analysis.
  • the transformed signals L [jJ and R [j] are thus obtained.
  • Block 105 performs a channel reduction processing or "Downmix" in English to obtain in the frequency domain from the left and right signals, a monophonic signal hereinafter called a mono signal which is here a sum signal.
  • Extraction of spatial information parameters is also performed in block 105.
  • the extracted parameters are as follows.
  • the ICLD InterChannel Level Difference
  • interchannel intensity differences characterize the energy ratios per frequency subband between the left and right channels.
  • L [j] and [j] correspond to the spectral (complex) coefficients of the L and R channels
  • the values B [k] and B [k + 1], for each frequency band k define the subband cutout spectrum and the symbol * indicates the complex conjugate.
  • ICPDW ( ⁇ ⁇ L [, -].? * [./]) (2) where ⁇ indicates the argument (phase) of the complex operand.
  • ICPD Equivalent to ICPD can also be defined as an inter-channel time shift called ICTD (for "InterChannel Time Difference"), the definition of which is not repeated here.
  • ICTD InterChannel Time Difference
  • the ICC for "InterChannel Coherence" parameters represent inter-channel correlation (or coherence) and are associated with the spatial width of the sound sources; their definition is not recalled here, but it is noted in the article by Breebart et al. that these parameters are not necessary in the subbands reduced to a frequency coefficient.
  • the mono signal is passed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or OLA) and a mono coding (block 109) is realized. .
  • the stereo parameters are quantized and coded in block 110.
  • the spectrum of the signals (L [y], i? [J]) is divided according to a non-linear frequency scale of ERB (equivalent Rectangular Bandwidth) or Bark type, with a number of sub-bands typically ranging from 20 to 34 for a sampled signal of 16 to 48 kHz. This scale defines the values of B (k) and B (k + 1) for each subband k.
  • the parameters (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding or differential coding.
  • 11CLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential coding.
  • the non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
  • coding For the coding of the mono signal (block 109), several quantization techniques with or without memory are possible, for example coding with “Coded Pulse Modulation” (MIC), its adaptive version called “Adaptive Differential Coded Pulse Modulation” (ADPCM) or more advanced techniques such as transform perceptual coding or Code Excited Linear Prediction (CELP) coding.
  • MIC Coded Pulse Modulation
  • ADPCM Adaptive Differential Coded Pulse Modulation
  • CELP Code Excited Linear Prediction
  • UET-T Recommendation G.722 which uses ADPCM coding for ADAPM (Adaptive Differential Pulse Code Modulation).
  • the input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz.
  • This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by Quadrature Mirror Filters (QMF) quadrature mirror filters in English, then each of the subbands is encoded separately by an ADPCM encoder.
  • QMF Quadrature Mirror Filters
  • the low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bits per sample ADPCM coder.
  • the total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
  • a quantized signal frame according to the G.722 standard consists of 6, 5 or 4-bit coded quantization indices per low-band sample (0-4000 Hz) and 2 bits per high-band sample (4000-8000 Hz). ). Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s.
  • the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of decoded mono signal. These two signals are passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
  • the block 105 performs a channel reduction processing or "downmix” by combining the stereo channels (left, right) to obtain a mono signal which is then encoded by a mono encoder.
  • the spatial parameters ICLD, ICPD, ICC, (7) are extracted from the stereo channels and transmitted in addition to the bitstream from the mono encoder.
  • the passive "downmix" which corresponds to a direct matrixing of the stereo channels to combine them into a single signal
  • ⁇ ( ⁇ ) is a factor that compensates for a possible loss of energy.
  • the compensation parameter can be set as follows:
  • the ⁇ factor is here saturated with an amplification of 6dB.
  • the gains W y , w 2 are generally adapted as a function of the short-term signal, in particular to align the phases.
  • the phase of the channel L for each frequency sub-band is chosen as the reference phase
  • the channel R is aligned according to the phase of the channel L for each sub-band by the following formula:
  • R '[k] e J, CPm R [k] (8) where R '[k] is the aligned R channel, k is the index of a coefficient in the frequency b sub-band,
  • ICPD [b] is the inter-channel phase difference in the frequency subband frequency given by:
  • K ⁇ [b] z ( ⁇ ⁇ L [k] .R '[k]) (9) where k h defines the frequency intervals of the corresponding subband and * is the complex conjugate. Note that when the subband of index b is reduced to a frequency coefficient, we find:
  • phase alignment therefore conserves energy by eliminating the influence of the phase.
  • This "downmix” corresponds to the "downmix” described in the document by Breebart et al. or:
  • This "downmix" operation is important for parametric stereo coding because the decoded stereo signal is only a spatial shaping of the decoded mono signal.
  • the downmix technique in the frequency domain described above retains the energy level of the stereo signal in the mono signal by aligning the R channel and the L channel before processing. This phase alignment avoids situations where the channels are in phase opposition.
  • the phase of the mono signal after the downmix can become random or be poorly conditioned and give a mono signal resulting in poor quality.
  • the invention improves the situation.
  • a method of parametric coding of a stereo audio signal comprising a step of coding a mono signal resulting from a channel reduction processing applied to the stereo signal and coding signal spatialization information.
  • the channel reduction processing including a calculation, by frequency coefficient, of the amplitude of the mono signal as a function of the amplitude of the channels of the stereo signal.
  • the method is such that it further comprises a determination for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
  • the channel reduction processing according to the invention is carried out in the frequency domain by frequency coefficient so as to control very precisely the energy and the phase over the entire frequency spectrum.
  • the determination, according to the invention, of the phase of the mono signal makes it possible to obtain this phase information more naturally without depending on a particular stereo channel. This avoids the problems of particular situations of the stereo channels.
  • the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the phase difference defined between the mono signal and a first predetermined stereo channel.
  • the second piece of information furthermore comprises a minimum indication enabling the phase difference between the mono signal and the second stereo channel to be deduced.
  • the minimum indication is coded on a bit and indicates the choice between two possible phase differences between the mono signal and the second stereo channel for a low bit rate coding.
  • the minimum indication is coded on a bit and indicates the choice between two possible gains to be applied to the intensity of the mono signal to find the second stereo channel.
  • the spatialization information includes a first information on the amplitude of the stereo channels and a second piece of information giving in particular the amplitude of the sum stereo channels.
  • This spatialization information is sufficient to reconstruct a decoder stereo signal of good quality.
  • the second piece of information comprises, by frequency coefficient, the value of the amplitude of the sum of the stereo channels and a minimum indication making it possible to deduce the direction of rotation of the stereo channels.
  • the second piece of information comprises, by frequency coefficient, the value of a gain to be applied to the amplitude of the mono signal and a minimum indication making it possible to deduce the direction of rotation of the stereo channels.
  • the first piece of information is coded by a first coding layer and the second piece of information is coded by a second coding layer.
  • the invention also relates to a method of parametric decoding of a stereo audio signal comprising a step of decoding a received mono signal, resulting from a channel reduction processing applied to the original stereo signal and to decoding information.
  • the decoding is such that it comprises a synthesis of the stereo signals, by frequency coefficient, from the decoded mono signal comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and a signal information of the signal by means of the stereo channels originals and from decoded spatialization information.
  • the mono signal thus received provides a stereo signal that retains the energy of the original stereo signal.
  • the decoded spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the angle defined between the mono signal and a first predetermined stereo channel.
  • the second piece of information furthermore comprises a minimum indication enabling the angle between the mono signal and the second stereo channel to be deduced.
  • a simple low-speed indication provides the information to find the stereo channels with the correct phase shift.
  • the decoded minimum indication indicates the choice between two possible angles between the mono signal and the second stereo channel.
  • the decoded minimum indication indicates the choice between two possible gains to be applied to the intensity of the mono signal to find the second stereo channel.
  • the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the amplitude of the sum of the stereo channels.
  • This information also makes it possible to reproduce a stereo signal of good quality.
  • the second piece of information comprises, by frequency coefficient, the value of the amplitude of the sum of the stereo channels and a minimum indication enabling the direction of rotation of the stereo channels to be deduced and in a variant the second piece of information comprises, for example, frequency coefficient, the value of a gain to be applied to the amplitude of the decoded mono signal, and a minimum indication for deducing the direction of rotation of the stereo channels.
  • the first information on the amplitude of the stereo channels is decoded by a first decoding layer and the second information is decoded by a second decoding layer.
  • the invention also relates to a parametric encoder of a stereo digital audio signal comprising a coding module of a mono signal from a channel reduction processing module applied to the stereo signal and an information coding module of a stereo signal.
  • the channel reduction processing module comprising a module for calculating, by frequency coefficient, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal.
  • the encoder is such that the channel reduction processing module further comprises a determination module for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
  • a parametric decoder of a stereo audio signal comprising a coding module of a mono signal from a channel reduction processing module applied to the stereo signal and a spatialization information coding module of the stereo signal, the channel reduction processing module comprising a module for calculating, by frequency coefficient, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal.
  • the decoder is such that the channel reduction processing module further comprises a determination module for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
  • the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention and / or a decoding method according to the invention.
  • the invention finally relates to a storage means readable by a processor storing a computer program as described.
  • FIG. 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described
  • FIG. 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described
  • FIG. 3 illustrates a stereo parametric encoder according to one embodiment of the invention embodying a coding method according to several embodiments of the invention
  • FIGS. 4a and 4b illustrate the bit stream of spatialization information coded in a particular embodiment
  • FIGS. 5a and 5b illustrate, in flowchart form, the steps for determining the encoder, spatialization information according to a first mode and a second embodiment of the invention, respectively;
  • FIGS. 6a and 6b illustrate a method of calculating the spatialization and synthesis information of the stereo signals using this information according to the first embodiment;
  • FIG. 6c illustrates a calculation mode of the spatialization and synthesis information of the stereo signals using this information according to the second embodiment
  • FIGS. 7a and 7b illustrate, in the form of flowcharts, the steps of determining the spatialization information according to a third embodiment of the invention in a first and second variant
  • FIGS. 8a and 8b illustrate a method of calculating the spatialization and synthesis information of stereo signals using this information according to a third embodiment
  • FIG. 9 illustrates an alternative embodiment of an encoder according to the invention.
  • FIG. 10 illustrates a decoder according to one embodiment of the invention, implementing a decoding method according to several embodiments of the invention
  • FIGS. 11a and 11b illustrate, in flowchart form, the decoder determination steps, spatialization information according to a first mode and a second embodiment of the invention, respectively;
  • FIG. 12 illustrates, in flowchart form, the decoder determination steps, spatialization information according to a third embodiment of the invention
  • FIGS. 13a and 13b respectively illustrate a hardware example of an equipment incorporating an encoder and a decoder able to implement the coding method and the decoding method, according to one embodiment of the invention.
  • This parametric stereo encoder uses a G.722 mono coding and extends this coding by operating in wideband with stereo signals sampled at 16 kHz with 5 ms frames. It should be noted that the choice of a frame length of 5 ms is in no way restrictive in the invention which applies equally in variants of the embodiment where the frame length is different, for example from 10 or 20 ms.
  • Each time channel (L and R) sampled at 16 kHz is first pre-filtered by a high pass filter (HPF) eliminating the components below 50 Hz (blocks 301 and 302).
  • HPF high pass filter
  • the L and R channels are analyzed by discrete Fourier transform frequencies with overlapping sinusoidal windowing of 50% length 10 ms or 160 samples (blocks 303 to 306).
  • the signal (L, R) is weighted by a symmetric analysis window covering 2 frames of 5 ms or 10 ms (160 samples).
  • the 10ms analysis window covers the current frame and the future frame.
  • the future frame corresponds to a "future" signal segment commonly called “Iookahead" of 5 ms.
  • Spectra L 'and R' are combined in block 307 to obtain a mono (downmix) signal M 'in the frequency domain.
  • This signal is converted into time by inverse FFT and windowing-overlap with the "Iookahead" part of the previous frame (blocks 308 to 310).
  • the current frame of 5 ms of the obtained mono signal is encoded by the G.722 encoder (block 312).
  • the invention also applies in variant embodiments where a modified version of G.722 is used, or even an encoder other than G.722.
  • a delay of 2 frames must be introduced into the codec.
  • the delay of 2 frames is specific to the detailed implementation here, in particular it is related to symmetrical sinusoidal windows of 10 ms. This delay could be different, for example one could obtain a delay of a frame with an optimized window with a lower overlap between adjacent windows.
  • the block 313 introduces a delay of two frames on the spectra L '[j] and R' [j] in order to obtain the spectra L [j] ] and JR [j].
  • the coding of the stereo spatial information is implemented in the blocks 314 to 316.
  • the stereo parameters are extracted (block 314) and coded (blocks 315 and 316) from the spectrums L ', R and M' offset by two frames: L, R and M.
  • the channel reduction processing block 307 or "downmix" is now described in more detail.
  • the latter performs a "downmix" in the frequency domain to obtain a mono signal M '[jfj.
  • This mono signal M '[j] is calculated by the following formula which defines the amplitude and the phase for each frequency line:
  • amplitude of the mono channel can also be determined according to a formula of the type:
  • the channel reduction processing of the stereo signal comprises a frequency coefficient calculation, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal performed in the module 330 of the block 307 and a frequency coefficient determination of the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal carried out in the module 331 of the block 307.
  • the compensation factor is calculated and applied in the frequency domain, here coefficient by coefficient, and this factor is calculated from the amplitudes of the stereo channels and not from the energy of these channels and from the signal by means of the stereo channels.
  • This factor is maintained everywhere in the spectrum over the entire band to be coded, and not on a dominant frequency zone.
  • Frequency domain "downmix” processing involves a delay of 5 ms for recovery-addition reconstruction.
  • the encoder presented here uses short frames of 5 ms.
  • the impact on the algorithmic delay of the overall encoder is therefore not too important.
  • This additional delay would be more troublesome with longer frames of the order of 20 ms.
  • there are solutions to reduce this additional delay in particular by using an optimized non-sinusoidal window with a lower overlap between adjacent windows.
  • the additional complexity due to the "downmix" operation in the frequency domain is limited here to the frequency / time conversion of the mono signal (blocks 308 to 310) because in all cases the time / frequency conversion of the stereo channels (blocks 303 to 306) is necessary for the extraction and coding of the stereo parameters which are defined and calculated in the frequency domain.
  • the spectra L [j] and R [j] are divided into 20 sub-frequency bands. These subbands are defined by the following boundaries:
  • the ICLD of the sub-band k-0,.,., 19 is calculated according to the equation:
  • the ICLD parameters are coded by differential non-uniform scalar quantization (block 315) on 40 bits per frame. This quantification will not be detailed here because it goes beyond the scope of the invention.
  • phase information for frequencies below 1.5-2 kHz is particularly important for obtaining good stereo quality.
  • the time-frequency analysis performed here gives 80 frequency coefficients per frame, a resolution of 100 Hz per coefficient. Since the bit budget is 40 bits and the allocation is, as explained below, 5 bits per coefficient, only 8 lines can be coded. By experimentation the lines of index j ⁇ 2 to 9 were chosen for this coding of the phase information. These lines correspond to a frequency band of 150 to 950 Hz.
  • the frequency coefficients where the phase information is the most perceptually important are identified, and the associated phases are coded (block 316) by a technique detailed below. after referring to Figures 6a and 6b using a budget of 40 bits per frame.
  • a single angle between a first stereo channel, for example here the secondary channel (defined below) and the mono signal defined by the "downmix" processing of block 307, is code.
  • the angle between the dominant channel (defined below) and the mono signal is coded and another minimum information is also coded, on 1 bit, to allow to deduce the angle of the second stereo channel, here, the secondary channel from the other already coded information.
  • the parameters that are transmitted in the second stereo enhancement layer are for each line in the first embodiment:
  • the parameters that are transmitted in the second stereo enhancement layer are for each line
  • Figures 4a and 4b show the structure of the bitstream for the encoder in a preferred embodiment. It is a hierarchical binary bit structure derived from scalable coding with G.722 coding for core coding.
  • the mono signal is thus coded by G.722 at 56 or 64 kbit / s.
  • the G.722 core coding operates at 56 kbit / s and a first stereo extension layer (Ext.stereo I) is added.
  • the G.722 core coding operates at 64 kbit / s and two stereo extension layers (ExLstereo 1 and Ext.stereo 2) are added.
  • the encoder thus operates according to two possible modes (or configurations):
  • bit stream shown in FIG. 4a includes the information on the amplitude of the stereo channels, for example the ICLD parameters as described above.
  • the bit stream shown in FIG. 4b includes both the stereo channel amplitude information in the first extension layer and the stereo channel phase information in the second extension layer.
  • the division into two extension layers shown in FIGS. 4a and 4b could be generalized in the case where at least one of the two extension layers comprises both a part of the amplitude information and a part of the amplitude information. information on the phase.
  • the phase information comprises the phase difference of the mono signal with one of the stereo channels determined as secondary for the first embodiment or dominant for the second embodiment.
  • the phase information also includes a minimum indication for deducing the phase difference of the mono signal with the stereo channel determined as secondary.
  • the budget allocated to code this phase information is only one particular example of achievement. It can be lower and in this case take into account only a small number of frequency lines or on the contrary higher and can allow to code a greater number of frequency lines.
  • these spatialization information on two extension layers is a particular embodiment.
  • the invention is also applicable in the case where this information is coded in a single improvement coding layer.
  • î [j] is the amplitude information - defined in equation 42 - which corresponds to the amplitude ratio between left channel and right channel.
  • the dominant channel X [j] is the decoded channel L [j] or R [j] whose amplitude is the strongest.
  • the channel X [j] is the decoded channel L [j] or R [j] whose amplitude is the strongest.
  • i is the decoded channel L [j] or R [j] whose amplitude is the smallest.
  • the dominant and secondary channels are defined in the same way as the encoder:
  • X [j], Y [j] and M [j] are respectively denoted by X, Y and M in this figure.
  • the original signals X [j], Y [j] and M [j] are used at the encoder, and this in particular avoids local decoding G.722 and makes it possible to reduce the complexity.
  • the calculation of the "downmix" signal is illustrated in the complex plane, the mono signal M follows the angle of L + R but the amplitude is calculated by an average of the amplitudes of the channels of the stereo signal.
  • Z (.) is the operator that gives the argument (or phase) of the complex operand.
  • the angle a [j] is included in
  • phase information to be encoded is reduced to the angle ⁇ [j], since we find cx j] with the following formula:
  • Fig. 5a illustrates a flowchart showing the steps of this encoding.
  • step B501 the amplitude information that corresponds to the amplitude ratio between the left channel and the right channel is decoded. This local decoding is possible because this information is available during the coding of the phase.
  • step B502 the secondary channel is determined as follows:
  • angles ⁇ [representing the angles, by frequency coefficient, between the mono signal M [j] and the secondary channel Y [j] are calculated in B503.
  • the angle can for example be calculated as follows:
  • Fig. 5b illustrates a flowchart showing the steps of this encoding.
  • step E501 the angles O [j] are calculated by frequency coefficient.
  • angles are those formed by frequency coefficient, the mono channel M [j with the dominant channel X j].
  • the angle c [j] can for example be calculated as follows:
  • angles representing the angles, by frequency coefficient, between the mono signal M [j] and the secondary channel Y [j] are calculated in E504.
  • the angles j3 0 [j] and / 3 ⁇ 4 [] are also determined at E505 as formulated in equations (21) and (23) above.
  • an indicator b [j] is used to select one of the two angles ⁇ 0 [ ⁇ or / -3 ⁇ 4 [/] by taking the angle ⁇ [] as a reference, in step E506.
  • the indicator bj] is quantified in E507 by a bit, where
  • the secondary channel Y is reconstructed by combining the dominant channel X and the mono signal M multiplied by a gain factor. This calculation is an equivalent formulation in the absence of quantification on X and M and thus replaces the rotation by the angle ⁇ detailed above.
  • Equation (30) has two solutions and as a function of ⁇ , which makes it possible to find two candidates for the secondary channel Y:
  • the coded parameters are:
  • the embodiment has been presented from the original amplitude information ⁇ L [j] ⁇ , Note that the phase is frequency-coded and uses amplitude information (L [j], R [j]) coefficient by coefficient.
  • the amplitude information - which is transmitted in the form of d1CLD in the first enhancement layer - is encoded by frequency subbands, and these subbands can comprise several frequency coefficients. So we make the following approximation for coding and decoding information in the second layer:
  • the channel reduction processing is identical but the spatialization information that is transmitted to the decoder is different. It should be noted that this third embodiment is new and inventive on its own.
  • a first coding extension layer contains the intensity information of the stereo channels, for example the parameter ICLD as defined above.
  • the second extension layer does not contain information on the phase differences of the stereo channels.
  • [j] is the angle between [/] and L [j] and? [; ' ] is the angle between M [j] and R [j], regardless of the dominance of a channel.
  • FIGS. 7a and 7b illustrate flowcharts showing the steps of coding the spatialization information for the second stereo extension layer according to this third embodiment for two variants.
  • a first step E701 for FIG. 7a and E711 for FIG. 7b the amplitude d j] of the sum of the stereo channels is calculated by frequency line.
  • step E702 for FIG. 7a and E712 for FIG. 7b can be done directly, by quantizing the value of the amplitude d [j], for example with a scalar quantizer using 4 bits per second. spectral line.
  • Equality is also allowed and corresponds to the case where the channels are perfectly in phase or perfectly in opposite phase. It will be considered later, by misuse of language, that these extreme cases also represent a triangle where the length of the longest side is the sum of the lengths of the other two sides. The three angles of this triangle are therefore 0, 0 and ⁇ .
  • ⁇ i [7] j '
  • the channels are perfectly in opposite phase and for example
  • the quantization step can also be performed with respect to the value of the amplitude of the mono signal, M [j], already decoded, in the form of a scale factor (or gain), as follows :
  • the value of the gain g [j] is quantized, for example with a scalar quantizer using 4 bits per spectral line.
  • FIG. 7a it is not checked whether the parameters after quantization satisfy the triangular inequalities, this verification and the possible correction will be made to the decoder.
  • the version shown in FIG. 7b presents a local decoder (not shown in FIG. 3 of the encoder) and produces the quantized values of the parameters
  • Triangular inequalities are verified at the encoder at step E713. In case of detected problem (N in E714) a new quantified value is chosen by the quantizer of d [7] in E712 and that until the verification of the triangular inequalities (O in E714).
  • the quantization index is sent with which the decoded value of d [j] satisfies the triangular inequalities.
  • a minimum information (1 bit) denoted b [j] is transmitted to enable the direction of rotation of the left and right channels to be deduced from the mono signal.
  • Figures 8a and 8b illustrate a geometric example for a selected frequency line, from the values].
  • OD corresponds to the amplitude value d [j] on the axis defined by the mono (OM).
  • Figures 8a and 8b illustrate the two possible solutions with the values [y],
  • this bit can indicate the direction of rotation of a channel with respect to the mono signal, that of the left channel is sufficient, that of the other channel must not be transmitted because it is always the opposite of this.
  • step E703 and E715 of FIGS. 7a and 7b the angle ⁇ [j] that forms one of the channels with the mono signal is determined. Then, in step E704 and E716, FIGS. 7a and 7b are determined, the sign of the angle and one-bit rotation direction is quantified at step E705 and E707 respectively.
  • the embodiment has been presented from the original amplitude information odd by frequency coefficient and uses a coefficient per coefficient.
  • the amplitude information - which is transmitted in ICLD form in the first enhancement layer - is encoded by frequency subbands, and these subbands can include several frequency coefficients. So we make the following approximation for coding and decoding information in the second layer:
  • the amplitudes L [j and R [j] ⁇ are assumed to be those obtained by applying the information of constant amplitude î [j] on the sub-band, either
  • the block 307 performing the "downmix" processing using the modules 330 and 331 according to the invention also extracts spatialization parameters of the stereo signals through the module 332.
  • the phase difference between the mono signal obtained by the "downmix” processing and one of the stereo channels determined as secondary, is determined by the module 332.
  • the phase difference between the mono signal obtained by the "downmix" processing and one of the stereo channels determined as dominant is determined by the module 332.
  • the indicator making it possible to recover the phase difference between the mono signal and the second channel determined as secondary is also determined by the module 332.
  • the indicator for determining a gain to be applied to the mono signal to find the secondary channel is determined.
  • the third embodiment it is the amplitude of the sum of the stereo signals that is determined in the module 332 of the block 307. An indication to find the direction of rotation of the stereo channels is also determined in this module.
  • this third embodiment it is a gain to be applied to the mono signal that is determined to recover the amplitude of the sum of the stereo signals.
  • the parameter extraction block 314 retrieves these parameters from the block 307 and determines the intensity information parameter, for example the parameter ICLD. This block 314 then transmits all these parameters for a quantification at 315.
  • the invention applies similarly for an implementation using a time-frequency analysis difference of a bank of filters by FFT.
  • MCLT Modulated Complex Lapped Transform
  • MDCT Modulated Discrete Cosine Transform
  • MDST Modulated Discrete Sine Transform
  • PQMF pseudo quadrature mirror filter
  • the principle of the invention also applies to the case where the encoder and the G.722 decoder are replaced by other optionally different encoders of characteristics (flow, length of frames ).
  • This decoder comprises a demultiplexer 501 in which the coded mono signal is extracted to be decoded at 502 by a G.722 decoder in this example.
  • the portion of the bit stream (scalable) corresponding to G.722 is decoded at 56 or 64 kbit / s depending on the selected mode. It is assumed here that there is no loss of frames or bit errors on the bit stream to simplify the description, however, known frame loss correction techniques can obviously be implemented in the decoder.
  • the synthesized mono signal corresponds to M (n) in the absence of channel errors.
  • a short-term discrete Fourier transform analysis with the same windowing as the encoder is performed on M in) (blocks 503 and 504) to obtain the spectrum M [j].
  • the part of the bit stream associated with the stereo extension is also de-multiplexed.
  • the ICLD parameters are decoded to obtain ⁇ lCLD q [ ⁇ - ⁇ , ⁇ ;] ⁇ ⁇ q (block 505) and the. phase difference ⁇ [j between the secondary channel and the signal M by frequency line is decoded (block 506) to obtain ⁇ [j] according to a first embodiment.
  • phase C [j between the dominant channel and the signal M by frequency line which is decoded (block 506) to obtain â [j].
  • the amplitudes of the left and right channels are reconstructed (block 507) by applying the decoded ICLD parameters by subband. This synthesis is carried out as follows:
  • ICLD q [j] is the ICLD parameter decoded for the line j.
  • the ratio 7 [j] is decoded from the information encoded in the first 8 kbit / s stereo enhancement layer.
  • the coding and the associated decoding are not detailed here, but for a budget of 40 bits per frame it can be considered that this ratio is coded by subband and not frequency line, with a non-uniform subband cut. If the decoder operates at 56 + 8 kbit / s for the current frame, only subband-decoded / [/] parameters are used to reconstruct the spectra of the L and R channels, as previously described, ie the equation ( 41).
  • the decoder defines for each frequency line the dominant channel X [j] and the secondary channel Y [j] as follows:
  • the secondary channel is reconstructed from angles ⁇ [j] simply decoded by block 506, simply according to the formula: [; rmn (c 1 [; lc 2 [;]). [i] e ⁇ '1 (43b)
  • the amplitude of the dominant channel is decoded using the decoded mono signal M [y], the decoded secondary channel Y [j] and the amplitude X [j] which is known from the ratio [[j], by the following formula:
  • the dominant channel is reconstructed from angles ⁇ [; ' ] decoded by block 506, simply by the formula:
  • the amplitude of the secondary channel is decoded using the decoded mono signal M [j], the decoded dominant channel X [j] and the known amplitude ⁇ Y [j] from the ratio [j], by the following formula:
  • the spectra R [j] and L [j] are deduced from X [j] and f [j] and converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 508 to 513) to obtain the synthesized channels R (n) and L n).
  • Figure 11a shows the decoding flowchart in the first embodiment, angles to [j] and for the second stereo extension layer.
  • the angle ⁇ [] 1 is decoded in step B1 101.
  • the secondary channel is reconstructed in step B1 102 according to the formula:
  • step B 1104 the dominant channel is reconstructed in step B 1104 according to the formula:
  • FIG. 11b shows the decoding flow chart in the second embodiment, angles ⁇ [j] and for the second layer extension in stereo.
  • the angle a [j] and the indicator b [j] are decoded at step El 101 and at step El 103, and the quantized values at [j] and b [j] are obtained.
  • the value of is used to select the angle, [/] or y-3 ⁇ 4 [j] in step El 104.
  • Stereo signals £ [] and R [j] can thus be synthesized in step El 105.
  • the dominant channel in a variant of this second embodiment, the dominant channel
  • X [j] is reconstructed as explained above, from the angles decoded by block 506 and at step El 101.
  • an indicator b [j] is received which is the coded value of b [j] and which makes it possible to choose between and, gains to be applied to the amplitude of the synthesized mono signal.
  • the secondary channel Y [j] is then reconstructed from the following function:
  • the block 506 of FIG. 10 decodes information by frequency line on the sum of the stereo channels, ie the amplitude of the sum of the channels, or in a variant, a gain to be applied to the amplitude. of the mono signal to obtain the amplitude of the sum of the stereo channels.
  • an indication by frequency line is also decoded at 506. This indication indicates the direction of rotation to be given for one of the stereo channels to be synthesized in the module 507.
  • FIG. 12 represents the flow diagram of the decoding of spatialization information of the second extension layer corresponding to the codings represented in FIGS. 7a and 7b.
  • the decoder After inverse quantization of d [j at the step E1201, knowing M [j], L [j], R [j] and d [j] we can find the quantized values of the angles at [j] and ⁇ and thus L [] and -R [j] for example as described below.
  • L [j], R [j] and d [j] determine a unique triangle as represented in FIG. 8b whose two angles are the two desired angles: â [j] between d [j] and L [j] and fi [j] between d [j] and R [j].
  • step E1207 the sign of â [j] which determines the direction of rotation for both L [j] and R [j] with respect to [j] is decoded
  • the encoder presented with reference to FIG. 3 and the decoder presented with reference to FIG. 10 have been described in the case of a particular application of hierarchical coding and decoding.
  • the invention can also be applied in the case where the spatialization information is transmitted and received to the decoder in the same coding layer and for the same bit rate.
  • the encoders and decoders as described with reference to FIGS. 3, 9 and 10 may be integrated in multimedia equipment of the set-top box type or audio or video content player. They can also be integrated into mobile phone type communication equipment.
  • FIG. 13a represents an exemplary embodiment of such an equipment in which an encoder according to the invention is integrated.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the coding steps of a mono signal from a channel reduction processing applied to the stereo signal and spatialization information coding of the stereo signal.
  • the channel reduction processing comprises a calculation, for frequency coefficient, of the amplitude of the mono signal as a function of the amplitude of the channels of the stereo signal, and additionally a determination for a predetermined set of frequency coefficients, of the phase of the mono signal by the calculation of the phase of the signal by means of the channels of the stereo signal.
  • the program may include the steps implemented to code the information adapted to this treatment.
  • FIGS. 3, 5 and 7 show the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
  • Such equipment or encoder comprises an input module adapted to receive a stereo signal comprising the R and L channels for right and left, either by a communication network, or by reading a content stored on a storage medium.
  • This multimedia equipment may also include means for capturing such a stereo signal.
  • the device comprises an output module adapted to transmit the coded spatial information parameters P c and a mono signal M from the coding of the stereo signal.
  • FIG. 13b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the decoding steps of a received mono signal, resulting from channel reduction processing applied to the original stereo signal and decoding spatialization information of the original stereo signal.
  • the decoding method further comprises a synthesis of the stereo signals, by frequency coefficient, from the decoded mono signal comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and a phase information of the signal by means of the original stereo channels and from decoded spatialization information.
  • FIGS. 10, 11 and 12 repeats the steps of an algorithm of such a computer program.
  • the computer program can also stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module capable of receiving the coded spatial information parameters P c and a mono signal M originating, for example, from a communication network. These input signals can come from a reading on a storage medium.
  • the device comprises an output module capable of transmitting a stereo signal, L and R, decoded by the decoding method implemented by the equipment.
  • This multimedia equipment may also include speaker type reproduction means or communication means capable of transmitting this stereo signal.
  • Such multimedia equipment may include both the encoder and the decoder according to the invention.
  • the input signal then being the original stereo signal and the output signal, the decoded stereo signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The present invention relates to a method for parametric encoding of a stereo digital audio signal comprising a step of encoding (312) a mono signal produced by downmixing (307) applied to the stereo signal and encoding spatialisation information (315, 316) of the stereo signal. Said method is characterised in that downmixing comprises calculating (330), using the frequency coefficient, the amplitude of the mono signal according to the amplitudes of the channels of the stereo signal, and determining (331), for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal. The transmission of spatialisation information is also suitable, according to the invention, for said downmixing. The invention also relates to the relevant decoding method, and to the encoder and decoder implementing said respective methods.

Description

Codage/Décodage paramétrique stéréo avec optimisation du traitement de réduction des canaux  Stereo parametric coding / decoding with channel reduction processing optimization
La présente invention concerne le domaine du codage/décodage des signaux numériques. The present invention relates to the field of coding / decoding of digital signals.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).  The coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux, notamment de signaux stéréophoniques ci-après nommés signaux stéréo.  More particularly, the present invention relates to the parametric encoding / decoding of multichannel audio signals, especially stereophonic signals hereinafter called stereo signals.
Ce type de codage/décodage se base sur l'extraction de paramètres d'information spatiale pour qu'au décodage, ces caractéristiques spatiales puissent être reconstituées pour l'auditeur, afin de recréer la même image spatiale que dans le signal original.  This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener, in order to recreate the same spatial image as in the original signal.
Une telle technique de codage/décodage paramétrique est par exemple décrite dans le document de J. Breebaart and S. van de Par and A. Kohlrausch and E. Schuijers, intitulé "Parametric Coding of Stereo Audio" dans EURASIP Journal on Applied Signal Processing 2005:9, 1305-1322. Cet exemple est repris en référence aux figures 1 et 2 décrivant respectivement un codeur et un décodeur stéréo paramétrique.  Such a parametric encoding / decoding technique is for example described in the document entitled "Parametric Coding of Stereo Audio" in EURASIP Journal on Applied Signal Processing 2005 by J. Breebaart and S. van de Par and A. Kohlrausch and E. Schuijers. : 9, 1305-1322. This example is repeated with reference to FIGS. 1 and 2 respectively describing an encoder and a parametric stereo decoder.
Ainsi, la figure 1 décrit un codeur recevant deux canaux audio, un canal gauche Thus, FIG. 1 describes an encoder receiving two audio channels, a left channel
(noté L pour Left en anglais) et un canal droit (noté R pour Right en anglais). (noted L for Left in English) and a right channel (noted R for Right in English).
Les canaux temporels L(n) et.R(n) sont traités par les blocs 101, 102 et 103, 104 respectivement qui effectuent une analyse de Fourier court-terme. Les signaux transformés L[jJ etR[j] sont ainsi obtenus.  The time channels L (n) and .R (n) are processed by the blocks 101, 102 and 103, 104 respectively which perform a short-term Fourier analysis. The transformed signals L [jJ and R [j] are thus obtained.
Le bloc 105 effectue un traitement de réduction de canaux ou "Downmix" en anglais pour obtenir dans le domaine fréquentiel à partir des signaux gauche et droit, un, signal monophonique ci-après nommé signal mono qui est ici un signal somme.  Block 105 performs a channel reduction processing or "Downmix" in English to obtain in the frequency domain from the left and right signals, a monophonic signal hereinafter called a mono signal which is here a sum signal.
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105. Les paramètres extraits sont les suivants.  Extraction of spatial information parameters is also performed in block 105. The extracted parameters are as follows.
Les paramètres ICLD (pour "InterChannel Level Différence" en anglais), encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit. Ces paramètres permettent de positionner des sources sonores dans le plan horizontal stéréo par "panning". Us sont définis en dB par la formule suivante:
Figure imgf000004_0001
The ICLD (InterChannel Level Difference) parameters, also called interchannel intensity differences, characterize the energy ratios per frequency subband between the left and right channels. These parameters allow you to position sound sources in the stereo horizontal plane by panning. They are defined in dB by the following formula:
Figure imgf000004_0001
où L[j] et [j] correspondent aux coefficients spectraux (complexes) des canaux L et R, les valeurs B[k] et B[k+1 ], pour chaque bande de fréquence k, définissent la découpe en sous- bande du spectre et le symbole * indique le conjugué complexe.  where L [j] and [j] correspond to the spectral (complex) coefficients of the L and R channels, the values B [k] and B [k + 1], for each frequency band k, define the subband cutout spectrum and the symbol * indicates the complex conjugate.
Les paramètres ICPD (pour "InterChannel Phase Différence" en anglais), encore appelés différences de phase, sont définis suivant la relation suivante:  The parameters ICPD (for "InterChannel Phase Difference" in English), also called phase differences, are defined according to the following relation:
ICPDW = (∑^ L[,-] . ?* [./]) (2) où Δ indique l'argument (la phase) de l'opérande complexe.  ICPDW = (Σ ^ L [, -].? * [./]) (2) where Δ indicates the argument (phase) of the complex operand.
On peut également définir de façon équivalente à l'ICPD, un décalage temporel ïntercanal appelé ICTD (pour "InterChannel Time Différence" en anglais) et dont la définition n'est pas rappelée ici.  Equivalent to ICPD can also be defined as an inter-channel time shift called ICTD (for "InterChannel Time Difference"), the definition of which is not repeated here.
Les paramètres ICC (pour "InterChannel Cohérence" en anglais) représentent quant à eux la corrélation (ou cohérence) intercanal et sont associés à la largeur spatiale des sources sonores; leur définition n'est pas rappelée ici, mais il est noté dans l'article de Breebart et al. que ces paramètres ne sont pas nécessaires dans les sous-bandes réduites à un coefficient fréquentiel.  The ICC (for "InterChannel Coherence") parameters represent inter-channel correlation (or coherence) and are associated with the spatial width of the sound sources; their definition is not recalled here, but it is noted in the article by Breebart et al. that these parameters are not necessary in the subbands reduced to a frequency coefficient.
Ces paramètres ICLD, ICPD et ICC sont extraits des signaux stéréo, par le bloc 105.  These ICLD, ICPD and ICC parameters are extracted from the stereo signals, by block 105.
Le signal mono est passé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.  The mono signal is passed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or OLA) and a mono coding (block 109) is realized. . In parallel, the stereo parameters are quantized and coded in block 110.
En général le spectre des signaux (L[y] ,i?[j] ) est divisé suivant une échelle fréquentielle non-linéaire de type ERB (Equivalent Rectangular Bandwidth) ou Bark, avec un nombre de sous-bandes allant typiquement de 20 à 34 pour un signal échantillonné de 16 à 48 kHz. Cette échelle définit les valeurs de B(k) et B(k+1) pour chaque sous-bande k. Les paramètres (ICLD, ICPD, ICC) sont codés par quantification scalaire éventuellement suivie d'un codage entropique ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, 11CLD est codée par un quantificateur non-uniforme (allant de -50 à +50 dB) avec codage différentiel. Le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible. In general, the spectrum of the signals (L [y], i? [J]) is divided according to a non-linear frequency scale of ERB (equivalent Rectangular Bandwidth) or Bark type, with a number of sub-bands typically ranging from 20 to 34 for a sampled signal of 16 to 48 kHz. This scale defines the values of B (k) and B (k + 1) for each subband k. The parameters (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding or differential coding. For example, in the article previously cited, 11CLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential coding. The non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
Pour le codage du signal mono (bloc 109), plusieurs techniques de quantification avec ou sans mémoire sont possibles, par exemple le codage à "Modulation par Impulsions Codées" (MIC), sa version adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA) ou des techniques plus évoluées comme le codage perceptuel par transformée ou le codage "Code Excited Linear Prédiction" (CELP).  For the coding of the mono signal (block 109), several quantization techniques with or without memory are possible, for example coding with "Coded Pulse Modulation" (MIC), its adaptive version called "Adaptive Differential Coded Pulse Modulation" ( ADPCM) or more advanced techniques such as transform perceptual coding or Code Excited Linear Prediction (CELP) coding.
On s'intéresse ici plus particulièrement à la recommandation UET-T G.722 qui utilise le codage MICDA à code imbriqués en sous-bandes (ou ADPCM pour "Adapîive Differential Puise Code Modulation" en anglais).  Of particular interest here is UET-T Recommendation G.722, which uses ADPCM coding for ADAPM (Adaptive Differential Pulse Code Modulation).
Le signal d'entrée d'un codeur de type G.722 est en bande élargie de largeur de bande minimale de [50-7000 Hz] avec une fréquence d'échantillonnage de 16 kHz. Ce signal est décomposé en deux sous-bandes [0-4000 Hz] et [4000-8000 Hz] obtenues par décomposition du signal par des filtres miroir en quadrature dit Quadrature Mirror Filters (QMF) en anglais, puis chacune des sous-bandes est codée séparément par un codeur MICDA.  The input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz. This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by Quadrature Mirror Filters (QMF) quadrature mirror filters in English, then each of the subbands is encoded separately by an ADPCM encoder.
La bande basse est codée par un codage MICDA à codes imbriqués sur 6, 5 et 4 bits tandis que la bande haute est codée par un codeur MICDA dé 2 bits par échantillon. Le débit total est de 64, 56 ou 48 bit/s suivant le nombre de bits utilisé pour le décodage de la bande basse.  The low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bits per sample ADPCM coder. The total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
La recommandation G.722 datant de 1988 a d'abord été utilisée dans le RNIS (Réseau Numérique à Intégration de Services) pour des applications d'audio et vidéoconférence. Depuis plusieurs années, ce codeur est utilisé dans les applications de téléphonie améliorée de qualité voix HD (Haute Définition) ou HD voice en anglais sur réseau IP fixe.  The 1988 G.722 Recommendation was first used in ISDN (Digital Integrated Services Network) for audio and videoconferencing applications. For several years, this coder has been used in HD telephony (High Definition) or HD Voice enhanced telephony applications in English on a fixed IP network.
Une trame de signal quantifié selon la norme G.722 est constituée d'indices de quantification codés sur 6, 5 ou 4 bits par échantillon en bande basse (0-4000 Hz) et 2 bits par échantillon en bande haute (4000-8000 Hz). La fréquence de transmission des indices scalaires étant de 8 kHz dans chaque sous-bande, le débit est de 64, 56 ou 48 kbit/s.  A quantized signal frame according to the G.722 standard consists of 6, 5 or 4-bit coded quantization indices per low-band sample (0-4000 Hz) and 2 bits per high-band sample (4000-8000 Hz). ). Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s.
Au décodeur 200, en référence à la figure 2, le signal mono est décodé (bloc 201), un dé-corrélateur est utilisé (bloc 202) pour produire deux versions M(n) et M'(n) du signal mono décodé. Ces deux signaux sont passés dans le domaine fréquentiel (blocs 203 à 206) et les paramètres stéréo décodés (bloc 207) sont utilisés par la synthèse stéréo (bloc 208) pour reconstruire les canaux gauche et droit dans le domaine fréquentiel. Ces canaux sont enfin reconstruits dans le domaine temporel (blocs 209 à 214). At the decoder 200, with reference to FIG. 2, the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of decoded mono signal. These two signals are passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
Ainsi, comme mentionné pour le codeur, le bloc 105 effectue un traitement de réduction des canaux ou "downmix" en combinant les canaux stéréo (gauche, droit) pour obtenir un signal mono qui est ensuite codé par un codeur mono. Les paramètres spatiaux (ICLD, ICPD, ICC, ...) sont extraits à partir des canaux stéréo et transmis en plus du train binaire issu du codeur mono.  Thus, as mentioned for the encoder, the block 105 performs a channel reduction processing or "downmix" by combining the stereo channels (left, right) to obtain a mono signal which is then encoded by a mono encoder. The spatial parameters (ICLD, ICPD, ICC, ...) are extracted from the stereo channels and transmitted in addition to the bitstream from the mono encoder.
Plusieurs techniques ont été développées pour le traitement de réduction des canaux ou "downmix" stéréo à mono. Ce "downmix" peut être effectué dans le domaine temporel ou fréquentiel. On distingue en général deux types de "downmix":  Several techniques have been developed for channel reduction processing or stereo downmix to mono. This "downmix" can be performed in the time or frequency domain. There are usually two types of "downmix":
- Le "downmix" passif qui correspond à un matriçage direct des canaux stéréo pour les combiner en un seul signal;  - The passive "downmix" which corresponds to a direct matrixing of the stereo channels to combine them into a single signal;
- Le "downmix" actif (adaptatif) qui inclut un contrôle de l'énergie et/ou de la phase en plus de la combinaison des deux canaux stéréo.  - Active (adaptive) downmix that includes energy and / or phase control in addition to the combination of the two stereo channels.
L'exemple le plus simple de "downmix" passif est donné par le matriçage temporel suivant:  The simplest example of passive downmix is given by the following time stamping:
M{n) =^[L{n) + R(n)) = (3)M {n) = ^ [L (n) + R (n)) = (3)
Figure imgf000006_0002
Figure imgf000006_0002
Ce type de "downmix" a cependant l'inconvénient de ne pas bien conserver l'énergie des signaux après la conversion stéréo à mono lorsque les canaux L et R ne sont pas en phase.  This type of "downmix", however, has the disadvantage of not conserving the energy of the signals after the stereo to mono conversion when the L and R channels are not in phase.
Un mécanisme de "downmix" actif améliorant la situation est donné par l'équation suivante:
Figure imgf000006_0001
An active downmix mechanism that improves the situation is given by the following equation:
Figure imgf000006_0001
où γ(η) est un facteur qui vient compenser une éventuelle perte d'énergie. where γ (η) is a factor that compensates for a possible loss of energy.
Cependant, le fait de combiner les signaux L(n) et R(n) dans le domaine temporel ne permet pas de contrôler finement (avec suffisamment de résolution fréquentielle) les différences de phase éventuelles entre canaux, et donc la conservation d'énergie par sous-bandes fréquentielles. C'est pourquoi il est souvent plus avantageux en termes de qualité de réaliser le "downmix" dans le domaine fréquentiel, même si cela implique de calculer des transformées temps/fréquence et induit un retard et une complexité additionnels par rapport à un "downmix" temporel. However, the fact of combining the signals L (n) and R (n) in the time domain does not make it possible to finely control (with sufficient frequency resolution) the possible phase differences between channels, and therefore the energy conservation by frequency subbands. This is why it is often more advantageous in terms of quality to perform the downmix in the frequency domain, even if it involves calculating time / frequency transforms and induces additional delay and complexity with respect to a downmix. temporal.
On peut ainsi transposer le "downmix" actif précédent avec les spectres des canaux gauche et droit, de la façon suivante:  We can thus transpose the previous active downmix with the spectra of the left and right channels, as follows:
Mm=mim± (5) Mm = m im ± (5)
où k correspond à l'indice d'un coefficient fréquentiel (coefficient de Fourier par exemple représentant une sous-bande fréquentielle). On peut fixer le paramètre de compensation, comme suit:
Figure imgf000007_0001
where k corresponds to the index of a frequency coefficient (Fourier coefficient for example representing a frequency subband). The compensation parameter can be set as follows:
Figure imgf000007_0001
On s'assure ainsi que l'énergie globale du "downmix" est la somme des énergies des canaux gauche et droit. Le facteur γΜ est ici saturé à une amplification de 6dB.  This ensures that the overall energy of the "downmix" is the sum of the energies of the left and right channels. The γΜ factor is here saturated with an amplification of 6dB.
La technique de "downmix" stéréo à mono du document de Breebaart et al. cité précédemment est effectuée dans le domaine fréquentiel. Le signal mono M [k] est obtenu par une combinaison linéaire des canaux L et R suivant l'équation: Stereo to mono "downmix" technique of Breebaart et al. cited above is performed in the frequency domain. The mono signal M [k] is obtained by a linear combination of the L and R channels according to the equation:
Figure imgf000007_0002
Figure imgf000007_0002
où w1 , w2 sont des gains à valeur complexe. Si w, = w2 = 0.5 , le signal mono est considéré comme une moyenne des deux canaux L et R. Les gains Wy , w2 sont en général adaptés en fonction du signal court-terme en particulier pour aligner les phases. where w 1 , w 2 are complex value gains. If w, = w 2 = 0.5, the mono signal is considered as an average of the two L and R channels. The gains W y , w 2 are generally adapted as a function of the short-term signal, in particular to align the phases.
Un cas particulier de cette technique de "downmix" fréquentiel est proposé dans le document intitulé "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder" par Samsudin, E. Kurniawati, N. Boon Poh, F. Sattar, S. George, dans IEEE Trans., ICASSP 2006. Dans ce document, les canaux L et R sont alignés en phase avant d'effectuer le traitement de réduction des canaux.  A particular case of this frequency downmix technique is proposed in the document entitled "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder" by Samsudin, E. Kurniawati, N. Boon Poh, F. Sattar, S. George, in IEEE Trans., ICASSP 2006. In this document, the L and R channels are aligned in phase before performing the channel reduction processing.
Plus précisément, la phase du canal L pour chaque sous-bande fréquentielle est choisie comme la phase de référence, le canal R est aligné selon la phase du canal L pour chaque sous-bande par la formule suivante:  More precisely, the phase of the channel L for each frequency sub-band is chosen as the reference phase, the channel R is aligned according to the phase of the channel L for each sub-band by the following formula:
R'[k] = eJ,CPm R[k] (8) où R '[k] est le canal R aligné, k est l'indice d'un coefficient dans la blème sous-bande fréquentielle, R '[k] = e J, CPm R [k] (8) where R '[k] is the aligned R channel, k is the index of a coefficient in the frequency b sub-band,
ICPD[b] est la différence de phase inter-canal dans la blèms sous-bande fréquentielle donnée par: ICPD [b] is the inter-channel phase difference in the frequency subband frequency given by:
K∞[b] = z(∑^L[k] .R' [k]) (9) où kh définit les intervalles fréquentiels de la sous-bande correspondante et * est le conjugué complexe. A noter que lorsque la sous-bande d'indice b est réduite à un coefficient fréquentiel, on trouve:
Figure imgf000008_0001
K∞ [b] = z (Σ ^ L [k] .R '[k]) (9) where k h defines the frequency intervals of the corresponding subband and * is the complex conjugate. Note that when the subband of index b is reduced to a frequency coefficient, we find:
Figure imgf000008_0001
Finalement le signal mono obtenu par le "downmix" du document de Samsudin cité précédemment est calculé en moyennant le canal L et le canal R' aligné, selon l'équation suivante:
Figure imgf000008_0002
Finally the mono signal obtained by the "downmix" of the Samsudin document mentioned above is calculated by averaging the L channel and the aligned R 'channel, according to the following equation:
Figure imgf000008_0002
L'alignement en phase permet donc de conserver l'énergie en éliminant l'influence de la phase. Ce "downmix" correspond au "downmix" décrit dans le document de Breebart et al. où:  Phase alignment therefore conserves energy by eliminating the influence of the phase. This "downmix" corresponds to the "downmix" described in the document by Breebart et al. or:
M [k] = w,L[£] + w2R [k] avec w, = ^ et w2 = ICP^[b] ^ M [k] = w, L [£] + w 2 R [k] with w, = ^ and w 2 = ICP ^ [b] ^
Or, une conversion idéale d'un signal stéréo à un signal mono doit conserver l'énergie pour toutes les composantes fréquentielles du signal. However, an ideal conversion of a stereo signal to a mono signal must conserve energy for all frequency components of the signal.
Cette opération de "downmix" est importante pour le codage stéréo paramétrique car le signal stéréo décodé n'est qu'une mise en forme spatiale du signal mono décodé.  This "downmix" operation is important for parametric stereo coding because the decoded stereo signal is only a spatial shaping of the decoded mono signal.
La technique de "downmix" dans le domaine fréquentiel décrite précédemment conserve bien le niveau d'énergie du signal stéréo dans le signal mono en alignant le canal R et le canal L avant d'effectuer le traitement. Cet alignement de phase permet d'éviter les situations où les canaux sont en opposition de phase.  The downmix technique in the frequency domain described above retains the energy level of the stereo signal in the mono signal by aligning the R channel and the L channel before processing. This phase alignment avoids situations where the channels are in phase opposition.
Cette méthode repose cependant sur une dépendance totale du traitement de "downmix" au canal (L ou R) choisi pour fixer la phase de référence.  However, this method relies on a total dependence of the "downmix" treatment on the channel (L or R) chosen to set the reference phase.
Dans les cas extrêmes où le canal de référence a une énergie nulle ou correspond à un signal aléatoire (bruit ambiant, etc.), la phase du signal mono après le "downmix" peut devenir aléatoire ou être mal conditionnée et donner un signal mono résultant de mauvaise qualité. In extreme cases where the reference channel has zero energy or corresponds to a random signal (ambient noise, etc.), the phase of the mono signal after the downmix can become random or be poorly conditioned and give a mono signal resulting in poor quality.
L'invention vient améliorer la situation.  The invention improves the situation.
A cet effet, elle propose un procédé de codage paramétrique d'un signal audionumérique stéréo comportant une étape de codage d'un signal mono issu d'un traitement de réduction de canaux appliqué au signal stéréo et de codage d'informations de spatialisation du signal stéréo, le traitement de réduction des canaux comportant un calcul, par coefficient fréquentiel, de l'amplitude du signal mono en fonction de l'amplitude des canaux du signal stéréo. Le procédé est tel qu'il comporte en outre une détermination pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo.  For this purpose, it proposes a method of parametric coding of a stereo audio signal comprising a step of coding a mono signal resulting from a channel reduction processing applied to the stereo signal and coding signal spatialization information. stereo, the channel reduction processing including a calculation, by frequency coefficient, of the amplitude of the mono signal as a function of the amplitude of the channels of the stereo signal. The method is such that it further comprises a determination for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
Ainsi, le traitement de réduction de canaux selon l'invention est effectué dans le domaine fréquentiel, par coefficient fréquentiel de façon à contrôler très précisément l'énergie et la phase sur tout le spectre fréquentiel.  Thus, the channel reduction processing according to the invention is carried out in the frequency domain by frequency coefficient so as to control very precisely the energy and the phase over the entire frequency spectrum.
La détermination, selon l'invention, de la phase du signal mono permet d'obtenir cette information de phase de façon plus naturelle sans dépendre d'un canal stéréo en particulier. Ceci permet d'éviter les problèmes de situations particulières des canaux stéréo.  The determination, according to the invention, of the phase of the mono signal makes it possible to obtain this phase information more naturally without depending on a particular stereo channel. This avoids the problems of particular situations of the stereo channels.
Pour s'adapter à ce traitement de réduction de canaux, dans un premier mode de réalisation, les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par coefficient fréquentiel, la différence de phase définie entre le signal mono et un premier canal stéréo prédéterrniné.  To adapt to this channel reduction processing, in a first embodiment, the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the phase difference defined between the mono signal and a first predetermined stereo channel.
Ainsi, seules les informations de spatialisation utiles pour la reconstruction du signal stéréo, sont codées. Un codage bas débit est alors possible tout en permettant d'obtenir au décodeur un signal stéréo de bonne qualité.  Thus, only spatialization information useful for the reconstruction of the stereo signal is encoded. A low rate coding is then possible while allowing the decoder to obtain a good quality stereo signal.
Dans un deuxième mode de réalisation, la seconde information comporte en outre une indication minimale permettant de déduire la différence de phase entre le signal mono et le second canal stéréo.  In a second embodiment, the second piece of information furthermore comprises a minimum indication enabling the phase difference between the mono signal and the second stereo channel to be deduced.
Dans un mode privilégié de réalisation, l'indication minimale est codée sur un bit et indique le choix entre deux différences de phase possibles entre le signal mono et le second canal stéréo pour un codage bas débit. Dans une variante de réalisation, l'indication minimale est codée sur un bit et indique le choix entre deux gains possibles à appliquer à l'intensité du signal mono pour retrouver le second canal stéréo. In a preferred embodiment, the minimum indication is coded on a bit and indicates the choice between two possible phase differences between the mono signal and the second stereo channel for a low bit rate coding. In an alternative embodiment, the minimum indication is coded on a bit and indicates the choice between two possible gains to be applied to the intensity of the mono signal to find the second stereo channel.
Pour s'adapter au traitement de réduction de canaux de l'invention, dans un troisième mode de réalisation, les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information donnant en particulier l'amplitude de la somme des canaux stéréo.  To adapt to the channel reduction processing of the invention, in a third embodiment, the spatialization information includes a first information on the amplitude of the stereo channels and a second piece of information giving in particular the amplitude of the sum stereo channels.
Ces informations de spatialisation suffisent pour reconstruire au décodeur un signal stéréo de bonne qualité.  This spatialization information is sufficient to reconstruct a decoder stereo signal of good quality.
Pour un codage bas débit des informations de spatialisation, la seconde information comporte, par coefficient fréquentiel, la valeur de l'amplitude de la somme des canaux stéréo et une indication minimale permettant de déduire le sens de rotation des canaux stéréo.  For a low bit rate coding of the spatialization information, the second piece of information comprises, by frequency coefficient, the value of the amplitude of the sum of the stereo channels and a minimum indication making it possible to deduce the direction of rotation of the stereo channels.
Dans une variante de réalisation, la seconde information comporte, par coefficient fréquentiel, la valeur d'un gain à appliquer à l'amplitude du signal mono et une indication minimale permettant de déduire le sens de rotation des canaux stéréo.  In an alternative embodiment, the second piece of information comprises, by frequency coefficient, the value of a gain to be applied to the amplitude of the mono signal and a minimum indication making it possible to deduce the direction of rotation of the stereo channels.
Dans une variante de réalisation de tous les modes, adaptée à un codage hiérarchique, la première information est codée par une première couche de codage et la seconde information est codée par une seconde couche de codage.  In an alternative embodiment of all the modes, adapted to a hierarchical coding, the first piece of information is coded by a first coding layer and the second piece of information is coded by a second coding layer.
L'invention se rapporte également à un procédé de décodage paramétrique d'un signal audionumérique stéréo comportant une étape de décodage d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage d'informations de spatialisation du signal stéréo original. Le décodage est tel qu'il comporte une synthèse des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé comportant une information d'amplitude obtenue en fonction des amplitudes des canaux stéréo originaux et une information de phase du signal moyennant les canaux stéréo originaux et à partir d'informations de spatialisation décodées.  The invention also relates to a method of parametric decoding of a stereo audio signal comprising a step of decoding a received mono signal, resulting from a channel reduction processing applied to the original stereo signal and to decoding information. spatialization of the original stereo signal. The decoding is such that it comprises a synthesis of the stereo signals, by frequency coefficient, from the decoded mono signal comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and a signal information of the signal by means of the stereo channels originals and from decoded spatialization information.
Le signal mono ainsi reçu permet d'obtenir un signal stéréo qui conserve l'énergie du signal stéréo original.  The mono signal thus received provides a stereo signal that retains the energy of the original stereo signal.
Dans un premier mode de réalisation, les informations de spatialisation décodées comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par coefficient fréquentiel, l'angle défini entre le signal mono et un premier canal stéréo prédéterminé. In a first embodiment, the decoded spatialization information includes a first information on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the angle defined between the mono signal and a first predetermined stereo channel.
Ces informations permettent donc de restituer un signal stéréo de bonne qualité. Dans un deuxième mode de réalisation, la seconde information comporte en outre une indication minimale permettant de déduire l'angle entre le signal mono et le second canal stéréo.  This information therefore makes it possible to reproduce a stereo signal of good quality. In a second embodiment, the second piece of information furthermore comprises a minimum indication enabling the angle between the mono signal and the second stereo channel to be deduced.
Une simple indication à bas débit permet d'obtenir l'information pour retrouver les canaux stéréo avec le bon déphasage.  A simple low-speed indication provides the information to find the stereo channels with the correct phase shift.
Dans un cas, l'indication minimale décodée indique le choix entre deux angles possibles entre le signal mono et le second canal stéréo.  In one case, the decoded minimum indication indicates the choice between two possible angles between the mono signal and the second stereo channel.
Dans une variante l'indication minimale décodée indique le choix entre deux gains possibles à appliquer à l'intensité du signal mono pour retrouver le second canal stéréo.  In a variant, the decoded minimum indication indicates the choice between two possible gains to be applied to the intensity of the mono signal to find the second stereo channel.
Dans un troisième mode de réalisation, les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur l'amplitude de la somme des canaux stéréo.  In a third embodiment, the spatialization information includes a first information on the amplitude of the stereo channels and a second information on the amplitude of the sum of the stereo channels.
Ces informations permettent également de restituer un signal stéréo de bonne qualité.  This information also makes it possible to reproduce a stereo signal of good quality.
Dans une variante de réalisation la seconde information comporte, par coefficient fréquentiel, la valeur de l'amplitude de la somme des canaux stéréo et une indication minimale permettant de déduire le sens de rotation des canaux stéréo et dans une variante la seconde information comporte, par coefficient fréquentiel, la valeur d'un gain à appliquer à l'amplitude du signal mono décodé .et une indication minimale permettant de déduire le sens de rotation des canaux stéréo.  In an alternative embodiment, the second piece of information comprises, by frequency coefficient, the value of the amplitude of the sum of the stereo channels and a minimum indication enabling the direction of rotation of the stereo channels to be deduced and in a variant the second piece of information comprises, for example, frequency coefficient, the value of a gain to be applied to the amplitude of the decoded mono signal, and a minimum indication for deducing the direction of rotation of the stereo channels.
Dans une variante de réalisation de tous les modes, adaptée au décodage hiérarchique, la première information sur l'amplitude des canaux stéréo est décodée par une première couche de décodage et la seconde information est décodée par une seconde couche de décodage.  In an alternative embodiment of all the modes, adapted to the hierarchical decoding, the first information on the amplitude of the stereo channels is decoded by a first decoding layer and the second information is decoded by a second decoding layer.
L'invention se rapporte également à un codeur paramétrique d'un signal audionumérique stéréo comportant un module de codage d'un signal mono issu d'un module de traitement de réduction de canaux appliqué au signal stéréo et un module de codage d'informations de spatialisation du signal stéréo, le module de traitement de réduction des canaux comportant un module de calcul, par coefficient fréquentiel, de l'amplitude du signal mono en fonction des amplitudes des canaux du signal stéréo. Le codeur est tel que le module de traitement de réduction des canaux comporte en outre un module de détermination pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo. The invention also relates to a parametric encoder of a stereo digital audio signal comprising a coding module of a mono signal from a channel reduction processing module applied to the stereo signal and an information coding module of a stereo signal. spatialization of the stereo signal, the channel reduction processing module comprising a module for calculating, by frequency coefficient, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal. The encoder is such that the channel reduction processing module further comprises a determination module for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
Elle se rapporte aussi à un décodeur paramétrique d'un signal audionumérique stéréo comportant un module de codage d'un signal mono issu d'un module de traitement de réduction de canaux appliqué au signal stéréo et un module de codage d'informations de spatialisation du signal stéréo, le module de traitement de réduction des canaux comportant un module de calcul, par coefficient fréquentiel, de l'amplitude du signal mono en fonction des amplitudes des canaux du signal stéréo. Le décodeur est tel que le module de traitement de réduction des canaux comporte en outre un module de détermination pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo.  It also relates to a parametric decoder of a stereo audio signal comprising a coding module of a mono signal from a channel reduction processing module applied to the stereo signal and a spatialization information coding module of the stereo signal, the channel reduction processing module comprising a module for calculating, by frequency coefficient, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal. The decoder is such that the channel reduction processing module further comprises a determination module for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
Enfin, l'invention se rapporte à un programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'invention et/ou d'un procédé de décodage selon l'invention.  Finally, the invention relates to a computer program comprising code instructions for implementing the steps of a coding method according to the invention and / or a decoding method according to the invention.
L'invention se rapporte enfin à un moyen de stockage lisible par un processeur mémorisant un programme informatique tel que décrit.  The invention finally relates to a storage means readable by a processor storing a computer program as described.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:  Other features and advantages of the invention will appear more clearly on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings, in which:
- la figure 1 illustre un codeur mettant en œuvre un codage paramétrique connu de l'état de l'art et précédemment décrit;  FIG. 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described;
- la figure 2 illustre un décodeur mettant en œuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit;  FIG. 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described;
- la figure 3 illustre un codeur paramétrique stéréo selon un mode de réalisation de l'invention mettant en œuvre un procédé de codage selon plusieurs modes de réalisation de l'invention;  FIG. 3 illustrates a stereo parametric encoder according to one embodiment of the invention embodying a coding method according to several embodiments of the invention;
- les figures 4a et 4b illustrent le train binaire des informations de spatialisation codés dans un mode particulier de réalisation;  FIGS. 4a and 4b illustrate the bit stream of spatialization information coded in a particular embodiment;
- les figures 5a et 5b illustrent sous forme d'organigramme, les étapes de détermination au codeur, des informations de spatialisation selon respectivement un premier mode et un deuxième mode de réalisation de l'invention; - les figures 6a et 6b illustrent un mode de calcul des informations de spatialisation et de synthèse des signaux stéréo utilisant ces informations selon le premier mode de réalisation; FIGS. 5a and 5b illustrate, in flowchart form, the steps for determining the encoder, spatialization information according to a first mode and a second embodiment of the invention, respectively; FIGS. 6a and 6b illustrate a method of calculating the spatialization and synthesis information of the stereo signals using this information according to the first embodiment;
- la figure 6c illustre un mode de calcul des informations de spatialisation et de synthèse des signaux stéréo utilisant ces informations selon le deuxième mode de réalisation;  FIG. 6c illustrates a calculation mode of the spatialization and synthesis information of the stereo signals using this information according to the second embodiment;
- les figures 7a et 7b illustrent sous forme d'organigrammes, les étapes de détermination des informations de spatialisation selon un troisième mode de réalisation de l'invention dans une première et deuxième variante;  FIGS. 7a and 7b illustrate, in the form of flowcharts, the steps of determining the spatialization information according to a third embodiment of the invention in a first and second variant;
- les figures 8a et 8b illustrent un mode de calcul des informations de spatialisation et de synthèse dés signaux stéréo utilisant ces informations selon un troisième mode de réalisation;  FIGS. 8a and 8b illustrate a method of calculating the spatialization and synthesis information of stereo signals using this information according to a third embodiment;
- la figure 9 illustre une variante de réalisation d'un codeur selon l'invention;  FIG. 9 illustrates an alternative embodiment of an encoder according to the invention;
- la figure 10 illustre un décodeur selon un mode de réalisation de l'invention, mettant en œuvre un procédé de décodage selon plusieurs modes de réalisation de l'invention;  FIG. 10 illustrates a decoder according to one embodiment of the invention, implementing a decoding method according to several embodiments of the invention;
- les figures l ia et 11b illustrent sous forme d'organigramme, les étapes de détermination au décodeur, des informations de spatialisation selon respectivement un premier mode et un deuxième mode de réalisation de l'invention;  FIGS. 11a and 11b illustrate, in flowchart form, the decoder determination steps, spatialization information according to a first mode and a second embodiment of the invention, respectively;
- la figure 12 illustre sous forme d'organigramme, les étapes de détermination au décodeur, des informations de spatialisation selon un troisième mode de réalisation de l'invention;  FIG. 12 illustrates, in flowchart form, the decoder determination steps, spatialization information according to a third embodiment of the invention;
- les figures 13a et 13b illustrent respectivement un exemple matériel d'un équipement incorporant un codeur et un décodeur aptes à mettre en œuvre le procédé de codage et le procédé de décodage, selon un mode de réalisation de l'invention.  FIGS. 13a and 13b respectively illustrate a hardware example of an equipment incorporating an encoder and a decoder able to implement the coding method and the decoding method, according to one embodiment of the invention.
En référence à la figure 3, un codeur paramétrique de signaux stéréo selon un mode de réalisation de l'invention, délivrant à la fois un signal mono et des paramètres d'information spatiale du signal stéréo est maintenant décrit.  With reference to FIG. 3, a parametric encoder of stereo signals according to an embodiment of the invention, delivering both a mono signal and spatial information parameters of the stereo signal is now described.
Ce codeur stéréo paramétrique tel qu'illustré utilise un codage mono G.722 et étend ce codage en opérant en bande élargie avec des signaux stéréo échantillonnés à 16 kHz avec des trames de 5 ms. Il est à noter que le choix d'une longueur de trames de 5 ms n'est en aucun cas restrictif dans l'invention qui s'applique pareillement dans des variantes du mode de réalisation où la longueur de trames est différente, par exemple de 10 ou 20 ms. Chaque canal temporel (L et R) échantillonné à 16 kHz est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant les composantes en dessous de 50 Hz (blocs 301 et 302). This parametric stereo encoder as shown uses a G.722 mono coding and extends this coding by operating in wideband with stereo signals sampled at 16 kHz with 5 ms frames. It should be noted that the choice of a frame length of 5 ms is in no way restrictive in the invention which applies equally in variants of the embodiment where the frame length is different, for example from 10 or 20 ms. Each time channel (L and R) sampled at 16 kHz is first pre-filtered by a high pass filter (HPF) eliminating the components below 50 Hz (blocks 301 and 302).
Les canaux L et R sont analysés en fréquences par transformée de Fourier discrète avec fenêtrage sinusoïdal à recouvrement de 50% de longueur 10 ms soit 160 échantillons (blocs 303 à 306). Pour chaque trame, le signal (L, R) est donc pondéré par une fenêtre d'analyse symétrique couvrant 2 trames de 5 ms soit 10 ms (160 échantillons). La fenêtre d'analyse de 10 ms couvre la trame courante et la trame future. La trame future correspond à un segment de signal "futur" communément appelé "Iookahead" de 5 ms.  The L and R channels are analyzed by discrete Fourier transform frequencies with overlapping sinusoidal windowing of 50% length 10 ms or 160 samples (blocks 303 to 306). For each frame, the signal (L, R) is weighted by a symmetric analysis window covering 2 frames of 5 ms or 10 ms (160 samples). The 10ms analysis window covers the current frame and the future frame. The future frame corresponds to a "future" signal segment commonly called "Iookahead" of 5 ms.
Pour la trame courante, les spectres obtenus,
Figure imgf000014_0001
For the current frame, the spectra obtained,
Figure imgf000014_0001
comprennent 81 coefficients complexes, avec une résolution de 100 Hz par coefficient fréquentiel. Le coefficient d'indice j=0 correspond à la composante continue (0 Hz), il est réel. Le coefficient d'indice y"=80 correspond à la fréquence de Nyquist (8000 Hz), il est aussi réel. Les coefficients d'indice 0 <j <80 sont complexes et correspondent à une sous- bande de largeur 100 Hz centrée sur la fréquence de j . include 81 complex coefficients, with a resolution of 100 Hz per frequency coefficient. The coefficient of index j = 0 corresponds to the DC component (0 Hz), it is real. The coefficient of index y " = 80 corresponds to the frequency of Nyquist (8000 Hz), it is also real, the coefficients of index 0 <j <80 are complex and correspond to a subband of width 100 Hz centered on the frequency of j.
Les spectres L' et R' sont combinés dans le bloc 307 pour obtenir un signal mono (downmix) M' dans le domaine fréquentiel. Ce signal est converti en temps par FFT inverse et fenêtrage-recouvrement avec la partie "Iookahead" de la trame précédente (blocs 308 à 310).  Spectra L 'and R' are combined in block 307 to obtain a mono (downmix) signal M 'in the frequency domain. This signal is converted into time by inverse FFT and windowing-overlap with the "Iookahead" part of the previous frame (blocks 308 to 310).
Puisque le retard algorithmique de G.722 est de 22 échantillons, le signal mono est retardé (bloc 311) de T = 80-22 échantillons afin de permettre de réutiliser le résultat de l'analyse fréquentiel des blocs 305 et 306 car le retard accumulé entre le signal mono et les canaux stéréo devient un multiple de la longueur de trames (80 échantillons).  Since the algorithmic delay of G.722 is 22 samples, the mono signal is delayed (block 311) of T = 80-22 samples in order to allow to reuse the result of the frequency analysis of the blocks 305 and 306 because the accumulated delay between the mono signal and the stereo channels becomes a multiple of the frame length (80 samples).
La trame courante de 5 ms du signal mono obtenu est codée par le codeur G.722 (bloc 312). Cependant l'invention s'applique également dans des variantes de réalisation où une version modifiée de G.722 est utilisée, voire un codeur différent de G.722.  The current frame of 5 ms of the obtained mono signal is encoded by the G.722 encoder (block 312). However, the invention also applies in variant embodiments where a modified version of G.722 is used, or even an encoder other than G.722.
Pour synchroniser l'extraction de paramètres stéréo (bloc 314) et la synthèse spatiale à partir du signal mono effectué au décodeur, il faut introduire dans le codeur- décodeur un retard de 2 trames. Le retard de 2 trames est spécifique à la mise en œuvre détaillée ici, en particulier il est lié aux fenêtres symétriques sinusoïdales de 10 ms. Ce retard pourrait être différent, par exemple on pourrait obtenir un retard d'une trame avec une fenêtre optimisée avec un recouvrement plus faible entre fenêtres adjacentes. Dans un mode particulier de réalisation de l'invention, illustré ici à la figure 3, le bloc 313 introduit un retard de deux trames sur les spectres L'[j] et R '[ j] afin d'obtenir les spectres L[j] et JR[ j] . To synchronize the extraction of stereo parameters (block 314) and the spatial synthesis from the mono signal made to the decoder, a delay of 2 frames must be introduced into the codec. The delay of 2 frames is specific to the detailed implementation here, in particular it is related to symmetrical sinusoidal windows of 10 ms. This delay could be different, for example one could obtain a delay of a frame with an optimized window with a lower overlap between adjacent windows. In a particular embodiment of the invention, illustrated here in FIG. 3, the block 313 introduces a delay of two frames on the spectra L '[j] and R' [j] in order to obtain the spectra L [j] ] and JR [j].
Cependant, on pourrait de façon plus avantageuse en termes de quantité de données à stocker, décaler les sorties du bloc 314 d'extraction des paramètres ou encore les sorties des blocs de quantification 315 et 316. On pourrait également introduire ce décalage au décodeur à la réception des couches d'amélioration stéréo.  However, it would be more advantageous in terms of the quantity of data to be stored, to shift the outputs of the parameter extraction block 314 or else the outputs of the quantization blocks 315 and 316. It would also be possible to introduce this offset to the decoder at the same time. receiving stereo enhancement layers.
Parallèlement au codage mono, le codage de l'information spatiale stéréo est mis en œuvre dans les blocs 314 à 316.  In parallel with the mono coding, the coding of the stereo spatial information is implemented in the blocks 314 to 316.
Les paramètres stéréo sont extraits (bloc 314) et codés (blocs 315 et 316) à partir des spectres L', R et M' décalés de deux trames: L, R et M. .  The stereo parameters are extracted (block 314) and coded (blocks 315 and 316) from the spectrums L ', R and M' offset by two frames: L, R and M.
Le bloc de traitement de réduction de canaux 307 ou "downmix" est maintenant décrit plus en détails.  The channel reduction processing block 307 or "downmix" is now described in more detail.
Celui-ci réalise selon un mode de réalisation de l'invention, un "downmix" dans le domaine fréquentiel pour obtenir un signal mono M '[ jfj .  According to one embodiment of the invention, the latter performs a "downmix" in the frequency domain to obtain a mono signal M '[jfj.
Ce signal mono M '[j] est calculé par la formule suivante qui définit l'amplitude et la phase pour chaque raie fréquentielle:  This mono signal M '[j] is calculated by the following formula which defines the amplitude and the phase for each frequency line:
Figure imgf000015_0001
Figure imgf000015_0001
A noter que l'amplitude du canal mono peut également être déterminée selon une formule du type:
Figure imgf000016_0001
Note that the amplitude of the mono channel can also be determined according to a formula of the type:
Figure imgf000016_0001
Ainsi, le traitement de réduction des canaux du signal stéréo comporte un calcul par coefficient fréquentiel, de l'amplitude du signal mono en fonction des amplitudes des canaux du signal stéréo effectuée dans le module 330 du bloc 307 et une détermination par coefficient fréquentiel, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo effectuée dans le module 331 du bloc 307. Thus, the channel reduction processing of the stereo signal comprises a frequency coefficient calculation, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal performed in the module 330 of the block 307 and a frequency coefficient determination of the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal carried out in the module 331 of the block 307.
A noter qu'une variante de réalisation du calcul de l'amplitude et de la phase de ce signal mono revient à calculer de façon équivalente, par coefficient fréquentiel (ou raie fréquentielle):  It should be noted that an alternative embodiment of the calculation of the amplitude and the phase of this mono signal amounts to calculating in an equivalent way, by frequency coefficient (or frequency line):
M ij] = Îj .{LV)+R ]) (16)  M ij] = ij. (LV) + R]) (16)
avec
Figure imgf000016_0002
with
Figure imgf000016_0002
Ainsi on retrouve
Figure imgf000016_0003
So we find
Figure imgf000016_0003
Le facteur de compensation est calculé et appliqué dans le domaine fréquentiel, ici coefficient par coefficient, et ce facteur est calculé à partir des amplitudes des canaux stéréo et non de l'énergie de ces canaux et à partir du signal moyennant les canaux stéréo. Ainsi on conserve l'amplitude partout dans le spectre sur toute la bande à coder, et non pas sur une zone de fréquence dominante.  The compensation factor is calculated and applied in the frequency domain, here coefficient by coefficient, and this factor is calculated from the amplitudes of the stereo channels and not from the energy of these channels and from the signal by means of the stereo channels. Thus the amplitude is maintained everywhere in the spectrum over the entire band to be coded, and not on a dominant frequency zone.
Le traitement de "downmix" dans le domaine fréquentiel implique un retard de 5 ms pour la reconstruction avec recouvrement-addition.  Frequency domain "downmix" processing involves a delay of 5 ms for recovery-addition reconstruction.
Cependant le codeur présenté ici utilise des trames courtes de 5 ms. L'impact sur le retard algorithmique du codeur global n'est donc pas trop important. Ce retard additionnel serait plus gênant avec des trames plus longues de l'ordre de 20 ms. Néanmoins il existe des solutions pour réduire ce retard additionnel en particulier en utilisant une fenêtre optimisée non sinusoïdale avec un recouvrement plus faible entre fenêtres adjacentes. Par ailleurs, la complexité additionnelle due à l'opération de "downmix" dans le domaine fréquentiel est limité ici à la conversion fréquences/temps du signal mono (blocs 308 à 310) car dans tous les cas la conversion temps/fréquence des canaux stéréo (blocs 303 à 306) est nécessaire à l'extraction et au codage des paramètres stéréo qui sont définis et calculés dans le domaine fréquentiel. However, the encoder presented here uses short frames of 5 ms. The impact on the algorithmic delay of the overall encoder is therefore not too important. This additional delay would be more troublesome with longer frames of the order of 20 ms. Nevertheless, there are solutions to reduce this additional delay, in particular by using an optimized non-sinusoidal window with a lower overlap between adjacent windows. Moreover, the additional complexity due to the "downmix" operation in the frequency domain is limited here to the frequency / time conversion of the mono signal (blocks 308 to 310) because in all cases the time / frequency conversion of the stereo channels (blocks 303 to 306) is necessary for the extraction and coding of the stereo parameters which are defined and calculated in the frequency domain.
Pour adapter les paramètres de spatialisation au signal mono tel qu'obtenu par le traitement de "downmix" décrit ci-dessus, une extraction particulière des paramètres par le bloc 314 est maintenant décrite en référence à la figure 3.  To adapt the spatialization parameters to the mono signal as obtained by the "downmix" processing described above, a particular extraction of the parameters by the block 314 is now described with reference to FIG.
Pour l'extraction des paramètres ICLD (bloc 314), les spectres L[ j] et R[j] sont découpés en 20 sous-bandes de fréquences. Ces sous-bandes sont définies par les frontières suivantes :  For the extraction of the ICLD parameters (block 314), the spectra L [j] and R [j] are divided into 20 sub-frequency bands. These subbands are defined by the following boundaries:
{ B(k) }t=0,..,20 = [0, 1, 2, 3, 4, 5, 6, 7, 9, 11, 13, 16, 19, 23, 27, 31, 37, 44, 52, 61, 80] {B (k)} t = 0 , .., 20 = [0, 1, 2, 3, 4, 5, 6, 7, 9, 11, 13, 16, 19, 23, 27, 31, 37, 44, 52, 61, 80]
Le tableau ci-dessus délimite (en nombre de coefficients de Fourier) les sous- bandes fréquentielles d'indice k = 0 à 19. Par exemple la première sous-bande (k=0) va du coefficient B(k)= à B(k+1 )-l = 0; elle est donc réduite à un seul coefficient (100 Hz). De même, la dernière sous-bande (k=19) va du coefficient B(k)=61 à B(k+l)-l = 79, elle comprend 19 coefficients (1900 Hz).  The table above delimits (in number of Fourier coefficients) the frequency subbands of index k = 0 to 19. For example the first subband (k = 0) goes from the coefficient B (k) = to B (k + 1) -l = 0; it is therefore reduced to a single coefficient (100 Hz). Similarly, the last sub-band (k = 19) goes from the coefficient B (k) = 61 to B (k + 1) -l = 79, it comprises 19 coefficients (1900 Hz).
Pour chaque trame, l'ICLD de la sous-bande k—0,.,.,19 est calculée suivant l'équation:  For each frame, the ICLD of the sub-band k-0,.,., 19 is calculated according to the equation:
ICLD[it] = 10.1og 10 dB (18)ICLD [it] = 10.1og 10 dB (18)
Figure imgf000017_0001
Figure imgf000017_0001
où a [k] et <Τβ[&] représentent respectivement l'énergie du canal gauche (L) et du canal droit (R). where a [k] and <Τ β [&] respectively represent the energy of the left channel (L) and the right channel (R).
Selon un mode de réalisation particulier, dans une première couche d'extension stéréo (+8 kbit/s), les paramètres ICLD sont codés par une quantification scalaire non- uniforme différentielle (bloc 315) sur 40 bits par trame. Cette quantification ne sera pas détaillée ici car elle dépasse le cadre de l'invention.  According to a particular embodiment, in a first stereo extension layer (+8 kbit / s), the ICLD parameters are coded by differential non-uniform scalar quantization (block 315) on 40 bits per frame. This quantification will not be detailed here because it goes beyond the scope of the invention.
On sait selon l'ouvrage J, Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localization", revised édition, MIT Press, 1997 que l'information de phase pour les fréquences inférieures à 1.5-2 kHz est particulièrement importante pour obtenir une bonne qualité stéréo. L'analyse temps-fréquence réalisée ici donne 80 coefficients frequentiels par trame, soit une résolution de 100 Hz par coefficient. Le budget de bits étant de 40 bits et l'allocation étant, comme expliqué plus loin, de 5 bits par coefficient, seules 8 raies peuvent être codées. Par expérimentation les raies d'indice j~2 à 9 ont été choisies pour ce codage de l'information de phase. Ces raies correspondent à une bande de fréquences de 150 à 950 Hz. According to J Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localization", revised edition, MIT Press, 1997 that phase information for frequencies below 1.5-2 kHz is particularly important for obtaining good stereo quality. The time-frequency analysis performed here gives 80 frequency coefficients per frame, a resolution of 100 Hz per coefficient. Since the bit budget is 40 bits and the allocation is, as explained below, 5 bits per coefficient, only 8 lines can be coded. By experimentation the lines of index j ~ 2 to 9 were chosen for this coding of the phase information. These lines correspond to a frequency band of 150 to 950 Hz.
Ainsi, pour la seconde couche d'extension stéréo (+8 kbit/s) les coefficients fréquentiels où l'information de phase est la plus importante perceptuellement sont identifiés, et les phases associées sont codées (bloc 316) par une technique détaillée ci-après en référence aux figures 6a et 6b en utilisant un budget de 40 bits par trame.  Thus, for the second stereo extension layer (+8 kbit / s) the frequency coefficients where the phase information is the most perceptually important are identified, and the associated phases are coded (block 316) by a technique detailed below. after referring to Figures 6a and 6b using a budget of 40 bits per frame.
Normalement pour que le décodeur puisse reconstruire les canaux L et R, il faudrait coder deux angles par coefficient fréquentiel.  Normally so that the decoder can reconstruct the L and R channels, it would be necessary to code two angles by frequency coefficient.
Dans le premier mode de réalisation de l'invention décrit ici, un seul angle entre un premier canal stéréo, par exemple ici le canal secondaire (défini plus loin) et le signal mono défini par le traitement de "downmix" du bloc 307, est codé.  In the first embodiment of the invention described here, a single angle between a first stereo channel, for example here the secondary channel (defined below) and the mono signal defined by the "downmix" processing of block 307, is code.
Cette seule information suffit pour retrouver le canal dominant comme expliqué ultérieurement en référence à la figure 6b.  This information alone is sufficient to find the dominant channel as explained later with reference to Figure 6b.
Dans un deuxième mode de réalisation, l'angle entre le canal dominant (défini plus loin) et le signal mono est codé et une autre information minimale est également codée, sur 1 bit, pour permettre de déduire l'angle du second canal stéréo, ici, le canal secondaire à partir des autres informations déjà codées.  In a second embodiment, the angle between the dominant channel (defined below) and the mono signal is coded and another minimum information is also coded, on 1 bit, to allow to deduce the angle of the second stereo channel, here, the secondary channel from the other already coded information.
Plus précisément, les paramètres qui sont transmis dans la deuxième couche d'amélioration stéréo sont pour chaque raie dans le premier mode de réalisation:  More specifically, the parameters that are transmitted in the second stereo enhancement layer are for each line in the first embodiment:
- l'angle ?[ j entre le signal mono et le canal secondaire, codé sur 5 bits dans
Figure imgf000018_0001
suivant une quantification scalaire uniforme et de pas— .
the angle? j between the mono signal and the secondary channel, coded on 5 bits in
Figure imgf000018_0001
following a uniform scalar quantization and pas-.
Dans le deuxième mode de réalisation, les paramètres qui sont transmis dans la deuxième couche d'amélioration stéréo sont pour chaque raie In the second embodiment, the parameters that are transmitted in the second stereo enhancement layer are for each line
- 'angle a[j] entre le signal mono et le canal dominant, codé sur 4 bits dans l'intervalle - 'angle a [j] between the mono signal and the dominant channel, coded on 4 bits in the interval
Figure imgf000018_0002
Figure imgf000018_0002
- un indicateur b[j] permettant de choisir entre /¾[ ] et ¾[/] codé sur 1 bit: b[j] ~ 0 pour fi0[f et 1 pour β{ [j] . Pour chaque raie j considérée, il faut donc 5 bits. Le budget total de la deuxième couche étant de 40 bits par trame, on ne code donc que les paramètres associés à 8 coefficients Séquentiels, de façon préférentielle pour les raies d'indice j-2 à 9. an indicator b [j] making it possible to choose between / ¾ [] and ¾ [/] coded on 1 bit: b [j] ~ 0 for fi 0 [f and 1 for β { [j]. For each line j considered, therefore, 5 bits. Since the total budget of the second layer is 40 bits per frame, only the parameters associated with 8 sequential coefficients are coded, preferably for the lines of index j-2 to 9.
Les figures 4a et 4b présentent la structure du train binaire pour le codeur dans un mode de réalisation privilégié. Il s'agit d'une structure de train binaire hiérarchique issue du codage scalable avec pour codage cœur, le codage de type G.722.  Figures 4a and 4b show the structure of the bitstream for the encoder in a preferred embodiment. It is a hierarchical binary bit structure derived from scalable coding with G.722 coding for core coding.
Le signal mono est ainsi codé par G.722 à 56 ou 64 kbit/s.  The mono signal is thus coded by G.722 at 56 or 64 kbit / s.
A la figure 4a, le codage cœur G.722 fonctionne à 56 kbit/s et une première couche d'extension stéréo (Ext.stereo I) est ajoutée.  In FIG. 4a, the G.722 core coding operates at 56 kbit / s and a first stereo extension layer (Ext.stereo I) is added.
A la figure 4b, le codage cœur G.722 fonctionne à 64 kbit/s et deux couches d'extension stéréo (ExLstereo 1 et Ext.stereo 2) sont ajoutées.  In FIG. 4b, the G.722 core coding operates at 64 kbit / s and two stereo extension layers (ExLstereo 1 and Ext.stereo 2) are added.
Le codeur fonctionne donc selon deux modes (ou configurations) possibles:  The encoder thus operates according to two possible modes (or configurations):
- un mode avec un débit de 56+8 kbit/s (figure 4a) avec un codage du signal mono (downmix) par un codage G.722 à 56 kbit/s et une extension stéréo de 8 kbit/s.  a mode with a bit rate of 56 + 8 kbit / s (FIG. 4a) with a coding of the mono (downmix) signal by a G.722 coding at 56 kbit / s and a stereo extension of 8 kbit / s.
- un mode avec un débit de 64+16 kbit/s (figure 4b) avec un codage du signal mono (downmix) par un codage G.722 à 64 kbit/s et une extension stéréo de 16 kbit/s.  a mode with a bit rate of 64 + 16 kbit / s (FIG. 4b) with a coding of the mono signal (downmix) by a G.722 coding at 64 kbit / s and a stereo extension of 16 kbit / s.
Pour ce deuxième mode, on suppose que les 16 kbit/s additionnels sont divisés en deux couches de 8 kbit/s dont la première est identique en termes de syntaxe (i.e. paramètres codés) à la couche d'amélioration du mode 56+8 kbit/s.  For this second mode, it is assumed that the additional 16 kbit / s are divided into two 8 kbit / s layers, the first of which is identical in terms of syntax (ie coded parameters) to the 56 + 8 kbit mode enhancement layer. / s.
Ainsi le train binaire représenté en figure 4a comporte l'information sur l'amplitude des canaux stéréo, par exemple les paramètres ICLD tels que décrits ci-dessus.  Thus, the bit stream shown in FIG. 4a includes the information on the amplitude of the stereo channels, for example the ICLD parameters as described above.
Le train binaire représenté en figure 4b comporte à la fois l'information sur l'amplitude des canaux stéréo dans la première couche d'extension et l'information de phase des canaux stéréo dans la deuxième couche d'extension.  The bit stream shown in FIG. 4b includes both the stereo channel amplitude information in the first extension layer and the stereo channel phase information in the second extension layer.
Le découpage en deux couches d'extension montré aux figures 4a et 4b pourrait se généraliser au cas où au moins l'une des deux couches d'extension comprend à la fois une partie de l'information sur l'amplitude et une partie de l'information sur la phase.  The division into two extension layers shown in FIGS. 4a and 4b could be generalized in the case where at least one of the two extension layers comprises both a part of the amplitude information and a part of the amplitude information. information on the phase.
Dans les modes de réalisation décrits ci-dessus, l'information de phase comporte la différence de phase du signal mono avec un des canaux stéréo déterminé comme secondaire pour le premier mode de réalisation ou dominant pour le second mode de réalisation. Dans le cas du second mode de réalisation, l'information de phase comporte aussi une indication minimale permettant de déduire la différence de phase du signal mono avec le canal stéréo déterminé comme secondaire. Le budget alloué pour coder cette information de phase n'est qu'un exemple particulier de réalisation. Il peut être inférieur et dans ce cas ne prendre en compte qu'un nombre réduit de raies fréquentielles ou au contraire supérieur et peut permettre de coder un plus grand nombre de raies fréquentielles. In the embodiments described above, the phase information comprises the phase difference of the mono signal with one of the stereo channels determined as secondary for the first embodiment or dominant for the second embodiment. In the case of the second embodiment, the phase information also includes a minimum indication for deducing the phase difference of the mono signal with the stereo channel determined as secondary. The budget allocated to code this phase information is only one particular example of achievement. It can be lower and in this case take into account only a small number of frequency lines or on the contrary higher and can allow to code a greater number of frequency lines.
De même le codage de ces informations de spatialisation sur deux couches d'extension est un mode de réalisation particulier. L'invention s'applique également au cas où ces informations sont codées dans une seule couche de codage d'amélioration.  Similarly, the coding of these spatialization information on two extension layers is a particular embodiment. The invention is also applicable in the case where this information is coded in a single improvement coding layer.
La détermination des informations de phase est maintenant explicitée en référence aux figures 6a, 6b et 6c.  The determination of the phase information is now explained with reference to FIGS. 6a, 6b and 6c.
On distingue ici deux canaux pour chaque raie j-2 à 9: le canal dominant X [j] et le canal secondaire Y [j] .  We distinguish here two channels for each line j-2 to 9: the dominant channel X [j] and the secondary channel Y [j].
Au décodeur ces canaux sont déterminés comme suit:  At the decoder these channels are determined as follows:
Figure imgf000020_0001
Figure imgf000020_0001
où î[j] est l'information d'amplitude - définie à l'équation 42 -qui correspond au rapport d'amplitude entre canal gauche et canal droit. Ainsi le canal dominant X [j] est le canal décodé L[j] ou R[j] dont l'amplitude est la plus forte. De façon similaire, le le canal where î [j] is the amplitude information - defined in equation 42 - which corresponds to the amplitude ratio between left channel and right channel. Thus the dominant channel X [j] is the decoded channel L [j] or R [j] whose amplitude is the strongest. Similarly, the channel
j\ est le canal décodé L[j] ou R[j] dont Γ amplitude est la plus faible. i is the decoded channel L [j] or R [j] whose amplitude is the smallest.
Aussi pour assurer la cohérence entre codeur et décodeur on définit de la même façon au codeur les canaux dominant et secondaire comme:
Figure imgf000020_0002
In order to ensure coherence between encoder and decoder, the dominant and secondary channels are defined in the same way as the encoder:
Figure imgf000020_0002
et and
SI HÉ < 1IF HE <1
Figure imgf000020_0003
où est une information disponible au codeur (par décodage local). Le critère de décision 7[ j] est donc identique pour le codeur et le décodeur.
Figure imgf000020_0003
where is information available to the coder (by local decoding). The decision criterion 7 [j] is therefore identical for the coder and the decoder.
Les vecteurs complexes associés au canal dominant X [j] et au canal secondaire Y[j] sont illustrés à la figure 6a où on définit également les angles C£[J] et β[ respectifs par rapport au canal mono M [ j ] .  The complex vectors associated with the dominant channel X [j] and the secondary channel Y [j] are illustrated in FIG. 6a, where also the angles C £ [J] and β [respective to the mono channel M [j] are defined.
Pour simplifier les notations les indices de coefficients fréquentiels ne sont pas notés sur cette figure. En particulier X [j] , Y [j] et M [ j] sont notés respectivement X, Y et M sur cette figure.  To simplify the notations, the indices of frequency coefficients are not noted on this figure. In particular X [j], Y [j] and M [j] are respectively denoted by X, Y and M in this figure.
A noter qu'on présente ici les développements en utilisant les signaux originaux X [j], Y[j] et M [j] ; cependant pour rendre les codeur et décodeur cohérents, il serait possible dans une variante au codeur d'utiliser à leur place des versions quantifiées X [j] , f[j] et M [j] disponibles par décodage local hiérarchique des couches mono et des couches d'amélioration stéréo. Dans le mode de réalisation privilégié on utilise au codeur les signaux originaux X [j], et ce " évite en particulier un décodage local G.722 et permet de réduire la complexité. Note that the developments are presented here using the original signals X [j], Y [j] and M [j]; however, to make the coder and decoder coherent, it would be possible in a variant of the encoder to use in their place quantized versions X [j], f [j] and M [j] available by hierarchical local decoding of the mono layers and the layers of stereo enhancement. In the preferred embodiment, the original signals X [j] are used at the encoder, and this in particular avoids local decoding G.722 and makes it possible to reduce the complexity.
Le calcul du signal "downmix" est illustré dans le plan complexe, le signal mono M suit l'angle de L+R mais l'amplitude est calculée par une moyenne des amplitudes des canaux du signal stéréo.  The calculation of the "downmix" signal is illustrated in the complex plane, the mono signal M follows the angle of L + R but the amplitude is calculated by an average of the amplitudes of the channels of the stereo signal.
Sur la figure 6a, on définit deux angles:  In FIG. 6a, two angles are defined:
- la différence de phase entre le canal dominant et le signal mono:  - the phase difference between the dominant channel and the mono signal:
a[j} = Z(Xlj].M<UÎ) a [j} = Z (Xlj] .M < UI)
- la différence de phase entre le canal secondaire et le signal mono:
Figure imgf000021_0001
the phase difference between the secondary channel and the mono signal:
Figure imgf000021_0001
où Z(.) est l'opérateur qui donne l'argument (ou phase) de l'opérande complexe. where Z (.) is the operator that gives the argument (or phase) of the complex operand.
Par définition du signal mono suivant l'invention, l'angle a[j] est compris dans By definition of the mono signal according to the invention, the angle a [j] is included in
K 7C K 7C
l'intervalle interval
2 ' 2 On montre maintenant comment il est possible de retrouver l'angle cx[j] en supposant connus M [ j] , Y [j] et |Z [ jf]| . 2 '2 We now show how it is possible to find the angle cx [j] by assuming known M [j], Y [j] and | Z [jf] | .
Le principe de ce premier mode de réalisation est discuté sur la base de la figure The principle of this first embodiment is discussed on the basis of FIG.
6b. 6b.
Sur le plan théorique, le problème peut être posé de façon géométrique. D'après les éléments supposés connus (M [ j] , Y[j et \∑[ j]| ), on connaît à la figure 6b les points On the theoretical level, the problem can be posed geometrically. According to the supposedly known elements (M [j], Y [j and \ Σ [j] |), we know in Figure 6b the points
M, Y et l'angle β[ et on cherche l'angle a[ j] . L'angle défini par YKO est identique à l'angle a[ j] et la longueur YK est identique à [ . Dans le triangle YKO on connaît deux cotés et l'un des angles
Figure imgf000022_0001
M, Y and the angle β [and we look for the angle a [j]. The angle defined by YKO is identical to the angle a [j] and the length YK is identical to [. In the triangle YKO we know two sides and one of the angles
Figure imgf000022_0001
manquant. missing.
Si on projette le canal secondaire Y sur la droite OM, où O est le point du plan complexe correspondant à une valeur nulle et M est le point du plan complexe correspondant à M[j], on trouve:  If we project the secondary channel Y on the line OM, where O is the point of the complex plane corresponding to a zero value and M is the point of the complex plane corresponding to M [j], we find:
|Z[7]|.|sin a[;]| = |7[7]|.|sin ^[j}|  | Z [7] |. | Sin a [;] | = | 7 [7] |. | Sin ^ [j} |
Autrement dit, l'information de phase à coder se réduit à l'angle β[ j] , puisqu'on retrouve cx j] avec la formule suivante :
Figure imgf000022_0002
In other words, the phase information to be encoded is reduced to the angle β [j], since we find cx j] with the following formula:
Figure imgf000022_0002
Pour bien comprendre le codage des informations de spatialisation pour la deuxième couche d'extension stéréo selon ce premier mode de réalisation, la figure 5a illustre un organigramme représentant les étapes de ce codage. To fully understand the coding of the spatialization information for the second stereo extension layer according to this first embodiment, Fig. 5a illustrates a flowchart showing the steps of this encoding.
Ainsi, à l'étape B501, on décode l'information d'amplitude qui correspond au rapport d'amplitude entre canal gauche et canal droit. Ce décodage local est possible car cette information est disponible lors du codage de la phase.  Thus, in step B501, the amplitude information that corresponds to the amplitude ratio between the left channel and the right channel is decoded. This local decoding is possible because this information is available during the coding of the phase.
Ensuite à l'étape B502 on détermine le canal secondaire de la façon suivante : Then in step B502 the secondary channel is determined as follows:
YU] = RU] > 1 YU] = RU]> 1
et
Figure imgf000023_0001
and
Figure imgf000023_0001
Les angles β[ représentant les angles, par coefficient fréquentiel, entre le signal mono M [j] et le canal secondaire Y[j] sont calculés en B503. The angles β [representing the angles, by frequency coefficient, between the mono signal M [j] and the secondary channel Y [j] are calculated in B503.
L'angle peut par exemple être calculé de la façon suivante:  The angle can for example be calculated as follows:
^[;] = arctan 2(Re(7.M*),Im(F. *)) où la fonction arctan 2(x, y) est définie par : ^ [;] = arctan 2 (Re (7.M * ), Im (F. * )) where the function arctan 2 (x, y) is defined by:
arctan(y I x) x > 0  arctan (y I x) x> 0
^+arctan(y/x) v≥0,x< 0  ^ + arctan (y / x) v≥0, x <0
-?zr+ arctan(v /x) ν < 0,λ' < 0  -? zr + arctan (v / x) ν <0, λ '<0
arctan2(;c, y) =  arctan2 (; c, y) =
π/2 y > 0,x = 0  π / 2 y> 0, x = 0
-π/ 2 y < Q,x = 0  -π / 2 y <Q, x = 0
indéfini y = 0,x = 0  undefined y = 0, x = 0
Les angles
Figure imgf000023_0002
sont quantifiés dans le bloc B504. Par exemple, on considère ici
Angles
Figure imgf000023_0002
are quantified in block B504. For example, consider here
7V le cas d'une quantification scalaire uniforme sur 5 bits et de pas — dans l'intervalle [—π,
Figure imgf000023_0003
.
7V the case of a uniform scalar quantization on 5 bits and of not - in the interval [-π,
Figure imgf000023_0003
.
On montre maintenant comment il est possible de retrouver l'angle β[ en supposant connus M[j] , X[j] et selon un deuxième mode de réalisation. Cette estimation de l'angle β[ est illustrée à la figure 6c. Si on projette le canal dominant X sur la droite OM, où O est le point du plan complexe correspondant à une valeur nulle et M est le point du plan complexe correspondant à M[j] , on trouve:  We now show how it is possible to find the angle β [assuming known M [j], X [j] and according to a second embodiment. This estimate of the angle β [is illustrated in Figure 6c. If we project the dominant channel X on the line OM, where O is the point of the complex plane corresponding to a zero value and M is the point of the complex plane corresponding to M [j], we find:
|Z[j]|.|sin«[ ]| = |y[4|sin /]| (19)  | Z [j] |. | Sin «[] | = | y [4 | sin /] | (19)
On peut d c trouver l'angle β[]] avec la relation:
Figure imgf000023_0004
We can find the angle β []] with the relation:
Figure imgf000023_0004
L'équation ci-dessous permet de retrouver l'angle β[]] comme suit:
Figure imgf000024_0001
The equation below allows to find the angle β []] as follows:
Figure imgf000024_0001
où s = +1 ou -1 de sorte que le signe de β[β soit opposé à celui de plus précisément:
Figure imgf000024_0002
where s = +1 or -1 so that the sign of β [β is opposite to that of more precisely:
Figure imgf000024_0002
Cependant si β0[β vérifie |X ']|.|sinûf[j]| = |y[ ]|.|sin/?[j]| , alors /?,[/] défini par:
Figure imgf000024_0003
However, if β 0 [β satisfies | X ' ] |. | Sinûf [j] | = | y [] |. | sin /? [j] | , then / ?, [/] defined by:
Figure imgf000024_0003
vérifie aussi l'équation (21). also checks equation (21).
H faut donc un bit d'information supplémentaire pour lever l'ambiguïté entre β0[ et AL/] . It is therefore necessary to add an additional information bit to remove the ambiguity between β 0 [and AL /].
Un exemple de mise en œuvre du principe de calcul de β0[ et est donné par un exemple de code en annexe A-l. An example of implementation of the principle of calculation of β 0 [and is given by an example of code in Appendix Al.
A noter que pour que l'estimation ci-dessus soit valable il faut que, comme montré sur la figure 6c, la droite OM définie par le signal mono ait au moins une intersection avec le cercle de rayon
Figure imgf000024_0004
centré sur X. Dans le cas contraire, il y aurait une incohérence mathématique, et l'hypothèse sur la définition du signal mono de la forme
Figure imgf000024_0005
serait invalide et il serait impossible de déduire la phase du signal secondaire.
Note that for the above estimate to be valid it is necessary that, as shown in Figure 6c, the line OM defined by the mono signal has at least one intersection with the radius circle.
Figure imgf000024_0004
centered on X. In the opposite case, there would be a mathematical incoherence, and the hypothesis on the definition of the mono signal of the form
Figure imgf000024_0005
would be invalid and it would be impossible to deduce the phase of the secondary signal.
La différence de phase a[j] entre le canal dominant X et le signal mono M est ainsi conditionnée par la contrainte générale suivante:  The difference in phase a [j] between the dominant channel X and the mono signal M is thus conditioned by the following general constraint:
!χ[4 η ( ·])| < |7[7·]| (24) ! χ [4 η (·]) | <| 7 [ 7 ·] | (24)
On en déduit:  We can deduce:
< arcsin (25)<arcsin (25)
û Cette condition doit être vérifiée, y compris au décodeur à partir des paramètres décodés. û This condition must be verified, including the decoder from the decoded parameters.
Afin d'aligner les traitements entre codeur et décodeur, on pourra utiliser les paramètres décodés en local au codeur et disponibles pour le codage de l'information de phase, ce qui donne la relation suivante: In order to align the processing between encoder and decoder, it will be possible to use the parameters decoded locally at the encoder and available for the coding of the phase information, which gives the following relation:
Figure imgf000025_0001
Figure imgf000025_0001
< arcsin î[j]) si î[j] < 1  <arcsin [j]) if i [j] <1
et
Figure imgf000025_0002
and
Figure imgf000025_0002
Pour bien comprendre le codage des informations de spatialisation pour la deuxième couche d'extension stéréo selon ce deuxième mode de réalisation, la figure 5b illustre un organigramme représentant les étapes de ce codage.  To fully understand the coding of spatialization information for the second stereo extension layer according to this second embodiment, Fig. 5b illustrates a flowchart showing the steps of this encoding.
Ainsi, à l'étape E501, les angles O [j] sont calculés par coefficient fréquentiel. Thus, in step E501, the angles O [j] are calculated by frequency coefficient.
Ces angles sont ceux que forment, par coefficient fréquentiel, le canal mono M [ j avec le canal dominant X j] . L'angle c [j] peut par exemple être calculé de la façon suivante:
Figure imgf000025_0003
These angles are those formed by frequency coefficient, the mono channel M [j with the dominant channel X j]. The angle c [j] can for example be calculated as follows:
Figure imgf000025_0003
Les angles Ci [j] pour j=2,...,9 sont ensuite quantifiés en E502 et la condition de l'équation (25) ci-dessus est vérifiée à l'étape E503.  The angles Ci [j] for j = 2, ..., 9 are then quantized to E502 and the condition of equation (25) above is verified in step E503.
Les angles représentant les angles, par coefficient fréquentiel, entre le signal mono M [ j] et le canal secondaire Y[j] sont calculés en E504.  The angles representing the angles, by frequency coefficient, between the mono signal M [j] and the secondary channel Y [j] are calculated in E504.
L'angle β[ϊ] peut par exemple être calculé de la façon suivante: β[ϊ] = arctan2(Re(F. "* ) ,Im(r. ,e)) The angle β [ϊ] can for example be calculated as follows: β [ϊ] = arctan2 (Re (F. " *), Im (r. , E ))
Les angles j30[j] et /¾[ ] sont également déterminés en E505 comme formulé dans les équations (21) et (23) ci-dessus. Pour chaque raie fréquentielle, un indicateur b[j] est utilisé pour sélectionner un des deux angles β0[β ou /-¾[/] en prenant l'angle β[] comme référence, à l'étape E506. Enfin, l'indicateur b j] est quantifié en E507 par un bit, où
Figure imgf000026_0001
The angles j3 0 [j] and / ¾ [] are also determined at E505 as formulated in equations (21) and (23) above. For each frequency line, an indicator b [j] is used to select one of the two angles β 0 [β or / -¾ [/] by taking the angle β [] as a reference, in step E506. Finally, the indicator bj] is quantified in E507 by a bit, where
Figure imgf000026_0001
Dans une variante du deuxième mode de réalisation décrit ci-dessus, le canal secondaire Y est reconstruit en combinant le canal dominant X et le signal mono M multiplié par un facteur de gain. Ce calcul est une formulation équivalente en l'absence de quantification sur X et M et remplace donc la rotation par l'angle β détaillée au-dessus.  In a variant of the second embodiment described above, the secondary channel Y is reconstructed by combining the dominant channel X and the mono signal M multiplied by a gain factor. This calculation is an equivalent formulation in the absence of quantification on X and M and thus replaces the rotation by the angle β detailed above.
Le principe de cette variante est discuté sur la base de la figure 6c décrite précédemment.  The principle of this variant is discussed on the basis of Figure 6c described above.
Au codeur, on a une relation entre les vecteurs X, K et M suivant:  At the encoder, we have a relationship between the following vectors X, K and M:
|£- X| = |F| (26)  | £ - X | = | F | (26)
Or le point M se trouvant sur la droite OK, on cherche un gain λ tel que:  But the point M being on the right OK, one seeks a gain λ such that:
Κ = λΜ (27)  Κ = λΜ (27)
A partir des équations (26) et (27), on en déduit: From Equations (26) and (27), we deduce:
{Xr -XMrf + {X. -λΜ,)1 = |i (28) {X r -XM r f + {X. -λΜ,) 1 = | i (28)
où M = Mr + j.M; et X = Xr + j.X{ On en déduit ainsi l'équation suivante: where M = M r + jM ; and X = X r + jX { We thus deduce the following equation:
Γ 2 +Y2) +À2(Mr 2 +Ml 2) -2À(XrMr + XiMi) =
Figure imgf000026_0002
(29)
Γ 2 + Y 2 ) + to 2 (M r 2 + M l 2 ) -2A (X r M r + X i M i ) =
Figure imgf000026_0002
(29)
On obtient une équation d'ordre 2 en fonction du facteur λ :We obtain an equation of order 2 according to the factor λ:
2 | | -2Α(ΖΓ _ + Χ,.Μ,.) + (|Ζ|2 -|7|2) = 0 (30) 2 | | -2Α (Ζ Γ _ + Χ, .Μ ,.) + (| Ζ | 2 - | 7 | 2 ) = 0 (30)
L'équation (30) a deux solutions et en fonction de λ , qui permettent de trouver deux candidats pour le canal secondaire Y:  Equation (30) has two solutions and as a function of λ, which makes it possible to find two candidates for the secondary channel Y:
70 = ^. -J (31) 7 0 = ^. -J (31)
Υ^ λ,Μ - Χ (32)  Υ ^ λ, Μ - Χ (32)
Ces deux candidats Y0 et Yx correspondent aux deux points K et K' représenté sur la figure 6c. These two candidates Y 0 and Y x correspond to the two points K and K 'represented in FIG. 6c.
A noter que pour que l'équation (30) ait bien deux solutions, on trouve la condition : (XrMr +XlMl)2 >
Figure imgf000027_0001
-frf ) (33)
Note that for equation (30) to have two solutions, we find the condition: (X r M r + X l M l ) 2 >
Figure imgf000027_0001
-frf) (33)
On peut montrer que cette condition donnée à l'équation (33) est en fait équivalente à la condition donnée à l'équation (25).  It can be shown that this condition given in equation (33) is in fact equivalent to the condition given in equation (25).
Ainsi, dans cette variante de réalisation, dans la deuxième couche d'amélioration stéréo, les paramètres codés sont:  Thus, in this variant embodiment, in the second stereo enhancement layer, the coded parameters are:
il it  he it
l'angle a[j (/=2...9) codé sur 4 bits dans l'intervalle suivant une the angle a [j (/=2...9) encoded on 4 bits in the interval following a
' 2 quantification scalaire uniforme de pas— ;  '2 uniform scalar pitch quantization;
- un indicateur b[j] (j=2...9) permettant de choisir entre deux gains possibles l et > codé sur 1 bit : b[j]
Figure imgf000027_0002
j] .
an indicator b [j] (j = 2 ... 9) making it possible to choose between two possible gains I and > coded on 1 bit: b [j]
Figure imgf000027_0002
j].
Le mode de réalisation a été présenté à partir des informations d'amplitude originales \L[j]\ ,
Figure imgf000027_0003
A noter que la phase est codée par coefficient fréqùentiel et utilise une information d'amplitude ( L[j] , R[j] ) coefficient par coefficient. Or l'information d'amplitude - qui est transmise sous forme dlCLD dans la première couche d'amélioration - est codée par sous-bandes fréquentielles, et ces sous-bandes peuvent comprendre plusieurs coefficients fréquentiels. Aussi on fait l'approximation suivante pour le codage et le décodage des informations dans la deuxième couche:
The embodiment has been presented from the original amplitude information \ L [j] \,
Figure imgf000027_0003
Note that the phase is frequency-coded and uses amplitude information (L [j], R [j]) coefficient by coefficient. However, the amplitude information - which is transmitted in the form of d1CLD in the first enhancement layer - is encoded by frequency subbands, and these subbands can comprise several frequency coefficients. So we make the following approximation for coding and decoding information in the second layer:
Quand la raie fréquentielle d'indice 7* correspond à une sous-bande dont la taille est supérieure à un seul coefficient, alors les amplitudes sont supposées être
Figure imgf000027_0004
When the frequency line of index 7 * corresponds to a sub-band whose size is greater than a single coefficient, then the amplitudes are supposed to be
Figure imgf000027_0004
celles obtenues en appliquant l'information d'amplitude constante î[j] sur la sous-bande. those obtained by applying the constant amplitude information [j] to the subband.
Dans un troisième mode de réalisation du procédé de codage selon l'invention, le traitement de réduction de canaux est identique mais les informations de spatialisation qui sont transmises au décodeur sont différentes. A noter que ce troisième mode de réalisation est à lui tout seul nouveau et inventif.  In a third embodiment of the coding method according to the invention, the channel reduction processing is identical but the spatialization information that is transmitted to the decoder is different. It should be noted that this third embodiment is new and inventive on its own.
Comme dans le premier mode de réalisation, une première couche d'extension de codage contient l'information d'intensité des canaux stéréo, par exemple le paramètre ICLD tel que défini précédemment.  As in the first embodiment, a first coding extension layer contains the intensity information of the stereo channels, for example the parameter ICLD as defined above.
Cependant, ici, la seconde couche d'extension ne contient pas des informations sur les différences de phase des canaux stéréo. Cette seconde couche d'extension contient l'amplitude codée de la somme des signaux stéréos d [j] = |L[y] + i? [/]| . Comme le budget disponible par trame est de 40 bits dans le mode particulier du codeur décrit en référence à la figure 3, celui-ci ne permet pas de coder l'amplitude de la somme
Figure imgf000028_0001
, pour toutes les raies fréquentielles. Seules les raies fréquentielles où cette information est identifiée comme perceptuellement importante sont utilisées.
However, here, the second extension layer does not contain information on the phase differences of the stereo channels. This second extension layer contains the coded amplitude of the sum of the stereo signals d [j] = | L [y] + i? [/] | . Since the budget available per frame is 40 bits in the particular mode of the encoder described with reference to FIG. 3, it does not make it possible to code the amplitude of the sum
Figure imgf000028_0001
, for all frequency lines. Only frequency lines where this information is identified as perceptually important are used.
Dans ce mode de réalisation l'identification du canal dominant n'est pas nécessaire. Pendant la description de ce mode de réalisation la notation suivante est utilisée : In this embodiment the identification of the dominant channel is not necessary. During the description of this embodiment the following notation is used:
[j] est l'angle entre [/] et L[j] et ?[;'] est l'angle entre M [j] et R[j] , indépendamment de la dominance d'un canal. [j] is the angle between [/] and L [j] and? [; ' ] is the angle between M [j] and R [j], regardless of the dominance of a channel.
Les figures 7a et 7b illustrent des organigrammes représentant les étapes de codage des informations de spatialisation pour la deuxième couche d'extension stéréo selon ce troisième mode de réalisation pour deux variantes.  FIGS. 7a and 7b illustrate flowcharts showing the steps of coding the spatialization information for the second stereo extension layer according to this third embodiment for two variants.
Dans une première étape E701 pour la figure 7a et E711 pour la figure 7b, l'amplitude d j] de la somme des canaux stéréo est calculée par raie fréquentielle.  In a first step E701 for FIG. 7a and E711 for FIG. 7b, the amplitude d j] of the sum of the stereo channels is calculated by frequency line.
La quantification de cette amplitude, à l'étape E702 pour la figure 7a et E712 pour la figure 7b, peut être faite directement, en quantifiant la valeur de l'amplitude d [j] , par exemple avec un quantificateur scalaire utilisant 4 bits par raie spectrale.  The quantization of this amplitude, in step E702 for FIG. 7a and E712 for FIG. 7b, can be done directly, by quantizing the value of the amplitude d [j], for example with a scalar quantizer using 4 bits per second. spectral line.
On sait que la valeur de l'amplitude décodée d [j] est non négative et qu'elle doit vérifier les inégalités suivantes qu'on référencera par la suite comme des "inégalités triangulaires" :  We know that the value of the decoded amplitude d [j] is non-negative and that it must verify the following inequalities which will be referred to as "triangular inequalities":
En effet, L[jt , .Indeed, L [jt,.
Figure imgf000028_0002
Figure imgf000028_0002
L'égalité est aussi permise et correspond au cas où les canaux sont parfaitement en phase ou parfaitement en phase inverse. On considérera par la suite, par abus de langage, que ces cas extrêmes représentent aussi un triangle où la longueur du coté le plus long est la somme des longueurs des deux autres cotés. Les trois angles de ce triangle sont donc de 0, 0 et π. Quand les canaux sont parfaitement en phase, <i [7] = j'| + |R[j]| , ^[j] = 0 et β[ΐ] = . Et quand les canaux sont parfaitement en phase opposée et par exemple Equality is also allowed and corresponds to the case where the channels are perfectly in phase or perfectly in opposite phase. It will be considered later, by misuse of language, that these extreme cases also represent a triangle where the length of the longest side is the sum of the lengths of the other two sides. The three angles of this triangle are therefore 0, 0 and π. When the channels are perfectly in phase, <i [7] = j ' | + | R [j] | , ^ [j] = 0 and β [ΐ] =. And when the channels are perfectly in opposite phase and for example
L'étape de quantification peut également s'effectuer par rapport à la valeur de l'amplitude du signal mono, M [ j] , déjà décodée, sous la forme d'un facteur d'échelle (ou gain), de la façon suivante:
Figure imgf000029_0001
The quantization step can also be performed with respect to the value of the amplitude of the mono signal, M [j], already decoded, in the form of a scale factor (or gain), as follows :
Figure imgf000029_0001
où la valeur du gain g [j] est quantifiée, par exemple avec un quantificateur scalaire utilisant 4 bits par raie spectrale. where the value of the gain g [j] is quantized, for example with a scalar quantizer using 4 bits per spectral line.
De façon similaire au cas précédent, la valeur quantifié de g [ j] notée g [j] doit vérifier les inégalités suivantes :
Figure imgf000029_0002
In a similar way to the previous case, the quantified value of g [j] noted g [j] must verify the following inequalities:
Figure imgf000029_0002
Sur la figure 7a on ne vérifie pas si les paramètres après quantification vérifient bien les inégalités triangulaires, cette vérification et l'éventuelle correction seront faites au décodeur. La version représentée sur la figure 7b présente un décodeur local (non représenté sur la figure 3 du codeur) et produit les valeurs quantifiées des paramètres |L[ 7']| , et d [j] . Les inégalités triangulaires sont vérifiées au codeur à l'étape E713. En cas de problème détecté (N en E714) une nouvelle valeur quantifiée est choisie par le quantificateur de d[ 7] en E712 et cela jusqu'à la vérification des inégalités triangulaires (O en E714). In FIG. 7a, it is not checked whether the parameters after quantization satisfy the triangular inequalities, this verification and the possible correction will be made to the decoder. The version shown in FIG. 7b presents a local decoder (not shown in FIG. 3 of the encoder) and produces the quantized values of the parameters | L [7 ' ] | , and d [j]. Triangular inequalities are verified at the encoder at step E713. In case of detected problem (N in E714) a new quantified value is chosen by the quantizer of d [7] in E712 and that until the verification of the triangular inequalities (O in E714).
Dans le train binaire on envoie dans ce cas l'indice de quantification avec lequel la valeur décodée de d [ j] vérifie les inégalités triangulaires.  In this case, in this case, the quantization index is sent with which the decoded value of d [j] satisfies the triangular inequalities.
En plus de cette information d'amplitude de la somme ou de gain, on transmet une information minimale (1 bit) notée b [ j] pour permettre de déduire le sens de rotation des canaux gauche et droite par rapport au signal mono.  In addition to this sum or gain amplitude information, a minimum information (1 bit) denoted b [j] is transmitted to enable the direction of rotation of the left and right channels to be deduced from the mono signal.
Les figures 8a et 8b illustrent un exemple géométrique pour une raie de fréquence choisie, à partir des valeurs ] . Sur ces figures OD correspond à la valeur d'amplitude d [ j] sur l'axe défini par le mono (OM). Les figures 8a et 8b illustrent les deux solutions possibles avec les valeurs [y] , |£[/]| > u ] données, le bit d'information transmis permet de choisir entre ces deux possibilités. Figures 8a and 8b illustrate a geometric example for a selected frequency line, from the values]. On these figures OD corresponds to the amplitude value d [j] on the axis defined by the mono (OM). Figures 8a and 8b illustrate the two possible solutions with the values [y], | £ [/] | > u] data, the bit of transmitted information allows to choose between these two possibilities.
Par exemple ce bit peut indiquer le sens de rotation d'un canal par rapport au signal mono, celui du canal gauche ûr[ ] est suffisante, celui du l'autre canal ne doit pas être transmis car il est toujours l'opposé de ce premier. On peut aussi choisir de transmettre le signe de l'angle pour le canal dominant.  For example, this bit can indicate the direction of rotation of a channel with respect to the mono signal, that of the left channel is sufficient, that of the other channel must not be transmitted because it is always the opposite of this. first. One can also choose to transmit the sign of the angle for the dominant channel.
Pour cela dans les étapes E703 et E715 des figures 7a et 7b, on déterrnine l'angle a[ j] que forme l'un des canaux avec le signal mono. On détermine ensuite à l'étape E704 et E716 des figures 7a et 7b, le signe de l'angle
Figure imgf000030_0001
et on quantifie sur un bit le sens de rotation à l'étape E705 et E707 respectivement.
For this in steps E703 and E715 of FIGS. 7a and 7b, the angle α [j] that forms one of the channels with the mono signal is determined. Then, in step E704 and E716, FIGS. 7a and 7b are determined, the sign of the angle
Figure imgf000030_0001
and one-bit rotation direction is quantified at step E705 and E707 respectively.
Ainsi, au décodeur, connaissant M [ j] , |L[ /]| , |i? [ jr']| et d [ j] on peut retrouver les valeurs quantifiées des angles â[j] et et ainsi L[y]eti?[ ] . Thus, at the decoder, knowing M [j], | L [/] | , | i? [jr ' ] | and d [j] we can find the quantified values of the angles â [j] and and so L [y] eti? [].
Le mode de réalisation a été présenté à partir des informations d'amplitude originales odée par coefficient fréquentiel et utilise un coefficient par coefficient. Or
Figure imgf000030_0002
The embodiment has been presented from the original amplitude information odd by frequency coefficient and uses a coefficient per coefficient. Gold
Figure imgf000030_0002
l'information d'amplitude - qui est transmise sous forme d'ICLD dans la première couche d'amélioration - est codée par sous-bandes fréquentielles, et ces .sous-bandes peuvent comprendre plusieurs coefficients fréquentiels. Aussi on fait l'approximation suivante pour le codage et le décodage des informations dans la deuxième couche: the amplitude information - which is transmitted in ICLD form in the first enhancement layer - is encoded by frequency subbands, and these subbands can include several frequency coefficients. So we make the following approximation for coding and decoding information in the second layer:
Quand la raie fréquentielle d'indice j correspond à une sous-bande dont la taille est supérieure à un seul coefficient, alors les amplitudes L[j et R[j]\ sont supposées être celles obtenues en appliquant l'information d'amplitude constante î[j] sur la sous-bande, soit
Figure imgf000030_0003
When the frequency line of index j corresponds to a sub-band whose size is greater than a single coefficient, then the amplitudes L [j and R [j] \ are assumed to be those obtained by applying the information of constant amplitude î [j] on the sub-band, either
Figure imgf000030_0003
tel que défini plus loin. Une variante de réalisation du codeur de la figure 3 est maintenant présentée en référence à la figure 9. as defined below. An alternative embodiment of the encoder of FIG. 3 is now presented with reference to FIG. 9.
Dans ce codeur, le bloc 307 effectuant le traitement de "downmix" à l'aide des modules 330 et 331 selon l'invention, extrait également des paramètres de spatialisation des signaux stéréo grâce au module 332.  In this encoder, the block 307 performing the "downmix" processing using the modules 330 and 331 according to the invention also extracts spatialization parameters of the stereo signals through the module 332.
Ces paramètres sont déterminés conformément aux premier, deuxième et troisième modes de réalisation décrits précédemment ainsi que pour leurs variantes.  These parameters are determined in accordance with the first, second and third embodiments described above as well as for their variants.
Dans le premier mode de réalisation, la différence de phase entre le signal mono obtenu par le traitement de "downmix" et un des canaux stéréo déterminé comme secondaire , est déterminé par le module 332.  In the first embodiment, the phase difference between the mono signal obtained by the "downmix" processing and one of the stereo channels determined as secondary, is determined by the module 332.
Dans le deuxième mode de réalisation, la différence de phase entre le signal mono obtenu par le traitement de "downmix" et un des canaux stéréo déterminé comme dominant est déterminé par le module 332. L'indicateur permettant de retrouver la différence de phase entre le signal mono et le second canal déterminé comme secondaire est aussi déterminé par le module 332.  In the second embodiment, the phase difference between the mono signal obtained by the "downmix" processing and one of the stereo channels determined as dominant is determined by the module 332. The indicator making it possible to recover the phase difference between the mono signal and the second channel determined as secondary is also determined by the module 332.
Dans une variante de ce deuxième mode de réalisation, l'indicateur permettant de déterminer un gain à appliquer au signal mono pour retrouver le canal secondaire, est déterminé.  In a variant of this second embodiment, the indicator for determining a gain to be applied to the mono signal to find the secondary channel, is determined.
Dans le troisième mode de réalisation, c'est l'amplitude de la somme des signaux stéréo qui est déterminé dans le module 332 du bloc 307. Une indication permettant de retrouver le sens de rotation des canaux stéréo est aussi déterminée dans ce module.  In the third embodiment, it is the amplitude of the sum of the stereo signals that is determined in the module 332 of the block 307. An indication to find the direction of rotation of the stereo channels is also determined in this module.
Dans une variante de ce troisième mode de réalisation, c'est un gain à appliquer au signal mono qui est déterminé pour retrouver l'amplitude de la somme des signaux stéréo.  In a variant of this third embodiment, it is a gain to be applied to the mono signal that is determined to recover the amplitude of the sum of the stereo signals.
Ces paramètres subissent un décalage de deux trames en 313 comme les signaux L '[j] et R '[;] et tel qu'expliqué en référence à la figure 3.  These parameters are shifted by two frames at 313 as the signals L '[j] and R' [;] and as explained with reference to FIG.
Le bloc 314 d'extraction des paramètres, récupère ces paramètres du bloc 307 et détermine le paramètre d'information d'intensité, par exemple le paramètre ICLD. Ce bloc 314 transmet alors tous ces paramètres pour une quantification en 315.  The parameter extraction block 314 retrieves these parameters from the block 307 and determines the intensity information parameter, for example the parameter ICLD. This block 314 then transmits all these parameters for a quantification at 315.
Les codeurs tels que représentés aux figures 3 et 9, utilisent une analyse-synthèse par FT avec une fenêtre symétrique sinusoïdale.  The encoders as shown in FIGS. 3 and 9 use FT synthesis analysis with a sinusoidal symmetric window.
Cependant, une fenêtre plus courte, voire asymétrique, pourrait être avantageusement utilisée pour réduire le retard de codage. De façon générale, l'invention s'applique pareillement pour une mise en œuvre utilisant une analyse temps-fréquence différence d'un banc de filtres par FFT. Par exemple on pourra utiliser un banc de filtres fréquentiels avec une transformation "Modulated Complex Lapped Transform" (MCLT) combinant deux transformées en quadrature une "Modulated Discrète Cosine Transform" (MDCT) et une "Modulated Discrète Sine Transform" (MDST), ou encore un banc de filtre de type "pseudo quadrature mirror filter" (PQMF) complexe. However, a shorter or even asymmetric window could be advantageously used to reduce the coding delay. In general, the invention applies similarly for an implementation using a time-frequency analysis difference of a bank of filters by FFT. For example, a bank of frequency filters with a "Modulated Complex Lapped Transform" (MCLT) transformation combining two transforms in quadrature a "Modulated Discrete Cosine Transform" (MDCT) and a "Modulated Discrete Sine Transform" (MDST), or again a filter bank of the type "pseudo quadrature mirror filter" (PQMF) complex.
Par ailleurs, le principe de l'invention s'applique aussi au cas où le codeur et le décodeur G.722 sont remplacés par d'autres codeurs de caractéristiques éventuellement différentes (débit, longueur de trames...).  Furthermore, the principle of the invention also applies to the case where the encoder and the G.722 decoder are replaced by other optionally different encoders of characteristics (flow, length of frames ...).
En référence à la figure 10 un décodeur selon mode de réalisation de l'invention est maintenant décrit.  Referring to Figure 10 a decoder according to an embodiment of the invention is now described.
Ce décodeur comporte un démultiplexeur 501 dans lequel le signal mono codé est extrait pour être décodé en 502 par un décodeur de type G.722 dans cet exemple. La partie du train binaire (scalable) correspondant à G.722 est décodée à 56 ou 64 kbit/s suivant le mode sélectionné. On suppose ici qu'il n'y a pas de perte de trames ni d'erreurs binaires sur le train binaire pour simplifier la description, cependant des techniques connues de correction de perte de trames peuvent bien évidemment être mises en œuvre dans le décodeur.  This decoder comprises a demultiplexer 501 in which the coded mono signal is extracted to be decoded at 502 by a G.722 decoder in this example. The portion of the bit stream (scalable) corresponding to G.722 is decoded at 56 or 64 kbit / s depending on the selected mode. It is assumed here that there is no loss of frames or bit errors on the bit stream to simplify the description, however, known frame loss correction techniques can obviously be implemented in the decoder.
Le signal mono synthétisé correspond à M(n) en l'absence d'erreurs de canal. Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée sur M in) (blocs 503 et 504) pour obtenir le spectre M [j] .  The synthesized mono signal corresponds to M (n) in the absence of channel errors. A short-term discrete Fourier transform analysis with the same windowing as the encoder is performed on M in) (blocks 503 and 504) to obtain the spectrum M [j].
La partie du train binaire associée à l'extension stéréo est aussi dé-multiplexée. Les paramètres ICLD sont décodés pour obtenir {lCLDq [ί -Ι, Α;]}^ q (bloc 505) et la . différence de phase β [ j entre le canal secondaire et le signal M par raie fréquentielle est décodée (bloc 506) pour obtenir β [ j] selon un premier mode de réalisation. The part of the bit stream associated with the stereo extension is also de-multiplexed. The ICLD parameters are decoded to obtain {lCLD q [ί -Ι, Α;]} ^ q (block 505) and the. phase difference β [j between the secondary channel and the signal M by frequency line is decoded (block 506) to obtain β [j] according to a first embodiment.
Selon un deuxième mode de réalisation, c'est la différence de phase C([j entre le canal dominant et le signal M par raie fréquentielle qui est décodée (bloc 506) pour obtenir â[ j] . Les amplitudes des canaux gauche et droit sont reconstruites (bloc 507) en appliquant les paramètres ICLD décodés par sous-bande. Cette synthèse est réalisée comme suit: According to a second embodiment, it is the difference of phase C ([j between the dominant channel and the signal M by frequency line which is decoded (block 506) to obtain â [j]. The amplitudes of the left and right channels are reconstructed (block 507) by applying the decoded ICLD parameters by subband. This synthesis is carried out as follows:
Figure imgf000033_0001
Figure imgf000033_0001
[ et c2 [ j] sont les facteurs qui sont calculés à partir des valeurs d'ICLD par [and c 2 [j] are the factors that are calculated from ICLD values by
Ces facteurs J J] et c2 [j sont par exemple sous la forme suivante: These factors JJ] and c 2 [j are for example in the following form:
Figure imgf000033_0002
Figure imgf000033_0002
est défini à partir du paramètre ICLD décod comme
Figure imgf000033_0003
is defined from the parameter ICLD decod as
Figure imgf000033_0003
où ICLDq[j] est le paramètre ICLD décodé pour la raie j. where ICLD q [j] is the ICLD parameter decoded for the line j.
Le rapport 7 [ j] est décodé à partir des informations codées dans la première couche d'amélioration stéréo à 8 kbit/s. Le codage et le décodage associé ne sont pas détaillés ici, mais pour un budget de 40 bits par trame on peut considérer que ce rapport est codé par sous-bande et non pas raie fréquentielle, avec une découpe en sous-bandes non uniforme. Si le décodeur fonctionne à 56+8 kbit/s pour la trame courante, seuls les paramètres /[/] décodés par sous-bande sont utilisés pour reconstruire les spectres des canaux L et R, tel que décrit précédemment, soit l'équation (41). The ratio 7 [j] is decoded from the information encoded in the first 8 kbit / s stereo enhancement layer. The coding and the associated decoding are not detailed here, but for a budget of 40 bits per frame it can be considered that this ratio is coded by subband and not frequency line, with a non-uniform subband cut. If the decoder operates at 56 + 8 kbit / s for the current frame, only subband-decoded / [/] parameters are used to reconstruct the spectra of the L and R channels, as previously described, ie the equation ( 41).
Si le décodeur fonctionne à 64+16 kbit/s, le décodeur reçoit en plus les informations codées dans la deuxième couche d'amélioration stéréo, ce qui permet de décoder les paramètres β [ j] pour les raies d'indice j=2 à 9 dans un premier mode de réalisation de l'invention et les paramètres â[j] et b [ j] pour les raies d'indice j'=2 à 9 dans un deuxième mode de réalisation. If the decoder operates at 64 + 16 kbit / s, the decoder also receives the coded information in the second stereo enhancement layer, which makes it possible to decode the parameters β [j] for the lines of index j = 2 to 9 in a first embodiment of the invention and the parameters â [j] and b [j] for the lines of index j ' = 2 to 9 in a second embodiment.
Au décodeur on définit pour chaque raie fréquentielle le canal dominant X [j] et le canal secondaire Y[ j] comme suit:  The decoder defines for each frequency line the dominant channel X [j] and the secondary channel Y [j] as follows:
\ X [j] = ÎU] \ X [j] = ÎU]
IUÎ > i  IUI> i
Y[jl = R[j]
Figure imgf000034_0001
Dans un premier mode de réalisation, on reconstruit le canal secondaire à partir des angles β[ j] simplement décodés par le bloc 506, simplement suivant la formule : [; rmn(c1[;lc2[;]). [i]e^'1 (43b)
Y [jl = R [j]
Figure imgf000034_0001
In a first embodiment, the secondary channel is reconstructed from angles β [j] simply decoded by block 506, simply according to the formula: [; rmn (c 1 [; lc 2 [;]). [i] e ^ '1 (43b)
L'amplitude du canal dominant est décodé à l'aide du signal mono décodé M [y] , du canal secondaire décodé Y[j] et de l'amplitude X[j] qui est connue à partir du rapport î [j] , par la formule suivante:
Figure imgf000034_0002
The amplitude of the dominant channel is decoded using the decoded mono signal M [y], the decoded secondary channel Y [j] and the amplitude X [j] which is known from the ratio [[j], by the following formula:
Figure imgf000034_0002
L'angle â[ j] est déduit à partir de la relation suivante: â[j] = The angle â [j] is derived from the following relation: â [j] =
Figure imgf000034_0003
et le canal dominant est reconstruit suivant la formule
Figure imgf000034_0003
and the dominant channel is reconstructed according to the formula
X[f = max(c, [j], c2 [j]).M [j]e (43) X [f = max (c, [j], c 2 [j]). M [j] e (43)
Dans un deuxième mode de réalisation, , on reconstruit le canal dominant à partir des angles â[ ;'] décodés par le bloc 506, simplement par la formule: In a second embodiment, the dominant channel is reconstructed from angles α [; ' ] decoded by block 506, simply by the formula:
X[j] = max {c j CtUjyMUV*1» (43) X [j] = max {cd C t UjyMUV * 1 »(43)
L'amplitude du canal secondaire est décodé à l'aide du signal mono décodé M[j] , du canal dominant décodé X[j] et de l'amplitude \Y[j] connue à partir du rapport î[j] , par la formule suivante: | [ ] .min (c1[7],C2[ ]) (44)
Figure imgf000035_0001
The amplitude of the secondary channel is decoded using the decoded mono signal M [j], the decoded dominant channel X [j] and the known amplitude \ Y [j] from the ratio [j], by the following formula: | [] .min (c 1 [7], C2 []) (44)
Figure imgf000035_0001
Pour chaque raie fréquentielle j=2 à 9 on reçoit l'indicateur b[j] dont la valeur permet de choisir entre deux angles décodés j30[j] et For each frequency line j = 2 to 9 receive the indicator b [j] whose value allows to choose between two decoded angles j3 0 [j] and
Le calcul de pQ[j et p^j] est identique à la méthode donnée à la figure 6c et utilise les informations décodées â[j] et î[j] et non leurs valeurs originales. The calculation of p Q [j and p ^ j] is identical to the method given in FIG. 6c and uses the decoded information [[j] and [[j] and not their original values.
A partir du calcul de β0[β et et du bit reçu b[j] , le canal secondaire est reconstruit en effectuant une rotation par l'angle p [j] (le signe de p[j] est opposé du Oc[j] ) selon la formule suivante: From the calculation of β 0 [β and and the received bit b [j], the secondary channel is reconstructed by rotating by the angle p [j] (the sign of p [j] is opposite to Oc [j] ]) according to the following formula:
Ylj] = M[j]eJ^lJ1 (45) Ylj] = M [j] e J ^ lJ1 (45)
A noter que la formule ci-dessus n'est valide et applicable que si la condition suivante est vérifiée:
Figure imgf000035_0002
Note that the above formula is only valid and applicable if the following condition is true:
Figure imgf000035_0002
où X [j] est le canal dominant décodé et f [j] est le canal secondaire décodé. Dans le cas considéré où L est dominant et R est secondaire, la condition devient:
Figure imgf000036_0001
where X [j] is the decoded dominant channel and f [j] is the decoded secondary channel. In the case considered where L is dominant and R is secondary, the condition becomes:
Figure imgf000036_0001
Dans le cas inverse où R est dominant et L est secondaire:
Figure imgf000036_0002
< arcsin (|/[;]|) (47)
In the opposite case where R is dominant and L is secondary:
Figure imgf000036_0002
<arcsin (| / [;] |) (47)
Dans le cas où cette condition n'est pas vérifiée, on limite l'angle â[j] de la façon suivante:
Figure imgf000036_0003
arcsin (48)
In the case where this condition is not satisfied, limit the angle â [j] as follows:
Figure imgf000036_0003
archesin (48)
Le décodage décrit précédemment pour le débit de 64+16 kbit/s fonctionne alors correctement.  The decoding previously described for the 64 + 16 kbit / s rate then works correctly.
Les spectres R[j] et L[j] sont déduits de X [j] et f [j] et convertis dans le domaine temporel par FFT inverse, fenêtrage, addition et recouvrement (blocs 508 à 513) pour obtenir les canaux synthétisés R (n) et L n) .  The spectra R [j] and L [j] are deduced from X [j] and f [j] and converted into the time domain by inverse FFT, windowing, addition and overlap (blocks 508 to 513) to obtain the synthesized channels R (n) and L n).
La figure lia présente l'organigramme de décodage dans le premier mode de réalisation, des angles â[j] et pour la deuxième couche d'extension en stéréo.  Figure 11a shows the decoding flowchart in the first embodiment, angles to [j] and for the second stereo extension layer.
L'angle β[]\ est décodé à l'étape Bl 101.  The angle β [] 1 is decoded in step B1 101.
Le canal secondaire est reconstruit à l'étape Bl 102 suivant la formule :  The secondary channel is reconstructed in step B1 102 according to the formula:
L'angle â j] est déduit à l'étape B 1103 à partir de la relation
Figure imgf000036_0004
The angle? J] is deduced in step B 1103 from the relation
Figure imgf000036_0004
et le canal dominant est reconstruit à l'étape B 1104 suivant la formule :and the dominant channel is reconstructed in step B 1104 according to the formula:
Figure imgf000036_0005
Figure imgf000036_0005
Les signaux stéréo L[ j] et R [j] peuvent ainsi être synthétisés à l'étape B 1105. La figure 11b présente l'organigramme de décodage dans le deuxième mode de réalisation, des angles â[j] et pour la deuxième couche d'extension en stéréo. L'angle a[j] et l'indicateur b[j] sont décodés à l'étape El 101 et à l'étape El 103, et les valeurs quantifiés â[j] et b[j] sont obtenues. The stereo signals L [j] and R [j] can thus be synthesized in step B 1105. FIG. 11b shows the decoding flow chart in the second embodiment, angles α [j] and for the second layer extension in stereo. The angle a [j] and the indicator b [j] are decoded at step El 101 and at step El 103, and the quantized values at [j] and b [j] are obtained.
Les angles β0 &] et P\ \f\ sont calcules à l'étape El 102 selon les équations suivantes: The angles β 0 &] and P \ \ f \ are calculated in step El 102 according to the following equations:
 [J] = «csto I -S -sin à[J] (49)
Figure imgf000037_0001
 [J] = "csto I -S - sin at [J] (49)
Figure imgf000037_0001
La valeur de permet de sélectionner l'angle , [/] ou y-¾ [j] à l'étape El 104. The value of is used to select the angle, [/] or y-¾ [j] in step El 104.
Les signaux stéréo £[ ] et R [j] peuvent ainsi être synthétisés à l'étape El 105. Stereo signals £ [] and R [j] can thus be synthesized in step El 105.
Dans une variante de ce deuxième mode de réalisation, le canal dominant In a variant of this second embodiment, the dominant channel
X [ j] est reconstruit comme expliqué précédemment, à partir des angles décodés par le bloc 506 et à l'étape El 101. X [j] is reconstructed as explained above, from the angles decoded by block 506 and at step El 101.
Pour chaque coefficient fréquentiel où cette information a été codée, on reçoit un indicateur b[ j] qui est la valeur codée de b[j] et qui permet de choisir entre et , des gains à appliquer à l'amplitude du signal mono synthétisé.  For each frequency coefficient where this information has been coded, an indicator b [j] is received which is the coded value of b [j] and which makes it possible to choose between and, gains to be applied to the amplitude of the synthesized mono signal.
Le canal secondaire Y [ j] est alors reconstruit à partir de la fonction suivante:
Figure imgf000037_0002
The secondary channel Y [j] is then reconstructed from the following function:
Figure imgf000037_0002
Dans un troisième mode de réalisation, le bloc 506 de la figure 10 décode des informations par raie fréquentielle sur la somme des canaux stéréo, soit l'amplitude de la somme des canaux, soit dans une variante, un gain à appliquer à l'amplitude du signal mono pour obtenir l'amplitude de la somme des canaux stéréo.  In a third embodiment, the block 506 of FIG. 10 decodes information by frequency line on the sum of the stereo channels, ie the amplitude of the sum of the channels, or in a variant, a gain to be applied to the amplitude. of the mono signal to obtain the amplitude of the sum of the stereo channels.
Dans les deux cas, une indication par raie fréquentielle est également décodée en 506. Cette indication indique le sens de rotation à donner pour un des canaux stéréo à synthétiser dans le module 507.  In both cases, an indication by frequency line is also decoded at 506. This indication indicates the direction of rotation to be given for one of the stereo channels to be synthesized in the module 507.
La figure 12 représente l'organigramme du décodage des informations de spatialisation de la deuxième couche d'extension correspondant aux codages représentés en figures 7a et 7b. Au décodeur, après quantification inverse de d[j à l'étape E1201, connaissant M [j] , L[j] , R [j] et d[j] on peut retrouver les valeurs quantifiées des angles â[j] et β _ί\ et ainsi L[ ]et-R[j] par exemple de la manière décrite ci-dessous. FIG. 12 represents the flow diagram of the decoding of spatialization information of the second extension layer corresponding to the codings represented in FIGS. 7a and 7b. At the decoder, after inverse quantization of d [j at the step E1201, knowing M [j], L [j], R [j] and d [j] we can find the quantized values of the angles at [j] and β and thus L [] and -R [j] for example as described below.
Si cela n'a pas été fait à l'encodage, on doit d'abord vérifier que les inégalités triangulaires sont valables avec les paramètres quantifiés aux étapes E1202 et E1203. Si non If this has not been done with the encoding, one must first check that the triangular inequalities are valid with the parameters quantized in steps E1202 and E1203. If not
(N en E1203), on doit corriger la valeur de d[j] à l'étape E1204 par exemple de la façon suivante : (N in E1203), the value of d [j] must be corrected in step E1204, for example as follows:
Si d[ j] est inférieur à L[j] - Ê[j] , on prend d [j] = L[j] -| R ,  If d [j] is less than L [j] - Ê [j], we take d [j] = L [j] - | R,
Si d[ j] est supérieur à L[j] + R [ j] , on prend <-?[./] = t[ j] If d [j] is greater than L [j] + R [j], we take <-? [./] = t [j]
Les vérifications faites par les étapes E1202, E1203 et E1204 sont également nécessaires si la probabilité des erreurs binaires durant la transmission n'est pas nulle.  The checks made by steps E1202, E1203 and E1204 are also necessary if the probability of bit errors during transmission is not zero.
Dans les autres cas ces étapes sont optionnelles.  In other cases these steps are optional.
Si les inégalités triangulaires ont été respectées pour la valeur quantifiée de d[j] comme données plus haut, L[j] , R[j] et d[j] déterminent alors un triangle unique comme représenté en figure 8b dont les deux angles sont les deux angles recherchés: â[ j] entre d [j] et L[j] et fi[j] entre d [j]et R[j] .  If the triangular inequalities have been respected for the quantized value of d [j] as given above, L [j], R [j] and d [j] then determine a unique triangle as represented in FIG. 8b whose two angles are the two desired angles: â [j] between d [j] and L [j] and fi [j] between d [j] and R [j].
Les valeurs absolues de ces angles décodés peuvent être obtenues en E1205 et E1206, en utilisant le théorème d'AI-Kashi, aussi connu comme la loi des cosinus, selon les formules suivantes:  The absolute values of these decoded angles can be obtained in E1205 and E1206, using the AI-Kashi theorem, also known as the cosine law, according to the following formulas:
Figure imgf000038_0001
Figure imgf000038_0001
Comme les inégalités triangulaires ont été respectées, on est sûr, sans vérification supplémentaire, que l'argument de ces fonctions "arccos" est dans l'intervalle ]0, .  As the triangular inequalities have been respected, one is sure, without further verification, that the argument of these functions "arccos" is in the interval] 0,.
Les fonctions "arccos" peuvent donc être calculées et elles donnent des résultats uniques dans l'intervalle ]0, ... ,π [. On vérifie par exemple que dans le cas où les deux canaux sont en phase, on a donc
Figure imgf000039_0001
The functions "arccos" can thus be calculated and they give unique results in the interval] 0, ..., π [. We check, for example, that in the case where the two channels are in phase, we have
Figure imgf000039_0001
Comme expliqué précédemment, un autre bit est également transmis pour déterminer le signe de l'un des angles (â[ j] dans notre exemple), le signe de l'autre angle ( j3 [ j] ) étant opposé de ce premier.  As previously explained, another bit is also transmitted to determine the sign of one of the angles (â [j] in our example), the sign of the other angle (j3 [j]) being opposite to this first.
On décode donc à l'étape E1207 le signe de â[j] qui détermine le sens de rotation à la fois pour L [j] et R [ j] par rapport à [j] ,  Thus, in step E1207, the sign of â [j] which determines the direction of rotation for both L [j] and R [j] with respect to [j] is decoded,
En connaissant les amplitudes L[j] , R[j] et les angles et J3[j] Knowing the amplitudes L [j], R [j] and angles and J3 [j]
(rotation) relatifs par rapport à [j] , on obtient facilement les valeurs L[/]eti [ ] à l'étape E1208 de la même façon que dans les autre modes de réalisation déjà présentés. (rotation) relative to [j], the values L [/] eti [] in step E1208 are easily obtained in the same way as in the other embodiments already presented.
Le codeur présenté en référence à la figure 3 et le décodeur présenté en référence à la figure 10 ont été décrit dans le cas d'application particulière de codage et décodage hiérarchique. L'invention peut également s'appliquer dans le cas où les informations de spatialisation sont transmises et reçues au décodeur dans une même couche de codage et pour un même débit.  The encoder presented with reference to FIG. 3 and the decoder presented with reference to FIG. 10 have been described in the case of a particular application of hierarchical coding and decoding. The invention can also be applied in the case where the spatialization information is transmitted and received to the decoder in the same coding layer and for the same bit rate.
Les codeurs et décodeurs tels que décrits en référence aux figures 3, 9 et 10 peuvent être intégrés dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Us peuvent également être intégré dans des équipements de communication de type téléphone mobile.  The encoders and decoders as described with reference to FIGS. 3, 9 and 10 may be integrated in multimedia equipment of the set-top box type or audio or video content player. They can also be integrated into mobile phone type communication equipment.
La figure 13a représente un exemple de réalisation d'un tel équipement dans lequel un codeur selon l'invention est intégré. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.  FIG. 13a represents an exemplary embodiment of such an equipment in which an encoder according to the invention is integrated. This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de codage d'un signal mono issu d'un traitement de réduction de canaux appliqué au signal stéréo et de codage d'informations de spatialisation du signal stéréo. Lors de ces étapes le traitement de réduction des canaux comporte un calcul, par coeffîcient fréquentiel, de l'amplitude du signal mono en fonction de l'amplitude des canaux du signal stéréo, et en outre une détermination pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo. The memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the coding steps of a mono signal from a channel reduction processing applied to the stereo signal and spatialization information coding of the stereo signal. During these steps, the channel reduction processing comprises a calculation, for frequency coefficient, of the amplitude of the mono signal as a function of the amplitude of the channels of the stereo signal, and additionally a determination for a predetermined set of frequency coefficients, of the phase of the mono signal by the calculation of the phase of the signal by means of the channels of the stereo signal.
Le programme peut comporter les étapes mises en œuvre pour coder les informations adaptées à ce traitement.  The program may include the steps implemented to code the information adapted to this treatment.
Typiquement, les descriptions des figures 3, 5 et 7 reprennent les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.  Typically, the descriptions of FIGS. 3, 5 and 7 show the steps of an algorithm of such a computer program. The computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
Un tel équipement ou codeur comporte un module d'entrée apte à recevoir un signal stéréo comportant les canaux R et L pour droit et gauche, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal stéréo.  Such equipment or encoder comprises an input module adapted to receive a stereo signal comprising the R and L channels for right and left, either by a communication network, or by reading a content stored on a storage medium. This multimedia equipment may also include means for capturing such a stereo signal.
Le dispositif comporte un module de sortie apte à transmettre les paramètres d'informations spatiales codées Pc et un signa] mono M issus du codage du signal stéréo. The device comprises an output module adapted to transmit the coded spatial information parameters P c and a mono signal M from the coding of the stereo signal.
De la même façon, la figure 13b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.  In the same way, FIG. 13b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.  This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de décodage d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage d'informations de spatialisation du signal stéréo original. Le procédé de décodage comporte en outre une synthèse des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé comportant une information d'amplitude obtenue en fonction des amplitudes des canaux stéréo originaux et une information de phase du signal moyennant les canaux stéréo originaux et à partir d'informations de spatialisation décodées.  . The memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the decoding steps of a received mono signal, resulting from channel reduction processing applied to the original stereo signal and decoding spatialization information of the original stereo signal. The decoding method further comprises a synthesis of the stereo signals, by frequency coefficient, from the decoded mono signal comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and a phase information of the signal by means of the original stereo channels and from decoded spatialization information.
Typiquement, la description des figures 10, 11 et 12 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Typically, the description of FIGS. 10, 11 and 12 repeats the steps of an algorithm of such a computer program. The computer program can also stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
Le dispositif comporte un module d'entrée apte, à recevoir les paramètres d'information spatiale codés Pc et un signal mono M provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage. The device comprises an input module capable of receiving the coded spatial information parameters P c and a mono signal M originating, for example, from a communication network. These input signals can come from a reading on a storage medium.
Le dispositif comporte un module de sortie apte à transmettre un signal stéréo, L et R, décodé par le procédé de décodage mis en œuvre par l'équipement.  The device comprises an output module capable of transmitting a stereo signal, L and R, decoded by the decoding method implemented by the equipment.
Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal stéréo.  This multimedia equipment may also include speaker type reproduction means or communication means capable of transmitting this stereo signal.
Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal stéréo original et le signal de sortie, le signal stéréo décodé. Obviously, such multimedia equipment may include both the encoder and the decoder according to the invention. The input signal then being the original stereo signal and the output signal, the decoded stereo signal.
ANNEXE ANNEX
α = angle(L*conj(M)); α = angle (L * conj (M));
If [α|>π/2 If [α |> π / 2
α = -2* π *sign(a)  α = -2 * π * sign (a)
end end
β = angIe(R*conj(M)); β = angIe (R * conj (M));
if (sign(ct* β)>0) if (sign (ct * β)> 0)
β = β - 2* π * sign(P)  β = β - 2 * π * sign (P)
end pO=asin(|L|/|R|*sin(a)) end pO = asin (| L | / | R | * sin (a))
if (βθ* α >0) if (βθ * α> 0)
βΟ=-βΟ;  βΟ = -βΟ;
end end
if (β0<0) if (β0 <0)
β1=β0+ π;  β1 = β0 + π;
else else
βΐ =π-βΟ;  βΐ = π-βΟ;
end end
ϊί(β1*α>0) ϊί (β1 * α> 0)
β1=-β1  β1 = -β1
end b = arg min | β - βί| end b = arg min | β - βί |

Claims

REVENDICATIONS
1. Procédé de codage paramétrique d'un signal audionumérique stéréo comportant une étape de codage (312) d'un signal mono issu d'un traitement de réduction de canaux (307) appliqué au signal stéréo et de codage d'informations de spatialisation (315,316) du signal stéréo, le traitement de réduction des canaux comportant un calcul (330), par coefficient fréquentiel, de l'amplitude du signal mono en fonction de l'amplitude des canaux du signal stéréo, caractérisé en ce qu'il comporte en outre une détermination (331) pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo. A method of parametrically encoding a stereo digital audio signal comprising a step of encoding (312) a mono signal from a channel reduction processing (307) applied to the stereo signal and encoding spatialization information ( 315,316) of the stereo signal, the channel reduction processing comprising a calculation (330), by frequency coefficient, of the amplitude of the mono signal as a function of the amplitude of the channels of the stereo signal, characterized in that it comprises in in addition to determining (331) for a predetermined set of frequency coefficients, the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal.
2. Procédé selon la revendication 1, caractérisé en ce que les informations de spatialisation comportent une première information (ICLD) sur l'amplitude des canaux stéréo et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par coefficient fréquentiel, la différence de phase (/ [. ] ou (x j\) définie entre le signal mono et un premier canal stéréo prédéterminé. 2. Method according to claim 1, characterized in that the spatialization information comprises a first information (ICLD) on the amplitude of the stereo channels and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the phase difference (/ [.] or (xj \) defined between the mono signal and a first predetermined stereo channel.
3. Procédé selon la revendication 2, caractérisé en ce que la seconde information comporte en outre une indication (&[, ] ) permettant de déduire la différence de phase entre le signal mono et le second canal stéréo. 3. Method according to claim 2, characterized in that the second information further comprises an indication (& [ , ]) for deriving the phase difference between the mono signal and the second stereo channel.
4. Procédé selon la revendication 3, caractérisé en ce que l'indication minimale est codée sur un bit et indique le choix entre deux différences de phase (β0[]] , ¾[. ] ) possibles entre le signal mono et le second canal stéréo. 4. Method according to claim 3, characterized in that the minimum indication is coded on a bit and indicates the choice between two phase differences (β 0 []], ¾ [.]) Possible between the mono signal and the second signal. stereo channel.
5. Procédé selon la revendication 3, caractérisé en ce que l'indication minimale est codée sur un bit et indique le choix entre deux gains possibles (/¾[/] , ¾[/] ) à appliquer à l'intensité du signal mono pour retrouver le second canal stéréo. 5. Method according to claim 3, characterized in that the minimum indication is coded on a bit and indicates the choice between two possible gains (/ ¾ [/], ¾ [/]) to be applied to the intensity of the mono signal. to find the second stereo channel.
6. Procédé selon la revendication 1, caractérisé en ce que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur l'amplitude de la somme des canaux stéréo. 6. Method according to claim 1, characterized in that the spatialization information comprises a first information on the amplitude of the stereo channels and a second information on the amplitude of the sum of the stereo channels.
7. Procédé selon la revendication 6, caractérisé en ce que la seconde information comporte, par coefficient fréquentiel, la valeur de l'amplitude de la somme des canaux stéréo et une indication minimale permettant de déduire le sens de rotation des canaux stéréo. 7. Method according to claim 6, characterized in that the second information comprises, by frequency coefficient, the value of the amplitude of the sum of the stereo channels and a minimum indication to deduce the direction of rotation of the stereo channels.
8. Procédé selon la revendication 6, caractérisé en ce que la seconde information comporte, par coefficient fréquentiel, la valeur d'un gain à appliquer à l'amplitude du signal mono et une indication minimale permettant de déduire le sens de rotation des canaux stéréo. 8. Method according to claim 6, characterized in that the second information comprises, by frequency coefficient, the value of a gain to be applied to the amplitude of the mono signal and a minimum indication to deduce the direction of rotation of the stereo channels. .
9. Procédé selon l'une des revendications 2 à 8, caractérisé en ce que la première information est codée par une première couche de codage et la seconde information est codée par une seconde couche de codage. 9. Method according to one of claims 2 to 8, characterized in that the first information is coded by a first coding layer and the second information is coded by a second coding layer.
10. Procédé de décodage paramétrique d'un signal audionumérique stéréo comportant une étape de décodage (502) d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au signal stéréo original et de décodage (505, 506) d'informations de spatialisation du signal stéréo original, A method of parametric decoding of a stereo digital audio signal comprising a step of decoding (502) a received mono signal from a channel reduction processing applied to the original stereo signal and decoding (505, 506) of spatialization information of the original stereo signal,
caractérisé en ce qu'il comporte une synthèse (507) des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé comportant une information d'amplitude obtenue en fonction des amplitudes des canaux stéréo originaux et une information de phase du signal moyennant les canaux stéréo originaux et à partir d'informations de spatialisation décodées.  characterized in that it comprises a synthesis (507) of the stereo signals, by frequency coefficient, from the decoded mono signal comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and a phase information of the signal by means of the original stereo channels and from decoded spatialization information.
11. Procédé selon la revendication 10, caractérisé en ce que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo (ICLD) et une seconde information sur la phase des canaux stéréo, la seconde information comportant, par coefficient fréquentiel, l'angle ( ?[/] ou c [ j] ) défini entre le signal mono et un premier canal stéréo prédéterminé. 11. Method according to claim 10, characterized in that the spatialization information comprises a first information on the amplitude of the stereo channels (ICLD) and a second information on the phase of the stereo channels, the second information comprising, by frequency coefficient, the angle (? [/] or c [j]) defined between the mono signal and a first predetermined stereo channel.
12. Procédé de décodage selon la revendication 11, caractérisé en ce que la seconde information comporte en outre une indication minimale (&[./] ) permettant de déduire l'angle entre le signal mono et le second canal stéréo. 12. decoding method according to claim 11, characterized in that the second information further comprises a minimum indication (& [./]) for deriving the angle between the mono signal and the second stereo channel.
13. Procédé selon la revendication 10, caractérisé en ce que les informations de spatialisation comportent une première information sur l'amplitude des canaux stéréo et une seconde information sur l'amplitude de la somme des canaux stéréo. 13. The method of claim 10, characterized in that the spatialization information comprises a first information on the amplitude of the stereo channels and a second information on the amplitude of the sum of the stereo channels.
14. Procédé selon l'une des revendications 10 à 13, caractérisé en ce que la première information est décodée par une première couche de décodage et la seconde information est décodée par une seconde couche de décodage. 14. Method according to one of claims 10 to 13, characterized in that the first information is decoded by a first decoding layer and the second information is decoded by a second decoding layer.
15. Codeur paramétrique d'un signal audionumérique stéréo comportant un module de codage (312) d'un signal mono issu d'un module de traitement de réduction de canaux (307) appliqué au signal stéréo et un module de codage d'informations de spatialisation (315,316) du signal stéréo, le module de traitement de réduction des canaux comportant un module (330) de calcul, par coefficient fréquentiel, de l'amplitude du signal mono en fonction des amplitudes des canaux du signal stéréo, 15. A parametric encoder of a stereo audio signal having a coding module (312) of a mono signal from a channel reduction processing module (307) applied to the stereo signal and an information coding module of spatialization (315,316) of the stereo signal, the channel reduction processing module comprising a module (330) for calculating, by frequency coefficient, the amplitude of the mono signal as a function of the amplitudes of the channels of the stereo signal,
caractérisé en ce que le module de traitement de réduction des canaux comporte en outre un module (331) de détermination pour un ensemble prédéterminé de coefficients fréquentiels, de la phase du signal mono par le calcul de la phase du signal moyennant les canaux du signal stéréo.  characterized in that the channel reduction processing module further comprises a determination module (331) for determining a predetermined set of frequency coefficients of the phase of the mono signal by calculating the phase of the signal by means of the channels of the stereo signal. .
16. Décodeur paramétrique d'un signal audionumérique stéréo comportant un module de décodage (502) d'un signal mono reçu, issu d'un traitement de réduction de canaux appliqué au. signal stéréo original et un module de décodage (505, 506) d'informations de spatialisation du signal stéréo original, 16. Parametric decoder of a stereo audio signal comprising a decoding module (502) of a received mono signal, resulting from a channel reduction processing applied to the. original stereo signal and a decoding module (505, 506) of spatialization information of the original stereo signal,
caractérisé en ce qu'il comporte un module de synthèse (507) des signaux stéréo, par coefficient fréquentiel, à partir du signal mono décodé (M(n)) comportant une information d'amplitude obtenue en fonction des amplitudes des canaux stéréo originaux et une information de phase du signal moyennant les canaux stéréo originaux et à partir d'informations de spatialisation décodées. characterized in that it comprises a synthesis module (507) of stereo signals, by frequency coefficient, from the decoded mono signal (M (n)) comprising an amplitude information obtained as a function of the amplitudes of the original stereo channels and signal phase information by means of the original stereo channels and from decoded spatialization information.
17. Programme informatique comprenant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 8 et ou d'un procédé de décodage selon l'une des revendications 9 à 16, lorsque celles-ci sont exécutées par un processeur. Computer program comprising code instructions for carrying out the steps of an encoding method according to one of claims 1 to 8 and or a decoding method according to one of claims 9 to 16, when these are executed by a processor.
PCT/FR2010/052807 2009-12-18 2010-12-17 Parametric stereo encoding/decoding having downmix optimisation WO2011073600A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR0959250 2009-12-18
FR0959250 2009-12-18
FR1051513 2010-03-02
FR1051513 2010-03-02

Publications (1)

Publication Number Publication Date
WO2011073600A1 true WO2011073600A1 (en) 2011-06-23

Family

ID=43759844

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/052807 WO2011073600A1 (en) 2009-12-18 2010-12-17 Parametric stereo encoding/decoding having downmix optimisation

Country Status (1)

Country Link
WO (1) WO2011073600A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672837B2 (en) 2013-09-12 2017-06-06 Dolby International Ab Non-uniform parameter quantization for advanced coupling
CN109389986A (en) * 2017-08-10 2019-02-26 华为技术有限公司 The coding method of time domain stereo parameter and Related product
CN113314132A (en) * 2021-05-17 2021-08-27 武汉大学 Audio object coding method, decoding method and device applied to interactive audio system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253576A1 (en) * 2007-04-16 2008-10-16 Samsung Electronics Co., Ltd Method and apparatus for encoding and decoding stereo signal and multi-channel signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253576A1 (en) * 2007-04-16 2008-10-16 Samsung Electronics Co., Ltd Method and apparatus for encoding and decoding stereo signal and multi-channel signal

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BREEBAART J ET AL: "Parametric Coding of Stereo Audio", INTERNET CITATION, 1 June 2005 (2005-06-01), pages 1305 - 1322, XP002514252, ISSN: 1110-8657, Retrieved from the Internet <URL:http://www.jeroenbreebaart.com/papers/jasp/jasp2005.pdf> [retrieved on 20090210] *
J. BREEBAART; S. VAN DE PAR; A. KOHLRAUSCH; E. SCHUIJERS: "Parametric Coding of Stereo Audio", EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING, vol. 9, 2005, pages 1305 - 1322, XP002514252
SAMSUDIN ET AL: "A Stereo to Mono Dowmixing Scheme for MPEG-4 Parametric Stereo Encoder", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2006. ICASSP 2006 PROCEEDINGS . 2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA LNKD- DOI:10.1109/ICASSP.2006.1661329, 14 May 2006 (2006-05-14), pages V, XP031387161, ISBN: 978-1-4244-0469-8 *
SAMSUDIN, E. KURNIAWATI; N. BOON POH; F. SATTAR; S. GEORGE: "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder", IEEE TRANS., ICASSP, 2006
THI MINH NGUYET HOANG ET AL: "Parametric stereo extension of ITU-T G.722 based on a new downmixing scheme", 2010 IEEE INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING (MMSP '10), SAINT MALO, FRANCE, 4-6 OCT. 2010, IEEE, IEEE, PISCATAWAY, USA, 4 October 2010 (2010-10-04), pages 188 - 193, XP031830580, ISBN: 978-1-4244-8110-1 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672837B2 (en) 2013-09-12 2017-06-06 Dolby International Ab Non-uniform parameter quantization for advanced coupling
US10057808B2 (en) 2013-09-12 2018-08-21 Dolby International Ab Non-uniform parameter quantization for advanced coupling
US10383003B2 (en) 2013-09-12 2019-08-13 Dolby International Ab Non-uniform parameter quantization for advanced coupling
US10694424B2 (en) 2013-09-12 2020-06-23 Dolby International Ab Non-uniform parameter quantization for advanced coupling
US11297533B2 (en) 2013-09-12 2022-04-05 Dolby International Ab Method and apparatus for audio decoding based on dequantization of quantized parameters
US11838798B2 (en) 2013-09-12 2023-12-05 Dolby International Ab Method and apparatus for audio decoding based on dequantization of quantized parameters
CN109389986A (en) * 2017-08-10 2019-02-26 华为技术有限公司 The coding method of time domain stereo parameter and Related product
US11727943B2 (en) 2017-08-10 2023-08-15 Huawei Technologies Co., Ltd. Time-domain stereo parameter encoding method and related product
CN109389986B (en) * 2017-08-10 2023-08-22 华为技术有限公司 Coding method of time domain stereo parameter and related product
CN113314132A (en) * 2021-05-17 2021-08-27 武汉大学 Audio object coding method, decoding method and device applied to interactive audio system
CN113314132B (en) * 2021-05-17 2022-05-17 武汉大学 Audio object coding method, decoding method and device in interactive audio system

Similar Documents

Publication Publication Date Title
EP2656342A1 (en) Improved stereo parametric encoding/decoding for channels in phase opposition
EP2374123B1 (en) Improved encoding of multichannel digital audio signals
EP2002424B1 (en) Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis
EP2489039B1 (en) Optimized low-throughput parametric coding/decoding
EP2277172B1 (en) Concealment of transmission error in a digital signal in a hierarchical decoding structure
EP3427260B1 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
EP2691952B1 (en) Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding
EP2452337B1 (en) Allocation of bits in an enhancement coding/decoding for improving a hierarchical coding/decoding of digital audio signals
WO2010076460A1 (en) Advanced encoding of multi-channel digital audio signals
EP2452336B1 (en) Improved coding /decoding of digital audio signals
EP3391370A1 (en) Adaptive channel-reduction processing for encoding a multi-channel audio signal
CA2917795A1 (en) Optimized scale factor for frequency band extension in an audio frequency signal decoder
EP2304721A1 (en) Spatial synthesis of multichannel audio signals
WO2011073600A1 (en) Parametric stereo encoding/decoding having downmix optimisation
EP2347411A1 (en) Pre-echo attenuation in a digital audio signal
WO2011045549A1 (en) Optimized parametric stereo decoding
EP1362344A1 (en) Multichannel signal spectral reconstruction method and device
FR2980620A1 (en) Method for processing decoded audio frequency signal, e.g. coded voice signal including music, involves performing spectral attenuation of residue, and combining residue and attenuated signal from spectrum of tonal components

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10809293

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10809293

Country of ref document: EP

Kind code of ref document: A1