WO2007090988A2 - Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants - Google Patents

Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants Download PDF

Info

Publication number
WO2007090988A2
WO2007090988A2 PCT/FR2007/050751 FR2007050751W WO2007090988A2 WO 2007090988 A2 WO2007090988 A2 WO 2007090988A2 FR 2007050751 W FR2007050751 W FR 2007050751W WO 2007090988 A2 WO2007090988 A2 WO 2007090988A2
Authority
WO
WIPO (PCT)
Prior art keywords
frame
frames
duration
level
enhancement
Prior art date
Application number
PCT/FR2007/050751
Other languages
English (en)
Other versions
WO2007090988A3 (fr
Inventor
Pierrick Philippe
Patrice Collen
Christophe Veaux
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP07731577A priority Critical patent/EP1987513B1/fr
Priority to US12/278,547 priority patent/US8321230B2/en
Priority to AT07731577T priority patent/ATE442645T1/de
Priority to DE602007002385T priority patent/DE602007002385D1/de
Publication of WO2007090988A2 publication Critical patent/WO2007090988A2/fr
Publication of WO2007090988A3 publication Critical patent/WO2007090988A3/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the field of the invention is that of the compression and transmission of digital audio signals and more specifically the coding and decoding of digital audio signals.
  • the invention more specifically applies to the encoding and decoding of digital audio signals in a scalable manner (or "scalable"), which can be put into a bit stream having a hierarchical structure in layers, or levels.
  • the invention proposes in particular the shaping of a bitstream, formed of frames, or access units, belonging to the different layers, within the framework of a coding / decoding system of digital audio signals.
  • Hierarchical coding / decoding systems make it possible to prioritize the information to be transmitted or to decode a digital signal in the form of a bit stream.
  • the entire train or only a part of the train is transmitted or decoded while ensuring that, in any case, essential information is transmitted and decoded.
  • the current hierarchical audio coding techniques operate in frame-to-frame mode and the generated bit streams include access units describing signal portions as indicated in the reference document for the "MPEG-4 audio" standard referenced to ISO IEC SC29 WGIl International standard 14496-3: 2001.
  • FIG. 1 shows a diagram of a bit stream 10 formatted from frames belonging to three levels 111, 112, 113 of a hierarchical coding classic.
  • the frames are thus organized into a base layer 111 and two or more enhancement or enhancement layers 112 and 113 comprising frames 101 to 109 of the same duration.
  • the frames of the coded bitstream 10 are read along the time axis t, and then from the lowest level to the highest enhancement level (along the Q axis). that is, frame 101 to frame 109.
  • the priority orders of the frames are implicit.
  • the units are equipped with a time stamp "cts" (for
  • Composition Time Stamp corresponds to the clock times for which the packets must be restored after decoding by the reader terminal.
  • Each unit of the same cts can be truncated (typically by a transmission device or routing), the quality restored to the decoder will be proportional to the number of layers received.
  • This conventional hierarchical coding / decoding technique considers only the transmission of entities whose transmission priority imposes a single hierarchy: either the units are of equal durations or the basic hierarchy level lasts less than the other levels ( example enrichment of a CELP layer by a scalable AAC layer as indicated in the reference document concerning the "MPEG-4 audio" standard mentioned above). 3. Objectives of the invention
  • the invention particularly aims to overcome these disadvantages of the prior art.
  • an object of the invention is to provide a technique for encoding a different audio signal, and more effective than the known techniques.
  • Another objective of the invention in at least one of its embodiments, is to provide such a technique, which makes it possible to define several strategies for shaping the bit stream. 4. Presentation of the invention
  • a hierarchical encoding method of a source audio signal in the form of a data stream comprising a base and at least two levels of hierarchical enhancement, each of said levels being organized in successive frames.
  • such a method is such that at least one frame of at least one enhancement level is of less duration than the duration of at least one frame of said base level, and the method comprises a step inserting in said stream at least one information representative of an order used for a set of frames corresponding to the duration of at least one frame of said base level.
  • the general principle of the invention is to code hierarchically the sinusoidal components of an audio signal in the form of basic frames, at least some of which have a duration greater than at least some enhancement frames coding complementary components of the signal.
  • the coding technique according to the invention makes it possible to obtain a high compression ratio and particularly for the basic level, which makes it possible to transmit the coded signal with a reduced bit rate compared with conventional coding techniques.
  • the information representative of an order used is intended for the decoder to enable it to adopt the technique of demultiplexing the bitstream adapted to the multiplexing adopted. Moreover, this coding technique leads to smaller grains of the coded bitstream resulting from the coding of the audio signal.
  • the duration of a base level frame is a multiple of the duration of a frame of at least one of said enhancement levels.
  • base level frames can all have the same duration or different durations.
  • the frames of the same level of enhancement can all have the same duration or different durations.
  • the frames of different levels of enhancement can all have the same duration or different duration.
  • said coding method comprises: a step of sinusoidal decomposition of said source audio signal, delivering sinusoidal components forming said basic level; a step of coding a residual signal, delivering complementary components forming at least one level of enhancement.
  • the residual signal can be obtained from the difference between the source audio signal and a reconstructed signal using the sinusoidal components.
  • said step of coding a residual signal implements a bank of analysis filters.
  • the analysis filter bank provides a quantized version of each of the enhancement level frames.
  • the encoding method comprises, for the coding of at least one of said enhancement levels, at least one of the following steps: coding of a high-frequency envelope of the spectrum of said source audio signal; encoding at least one noise energy level on at least a portion of the spectrum of said source audio signal; encoding reconstruction data of at least one complementary channel of said source audio signal from a mono signal; transmission of parameters associated with a step of duplicating the spectrum of said source audio signal.
  • the high frequency envelope of the source audio signal spectrum as well as the noise energy levels on at least a portion of the spectrum of this signal are band extension information that enriches the spectrum of the signal. signal decoded especially when the high frequencies are missing.
  • the method according to the invention comprises a step of constructing the stream, sequencing the frames in a so-called horizontal order, according to which a frame of said basic level is taken into account and then, for each of said levels of successively raising all the frames of said enhancement level covering the duration of said base level frame.
  • the method according to the invention comprises a step of constructing said stream, sequencing said frames in a so-called vertical order, according to which a frame of said basic level is taken into account and then the first frame of each of said frames. levels of enhancement, then the following frames, starting from a lower level to a higher level in chronological order, for all of the frames of all levels of enhancement covering the duration of said frame of the basic level .
  • this second embodiment of the frame scheduling makes it possible to transmit access units of short duration and thus offers the possibility of emptying the memory more quickly.
  • the method according to the invention comprises a step of constructing said stream, sequencing said frames in a so-called combined order, according to which a frame of said basic level is taken into account and, for the frames of the set of enhancement levels covering the duration of said base level frame, a predetermined selection order.
  • this third embodiment of the frame scheduling may consist of taking into account the base level and then several frames of an enhancement level covering the time duration of the lower level enhancement frame (in this case optionally the enhancement frames are encoded in the stream by encoding all the associated enhancement frames at the first instant before encoding the frames associated with the next instant to cover the duration of the lower level enhancement frame) and then the second frame of the first enhancement level and all the frames of all enhancement levels associated with this second enhancement frame and so on until 'taking into account all levels of enhancement covering the duration of the basic level.
  • the step of constructing a stream implements at least two types of scheduling, according to at least two of the orders belonging to the group comprising the orders horizontal, vertical and combined, according to at least one selection criterion. predetermined.
  • said predetermined selection criterion is obtained according to at least one of the techniques belonging to the group comprising: an analysis of said source audio signal; an analysis of the processing and / or storage capabilities of a receiver; an analysis of an available transmission rate; a selection instruction issued by a terminal; an analysis of the capacities of a transmission network of said stream.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for the implementation of the method of coding as described above.
  • the invention also relates to a hierarchical encoding device of a source audio signal in the form of a data stream comprising a base level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames.
  • the coding device comprises coding means for said frames, delivering at least one frame of at least one enhancement level which is of a duration less than the duration of a frame of said level. base, and according to which is inserted in said stream at least one information representative of an order used for a set of frames corresponding to the duration of at least one frame of said base level.
  • Such a device can in particular implement the coding method as described above.
  • the coding device comprises in particular: sinusoidal decomposition means of said source audio signal, delivering sinusoidal components forming said basic level; and means for coding a residual signal, delivering complementary components forming at least one level of enhancement.
  • the invention also relates to a data signal representative of a source audio signal and being in the form of a data stream comprising a basic level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames. .
  • At least one frame of at least one enhancement level is shorter than the duration of a frame of said base level, and said stream carries at least one information representative of an order used for scheduling said frames, for a set of frames corresponding to the duration of at least one frame of said base level.
  • Such a data signal may in particular represent a data stream coded according to the coding method described above.
  • This signal may of course include the various features relating to the coding method according to the invention described above.
  • a data signal can be obtained by means in particular: sinusoidal decomposition means of said source audio signal, delivering sinusoidal components forming said base level; and means for coding a residual signal, delivering complementary components forming at least one level of enhancement.
  • the invention also relates to a method for decoding a data signal representative of a source audio signal and being in the form of a data stream comprising a base level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames, at least one frame of at least an enhancement level being less than the duration of a frame of said base level, said stream carrying at least one information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said base level.
  • the decoding method comprises a step of reconstructing said source audio signal, taking into account, for a frame of said basic level, at least two frames of at least one of said enhancement levels each extending over a portion of the duration of said base level frame.
  • the method also includes a step of reading information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said basic level, and a processing step said frames according to said order.
  • the terminal adapts its demultiplexing to the multiplexing implemented at the coding.
  • a decoding method is particularly suitable for decoding a data stream coded according to the coding method described above.
  • such a decoding method may comprise the following steps: reception of a coded signal as described above, and extraction on the one hand of a base level formed of sinusoidal components and on the other hand of a residual signal, formed of complementary components forming at least one level of enhancement; reconstruction of a basic signal from said sinusoidal components forming said base level; reconstruction of an improved signal from said basic signal and said complementary components forming at least one level of enhancement.
  • the decoding method implements steps of reconstructing a signal corresponding to the source audio signal, which is the reverse of the steps implemented during coding.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for the implementation of the decoding method previously described.
  • the invention also relates to a device for decoding a data signal representative of a source audio signal and which is in the form of a data stream comprising a basic level and at least two hierarchical enhancement levels, each of said levels being organized in successive frames, at least one frame of at least one level of enhancement being of a duration less than the duration of a frame of said base level, said stream carrying at least one piece of information representative of an order used for scheduling said frames, for a set of frames corresponding to the duration of at least one frame of said base level.
  • the decoding device comprises means for reconstructing said source audio signal, taking into account, for a frame of said base level, at least two frames of at least one of said enhancement levels each extending over a portion of the duration of said base level frame.
  • the device also comprises means for reading the information representative of an order used for the scheduling of said frames, for a set of frames corresponding to the duration of at least one frame of said basic level, and processing means said frames according to said order.
  • a decoding device can in particular implement the decoding method as described above. It is therefore adapted to receive a data stream encoded by the encoding device described above.
  • FIG. 1 shows a schematic of a bit stream formatted by conventional hierarchical coding
  • Figure 2 shows a diagram of the processing unit of a coding device according to a preferred embodiment of the invention
  • FIG. 3 is a diagram of a subband analysis module according to the preferred implementation mode of the invention
  • FIG. 4 shows a simplified diagram of the processing unit of a decoding device according to the preferred implementation mode of the invention
  • FIG. 5 is a complete diagram of the processing unit of the decoding device of FIG. 4
  • FIGS. 6A to 6D illustrate first (FIG.
  • FIGS. 7A and 7B are diagrams of the simplified general structure of the coding device (FIG. 7A) and decoding device (FIG. 7B) according to the invention.
  • the hierarchical coding method (implemented by the hierarchical coding device) according to the invention is first described, allowing the coding of an initial digital audio signal in the form of a hierarchical binary train. coded (or coded digital audio signal) in the form of different layers (or levels).
  • the encoding method described hereinafter comprises an analysis process which allows the estimation and coding of the sinusoidal components of a signal, the coding of a residual signal in subbands (or layers or levels), the coding information relating to band extension techniques and the coding of the conversion information of a monophonic signal into a multi-channel signal, for example the "Parametric Stereo" as defined in the reference document for the "MPEG- 4 audio "above.
  • the base level is derived from a sinusoidal encoder
  • the enhancement levels are derived from a band-extension encoder (eg SBR), a sinusoidal encoder, a a parametric stereo enrichment, a transform coding of the residue after subtraction of the sinusoids of the signal.
  • SBR band-extension encoder
  • FIG. 2 a diagram of the processing unit 20 of a coding device (as illustrated below with reference to FIG. 7A) is presented according to a preferred embodiment of the invention. 'invention.
  • the initial multi-channel audio signal (consisting of m channels) is injected into a module for obtaining the mono signal 205 which delivers on the one hand a mono audio signal (for monophonic) x (t) 2051 (or more generally n channels). audio) and on the other hand reconstruction data 2052 for reconstructing one or more (m greater than n) channels, representative of the initial audio signal.
  • the reconstruction data 2052 is then transmitted to the formatting module 206 described hereinafter.
  • the mono audio signal x (t) 2051 is injected into a sinusoidal analysis module 201 whose purpose is to extract sinusoidal components of the mono signal. It is recalled that sinusoidal modeling is based on the principle of decomposition of a signal under a sum of sinusoids of frequency, amplitude, and variable phase in time.
  • the audio signal x (t) can be written in the following form:
  • a 1 (O and ⁇ j (t) respectively represent the amplitude and the phase of the partial (or sinusoidal component of the audio signal x (t)) of index i.
  • phase ⁇ ; (t) of the subset of index i depends on the frequency i x of the partial and of its initial phase ⁇ oi (t) according to the following expression:
  • a partial of several seconds can be advantageously modeled by a small set of parameters and for particular signals, this sinusoidal modeling called "long term” becomes more effective (in term of flow) that the modeling in sub-bands (or layers or levels) so-called “short term” which cuts the signal into a fixed length frame of a few tens of milliseconds.
  • the partials of the audio signal x (t) are transmitted by the sinusoidal analysis module 201 to a shaping module 206 described hereinafter.
  • a sinusoidal synthesis module 203 makes it possible, by means of a subtraction device 204, to subtract from the audio signal x (t) the sinusoidal components of the audio signal x (t) in order to obtain the residual signal r (t) .
  • FIG. 3 shows a diagram of the subband analysis module 202 according to the preferred embodiment of the invention.
  • This module 202 comprises an analysis filter bank (ABF) 2021.
  • the analysis filter bank 2021 provides a quantized component of each of the subbands (subband 0 referenced 20221, subband 1 referenced 20222, subband 2 referenced 20223, ... in band NI referenced 20224 where N is an integer) of the residual signal r (t) which are then injected into an analysis and coding module 2023.
  • the analysis and coding module 2023 delivers to the module formatting
  • the formatting module 206 then builds a hierarchical (or coded) bit stream 200 composed of the frames of the following different layers (or levels): a base layer 207 (otherwise known as the basic level), referred to as "long term", describing the sinusoidal (or partial) components of the audio signal x (t) to be transmitted.
  • This layer 207 typically models long units of the signal x (t) corresponding to the partials.
  • Each partial is described by a start time, its duration, and the parameters of amplitude, frequency and phase variables in time.
  • the size of these "long term" layers describing the sinusoidal components of the signal is less than 3 kbit / s.
  • high-frequency envelope information is also transmitted in this base layer in order to adjust the amplitudes of the reconstructed sines during the implementation of the decoding method.
  • sinusoidal expansion module described hereinafter.
  • different enhancement layers 208 called “short-term” modeling the residual signal in sub-bands at different degrees of precision (for example, there is shown in this figure 2, the hierarchical bit stream 200 with two enhancement levels 208, however any other number of enhancement levels may be contemplated within the scope of the present invention).
  • the size of each of the enhancement layers 208 is between 4 and 16 kbit / s; a so-called "short-term" band extension layer 209 modeling the high-frequency envelope of the audio signal spectrum x (t) to be encoded, as well as the subband noise energy levels on all, or a part of the spectrum of the signal x (t). High frequency envelopes for sinusoids can be transmitted in this field.
  • the size of this layer 209 is of the order of a few kbit / s; a so-called "short-term" layer 210 making it possible to reconstruct the different audio signal channels (stereo or even 5.1) from the mono signal (parameters based for example on temporal and inter-oral differences).
  • the size of this layer is of the order of a few kbit / s.
  • the hierarchical bit stream 200 may also include ancillary information indicating to the decoding device according to the invention which implements the decoding method according to the invention (described hereinafter) the reading mode of the hierarchical bit stream 200.
  • each of the layers (or levels) of the hierarchical binary train 200 can also be broken down into different levels.
  • enrichment or enhancement in the form of enhancement (or enhancement) frames the sinusoids can be organized in frequency bands, each frequency band being transmitted in different units (or frames); the residual signal can be divided into different bands and precision enrichment each of these entities can be associated with as many different enrichment complementary frames; the high frequency information for the spectral enrichment can themselves be organized in different enrichment bands, for example 3.4 kHz-7 kHz then 7 kHz -15 kHz in order to gradually obtain a hi-fi band.
  • the stereo information can also be organized in several layers: initially a parametric layer is transmitted and then gradually it is the difference signal of the left and right channels that is transmitted in order to recreate the stereo faithfully.
  • the frames of the base layer 207 (or base level) corresponding to the sinusoidal information describe portions of the signal longer than the frames of the layers (or levels) of enhancement 208, the frames of the enhancement layers being of the same length.
  • the frames of the enhancement levels may have different lengths depending on their position in the same level of enhancement or depending on the levels of enhancement to which they belong. The transmission or storage of this information is performed according to the following options (illustrated by means of FIGS. 6A to 6D described in more detail below):
  • a first reading option in "vertical" mode (illustrated hereinafter in FIGS. 6A and 6C) which consists in transmitting the basic level then, successively, the first frames of all the levels of enhancement, then the other frames of the higher enhancement levels from the lower levels to the higher levels and in chronological order;
  • a second "horizontal” read mode (illustrated below in FIGS. 6A and 6B) which transmits the basic level followed by all the frames of the first level of enhancement covering the duration of the basic level, followed by all frames in the second level of enhancement covering the duration of the basic level and so on until transmission of all levels of enhancement covering the duration of the basic level;
  • a third reading option in "combined" mode which consists in transmitting the basic level and then several frames of an enhancement level covering the time duration of the enhancement frame of FIG. lower level (in this case optionally the enhancement frames are encoded in the stream by encoding all the associated enhancement frames at the first instant before encoding the associated frames at the next instant to cover the duration of the enhancement frame of the lower level) then the second frame of the first level of enhancement and all the frames of all enhancement levels associated with this second enhancement frame and so on until the transmission of all levels of enhancement covering the duration of the level of enhancement. based.
  • the transmission order of the enhancement frames is indicated by the encoder in the stream in the form of an initialization information for the decoder.
  • the hierarchical decoding method (implemented by the hierarchical decoding device) which, from the encoded (or hierarchical) received bitstream 200, makes it possible to reconstruct an audio signal is described. digital synthesized approaching the original digital audio signal previously coded.
  • the hierarchical bit stream 200 obtained by means of the previously described hierarchical coding method (implemented by the processing unit 20 of the coding device written in connection with FIG. 2) is transmitted via a transmission channel and then received by the transmission device. decoding implementing the hierarchical decoding method according to the invention described below.
  • FIG. 4 a simplified diagram of the processing unit 50 of a decoding device (as illustrated below with reference to FIG. 7B) is presented according to a preferred implementation mode of FIG. the invention.
  • the processing unit 50 is then responsible for demultiplexing the different layers of the hierarchical bit stream and for decoding the information useful for the sinusoidal synthesis module 51, for the module for decoding the residual signal into sub-bands 52 and for the band extension modules 53 and for the stereo.
  • the information extracted from the base layer (sinusoidal elements) is injected into the sinusoidal synthesis module 51, which from the information received (frequencies, phases and amplitudes of each of the partials or a set of partials) synthesizes the signal corresponding to the sum of the partials transmitted.
  • the information extracted from the enhancement layers (or levels) 208 modeling the residual signal are injected into the decoding module of the residual signal in sub-bands 52.
  • the signals at the output of the sinusoidal synthesis modules 51 and the decoding of the residual signal in the sub-bands 52 are summed by an addition device 54, then the sum is applied at the input of the band extension module 53.
  • band extension elements modeling the high frequency envelope and the subband noise energy levels (called band extension elements) are fed into the extension module band 53 (also called spectrum enrichment module) which allows, from the signals reconstructed by the two previous modules, to synthesize the output signal.
  • extension module band 53 also called spectrum enrichment module
  • the module for converting the mono signal to a stereo signal is not represented in this FIG.
  • FIG. 5 a complete diagram of the processing unit 50 of the decoding device according to the preferred embodiment of the invention is presented.
  • a demultiplexing module 55 demultiplexes the different layers (or levels) of the hierarchical bit stream 200.
  • the information contained in the base level 207 allows the sinusoidal synthesis module 51 to synthesize the different partials contained in the previously encoded initial audio signal x (t).
  • the partials thus synthesized are then injected into a sinusoidal extension module 510 whose purpose is to synthesize, from the transmitted partials, partials at multiples of the frequency of each of these transmitted partials.
  • This operation corresponds to an interpolation of a truncated harmonic series, according to the following equations (3) and (4). From a partial transmitted verifying the following equation: t
  • ⁇ n is either equal to ⁇ 0 or equal to a random number.
  • the phases and frequencies of the synthesized partials are thus directly calculated by the sinusoidal synthesis module 51, it remains to adjust their amplitudes.
  • the envelope information transmitted in the hierarchical bit stream 200 in the band extension level 209 (modeling the high frequency envelope and the subband noise energy levels) makes it possible to adjust the amplitude partial sinuses thus synthesized.
  • this high frequency envelope information is transmitted in the band extender layer 209 (which is a "short term” layer).
  • this envelope information is transmitted in the "long-term" base layer 207 describing the sinusoidal part of the signal.
  • the signal at the output of the sinusoidal extension module 510 is then injected into a sub-band analysis module 511.
  • the information contained in the various enhancement layers 208 describing the residual signal r (t) in sub-bands is injected into the residual decoding module 52.
  • the capacity of the transmission channel is sufficient to transmit all the enhancement layers 208 describing the residual signal r (t) (favorable case).
  • the enhancement layers 208 can not all be received by the processing unit 50 (a moderately favorable case), and sometimes even none of the layers of enhancement is not received (adverse case).
  • the sub-bands from residual decoding modules 52 and sub-band analysis 511 are then summed before being injected into the band extension module 53.
  • the information retrieved in the hierarchical binary train 200 does not make it possible to synthesize the signal audio x (t) in full band, thus, the sub-high frequency bands are then missing.
  • the role of the band extension module 53 is here to synthesize the high frequency subbands from the low frequency subbands, according to the technique described in Martin Dietz's paper, Lars Liljeryd, Kristofer Kjörling and Oliver Kunz who is titled "Spectral Band Replication - A Novel Approach in Audio Coding", 112nd AES convention, Kunststoff 2002.
  • noise is added to each of the subbands by the noise generation module 56.
  • the noise energy levels to be injected in each of the subbands are received in the bit stream. hierarchical 200 in the band extender layer 209.
  • the resulting subband energies are then adjusted by an envelope adjustment module 57.
  • the energy levels of each of the subbands are also received in the hierarchical bit stream 200 in the band extender layer 209. .
  • the resulting subbands are then injected into a synthesis filter bank called a subband synthesis module 58.
  • This sub-band synthesis module 58 is then summed to the sinusoidal portion coming from the sinusoidal synthesis module 51 and, optionally, from the sinusoidal extension module 510 (the means implementing this last step are not shown in Figure 5).
  • the synthesized digital audio signal can thus correspond in particular to: either to the sum of the transmitted sines and possibly interpolated sines and adjusted by the sinusoidal extension module 510, and noise if none of the enhancement layers 208 (describing the residual signal in subbands) are received by the decoding device; the sum of the sines, the transmitted low frequency sub-bands and the signals duplicated at high frequencies by the band extension module 53; the sum of the sine waves transmitted, the interpolated sine waves adjusted by the sinusoidal extension module 510, the transmitted low frequency sub-bands, the low frequency duplicate sub-bands duplicated by the band extension module 53 at high frequencies, and noise formatted over the entire band, and reconstruction of m channels (eg 2 for a stereo system) from the n channels transmitted (eg 1 mono channel).
  • m channels eg 2 for a stereo system
  • FIGS. 6A and 6B show a first example, in accordance with the invention, of reading (FIG. 6B) the hierarchical bit stream 200 derived from the structure of FIG. 6A.
  • This first example of reading says
  • the hierarchical bit stream 200 includes a base level 207, and first, second and third raising levels 208 to 210.
  • a 00 or 40 frame of the base level 207 is followed by:
  • This first reading example thus consists of reading the basic level followed by all the frames of the first level of enhancement covering the duration of the basic level, followed by all the frames of the second level of enhancement covering the duration of the level. basic and so on until the transmission of all levels of enhancement covering the duration of the basic level.
  • a frame corresponding to a level of enhancement n is read after the level of enhancement n-1 is completely read for the duration of the base level.
  • Cts for composition time stamp fields, which delimit system level layers and make it possible to indicate to the decoding device the instant of composition of the transmitted units, are integrated in bit stream 640.
  • FIG. 6C a second example according to the reading invention (FIG. 6C) of the hierarchical bit stream 200 of FIG. 6A.
  • This second example called “vertical” offers the possibility of transmitting access units of short duration and thus offers the possibility of performing a low delay decoding.
  • This second reading example (FIG. 6C) consists in reading the first frame of the basic level then the first frames of the first, second and third raising levels, then the second frames of the first, second and third raising levels and so on. in order to cover the duration of the basic level. Then, reading the second frame of the base level is implemented and so on.
  • the second demultiplexed hierarchical bit stream 650 is thus obtained.
  • Appendix 1 presents a table illustrating a syntax for reading the information concerning the mode of demultiplexing or reading (for example the first and second examples of reading above) that must adopt the decoding device.
  • this reading mode is indicated in a 2-bit field called "framingMode".
  • the decoding device adopts the first example of reading, called “horizontal” as previously described in relation with FIG. 6B (this reading mode is implicit);
  • the field framingMode takes the value OxO1
  • the decoding device adopts the second example of reading, called “vertical” as previously described in relation with FIG. 6C (this reading mode is implicit);
  • the framingMode field is set to 0x10, then the decoder analyzes an additional field (called "advancedFraminglnformation") that specifies the read mode.
  • the duration of each enhancement level is known to the decoder using the configuration information specific to the different fields (sinusConfig (), transformConfigO, BandwidthExtensionConfigO, StereoExtension ()).
  • the coding method of the invention can be implemented in many devices, such as stream servers, intermediate nodes of a network, transmitters, data storage devices, etc.
  • FIG. 7A The simplified general structure of such a coding device is illustrated schematically in FIG. 7A. It comprises a memory M 1000, a processing unit 1010 (such as the processing unit 20 described with reference to FIG. 2), equipped for example with a microprocessor, and driven by the computer program Pg 1020.
  • a processing unit 1010 such as the processing unit 20 described with reference to FIG. 2
  • Pg 1020 the computer program
  • the code instructions of the computer program 1020 are for example loaded into a RAM memory before being executed by the processor of the processing unit 1010.
  • the processing unit 1010 receives at input 1050 a audio signal 1030.
  • the processing unit 1010 implements the method described above, according to the instructions of the program Pg 1020.
  • the processing unit 1010 outputs 1060 a hierarchical bit stream 1040 (corresponding to the coded audio signal).
  • the decoding method of the invention can be implemented in many devices, such as stream servers, intermediate nodes of a network, transmitters, data storage devices, etc.
  • FIG. 7B The simplified general structure of such a decoding device is illustrated schematically in FIG. 7B. It comprises a memory M 1100, a processing unit 1110 (such as the processing unit 50 described in connection with FIG. 5), equipped for example with a microprocessor, and controlled by the computer program Pg 1120.
  • a processing unit 1110 such as the processing unit 50 described in connection with FIG. 5
  • a microprocessor equipped for example with a microprocessor
  • the code instructions of the computer program 1120 are for example loaded into a RAM memory before being executed by the processor of the processing unit 1110.
  • the processing unit 1110 receives at the input 1150 a hierarchical binary stream 1130.
  • the microprocessor ⁇ P of the processing unit 1110 implements the method described above, according to the instructions of the program Pg 1120.
  • the processing unit 1110 outputs 1160 a decoded audio signal 1140.

Abstract

Procédé et dispositif de codage hiérarchique d'un signal audio source, procédé et dispositif de décodage, programmes et signal correspondants. L'invention concerne un procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives. Selon l'invention, au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure à la durée d'au moins une trame dudit niveau de base (207), et on insère dans ledit flux au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).

Description

Procédé et dispositif de codage hiérarchique d'un signal audio source, procédé et dispositif de décodage, programmes et signal correspondants.
1. Domaine de l'invention
Le domaine de l'invention est celui de la compression et de la transmission des signaux audionumériques et plus précisément du codage et du décodage de signaux audionumériques.
L'invention s'applique plus précisément au codage et au décodage de signaux audionumériques de façon échelonnables (ou « scalables »), pouvant être mis sous une forme de train binaire présentant une structure hiérarchique en couches, ou en niveaux.
L'invention propose notamment la mise en forme d'un train binaire, formé de trames, ou unités d'accès, appartenant aux différentes couches, dans le cadre d'un système de codage/décodage de signaux audionumériques.
2. Solutions de l'art antérieur Les systèmes de codage/décodage hiérarchiques permettent de hiérarchiser l'information à transmettre ou à décoder d'un signal numérique sous la forme d'un train binaire. Ainsi, en fonction de la bande passante instantanée du canal de transmission ou de la capacité de traitement du terminal de lecture du train binaire, tout le train ou seulement une partie du train est transmise ou décodée tout en assurant que, dans tous les cas, l'information essentielle est transmise et décodée.
Ces systèmes hiérarchiques permettent également d'assurer une protection canal différenciée des données conduisant à une transmission plus robuste.
Les techniques actuelles de codage audio hiérarchique fonctionnent en mode trame à trame et les trains binaires générés comportent des unités d'accès décrivant des portions de signal tel qu'indiqué dans le document de référence concernant la norme « MPEG-4 audio » référencé ISO IEC SC29 WGIl International standard 14496-3 :2001.
La figure 1 présente un schéma d'un train binaire 10 mis en forme à partir de trames appartenant à trois niveaux 111, 112, 113 d'un codage hiérarchique classique. Les trames sont donc organisées en une couche de base 111 et deux ou plusieurs couches de rehaussement ou d'enrichissement 112 et 113 comprenant des trames 101 à 109 de même durée.
Pour la construction d'un tel train binaire 10, une seule stratégie est classiquement envisagée. Tel qu'illustrée par la figure 1, les trames du train binaire codé 10 sont lues selon l'axe temporel t, puis selon du niveau le plus bas vers le niveau de rehaussement le plus haut (selon l'axe Q), c'est-à-dire de la trame 101 à la trame 109.
Les ordres de priorité des trames sont implicites. Les unités sont assorties d'une estampille temporelle "cts" (pour
« Composition Time Stamp »). Les deux estampilles correspondent aux temps d'horloge pour lesquels les paquets doivent être restitués après décodage par le terminal lecteur.
Chaque unité de même cts peut être tronquée (typiquement par un dispositif d'émission ou de routage), la qualité reconstituée au décodeur sera alors proportionnelle au nombre de couches reçues.
Cette technique de codage / décodage hiérarchique classique ne considère que la transmission d'entités dont la priorité d'émission impose une hiérarchie unique : soit les unités sont de durées égales, soit le niveau de hiérarchie de base dure moins longtemps que les autres niveaux (exemple enrichissement d'une couche CELP par une couche AAC scalable tel qu'indiqué dans le document de référence concernant la norme « MPEG-4 audio » précité). 3. Objectifs de l'invention
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de codage d'un signal audio différente, et plus efficace, que les techniques connues.
Un autre objectif de l'invention, dans au moins un de ses modes de réalisation, est de fournir une telle technique, qui permette de définir plusieurs stratégies de mise en forme du train binaire. 4. Exposé de l'invention
Au moins certains de ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
Selon l'invention, un tel procédé est tel qu'au moins une trame d'au moins un niveau de rehaussement est d'une durée inférieure à la durée d'au moins une trame dudit niveau de base, et le procédé comprend une étape d'insertion dans ledit flux d'au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
Le principe général de l'invention consiste à coder de manière hiérarchique les composantes sinusoïdales d'un signal audio sous la forme de trames de base dont au moins certaines présentent une durée supérieure à au moins certaines trames de rehaussement codant les composantes complémentaires du signal.
Ainsi, la technique de codage selon l'invention permet d'obtenir un taux de compression important et particulièrement pour le niveau de base, ce qui permet de transmettre le signal codé avec un débit réduit par rapport aux techniques classiques de codage.
L'information représentative d'un ordre utilisé est destinée au décodeur pour lui permettre d'adopter la technique de démultiplexage du flux binaire adaptée au multiplexage adopté. Par ailleurs, cette technique de codage conduit à des grains plus petits du train binaire codé résultant du codage du signal audio.
Avantageusement, la durée d'une trame de niveau de base est un multiple de la durée d'une trame d'au moins un desdits niveaux de rehaussement.
Ainsi, les trames du niveau de base peuvent toutes avoir la même durée ou des durées différentes. De même les trames d'un même niveau de rehaussement peuvent toutes avoir la même durée ou des durées différentes. Ensuite les trames de différents niveaux de rehaussement peuvent toutes avoir la même durée ou des durée différentes.
Préférentiellement, ledit procédé de codage comprend : - une étape de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base ; une étape de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement.
Par exemple, le signal résiduel peut être obtenu à partir de la différence entre le signal audio source et un signal reconstruit à l'aide des composantes sinusoïdales.
Selon une caractéristique avantageuse de l'invention, ladite étape de codage d'un signal résiduel met en œuvre un banc de filtres d'analyse.
Ainsi, le banc de filtres d'analyse fournit une version quantifiée de chacune des trames des niveaux de rehaussement.
Avantageusement le procédé de codage comprend, pour le codage d'au moins un desdits niveaux de rehaussement, au moins une des étapes suivantes : - codage d'une enveloppe haute fréquence du spectre dudit signal audio source ; codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre dudit signal audio source ; codage de données de reconstruction d'au moins une voie complémentaire dudit signal audio source à partir d'un signal mono ; transmission de paramètres associés à une étape de duplication du spectre dudit signal audio source.
L'enveloppe haute fréquence du spectre du signal audio source ainsi que les niveaux d'énergie de bruit sur au moins une partie du spectre de ce signal sont des informations d'extension de bande qui permettent d'enrichir le spectre du signal décodé notamment lorsque les hautes fréquences sont manquantes.
Selon un premier mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction du flux, ordonnançant les trames selon un ordre dit horizontal, selon lequel on prend en compte une trame dudit niveau de base puis, pour chacun desdits niveaux de rehaussement successivement, l'ensemble des trames dudit niveau de rehaussement couvrant la durée de ladite trame du niveau de base.
Selon un deuxième mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre dit vertical, selon lequel on prend en compte une trame dudit niveau de base puis la première trame de chacun desdits niveaux de rehaussement, puis les trames suivantes, en partant d'un niveau inférieur vers un niveau supérieur en respectant un ordre chronologique, pour l'ensemble des trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base.
Ainsi, ce second mode de réalisation de l'ordonnancement des trames permet de transmettre des unités d'accès de petite durée et offre ainsi la possibilité de vider la mémoire plus rapidement.
Selon un troisième mode de réalisation avantageux, le procédé selon l'invention comprend une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre dit combiné, selon lequel on prend en compte une trame dudit niveau de base puis, pour les trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base, un ordre de sélection prédéterminé. Par exemple, ce troisième mode de réalisation de l'ordonnancement des trames peut consister à prendre en compte le niveau de base puis plusieurs trames d'un niveau de rehaussement couvrant la durée temporelle de la trame de rehaussement de niveau inférieure (dans ce cas optionnellement les trames de rehaussement sont codées dans le flux en codant toutes les trames de rehaussement associées à premier instant avant de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de la trame de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau de rehaussement et toutes les trames de tous les niveaux de rehaussement associées à cette deuxième trame de rehaussement et ainsi de suite jusqu'à la prise en compte de tous les niveaux de rehaussement couvrant la durée du niveau de base.
Avantageusement, l'étape de construction d'un flux met en œuvre au moins deux types d'ordonnancement, selon au moins deux des ordres appartenant au groupe comprenant les ordres horizontal, vertical et combiné, en fonction d'au moins un critère de sélection prédéterminé. Selon une caractéristique préférentielle de l'invention, ledit critère de sélection prédéterminé est obtenu selon au moins une des techniques appartenant au groupe comprenant : une analyse dudit signal audio source ; une analyse des capacités de traitement et/ou de stockage d'un récepteur ; une analyse d'un débit de transmission disponible ; une instruction de sélection émise par un terminal ; une analyse des capacités d'un réseau de transmission dudit flux. L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour la mise en œuvre du procédé de codage tel décrit précédemment.
L'invention concerne également un dispositif de codage hiérarchique d'un signal audio source sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
Selon l'invention, le dispositif de codage comprend des moyens de codage desdites trames, délivrant au moins une trame d'au moins un niveau de rehaussement qui est d'une durée inférieure à la durée d'une trame dudit niveau de base, et selon lesquels est insérée dans ledit flux au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
Un tel dispositif peut notamment mettre en œuvre le procédé de codage tel que décrit précédemment.
Ainsi, selon une caractéristique avantageuse de l'invention, le dispositif de codage comprend notamment : des moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base ; et - des moyens de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement. L'invention concerne également un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
Selon l'invention, au moins une trame d'au moins un niveau de rehaussement est d'une durée inférieure à la durée d'une trame dudit niveau de base, et ledit flux porte au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
Un tel signal de données peut notamment représenter un flux de données codé selon le procédé de codage décrit ci-dessus. Ce signal pourra bien sûr comporter les différentes caractéristiques relatives au procédé de codage selon l'invention précédemment décrit. Ainsi, un tel signal de données peut être obtenu au moyen notamment : de moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base ; et de moyens de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement. L'invention concerne également un procédé de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base.
Selon l'invention, le procédé de décodage comprend une étape de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base, au moins deux trames d'au moins un desdits niveaux de rehaussement s' étendant chacune sur une portion de la durée de ladite trame du niveau de base. Le procédé comprend également une étape de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites trames selon ledit ordre.
Ainsi, le terminal adapte son démultiplexage au multiplexage mis en œuvre au codage. Un tel procédé de décodage est notamment adapté pour décoder un flux de données codé selon le procédé de codage décrit précédemment.
Ainsi, un tel procédé de décodage peut comprendre les étapes suivantes : réception d'un signal codé tel que décrit ci-dessus, et extraction d'une part d'un niveau de base formée de composantes sinusoïdales et d'autre part d'un signal résiduel, formé de composantes complémentaires formant au moins un niveau de rehaussement ; reconstruction d'un signal basique, à partir desdites composantes sinusoïdales formant ledit niveau de base ; reconstruction d'un signal amélioré, à partir dudit signal basique et desdites composantes complémentaires formant au moins un niveau de rehaussement.
Plus généralement, le procédé de décodage met en œuvre des étapes de reconstruction d'un signal correspondant au signal audio source, inverse des étapes mises en œuvre lors du codage. L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour la mise en du procédé de décodage décrit précédemment. L'invention concerne également un dispositif de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base. Selon l'invention, le dispositif de décodage comprend des moyens de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base, au moins deux trames d'au moins un desdits niveaux de rehaussement s' étendant chacune sur une portion de la durée de ladite trame du niveau de base. Le dispositif comprend également des moyens de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et des moyens de traitement desdites trames selon ledit ordre. Un tel dispositif de décodage peut notamment mettre en œuvre le procédé de décodage tel que décrit précédemment. Il est par conséquent adapté à recevoir un flux de données codé par le dispositif de codage décrit précédemment.
5. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de mise en œuvre préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un schéma d'un train binaire mis en forme par un codage hiérarchique classique ; la figure 2 présente un schéma de l'unité de traitement d'un dispositif de codage selon un mode de mise en œuvre préférentiel de l'invention ; la figure 3 présente un schéma d'un module d'analyse en sous-bandes selon le mode de mise en œuvre préférentiel de l'invention ; - la figure 4 présente un schéma simplifié de l'unité de traitement d'un dispositif de décodage selon le mode de mise en œuvre préférentiel de l'invention ; la figure 5 est un schéma complet de l'unité de traitement du dispositif de décodage de la figure 4 ; - les figures 6A à 6D illustrent des premier (figure 6B), second (figure 6C) et troisième (figure 6D) exemples, conformes à l'invention, de lecture d'un train binaire hiérarchique présenté à la figure 6A ; les figures 7A et 7B sont des schémas de la structure générale simplifiée du dispositif de codage (figure 7A) et de décodage (figure 7B) selon l'invention.
6. Description d'un mode de réalisation de l'invention
On décrit dans la suite des procédés de codage et décodage hiérarchique de signaux audio numériques mis en œuvre par des dispositifs de codage et décodage hiérarchique selon un mode de mise en œuvre préférentiel de l'invention. Ces procédés associent des techniques d'analyse/synthèse sinusoïdale, des techniques de codage en sous-bandes, ainsi que des techniques d'enrichissement de spectre et stéréophoniques.
6.1 codage
Dans la suite, on décrit dans un premier temps le procédé de codage hiérarchique (mis en œuvre par le dispositif de codage hiérarchique) selon l'invention, permettant le codage d'un signal audio numérique initial sous la forme d'un train binaire hiérarchique codé (ou signal audio numérique codé) sous la forme de différentes couches (ou niveaux).
Le procédé de codage décrit ci-après comprend un processus d'analyse qui permet l'estimation et le codage des composantes sinusoïdales d'un signal, le codage d'un signal résiduel en sous-bandes (ou couches ou niveaux), le codage d'informations liées aux techniques d'extension de bande et le codage des informations de conversion d'un signal monophonique en un signal à plusieurs voies par exemple du « Parametric Stereo » tel que défini dans le document de référence concernant la norme « MPEG-4 audio » précité.
Selon un mode de réalisation de l'invention, le niveau de base est issu d'un codeur sinusoïdal, les niveaux de rehaussement sont issus d'un codeur à extension de bande (ex: SBR), d'un codeur sinusoïdal, d'un enrichissement stéréo paramétrique, d'un codage par transformée du résidu après soustraction des sinusoïdes du signal.
On présente, en relation avec la figure 2, un schéma de l'unité de traitement 20 d'un dispositif de codage (tel qu'illustré ci-après en relation avec la figure 7A) selon un mode de mise en œuvre préférentiel de l'invention.
Le signal audio multi-canal (constitué de m voies) initial est injecté dans un module d'obtention du signal mono 205 qui délivre d'une part un signal audio mono (pour monophonique) x(t) 2051 (ou plus généralement n voies audio) et d'autre part des données de reconstruction 2052 permettant de reconstruire une ou plusieurs (m supérieur à n) voies, représentatifs du signal audio initial.
Les données de reconstruction 2052 sont ensuite transmises au module de mise en forme 206 décrit ci-après. Le signal audio mono x(t) 2051 est quant à lui injecté dans un module d'analyse sinusoïdale 201 dont le but est d'extraire des composantes sinusoïdales du signal mono. On rappelle que la modélisation sinusoïdale se base sur le principe de décomposition d'un signal sous une somme de sinusoïdes de fréquence, d'amplitude, et de phase variable dans le temps.
Ainsi, le signal audio x(t) peut s'écrire sous la forme suivante :
M
*(0 = ∑(4(0∞s(4(0))+ r(0 (1)
1=1 où : r(t) représente le signal résiduel - M correspond au nombre de partiels retenus par l'analyse
A1(O et φj(t) représentent respectivement l'amplitude et la phase du partiel (ou composante sinusoïdale du signal audio x(t)) d'indice i.
La phase φ;(t) du partiel d'indice i dépend de la fréquence ix du partiel et de sa phase initiale φoi(t) selon l'expression suivante :
Figure imgf000014_0001
Un partiel de plusieurs secondes peut être avantageusement modélisé par un petit jeu de paramètres et pour des signaux particuliers, cette modélisation sinusoïdale dite "long terme" devient plus efficace (en terme de débit) que la modélisation en sous bandes (ou couches ou niveaux) dite "court terme" qui découpe le signal en trame de longueur fixe de quelques dizaines de millisecondes.
Les partiels du signal audio x(t) sont transmises par le module d'analyse sinusoïdale 201 à un module de mise en forme 206 décrit ci-après.
Un module de synthèse sinusoïdale 203 permet, à l'aide d'un dispositif de soustraction 204, de retrancher au signal audio x(t) les composantes sinusoïdales du signal audio x(t) afin d'obtenir le signal résiduel r(t).
Le signal résiduel r(t) est ensuite injecté dans un module d'analyse en sous- bandes 202 décrit ci-après en relation avec la figure 3. On présente, en relation avec la figure 3, un schéma du module d'analyse en sous-bandes 202 selon le mode de mise en œuvre préférentiel de l'invention. Ce module 202 comprend un banc de filtres d'analyses (ABF) 2021.
Dans le cadre de ce mode de mise en œuvre préférentiel de l'invention, le banc de filtres d'analyse 2021 fournit une composante quantifiée de chacune des sous-bandes (sous bande 0 référencée 20221, sous bande 1 référencée 20222, sous bande 2 référencée 20223, ... sous bande N-I référencée 20224 où N est un entier) du signal résiduel r(t) qui sont ensuite injectées dans un module d'analyse et codage 2023. Le module d'analyse et codage 2023 délivre au module de mise en forme
206 décrit ci-après, outre les composantes quantifiées de chacune des sous-bandes du signal résiduel r(t), des informations d'extension de bande (enveloppe haute fréquence 2024 et niveaux de bruit 2025), ainsi que des informations de reconstruction des différentes voies du signal audio initial (qui est par exemple un signal audio stéréo ou en 5.1) à partir du signal monophonique (paramètres stéréo 2026).
Le module de mise en forme 206 construit ensuite un train binaire hiérarchique (ou codé) 200 composé des trames des différentes couches (ou niveaux) suivantes : - une couche de base 207 (autrement appelée niveau de base) dite "long terme" décrivant les composantes sinusoïdales (ou partiels) du signal audio x(t) à transmettre. Cette couche 207 modélise typiquement des unités longues du signal x(t) correspondant aux partiels. Chaque partiel est décrit par un temps de départ, sa durée, et les paramètres d'amplitude, de fréquence et de phase variables dans le temps. Selon ce mode de mise en œuvre préférentiel de l'invention, la taille de ces couches "long terme" décrivant les composantes sinusoïdales du signal est inférieure à 3kbit/s. Optionnellement, une information d'enveloppe hautes-fréquences est également transmise dans cette couche de base afin d'ajuster les amplitudes des sinus reconstruit lors de la mise en œuvre du procédé de décodage selon l'invention (décrit ci-après) par le module d'extension sinusoïdale décrit ci-après. différentes couches de rehaussement 208 (autrement appelées niveaux de rehaussement) dites "court terme" modélisant le signal résiduel en sous- bandes à différents degrés de précision (par exemple, on a représenté, sur cette figure 2, le train binaire hiérarchique 200 avec deux niveaux de rehaussement 208, cependant tout autre nombre de niveaux de rehaussement peut être envisagé dans le cadre de la présente invention). Selon ce mode de mise en œuvre préférentiel de l'invention, la taille de chacune des couches de rehaussement 208 est comprise entre 4 et 16 kbit/s ; une couche d'extension de bande 209 dite "court terme" modélisant l'enveloppe hautes-fréquences du spectre de signal audio x(t) à coder, ainsi que les niveaux d'énergie de bruit en sous-bandes sur tout, ou une partie du spectre du signal x(t). Les enveloppes hautes fréquence pour les sinusoïdes peuvent être transmises dans ce champ. Selon ce mode de mise en œuvre particulier de l'invention, la taille de cette couche 209 est de l'ordre de quelques kbit/s ; une couche 210 dite "court terme" permettant de reconstruire les différents voies du signal audio (stéréo voire 5.1) à partir du signal mono (paramètres basés par exemple sur des différences temporelles et de niveau inter orales). Selon ce mode de mise en œuvre particulier de l'invention, la taille de cette couche est de l'ordre de quelques kbit/s. Le train binaire hiérarchique 200 peut également comprendre une information annexe indiquant au dispositif de décodage selon l'invention qui met en œuvre le procédé de décodage selon l'invention (décrit ci-après) le mode de lecture du train binaire hiérarchique 200.
Avantageusement, chacune des couches (ou niveaux) du train binaire hiérarchique 200 peut être également décomposée en différents niveaux d'enrichissement ou de rehaussement sous formes de trames d'amélioration (ou de rehaussement) : les sinusoïdes peuvent être organisées par bandes de fréquences, chaque bande de fréquence étant transmise dans différentes unités (ou trames) ; - le signal résiduel peut être découpé en différentes bandes et enrichissement de précision chacune de ces entités pouvant être associées à autant de différentes trames d'enrichissement complémentaires ; les informations hautes fréquences pour l'enrichissement spectral peuvent elles-mêmes être organisées en différentes bandes d'enrichissement, par exemple 3,4 kHz-7 kHz puis 7 kHz -15 kHz afin d'obtenir progressivement une bande hi-fi. les informations stéréo peuvent également être organisées en plusieurs couches : au départ une couche paramétrique est transmise puis progressivement c'est le signal différence des voies gauches et droites qui est transmis afin de recréer la stéréo de façon fidèle.
Avantageusement, tel que cela est illustré par la figure 2, dans le cadre de ce mode de mise en œuvre préférentiel de l'invention, les trames de la couche de base 207 (ou niveau de base) correspondant aux informations sinusoïdales décrivent des portions du signal plus longues que les trames des couches (ou niveaux) de rehaussement 208, les trames des couches de rehaussement étant de même longueur. Bien entendu, dans des variantes de ce mode de mise en œuvre, les trames des niveaux de rehaussement peuvent présenter des longueurs différentes en fonction de leur position dans un même niveau de rehaussement ou en fonction des niveaux de rehaussement auxquels elles appartiennent. La transmission ou le stockage de ces informations sont réalisés suivant les options suivantes (illustrées au moyen des figures 6A à 6D décrites plus en détail ci- après) :
Une première option de lecture en mode dit "vertical" (illustré ci-après par les figures 6A et 6C) qui consiste à transmettre le niveau de base puis, successivement les premières trames de tous les niveaux de rehaussement, puis les autres trames des niveaux de rehaussement supérieur en partant des niveaux inférieurs vers les niveaux supérieurs et en respectant l'ordre chronologique ;
Une seconde option de lecture en mode dit "horizontal" (illustré ci-après par les figures 6A et 6B) qui consiste à transmettre le niveau de base suivi de toutes les trames du premier niveau de rehaussement couvrant la durée du niveau de base, suivi de toutes les trames du deuxième niveau de rehaussement couvrant la durée du niveau de base et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base ;
Une troisième option de lecture en mode dit "combiné" (illustré ci-après par les figures 6A et 6D) qui consiste à transmettre le niveau de base puis plusieurs trames d'un niveau de rehaussement couvrant la durée temporelle de la trame de rehaussement de niveau inférieure (dans ce cas optionnellement les trames de rehaussement sont codées dans le flux en codant toutes les trames de rehaussement associées à premier instant avant de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de la trame de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau de rehaussement et toutes les trames de tous les niveaux de rehaussement associées à cette deuxième trame de rehaussement et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base.
L'ordre de transmission des trames de rehaussement est indiqué par le codeur dans le flux suivant la forme d'une information d'initialisation pour le décodeur.
6.2 décodage
On décrit dans un second temps, le procédé de décodage hiérarchique (mis en œuvre par le dispositif de décodage hiérarchique) qui, à partir du train binaire codé (ou hiérarchique) 200 reçu, permet de reconstruire un signal audio numérique synthétisé approchant au mieux le signal audio numérique initial précédemment codé.
Le train binaire hiérarchique 200 obtenu au moyen du procédé de codage hiérarchique précédemment décrit (mis en œuvre par l'unité de traitement 20 du dispositif de codagedécrit en relation avec la figure 2) est transmis via un canal de transmission puis reçu par le dispositif de décodage mettant en œuvre le procédé de décodage hiérarchique selon l'invention ci-après décrit.
On présente, en relation avec la figure 4, un schéma simplifié de l'unité de traitement 50 d'un dispositif de décodage (tel qu'illustré ci-après en relation avec la figure 7B) selon un mode de mise en œuvre préférentiel de l'invention.
A la réception du train binaire hiérarchique 200, l'unité de traitement 50 se charge alors de démultiplexer les différentes couches du train binaire hiérarchique et de décoder les informations utiles pour le module de synthèse sinusoïdale 51, pour le module de décodage du signal résiduel en sous-bandes 52 et pour les modules d'extension de bande 53 et pour la stéréo.
Les informations extraites de la couche de base (éléments sinusoïdaux) sont injectées dans le module de synthèse sinusoïdale 51, qui à partir des informations reçues (fréquences, phases et amplitudes de chacun des partiels ou d'un ensemble de partiels), synthétise le signal correspondant à la somme des partiels transmis.
Les informations extraites des couches (ou niveaux) de rehaussement 208 modélisant le signal résiduel (également appelées éléments résiduels) sont injectées dans le module de décodage du signal résiduel en sous-bandes 52.
Les signaux en sortie des modules de synthèse sinusoïdale 51 et de décodage du signal résiduel en sous-bandes 52 sont sommés par un dispositif d'addition 54, puis la somme est appliquée en entrée du module d'extension de bande 53.
Les informations de la couche d'extension de bande 209 modélisant l'enveloppe hautes-fréquences et les niveaux d'énergie de bruit en sous-bandes (appelés éléments extension de Bande) sont injectées dans le module d'extension de bande 53 (autrement appelé module d'enrichissement de spectre) qui permet, à partir des signaux reconstruits par les deux modules précédents, de synthétiser le signal de sortie.
Pour des raisons de lisibilité des schémas, le module de conversion du signal mono en signal stéréo (ou 5.1) n'est pas représenté sur cette figure 4.
On présente, en relation avec la figure 5, un schéma complet de l'unité de traitement 50 du dispositif de décodage selon le mode de mise en œuvre préférentiel de l'invention.
On décrit ci-après, en relation avec l'unité de traitement 50 du dispositif de décodage de cette figure 5, les étapes du procédé de décodage et de mise en forme du train binaire selon le mode de mise en œuvre préférentiel de l'invention.
A la réception du train binaire hiérarchique 200 (par exemple avec trois niveaux de rehaussement 208) un module de démultiplexage 55 se charge de démultiplexer les différentes couches (ou niveaux) du train binaire hiérarchique 200.
Les informations contenues dans le niveau de base 207 permettent au module de synthèse sinusoïdale 51 de synthétiser les différents partiels contenus dans le signal audio initial x(t) précédemment codé.
Dans un mode de réalisation préférentiel de ce mode de mise en œuvre préférentiel, les partiels ainsi synthétisés sont ensuite injectés dans un module d'extension sinusoïdale 510 dont le but est de synthétiser, à partir des partiels transmis, des partiels aux multiples de la fréquence de chacun de ces partiels transmis. Cette opération correspond en fait à une interpolation d'une série harmonique tronquée, conformément aux équations (3) et (4) suivantes. A partir d'un partiel transmis vérifiant l'équation suivante : t
Po(t) = cos(φ0 + 2πj fι(τ)dτ) (3)
0
On synthétise la série harmonique vérifiant l'équation suivante : P(t) = ∑∞s(φn + 2π] nfXτ)dτ) (4)
"=1 0 où φn est soit égal à φ0 soit égal à un nombre aléatoire. Les phases et les fréquences des partiels synthétisés étant ainsi directement calculés par le module de synthèse sinusoïdal 51, il reste à ajuster leurs amplitudes. L'information d'enveloppe transmise dans le train binaire hiérarchique 200 dans le niveau d'extension de bande 209 (modélisant l'enveloppe hautes- fréquences et les niveaux d'énergie de bruit en sous-bandes) permet d'ajuster l'amplitude des sinus des partiels ainsi synthétisés.
Ainsi, dans le cadre du présent mode de mise en œuvre préférentiel de l'invention, cette information d'enveloppe hautes-fréquences est transmise dans la couche d'extension de bande 209 (qui est une couche « court terme »). Cependant dans une variante non illustrée de ce mode de mise en œuvre préférentiel, on transmet cette information d'enveloppe dans la couche de base 207 "long terme" décrivant la partie sinusoïdale du signal.
Dans le cadre du mode de réalisation préférentiel, le signal en sortie du module d'extension sinusoïdal 510 est ensuite injecté dans un module d'analyse en sous-bandes 511.
Les informations contenues dans les différentes couches de rehaussement 208 décrivant le signal résiduel r(t) en sous-bandes sont injectée dans le module de décodage résiduel 52.
On suppose, dans le cadre du présent mode de mise en œuvre préférentiel, que la capacité du canal de transmission est suffisante pour transmettre toutes les couches de rehaussement 208 décrivant le signal résiduel r(t) (cas favorable).
Dans des variantes de ce mode de mise en œuvre préférentiel, par exemple lorsque la bande passante est limitée, les couches de rehaussement 208 ne peuvent pas être toutes reçues par l'unité de traitement 50 (cas moyennement favorable), et parfois même aucune des couches de rehaussement n'est reçue (cas défavorable).
Les sous-bandes issues des modules de décodage résiduel 52 et d'analyse en sous-bandes 511 sont ensuite sommées avant d'être injectée dans le module d'extension de bande 53.
Dans le cas moyennement favorable précité, les informations récupérées dans le train binaire hiérarchique 200 ne permettent pas de synthétiser le signal audio x(t) en pleine bande, ainsi, les sous bandes hautes-fréquences sont alors manquantes. Le rôle du module d'extension de bande 53 est ici de synthétiser les sous-bandes hautes fréquences à partir des sous-bandes basses fréquences, conformément à la technique décrite dans le document de Martin Dietz, Lars Liljeryd, Kristofer Kjôrling et Oliver Kunz qui s'intitule " Spectral Band Replication - A Novel Approach in Audio Coding ", 112nd AES convention, Munich 2002.
En sortie du module d'extension de bande 53, du bruit est ajouté à chacune des sous-bandes grâce au module génération de bruit 56. Les niveaux d'énergie de bruit à injecter dans chacune des sous-bandes sont reçus dans le train binaire hiérarchique 200 dans la couche d'extension de bande 209.
Les énergies des sous-bandes résultantes sont ensuite ajustées par un module d'ajustement d'enveloppe 57. Les niveaux d'énergies de chacune des sous- bandes sont également reçus dans le train binaire hiérarchique 200 dans la couche d'extension de bande 209.
Les sous-bandes résultantes sont ensuite injectées dans un banc de filtres de synthèse appelé module de synthèse en sous-bandes 58.
Le signal en sortie de ce module de synthèse en sous-bandes 58 est ensuite sommé à la partie sinusoïdale issue du module de synthèse sinusoïdale 51 et, optionnellement du module d'extension sinusoïdal 510 (les moyens mettant en œuvre cette dernière étape ne sont pas représentés sur la figure 5).
On obtient ainsi un signal audio numérique synthétisé approchant au mieux le signal audio initial x(t).
Selon les informations reçues par le dispositif de décodage via le train binaire hiérarchique 200, le signal audio numérique synthétisé peut ainsi correspondre notamment à : soit à la somme des sinus transmis et éventuellement des sinus interpolés et ajustés par le module d'extension sinusoïdale 510, et du bruit si aucune des couches de rehaussement 208 (décrivant le signal résiduel en sous- bandes) ne sont reçues par le dispositif de décodage ; soit à la somme des sinus, des sous-bandes basses fréquences transmises et des signaux dupliqués en hautes fréquences par le module d'extension de bande 53 ; soit à la somme des sinus transmis, des sinus interpolés et ajustés par le module d'extension sinusoïdale 510, des sous-bandes basses fréquences transmises, des sous-bandes basses fréquences dupliquées en hautes fréquences par le module d'extension de bande 53, et à du bruit mis en forme sur toute la bande, et à la reconstruction des m voies (par exemple 2 pour un système stéréo) à partir des n voies transmises (par exemple 1 voie mono).
On décrit ci-après, deux exemples de démultiplexage ou lecture selon l'invention d'un train binaire hiérarchique.
On présente, en relation avec les figures 6 A et 6B, un premier exemple, conforme à l'invention, de lecture (figure 6B) du train binaire hiérarchique 200 issu de la structure de la figure 6A. Ce premier exemple de lecture, dit
"horizontal", est plus coûteux en ressource mémoire, mais optimal du point de vue de la qualité si tous les niveaux ne sont pas reçus.
Le train binaire hiérarchique 200 comprend un niveau de base 207, et des premier, deuxième et troisième niveaux de rehaussement 208 à 210. Une trame 00 ou 40 du niveau de base 207 est suivie de :
4 trames 01, 11, 21, 31 ou 41, 51, 61, 71 du premier niveau de rehaussement 208 ; puis de
4 trames 02, 12, 22, 32 ou 42, 52, 62, 72 du deuxième niveau de rehaussement 209 ; puis de - 4 trames 03, 13, 23, 33 ou 43, 53, 63, 73 du troisième niveau de rehaussement 210.
Ce premier exemple de lecture (figure 6B) consiste donc à lire le niveau de base suivi de toutes les trames du premier niveau de rehaussement couvrant la durée du niveau de base, suivi de toutes les trames du deuxième niveau de rehaussement couvrant la durée du niveau de base et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement couvrant la durée du niveau de base.
Ainsi, une trame correspondant à un niveau de rehaussement n est lue après que le niveau de rehaussement n-1 soit complètement lu pour la durée du niveau de base.
On obtient ainsi le train binaire hiérarchique démultiplexé 640.
Des champs cts (pour « composition time stamp »), qui délimitent des couches de niveau système et permettent d'indiquer au dispositif de décodage l'instant de composition des unités transmises, sont intégrés au train binaire 640. On présente, en relation avec les figures 6A et 6C, un second exemple conforme à l'invention de lecture (figure 6C) du train binaire hiérarchique 200 de la figure 6A. Ce second exemple, dit "vertical" offre la possibilité de transmettre des unités d'accès de petite durée et offre ainsi la possibilité de réaliser un décodage à faible retard. Ce second exemple de lecture (figure 6C) consiste à lire la première trame du niveau de base puis les premières trames des premier, deuxième, troisième niveaux de rehaussement, puis les deuxièmes trames des premier, deuxième, troisième niveaux de réhaussement et ainsi de suite de manière à couvrir la durée du niveau de base. Ensuite, la lecture de la seconde trame du niveau de base est mise en œuvre et ainsi de suite.
On obtient ainsi le second train binaire hiérarchique démultiplexé 650.
Bien entendu, d'autres modes de lecture selon l'invention de trains binaires hiérarchisés peuvent être obtenus par combinaison des exemples de lecture dit « vertical » et « horizontal ». L'ordre d'organisation des différentes couches du train binaire hiérarchique doit être connu du décodeur. Pour ce faire, l'information (par exemple une information d'initialisation générée par le dispositif de codage) est transmise dans un champ syntaxique spécial qui est transmis dans le train binaire hiérarchique.
On présente, en annexe 1, un tableau illustrant une syntaxe de lecture de l'information concernant le mode de démultiplexage ou de lecture (par exemple les premier et second exemples de lecture précités) que doit adopter le dispositif de décodage.
Dans le cadre du présent mode de mise en œuvre préférentiel de l'invention, ce mode de lecture est indiqué dans un champ de 2 bits appelé « framingMode ». si le champ framingMode prend la valeur OxOO, alors le dispositif de décodage adopte le premier exemple de lecture, dit "horizontal" tel que précédemment décrit en relation avec la figure 6B (ce mode de lecture est implicite) ; - si le champ framingMode prend la valeur OxOl, alors le dispositif de décodage adopte le second exemple de lecture, dit "vertical" tel que précédemment décrit en relation avec la figure 6C (ce mode de lecture est implicite) ; si le champ framingMode prend la valeur 0x10, alors le décodeur analyse un champ additionnel (appelé « advancedFraminglnformation ») qui précise le mode de lecture. Ce champ additionnel qui permet des tramages spécifiques est présenté ci-dessous. si la champ framingMode prend la valeur OxIl, alors on est dans le cadre d'un mode réservé. On présente, en annexe 2, un tableau illustrant une syntaxe de lecture du tramage dans le cas d'une mise en trames non implicite.
Le nombre de niveaux de rehaussement est lu au préalable. Ensuite pour chacun des niveaux (sauf le dernier) est indiqué l'ordre de lecture du niveau suivant : par couche de rehaussement (layerOrganization[layer]=0) ou par instant temporel jusqu'à ce que soit complètement parcourue la durée du niveau de rehaussement précédent (layerOrganization[layer]=l).
La durée de chaque niveau de rehaussement est connue du décodeur à l'aide des informations de configuration spécifiques aux différents champs (sinusConfig(), transformConfigO, BandwidthExtensionConfigO, StereoExtensionQ). Le procédé de codage de l'invention peut être mis en œuvre dans de nombreux dispositifs, tels que des serveurs de flux, des nœuds intermédiaires d'un réseau, des émetteurs, des dispositifs de stockage de données,...
La structure générale simplifiée d'un tel dispositif de codage est illustrée schématiquement par la figure 7 A. Il comprend une mémoire M 1000, une unité de traitement 1010 (telle que l'unité de traitement 20 décrit en relation avec la figure 2), équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1020.
A l'initialisation, les instructions de code du programme d'ordinateur 1020 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 1010. L'unité de traitement 1010 reçoit en entrée 1050 un signal audio 1030. Le microprocesseur μP de l'unité de traitement
1010 met en œuvre le procédé décrit ci-dessus, selon les instructions du programme Pg 1020. L'unité de traitement 1010 délivre en sortie 1060 un flux binaire hiérarchique 1040 (correspondant au signal audio codé).
Le procédé de décodage de l'invention peut être mis en œuvre dans de nombreux dispositifs, tels que des serveurs de flux, des nœuds intermédiaires d'un réseau, des émetteurs, des dispositifs de stockage de données,...
La structure générale simplifiée d'un tel dispositif de décodage est illustrée schématiquement par la figure 7B. Il comprend une mémoire M 1100, une unité de traitement 1110 (telle que l'unité de traitement 50 décrit en relation avec la figure 5), équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1120.
A l'initialisation, les instructions de code du programme d'ordinateur 1120 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 1110. L'unité de traitement 1110 reçoit en entrée 1150 un train binaire hiérarchique 1130. Le microprocesseur μP de l'unité de traitement 1110 met en œuvre le procédé décrit ci-dessus, selon les instructions du programme Pg 1120. L'unité de traitement 1110 délivre en sortie 1160 un signal audio décodé 1140. ANNEXE 1
Syntaxe No. of bits Mnemonic decoderSpecificConfiguration() t
FramingMode 2 uimsbf if ( framingMode == 0x10) advancedFraminglnformation();
sinusConfig() // éléments pour initialisation transformConfigO // éléments pour initialisation
BandwidthExtensionConfigO // éléments pour initialisation
StereoExtension() // éléments pour initialisation I
ANNEXE 2
Syntaxe No. of bits Mnemonic advancedFraminglnformation() t nELayers 4 uimsbf for(layer =0; layer <nELayers-1 ;layer++) layerOrganization[layer] 1 uimsbf
I

Claims

REVENDICATIONS
1. Procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, caractérisé en ce qu'au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure à la durée d'au moins une trame dudit niveau de base (207), et en ce qu'il comprend une étape d'insertion dans ledit flux d'au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
2. Procédé de codage selon la revendication 1, caractérisé en ce que la durée d'une trame de niveau de base (207) est un multiple de la durée d'une trame d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211).
3. Procédé de codage selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ledit procédé de codage comprend : une étape de décomposition sinusoïdale dudit signal audio source, délivrant des composantes sinusoïdales formant ledit niveau de base (207) ; - une étape de codage d'un signal résiduel, délivrant des composantes complémentaires formant au moins un niveau de rehaussement (208, 209, 210, 211).
4. Procédé de codage selon la revendication 3, caractérisé en ce que ladite étape de codage d'un signal résiduel met en œuvre un banc de filtres d'analyse (2021).
5. Procédé de codage selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend, pour le codage d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211), au moins une des étapes suivantes : codage d'une enveloppe haute fréquence du spectre dudit signal audio source ; codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre dudit signal audio source ; codage de données de reconstruction d'au moins une voie complémentaire dudit signal audio source à partir d'un signal mono ; - transmission de paramètres associés à une étape de duplication du spectre dudit signal audio source.
6. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit horizontal, selon lequel on prend en compte une trame dudit niveau de base (207) puis, pour chacun desdits niveaux de rehaussement (208, 209, 210, 211) successivement, l'ensemble des trames dudit niveau de rehaussement couvrant la durée de ladite trame du niveau de base.
7. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit vertical, selon lequel on prend en compte une trame dudit niveau de base (207) puis la première trame de chacun desdits niveaux de rehaussement (208, 209, 210, 211), puis les trames suivantes, en partant d'un niveau inférieur vers un niveau supérieur en respectant un ordre chronologique, pour l'ensemble des trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau de base.
8. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames selon un ordre dit combiné, selon lequel on prend en compte une trame dudit niveau de base (207) puis, pour les trames de l'ensemble des niveaux de rehaussement (208, 209, 210, 211) couvrant la durée de ladite trame du niveau de base, un ordre de sélection prédéterminé.
9. Procédé de codage selon l'une quelconque des revendications 6 à 8, caractérisé en ce que ladite étape de construction d'un flux met en œuvre au moins deux types d'ordonnancement, selon au moins deux des ordres appartenant au groupe comprenant les ordres horizontal, vertical et combiné, en fonction d'au moins un critère de sélection prédéterminé.
10. Procédé de codage selon la revendication 9, caractérisé en ce que ledit critère de sélection prédéterminé est obtenu selon au moins une des techniques appartenant au groupe comprenant : - une analyse dudit signal audio source ; une analyse des capacités de traitement et/ou de stockage d'un récepteur ; une analyse d'un débit de transmission disponible ; une instruction de sélection émise par un terminal ; - une analyse des capacités d'un réseau de transmission dudit flux.
11. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre d'au moins une des revendications 1 à 10.
12. Dispositif de codage hiérarchique d'un signal audio source sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, caractérisé en ce qu'il comprend des moyens de codage (20) desdites trames, selon lesquels au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure à la durée d'une trame dudit niveau de base (207), et selon lesquels est insérée dans ledit flux au moins une information représentative d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
13. Signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, caractérisé en ce qu'au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure à la durée d'une trame dudit niveau de base (207), et en ce que ledit flux porte au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207).
14. Procédé de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux (200) de données comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement (208, 209, 210, 211) étant d'une durée inférieure à la durée d'une trame dudit niveau de base (207), ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207), caractérisé en ce qu'il comprend une étape de reconstruction dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base (207), au moins deux trames d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une portion de la durée de ladite trame du niveau de base (207), et en ce qu'il comprend également une étape de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites trames selon ledit ordre.
15. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre de la revendication 14.
16. Dispositif de décodage d'un signal de données représentatif d'un signal audio source et se présentant sous la forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base (207), caractérisé en ce qu'il comprend des moyens de reconstruction (50) dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base (207), au moins deux trames d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une portion de la durée de ladite trame du niveau de base, et en ce qu'il comprend également des moyens de lecture de l'information représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau de base, et des moyens de traitement desdites trames selon ledit ordre.
PCT/FR2007/050751 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants WO2007090988A2 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP07731577A EP1987513B1 (fr) 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants
US12/278,547 US8321230B2 (en) 2006-02-06 2007-02-05 Method and device for the hierarchical coding of a source audio signal and corresponding decoding method and device, programs and signals
AT07731577T ATE442645T1 (de) 2006-02-06 2007-02-05 Verfahren und vorrichtung zur hierarchischen kodierung eines quelltonsignals sowie entsprechendes decodierverfahren und gerät, programme und signal
DE602007002385T DE602007002385D1 (de) 2006-02-06 2007-02-05 Verfahren und vorrichtung zur hierarchischen kodiecodierverfahren und gerät, programme und signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0601067 2006-02-06
FR0601067 2006-02-06

Publications (2)

Publication Number Publication Date
WO2007090988A2 true WO2007090988A2 (fr) 2007-08-16
WO2007090988A3 WO2007090988A3 (fr) 2007-11-08

Family

ID=37228079

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/050751 WO2007090988A2 (fr) 2006-02-06 2007-02-05 Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants

Country Status (5)

Country Link
US (1) US8321230B2 (fr)
EP (1) EP1987513B1 (fr)
AT (1) ATE442645T1 (fr)
DE (1) DE602007002385D1 (fr)
WO (1) WO2007090988A2 (fr)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US8805694B2 (en) * 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
EP2500901B1 (fr) * 2009-11-12 2018-09-19 III Holdings 12, LLC Appareil d'encodage audio et procédé d'encodage audio
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
CN105264600B (zh) * 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
WO2015077641A1 (fr) * 2013-11-22 2015-05-28 Qualcomm Incorporated Compensation de phase sélective dans le codage en bande haute
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
IL302588A (en) 2015-10-08 2023-07-01 Dolby Int Ab Layered coding and data structure for compressed high-order sound or surround sound field representations
CN116052697A (zh) 2015-10-08 2023-05-02 杜比国际公司 用于压缩声音或声场表示的分层编解码
EA033756B1 (ru) 2015-10-08 2019-11-22 Dolby Int Ab Многоуровневое кодирование сжатых представлений звука или звукового поля
CN114708874A (zh) * 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005001813A1 (fr) * 2003-06-25 2005-01-06 Coding Technologies Ab Appareil et procede permettant de coder un signal audio, et appareil et procede permettant de decoder un signal audio code
EP1533789A1 (fr) * 2002-09-06 2005-05-25 Matsushita Electric Industrial Co., Ltd. Procede et dispositif de codage des sons

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
US20060023748A1 (en) * 2004-07-09 2006-02-02 Chandhok Ravinder P System for layering content for scheduled delivery in a data network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1533789A1 (fr) * 2002-09-06 2005-05-25 Matsushita Electric Industrial Co., Ltd. Procede et dispositif de codage des sons
WO2005001813A1 (fr) * 2003-06-25 2005-01-06 Coding Technologies Ab Appareil et procede permettant de coder un signal audio, et appareil et procede permettant de decoder un signal audio code

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VERMA T S ET AL: "A 6KBPS TO 85KBPS SCALABLE AUDIO CODER" 2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). ISTANBUL, TURKEY, JUNE 5-9, 2000, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY : IEEE, US, vol. VOL. 2 OF 6, 5 juin 2000 (2000-06-05), pages 877-880, XP002406627 ISBN: 0-7803-6294-2 *

Also Published As

Publication number Publication date
EP1987513A2 (fr) 2008-11-05
DE602007002385D1 (de) 2009-10-22
US20090171672A1 (en) 2009-07-02
WO2007090988A3 (fr) 2007-11-08
US8321230B2 (en) 2012-11-27
ATE442645T1 (de) 2009-09-15
EP1987513B1 (fr) 2009-09-09

Similar Documents

Publication Publication Date Title
EP1987513B1 (fr) Procede et dispositif de codage hierarchique d&#39;un signal audio source, procede et dispositif de decodage, programmes et signal correspondants
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP2277172B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
ES2741200T3 (es) Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
JP6190942B2 (ja) オーディオ・エンコーダおよびデコーダ
EP1351401A1 (fr) Dispositif de decodage de signaux audio et dispositif de codage de signaux audio
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
EP1905010A2 (fr) Dispositif de codage/decodage hierarchique
EP2656342A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
AU2013366642B2 (en) Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
FR2947945A1 (fr) Allocation de bits dans un codage/decodage d&#39;amelioration d&#39;un codage/decodage hierarchique de signaux audionumeriques
EP1581930A1 (fr) Procede de codage et de decodage audio a debit variable
EP1997103A1 (fr) Procede de codage d&#39;un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d&#39;ordinateur correspondants
EP3175443B1 (fr) Détermination d&#39;un budget de codage d&#39;une trame de transition lpd/fd
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
WO2011073600A1 (fr) Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
FR2845543A1 (fr) Systeme d&#39;embrouillage securise de flux audio
Saoudi et al. High quality low delay (5 ms) sub-band audio coder (20 hz-15 khz) at low bit rate (64 kbit/s)

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 12278547

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2007731577

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07731577

Country of ref document: EP

Kind code of ref document: A2