WO2011058758A1 - 符号化装置、復号装置およびこれらの方法 - Google Patents

符号化装置、復号装置およびこれらの方法 Download PDF

Info

Publication number
WO2011058758A1
WO2011058758A1 PCT/JP2010/006665 JP2010006665W WO2011058758A1 WO 2011058758 A1 WO2011058758 A1 WO 2011058758A1 JP 2010006665 W JP2010006665 W JP 2010006665W WO 2011058758 A1 WO2011058758 A1 WO 2011058758A1
Authority
WO
WIPO (PCT)
Prior art keywords
encoding
layer
gain
information
band
Prior art date
Application number
PCT/JP2010/006665
Other languages
English (en)
French (fr)
Inventor
山梨智史
森井利幸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201080051050.2A priority Critical patent/CN102598125B/zh
Priority to JP2011540418A priority patent/JP5746974B2/ja
Priority to US13/505,634 priority patent/US9153242B2/en
Publication of WO2011058758A1 publication Critical patent/WO2011058758A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • the present invention relates to an encoding device, a decoding device, and these methods used in a communication system that encodes and transmits a signal.
  • Non-Patent Document 1 discloses that a spectrum (MDCT (Modified Discrete Cosine Transform) of a desired frequency band is obtained using TwinVQ (Transform Domain Weighed Interleave Vector Quantization) in which the basic structural unit is modularized.
  • a method for hierarchically encoding () coefficients) is disclosed. By using the module in common and using it a plurality of times, a simple and highly flexible scalable encoding can be realized.
  • the subbands to be encoded in each layer (layer) are basically configured in advance, but the subbands to be encoded in each layer (layer) according to the nature of the input signal.
  • a configuration is also disclosed in which the position of is fluctuated within a predetermined band.
  • Non-Patent Document 1 for example, in a configuration in which the position of a subband to be encoded in each layer (layer) is varied within a predetermined band, the encoding target is determined for each frame or each layer The subbands selected as different. Therefore, predictive encoding in the time axis direction or predictive encoding in the layer axis direction is applied as a method for encoding the frequency parameter of the band to be encoded (encoding target band). There is a problem that encoding efficiency is insufficient. As a result, there is a problem that the quality of the generated decoded speech becomes insufficient.
  • the adding unit 204 calculates the difference spectrum between the input spectrum and the first layer decoded spectrum by inverting the polarity of the first layer decoded spectrum and adding the inverted spectrum to the input spectrum.
  • the adding unit 204 outputs the obtained difference spectrum as the first layer difference spectrum to the second layer encoding unit 205.
  • the second layer decoding unit 206 decodes the second layer encoded information input from the second layer encoding unit 205 to calculate a second layer decoded spectrum. Next, second layer decoding section 206 outputs the generated second layer decoded spectrum to addition section 207. Details of second layer decoding section 206 will be described later.
  • the adding unit 207 calculates a difference spectrum between the first layer difference spectrum and the second layer decoded spectrum by inverting the polarity of the second layer decoded spectrum and adding the inverted polarity to the first layer difference spectrum.
  • the adding unit 207 outputs the obtained difference spectrum to the third layer encoding unit 208 as the second layer difference spectrum.
  • Third layer encoding section 208 generates third layer encoded information using the second layer difference spectrum input from adding section 207, and generates the generated third layer encoded information to encoded information integrating section 209. Output. Also, the third layer encoding unit 208 sends the third layer gain encoding information and the third layer band information included in the third layer encoding information to the first layer encoding unit 202 and the first layer decoding unit 203. Output. As a result, first layer encoding section 202 and first layer decoding section 203 perform encoding using the third layer gain encoding information and the third layer band information in the next processing frame. Details of third layer encoding section 208 will be described later.
  • FIG. 3 is a block diagram showing a main configuration of first layer encoding section 202.
  • the first layer encoding unit 202 includes a band selection unit 301, a shape encoding unit 302, an adaptive prediction determination unit 303, a gain encoding unit 304, and a multiplexing unit 305.
  • the band selection unit 301 divides the input spectrum input from the orthogonal transform processing unit 201 into a plurality of subbands, and selects a band to be quantized (quantization target band) from the plurality of subbands.
  • Band selection section 301 outputs band information (first layer band information) indicating the selected quantization target band to shape coding section 302, adaptive prediction determination section 303, and multiplexing section 305.
  • Band selection section 301 also outputs the input spectrum to shape coding section 302. Note that the input spectrum input to the shape encoding unit 302 may be directly input from the orthogonal transform processing unit 201 separately from the input from the orthogonal transform processing unit 201 to the band selection unit 301. Details of the processing of the band selection unit 301 will be described later.
  • the shape encoding unit 302 encodes the shape information using the spectrum (MDCT coefficient) corresponding to the band indicated by the first layer band information out of the input spectrum input from the band selection unit 301, and performs the first layer Shape coding information is generated. Next, shape coding section 302 outputs the generated first layer shape coding information to multiplexing section 305. In addition, shape coding section 302 outputs an ideal gain (gain information) calculated at the time of shape coding to gain coding section 304. Details of the processing of the shape encoding unit 302 will be described later.
  • the adaptive prediction determination unit 303 outputs the determination result to the gain encoding unit 304 and the multiplexing unit 305 as prediction information (Flag_PRE).
  • the adaptive prediction determination unit 303 sets the value of Flag_PRE to 1 when determining to perform prediction, and sets the value of Flag_PRE to 0 when determining that prediction is not performed. Details of the process of the adaptive prediction determination unit 303 will be described later.
  • the gain encoding unit 304 performs predictive encoding on the ideal gain input from the shape encoding unit 302 to obtain the first layer gain code. Get information.
  • gain encoding section 304 uses the quantization gain of the past frame stored in the internal buffer, the internal gain codebook, the second layer gain encoding information, and the third layer gain encoding information. Thus, predictive coding is performed on the ideal gain.
  • the band selection unit 301 calculates the average energy E1 (m) of each of the M types of regions according to the following equation (5).
  • j represents the index of each of the J subbands
  • m represents the index of each of the M types of regions.
  • S (m) indicates the minimum value among the indices of the L subbands constituting the region m
  • B (j) is the minimum value among the indices of the plurality of MDCT coefficients constituting the subband j.
  • W (j) indicates the bandwidth of subband j, and in the following description, the case where all the J subbands have the same bandwidth, that is, the case where W (j) is a constant will be described as an example.
  • the band selection unit 301 is a band (quantization target band) to be quantized for a region having the maximum average energy E1 (m), for example, a band composed of subbands j ′′ to (j ′′ + L ⁇ 1). Select as.
  • Band selection section 301 outputs index m_max indicating the selected region as first layer band information to shape coding section 302, adaptive prediction determination section 303, and multiplexing section 305. Further, the band selection unit 301 outputs the input spectrum X1 (k) of the quantization target band to the shape coding unit 302.
  • the band index indicating the quantization target band selected by the band selection unit 301 is j ′′ to (j ′′ + L ⁇ 1).
  • the shape encoding unit 302 performs shape quantization for each subband on the input spectrum X1 (k) corresponding to the band indicated by the first layer band information. Specifically, the shape encoding unit 302 searches the built-in shape codebook composed of SQ shape code vectors for each of the L subbands, and evaluates the shape scale_q (i) of Equation (6) below. Find the index of the shape code vector that maximizes.
  • SC i k indicates a shape code vector constituting the shape code book
  • i indicates an index of the shape code vector
  • k indicates an index of an element of the shape code vector
  • the shape encoding unit 302 outputs the index S_max of the shape code vector that maximizes the evaluation measure Shape_q (i) of the above equation (6) to the multiplexing unit 305 as first layer shape encoding information.
  • the shape encoding unit 302 calculates an ideal gain Gain_i (j) according to the following equation (7), and outputs the calculated ideal gain Gain_i (j) to the gain encoding unit 304.
  • the adaptive prediction determination unit 303 has a built-in buffer and stores the first layer band information in the past frame.
  • the adaptive prediction determination unit 303 includes a buffer that stores band information for one past frame will be described as an example.
  • the adaptive prediction determination unit 303 first uses the first layer bandwidth information, the second layer bandwidth information, the third layer bandwidth information in the past frame, and the first layer bandwidth information in the current frame to quantize the past frame. The number of subbands common between the target band and the quantization target band of the current frame is obtained.
  • the set M123 t ⁇ 1 can be expressed by the following equation (8) using the set M1 t ⁇ 1 , the set M2 t ⁇ 1 , and the set M3 t ⁇ 1 .
  • adaptive prediction determination section 303 outputs prediction information (Flag_PRE) to gain encoding section 304 and multiplexing section 305 as information indicating the determination result.
  • adaptive prediction determination section 303 updates the built-in buffer using the first layer band information, the second layer band information, and the three layer band information in the current frame.
  • the gain encoding unit 304 adaptively switches the quantization method to either the prediction encoding method or the non-prediction encoding method according to the prediction information (Flag_PRE).
  • GC1 i j indicates a gain code vector constituting the gain codebook in first layer encoding section 202
  • i indicates an index of the gain code vector
  • j indicates an index of an element of the gain code vector.
  • the subband index j ′′ is an index indicating the first subband in the band selected by the band selection unit 301.
  • C1 t j is the first layer encoding unit temporally before t frames.
  • C1 1 j indicates the gain quantized in the first layer encoding unit 202 one frame before in the same manner
  • C2 t j and C3 t j represent gains quantized in the second layer encoding unit 205 and the third layer encoding unit 208, respectively, temporally t frames before, and ⁇ 0 to ⁇ 3 are gain encoding units.
  • the gain encoding unit 304 treats L subbands in one region as an L-dimensional vector and performs vector quantization.
  • the gain encoding unit 304 calculates the quantum in the current frame among the gains stored in the built-in buffer in Equation (9). The gain of the subband that is closest in frequency to the target band is substituted.
  • the gain encoding unit 304 performs non-predictive encoding. Specifically, the gain encoding unit 304 directly quantizes the ideal gain Gain_i (j) input from the shape encoding unit 302 according to the following equation (10). Here again, gain encoding section 304 treats the ideal gain as an L-dimensional vector and performs vector quantization.
  • the gain encoding unit 304 transmits the index G_min of the gain code vector that minimizes the square error Gain_q (i) in the above equation (9) or (10) to the multiplexing unit 305 as first layer gain encoding information. Output.
  • the gain encoding unit 304 uses the first layer gain encoding information G_min, the first layer band information, and the quantization gains C1 t j , C2 t j , and C3 t j obtained in the current frame to The built-in buffer is updated according to Equation (11).
  • the multiplexing unit 305 multiplexes the first layer band information, the first layer shape coding information, the first layer gain coding information, and the prediction information, and generates the first layer coding information. Next, multiplexing section 305 outputs the generated first layer encoded information to first layer decoding section 203 and encoded information integration section 209.
  • FIG. 5 is a block diagram showing a main configuration of the first layer decoding unit 203. As shown in FIG.
  • the first layer decoding unit 203 includes a separating unit 501, a shape decoding unit 502, and a gain decoding unit 503.
  • Separating section 501 converts the first layer encoded information output from first layer encoding section 202 into first layer band information, first layer shape encoded information, first layer gain encoded information, and prediction information. To separate. Separating section 501 outputs the obtained first layer band information and first layer shape coding information to shape decoding section 502, and outputs the first layer gain coding information and prediction information to gain decoding section 503.
  • the shape decoding unit 502 decodes the first layer shape encoded information input from the separation unit 501, thereby determining the MDCT coefficient corresponding to the quantization target band indicated by the first layer band information input from the separation unit 501. Find the shape value. Shape decoding section 502 outputs the obtained MDCT coefficient shape value to gain decoding section 503. Details of the processing of the shape decoding unit 502 will be described later.
  • the gain decoding unit 503 receives the second layer gain encoding information in the processing frame immediately before from the second layer encoding unit 205. Also, gain decoding section 503 receives third layer gain coding information in the processing frame immediately before from third layer coding section 208. Also, gain decoding section 503 receives first layer gain coding information and prediction information from demultiplexing section 501. The gain decoding unit 503 receives the shape value of the MDCT coefficient from the shape decoding unit 502.
  • gain decoding section 503 uses the second layer gain coding information, the third layer gain coding information, the gain of the past frame stored in the built-in buffer, and the built-in gain codebook. Predictive decoding is performed on the one-layer gain encoded information.
  • gain decoding section 503 uses the built-in gain codebook to directly convert the first layer gain encoded information to the inverse quantum. To gain (ie, without predictive decoding).
  • Gain decoding section 503 obtains the MDCT coefficient of the quantization target band using the gain obtained and the value of the shape input from shape decoding section 502, and uses the obtained MDCT coefficient as first layer decoded spectrum to adding section 204. Output. Details of the processing of the gain decoding unit 503 will be described later.
  • the first layer decoding unit 203 having the above configuration performs the following operation.
  • the separation unit 501 separates the first layer encoded information into first layer band information, first layer shape encoded information, first layer gain encoded information, and prediction information.
  • demultiplexing section 501 outputs the obtained first layer band information and first layer shape coding information to shape decoding section 502, and sends the first layer gain coding information and prediction information to gain decoding section 503. Output.
  • the shape decoding unit 502 incorporates a shape code book similar to the shape code book included in the shape coding unit 302 of the first layer coding unit 202, and receives the first layer shape coding information S_max input from the separation unit 501. Search for a shape code vector as an index. Shape decoding section 502 outputs the searched shape code vector to gain decoding section 503 as the value of the shape of the MDCT coefficient in the quantization target band indicated by the first layer band information input from separation section 501.
  • the gain decoding unit 503 has a built-in buffer and stores the gain obtained in the past frame.
  • the gain decoding unit 503 adaptively switches the inverse quantization method to either the predictive decoding method or the non-predictive decoding method according to the prediction information (Flag_PRE).
  • the gain decoding unit 503 uses the decoding target band of the current frame in the gain stored in the internal buffer in the above equation (12). The subband gain closest in frequency to is substituted.
  • gain decoding section 503 updates the built-in buffer according to the following equation (15).
  • FIG. 6 is a block diagram showing the main configuration of second layer encoding section 205.
  • the second layer encoding unit 205 includes a band selection unit 601, a shape encoding unit 602, a gain encoding unit 603, and a multiplexing unit 604.
  • the shape encoding unit 602 encodes the shape information using the spectrum (MDCT coefficient) corresponding to the band indicated by the second layer band information out of the first layer difference spectrum, and converts the second layer shape encoded information. Generate. Next, shape coding section 602 outputs the generated second layer shape coding information to multiplexing section 604. In addition, shape coding section 602 outputs an ideal gain (gain information) calculated at the time of shape coding to gain coding section 603. Details of the processing of the shape encoding unit 602 are the same as those of the shape encoding unit 302 described above, and thus the description thereof is omitted.
  • Shape decoding section 702 decodes the second layer shape encoded information input from demultiplexing section 701, thereby decoding MDCT coefficients corresponding to the quantization target band indicated by the second layer band information input from demultiplexing section 701. Find the value of the shape.
  • the shape decoding unit 702 outputs the obtained value of the shape of the decoded MDCT coefficient to the gain decoding unit 703. Details of the processing of the shape decoding unit 702 are the same as those of the shape decoding unit 502 described above, and thus the description thereof is omitted here.
  • GC2 i j is a gain code vector constituting a gain codebook used by the gain decoding unit 703.
  • FIG. 8 is a block diagram showing a main configuration inside the decoding apparatus 103 shown in FIG.
  • the decoding apparatus 103 is a hierarchical decoding apparatus including three decoding hierarchies (layers).
  • the first layer, the second layer, and the third layer are referred to in order from the lowest bit rate.
  • the encoded information separation unit 801 receives the encoded information sent from the encoding apparatus 101 via the transmission path 102, separates the encoded information into encoded information of each layer, and performs decoding processing responsible for each decoding process To the output. Specifically, the encoded information separation unit 801 outputs the first layer encoded information included in the encoded information to the first layer decoding unit 802. Also, the encoded information separation unit 801 outputs the second layer encoded information included in the encoded information to the second layer decoding unit 803. The encoded information separation unit 801 outputs the third layer encoded information included in the encoded information to the third layer decoding unit 804.
  • the first layer decoding unit 802 generates the first layer decoded spectrum X1 ′′ (k) by decoding the first layer encoded information input from the encoded information separation unit 801, and the generated first layer decoded spectrum X1 “(K) is output to the adder 806. Since the processing of the first layer decoding unit 802 is the same as the processing of the first layer decoding unit 203 described above, description thereof is omitted here.
  • the second layer decoding unit 803 decodes the second layer encoded information input from the encoded information separation unit 801 to generate a second layer decoded spectrum X2 ′′ (k), and the generated second layer decoded spectrum X2 "(K) is output to the adder 805. Also, second layer decoding section 803 outputs second layer gain coding information and second layer band information included in the second layer coding information to first layer decoding section 802. Since the process of the second layer decoding unit 803 is the same as the process of the second layer decoding unit 206 described above, the description thereof is omitted here.
  • the third layer decoding unit 804 decodes the third layer encoded information input from the encoded information separation unit 801 to generate a third layer decoded spectrum X3 ′′ (k), and the generated third layer decoded spectrum X3 "(K) is output to the adder 805. Also, third layer decoding section 804 outputs third layer gain coding information and third layer band information included in the third layer coding information to first layer decoding section 802. Since the process of the third layer decoding unit 804 is the same as the process of the second layer decoding unit 206 described above, the description thereof is omitted here. However, the third layer decoding unit 804 performs processing by replacing GC2 i j used in the processing of the second layer decoding unit 206 with GC3 i j . Here, GC3 i j is a gain code vector constituting a gain codebook used in the third layer decoding section 804.
  • the adder 805 receives the second layer decoded spectrum X2 ′′ (k) from the second layer decoder 803. Also, the adder 805 receives the third layer decoded spectrum X3 ′′ from the third layer decoder 804. (K) is input.
  • the adding unit 805 adds the input second layer decoded spectrum X2 ′′ (k) and third layer decoded spectrum X3 ′′ (k), and sets the added spectrum as the first added spectrum X4 ′′ (k), and the adding unit 806 Output to.
  • the addition unit 806 receives the first addition spectrum X4 ′′ (k) from the addition unit 805. Also, the addition unit 806 receives the first layer decoded spectrum X1 ′′ (k) from the first layer decoding unit 802. Entered. The addition unit 806 adds the input first addition spectrum X4 ′′ (k) and the first layer decoded spectrum X1 ′′ (k), and uses the added spectrum as the second addition spectrum X5 ′′ (k), an orthogonal transform processing unit Output to 807.
  • the orthogonal transform processing unit 807 first initializes the built-in buffer buf ′ (k) to a “0” value according to the following equation (16).
  • X6 (k) is a vector obtained by combining the second addition spectrum X5 ′′ (k) and the buffer buf ′ (k), and is obtained using the following equation (18).
  • the orthogonal transform processing unit 807 updates the buffer buf ′ (k) according to the following equation (19).
  • first layer encoding section 202 switches the encoding method of the current layer based on the encoding result of each layer in the temporally previous processing frame. This improves the coding efficiency of the frequency parameter of the current frame when the coding apparatus 101 uses a layer coding method in which a band to be coded is selected for each layer (layer). Can improve the quality.
  • first layer encoding section 202 which is the lowest layer, includes adaptive prediction determination section 303, and predictive encoding / decoding is applied to encoding / decoding of first layer gain information.
  • the configuration for switching whether or not is described.
  • the present invention is not limited to this. That is, the present invention can be similarly applied to a configuration in which the second layer encoding section 205 and the third layer encoding section 208 of the upper layer include the adaptive prediction determination section 303.
  • frequency parameters can be encoded with higher accuracy by adaptively performing predictive encoding / decoding processing.
  • adaptive predictive coding / coding only in some layers (for example, the lowest layer) as described in the present embodiment.
  • the configuration of performing the decoding process is effective.
  • the 1st layer encoding part 202 demonstrated the structure which calculates prediction information and transmits this.
  • adaptive prediction determination section 303 sets prediction information using band information quantized in the previous processing frame in time and band information selected in the current frame. .
  • the band information and the prediction information can be calculated by performing the same processing in the decoding apparatus 103 as well. Therefore, the prediction information does not have to be transmitted from the encoding device 101 to the decoding device 103 for the configuration employing the above determination method. In this case, it is necessary to separately input the second layer band information and the third layer band information to the first layer decoding unit 802.
  • the first layer decoding unit 802 with the adaptive prediction determination unit 303 similarly to the first layer encoding unit 202, and to set prediction information.
  • the configuration for transmitting the prediction information is effective as described in the present embodiment.
  • Embodiment 2 of the present invention describes a configuration in which an encoding / decoding unit of all layers (layers) applies an adaptive prediction encoding / decoding scheme of ideal gain (gain information). Note that the adaptive predictive coding method described in the present embodiment is partially different from the adaptive predictive coding method described in the first embodiment in the past frame information used for prediction.
  • the communication system (not shown) according to the second embodiment is basically the same as the communication system shown in FIG. 1, and the encoding apparatus 101 is only part of the configuration and operation of the encoding apparatus / decoding apparatus. And the decoding device 103 is different.
  • the encoding device and the decoding device in the communication system according to the present embodiment will be denoted by reference numerals “111” and “113”, respectively.
  • FIG. 9 is a block diagram showing a main configuration inside encoding apparatus 111 shown in FIG.
  • the encoding device 111 is a hierarchical encoding device including three encoding layers.
  • the first layer, the second layer, and the third layer are referred to in order from the lowest bit rate.
  • components other than the first layer encoding unit 212, the first layer decoding unit 213, the second layer encoding unit 215, the second layer decoding unit 216, and the third layer encoding unit 218 Is the same as the constituent elements of the encoding apparatus 101 of the first embodiment, and thus the same reference numerals are given and the description thereof is omitted here.
  • the input spectrum X1 (k) is input from the orthogonal transform processing unit 201 to the first layer encoding unit 212.
  • First layer encoding section 212 encodes input spectrum X1 (k) and generates first layer encoded information.
  • first layer encoding section 212 outputs the generated first layer encoded information to first layer decoding section 213 and encoded information integration section 209. Details of first layer encoding section 212 will be described later.
  • the first layer decoding unit 213 decodes the first layer encoded information input from the first layer encoding unit 212, and calculates a first layer decoded spectrum. Next, first layer decoding section 213 outputs the generated first layer decoded spectrum to adding section 204. Also, first layer decoding section 213 outputs ideal gain (gain information) obtained when decoding first layer encoded information to second layer encoding section 215 and third layer encoding section 218. Details of first layer decoding section 213 will be described later.
  • Second layer encoding section 215 generates second layer encoded information using the first layer difference spectrum input from adding section 204, and generates the generated second layer encoded information as second layer decoding section 216, And output to the encoded information integration unit 209. Details of second layer encoding section 215 will be described later.
  • FIG. 10 is a block diagram showing the main configuration of first layer encoding section 212.
  • the first layer encoding unit 212 includes a band selection unit 301, a shape encoding unit 302, an adaptive prediction determination unit 313, a gain encoding unit 314, and a multiplexing unit 305.
  • the same reference numerals are given, Description is omitted.
  • the adaptive prediction determination unit 313 obtains the number of subbands common between the quantization target band of the current frame and the quantization target band of the past frame using the input first layer band information. When the number of common subbands is equal to or greater than a predetermined value, the adaptive prediction determination unit 313 performs predictive coding on the spectrum (MDCT coefficient) of the quantization target band indicated by the first layer band information. judge. On the other hand, when the number of common subbands is smaller than the predetermined value, the adaptive prediction determination unit 313 does not perform predictive coding on the spectrum (MDCT coefficient) of the quantization target band indicated by the first layer band information (that is, , Encoding is performed without applying prediction).
  • the ideal gain is input to the gain encoding unit 314 from the shape encoding unit 302. Also, the first layer prediction information is input from the adaptive prediction determination unit 313 to the gain encoding unit 314.
  • the gain encoding unit 314 When the first layer prediction information indicates a determination result that predictive encoding is performed, the gain encoding unit 314 performs predictive encoding on the ideal gain input from the shape encoding unit 302, and performs first encoding. Obtain layer gain coding information. At this time, the gain encoding unit 314 performs predictive encoding on the ideal gain using the quantization gain of the past frame stored in the internal buffer and the internal gain codebook, and performs first encoding. Obtain layer gain coding information.
  • the gain encoding unit 314 quantizes the ideal gain input from the shape encoding unit 302 as it is (that is, prediction) Quantize without applying) to obtain first layer gain encoded information.
  • the gain encoding unit 314 outputs the obtained first layer gain encoding information to the multiplexing unit 305. Details of the processing of the gain encoding unit 314 will be described later.
  • the first layer encoding unit 212 having the above configuration performs the following operation. However, processes other than the adaptive prediction determination unit 313 and the gain encoding unit 314 are the same as those in the first embodiment, and thus the description thereof is omitted.
  • the gain encoding unit 314 has a built-in buffer and stores the quantization gain obtained in the past frame.
  • FIG. 11 is a block diagram showing the main configuration of first layer decoding section 213.
  • the gain decoding unit 513 uses the first layer gain coding information, the gain of the past frame stored in the built-in buffer, and the built-in gain codebook to perform the first layer gain coding information. Perform predictive decoding.
  • the gain decoding unit 513 performs non-predictive decoding. That is, gain decoding section 513 performs inverse quantization on the gain value according to equation (13) using the above gain codebook. Again, the gain is treated as an L-dimensional vector and vector inverse quantization is performed. That is, when predictive decoding is not performed, gain decoding section 513 directly uses gain code vector GC1 j G_min corresponding to first layer gain encoding information G_min as a gain.
  • gain decoding section 513 uses the gain obtained by inverse quantization of the current frame and the value of the shape input from shape decoding section 502, according to equation (14), the first layer decoded spectrum (decoded MDCT coefficient) X1 ′′ (k) is calculated.
  • the gain is Gain_q ′ (j ′′). Takes a value.
  • the gain decoding unit 513 updates the built-in buffer according to the equation (21).
  • Gain decoding section 513 outputs first layer decoded spectrum X1 ′′ (k) calculated according to equation (14) to adding section 204.
  • FIG. 12 is a block diagram showing the main configuration of second layer encoding section 215.
  • the second layer encoding unit 215 includes a band selection unit 601, a shape encoding unit 602, an adaptive prediction determination unit 613, a gain encoding unit 614, and a multiplexing unit 604.
  • constituent elements other than adaptive prediction determination section 613 and gain encoding section 614 are the same as the constituent elements in second layer encoding section 205 in the first embodiment, so the same reference numerals are assigned. The description is omitted.
  • the adaptive prediction determination unit 613 has an internal buffer and stores band information (first layer band information and second layer band information) input from the band selection unit 601 and the first layer decoding unit 213 in the past.
  • the first layer band information is input from the first layer decoding unit 213 to the adaptive prediction determination unit 613.
  • the second layer band information is input from the band selection unit 601 to the adaptive prediction determination unit 613.
  • the adaptive prediction determination unit 613 uses the input band information (first layer band information and second layer band information) to share the quantization target band of the current frame and the quantization target band of the past frame. Find the number of subbands.
  • the adaptive prediction determination unit 613 When the number of common subbands is equal to or greater than a predetermined value, the adaptive prediction determination unit 613 performs predictive coding on the spectrum (MDCT coefficient) of the quantization target band indicated by the second layer band information. Determine to do. On the other hand, when the number of common subbands is smaller than the predetermined value, adaptive prediction determination section 613 does not perform predictive coding on the spectrum (MDCT coefficient) of the quantization target band indicated by the second layer band information. (That is, encoding without applying prediction) is determined.
  • the adaptive prediction determination unit 613 outputs the determination result to the gain encoding unit 614 and the multiplexing unit 604 as second layer prediction information (Flag_PRE2).
  • the adaptive prediction determination unit 613 sets the value of Flag_PRE2 to 1 when determining to perform prediction, and sets the value of Flag_PRE2 to 0 when determining that prediction is not performed. Details of the process of the adaptive prediction determination unit 613 will be described later.
  • the gain encoding unit 614 has an internal buffer and stores the quantization gain obtained in the past frame.
  • the ideal gain is input from the shape encoding unit 602 to the gain encoding unit 614. Further, first layer gain encoding information is input to gain encoding section 614 from first layer decoding section 213. Also, the second layer prediction information is input from the adaptive prediction determination unit 613 to the gain encoding unit 614.
  • the gain encoding unit 614 When the second layer prediction information indicates a determination result that predictive encoding is performed, the gain encoding unit 614 performs predictive encoding on the ideal gain input from the shape encoding unit 602, and performs second encoding. Obtain layer gain coding information. At this time, the gain encoding unit 614 predicts the ideal gain using the quantization gain of the past frame stored in the internal buffer, the internal gain codebook, and the first layer gain encoding information. Encoding is performed.
  • the gain encoding unit 614 outputs the obtained second layer gain encoding information to the multiplexing unit 604. Details of the processing of the gain encoding unit 614 will be described later.
  • the adaptive prediction determination unit 613 has a built-in buffer, and stores the second layer band information and the first layer band information in the past frame.
  • the adaptive prediction determination unit 613 includes a buffer that stores band information for one past frame will be described as an example.
  • the first layer band information in the current frame is input from the first layer decoding unit 213 to the adaptive prediction determination unit 613.
  • the set M12 t-1 can be expressed by the following equation (23) using the set M1 t-1 and the set M2 t-1 . Further, the set M12 t can be expressed as the following Expression (24) using the set M1 t and the set M2 t .
  • the adaptive prediction determination unit 613 sets the value of the second layer prediction information Flag_PRE2 based on the number of common subbands among the subbands included in M12 t ⁇ 1 and M12 t as described above. Set.
  • the quantization method is adaptively switched to either the predictive coding method or the non-predictive coding method.
  • adaptive prediction determination section 613 outputs second layer prediction information (Flag_PRE2) as information indicating the determination result to gain encoding section 614 and multiplexing section 604.
  • adaptive prediction determination section 613 updates the built-in buffer using the first layer band information and the second layer band information in the current frame.
  • the gain encoding unit 614 has an internal buffer and stores the quantization gain obtained in the past frame. Further, first layer gain encoding information is input to gain encoding section 614 from first layer decoding section 213. Further, the second layer prediction information (Flag_PRE2) is input from the adaptive prediction determination unit 613 to the gain encoding unit 614.
  • Flag_PRE2 the second layer prediction information
  • the gain encoding unit 614 adaptively switches the quantization method to either the predictive encoding method or the non-predictive encoding method according to the second layer prediction information (Flag_PRE2).
  • C1 t j indicates the gain quantized by the first layer encoding unit 212 temporally before t frames.
  • C1 1 j indicates the gain quantized by the first layer encoding unit 212 one frame before in time.
  • C2 t j indicates the gain quantized by the second layer encoding unit 215 temporally before t frames.
  • ⁇ 0 to ⁇ 3 are fourth-order linear prediction coefficients stored in the gain encoding unit 614. Note that gain encoding section 614 treats L subbands in one region as an L-dimensional vector and performs vector quantization.
  • the gain encoding unit 614 uses the second layer gain encoding information G_min and the quantization gains C1 t j and C2 t j obtained in the current frame to store the built-in buffer according to the following equation (27). Update.
  • FIG. 13 is a block diagram showing the main configuration of second layer decoding section 216.
  • the second layer decoding unit 216 includes a separation unit 701, a shape decoding unit 702, and a gain decoding unit 713.
  • constituent elements other than gain decoding section 713 are the same as the constituent elements of second layer decoding section 206 described in Embodiment 1, and therefore the same reference numerals are assigned and description thereof is omitted.
  • separation section 701 in the present embodiment is the separation section in Embodiment 1 only in that the separated second layer band information and second layer gain coding information are output to third layer coding section 218. It is different from 701.
  • the gain decoding unit 713 receives the second layer prediction information (Flag_PRE2) and the second layer gain coding information from the separation unit 701.
  • the gain decoding unit 713 receives the MDCT coefficient shape value from the shape decoding unit 702.
  • the gain decoding unit 713 uses the second layer gain encoding information, the past frame gain stored in the internal buffer, and the internal gain codebook to perform the second layer gain encoding information. Perform predictive decoding.
  • gain decoding section 713 uses the built-in gain codebook to convert second layer gain encoded information.
  • the gain is obtained by performing inverse quantization as it is (that is, without performing predictive decoding).
  • Gain decoding section 713 obtains the MDCT coefficient of the quantization target band using the gain obtained and the value of the shape input from shape decoding section 702, and provides the obtained MDCT coefficient as second layer decoded spectrum to addition section 207. Output.
  • the second layer decoding unit 216 having the above configuration performs the following operation. Only the processing of the gain decoding unit 713 will be described here.
  • the gain decoding unit 713 has a built-in buffer and stores the gain obtained in the past frame.
  • the gain decoding unit 713 adaptively switches the inverse quantization method to either the predictive decoding method or the non-predictive decoding method according to the second layer prediction information (Flag_PRE2).
  • the gain decoding unit 713 performs predictive decoding. That is, the gain decoding unit 713 performs inverse quantization by predicting the gain of the current frame using the gain of the past frame stored in the built-in buffer.
  • gain decoding section 713 includes a gain codebook similar to gain encoding section 614 of second layer encoding section 215, and performs gain dequantization according to the following equation (28). To obtain the gain Gain_q ′.
  • C1 ′′ t j represents a gain value inversely quantized in the first layer decoding unit 213 t frames before in time.
  • C1 ′′ 1 j represents 1 frame before
  • the gain obtained by inverse quantization in first layer decoding section 213 is shown.
  • C2 ′′ t j represents the gain value inversely quantized by the second layer decoding unit 215.
  • ⁇ 0 to ⁇ 3 are fourth-order linear predictions stored in the gain decoding unit 713.
  • the gain decoding unit 713 treats L subbands in one region as an L-dimensional vector, and performs vector inverse quantization.
  • the gain decoding unit 713 decodes the current frame out of the gains stored in the internal buffer in the above equation (28). The gain of the subband closest in frequency to the target band is substituted.
  • the gain decoding unit 713 performs non-predictive decoding. That is, gain decoding section 713 inversely quantizes the gain value according to the following equation (29) using the above gain codebook. Again, the gain is treated as an L-dimensional vector and vector inverse quantization is performed. That is, when predictive decoding is not performed, gain decoding section 713 directly uses gain code vector GC2 j G_min corresponding to second layer gain encoding information G_min as a gain.
  • gain decoding section 713 uses the gain obtained by inverse quantization of the current frame and the value of the shape input from shape decoding section 702 to obtain the second layer decoded spectrum (decoded MDCT) according to the following equation (30).
  • (Coefficient) X2 ′′ (k) is calculated.
  • the gain is Gain_q ′ (j ′′ ).
  • the gain decoding unit 713 updates the built-in buffer according to the equation (27).
  • Gain decoding section 713 outputs second layer decoded spectrum X2 ′′ (k) calculated according to equation (30) to addition section 207.
  • Adaptive prediction determination section 1403 outputs the determination result to gain encoding section 1404 and multiplexing section 1405 as third layer prediction information (Flag_PRE3).
  • the adaptive prediction determination unit 1403 sets the value of Flag_PRE3 to 1 when determining to perform prediction, and sets the value of Flag_PRE3 to 0 when not performing prediction. Details of the process of the adaptive prediction determination unit 1403 will be described later.
  • the ideal gain is input to the gain encoding unit 1404 from the shape encoding unit 1402. Further, third layer prediction information is input to gain encoding section 1404 from adaptive prediction determination section 1403. Also, gain encoding section 1404 receives first layer gain encoding information from first layer decoding section 213. Further, second layer gain encoding information is input to gain encoding section 1404 from second layer decoding section 216.
  • the gain encoding unit 1404 When the third layer prediction information indicates a determination result that predictive encoding is performed, the gain encoding unit 1404 performs predictive encoding on the ideal gain input from the shape encoding unit 1402, and performs third encoding. Obtain layer gain coding information. At this time, gain encoding section 1404 uses the quantization gain of the past frame stored in the internal buffer, the internal gain codebook, the first layer gain encoding information, and the second layer gain encoding information. Thus, predictive coding is performed on the ideal gain to obtain third layer gain coding information.
  • the gain encoding unit 1404 quantizes the ideal gain input from the shape encoding unit 1402 as it is (that is, the prediction) Quantize without applying).
  • Gain coding section 1404 outputs the obtained third layer gain coding information to multiplexing section 1405. Details of the processing of the gain encoding unit 1404 will be described later.
  • the adaptive prediction determination unit 1403 has a built-in buffer and stores the third layer band information, the first layer band information, and the second layer band information in the past frame.
  • adaptive prediction determination section 1403 has a built-in buffer for storing band information for one past frame.
  • the adaptive prediction determination unit 1403 performs third layer band information, first layer band information, second layer band information (which are stored in the built-in buffer) in the past frame, and third layer band in the current frame.
  • the number of subbands common between the quantization target band of the past frame and the quantization target band of the current frame is obtained using the information, the first layer band information, and the second layer band information.
  • adaptive prediction determination section 1403 sets the value of third layer prediction information Flag_PRE3 based on the number of common subbands among the subbands included in M123 t ⁇ 1 and M123 t as described above. Set.
  • the quantization method is adaptively switched to either the predictive coding method or the non-predictive coding method.
  • the gain encoding unit 1404 has an internal buffer and stores the quantization gain obtained in the past frame.
  • the gain encoding unit 1404 adaptively switches the quantization method to either the predictive encoding method or the non-predictive encoding method according to the third layer prediction information (Flag_PRE3).
  • gain coding section 1404 uses third layer gain coding information obtained in the current frame and quantization gains C1 t j , C2 t j , and C3 t j according to the following equation (35). Update the buffer.
  • the second layer decoding unit 813 decodes the second layer encoded information input from the encoded information separation unit 801 to generate a second layer decoded spectrum X2 ′′ (k), and the generated second layer decoded spectrum X2 "(K) is output to the adder 805. Since the process of the first layer decoding unit 812 is the same as the process of the second layer decoding unit 216 in the encoding device 111, the description thereof is omitted.
  • Separating section 1601 converts third layer encoded information output from encoded information separating section 801 into third layer band information, third layer shape encoded information, third layer gain encoded information, and third layer prediction. Separate into information. Separating section 1601 outputs the obtained third layer band information and third layer shape coding information to shape decoding section 1602, and outputs the third layer gain coding information and third layer prediction information to gain decoding section 1603. .
  • gain decoding section 1603 uses the built-in gain codebook to convert the third layer gain encoded information.
  • the gain is obtained by performing inverse quantization as it is (that is, without performing predictive decoding).
  • Separation section 1601 separates the third layer encoded information into third layer band information, third layer shape encoded information, third layer gain encoded information, and third layer prediction information.
  • demultiplexing section 1601 outputs the obtained third layer band information and third layer shape coding information to shape decoding section 1602, and outputs the third layer gain coding information and the third layer prediction information to gain decoding section. To 1603.
  • the gain decoding unit 1603 calculates the decoding target band of the current frame among the gains stored in the internal buffer in the above equation (36). The subband gain closest in frequency to is substituted.
  • the gain decoding unit 1603 performs non-predictive decoding. That is, gain decoding section 1603 performs inverse quantization on the gain value according to the following equation (37) using the above gain codebook. Again, the gain is treated as an L-dimensional vector and vector inverse quantization is performed. That is, when predictive decoding is not performed, gain decoding section 1603 directly uses gain code vector GC3 j G_min corresponding to gain encoded information G_min as a gain.
  • gain decoding section 1603 uses the gain obtained by inverse quantization of the current frame and the value of the shape input from shape decoding section 1602 to obtain the third layer decoded spectrum (decoded MDCT) according to the following equation (38).
  • Coefficient) X3 ′′ (k) is calculated.
  • the gain is Gain_q ′ (j ′′ ).
  • gain decoding section 1603 updates the built-in buffer according to equation (35).
  • the gain decoding unit 1603 outputs the third layer decoded spectrum X3 ′′ (k) calculated according to the above equation (38) to the adding unit 805.
  • first layer encoding section 212, second layer encoding section 215, and third layer encoding section 218 determine the band to be encoded for each layer (layer).
  • the frequency parameter encoding method of the current layer is switched based on the encoding result of each layer in the temporally previous processing frame.
  • the encoding efficiency of the frequency parameter of the current frame is improved. Quality can be improved.
  • the gain encoding section of each layer performs adaptive prediction quantization using only the quantization gain of the layers below each layer.
  • the encoding device and the decoding device can perform encoding / decoding under the same conditions, so that the encoding performance is guaranteed. Can do.
  • adaptive prediction determination sections 313, 613, and 1403 perform prediction using band information quantized in the temporally previous processing frame and band information selected in the current frame. Information set.
  • the band information and the prediction information can be calculated in the decoding device 113 by the same process. Therefore, it is not necessary to transmit the prediction information from the encoding device 111 to the decoding device 113 for the configuration employing the above determination method.
  • a configuration for transmitting prediction information is effective as described in the present embodiment.
  • the present invention is not limited to this, and the present invention can be similarly applied to configurations other than the number of layers.
  • multiplexing such as encoded information is performed in two consecutive steps
  • multiplexing may be performed collectively in the subsequent steps (for example, multiplexing unit 305).
  • two steps of the encoded information integration unit 209) when information such as multiplexed encoded information is separated in two consecutive steps, separation may be performed collectively in the previous step (for example, separated from the encoded information separation unit 801). 2 steps with the unit 1601).
  • three or more signals when three or more signals are added in two consecutive steps, they may be added together in a lump (for example, two steps of the addition unit 805 and the addition unit 806).
  • the present invention can also be applied to a case where a signal processing program is recorded and written on a machine-readable recording medium such as a memory, a disk, a tape, a CD, or a DVD, and the operation is performed. Actions and effects similar to those of the form can be obtained.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable / processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.

Abstract

 符号化対象帯域を階層(レイヤ)毎に選択する階層符号化(スケーラブル符号化)方式において、復号信号の品質を改善することができる符号化装置を開示する。この符号化装置(101)は、周波数領域を分割した複数のサブバンドの中から入力スペクトルの第1量子化対象帯域を選択してこの帯域の第1帯域情報を含む第1レイヤ符号化情報を生成する第1レイヤ符号化部(202)と、第1レイヤ符号化情報を用いて生成された第1復号信号と入力スペクトルとを用いて第1レイヤ差分スペクトルを生成する加算部(204)と、第1レイヤ差分スペクトルの第2量子化対象帯域を選択してこの帯域の第2帯域情報を含む第2レイヤ符号化情報を生成する第2レイヤ符号化部(205)と、を具備し、第1レイヤ符号化部(202)は、第1帯域情報および第2帯域情報に基づいて、入力スペクトルの利得の量子化方法を複数の候補から決定する。

Description

符号化装置、復号装置およびこれらの方法
 本発明は、信号を符号化して伝送する通信システムに用いられる符号化装置、復号装置およびこれらの方法に関する。
 インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声・楽音信号を伝送する場合、音声・楽音信号の伝送効率を高めるため、圧縮・符号化技術がよく使われる。また、近年では、単に低ビットレートで音声・楽音信号を符号化するという一方で、より広帯域の音声・楽音信号を高品質に符号化する技術に対するニーズが高まっている。
 このようなニーズに対して、複数の符号化技術を階層的に統合する様々な技術が開発されてきている。例えば非特許文献1には、基本構成単位をモジュール化されたTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)を用いて所望の周波数帯域のスペクトル(MDCT(Modified Discrete Cosine Transform)係数)を階層的に符号化する手法が開示されている。当該モジュールを共通化して複数回使用することにより、シンプルかつ自由度の高いスケーラブル符号化を実現できる。この手法では、各階層(レイヤ)の符号化対象となるサブバンドは予め定められている構成が基本となるが、入力信号の性質に応じて各階層(レイヤ)の符号化対象となるサブバンドの位置を予め定められた帯域の中で変動させる構成も開示されている。
神明夫他、「階層的変換符号化基本モジュールによって構成されるスケーラブル楽音符号化(Scalable Audio Coding Based on Hierarchical Transform Coding Modules)」、電子情報通信学会論文誌A, Vol. J83-A, No.3, pp.241-252, 2000年3月 ITU-T:G.718; Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T Recommendation G.718(2008)
 しかしながら、上記非特許文献1では、例えば、各階層(レイヤ)において符号化対象となるサブバンドの位置を予め定められた帯域の中で変動させる構成において、フレーム毎、またレイヤ毎に符号化対象として選択されるサブバンドが異なる。そのため、符号化対象とする帯域(符号化対象帯域)の周波数パラメータの符号化方法として、時間軸方向での予測符号化を適用したり、レイヤ軸方向での予測符号化を適用したりすることができず、符号化効率が不十分であるという問題点がある。その結果、生成される復号音声の品質が不十分となる問題点もある。
 本発明の目的は、符号化対象帯域を階層(レイヤ)毎に選択する階層符号化(スケーラブル符号化)方式において、復号信号の品質を改善することができる符号化装置、復号装置およびこれらの方法を提供することである。
 本発明の符号化装置は、少なくとも2つの符号化レイヤを有する符号化装置であって、周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化手段と、前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化手段と、を具備し、前記第1レイヤ符号化手段は、前記第1帯域情報に基づいて、前記第1利得の符号化方法を複数の候補から決定する判定手段、を具備する。
 本発明の符号化装置は、少なくとも2つの符号化レイヤを有する符号化装置であって、周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化手段と、前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化手段と、を具備し、前記第1レイヤ符号化手段あるいは前記第2レイヤ符号化手段の少なくとも一方は、自レイヤ以下のレイヤにおける帯域情報に基づいて、各レイヤの量子化対象帯域における前記各レイヤの符号化手段への入力信号の利得の符号化方法を複数の候補から決定する判定手段、を具備する。
 本発明の復号装置は、少なくとも2つの符号化レイヤを有する符号化装置において生成された情報を受信して復号する復号装置であって、前記符号化装置の第1レイヤの符号化により得られた、周波数領域を分割した複数のサブバンドの中から前記第1レイヤの第1量子化対象帯域を選択して生成された第1帯域情報を含む前記第1符号化情報と、前記第1符号化情報を用いた前記符号化装置の第2レイヤの符号化により得られた、前記複数のサブバンドの中から前記第2レイヤの第2量子化対象帯域を選択して生成された第2帯域情報を含む前記第2符号化情報と、を有する前記情報を受信する受信手段と、前記情報から得られる前記第1符号化情報を入力し、前記第1帯域情報に基づいて設定される前記第1量子化対象帯域に対する第1復号信号を生成する第1レイヤ復号手段と、前記情報から得られる前記第2符号化情報を入力し、前記第2帯域情報に基づいて設定される前記第2量子化対象帯域に対する第2復号信号を生成する第2レイヤ復号手段と、を具備し、前記第1レイヤ復号手段は、前記第1帯域情報に基づいて、前記第1復号信号の利得の復号方法を複数の候補から決定する判定手段を、を具備する。
 本発明の符号化方法は、少なくとも2つの符号化レイヤを有する符号化方法であって、周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化ステップと、前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化ステップと、を具備し、前記第1レイヤ符号化ステップは、前記第1帯域情報に基づいて、前記第1利得の符号化方法を複数の候補から決定する判定ステップ、を具備する。
 本発明の復号方法は、少なくとも2つの符号化レイヤを有する符号化装置において生成された情報を受信して復号する復号方法であって、前記符号化装置の第1レイヤの符号化により得られた、周波数領域を分割した複数のサブバンドの中から前記第1レイヤの第1量子化対象帯域を選択して生成された第1帯域情報を含む前記第1符号化情報と、前記第1符号化情報を用いた前記符号化装置の第2レイヤの符号化により得られた、前記複数のサブバンドの中から前記第2レイヤの第2量子化対象帯域を選択して生成された第2帯域情報を含む前記第2符号化情報と、を有する前記情報を受信する受信ステップと、前記情報から得られる前記第1符号化情報を入力し、前記第1帯域情報に基づいて設定される前記第1量子化対象帯域に対する第1復号信号を生成する第1レイヤ復号ステップと、前記情報から得られる前記第2符号化情報を入力し、前記第2帯域情報に基づいて設定される前記第2量子化対象帯域に対する第2復号信号を生成する第2レイヤ復号ステップと、を具備し、前記第1レイヤ復号ステップは、前記第1帯域情報に基づいて、前記第1復号信号の利得の復号方法を複数の候補から決定する判定ステップを、を具備する。
 本発明によれば、符号化対象とする帯域を階層(レイヤ)毎に選択する階層符号化(スケーラブル符号化)方式において、現フレームの周波数パラメータの符号化効率が向上し、その結果復号信号の品質を改善することができる。
本発明の実施の形態1に係る符号化装置および復号装置を有する通信システムの構成を示すブロック図 実施の形態1に係る符号化装置の内部の主要な構成を示すブロック図 図2に示した第1レイヤ符号化部の内部の主要な構成を示すブロック図 実施の形態1に係るリージョンの構成を示す図 図2に示した第1レイヤ復号部の内部の主要な構成を示すブロック図 図2に示した第2レイヤ符号化部の内部の主要な構成を示すブロック図 図2に示した第2レイヤ復号部の内部の主要な構成を示すブロック図 実施の形態1に係る復号装置の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る符号化装置の内部の主要な構成を示すブロック図 図9に示した第1レイヤ符号化部の内部の主要な構成を示すブロック図 図9に示した第1レイヤ復号部の内部の主要な構成を示すブロック図 図9に示した第2レイヤ符号化部の内部の主要な構成を示すブロック図 図9に示した第2レイヤ復号部の内部の主要な構成を示すブロック図 図9に示した第3レイヤ符号化部の内部の主要な構成を示すブロック図 実施の形態2に係る復号装置の内部の主要な構成を示すブロック図 図15に示した第3レイヤ復号部の内部の主要な構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置および復号装置として、音声符号化装置および音声復号装置を例にとって説明する。
 本発明は、符号化対象とする帯域を階層(レイヤ)毎に選択する階層符号化(スケーラブル符号化)方式における技術である。具体的には、階層符号化(スケーラブル符号化)方式において、符号化対象帯域の周波数パラメータの量子化方法として、時間軸方向、およびレイヤ軸(階層的)方向での予測符号化又は非予測符号化を適応的に切り替える技術である。なお、非特許文献2には、非階層的符号化方式において、符号化対象帯域の周波数パラメータの量子化方法として、予測符号化/非予測符号化を適応的に切り替える技術が開示されている。以下の各実施の形態では、階層符号化(スケーラブル符号化)方式において、符号化対象帯域の周波数パラメータの量子化方法として、予測符号化/非予測符号化を適応的に切り替え、周波数パラメータの効率的な予測符号化を実現する技術を開示する。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る符号化装置および復号装置を有する通信システムの構成を示すブロック図である。図1において、通信システムは、符号化装置101と復号装置103とを備え、それぞれ伝送路102を介して通信可能な状態となっている。なお、符号化装置101および復号装置103はいずれも、通常、基地局装置あるいは通信端末装置等に搭載されて用いられる。
 符号化装置101は、入力信号をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号をx(n=0、…、N-1)と表すこととする。nは、Nサンプルずつ区切られた入力信号のうち、信号要素のn+1番目を示す。符号化装置101は、符号化された入力情報(以下「符号化情報」という)を伝送路102を介して復号装置103に送信する。
 復号装置103は、伝送路102を介して符号化装置101から送信された符号化情報を受信し、これを復号し出力信号を得る。
 図2は、図1に示した符号化装置101の内部の主要な構成を示すブロック図である。符号化装置101は、一例として3つの符号化階層(レイヤ)から成る階層符号化装置とする。ここで、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤと呼ぶことにする。
 直交変換処理部201は、バッファbuf1(n)(n=0、…、N-1)を内部に有し、入力信号x1(n)を修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)する。これにより、入力信号x1(n)が、周波数領域パラメータ(周波数領域信号)に変換される。
 次に、直交変換処理部201における直交変換処理について、その計算手順と内部バッファへのデータ出力に関して説明する。
 まず、直交変換処理部201は、下記の式(1)によりバッファbuf1(n)を、「0」を初期値として初期化する。
Figure JPOXMLDOC01-appb-M000001
 次いで、直交変換処理部201は、下記の式(2)に従って、入力信号x1(n)に対し修正離散コサイン変換(MDCT)を行い、入力信号x1(n)のMDCT係数(以下「入力スペクトル」と呼ぶ)X1(k)を求める。
Figure JPOXMLDOC01-appb-M000002
 ここで、kは1フレームにおける各サンプルのインデックスを示す。直交変換処理部201は、入力信号x1(n)とバッファbuf1(n)とを結合させたベクトルであるx1’(n)を下記の式(3)により求める。
Figure JPOXMLDOC01-appb-M000003
 次に、直交変換処理部201は、式(4)によりバッファbuf1(n)を更新する。
Figure JPOXMLDOC01-appb-M000004
 そして、直交変換処理部201は、入力スペクトルX1(k)を第1レイヤ符号化部202、および加算部204に出力する。
 第1レイヤ符号化部202には、直交変換処理部201から入力スペクトルX1(k)が入力される。また、第1レイヤ符号化部202には、第2レイヤ符号化部205から時間的に1つ前の処理フレームにおける第2レイヤ符号化情報に含まれる第2レイヤ利得符号化情報および第2レイヤ帯域情報が入力される。また、第1レイヤ符号化部202には、第3レイヤ符号化部208から時間的に1つ前の処理フレームにおける第3レイヤ符号化情報に含まれる第3レイヤ利得符号化情報および第3レイヤ帯域情報が入力される。
 第1レイヤ符号化部202は、これら入力された情報を用いて、入力スペクトルX1(k)を符号化し、第1レイヤ符号化情報を生成する。次に、第1レイヤ符号化部202は、生成した第1レイヤ符号化情報を、第1レイヤ復号部203、および符号化情報統合部209に出力する。なお、第1レイヤ符号化部202の詳細については後述する。
 第1レイヤ復号部203には、第1レイヤ符号化部202から第1レイヤ符号化情報が入力される。また、第1レイヤ復号部203には、第2レイヤ符号化部205から時間的に1つ前の処理フレームにおける第2レイヤ利得符号化情報が入力される。また、第1レイヤ復号部203には、第3レイヤ符号化部208から時間的に1つ前の処理フレームにおける第3レイヤ利得符号化情報が入力される。
 第1レイヤ復号部203は、これら帯域情報および利得符号化情報を用いて、第1レイヤ符号化情報を復号して、第1レイヤ復号スペクトルを算出する。次に、第1レイヤ復号部203は、生成した第1レイヤ復号スペクトルを加算部204に出力する。なお、第1レイヤ復号部203の詳細については後述する。
 加算部204は、第1レイヤ復号スペクトルの極性を反転させて、入力スペクトルに加算することにより、入力スペクトルと第1レイヤ復号スペクトルとの差分スペクトルを算出する。加算部204は、得られた差分スペクトルを第1レイヤ差分スペクトルとして第2レイヤ符号化部205に出力する。
 第2レイヤ符号化部205は、加算部204から入力される第1レイヤ差分スペクトルを用いて第2レイヤ符号化情報を生成する。次に、第2レイヤ符号化部205は、生成した第2レイヤ符号化情報を第2レイヤ復号部206、および符号化情報統合部209に出力する。また、第2レイヤ符号化部205は、第2レイヤ符号化情報に含まれる第2レイヤ利得符号化情報および第2レイヤ帯域情報を第1レイヤ符号化部202に出力する。これにより、第1レイヤ符号化部202では、次の処理フレームにおいて、第2レイヤ利得符号化情報および第2レイヤ帯域情報が利用されて符号化が行われる。なお、第2レイヤ符号化部205の詳細については後述する。
 第2レイヤ復号部206は、第2レイヤ符号化部205から入力される第2レイヤ符号化情報を復号して、第2レイヤ復号スペクトルを算出する。次に、第2レイヤ復号部206は、生成した第2レイヤ復号スペクトルを加算部207に出力する。なお、第2レイヤ復号部206の詳細については後述する。
 加算部207は、第2レイヤ復号スペクトルの極性を反転させて、第1レイヤ差分スペクトルに加算することにより、第1レイヤ差分スペクトルと第2レイヤ復号スペクトルとの差分スペクトルを算出する。加算部207は、得られた差分スペクトルを第2レイヤ差分スペクトルとして第3レイヤ符号化部208に出力する。
 第3レイヤ符号化部208は、加算部207から入力される第2レイヤ差分スペクトルを用いて第3レイヤ符号化情報を生成し、生成した第3レイヤ符号化情報を符号化情報統合部209に出力する。また、第3レイヤ符号化部208は、第3レイヤ符号化情報に含まれる第3レイヤ利得符号化情報および第3レイヤ帯域情報を、第1レイヤ符号化部202および第1レイヤ復号部203に出力する。これにより、第1レイヤ符号化部202および第1レイヤ復号部203では、次の処理フレームにおいて、第3レイヤ利得符号化情報および第3レイヤ帯域情報が利用されて符号化が行われる。なお、第3レイヤ符号化部208の詳細については後述する。
 符号化情報統合部209は、第1レイヤ符号化部202から入力される第1レイヤ符号化情報と、第2レイヤ符号化部205から入力される第2レイヤ符号化情報と、第3レイヤ符号化部208から入力される第3レイヤ符号化情報とを統合する。次に、符号化情報統合部209は、統合した情報源符号に対し、必要であれば伝送誤り符号などを付加した上でこれを符号化情報として伝送路102に出力する。
 図3は、第1レイヤ符号化部202の主要な構成を示すブロック図である。
 この図において、第1レイヤ符号化部202は、帯域選択部301、形状符号化部302、適応予測判定部303、利得符号化部304、および多重化部305を備える。
 帯域選択部301は、直交変換処理部201から入力される入力スペクトルを複数のサブバンドに分割し、複数のサブバンドから量子化対象となる帯域(量子化対象帯域)を選択する。帯域選択部301は、選択した量子化対象帯域を示す帯域情報(第1レイヤ帯域情報)を、形状符号化部302、適応予測判定部303、および多重化部305に出力する。また、帯域選択部301は、入力スペクトルを形状符号化部302に出力する。なお、形状符号化部302への入力スペクトルの入力は、直交変換処理部201から帯域選択部301への入力とは別に、直交変換処理部201から直接入力されるようにしても良い。帯域選択部301の処理の詳細は後述する。
 形状符号化部302は、帯域選択部301から入力される入力スペクトルのうち、第1レイヤ帯域情報が示す帯域に対応するスペクトル(MDCT係数)を用いて形状情報の符号化を行って第1レイヤ形状符号化情報を生成する。次に、形状符号化部302は、生成した第1レイヤ形状符号化情報を多重化部305に出力する。また、形状符号化部302は、形状符号化時に算出される理想利得(利得情報)を利得符号化部304に出力する。形状符号化部302の処理の詳細は後述する。
 適応予測判定部303には、帯域選択部301から第1レイヤ帯域情報が入力される。また、適応予測判定部303には、第2レイヤ符号化部205から、第2レイヤ帯域情報が入力される。また、適応予測判定部303には、第3レイヤ符号化部208から、第3レイヤ帯域情報が入力される。適応予測判定部303は、内部バッファを有し、過去に帯域選択部301、第2レイヤ符号化部205、および第3レイヤ符号化部208からそれぞれ入力された第1レイヤ帯域情報、第2レイヤ帯域情報、および3レイヤ帯域情報を記憶する。
 適応予測判定部303は、入力される各帯域情報(第1レイヤ帯域情報、第2レイヤ帯域情報、第3レイヤ帯域情報)を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。共通のサブバンドの数が予め定められた所定値以上の場合には、適応予測判定部303は、第1レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行うと判定する。一方、共通のサブバンドの数が所定値より小さい場合には、適応予測判定部303は、第1レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行わない(つまり、予測を適用しない符号化を行う)と判定する。
 適応予測判定部303は、判定結果を予測情報(Flag_PRE)として利得符号化部304および多重化部305に出力する。ここで、適応予測判定部303は、予測を行うと判定した場合には、Flag_PREの値を1とし、予測を行わないと判定した場合には、Flag_PREの値を0とする。なお、適応予測判定部303の処理の詳細は後述する。
 利得符号化部304には、形状符号化部302から理想利得が入力される。また、利得符号化部304には、適応予測判定部303から、予測情報が入力される。また、利得符号化部304には、第2レイヤ符号化部205および第3レイヤ符号化部208から、時間的に1つ前の処理フレームにおける第2レイヤ利得符号化情報および第3レイヤ利得符号化情報が入力される。
 利得符号化部304は、予測情報が予測符号化を行うという判定結果を示す場合には、形状符号化部302から入力される理想利得に対して予測符号化を行って、第1レイヤ利得符号化情報を得る。このとき、利得符号化部304は、内蔵のバッファに記憶されている過去のフレームの量子化利得、内蔵の利得コードブック、第2レイヤ利得符号化情報、および第3レイヤ利得符号化情報を用いて、理想利得に対して予測符号化を行う。
 一方、利得符号化部304は、予測情報が予測符号化を行わないという判定結果を示す場合には、形状符号化部302から入力される理想利得を、そのまま量子化する(つまり、予測を適用せずに量子化する)。
 利得符号化部304は、理想利得を符号化して得られる第1レイヤ利得符号化情報を多重化部305に出力する。利得符号化部304の処理の詳細は後述する。
 多重化部305は、第1レイヤ帯域情報、第1レイヤ形状符号化情報、第1レイヤ利得符号化情報、および予測情報を多重化して第1レイヤ符号化情報を生成する。多重化部305は、生成した第1レイヤ符号化情報を、第1レイヤ復号部203および符号化情報統合部209に出力する。
 上記のような構成を有する第1レイヤ符号化部202は以下の動作を行う。
 帯域選択部301には、直交変換処理部201から入力スペクトルX1(k)が入力される。
 帯域選択部301は、まず、入力スペクトルX1(k)を複数のサブバンドに分割する。ここでは、J(Jは自然数)個のサブバンドに均等に分割する場合を例に挙げて説明する。そして、帯域選択部301は、J個のサブバンドの中で連続するL(Lは自然数)個のサブバンドを選択し、M(Mは自然数)種類のサブバンドのグループを得る。以下、このM種類のサブバンドのグループをリージョンと呼ぶ。
 図4は、帯域選択部301において得られるリージョンの構成を例示する図である。
 この図において、サブバンドの数は17個(J=17)であり、リージョンの種類は8種類(M=8)であり、各リージョンは連続する5個(L=5)のサブバンドで構成されている。そのうち、例えばリージョン4はサブバンド6~10からなる。
 次いで、帯域選択部301は、下記の式(5)に従い、M種類の各リージョンの平均エネルギE1(m)を算出する。
Figure JPOXMLDOC01-appb-M000005
 この式において、jはJ個の各サブバンドのインデックスを示し、mは、M種類の各リージョンのインデックスを示す。なお、S(m)は、リージョンmを構成するL個のサブバンドのインデックスのうちの最小値を示し、B(j)は、サブバンドjを構成する複数のMDCT係数のインデックスのうちの最小値を示す。W(j)は、サブバンドjのバンド幅を示し、以下の説明では、J個の各サブバンドのバンド幅が全て等しい場合、すなわちW(j)が定数である場合を例にとって説明する。
 次に、帯域選択部301は、平均エネルギE1(m)が最大となるリージョン、例えばサブバンドj”~(j”+L-1)からなる帯域を量子化対象となる帯域(量子化対象帯域)として選択する。帯域選択部301は、選択したリージョンを示すインデックスm_maxを第1レイヤ帯域情報として形状符号化部302、適応予測判定部303、および多重化部305に出力する。また、帯域選択部301は、量子化対象帯域の入力スペクトルX1(k)を形状符号化部302に出力する。なお、以下の説明では、帯域選択部301が選択した量子化対象帯域を示すバンドインデックスをj”~(j”+L-1)とする。
 形状符号化部302は、第1レイヤ帯域情報が示す帯域に対応する入力スペクトルX1(k)に対して、サブバンド毎に形状量子化を行う。具体的には、形状符号化部302はL個の各サブバンド毎に、SQ個の形状コードベクトルからなる内蔵の形状コードブックを探索して、下記の式(6)の評価尺度Shape_q(i)が最大となる形状コードベクトルのインデックスを求める。
Figure JPOXMLDOC01-appb-M000006
 この式において、SC は形状コードブックを構成する形状コードベクトルを示し、iは形状コードベクトルのインデックスを示し、kは形状コードベクトルの要素のインデックスを示す。
 形状符号化部302は、上記の式(6)の評価尺度Shape_q(i)が最大となる形状コードベクトルのインデックスS_maxを第1レイヤ形状符号化情報として多重化部305に出力する。また、形状符号化部302は、下記の式(7)に従い、理想利得Gain_i(j)を算出し、算出した理想利得Gain_i(j)を利得符号化部304に出力する。
Figure JPOXMLDOC01-appb-M000007
 適応予測判定部303は、内蔵バッファを有し、過去のフレームにおける第1レイヤ帯域情報を記憶する。以下では、適応予測判定部303が、過去の1フレーム分の帯域情報を記憶するバッファを内蔵している場合を例に挙げて説明する。
 適応予測判定部303には、第2レイヤ符号化部205から、時間的に1つ前の処理フレームにおける第2レイヤ帯域情報が入力される。また、適応予測判定部303には、第3レイヤ符号化部208から、時間的に1つ前の処理フレームにおける第3レイヤ帯域情報が入力される。
 適応予測判定部303は、まず、過去のフレームにおける第1レイヤ帯域情報、第2レイヤ帯域情報、第3レイヤ帯域情報、および現フレームにおける第1レイヤ帯域情報を用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数を求める。
 次に、適応予測判定部303は、共通のサブバンドの数が所定値以上の場合は、予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合は、予測符号化を行わないと判定する。具体的には、適応予測判定部303は、時間的に1つ前の処理フレームにおける第1レイヤ帯域情報が示すサブバンド(集合M1t-1とする)、第2レイヤ帯域情報が示すサブバンド(集合M2t-1とする)、および第3レイヤ帯域情報が示すサブバンド(集合M3t-1とする)の和集合のサブバンド群(集合M123t-1とする)と、現フレームにおける第1レイヤ帯域情報が示すL個のサブバンド(集合M1とする)とを比較する。
 ここで、上記集合M123t-1は、集合M1t-1、集合M2t-1、および集合M3t-1を用いて、以下の式(8)のように表せる。
Figure JPOXMLDOC01-appb-M000008
 そして、適応予測判定部303は、共通のサブバンドの数がP個以上の場合、予測符号化を行うと判定し、Flag_PRE=1に設定する。一方、適応予測判定部303は、共通のサブバンドの数がP個未満の場合、予測符号化を行わないと判定し、Flag_PRE=0に設定する。
 このようにして、適応予測判定部303は、M1およびM123t-1に含まれるサブバンドのうち、共通するサブバンドの数に基づいて、予測情報Flag_PREの値を上記のように設定する。これにより、量子化方法が適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替えられる。
 次に、適応予測判定部303は、判定結果を示す情報として予測情報(Flag_PRE)を利得符号化部304および多重化部305に出力する。次いで、適応予測判定部303は、現フレームにおける第1レイヤ帯域情報、第2レイヤ帯域情報、および3レイヤ帯域情報を用いて、内蔵のバッファを更新する。
 利得符号化部304は、内部バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。
 利得符号化部304には、形状符号化部302から理想利得が入力される。また、利得符号化部304には、適応予測判定部303から、予測情報(Flag_PRE)が入力される。また、利得符号化部304には、第2レイヤ符号化部205および第3レイヤ符号化部208から、第2レイヤ利得符号化情報および第3レイヤ利得符号化情報が入力される。
 利得符号化部304は、予測情報(Flag_PRE)に応じて、量子化方法を適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替える。
 [Flag_PRE=1の場合]
 この場合、利得符号化部304は、予測符号化を行う。すなわち、利得符号化部304は、内蔵のバッファに記憶されている時間的に3つ前までの処理フレームにおいて量子化された量子化利得、第2レイヤ利得符号化情報、および第3レイヤ利得符号化情報を用いて、現フレームの利得を予測することにより、現フレームの量子化利得を生成する。具体的には、利得符号化部304は、L個の各サブバンド毎に、GQ個の利得コードベクトルからなる内蔵の利得コードブックを探索して、下記の式(9)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスを求める。
Figure JPOXMLDOC01-appb-M000009
 この式において、GC1 は第1レイヤ符号化部202における利得コードブックを構成する利得コードベクトルを示し、iは利得コードベクトルのインデックスを示し、jは利得コードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が5の場合(L=5の場合)、jは0~4の値を取る。また、サブバンドインデックスj”は、帯域選択部301で選択された帯域のうち先頭のサブバンドを示すインデックスである。ここで、C1 は時間的にtフレーム前に第1レイヤ符号化部202において量子化された利得を示す。例えば、t=1の場合、C1 は時間的に1フレーム前に第1レイヤ符号化部202において量子化された利得を示す。同様に、C2 およびC3 はそれぞれ時間的にtフレーム前に第2レイヤ符号化部205および第3レイヤ符号化部208において量子化された利得を示す。またα~αは、利得符号化部304に記憶されている4次の線形予測係数である。なお、利得符号化部304は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル量子化を行う。
 なお、内蔵のバッファに、過去フレームにおける量子化対象帯域の利得が存在しない場合、利得符号化部304は、式(9)において、内蔵のバッファに記憶されている利得のうち、現フレームにおける量子化対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE=0の場合]
 この場合、利得符号化部304は、非予測符号化を行う。具体的には、利得符号化部304は、下記の式(10)に従い、形状符号化部302から入力される理想利得Gain_i(j)を直接量子化する。ここでも、利得符号化部304は、理想利得をL次元ベクトルとして扱い、ベクトル量子化を行う。
Figure JPOXMLDOC01-appb-M000010
 利得符号化部304は、上記の式(9)または式(10)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスG_minを、第1レイヤ利得符号化情報として多重化部305に出力する。
 また、利得符号化部304は、現フレームで得られた第1レイヤ利得符号化情報G_min、第1レイヤ帯域情報、および量子化利得C1 、C2 、C3 を用いて、下記の式(11)に従い、内蔵のバッファを更新する。
Figure JPOXMLDOC01-appb-M000011
 多重化部305は、第1レイヤ帯域情報、第1レイヤ形状符号化情報、第1レイヤ利得符号化情報、および予測情報を多重化して、第1レイヤ符号化情報を生成する。次に、多重化部305は、生成した第1レイヤ符号化情報を、第1レイヤ復号部203および符号化情報統合部209に出力する。
 図5は、第1レイヤ復号部203の主要な構成を示すブロック図である。
 この図において、第1レイヤ復号部203は、分離部501、形状復号部502、および利得復号部503を備える。
 分離部501は、第1レイヤ符号化部202から出力される第1レイヤ符号化情報を、第1レイヤ帯域情報、第1レイヤ形状符号化情報、第1レイヤ利得符号化情報、および予測情報に分離する。分離部501は、得られる第1レイヤ帯域情報および第1レイヤ形状符号化情報を形状復号部502に出力し、第1レイヤ利得符号化情報および予測情報を利得復号部503に出力する。
 形状復号部502は、分離部501から入力される第1レイヤ形状符号化情報を復号することにより、分離部501から入力される第1レイヤ帯域情報が示す量子化対象帯域に対応するMDCT係数の形状の値を求める。形状復号部502は、求めたMDCT係数の形状の値を利得復号部503に出力する。形状復号部502の処理の詳細は後述する。
 利得復号部503には、第2レイヤ符号化部205から時間的に1つ前の処理フレームにおける第2レイヤ利得符号化情報が入力される。また、利得復号部503には、第3レイヤ符号化部208から時間的に1つ前の処理フレームにおける第3レイヤ利得符号化情報が入力される。また、利得復号部503には、分離部501から第1レイヤ利得符号化情報および予測情報が入力される。また、利得復号部503には、形状復号部502から、MDCT係数の形状の値が入力される。
 利得復号部503は、予測情報が予測復号を行うことを示す場合(つまり、Flag_PRE=1の場合)は、分離部501から入力される第1レイヤ利得符号化情報に対し予測復号を行って利得を得る。ここで、利得復号部503は、第2レイヤ利得符号化情報、第3レイヤ利得符号化情報、内蔵のバッファに記憶されている過去のフレームの利得、および内蔵の利得コードブックを用いて、第1レイヤ利得符号化情報に対し予測復号を行う。
 一方、利得復号部503は、予測情報が予測復号を行わないことを示す場合(つまり、Flag_PRE=0の場合)、内蔵の利得コードブックを用いて、第1レイヤ利得符号化情報をそのまま逆量子化して(つまり予測復号せずに)利得を得る。
 利得復号部503は、得られる利得、および形状復号部502から入力される形状の値を用いて量子化対象帯域のMDCT係数を求め、求めたMDCT係数を第1レイヤ復号スペクトルとして加算部204に出力する。利得復号部503の処理の詳細は後述する。
 上記のような構成を有する第1レイヤ復号部203は以下の動作を行う。
 分離部501は、第1レイヤ符号化情報を、第1レイヤ帯域情報、第1レイヤ形状符号化情報、第1レイヤ利得符号化情報、および予測情報に分離する。次に、分離部501は、得られる第1レイヤ帯域情報、および第1レイヤ形状符号化情報を形状復号部502に出力し、第1レイヤ利得符号化情報、および予測情報を利得復号部503に出力する。
 形状復号部502は、第1レイヤ符号化部202の形状符号化部302が備える形状コードブックと同様な形状コードブックを内蔵し、分離部501から入力される第1レイヤ形状符号化情報S_maxをインデックスとする形状コードベクトルを探索する。形状復号部502は、探索した形状コードベクトルを、分離部501から入力される第1レイヤ帯域情報が示す量子化対象帯域のMDCT係数の形状の値として利得復号部503に出力する。ここでは、形状の値として探索された形状コードベクトルをShape_q(k)(k=B(j”),…,B(j”+L)-1)と記す。
 利得復号部503は、内蔵バッファを有し、過去のフレームにおいて得られた利得を記憶する。
 利得復号部503は、予測情報(Flag_PRE)に応じて、逆量子化方法を適応的に予測復号方法または非予測復号方法のいずれかの方法に切り替える。
 [Flag_PRE=1の場合]
 この場合、利得復号部503は、予測復号する。すなわち、利得復号部503は、内蔵のバッファに記憶されている過去のフレームの利得を用いて、現フレームの利得を予測することにより逆量子化を行う。具体的には、利得復号部503は、第1レイヤ符号化部202の利得符号化部304と同様な利得コードブックを内蔵しており、下記の式(12)に従い、利得の逆量子化を行って利得Gain_q’を得る。
Figure JPOXMLDOC01-appb-M000012
 ここで、C1” は時間的にtフレーム前の第1レイヤ復号部203において逆量子化された利得値を示す。例えば、t=1の場合、C1” は1フレーム前の第1レイヤ復号部203において逆量子化された利得を示す。同様に、C2” およびC3” はそれぞれ時間的にtフレーム前の第2レイヤ復号部206および第3レイヤ符号化部208において逆量子化された利得を示す。また、サブバンドインデックスj”は、第1レイヤ帯域情報が示す帯域のうち先頭のサブバンドを示すインデックスである。また、α~αは、利得復号部503に記憶されている4次の線形予測係数である。利得復号部503は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル逆量子化を行う。
 なお、内蔵のバッファに過去フレームの復号対象帯域における利得が存在しない場合、利得復号部503は、上記の式(12)において、内部バッファに記憶されている利得のうち、現フレームの復号対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE=0の場合]
 この場合、利得復号部503は、非予測復号する。すなわち、利得復号部503は、上記の利得コードブックを用いて、下記の式(13)に従い利得を逆量子化する。ここでも、利得をL次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、予測復号を行わない場合、利得復号部503は、第1レイヤ利得符号化情報G_minに対応する利得コードベクトルGC1 G_minを直接利得とする。
Figure JPOXMLDOC01-appb-M000013
 次いで、利得復号部503は、現フレームの逆量子化で得られる利得、および形状復号部502から入力される形状の値を用いて、下記の式(14)に従い第1レイヤ復号スペクトル(復号MDCT係数)X1”(k)を算出する。なお、MDCT係数の逆量子化において、kがB(j”)~B(j”+1)-1内に存在する場合、利得はGain_q’(j”)の値をとる。
Figure JPOXMLDOC01-appb-M000014
 次に、利得復号部503は、下記の式(15)に従い内蔵のバッファを更新する。
Figure JPOXMLDOC01-appb-M000015
 利得復号部503は、上記の式(14)に従い算出された第1レイヤ復号スペクトルX1”(k)を加算部204に出力する。
 図6は、第2レイヤ符号化部205の主要な構成を示すブロック図である。
 この図において、第2レイヤ符号化部205は、帯域選択部601、形状符号化部602、利得符号化部603、および多重化部604を備える。
 帯域選択部601は、加算部204から入力される第1レイヤ差分スペクトルを複数のサブバンドに分割し、複数のサブバンドから量子化対象となる帯域(量子化対象帯域)を選択する。帯域選択部601は、選択した量子化対象帯域を示す帯域情報(第2レイヤ帯域情報)を形状符号化部602、多重化部604に出力する。なお、形状符号化部602への第1レイヤ差分スペクトルの入力は、加算部204から帯域選択部601への入力とは別に、加算部204から直接入力されるようにしても良い。帯域選択部601の処理の詳細は上述した帯域選択部301と同様であるため、説明を省略する。
 形状符号化部602は、第1レイヤ差分スペクトルのうち、第2レイヤ帯域情報が示す帯域に対応するスペクトル(MDCT係数)を用いて形状情報の符号化を行って第2レイヤ形状符号化情報を生成する。次に、形状符号化部602は、生成した第2レイヤ形状符号化情報を多重化部604に出力する。また、形状符号化部602は、形状符号化時に算出される理想利得(利得情報)を利得符号化部603に出力する。形状符号化部602の処理の詳細は上述した形状符号化部302と同様であるため、説明を省略する。
 利得符号化部603には、形状符号化部602から理想利得が入力される。利得符号化部603は、形状符号化部602から入力される理想利得をそのまま量子化して(つまり、予測を適用せずに量子化して)、第2レイヤ利得符号化情報を得る。利得符号化部603は、得られる第2レイヤ利得符号化情報を多重化部604に出力する。利得符号化部603の処理の詳細は、上述した利得符号化部304において、予測情報が予測符号化を行わないという判定結果を示す場合(Flag_PRE=0)と同様の処理のため、ここでは説明を省略する。但し、利得符号化部603は、利得符号化部304の処理において用いられたGC1 を、GC2 に置き換えて処理する。ここで、GC2 は利得符号化部603が用いる利得コードブックを構成する利得コードベクトルである。
 多重化部604は、第2レイヤ帯域情報、第2レイヤ形状符号化情報、および第2レイヤ利得符号化情報を多重化して第2レイヤ符号化情報を生成する。多重化部604は、第2レイヤ符号化情報を第2レイヤ復号部206および符号化情報統合部209に出力する。
 以上が、第2レイヤ符号化部205の処理説明である。
 図7は、第2レイヤ復号部206の主要な構成を示すブロック図である。
 この図において、第2レイヤ復号部206は、分離部701、形状復号部702、および利得復号部703を備える。
 分離部701は、第2レイヤ符号化部205から出力される第2レイヤ符号化情報を、第2レイヤ帯域情報、第2レイヤ形状符号化情報、および第2レイヤ利得符号化情報に分離する。分離部701は、得られる第2レイヤ帯域情報および第2レイヤ形状符号化情報を形状復号部702に出力し、第2レイヤ利得符号化情報を利得復号部703に出力する。
 形状復号部702は、分離部701から入力される第2レイヤ形状符号化情報を復号することにより、分離部701から入力される第2レイヤ帯域情報が示す量子化対象帯域に対応する復号MDCT係数の形状の値を求める。形状復号部702は、求めた復号MDCT係数の形状の値を利得復号部703に出力する。形状復号部702の処理の詳細は、上述した形状復号部502と同様であるため、ここでは説明を省略する。
 利得復号部703は、分離部701から入力される第2レイヤ利得符号化情報をそのまま逆量子化して(つまり、予測復号せずに逆量子化して)利得を得る。利得復号部703は、得られる利得、および形状復号部702から入力される復号MDCT係数の形状の値を用いて量子化対象帯域の復号MDCT係数を求める。利得復号部703は、求めた復号MDCT係数を第2レイヤ復号スペクトルとして加算部207に出力する。利得復号部703の処理の詳細は、上述した利得復号部503において、予測情報が予測符号化を行わないという判定結果を示す場合(Flag_PRE=0)と同様の処理のため、ここでは説明を省略する。但し、利得復号部703は、利得復号部503の処理において用いられたGC1 を、GC2 に置き換えて処理する。ここで、GC2 は、利得復号部703が用いる利得コードブックを構成する利得コードベクトルである。
 以上が、第2レイヤ復号部206の処理説明である。
 第3レイヤ符号化部208の内部構成、および処理については、入出力される信号の名称が異なるという点以外は、第2レイヤ符号化部205の内部構成および処理と同様であるため、ここでは説明を省略する。但し、第3レイヤ符号化部208は、第2レイヤ符号化部205の処理において用いられたGC2 を、GC3 に置き換えて処理する。ここで、GC3 は、第3レイヤ符号化部208で用いる利得コードブックを構成する利得コードベクトルである。
 以上が符号化装置101の処理説明である。
 図8は、図1に示した復号装置103の内部の主要な構成を示すブロック図である。復号装置103は、一例として3つの復号階層(レイヤ)から成る階層復号装置とする。ここでは、符号化装置101側と同様、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤと呼ぶことにする。
 符号化情報分離部801は、伝送路102を介して符号化装置101から送られる符号化情報を入力とし、符号化情報を各レイヤの符号化情報に分離し、それぞれの復号処理を担当する復号部に出力する。具体的には、符号化情報分離部801は、符号化情報中に含まれる第1レイヤ符号化情報を第1レイヤ復号部802に出力する。また、符号化情報分離部801は、符号化情報中に含まれる第2レイヤ符号化情報を第2レイヤ復号部803に出力する。符号化情報分離部801は、符号化情報中に含まれる第3レイヤ符号化情報を第3レイヤ復号部804に出力する。
 第1レイヤ復号部802は、符号化情報分離部801から入力される第1レイヤ符号化情報を復号して第1レイヤ復号スペクトルX1”(k)を生成し、生成した第1レイヤ復号スペクトルX1”(k)を加算部806に出力する。第1レイヤ復号部802の処理は、上述した第1レイヤ復号部203の処理と同一であるためここでは説明を省略する。
 第2レイヤ復号部803は、符号化情報分離部801から入力される第2レイヤ符号化情報を復号して第2レイヤ復号スペクトルX2”(k)を生成し、生成した第2レイヤ復号スペクトルX2”(k)を加算部805に出力する。また、第2レイヤ復号部803は、第2レイヤ符号化情報に含まれる第2レイヤ利得符号化情報および第2レイヤ帯域情報を、第1レイヤ復号部802に出力する。第2レイヤ復号部803の処理は、上述した第2レイヤ復号部206の処理と同一であるためここでは説明を省略する。
 第3レイヤ復号部804は、符号化情報分離部801から入力される第3レイヤ符号化情報を復号して第3レイヤ復号スペクトルX3”(k)を生成し、生成した第3レイヤ復号スペクトルX3”(k)を加算部805に出力する。また、第3レイヤ復号部804は、第3レイヤ符号化情報に含まれる第3レイヤ利得符号化情報および第3レイヤ帯域情報を、第1レイヤ復号部802に出力する。第3レイヤ復号部804の処理は、上述した第2レイヤ復号部206の処理と同一であるためここでは説明を省略する。但し、第3レイヤ復号部804は、第2レイヤ復号部206の処理において用いられたGC2 を、GC3 に置き換えて処理する。ここで、GC3 は、第3レイヤ復号部804で用いる利得コードブックを構成する利得コードベクトルである。
 加算部805には、第2レイヤ復号部803から第2レイヤ復号スペクトルX2”(k)が入力される。また、加算部805には、第3レイヤ復号部804から第3レイヤ復号スペクトルX3”(k)が入力される。加算部805は、入力された第2レイヤ復号スペクトルX2”(k)および第3レイヤ復号スペクトルX3”(k)を加算し、加算したスペクトルを第1加算スペクトルX4”(k)として加算部806に出力する。
 加算部806には、加算部805から第1加算スペクトルX4”(k)が入力される。また、加算部806には、第1レイヤ復号部802から第1レイヤ復号スペクトルX1”(k)が入力される。加算部806は、入力された第1加算スペクトルX4”(k)および第1レイヤ復号スペクトルX1”(k)を加算し、加算したスペクトルを第2加算スペクトルX5”(k)として直交変換処理部807に出力する。
 直交変換処理部807は、まず下記の式(16)に従い内蔵のバッファbuf’(k)を「0」値に初期化する。
Figure JPOXMLDOC01-appb-M000016
 直交変換処理部807は、第2加算スペクトルX5”(k)を入力とし、下記の式(17)に従い、出力信号y”(n)を求める。
Figure JPOXMLDOC01-appb-M000017
 この式において、X6(k)は、第2加算スペクトルX5”(k)とバッファbuf’(k)とを結合させたベクトルであり、下記の式(18)を用いて求められる。
Figure JPOXMLDOC01-appb-M000018
 次いで、直交変換処理部807は、下記の式(19)に従いバッファbuf’(k)を更新する。
Figure JPOXMLDOC01-appb-M000019
 直交変換処理部807は、出力信号y”(n)を出力する。
 以上が、復号装置103の処理説明である。
 以上、本発明の実施の形態について説明した。
 このように、本実施の形態によれば、第1レイヤ符号化部202は、時間的に前の処理フレームにおける各レイヤの符号化結果に基づいて、現レイヤの符号化方法を切り替える。これにより、符号化装置101が符号化対象とする帯域を階層(レイヤ)毎に選択する階層符号化方式を用いる場合に、現フレームの周波数パラメータの符号化効率を向上させ、その結果、復号信号の品質を改善することができる。
 なお、本実施の形態では、最下位レイヤである第1レイヤ符号化部202のみ適応予測判定部303を備え、第1レイヤ利得情報の符号化/復号に対して予測符号化/復号を適用するかどうかを切り替える構成について説明した。しかし、本発明はこれに限られない。すなわち、上位レイヤの第2レイヤ符号化部205、および第3レイヤ符号化部208が、適応予測判定部303を備える構成についても、本発明を同様に適用できる。第2レイヤ以降においても、適応的に予測符号化/復号処理を行うことにより、より精度よく周波数パラメータを符号化することができる。但し、演算量を大幅には増やさずに符号化効率を上げるためには、本実施の形態で説明したように、一部のレイヤ(例えば最下位レイヤ)においてのみ、適応的な予測符号化/復号処理を行うという構成は有効である。
 なお、本実施の形態では、第1レイヤ符号化部202が予測情報を算出し、これを伝送する構成について説明した。そして、本実施の形態では、適応予測判定部303が、時間的に1つ前の処理フレームにおいて量子化された帯域情報と、現フレームにおいて選択された帯域情報とを用いて予測情報を設定した。ここで、帯域情報および予測情報は、復号装置103においても同様の処理を行うことにより算出することが可能である。したがって、上記判定方法を採る構成に対しては、予測情報を符号化装置101から復号装置103へ伝送しなくともよい。なお、この場合には、第1レイヤ復号部802に対して、第2レイヤ帯域情報、および第3レイヤ帯域情報を別途入力する必要がある。また、第1レイヤ復号部802に、第1レイヤ符号化部202と同様に適応予測判定部303を設け、予測情報を設定する必要がある。但し、復号装置103での予測情報を設定するための演算量を削減するためには、本実施の形態に説明したように、予測情報を伝送する構成が有効である。
 なお、本実施の形態では、適応予測判定部303が、時間的に1つ前の処理フレームにおいて量子化された帯域情報と、現フレームにおいて選択された帯域情報とを用いて予測情報を判定した。本発明はこれに限られず、適応予測判定部303が、時間的に二つ以上前の処理フレームにおいて量子化された帯域情報を利用する構成に対しても同様に適用できる。
 (実施の形態2)
 本発明の実施の形態2は、全階層(レイヤ)の符号化部/復号部が、理想利得(利得情報)の適応予測符号化/復号方式を適用する構成について説明する。なお、本実施の形態で説明する適応予測符号化方式は、実施の形態1で説明した適応予測符号化方式とは、予測に用いる過去のフレームの情報が一部異なる。
 実施の形態2に係る通信システム(図示せず)は、図1に示した通信システムと基本的に同様であり、符号化装置/復号装置の構成および動作の一部のみにおいて、符号化装置101および復号装置103と相違する。以下、本実施の形態に係る通信システムにおける符号化装置および復号装置に対しそれぞれ符号「111」、「113」を付し、説明を行う。
 図9は、図1に示した符号化装置111の内部の主要な構成を示すブロック図である。符号化装置111は、一例として3つの符号化階層(レイヤ)から成る階層符号化装置とする。ここで、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤと呼ぶことにする。なお、符号化装置111において、第1レイヤ符号化部212、第1レイヤ復号部213、第2レイヤ符号化部215、第2レイヤ復号部216、および第3レイヤ符号化部218以外の構成要素については、実施の形態1の符号化装置101の構成要素と同一であるため、同一の符号を付し、ここでは説明を省略する。
 第1レイヤ符号化部212には、直交変換処理部201から入力スペクトルX1(k)が入力される。第1レイヤ符号化部212は、入力スペクトルX1(k)を符号化し、第1レイヤ符号化情報を生成する。次に、第1レイヤ符号化部212は、生成した第1レイヤ符号化情報を第1レイヤ復号部213、および符号化情報統合部209に出力する。なお、第1レイヤ符号化部212の詳細については後述する。
 第1レイヤ復号部213は、第1レイヤ符号化部212から入力される第1レイヤ符号化情報を復号し、第1レイヤ復号スペクトルを算出する。次に、第1レイヤ復号部213は、生成した第1レイヤ復号スペクトルを加算部204に出力する。また、第1レイヤ復号部213は、第1レイヤ符号化情報を復号する際に得られる理想利得(利得情報)を第2レイヤ符号化部215および第3レイヤ符号化部218に出力する。なお、第1レイヤ復号部213の詳細については後述する。
 第2レイヤ符号化部215は、加算部204から入力される第1レイヤ差分スペクトルを用いて第2レイヤ符号化情報を生成し、生成した第2レイヤ符号化情報を第2レイヤ復号部216、および符号化情報統合部209に出力する。なお、第2レイヤ符号化部215の詳細については後述する。
 第2レイヤ復号部216は、第2レイヤ符号化部215から入力される第2レイヤ符号化情報を復号し、第2レイヤ復号スペクトルを算出する。次に、第2レイヤ復号部216は、生成した第2レイヤ復号スペクトルを加算部207に出力する。また、第2レイヤ復号部215は、第2レイヤ符号化情報を復号する際に得られる理想利得(利得情報)を、第3レイヤ符号化部218に出力する。なお、第2レイヤ復号部216の詳細については後述する。
 第3レイヤ符号化部218は、加算部207から入力される第2レイヤ差分スペクトルを用いて第3レイヤ符号化情報を生成し、生成した第3レイヤ符号化情報を符号化情報統合部209に出力する。なお、第3レイヤ符号化部218の詳細については後述する。
 図10は、第1レイヤ符号化部212の主要な構成を示すブロック図である。
 この図において、第1レイヤ符号化部212は、帯域選択部301、形状符号化部302、適応予測判定部313、利得符号化部314、および多重化部305を備える。ここで、適応予測判定部313、利得符号化部314以外の構成要素については、実施の形態1の第1レイヤ符号化部202内の構成要素と同一であるため、同一の符号を付し、説明を省略する。
 適応予測判定部313には、帯域選択部301から第1レイヤ帯域情報が入力される。適応予測判定部313は、内部バッファを有し、過去に帯域選択部301から入力される第1レイヤ帯域情報を記憶する。
 適応予測判定部313は、入力される第1レイヤ帯域情報を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。共通のサブバンドの数が予め定められた所定値以上の場合、適応予測判定部313は、第1レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行うと判定する。一方、共通のサブバンドの数が所定値より小さい場合、適応予測判定部313は、第1レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行わない(つまり、予測を適用しない符号化を行う)と判定する。
 適応予測判定部313は、判定結果を第1レイヤ予測情報(Flag_PRE1)として利得符号化部314および多重化部305に出力する。ここで、適応予測判定部313は、予測を行うと判定した場合には、第1レイヤ予測情報Flag_PRE1の値を1とし、予測を行わないと判定した場合には、第1レイヤ予測情報Flag_PRE1の値を0とする。適応予測判定部313の処理の詳細は後述する。
 利得符号化部314には、形状符号化部302から理想利得が入力される。また、利得符号化部314には、適応予測判定部313から、第1レイヤ予測情報が入力される。
 利得符号化部314は、第1レイヤ予測情報が予測符号化を行うという判定結果を示す場合には、形状符号化部302から入力される理想利得に対して予測符号化を行って、第1レイヤ利得符号化情報を得る。このとき、利得符号化部314は、内蔵のバッファに記憶されている過去のフレームの量子化利得、および内蔵の利得コードブックを用いて、理想利得に対して予測符号化を行って、第1レイヤ利得符号化情報を得る。
 一方、利得符号化部314は、第1レイヤ予測情報が予測符号化を行わないという判定結果を示す場合には、形状符号化部302から入力される理想利得をそのまま量子化して(つまり、予測を適用せずに量子化して)、第1レイヤ利得符号化情報を得る。
 利得符号化部314は、得られる第1レイヤ利得符号化情報を多重化部305に出力する。利得符号化部314の処理の詳細は後述する。
 上記のような構成を有する第1レイヤ符号化部212は以下の動作を行う。ただし、適応予測判定部313、および利得符号化部314以外の処理については、実施の形態1と同一であるため、説明を省略する。
 適応予測判定部313には、帯域選択部301から、現フレームにおける第1レイヤ帯域情報が入力される。
 適応予測判定部313は、内蔵バッファを有し、過去のフレームにおける第1レイヤ帯域情報を記憶する。以下では、適応予測判定部313が、過去の1フレーム分の第1レイヤ帯域情報を記憶するバッファを内蔵している場合を例に挙げて説明する。
 適応予測判定部313は、まず、過去のフレームにおける第1レイヤ帯域情報、および現フレームにおける第1レイヤ帯域情報を用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数を求める。
 次に、適応予測判定部313は、共通のサブバンドの数が所定値以上の場合は、予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合は予測符号化を行わないと判定する。具体的には、適応予測判定部313は、時間的に1つ前の処理フレームにおける第1レイヤ帯域情報が示すサブバンド(集合M1t-1とする)と、現フレームにおける第1レイヤ帯域情報が示すL個のサブバンドとを比較(集合M1とする)する。
 そして、適応予測判定部313は、共通のサブバンドの数がP個以上の場合、予測符号化を行うと判定し、Flag_PRE1=1に設定する。一方、適応予測判定部313は、共通のサブバンドの数がP個未満の場合、予測符号化を行わないと判定し、Flag_PRE1=0に設定する。
 このようにして、適応予測判定部313は、M1およびM1t-1に含まれるサブバンドのうち、共通するサブバンドの数に基づいて、第1レイヤ予測情報Flag_PRE1の値を上記のように設定する。これにより、量子化方法が適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替えられる。
 次に、適応予測判定部313は、判定結果を示す情報として第1レイヤ予測情報(Flag_PRE1)を利得符号化部314および多重化部305に出力する。次いで、適応予測判定部313は、現フレームにおける第1レイヤ帯域情報を用いて、内蔵のバッファを更新する。
 利得符号化部314には、形状符号化部302から理想利得が入力される。また、利得符号化部314には、適応予測判定部313から、第1レイヤ予測情報(Flag_PRE1)が入力される。
 利得符号化部314は、内蔵バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。
 利得符号化部314は、第1レイヤ予測情報(Flag_PRE1)に応じて、量子化方法を適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替える。
 [Flag_PRE1=1の場合]
 この場合、利得符号化部314は、予測符号化を行う。すなわち、利得符号化部314は、内蔵のバッファに記憶されている時間的に3つ前までの処理フレームにおいて量子化された量子化利得、および第1レイヤ利得符号化情報を用いて、現フレームの利得を予測することにより、現フレームの量子化利得を生成する。具体的には、利得符号化部314は、L個の各サブバンド毎に、GQ個の利得コードベクトルからなる内蔵の利得コードブックを探索して、下記の式(20)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスを求める。
Figure JPOXMLDOC01-appb-M000020
 この式において、GC1 は第1レイヤ符号化部212における利得コードブックを構成する利得コードベクトルを示し、iは利得コードベクトルのインデックスを示し、jは利得コードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が5の場合(L=5の場合)、jは0~4の値を取る。ここで、C1 は時間的にtフレーム前に第1レイヤ符号化部212において量子化された利得を示す。例えば、t=1の場合、C1 は時間的に1フレーム前に第1レイヤ符号化部212において量子化された利得を示す。また、α~αは、利得符号化部314に記憶されている4次の線形予測係数である。なお、利得符号化部314は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル量子化を行う。
 なお、内蔵のバッファに、過去フレームにおける量子化対象帯域の利得が存在しない場合、利得符号化部314は、上記の式(20)において、内蔵のバッファに記憶される利得のうち、現フレームにおける量子化対象に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE1=0の場合]
 この場合、利得符号化部314は、非予測符号化を行う。具体的には、利得符号化部314は、上述の式(10)に従い、形状符号化部302から入力される理想利得Gain_i(j)を直接量子化する。ここでも、利得符号化部314は、理想利得をL次元ベクトルとして扱い、ベクトル量子化を行う。
 利得符号化部314は、上記の式(20)または式(10)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスG_minを、第1レイヤ利得符号化情報として多重化部305に出力する。
 また、利得符号化部314は、現フレームで得られた第1レイヤ利得符号化情報G_minおよび量子化利得C1 を用いて、下記の式(21)に従い、内蔵のバッファを更新する。
Figure JPOXMLDOC01-appb-M000021
 図11は、第1レイヤ復号部213の主要な構成を示すブロック図である。
 この図において、第1レイヤ復号部213は、分離部501、形状復号部502、および利得復号部513を備える。ここで、利得復号部513以外の構成要素については、実施の形態1で説明した第1レイヤ復号部203の構成要素と同一であるため、同一の符号を付し、説明を省略する。但し、本実施の形態における分離部501は、分離した第1レイヤ帯域情報、および第1レイヤ利得符号化情報を、第2レイヤ符号化部215および第3レイヤ符号化部218に出力する点のみ、実施の形態1における分離部501と異なる。
 利得復号部513には、分離部501から第1レイヤ予測情報(Flag_PRE1)が入力される。また、利得復号部513には、形状復号部502から、MDCT係数の形状の値が入力される。
 利得復号部513は、第1レイヤ予測情報が予測復号を行うことを示す場合(つまり、Flag_PRE1=1の場合)は、分離部501から入力される利得符号化情報に対し予測復号を行って利得を得る。ここで、利得復号部513は、第1レイヤ利得符号化情報、内蔵のバッファに記憶されている過去のフレームの利得、および内蔵の利得コードブックを用いて、第1レイヤ利得符号化情報に対し予測復号を行う。
 一方、利得復号部513は、第1レイヤ予測情報が予測復号を行わないことを示す場合(つまり、Flag_PRE1=0の場合)、内蔵の利得コードブックを用いて、第1レイヤ利得符号化情報をそのまま逆量子化して(つまり予測復号せずに)利得を得る。
 利得復号部513は、得られる利得、および形状復号部502から入力される形状の値を用いて量子化対象帯域のMDCT係数を求め、求めたMDCT係数を第1レイヤ復号スペクトルとして加算部204に出力する。利得復号部513の処理の詳細は後述する。
 上記のような構成を有する第1レイヤ復号部213は以下の動作を行う。なお、ここでは、利得復号部513の処理のみ説明する。
 利得復号部513は、内蔵バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。
 利得復号部513は、第1レイヤ予測情報(Flag_PRE1)に応じて、逆量子化方法を適応的に予測復号方法または非予測復号方法のいずれかの方法に切り替える。
 [Flag_PRE1=1の場合]
 この場合、利得復号部513は、予測復号する。すなわち、利得復号部513は、内蔵のバッファに記憶されている過去のフレームの利得を用いて、現フレームの利得を予測することにより逆量子化を行う。具体的には、利得復号部513は、第1レイヤ符号化部212の利得符号化部314と同様な利得コードブックを内蔵しており、下記の式(22)に従い、利得の逆量子化を行って利得Gain_q’を得る。
Figure JPOXMLDOC01-appb-M000022
 ここで、C1” は時間的にtフレーム前の第1レイヤ復号部213において逆量子化された利得の値を示す。例えば、t=1の場合、C1” は1フレーム前の第1レイヤ復号部213にて逆量子化された利得を示す。また、α~αは利得復号部513に記憶されている4次の線形予測係数である。利得復号部513は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル逆量子化を行う。
 なお、内蔵のバッファに過去フレームの復号対象帯域における利得が存在しない場合、利得復号部513は、上記の式(22)において、内部バッファに記憶されている利得のうち、現フレームの復号対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE1=0の場合]
 この場合、利得復号部513は、非予測復号する。すなわち、利得復号部513は、上記の利得コードブックを用いて、式(13)に従い利得値を逆量子化する。ここでも、利得をL次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、予測復号を行わない場合、利得復号部513は、第1レイヤ利得符号化情報G_minに対応する利得コードベクトルGC1 G_minを直接利得とする。
 次いで、利得復号部513は、現フレームの逆量子化で得られる利得、および形状復号部502から入力される形状の値を用いて、式(14)に従い第1レイヤ復号スペクトル(復号MDCT係数)X1”(k)を算出する。なお、MDCT係数の逆量子化において、kがB(j”)~B(j”+1)-1内に存在する場合、利得はGain_q’(j”)の値をとる。
 次に、利得復号部513は、式(21)に従い内蔵のバッファを更新する。
 利得復号部513は、式(14)に従い算出された第1レイヤ復号スペクトルX1”(k)を加算部204に出力する。
 図12は、第2レイヤ符号化部215の主要な構成を示すブロック図である。
 この図において、第2レイヤ符号化部215は、帯域選択部601、形状符号化部602、適応予測判定部613、利得符号化部614、および多重化部604を備える。ここで、適応予測判定部613、および利得符号化部614以外の構成要素については、実施の形態1における第2レイヤ符号化部205内の構成要素と同一であるため、同一の符号を付し、説明を省略する。
 適応予測判定部613は、内部バッファを有し、過去に帯域選択部601および第1レイヤ復号部213から入力される帯域情報(第1レイヤ帯域情報および第2レイヤ帯域情報)を記憶する。適応予測判定部613には、第1レイヤ復号部213から、第1レイヤ帯域情報が入力される。また、適応予測判定部613には、帯域選択部601から、第2レイヤ帯域情報が入力される。
 適応予測判定部613は、入力される各帯域情報(第1レイヤ帯域情報、第2レイヤ帯域情報)を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。
 共通のサブバンドの数が予め定められた所定値以上の場合には、適応予測判定部613は、第2レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行うと判定する。一方、共通のサブバンドの数が所定値より小さい場合には、適応予測判定部613は、第2レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行わない(つまり、予測を適用しない符号化を行う)と判定する。
 適応予測判定部613は、判定結果を第2レイヤ予測情報(Flag_PRE2)として利得符号化部614および多重化部604に出力する。ここで、適応予測判定部613は、予測を行うと判定した場合には、Flag_PRE2の値を1とし、予測を行わないと判定した場合にはFlag_PRE2の値を0とする。適応予測判定部613の処理の詳細は後述する。
 利得符号化部614は、内部バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。
 利得符号化部614には、形状符号化部602から理想利得が入力される。また、利得符号化部614には、第1レイヤ復号部213から第1レイヤ利得符号化情報が入力される。また、利得符号化部614には、適応予測判定部613から、第2レイヤ予測情報が入力される。
 利得符号化部614は、第2レイヤ予測情報が予測符号化を行うという判定結果を示す場合には、形状符号化部602から入力される理想利得に対して予測符号化を行って、第2レイヤ利得符号化情報を得る。このとき、利得符号化部614は、内蔵のバッファに記憶されている過去のフレームの量子化利得、内蔵の利得コードブック、および第1レイヤ利得符号化情報を用いて、理想利得に対して予測符号化を行う。
 一方、利得符号化部614は、第2レイヤ予測情報が予測符号化を行わないという判定結果を示す場合には、形状符号化部602から入力される理想利得をそのまま量子化する(つまり、予測を適用せずに量子化する)。
 利得符号化部614は、得られる第2レイヤ利得符号化情報を多重化部604に出力する。利得符号化部614の処理の詳細は後述する。
 上記のような構成を有する第2レイヤ符号化部215は以下の動作を行う。なお、ここでは、適応予測判定部613および利得符号化部614の処理のみ説明する。
 適応予測判定部613は、内蔵バッファを有し、過去のフレームにおける第2レイヤ帯域情報、および第1レイヤ帯域情報を記憶する。以下では、適応予測判定部613が、過去の1フレーム分の帯域情報を記憶するバッファを内蔵している場合を例に挙げて説明する。
 適応予測判定部613には、第1レイヤ復号部213から、現フレームにおける第1レイヤ帯域情報が入力される。
 適応予測判定部613は、まず、過去のフレームにおける第1レイヤ帯域情報、第2レイヤ帯域情報(これらは内蔵バッファに記憶されている)、および現フレームにおける第1レイヤ帯域情報、第2レイヤ帯域情報を用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数を求める。
 次に、適応予測判定部613は、共通のサブバンドの数が所定値以上の場合は、予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合は、予測符号化を行わないと判定する。具体的には、適応予測判定部613は、時間的に1つ前の処理フレームにおける第2レイヤ帯域情報が示すサブバンド(集合M2t-1とする)および第1レイヤ帯域情報が示すサブバンド(集合M1t-1とする)の和集合のサブバンド群(集合M12t-1とする)と、現フレームにおける第1レイヤ帯域情報が示すサブバンド(集合M1とする)および第2レイヤ帯域情報が示すL個のサブバンド(集合M2とする)の和集合のサブバンド群(集合M12とする)と、を比較する。
 ここで、上記集合M12t-1は、集合M1t-1および集合M2t-1を使って、以下の式(23)のように表せる。また、集合M12は、集合M1および集合M2を使って、以下の式(24)のように表せる。
Figure JPOXMLDOC01-appb-M000023
Figure JPOXMLDOC01-appb-M000024
 そして、適応予測判定部613は、共通のサブバンドの数がP個以上の場合、予測符号化を行うと判定し、Flag_PRE2=1に設定する。一方、適応予測判定部613は、共通のサブバンドの数がP個未満の場合、予測符号化を行わないと判定し、Flag_PRE2=0に設定する。
 このようにして、適応予測判定部613は、M12t-1およびM12に含まれるサブバンドのうち、共通するサブバンドの数に基づいて、第2レイヤ予測情報Flag_PRE2の値を上記のように設定する。これにより、量子化方法が適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替えられる。
 次に、適応予測判定部613は、判定結果を示す情報として第2レイヤ予測情報(Flag_PRE2)を利得符号化部614および多重化部604に出力する。次いで、適応予測判定部613は、現フレームにおける第1レイヤ帯域情報、および第2レイヤ帯域情報を用いて、内蔵のバッファを更新する。
 利得符号化部614は、内部バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。また、利得符号化部614には、第1レイヤ復号部213から、第1レイヤ利得符号化情報が入力される。また、利得符号化部614には、適応予測判定部613から、第2レイヤ予測情報(Flag_PRE2)が入力される。
 利得符号化部614は、第2レイヤ予測情報(Flag_PRE2)に応じて、量子化方法を適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替える。
 [Flag_PRE2=1の場合]
 この場合、利得符号化部614は、予測符号化を行う。すなわち、利得符号化部614は、内蔵のバッファに記憶されている時間的に3つ前までの処理フレームにおいて量子化された量子化利得および時間的に3つ前までの処理フレームにおける第1レイヤ利得符号化情報を用いて、現フレームの利得を予測することにより、現フレームの量子化利得を生成する。具体的には、利得符号化部614は、L個の各サブバンド毎に、GQ個の利得コードベクトルからなる内蔵の利得コードブックを探索して、下記の式(25)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスを求める。
Figure JPOXMLDOC01-appb-M000025
 この式において、GC2 は第2レイヤ符号化部215における利得コードブックを構成する利得コードベクトルを示し、iは利得コードベクトルのインデックスを示し、jは利得コードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が5の場合(L=5の場合)、jは0~4の値を取る。
 ここで、C1 は時間的にtフレーム前に第1レイヤ符号化部212において量子化された利得を示す。例えば、t=1の場合、C1 は時間的に1フレーム前に第1レイヤ符号化部212において量子化された利得を示す。同様に、C2 は時間的にtフレーム前の第2レイヤ符号化部215にて量子化された利得を示す。またα~αは、利得符号化部614に記憶されている4次の線形予測係数である。なお、利得符号化部614は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル量子化を行う。
 なお、内蔵のバッファに、過去フレームにおける量子化対象帯域の利得が存在しない場合、利得符号化部614は、上記の式(25)において、内蔵のバッファに記憶されている利得のうち、現フレームにおける量子化対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE2=0の場合]
 この場合、利得符号化部614は、非予測符号化を行う。具体的には、利得符号化部614は、下記の式(26)に従い、形状符号化部602から入力される理想利得Gain_i(j)を直接量子化する。ここでも、利得符号化部614は、理想利得をL次元ベクトルとして扱い、ベクトル量子化を行う。
Figure JPOXMLDOC01-appb-M000026
 利得符号化部614は、上記の式(25)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスG_minを、第2レイヤ利得符号化情報として多重化部604に出力する。
 また、利得符号化部614は、現フレームで得られた第2レイヤ利得符号化情報G_minおよび量子化利得C1 、C2 を用いて、下記の式(27)に従い、内蔵のバッファを更新する。
Figure JPOXMLDOC01-appb-M000027
 図13は、第2レイヤ復号部216の主要な構成を示すブロック図である。
 この図において、第2レイヤ復号部216は、分離部701、形状復号部702、および利得復号部713を備える。ここで、利得復号部713以外の構成要素については、実施の形態1で説明した第2レイヤ復号部206の構成要素と同一であるため、同一の符号を付し、説明を省略する。但し、本実施の形態における分離部701は、分離した第2レイヤ帯域情報、および第2レイヤ利得符号化情報を、第3レイヤ符号化部218に出力する点のみ、実施の形態1における分離部701と異なるものとする。
 利得復号部713には、分離部701から第2レイヤ予測情報(Flag_PRE2)および第2レイヤ利得符号化情報が入力される。また、利得復号部713には、形状復号部702から、MDCT係数の形状の値が入力される。
 利得復号部713は、第2レイヤ予測情報が予測復号を行うことを示す場合(つまり、Flag_PRE2=1の場合)は、分離部701から入力される利得符号化情報に対し予測復号を行って利得を得る。ここで、利得復号部713は、第2レイヤ利得符号化情報、内蔵のバッファに記憶されている過去のフレームの利得、および内蔵の利得コードブックを用いて、第2レイヤ利得符号化情報に対し予測復号を行う。
 一方、利得復号部713は、第2レイヤ予測情報が予測復号を行わないことを示す場合(つまり、Flag_PRE2=0の場合)、内蔵の利得コードブックを用いて、第2レイヤ利得符号化情報をそのまま逆量子化して(つまり予測復号せずに)利得を得る。利得復号部713は、得られる利得、および形状復号部702から入力される形状の値を用いて量子化対象帯域のMDCT係数を求め、求めたMDCT係数を第2レイヤ復号スペクトルとして加算部207に出力する。
 上記のような構成を有する第2レイヤ復号部216は以下の動作を行う。なお、ここでは、利得復号部713の処理のみ説明する。
 利得復号部713は、内蔵バッファを有し、過去のフレームにおいて得られた利得を記憶する。
 利得復号部713は、第2レイヤ予測情報(Flag_PRE2)に応じて、逆量子化方法を適応的に予測復号方法または非予測復号方法のいずれかの方法に切り替える。
 [Flag_PRE2=1の場合]
 この場合、利得復号部713は、予測復号する。すなわち、利得復号部713は、内蔵のバッファに記憶されている過去のフレームの利得を用いて、現フレームの利得を予測することにより逆量子化を行う。具体的には、利得復号部713は、第2レイヤ符号化部215の利得符号化部614と同様な利得コードブックを内蔵しており、下記の式(28)に従い、利得の逆量子化を行って利得Gain_q’を得る。
Figure JPOXMLDOC01-appb-M000028
 ここで、C1” は時間的にtフレーム前の第1レイヤ復号部213において逆量子化された利得の値を示す。例えば、t=1の場合、C1” は1フレーム前の第1レイヤ復号部213において逆量子化された利得を示す。また、C2” は同様に第2レイヤ復号部215にて逆量子化された利得の値を示す。また、α~αは利得復号部713に記憶されている4次の線形予測係数である。利得復号部713は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル逆量子化を行う。
 なお、内蔵のバッファに過去フレームの復号対象帯域における利得の値が存在しない場合、利得復号部713は、上記の式(28)において、内部バッファに記憶されている利得のうち、現フレームの復号対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE2=0の場合]
 この場合、利得復号部713は、非予測復号する。すなわち、利得復号部713は、上記の利得コードブックを用いて、下記の式(29)に従い利得値を逆量子化する。ここでも、利得をL次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、予測復号を行わない場合は、利得復号部713は、第2レイヤ利得符号化情報G_minに対応する利得コードベクトルGC2 G_minを直接利得とする。
Figure JPOXMLDOC01-appb-M000029
 次いで、利得復号部713は、現フレームの逆量子化で得られる利得、および形状復号部702から入力される形状の値を用いて、下記の式(30)に従い第2レイヤ復号スペクトル(復号MDCT係数)X2”(k)を算出する。なお、MDCT係数の逆量子化において、kがB(j”)~B(j”+1)-1内に存在する場合、利得はGain_q’(j”)の値をとる。
Figure JPOXMLDOC01-appb-M000030
 次に、利得復号部713は、式(27)に従い内蔵のバッファを更新する。
 利得復号部713は、式(30)に従い算出された第2レイヤ復号スペクトルX2”(k)を加算部207に出力する。
 図14は、第3レイヤ符号化部218の主要な構成を示すブロック図である。
 この図において、第3レイヤ符号化部218は、帯域選択部1401、形状符号化部1402、適応予測判定部1403、利得符号化部1404、および多重化部1405を備える。ここで、帯域選択部1401、形状符号化部1402、および多重化部1405については、入出力される情報の名称が異なるという点以外は、実施の形態1における第2レイヤ符号化部205内の各構成要素と同一であるため、説明を省略する。
 適応予測判定部1403には、帯域選択部1401から第3レイヤ帯域情報が入力される。また、適応予測判定部1403には、第1レイヤ復号部213から、第1レイヤ帯域情報が入力される。また、適応予測判定部1403には、第2レイヤ復号部216から、第2レイヤ帯域情報が入力される。
 適応予測判定部1403は、内部バッファを有し、過去に帯域選択部1401、第1レイヤ復号部213、および第2レイヤ復号部216から入力される帯域情報(第3レイヤ帯域情報、第1レイヤ帯域情報、および第2レイヤ帯域情報)を記憶する。
 適応予測判定部1403は、入力される各帯域情報(第1レイヤ帯域情報、第2レイヤ帯域情報、第3レイヤ帯域情報)を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。共通のサブバンドの数が予め定められた所定値以上の場合、適応予測判定部1403は、第3レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行うと判定する。一方、共通のサブバンドの数が所定値より小さい場合、適応予測判定部1403は、第3レイヤ帯域情報が示す量子化対象帯域のスペクトル(MDCT係数)に対して予測符号化を行わない(つまり、予測を適用しない符号化を行う)と判定する。
 適応予測判定部1403は、判定結果を第3レイヤ予測情報(Flag_PRE3)として利得符号化部1404および多重化部1405に出力する。ここで、適応予測判定部1403は、予測を行うと判定した場合には、Flag_PRE3の値を1とし、予測を行わない場合には、Flag_PRE3の値を0とする。適応予測判定部1403の処理の詳細は後述する。
 利得符号化部1404には、形状符号化部1402から理想利得が入力される。また、利得符号化部1404には、適応予測判定部1403から、第3レイヤ予測情報が入力される。また、利得符号化部1404には、第1レイヤ復号部213から第1レイヤ利得符号化情報が入力される。また、利得符号化部1404には、第2レイヤ復号部216から第2レイヤ利得符号化情報が入力される。
 利得符号化部1404は、第3レイヤ予測情報が予測符号化を行うという判定結果を示す場合には、形状符号化部1402から入力される理想利得に対して予測符号化を行って、第3レイヤ利得符号化情報を得る。このとき、利得符号化部1404は、内蔵のバッファに記憶されている過去のフレームの量子化利得、内蔵の利得コードブック、第1レイヤ利得符号化情報、および第2レイヤ利得符号化情報を用いて、理想利得に対して予測符号化を行って、第3レイヤ利得符号化情報を得る。
 一方、利得符号化部1404は、第3レイヤ予測情報が予測符号化を行わないという判定結果を示す場合には、形状符号化部1402から入力される理想利得をそのまま量子化する(つまり、予測を適用せずに量子化する)。
 利得符号化部1404は、得られる第3レイヤ利得符号化情報を多重化部1405に出力する。利得符号化部1404の処理の詳細は後述する。
 上記のような構成を有する第3レイヤ符号化部218は以下の動作を行う。なお、ここでは、適応予測判定部1403および利得符号化部1404の処理のみ説明する。
 適応予測判定部1403には、第1レイヤ復号部213から、第1レイヤ帯域情報が入力される。また、適応予測判定部1403には、第2レイヤ復号部216から、第2レイヤ帯域情報が入力される。また、適応予測判定部1403には、帯域選択部1401から、第3レイヤ帯域情報が入力される。
 適応予測判定部1403は、内蔵バッファを有し、過去のフレームにおける第3レイヤ帯域情報、第1レイヤ帯域情報、および第2レイヤ帯域情報を記憶する。ここでは、適応予測判定部1403が、過去の1フレーム分の帯域情報を記憶するバッファを内蔵している場合を例に挙げて説明する。
 適応予測判定部1403は、まず、過去のフレームにおける第3レイヤ帯域情報、第1レイヤ帯域情報、第2レイヤ帯域情報(これらは内蔵バッファに記憶されている)、および現フレームにおける第3レイヤ帯域情報、第1レイヤ帯域情報、第2レイヤ帯域情報を用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数を求める。
 次に、適応予測判定部1403は、共通のサブバンドの数が所定値以上の場合は、予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合は、予測符号化を行わないと判定する。具体的には、適応予測判定部1403は、時間的に1つ前の処理フレームにおける第1レイヤ帯域情報が示すサブバンド(集合M1t-1とする)、第2レイヤ帯域情報が示すサブバンド(集合M2t-1とする)、および第3レイヤ帯域情報が示すサブバンド(集合M3t-1とする)の和集合のサブバンド群(集合M123t-1とする)と、現フレームにおける第1レイヤ帯域情報が示すサブバンド(集合M1とする)、第2レイヤ帯域情報が示すサブバンド(集合M2とする)、および第3レイヤ帯域情報が示すL個のサブバンド(集合M3とする)の和集合のサブバンド群(集合M123とする)と、を比較する。
 ここで、上記集合M123t-1は、集合M1t-1、集合M2t-1、および集合M3t-1を使って、以下の式(31)のように表せる。また、集合M123は、集合M1、集合M2、および集合M3を使って、以下の式(32)のように表せる。
Figure JPOXMLDOC01-appb-M000031
Figure JPOXMLDOC01-appb-M000032
 そして、適応予測判定部1403は、共通のサブバンドの数がP個以上の場合、予測符号化を行うと判定し、Flag_PRE3=1に設定する。一方、適応予測判定部1403は、共通のサブバンドの数がP個未満の場合、予測符号化を行わないと判定し、Flag_PRE3=0に設定する。
 このようにして、適応予測判定部1403は、M123t-1およびM123に含まれるサブバンドのうち、共通するサブバンドの数に基づいて、第3レイヤ予測情報Flag_PRE3の値を上記のように設定する。これにより、量子化方法が適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替えられる。
 次に、適応予測判定部1403は、判定結果を示す情報として第3レイヤ予測情報(Flag_PRE3)を利得符号化部1404および多重化部1405に出力する。次いで、適応予測判定部1403は、現フレームにおける第3レイヤ帯域情報、第1レイヤ帯域情報、および第2レイヤ帯域情報を用いて、内蔵のバッファを更新する。
 また、利得符号化部1404には、第1レイヤ復号部213から、第1レイヤ利得符号化情報が入力される。また、利得符号化部1404には、第2レイヤ復号部216から、第2レイヤ利得符号化情報が入力される。また、利得符号化部1404には、適応予測判定部1403から、第3レイヤ予測情報(Flag_PRE3)が入力される。
 利得符号化部1404は、内部バッファを有し、過去のフレームにおいて得られた量子化利得を記憶する。
 利得符号化部1404は、第3レイヤ予測情報(Flag_PRE3)に応じて、量子化方法を適応的に予測符号化方法または非予測符号化方法のいずれかの方法に切り替える。
 [Flag_PRE3=1の場合]
 この場合、利得符号化部1404は、予測符号化を行う。すなわち、利得符号化部1404は、内蔵のバッファに記憶されている時間的に3つ前までの処理フレームにおいて第3レイヤ符号化部218にて量子化された量子化利得、時間的に3つ前までの処理フレームにおける第1レイヤ利得符号化情報、および時間的に3つ前までの処理フレームにおける第2レイヤ利得符号化情報を用いて、現フレームの利得を予測することにより、現フレームの量子化利得を生成する。具体的には、利得符号化部1404は、L個の各サブバンド毎に、GQ個の利得コードベクトルからなる内蔵の利得コードブックを探索して、下記の式(33)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスを求める。
Figure JPOXMLDOC01-appb-M000033
 この式において、GC3 は第3レイヤ符号化部218における利得コードブックを構成する利得コードベクトルを示し、iは利得コードベクトルのインデックスを示し、jは利得コードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が5の場合(L=5の場合)、jは0~4の値を取る。
 ここで、C1 は時間的にtフレーム前の第1レイヤ符号化部212において量子化された利得を示す。例えば、t=1の場合、C1 は時間的に1フレーム前の第1レイヤ符号化部212において量子化された利得を示す。同様に、C2 は時間的にtフレーム前の第2レイヤ符号化部215において量子化された利得を示す。同様に、C3 は時間的にtフレーム前の第3レイヤ符号化部218において量子化された利得を示す。またα~αは、利得符号化部1404に記憶されている4次の線形予測係数である。なお、利得符号化部1404は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル量子化を行う。
 なお、内蔵のバッファに、過去フレームにおける量子化対象帯域の利得が存在しない場合、利得符号化部1404は、上記の式(33)において、内蔵のバッファに記憶されている利得のうち、現フレームにおける量子化対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE3=0の場合]
 この場合、利得符号化部1404は、非予測符号化を行う。具体的には、利得符号化部1404は、下記の式(35)に従い、形状符号化部1402から入力される理想利得Gain_i(j)を直接量子化する。ここでも、利得符号化部1404は、理想利得をL次元ベクトルとして扱い、ベクトル量子化を行う。
Figure JPOXMLDOC01-appb-M000034
 利得符号化部1404は、上記の式(33)または式(34)の二乗誤差Gain_q(i)が最小となる利得コードベクトルのインデックスG_minを、第3レイヤ利得符号化情報として多重化部1405に出力する。
 また、利得符号化部1404は、現フレームで得られた第3レイヤ利得符号化情報および量子化利得C1 、C2 、C3 を用いて、下記の式(35)に従い、内蔵のバッファを更新する。
Figure JPOXMLDOC01-appb-M000035
 以上が、符号化装置111の処理の説明である。
 図15は、本実施の形態における復号装置113の内部の主要な構成を示すブロック図である。復号装置113は、一例として3つの復号階層(レイヤ)から成る階層復号装置とする。ここでは、符号化装置111側と同様、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤと呼ぶことにする。なお、符号化装置111内の構成要素の内、第1レイヤ復号部812、第2レイヤ復号部813、および第3レイヤ復号部814以外の構成要素については、実施の形態1における復号装置103内の構成要素と同一であるため、ここでは説明を省略する。
 第1レイヤ復号部812は、符号化情報分離部801から入力される第1レイヤ符号化情報を復号して第1レイヤ復号スペクトルX1”(k)を生成し、生成した第1レイヤ復号スペクトルX1”(k)を加算部806に出力する。第1レイヤ復号部812の処理は、符号化装置111内の第1レイヤ復号部213の処理と同一であるため、説明を省略する。
 第2レイヤ復号部813は、符号化情報分離部801から入力される第2レイヤ符号化情報を復号して第2レイヤ復号スペクトルX2”(k)を生成し、生成した第2レイヤ復号スペクトルX2”(k)を加算部805に出力する。第1レイヤ復号部812の処理は、符号化装置111内の第2レイヤ復号部216の処理と同一であるため、説明を省略する。
 第3レイヤ復号部814は、符号化情報分離部801から入力される第3レイヤ符号化情報を復号して第3レイヤ復号スペクトルX3”(k)を生成し、生成した第3レイヤ復号スペクトルX3”(k)を加算部805に出力する。第3レイヤ復号部814の処理の詳細については後述する。
 図16は、第3レイヤ復号部814の内部の主要な構成を示すブロック図である。第3レイヤ復号部814は、分離部1601、形状復号部1602、および利得復号部1603から主に構成される。
 分離部1601は、符号化情報分離部801から出力される第3レイヤ符号化情報を、第3レイヤ帯域情報、第3レイヤ形状符号化情報、第3レイヤ利得符号化情報、および第3レイヤ予測情報に分離する。分離部1601は、得られる第3レイヤ帯域情報および第3レイヤ形状符号化情報を形状復号部1602に出力し、第3レイヤ利得符号化情報および第3レイヤ予測情報を利得復号部1603に出力する。
 形状復号部1602は、分離部1601から入力される第3レイヤ形状符号化情報を復号することにより、分離部1601から入力される第3レイヤ帯域情報が示す量子化対象帯域に対応するMDCT係数の形状の値を求める。形状復号部1602は、求めたDCT係数の形状の値を利得復号部1603に出力する。形状復号部1602の処理は、実施の形態1における形状復号部502と同一であるため、ここでは説明を省略する。
 利得復号部1603には、分離部1601から第3レイヤ利得符号化情報および第3レイヤ予測情報が入力される。また、利得復号部1603には、第1レイヤ復号部812から第1レイヤ利得符号化情報が入力される。また、利得復号部1603には、第2レイヤ復号部813から第2レイヤ利得符号化情報が入力される。
 利得復号部1603は、第3レイヤ予測情報が予測復号を行うことを示す場合(つまり、Flag_PRE3=1の場合)は、第3レイヤ利得符号化情報に対し予測復号を行って利得を得る。ここで、利得復号部1603は、第1レイヤ利得符号化情報、第2レイヤ利得符号化情報、内蔵のバッファに記憶されている過去のフレームの利得、および内蔵の利得コードブックを用いて、第3レイヤ利得符号化情報に対し予測復号を行う。
 一方、利得復号部1603は、第3レイヤ予測情報が予測復号を行わないことを示す場合(つまり、Flag_PRE=0の場合)、内蔵の利得コードブックを用いて、第3レイヤ利得符号化情報をそのまま逆量子化して(つまり予測復号せずに)利得を得る。
 利得復号部1603は、得られる利得、および形状復号部1602から入力される形状の値を用いて量子化対象帯域のMDCT係数を求め、求めたMDCT係数を第3レイヤ復号スペクトルとして加算部805に出力する。利得復号部1603の処理の詳細は後述する。
 上記のような構成を有する第3レイヤ復号部814は以下の動作を行う。
 分離部1601は、第3レイヤ符号化情報を、第3レイヤ帯域情報、第3レイヤ形状符号化情報、第3レイヤ利得符号化情報、および第3レイヤ予測情報に分離する。次に、分離部1601は、得られる第3レイヤ帯域情報、および第3レイヤ形状符号化情報を形状復号部1602に出力し、第3レイヤ利得符号化情報および第3レイヤ予測情報を利得復号部1603に出力する。
 利得復号部1603は、内蔵バッファを有し、過去のフレームにおいて得られた利得を記憶する。また、利得復号部1603には、第1レイヤ復号部812から第1レイヤ利得符号化情報が入力される。また、利得復号部1603には、第2レイヤ復号部813から第2レイヤ利得符号化情報が入力される。また、利得復号部1603には、分離部1601から第3レイヤ利得符号化情報および第3レイヤ予測情報が入力される。また、利得復号部1603には、形状復号部1602から、MDCT係数の形状の値が入力される。
 利得復号部1603は、第3レイヤ予測情報(Flag_PRE3)に応じて、逆量子化方法を適応的に予測復号方法または非予測復号方法のいずれかの方法に切り替える。
 [Flag_PRE3=1の場合]
 この場合、利得復号部1603は、予測復号する。すなわち、利得復号部1603は、内蔵のバッファに記憶されている過去のフレームの利得を用いて、現フレームの利得を予測することにより逆量子化を行う。具体的には、利得復号部1603は、第3レイヤ符号化部218の利得符号化部1404と同様な利得コードブックを内蔵しており、下記の式(36)に従い、利得の逆量子化を行って利得Gain_q’を得る。
Figure JPOXMLDOC01-appb-M000036
 ここで、C1” は時間的にtフレーム前の第1レイヤ復号部812において逆量子化された利得を示す。例えば、t=1の場合、C1” は1フレーム前の第1レイヤ復号部812において逆量子化された利得を示す。同様に、C2” およびC3” はそれぞれ時間的にtフレーム前の第2レイヤ復号部813および第3レイヤ復号部814において逆量子化された利得を示す。また、α~αは、利得復号部1603に記憶されている4次の線形予測係数である。利得復号部1603は、1リージョン内のL個のサブバンドをL次元ベクトルとして扱い、ベクトル逆量子化を行う。
 なお、内蔵のバッファに過去フレームの復号対象帯域における利得が存在しない場合、利得復号部1603は、上記の式(36)において、内部バッファに記憶されている利得のうち、現フレームの復号対象帯域に周波数的に最も近いサブバンドの利得を代用する。
 [Flag_PRE3=0の場合]
 この場合、利得復号部1603は、非予測復号する。すなわち、利得復号部1603は、上記の利得コードブックを用いて、下記の式(37)に従い利得値を逆量子化する。ここでも、利得をL次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、予測復号を行わない場合は、利得復号部1603は、利得符号化情報G_minに対応する利得コードベクトルGC3 G_minを直接利得とする。
Figure JPOXMLDOC01-appb-M000037
 次いで、利得復号部1603は、現フレームの逆量子化で得られる利得、および形状復号部1602から入力される形状の値を用いて、下記の式(38)に従い第3レイヤ復号スペクトル(復号MDCT係数)X3”(k)を算出する。なお、MDCT係数の逆量子化において、kがB(j”)~B(j”+1)-1内に存在する場合、利得はGain_q’(j”)の値をとる。
Figure JPOXMLDOC01-appb-M000038
 次に、利得復号部1603は、式(35)に従い内蔵のバッファを更新する。
 利得復号部1603は、上記の式(38)に従い算出された第3レイヤ復号スペクトルX3”(k)を加算部805に出力する。
 以上が、復号装置113の処理説明である。
 このように、本実施の形態によれば、第1レイヤ符号化部212、第2レイヤ符号化部215、および第3レイヤ符号化部218は、符号化対象とする帯域を階層(レイヤ)毎に選択する階層符号化方式において、時間的に前の処理フレームにおける各レイヤの符号化結果に基づいて、現レイヤの周波数パラメータの符号化方法を切り替える。これにより、符号化装置111が符号化対象とする帯域を階層(レイヤ)毎に選択する階層符号化方式を用いる場合に、現フレームの周波数パラメータの符号化効率が向上し、その結果復号信号の品質を改善することができる。さらに、実施の形態1とは異なり、各レイヤの利得符号化部は、各レイヤ以下のレイヤの量子化利得のみを用いて適応予測量子化を行う。これにより、時間軸上でビットレート(レイヤ数)が切り替わるような伝送環境においても、符号化装置と復号装置とが同一条件で符号化/復号することができるため、符号化性能を保証することができる。
 なお、本実施の形態では、各レイヤの符号化部が予測情報を算出し、これを伝送する構成について説明した。そして、本実施の形態では、適応予測判定部313、613、1403が、時間的に1つ前の処理フレームにおいて量子化された帯域情報と、現フレームにおいて選択された帯域情報とを用いて予測情報を設定した。ここで、帯域情報および予測情報は、復号装置113においても同様の処理により予測情報を算出することが可能である。したがって、上記判定方法を採る構成に対しては、予測情報を符号化装置111から復号装置113へ伝送しなくともよい。但し、復号装置113での適応予測判定部における演算量を削減するためには、本実施の形態に説明したように、予測情報を伝送する構成が有効である。
 以上、本発明の実施の形態について説明した。
 なお、上記実施の形態では、符号化装置が3つの符号化階層(レイヤ)から成る構成について説明したが、本発明はこれに限らず、階層数が3以外の構成においても同様に適用できる。
 また、上記実施の形態では、符号化情報等の情報が連続する2ステップで多重化が行なわれる場合には、後段のステップにてまとめて多重化を行なっても良い(例えば、多重化部305と符号化情報統合部209との2ステップなど)。また、多重化された符号化情報等の情報が、連続する2ステップで分離される場合には、前段のステップにてまとめて分離を行なっても良い(例えば、符号化情報分離部801と分離部1601との2ステップなど)。また、3つ以上の信号が連続する2ステップで加算される場合には、一括でまとめて加算しても良い(例えば、加算部805と加算部806との2ステップなど)。
 また、上記実施の形態における復号装置は、上記実施の形態における符号化装置から伝送された符号化情報を用いて処理を行うとしたが、本発明はこれに限定されない。必要なパラメータやデータを含む符号化情報であれば、必ずしも上記実施の形態における符号化装置からの符号化情報でなくても処理は可能である。
 また、信号処理プログラムを、メモリ、ディスク、テープ、CD、DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合についても、本発明は適用することができ、本実施の形態と同様の作用および効果を得ることができる。
 また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2009年11月13日出願の特願2009-259949に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明にかかる符号化装置、復号装置およびこれらの方法は、階層的に量子化対象帯域を選択し、符号化/復号する構成において、復号信号の品質を向上することができ、例えば、パケット通信システム、移動通信システムなどに適用できる。
 101、111 符号化装置
 102 伝送路
 103、113 復号装置
 201、807 直交変換処理部
 202、212 第1レイヤ符号化部
 203、213、802、812 第1レイヤ復号部
 204、207、805、806 加算部
 205、215 第2レイヤ符号化部
 206、216、803、813 第2レイヤ復号部
 208、218 第3レイヤ符号化部
 209 符号化情報統合部
 301、601、1401 帯域選択部
 302、602、1402 形状符号化部
 303、313、613、1403 適応予測判定部
 304、314、603、614、1404 利得符号化部
 305、604、1405 多重化部
 501、701、1601 分離部
 502、702、1602 形状復号部
 503、513、703、713、1603 利得復号部
 801 符号化情報分離部
 804、814 第3レイヤ復号部

Claims (26)

  1.  少なくとも2つの符号化レイヤを有する符号化装置であって、
     周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化手段と、
     前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化手段と、を具備し、
     前記第1レイヤ符号化手段は、
     前記第1帯域情報に基づいて、前記第1利得の符号化方法を複数の候補から決定する判定手段、を具備する、
     符号化装置。
  2.  前記判定手段は、
     更に前記第2帯域情報に基づいて、前記符号化方法を決定する、
     請求項1記載の符号化装置。
  3.  前記判定手段は、
     前記第1帯域情報及び前記第2帯域情報に基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項1記載の符号化装置。
  4.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報と、現フレームにおける前記第1帯域情報および前記第2帯域情報とに基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項1記載の符号化装置。
  5.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報を用いて求められる、過去のフレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域の和集合である第3量子化対象帯域と、現フレームにおける前記第1帯域情報および前記第2帯域情報を用いて求められる、現フレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域の和集合である第4量子化対象帯域と、を比較した結果に基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項1記載の符号化装置。
  6.  前記判定手段は、
     前記結果が、前記第3量子化対象帯域と前記第4量子化対象帯域とに含まれる共通のサブバンドの数が予め設定された閾値以上である場合には、前記符号化方法を予測符号化方法に決定し、前記共通のサブバンドの数が前記閾値未満の場合には、前記符号化方法を非予測符号化方法に決定する、
     請求項5記載の符号化装置。
  7.  前記第1レイヤ符号化手段は、
     前記複数のサブバンドの中から前記入力信号の前記第1量子化対象帯域を選択して前記第1帯域情報を生成するとともに、前記第1量子化対象帯域の前記入力信号を出力する帯域選択手段と、
     前記第1量子化対象帯域の前記入力信号の形状及び前記第1利得を符号化して形状符号化情報及び前記第1利得符号化情報を生成する形状・利得符号化手段と、
     を具備する、
     請求項1記載の符号化装置。
  8.  前記形状・利得符号化手段は、
     決定された前記符号化方法を用いて、前記第1利得を符号化する、
     請求項7記載の符号化装置。
  9.  少なくとも2つの符号化レイヤを有する符号化装置であって、
     周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化手段と、
     前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化手段と、を具備し、
     前記第1レイヤ符号化手段あるいは前記第2レイヤ符号化手段の少なくとも一方は、
     自レイヤ以下のレイヤにおける帯域情報に基づいて、各レイヤの量子化対象帯域における前記各レイヤの符号化手段への入力信号の利得の符号化方法を複数の候補から決定する判定手段、を具備する、
     符号化装置。
  10.  前記判定手段は、
     前記自レイヤ以下のレイヤにおける帯域情報に基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項9記載の符号化装置。
  11.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報と、現フレームにおける前記第1帯域情報および前記第2帯域情報のうち、前記自レイヤ以下のレイヤにおける帯域情報に基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項9記載の符号化装置。
  12.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報のうち、前記自レイヤ以下のレイヤにおける帯域情報を用いて求められる、過去のフレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域のうち、前記自レイヤ以下のレイヤにおける帯域情報の和集合である第3量子化対象帯域と、現フレームにおける前記第1帯域情報および前記第2帯域情報のうち、前記自レイヤ以下のレイヤにおける帯域情報を用いて求められる、現フレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域のうち、前記自レイヤ以下のレイヤにおける帯域情報の和集合である第4量子化対象帯域と、を比較した結果に基づいて、前記符号化方法を、予測符号化方法と非予測符号化方法とのいずれかに決定する、
     請求項9記載の符号化装置。
  13.  前記判定手段は、
     前記結果が、前記第3量子化対象帯域と前記第4量子化対象帯域とに含まれる共通のサブバンドの数が予め設定された閾値以上である場合には、前記符号化方法を予測符号化方法に決定し、前記共通のサブバンドの数が前記閾値未満の場合には、前記符号化方法を非予測符号化方法に決定する、
     請求項9記載の符号化装置。
  14.  請求項1に記載の符号化装置を具備する通信端末装置。
  15.  請求項1に記載の符号化装置を具備する基地局装置。
  16.  少なくとも2つの符号化レイヤを有する符号化装置において生成された情報を受信して復号する復号装置であって、
     前記符号化装置の第1レイヤの符号化により得られた、周波数領域を分割した複数のサブバンドの中から前記第1レイヤの第1量子化対象帯域を選択して生成された第1帯域情報を含む前記第1符号化情報と、前記第1符号化情報を用いた前記符号化装置の第2レイヤの符号化により得られた、前記複数のサブバンドの中から前記第2レイヤの第2量子化対象帯域を選択して生成された第2帯域情報を含む前記第2符号化情報と、を有する前記情報を受信する受信手段と、
     前記情報から得られる前記第1符号化情報を入力し、前記第1帯域情報に基づいて設定される前記第1量子化対象帯域に対する第1復号信号を生成する第1レイヤ復号手段と、
     前記情報から得られる前記第2符号化情報を入力し、前記第2帯域情報に基づいて設定される前記第2量子化対象帯域に対する第2復号信号を生成する第2レイヤ復号手段と、を具備し、
     前記第1レイヤ復号手段は、
     前記第1帯域情報に基づいて、前記第1復号信号の利得の復号方法を複数の候補から決定する判定手段を、を具備する、
     復号装置。
  17.  前記判定手段は、
     更に前記第2帯域情報に基づいて、前記復号方法を決定する、
     請求項16記載の復号装置。
  18.  前記判定手段は、
     前記第1帯域情報および前記第2帯域情報に基づいて、前記復号方法を、予測復号方法と非予測復号方法とのいずれかに決定する、
     請求項16記載の復号装置。
  19.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報と、現フレームにおける前記第1帯域情報および前記第2帯域情報とに基づいて、前記復号方法を、予測復号方法と非予測復号方法とのいずれかに決定する、
     請求項16記載の復号装置。
  20.  前記判定手段は、
     過去のフレームにおける前記第1帯域情報および前記第2帯域情報を用いて求められる、過去のフレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域の和集合である第3量子化対象帯域と、現フレームにおける前記第1帯域情報および前記第2帯域情報を用いて求められる、現フレームにおける前記第1量子化対象帯域および前記第2量子化対象帯域の和集合である第4量子化対象帯域と、を比較した結果に基づいて、前記復号方法を、予測復号方法と非予測復号方法とのいずれかに決定する、
     請求項16記載の復号装置。
  21.  前記判定手段は、
     前記結果が、前記第3量子化対象帯域と前記第4量子化対象帯域とに含まれる共通のサブバンドの数が予め設定された閾値以上である場合には、前記復号方法を予測復号方法に決定し、前記共通のサブバンドの数が前記閾値未満の場合には、前記復号方法を非予測復号方法に決定する、
     請求項20記載の復号装置。
  22.  前記受信手段は、
     前記符号化装置の第1レイヤの符号化により得られた、前記第1量子化対象帯域における利得の符号化方法として予測符号化を用いたか否かを判定した判定情報を更に含む前記第1符号化情報を受信し、
     前記判定手段は、
     更に前記判定情報に基づいて、前記復号方法を、予測復号方法と非予測復号方法とのいずれかに決定する、
     請求項16記載の復号装置。
  23.  請求項16に記載の復号装置を具備する通信端末装置。
  24.  請求項16に記載の復号装置を具備する基地局装置。
  25.  少なくとも2つの符号化レイヤを有する符号化方法であって、
     周波数領域の入力信号を入力し、前記周波数領域を分割した複数のサブバンドの中から前記入力信号の第1量子化対象帯域を選択して第1帯域情報を求めるとともに、前記第1量子化対象帯域の前記入力信号の第1利得を求め、前記第1帯域情報と、前記第1利得を符号化して得られる第1利得符号化情報と、を含む第1符号化情報を生成し、前記第1符号化情報を用いた復号を行うことにより得られる復号信号と前記入力信号との差分信号を生成する第1レイヤ符号化ステップと、
     前記差分信号を入力し、前記複数のサブバンドの中から前記差分信号の第2量子化対象帯域を選択して第2帯域情報を求めるとともに、前記第2量子化対象帯域の前記差分信号の第2利得を求め、前記第2帯域情報と前記第2利得を符号化して得られる第2利得符号化情報とを含む第2符号化情報を生成する第2レイヤ符号化ステップと、を具備し、
     前記第1レイヤ符号化ステップは、
     前記第1帯域情報に基づいて、前記第1利得の符号化方法を複数の候補から決定する判定ステップ、を具備する、
     符号化方法。
  26.  少なくとも2つの符号化レイヤを有する符号化装置において生成された情報を受信して復号する復号方法であって、
     前記符号化装置の第1レイヤの符号化により得られた、周波数領域を分割した複数のサブバンドの中から前記第1レイヤの第1量子化対象帯域を選択して生成された第1帯域情報を含む前記第1符号化情報と、前記第1符号化情報を用いた前記符号化装置の第2レイヤの符号化により得られた、前記複数のサブバンドの中から前記第2レイヤの第2量子化対象帯域を選択して生成された第2帯域情報を含む前記第2符号化情報と、を有する前記情報を受信する受信ステップと、
     前記情報から得られる前記第1符号化情報を入力し、前記第1帯域情報に基づいて設定される前記第1量子化対象帯域に対する第1復号信号を生成する第1レイヤ復号ステップと、
     前記情報から得られる前記第2符号化情報を入力し、前記第2帯域情報に基づいて設定される前記第2量子化対象帯域に対する第2復号信号を生成する第2レイヤ復号ステップと、を具備し、
     前記第1レイヤ復号ステップは、
     前記第1帯域情報に基づいて、前記第1復号信号の利得の復号方法を複数の候補から決定する判定ステップを、を具備する、
     復号方法。
     
PCT/JP2010/006665 2009-11-13 2010-11-12 符号化装置、復号装置およびこれらの方法 WO2011058758A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201080051050.2A CN102598125B (zh) 2009-11-13 2010-11-12 编码装置、解码装置及其方法
JP2011540418A JP5746974B2 (ja) 2009-11-13 2010-11-12 符号化装置、復号装置およびこれらの方法
US13/505,634 US9153242B2 (en) 2009-11-13 2010-11-12 Encoder apparatus, decoder apparatus, and related methods that use plural coding layers

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-259949 2009-11-13
JP2009259949 2009-11-13

Publications (1)

Publication Number Publication Date
WO2011058758A1 true WO2011058758A1 (ja) 2011-05-19

Family

ID=43991424

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/006665 WO2011058758A1 (ja) 2009-11-13 2010-11-12 符号化装置、復号装置およびこれらの方法

Country Status (4)

Country Link
US (1) US9153242B2 (ja)
JP (1) JP5746974B2 (ja)
CN (1) CN102598125B (ja)
WO (1) WO2011058758A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013162450A1 (en) * 2012-04-24 2013-10-31 Telefonaktiebolaget L M Ericsson (Publ) Encoding and deriving parameters for coded multi-layer video sequences
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
ES2726193T3 (es) * 2014-08-28 2019-10-02 Nokia Technologies Oy Cuantificación de parámetros de audio
US9747910B2 (en) * 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072670A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 符号化装置、復号装置、およびこれらの方法
WO2009055493A1 (en) * 2007-10-22 2009-04-30 Qualcomm Incorporated Scalable speech and audio encoding using combinatorial encoding of mdct spectrum

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68911287T2 (de) * 1988-06-08 1994-05-05 Fujitsu Ltd Codierer/decodierer.
KR100935961B1 (ko) * 2001-11-14 2010-01-08 파나소닉 주식회사 부호화 장치 및 복호화 장치
US7752052B2 (en) * 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
JP4781272B2 (ja) * 2004-09-17 2011-09-28 パナソニック株式会社 音声符号化装置、音声復号装置、通信装置及び音声符号化方法
JP4871501B2 (ja) * 2004-11-04 2012-02-08 パナソニック株式会社 ベクトル変換装置及びベクトル変換方法
EP1798724B1 (en) * 2004-11-05 2014-06-18 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
WO2007035148A2 (en) * 2005-09-23 2007-03-29 Telefonaktiebolaget Lm Ericsson (Publ) Successively refinable lattice vector quantization
CN101283398B (zh) * 2005-10-05 2012-06-27 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US7966175B2 (en) * 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US9153241B2 (en) * 2006-11-30 2015-10-06 Panasonic Intellectual Property Management Co., Ltd. Signal processing apparatus
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP5403949B2 (ja) * 2007-03-02 2014-01-29 パナソニック株式会社 符号化装置および符号化方法
US8423371B2 (en) 2007-12-21 2013-04-16 Panasonic Corporation Audio encoder, decoder, and encoding method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072670A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 符号化装置、復号装置、およびこれらの方法
WO2009055493A1 (en) * 2007-10-22 2009-04-30 Qualcomm Incorporated Scalable speech and audio encoding using combinatorial encoding of mdct spectrum

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROYUKI EHARA ET AL.: "Development of 32kbit/s scalable wide-band speech and audio coding algorithm using high-efficiency code- excited linear prediction and band-selective modified discrete cosine transform coding algorithms", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 64, no. 4, 1 April 2008 (2008-04-01), pages 196 - 207, XP008162599 *
TOMOFUMI YAMANASHI ET AL.: "ITU-T G.718- development of speech/audio codec for next-generation mobile communication systems", PANASONIC TECHNICAL JOURNAL, vol. 55, no. 1, 15 April 2009 (2009-04-15), pages 21 - 26 *

Also Published As

Publication number Publication date
CN102598125A (zh) 2012-07-18
JP5746974B2 (ja) 2015-07-08
JPWO2011058758A1 (ja) 2013-03-28
US9153242B2 (en) 2015-10-06
CN102598125B (zh) 2014-07-02
US20120221344A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
JP5746974B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
US8306827B2 (en) Coding device and coding method with high layer coding based on lower layer coding results
JP5328368B2 (ja) 符号化装置、復号装置、およびこれらの方法
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
WO2009144953A1 (ja) 符号化装置、復号装置およびこれらの方法
US20100250244A1 (en) Encoder and decoder
WO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
JP5714002B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
US20100017197A1 (en) Voice coding device, voice decoding device and their methods
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
WO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5544371B2 (ja) 符号化装置、復号装置およびこれらの方法
JP7407110B2 (ja) 符号化装置及び符号化方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080051050.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10829718

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011540418

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13505634

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10829718

Country of ref document: EP

Kind code of ref document: A1