WO2007105586A1 - 符号化装置および符号化方法 - Google Patents

符号化装置および符号化方法 Download PDF

Info

Publication number
WO2007105586A1
WO2007105586A1 PCT/JP2007/054528 JP2007054528W WO2007105586A1 WO 2007105586 A1 WO2007105586 A1 WO 2007105586A1 JP 2007054528 W JP2007054528 W JP 2007054528W WO 2007105586 A1 WO2007105586 A1 WO 2007105586A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
encoding
unit
code
enhancement layer
Prior art date
Application number
PCT/JP2007/054528
Other languages
English (en)
French (fr)
Inventor
Tomofumi Yamanashi
Kaoru Sato
Toshiyuki Morii
Masahiro Oshikiri
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP07738019.4A priority Critical patent/EP1988544B1/en
Priority to US12/282,287 priority patent/US8306827B2/en
Priority to JP2008505088A priority patent/JP5058152B2/ja
Publication of WO2007105586A1 publication Critical patent/WO2007105586A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a coding apparatus and coding method used in a communication system for coding and transmitting a signal.
  • Patent Document 1 Japanese Patent Laid-Open No. 10-97295
  • Patent Document 2 JP-A-2005-80063
  • Patent Document 1 uses a predetermined coding scheme without special consideration of the coding result in the lower layer when encoding the residual signal in the upper layer. This is a method of signing a residual signal, and since the relationship between the lower and upper layers is fixed, an optimum sign key is required to provide a high-quality audio signal in a limited environment. Going I can't say that.
  • Patent Document 2 Although the method of Patent Document 2 considers the result of lower layer coding, the main purpose of the method is to avoid an overflow of the transmission buffer when the line is congested. The bit rate is adjusted, and when the line is not congested, it cannot be said that optimum code coding is performed to provide a high-quality voice signal.
  • An object of the present invention is to flexibly perform an optimal code based on a lower layer code key result in consideration of a lower layer code key result when encoding a residual signal in the upper layer. It is to provide users with high-quality audio signals in a limited environment.
  • the encoding device of the present invention is an encoding device that encodes an input signal with encoding information of n layers (n is an integer of 2 or more), and encodes the input signal to generate the first layer.
  • a hierarchy decoding means and a difference signal of the first layer which is a difference between the input signal and the decoded signal of the first layer or a difference signal of the (i 1) layer and a decoded signal of the i layer
  • the encoding method of the present invention is an encoding method that encodes an input signal with encoding information of n layers (n is an integer of 2 or more), wherein the input signal is encoded and the first signal is encoded.
  • a base layer encoding process for generating hierarchical encoding information, and decoding of the i-th layer (i is an integer between 1 and n-1) decoding the i-th layer decoding signal Decoding of the i-th layer, and the difference signal of the first layer, which is the difference between the input signal and the decoded signal of the first layer, or the difference signal of the (i 1) -th layer and the decoding of the i-th layer
  • the lower layer coding result is considered and the lower layer coding result is combined with the upper layer coding result. Since it is possible to flexibly switch between higher-layer coding schemes so as to obtain a high-quality audio signal, it is possible to provide a high-quality audio signal to users who are involved in the congestion state of the line.
  • FIG. 1 is a diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a sign key device according to Embodiment 1 of the present invention.
  • FIG. 3 is a diagram showing a bit stream structure of code key information according to Embodiment 1 of the present invention.
  • FIG. 4 is a block diagram showing an internal configuration of a base layer code key section of the code key device according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing an internal configuration of a base layer decoding unit of the coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing an internal configuration of an enhancement layer control unit of the coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 7 is a block diagram showing an internal configuration of an enhancement layer code key unit of the code key device according to Embodiment 1 of the present invention.
  • FIG. 8 is a block diagram showing a configuration of a decoding device according to Embodiment 1 of the present invention.
  • FIG. 9 is a block diagram showing an internal configuration of an enhancement layer decoding unit of the decoding device according to Embodiment 1 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a coding device according to Embodiment 2 of the present invention.
  • FIG. 11 is a block diagram showing an internal configuration of an enhancement layer control unit of the coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 12 shows an internal configuration of an enhancement layer code key section of the code key device according to Embodiment 2 of the present invention. Block diagram showing
  • FIG. 13 is a block diagram showing a configuration of a decoding device according to Embodiment 2 of the present invention.
  • FIG. 14 is a block diagram showing an internal configuration of an enhancement layer decoding unit of the decoding device according to Embodiment 2 of the present invention.
  • FIG. 15 is a block diagram showing a configuration of a coding device according to Embodiment 3 of the present invention.
  • FIG. 16 is a block diagram showing an internal configuration of an enhancement layer control unit of the coding apparatus according to Embodiment 3 of the present invention.
  • FIG. 17 is a block diagram showing a configuration of a decoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 18 is a block diagram showing a configuration of a coding device according to Embodiment 4 of the present invention.
  • FIG. 19 is a block diagram showing a configuration of a decoding apparatus according to Embodiment 4 of the present invention.
  • each layer (hereinafter referred to as “layer”) is divided into “base layer”, “first extension layer”, “second extension layer”, and “third extension layer” from the bottom.
  • the layers other than the base layer are called “extended layers”.
  • the scalable coding technique is hierarchized to transmit data of all layers when the bit rate representing the communication speed can be sufficiently secured, and to the bit rate when the bit rate cannot be sufficiently secured. This is a technology that ensures scalability by transmitting data from a lower layer to a predetermined layer accordingly.
  • FIG. 1 is a diagram showing a block configuration of a communication system having an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • the communication system includes an encoding device 101 and a decoding device 103.
  • Encoding apparatus 101 inputs an input signal and transmission mode information, encodes the input signal based on the transmission mode information, and transmits the encoded signal information to decoding encoder 103 via transmission path 102. Send I believe.
  • Decoding apparatus 103 receives and decodes the code information transmitted from encoding apparatus 101 via transmission path 102, generates an output signal based on the decoded transmission mode information, and Output to process equipment.
  • the transmission mode information indicates a bit rate transmitted from the encoding apparatus 101 to the decoding apparatus 103, and takes one of BR1 and BR2 (BR1 ⁇ BR2).
  • FIG. 2 is a block diagram showing a configuration of the encoding device 101 according to the present embodiment.
  • the encoding apparatus 101 includes an encoding operation control unit 201, a base layer encoding unit 202, a base layer decoding unit 203, an addition unit 204, an enhancement layer control unit 205, An extended layer encoding unit 206, a code key information integration unit 207, and control switches 208 and 209 are mainly configured.
  • Transmission mode information is input to the sign key operation control unit 201.
  • the encoding operation control unit 201 performs on / off control of the control switches 208 and 209 according to the input transmission mode information. Specifically, the sign key operation control unit 201 turns on all the control switches 208 and 209 when the transmission mode information is BR2. Also, the sign key operation control unit 201 turns off all the control switches 208 and 209 when the transmission mode information is BR1. Note that the transmission mode information is input to the coding operation control unit 201 as described above, and without passing through the coding operation control unit 201 or the coding operation control unit 201 as shown in FIG. It is also directly input to the code key information integration unit 207. As described above, the coding operation control unit 201 performs on / off control of the control switch group according to the transmission mode information, thereby determining the combination of the code key units used for the code key of the input signal.
  • the base layer code base unit 202 encodes an input signal such as a speech signal using a CELP type speech encoding method to generate a base layer information source code, and generates the generated base layer information.
  • the source code is output to the code key information integration unit 207 and the control switch 209.
  • base layer coding unit 202 outputs LPC (linear prediction coefficient) and quantization LPC, which are parameters calculated in the case of speech coding of the input signal, to enhancement layer control unit 205. . Note that details of the internal configuration of the base layer coding unit 202 will be described later.
  • the base layer decoding unit 203 applies a CELP type speech decoding method to the base layer information source code output from the base layer encoding unit 202. Then, decoding is performed to generate a base layer decoded signal, and the base layer decoded signal is output to the adder 204. On the other hand, the base layer decoding unit 203 does not operate when the control switch 209 is off. Note that details of the internal configuration of the base layer decoding unit 203 will be described later.
  • adder 204 calculates a difference signal by reversing the polarity of the base layer decoded signal and adding it to the input signal, and adds the difference signal to the enhancement layer code signal. Output to part 206.
  • the adding unit 204 does not operate when the control switch 208 is off.
  • Enhancement layer control section 205 generates enhancement layer mode information based on the LPC and quantized LPC output from base layer encoding section 202, and adds enhancement layer mode information to enhancement layer encoding section 206. And the sign key information integration unit 207.
  • the enhancement layer mode information is information indicating the code key mode in the enhancement layer, and is used when the enhancement device decodes the enhancement layer information source code. Details of the internal configuration of the enhancement layer control unit 205 will be described later.
  • the enhancement layer coding unit 206 controls the CELP type speech coding method for the differential signal obtained from the adder 204 under the control of the enhancement layer control unit 205. Is used to generate an enhancement layer information source code, and the enhancement layer information source code is output to the code key information integration unit 207. On the other hand, enhancement layer coding section 206 does not operate when control switches 208 and 209 are off. The details of the control method of the enhancement layer coding unit 206 by the enhancement layer control unit 205 will be described later.
  • the code key information integration unit 207 includes the information source code output from the base layer code key unit 202 and the enhancement layer code key unit 206, and the enhancement layer mode information output from the enhancement layer control unit 205. And the transmission mode information output from the code key operation control unit 201 are integrated to generate code key information, and the generated code key information is output to the transmission path 102.
  • the encoded information is composed of transmission mode information, a base layer information source code, and a redundant part as shown in FIG. 3A.
  • the encoded information includes transmission mode information and basic information as shown in FIG. 3B.
  • This layer information source code, enhancement layer information source code, enhancement layer mode information, and redundant part is a redundant data storage part prepared in the bit stream, and is used to synchronize the bit for transmission error detection / correction and the packet. It is used for the counter etc.
  • the pre-processing unit 401 performs waveform shaping processing and pre-emphasis processing on the input signal to improve the performance of the high-pass filter processing that removes the DC component and the subsequent encoding processing, and the signal (Xin) after these processing. Is output to the LPC analysis unit 402 and the addition unit 405.
  • the LPC analysis unit 402 performs linear prediction analysis using Xin, and outputs the LPC that is the analysis result to the LPC quantization unit 403 and the enhancement layer control unit 205.
  • the LPC quantum unit 403 performs quantization processing of the LPC output from the LPC analysis unit 402, outputs the quantized LPC to the synthesis filter 404 and the enhancement layer control unit 205, and also represents a code representing the quantized LPC (L) is output to multiplexing section 414.
  • the synthesis filter 404 generates a synthesized signal by performing filter synthesis on a driving sound source output from an adder 411 (to be described later) using a filter coefficient based on the quantized LPC, and outputs the synthesized signal to the adder 405.
  • Adder 405 calculates the error signal by inverting the polarity of the synthesized signal and adding it to Xin, and outputs the error signal to audio weighting unit 412.
  • the adaptive excitation codebook 406 stores in the buffer the driving excitation that was output in the past by the adding unit 411, and 1 from the past driving excitation specified by the signal output from the meter determining unit 413.
  • the sample for the frame is cut out as an adaptive excitation vector and output to the multiplier 409.
  • the quantization gain generation unit 407 outputs the quantization adaptive excitation gain and the quantization fixed excitation gain specified by the signal output from the parameter determination unit 413 to the multiplication unit 409 and the multiplication unit 410, respectively.
  • Fixed excitation codebook 408 selects a pulse excitation vector having a shape specified by the signal output from parameter determination section 413, and outputs the pulse excitation vector to multiplication section 410 as a fixed excitation vector.
  • a fixed sound source vector may be generated by multiplying the selected nors sound source vector by a diffusion vector, and the fixed sound source vector may be output to multiplication section 410.
  • Multiplication section 409 multiplies the adaptive excitation vector output from adaptive excitation codebook 406 by the quantized adaptive excitation gain output from quantization gain generation section 407 and outputs the result to addition section 411.
  • Multiplication section 410 multiplies the fixed excitation vector output from fixed excitation codebook 408 by the quantized fixed excitation gain output from quantization gain generation section 407 and outputs the result to addition section 411.
  • Adder 411 performs a vector addition on the adaptive excitation vector and the fixed excitation vector after gain multiplication, and outputs the drive excitation as the addition result to synthesis filter 404 and adaptive excitation codebook 406. Note that the driving excitation input to adaptive excitation codebook 406 is stored in a nota.
  • Auditory weighting section 412 performs auditory weighting on the error signal output from adding section 405, and outputs it to parameter determining section 413 as code distortion.
  • the parameter determination unit 413 uses the adaptive excitation codebook 406, the fixed excitation codebook 408, and the adaptive excitation vector, the fixed excitation vector, and the quantization gain, which are output from the perceptual weighting unit 412, to minimize the code distortion. It selects from the quantization gain generation unit 407, and outputs the adaptive excitation external code (A), fixed excitation external code (F), and excitation gain code (G) indicating the selection result to the multiplexing unit 414.
  • A adaptive excitation external code
  • F fixed excitation external code
  • G excitation gain code
  • Multiplexer 414 receives code (L) representing quantized LPC from LPC quantizer 403, code (A) representing adaptive excitation vector, and code representing fixed excitation vector from parameter determining unit 413. (F) and a code (G) representing the quantization gain are input, and the information is multiplexed and output as a base layer information source code.
  • the multiplexing / separating unit 501 separates the input base layer information source code into individual codes (L, A, G, F).
  • the LPC code (L) is output to the LPC decoding unit 502, the adaptive excitation vector code (A) is output to the adaptive excitation codebook 505, and the excitation gain code (G) is output to the quantization gain generation unit 502.
  • Fixed excitation vector code (F) is output to fixed excitation codebook 507.
  • Adaptive excitation codebook 505 extracts a sample for one frame from the past drive excitation designated by the code (A) output from demultiplexing section 501 as an adaptive excitation vector, and outputs it to multiplication section 508 To do.
  • the quantization gain generation unit 506 recovers the quantization adaptive excitation gain and the quantization fixed excitation gain specified by the excitation gain code (G) output from the demultiplexing unit 501.
  • the signal is output to the multiplication unit 508 and the multiplication unit 509.
  • Fixed excitation codebook 507 generates a fixed excitation vector specified by the code (F) output from multiplexing / separating section 501 and outputs it to multiplication section 510.
  • Multiplier 508 multiplies the adaptive excitation vector by the quantized adaptive excitation gain and outputs the result to adder 510.
  • Multiplication section 509 multiplies the fixed excitation vector by the quantized fixed excitation gain and outputs the result to addition section 510.
  • Adder 510 adds the adaptive excitation vector after gain multiplication output from multipliers 508 and 509 and the fixed excitation vector to generate a drive excitation, and outputs this to synthesis filter 503 and adaptive excitation codebook 505. .
  • the LPC decoding unit 502 decodes the quantized LPC from the code (L) output from the demultiplexing unit 501 and outputs it to the synthesis filter 503.
  • the synthesis filter 503 performs filter synthesis of the driving sound source output from the addition unit 510 using the filter coefficient decoded by the LPC decoding unit 502, and outputs the synthesized signal to the post-processing unit 504.
  • the post-processing unit 504 improves the subjective quality of speech, such as formant emphasis and pitch emphasis, and the subjective quality of stationary noise for the signal output from the synthesis filter 503. Processing is performed and output as a base layer decoded signal.
  • the enhancement layer control unit 205 mainly includes a quantization distortion calculation unit 601, a threshold comparison unit 602, and an enhancement layer mode information determination unit 603.
  • Quantization distortion calculation section 601 first calculates the LPC cepstrum for the input LPC force and the quantized LPC cepstrum from the quantized LPC according to the following equation (1).
  • a in equation (1) represents the p-th order LPC (or quantized LPC) input from the base layer coding unit 202
  • c represents the LPC cepstrum (or quantized LPC cepstrum).
  • the quantization distortion calculation unit 601 calculates the distance (LPC between the LPC cepstrum calculated by the above equation (1) and the quantized LPC cepstrum by the following equations (2) and (3). Calculate the cepstrum distance (CD)).
  • the calculated LPC cepstrum distance is output to the threshold comparison unit 602.
  • c 1 in equation (2) represents the LPC cepstrum
  • c 2 represents the quantized LPC cepstrum.
  • the threshold comparison unit 602 compares the LPC cepstrum distance output from the quantization distortion calculation unit 601 with a predetermined threshold held inside, and the comparison result is sent to the enhancement layer mode information determination unit 603. Output.
  • the LPC is about 12th order, it is appropriate to set the threshold to about 1.0.
  • Enhancement layer mode information determination section 603 determines a coding mode in the enhancement layer according to the comparison result output from threshold comparison section 602, and enhances the enhancement layer mode information indicating the coding mode.
  • the data is output to section 206.
  • the enhancement layer mode information determination unit 603 determines that the LPC cepstrum distance is larger than the threshold value, that is, if the LPC quantization error is large, the enhancement layer code key mode is selected.
  • the enhancement layer code key mode is set to Mode B.
  • the pre-processing unit 701 performs waveform shaping processing and pre-emphasis processing on the residual signal to improve the performance of the high-pass filter processing that removes the DC component and the subsequent encoding processing, and the signal after these processing (Xin ) Is output to the LPC analysis unit 702 and the addition unit 705.
  • the LPC analysis unit 702 performs linear prediction analysis using Xin, and outputs the LPC that is the analysis result to the LPC quantization unit 703.
  • the LPC quantization unit 703 uses the enhancement layer mode information output from the enhancement layer control unit 205 to perform quantization processing of the LPC output from the LPC analysis unit 702, and converts the quantized LPC to the synthesis filter 704.
  • the code (L) representing the quantized LPC is output to the multiplexing unit 714.
  • LPC quantization section 703 appropriately switches the codebook used for LPC quantization (LPC codebook) based on the extended layer mode information.
  • the LPC quantization unit 703 performs quantization using the LPC codebook A prepared in advance when the enhancement layer mode information is Mode A, that is, when the LPC quantization error is large, and the enhancement layer mode When the information is ModeB, that is, when the LPC quantization error is small, quantization using the LPC codebook B provided in advance is performed.
  • the LPC codebook B is a codebook having a smaller size than the LPC codebook A.
  • the size of LPC codebook B may be zero, that is, LPC may not be used in the enhancement layer.
  • the synthesis filter 704 generates a synthesized signal by performing filter synthesis on a driving sound source output from an adder 711, which will be described later, using a filter coefficient based on the quantized LPC, and adds the synthesized signal to the adder 705. Output to.
  • the adding unit 705 calculates an error signal by inverting the polarity of the combined signal and adding it to Xin, and outputs the error signal to the auditory weighting unit 712.
  • Adaptive excitation codebook 706 stores in the buffer the drive excitation that was output in the past by addition section 711, and 1 from the past drive excitation specified by the signal output from meter determination section 713.
  • the sample for the frame is cut out as an adaptive excitation vector and output to the multiplier 709.
  • the quantization gain generation unit 707 multiplies the quantization adaptive excitation gain specified by the signal output from the parameter determination unit 713 and the quantization fixed excitation gain, respectively.
  • the data is output to the unit 709 and the multiplication unit 710.
  • Fixed excitation codebook group 708 includes a plurality of fixed excitation codebooks, and selects one fixed excitation codebook according to the enhancement layer mode information output from enhancement layer control section 205. Specifically, the fixed excitation codebook group 708 selects the fixed excitation codebook A when the enhancement layer mode information is Mode A, that is, when the LPC quantization error is large, and when the enhancement layer mode information is Mode B, that is, the LPC If the quantization error is small, select a fixed excitation codebook B that is larger than the size of fixed excitation codebook A.
  • bit difference When the size difference (bit difference) between fixed excitation codebook B and fixed excitation codebook A in each frame is the same as the size difference (bit difference) between LPC codebook A and LPC codebook B
  • bit rate used for encoding is equal.
  • the size of LPC codebook A is 256
  • the size of LPC codebook B is 16
  • the fixed excitation codebook An example of this is when the size of A is 16 and the size of the fixed excitation codebook B is 32.
  • fixed excitation codebook group 708 has a pulse having a shape specified by a signal output from parameter determination section 713 among a plurality of pulse excitation vectors stored in the selected fixed excitation codebook.
  • a sound source vector is selected, and the Norse sound source vector is output to multiplier 710 as a fixed sound source vector.
  • the fixed excitation vector may be generated by multiplying the selected pulse excitation vector by the spread vector, and the fixed excitation vector may be output to the multiplier 710.
  • Multiplication section 709 multiplies the adaptive adaptive excitation gain output from quantization gain generation section 707 by the adaptive excitation vector output from adaptive excitation codebook 706, and outputs the result to addition section 711.
  • Multiplication section 710 multiplies the fixed excitation vector output from fixed excitation codebook group 708 by the quantized fixed excitation gain output from quantization gain generation section 707 and outputs the result to addition section 711.
  • Adder 711 performs vector addition of the adaptive excitation vector and fixed excitation vector after gain multiplication, and outputs the drive excitation as the addition result to synthesis filter 704 and adaptive excitation codebook 706. Note that the driving excitation input to the adaptive excitation codebook 706 is stored in a nota.
  • the auditory weighting unit 712 performs auditory weighting on the error signal output from the adding unit 705.
  • the result is output to parameter determination section 713 as code distortion.
  • the parameter determination unit 713 receives the adaptive sound source vector, the fixed excitation vector, and the quantization gain that minimize the code distortion that are output from the perceptual weighting unit 712 as the adaptive excitation codebook 706 and the fixed excitation codebook group 708, respectively.
  • the adaptive gain source code (A), fixed source code (F), and source gain code (G) indicating the selection result are output to the multiplexing unit 714. .
  • Multiplexer 714 receives code (L) representing quantized LPC from LPC quantizer 703, code (A) representing adaptive excitation vector, and code representing fixed excitation vector from parameter determining unit 713. (F) and a code (G) representing the quantization gain are input, and the information is multiplexed and output as an enhancement layer information source code.
  • Decoding apparatus 103 mainly includes decoding operation control section 801, base layer decoding section 802, enhancement layer decoding section 803, control switch 805, and calorie calculation 804.
  • Decoding operation control section 801 receives code information transmitted from encoding apparatus 101 via transmission path 102. Decoding operation control section 801 separates the code information into transmission mode information, enhancement layer mode information, and information source codes for each layer, and controls the on / off state of control switch 805 in accordance with the transmission mode information. To do. Also, decoding operation control section 801 outputs information source code and enhancement layer mode information corresponding to each layer to base layer decoding section 802 and enhancement layer decoding section 803, respectively. Specifically, when the transmission mode information is BR2, the decoding operation control unit 801 turns on the control switch 805, sets the base layer information source code to the base layer decoding unit 802, and enhances layer mode information.
  • enhancement layer information source code are output to enhancement layer decoding section 803, respectively.
  • decoding operation control section 801 turns off control switch 800 and outputs the base layer information source code to base layer decoding section 802. At this time, the decoding operation control unit 801 outputs nothing to the enhancement layer decoding unit 803.
  • the base layer decoding unit 802 receives the base layer information source code from the decoding operation control unit 801, decodes this using the CELP type speech decoding method, and generates the basic decoded signal. Les And output to the adder 804 as a signal decoding signal. Note that the internal configuration of base layer decoding section 802 in FIG. 8 is the same as the internal configuration of base layer decoding section 203 shown in FIG.
  • the enhancement layer decoding unit 803 receives the enhancement layer mode information and the enhancement layer information source code from the decoding operation control unit 801, and according to the enhancement layer mode information
  • the enhancement layer information source code is decoded by a CELP type speech decoding method, and the decoded signal is output to addition section 804 as an enhancement layer decoded signal.
  • the enhancement layer decoding unit 803 does not operate when the control switch 805 is in the OFF state. The configuration of enhancement layer decoding section 803 will be described later.
  • adder 804 When control switch 805 is on, adder 804 inputs a base layer decoded signal from base layer decoding section 8002, and performs enhancement layer decoding from enhancement layer decoding section 803. After inputting the signals and adding these signals, they are output as output signals to the device in the subsequent process. On the other hand, when the control switch 805 is in the OFF state, the adding unit 804 receives the base layer decoded signal from the base layer decoding unit 802, and outputs this as an output signal to the subsequent process device.
  • enhancement layer decoding section 803 in FIG. 8 will be described using FIG.
  • the demultiplexing unit 901 demultiplexes the extended layer information source code output from the decoding operation control unit 801 into individual codes (L, A, G, F).
  • the LPC code (L) is output to the LPC decoding unit 902
  • the adaptive excitation vector code (A) is output to the adaptive excitation codebook 905
  • the excitation gain code (G) is output to the quantization gain generation unit 906 and fixed.
  • the excitation vector code (F) is output to the fixed excitation codebook group 907.
  • the LPC decoding unit 902 decodes the quantized LPC from the code (L) output from the demultiplexing unit 901 using the enhancement layer mode information output from the decoding operation control unit 801. Then, it is output to the synthesis filter 903.
  • LPC decoding section 902 switches appropriately the codebook (LPC codebook) used for LPC decoding.
  • LPC codebook is a codebook having a smaller size than LPC codebook A. Book
  • the size of the LPC codebook B may be zero, that is, LPC is not used in the enhancement layer.
  • Adaptive excitation codebook 905 extracts a sample for one frame from the past drive excitation specified by the code (A) output from demultiplexing section 901 as an adaptive excitation vector and outputs it to multiplication section 908. To do.
  • the quantization gain generation unit 906 decodes the quantized adaptive excitation gain and the quantized fixed excitation gain specified by the excitation gain code (G) output from the demultiplexing unit 901, and performs multiplication units 908 and multiplication units. Output to 909.
  • Fixed excitation codebook group 907 includes a plurality of fixed excitation codebooks, and selects one fixed excitation codebook according to the enhancement layer mode information output from decoding operation control section 801. Specifically, the fixed excitation codebook group 907 selects the fixed excitation codebook A when the enhancement layer mode information is Mode A, and selects the fixed excitation codebook B when the enhancement layer mode information is Mode B. select.
  • the fixed excitation codebook group 907 is a pulse excitation vector specified by the code (F) output from the demultiplexing unit 901 from a plurality of pulse excitation vectors stored in the selected fixed excitation codebook. And outputs the pulse sound source vector to the multiplier 909 as a fixed sound source vector. Note that a fixed excitation vector may be generated by multiplying the selected pulse excitation vector by a diffusion vector, and the fixed excitation vector may be output to the multiplier 909.
  • Multiplying section 908 multiplies the adaptive excitation vector by the quantized adaptive excitation gain, and outputs the result to addition section 910.
  • Multiplication section 909 multiplies the fixed excitation vector by the quantized fixed excitation gain and outputs the result to addition section 910.
  • Adder 910 performs vector addition of the adaptive excitation vector and the fixed excitation vector after gain multiplication output from multiplication sections 908 and 909, and outputs the drive excitation as the addition result to synthesis filter 903 and adaptive excitation codebook 905. .
  • the synthesis filter 903 performs filter synthesis of the driving sound source output from the addition unit 910 using the filter coefficients decoded by the LPC decoding unit 902, and sends the synthesized signal to the post-processing unit 904. Output.
  • the post-processing unit 904 performs processing for improving the subjective quality of speech, such as formant emphasis and pitch emphasis, and processing for improving the subjective quality of stationary noise, on the signal output from the synthesis filter. And output as an enhancement layer decoded signal.
  • LPC is performed based on the result of coding in a lower layer.
  • it is possible to flexibly change the encoding method in the upper layer such as changing the bit allocation between parameters such as fixed excitation codes, etc. It is possible to realize a communication system that provides a user with a sound signal.
  • the encoding apparatus uses an LPC codebook having a small size at the time of encoding of the upper layer using LPC distortion (LPC cepstrum distance) of the lower layer. If the number of bits allocated to the LPC is reduced, and the number of bits allocated to the fixed excitation code is increased by using a large fixed excitation codebook, the power described by taking the case as an example is not limited to this. The same applies to the case of using a large size, LPC codebook, and a small fixed excitation codebook at the time of higher layer code input.
  • LPC distortion LPC cepstrum distance
  • the encoding apparatus controls the code key mode in the upper layer based on the quantization error of the LPC in the lower layer.
  • the present invention is not limited to this, and it is also possible to control the code mode in the upper hierarchy based on other parameters of the lower hierarchy.
  • the code key mode in the upper layer is controlled based on the SNR (signal-to-noise ratio) of the synthesized sound in the lower layer.
  • the synthesis filter 404 in the base layer code base unit 202 multiplies the LPC quantization coefficient output from the LPC quantization unit 403 and the adaptive excitation code output from the adaptive excitation codebook 406 by a gain.
  • the SNR of the synthesized sound synthesized from the value is calculated and output to the threshold comparison unit 602 in the enhancement layer control unit 205.
  • the threshold comparison unit 602 compares the input SNR with a threshold stored in advance therein, and outputs the comparison result to the enhancement layer mode information determination unit 603.
  • the enhancement layer mode information determination unit 603 determines enhancement layer mode information according to the comparison result output from the threshold comparison unit 602, and outputs this to the enhancement layer coding unit 206.
  • enhancement layer mode information determination section 603 sets the enhancement layer mode to Mode A, and sets the base layer code section 202. SN output from If R is less than or equal to the threshold, the enhancement layer mode is set to ModeB.
  • enhancement layer control method using the LPC cepstrum distance and the enhancement layer control method using the adaptive excitation code multiplied by the gain and the SNR of the synthesized speech synthesized from the LPC coefficient are combined. This enables bit adjustment among the three parameters of LPC, adaptive excitation code, and fixed excitation code in the upper level code.
  • Embodiment 1 the scalable coding scheme using the CELP type coding scheme for both the lower layer and the upper layer has been described.
  • the present invention is not limited to this, and other layers other than the CELP type are used for the upper layer.
  • the present invention can be similarly applied to a scalable code method using a code method.
  • the present invention is applied to a scalable coding scheme in which CELP type coding is performed in the lower layer and transform coding is performed in the upper layer.
  • the communication system having the encoding device and the decoding device according to the present embodiment is the same as that shown in FIG.
  • FIG. 10 is a block diagram showing a configuration of the coding device 101 according to the present embodiment.
  • the encoding apparatus 101 includes a code key operation control unit 1001, a base layer code key unit 1002, an enhancement layer control unit 1003, a base layer decoding unit 1004, and a first frequency region. It is mainly composed of a band transform unit 1005, a delay unit 1006, a second frequency domain transform unit 1007, an enhancement layer coding unit 1008, and a multiplexing unit 1009.
  • Transmission mode information is input to the sign key operation control unit 1001.
  • the encoding operation control unit 1001 performs on / off control of the control switches 1010 to 1012 according to the input transmission mode information. Specifically, the sign key operation control unit 1001 turns on all the control switches 1010 to L012 when the transmission mode information is BR2. Also, the encoding operation control unit 1001 turns off all the control switches 1010 to 1012 when the transmission mode information is BR1.
  • the transmission mode information is input to the sign key operation control unit 1001 as described above, and without passing through the sign key operation control unit 1001 or the coding operation control unit 1001 as shown in FIG. Directly input to the multiplexing unit 1009.
  • the base layer code key unit 1002 generates a base layer information source code by performing code coding on an input signal such as a voice signal using a CELP type voice code key method.
  • the basic layer code key information is output to multiplexing section 1009 and control switch 1012.
  • base layer code key unit 1002 outputs LPC (linear prediction coefficient) and quantized LPC, which are parameters calculated at the time of speech code key input signal, to control switch 1011.
  • LPC linear prediction coefficient
  • quantized LPC which are parameters calculated at the time of speech code key input signal
  • enhancement layer control section 1003 When control switch 1011 is on, enhancement layer control section 1003 generates enhancement layer mode information based on the LPC and quantization LPC output from base layer coding section 1002, and creates enhancement layer mode information. Output to enhancement layer code key unit 1008 and multiplexing unit 1009.
  • the enhancement layer mode information is information indicating the code key mode in the enhancement layer, and is used when decoding the enhancement layer code key information in the decoding key device. Details of the internal configuration of the enhancement layer control unit 1003 will be described later.
  • the extended layer control unit 1003 does not operate when the control switch 1011 is off.
  • Base layer decoding unit 1004 uses the CELP type speech decoding method for the base layer code key information output from base layer code key unit 1002 when control switch 1012 is on. Then, decoding is performed to generate a base layer decoded signal, and the base layer decoded signal is output to first frequency domain transform section 1005. On the other hand, the base layer decoding unit 1004 does not operate when the control switch 1012 is off. Note that the internal configuration of base layer decoding section 1004 is the same as that of base layer decoding section 203 in FIG.
  • First frequency domain transform section 1005 performs a modified discrete cosine transform (MDCT) on the base layer decoded signal input from base layer decoding section 1004, and obtains it as a frequency domain parameter.
  • MDCT modified discrete cosine transform
  • First frequency domain transform section 1005 incorporates N notches, and first initializes each buffer using a "0" value according to the following equation (4).
  • first frequency domain transform section 1005 obtains base layer decoded signal MDCT coefficient XI by performing a modified discrete cosine transform on base layer decoded signal xl according to the following equation (5).
  • Equation (5) k represents the index of each sample in one frame.
  • xl is a vector obtained by combining the base layer decoded signal xl and the buffer buf according to the following equation (6).
  • first frequency domain transform section 1005 outputs the obtained base layer decoding MDCT coefficient XI to enhancement layer code section 1008.
  • the delay unit 1006 stores the input audio 'audio signal in a built-in buffer, and the audio / audio signal is stored in the second frequency domain conversion unit 1007 after a predetermined time has elapsed.
  • the predetermined time is a time that takes into account the algorithm delay that occurs in base layer coding unit 1002, base layer decoding unit 1004, first frequency domain transform unit 1005, and second frequency domain transform unit 1007.
  • the delay unit 10 06 does nothing when control switch 1010 is off.
  • the second frequency domain transform unit 1007 When the control switch 1010 is on, the second frequency domain transform unit 1007 performs MDCT on the audio signal input from the delay unit 1006, and obtains an input MDCT coefficient obtained as a frequency domain parameter. Output to enhancement layer code field 1008.
  • the frequency conversion method in the second frequency domain transform unit 1007 is the same as the processing in the first frequency domain transform unit 1005, and thus the description thereof is omitted.
  • the second frequency domain converter 1007 does not operate when the control switch 1010 is off.
  • Enhancement layer coding section 1008 receives enhancement layer mode information inputted from enhancement layer control section 1003 and first frequency domain transform section 1005 when control switches 1010, 1011, and 1012 are on.
  • the base layer decoding key MDCT coefficient and the input MDCT coefficient input from the second frequency domain transform unit 1007 are used to perform the enhancement layer code key, and the resulting enhancement layer code key information is output to the multiplexing unit 1009 To do.
  • the internal configuration and specific operation of enhancement layer code key unit 1008 will be described later. Also, enhancement layer encoding section 1008 does not operate when control switches 1010, 1011 and 1012 are off.
  • Multiplexer 1009 receives base layer coding information input from base layer encoder 1002, enhancement layer mode information input from enhancement layer controller 1003, and input from enhancement layer encoder 1008.
  • the enhancement layer code key information and the transmission mode information input from the coding operation control unit 1001 are multiplexed, and the obtained bit stream is transmitted to the decoding key device.
  • the enhancement layer control unit 1003 mainly includes a quantization distortion calculation unit 1101 and an enhancement layer mode information determination unit 1102.
  • the quantization distortion calculation unit 1101 first calculates the input LPC force LPC cepstrum from the quantization LPC and the quantization LPC cepstrum according to the above equation (1), and then calculates the equation (2) and Using equation (3), calculate the distance between the LPC cepstrum calculated in equation (1) and the quantized LPC cepstrum (LPC cepstrum distance (CD)) and calculate the calculated LPC cepstrum distance. Release to the enhancement layer mode information determination unit 1102.
  • Enhancement layer mode information determination section 1102 compares the LPC cepstrum distance output from quantization distortion calculation section 1101 with a predetermined threshold held inside, and expands according to the comparison result.
  • the code layer mode in the layer is determined, and the extended layer mode information indicating the coding mode is output to the enhancement layer code key unit 1008.
  • the enhancement layer mode information determination unit 1102 sets the enhancement layer code key mode to M when the comparison result indicates that the LPC cepstrum distance is larger than the threshold, that is, when the LPC quantization error is large.
  • the code layer mode of the enhancement layer is set to ModeB. If the LPC is about 12th order, it is appropriate to set the threshold to about 1.0.
  • the enhancement layer code key unit 1008 includes a residual MDCT coefficient calculation unit 1201, a band selection unit 1202, a shape quantum key 1203, a gain quantum key 1204, and a multiplexing key 1205. Configured.
  • the residual MDCT coefficient calculation unit 1201 receives the basic layer decoding key MDCT coefficient XI input from the first frequency domain transform unit 1005 and the input input from the second frequency domain transform unit 1007.
  • the residual with MDCT coefficient X is obtained and output to band selection section 1202 as residual MDCT coefficient X2.
  • Band selection section 1202 first divides the residual MDCT coefficient into a plurality of subbands.
  • J Ci is a natural number
  • Band selection section 1202 selects L (L is a natural number) consecutive subbands among J subbands, and obtains M (M is a natural number) types of subband groups. In the following, these M types of subband gnoles are called regions.
  • band selection section 1202 calculates average energy E (m) of each of the M types of regions according to the following equation (8).
  • the index of each of the subbands, and m represents the index of each of the M types of regions.
  • S (m) indicates the minimum value of the L subband indexes constituting region m
  • B (j) is the index of the plurality of MD CT coefficients constituting subband j. Indicates the minimum value.
  • W (j) indicates the bandwidth of subband j, and in the following explanation, the case where the bandwidths of all J subbands are all equal, that is, the case where W (j) is a constant will be described as an example. .
  • the band selection unit 1202 performs a band (quantization) on a region where the average energy E (m) is maximum, for example, a band composed of subbands j "to T + L-1 And the index m-max indicating this region is output as band information to the shape quantization unit 1203, the gain quantization unit 1204, and the multiplexing unit 1205.
  • the band selection unit 1202 The residual MDCT coefficient is output to the shape quantizing unit 1203.
  • the residual MDCT coefficient is input to the band selecting unit 1202 as described above, and the force via the band selecting unit 1202 as shown in FIG.
  • the signal is directly input to the shape quantization unit 1203 without going through the band selection unit 1202.
  • Shape quantizing section 1203 receives enhancement layer mode information input from enhancement layer control section 1003 for the residual MCDT coefficient corresponding to the band indicated by band information m-max input from band selection section 1202 Using this, shape quantization is performed for each subband. Specifically, when the enhancement layer mode information is Mode A, the shape quantization unit 1203 searches the built-in shape code book including SQA shape code vectors for each of L subbands, and Find the index of the shape code vector that maximizes the result of Eq. (9).
  • SC indicates the shape code vector k constituting the shape code book
  • i indicates the index of the shape code vector
  • k indicates the shape code vector. Indicates the index of the element.
  • the shape quantizing unit 1203 includes an internal shape code composed of SQB (SQB and SQA) shape code vectors for each of L subbands. Search the Ape codebook to find the index of the shape code vector that maximizes the result of equation (10) below.
  • Shape quantizer 1203 outputs shape code vector index S-max that maximizes the result of equation (9) or equation (10) above to multiplexer 1205 as shape encoding information. To do. Further, the shape quantization unit 1203 calculates an ideal gain value Gain- i (j) according to the following equation (11), and outputs the calculated value to the gain quantization unit 1204.
  • the gain quantization unit 1204 uses the enhancement layer mode information input from the enhancement layer control unit 1003 for the ideal gain value Gain_i (j) input from the shape quantization unit 1203, and Performs vector quantization of gain values. Specifically, when the enhancement layer mode information is Mode A, the gain quantization unit 1204 treats the ideal gain value as an L-dimensional vector and searches for a built-in gain code book composed of GQA gain code vectors. Then, the codebook index that minimizes Equation (12) below is obtained. The codebook index that minimizes Equation (12) above is denoted as G-min.
  • the gain quantization unit 1204 treats the ideal gain value as an L-dimensional vector !, and GQB (CQB ⁇ CQA) gain code vector forces are incorporated. Search the gain codebook to find the codebook index that minimizes Equation (13) below.
  • Gain quantization section 1204 outputs gain code vector index G-min that minimizes the result of equation (12) or equation (13) to multiplexing section 1205 as gain code key information.
  • Multiplexer 1205 receives band information m-max input from band selector 1202, shape code information S-max input from shape quantizer 1203, and gain quantizer 1204.
  • Gain code key information G-min is multiplexed, and the resulting bit stream is output to multiplexing section 1009 as enhancement layer code key information. These pieces of information may be directly input to the multiplexing unit 1009 without being multiplexed by the multiplexing unit 1205 and multiplexed by the multiplexing unit 1009.
  • FIG. 13 is a block diagram showing the main configuration of decoding apparatus 103 according to the present embodiment.
  • the decoding apparatus 103 includes a separation unit 1301, a base layer decoding unit 1302, a frequency domain conversion unit 1303, a decoding operation control unit 1304, an enhancement layer decoding unit 13 05, a time
  • the area conversion unit 1306 is mainly configured.
  • Separating section 1301 separates base layer coding information, enhancement layer coding information, transmission mode information, and enhancement layer mode information from the bit stream power transmitted from coding apparatus 101, and provides base layer coding information. ⁇ information is output to base layer decoding section 1302, enhancement layer mode information and enhancement layer code key information is output to enhancement layer decoding section 1305, and transmission mode information is decoded operation control section 1304. Output to. [0098] Base layer decoding unit 1302 performs decoding using the CELP type speech decoding method on the base layer code key information output from demultiplexing unit 1301, and performs base layer decoding A signal is generated, and the base layer decoded signal is output to the frequency domain transform unit 1303 and the control switch 1307. Note that the internal configuration of the base layer decoding unit 1302 is the same as that of the basic layer decoding unit 203 of FIG.
  • Frequency domain transform section 1303 performs a modified discrete cosine transform (MDCT) on the base layer decoded input signal input from base layer decoding section 1302, and obtains a base layer obtained as a frequency domain parameter.
  • MDCT modified discrete cosine transform
  • the decoding key MDCT coefficient is output to the enhancement layer decoding key unit 1305.
  • Decoding key operation control unit 1304 performs on / off operation of control switch 1307 according to transmission mode information input from demultiplexing unit 1301, frequency domain conversion unit 1303, enhancement layer decoding key unit 1305. The operation of the time domain conversion unit 1306 is controlled. Specifically, when the transmission mode information is BR2, the decoding operation control unit 1304 turns on the operations of the frequency domain transform unit 1303, the enhancement layer decoding unit 1305, and the time domain transform unit 1306, and The control switch 1307 is connected to the time domain conversion unit 1306 side. When the transmission mode information is BR1, the decoding operation control unit 1304 turns off the operations of the frequency domain conversion unit 1303, the enhancement layer decoding unit 1305, and the time domain conversion unit 1306, and controls the control switch 13 07.
  • the decoding key operation control unit 1304 controls the control switch and processing block on and off according to the transmission mode information, thereby combining the code key units used for decoding the code key information. Is determined.
  • the enhancement layer decoding unit 1305 receives the enhancement layer code key information and the enhancement layer mode information from the separation unit 1301, and receives the base layer decoding M DCT coefficient X "l from the frequency domain transform unit 1303.
  • the enhancement layer decoding unit 1305 receives the decoding operation control unit 13
  • the enhancement layer decoding unit 1305 does not operate when it is controlled to be in the off state by the decoding key operation control unit 1304. Details of the processing of the enhancement layer decoding unit 1305 will be described later.
  • the time domain conversion unit 1306 is controlled to be in the ON state by the decoding key operation control unit 1304. IMD for the added MDCT coefficient X "input from enhancement layer decoding section 1305
  • the decoded signal obtained as the time domain component is output to the control switch 1307.
  • the time domain conversion unit 1306 does not operate when it is controlled to the off state by the decoding key operation control unit 1304.
  • the time domain conversion unit 1306 has a buffer buf ′ therein and is initialized by the equation (14).
  • Time domain transform section 1306 obtains enhancement layer decoded signal Y according to the following equation (15) using addition layer decoded MDCT coefficient X "input from enhancement layer decoding section 1305.
  • the time domain conversion unit 1306 updates the buffer buf 'according to the following equation (17).
  • Time domain transforming section 1306 outputs the obtained enhancement layer decoded signal Y to control switch 1307. [0107] Based on the control of the decoding key operation control unit 1304, the control switch 1307 outputs the base layer decoding key signal output from the base layer decoding key unit 1302 or the time domain converting unit 1306 output. The layer decoding key signal is output as an output signal.
  • FIG. 14 is a diagram showing an internal configuration of the enhancement layer decoding unit 1305.
  • the enhancement layer decoding unit 1305 mainly includes a separation unit 1401, a shape inverse quantization unit 1402, a gain inverse quantization unit 1403, and an addition MDCT coefficient calculation unit 1404.
  • Separation section 1401 separates the band information, shape coding information, and gain coding information from the enhancement layer code information information input from separation section 1301, and reverses the band information and shape coding information.
  • the gain encoding information is output to the quantization unit 1402 and the gain dequantization unit 1403.
  • the separation unit 1301 may separate these pieces of information, and the information may be directly input to the shape inverse quantization unit 1402 and the gain inverse quantization unit 1403.
  • the shape inverse quantization unit 1402 incorporates a shape codebook similar to the shape codebook included in the shape quantization unit 1203, and indexes the shape encoded information S-max input from the separation unit 1401.
  • the shape code vector is searched.
  • the shave inverse quantization unit 1402 searches the built-in shape codebook including SQA number of shape code vectors.
  • the code vector is output to the gain inverse quantization unit 1403 as the shape value of the MDCT coefficient of the quantization target band indicated by the band information m_ma X input from the separation unit 1401.
  • the shape inverse quantization unit 1402 searches the built-in shape code book including SQB number of shape code vectors, and the searched code vector Is output to the gain inverse quantization unit 1403 as the shave value of the MDCT coefficient of the quantization target band indicated by the band information m-max input from the separation unit 1401.
  • Gain dequantization section 1403 includes a gain codebook similar to gain quantization section 1204, and dequantizes the gain value according to the following equation (18).
  • the gain value is treated as an L-dimensional vector and vector inverse quantization is performed.
  • gain inverse quantization section 140 When the enhancement layer mode information input from the separation unit 1401 is Mode A, 3 searches a built-in gain code book composed of GQA gain code vectors and performs gain dequantization. Further, when the extended layer mode information input from the separation unit 1401 is ModeB, the gain dequantization unit 1403 searches a built-in gain codebook composed of GQB gain code vectors, and performs gain dequantization. Do.
  • gain inverse quantization section 1403 uses the gain value obtained by inverse quantization and the shape value input from shape inverse quantization section 1402, according to the following equation (19), to expand layer MDCT Calculate the coefficient.
  • the calculated decrypted MDCT coefficient is denoted as X ".
  • Gain dequantization section 1403 outputs enhancement layer MDCT coefficient X "2 calculated according to equation (19) above to addition MDCT coefficient calculation section 1404.
  • Addition MDCT coefficient calculation section 1404 receives basic layer decoding MDCT coefficient X "l input from frequency domain transform section 1303 and enhancement layer decoding input from gain dequantization section 1403.
  • the scalable coding scheme used when the CELP type coding scheme is used in the lower layer and the transform coding scheme is used in the upper layer By switching the upper layer coding method (bit allocation) in accordance with the lower layer coding result, an output signal of good quality can be provided.
  • the case has been described as an example where, in the encoding device, the code key mode in the upper layer is controlled based on the quantization error of the LPC in the lower layer.
  • the present invention is not limited to this, and it is also possible to control the code mode in the upper hierarchy based on other parameters of the lower hierarchy.
  • synthesis of lower hierarchy Based on the SNR (signal-to-noise ratio) of the sound the case of controlling the sign key mode in the upper layer will be described.
  • the synthesis filter 404 in the base layer code base unit 1002 multiplies the LPC quantization coefficient output from the LPC quantization unit 403 and the adaptive excitation code output from the adaptive excitation codebook 406 by a gain.
  • the SNR of the synthesized sound synthesized from the values is calculated and output to the enhancement layer mode information decision unit 1102 in the enhancement layer control unit 1003.
  • the enhancement layer mode information determination unit 1102 compares the input SNR with a threshold value stored in advance, determines enhancement layer mode information according to the comparison result, and determines the enhancement layer mode information unit 1008. Output to.
  • enhancement layer mode information determination section 1102 sets the enhancement layer mode to Mode A, and sets the base layer code section 1002 When the SNR output from is below the threshold, the enhancement layer mode is set to ModeB.
  • the enhancement layer mode determination method may be reversed.
  • the enhancement layer mode is changed to Mod eB, and the SNR output from the base layer encoder unit 1002 is equal to or less than the threshold. You can set the enhancement layer mode to ModeA!
  • the scalable layer coding method in which CELP type coding is performed in the lower layer and transform code is performed in the upper layer, and the upper layer is obtained using the result of the lower layer coding.
  • the case where the sign key method (bit allocation) is changed has been described.
  • the case where the LPC parameter code distortion is used as the lower layer code key result has been described, but the present invention is not limited to this, and the magnitude of the pitch gain as the lower layer code key result, etc.
  • the present invention is not limited to this, and the magnitude of the pitch gain as the lower layer code key result, etc.
  • Using the information about the pitch of the upper layer The same applies to the case of changing.
  • Embodiment 3 the pitch gain calculated in the lower layer is compared with the scalable coding scheme in which CELP type coding is performed in the lower layer and transform coding is performed in the upper layer. The case where the upper layer coding method is changed using the size will be described. Note that the communication system having the encoding apparatus and decoding apparatus according to the present embodiment is the same as that shown in FIG.
  • FIG. 15 is a block diagram showing a configuration of the encoding device 101a according to the present embodiment.
  • parts common to FIG. 10 are assigned the same reference numerals as in FIG.
  • the coding apparatus 101a shown in Fig. 15 differs from that shown in Fig. 10 in that the base layer coding unit 1502 outputs the quantized adaptive excitation gain to the enhancement layer control unit 1503 via the control switch 1011.
  • Different. 15 is different from the enhancement layer control unit 1003 in FIG. 10 in the internal configuration of the enhancement layer control unit 1503. 15 is different from that in FIG. 10 in that the enhancement layer control unit 1503 outputs enhancement layer mode information only to the enhancement layer coding unit 1008.
  • the encoding device 101a shown in FIG. 15 differs from FIG. 10 in that the multiplexing unit 1509 differs in the number of pieces of information to be multiplexed.
  • FIG. 16 is a diagram showing an internal configuration of the enhancement layer control unit 1503 of FIG.
  • the enhancement layer control unit 1503 is mainly composed of a pitch information determination unit 1601 and an enhancement layer mode information determination unit 1602.
  • Pitch information determination section 1601 calculates the absolute value of the input quantized adaptive excitation gain value, and outputs this value to enhancement layer mode information determining section 1602 as the absolute value quantized adaptive excitation gain.
  • Enhancement layer mode information determination section 1602 compares the absolute value quantization adaptive excitation gain input from pitch information determination section 1601 with a predetermined threshold value held therein, and according to the comparison result Then, the code layer mode in the enhancement layer is determined, and enhancement layer mode information indicating the coding mode is output to the enhancement layer coding unit 1008. Specifically, the extended layer mode information determination unit 1602 indicates the enhancement layer code if the absolute value quantization adaptive excitation gain is greater than the threshold, that is, if the periodicity of the excitation component is high. If the absolute value quantization adaptive excitation gain is less than the threshold value! /, In the comparison result, that is, if the periodicity of the excitation component is low, the code layer mode of the enhancement layer Set to ModeB.
  • FIG. 17 is a block diagram showing the main configuration of decoding apparatus 103a according to the present embodiment.
  • the same reference numerals as those in FIG. 17 are identical reference numerals as those in FIG. 17
  • Decoding device 103a in FIG. 17 has a configuration in which enhancement layer control section 1708 is added to FIG.
  • the enhancement layer mode information is not input from the separation unit 1701 to the enhancement layer decoding unit 1305, and in FIG. 13, the separation unit 1301 to the enhancement layer decoding unit 1305
  • the quantized adaptive excitation gain is inputted from the basic layer decoding unit 1302 to the enhancement layer control unit 1708, and then the enhancement layer control unit 1708 from the enhancement layer decoding unit. Replaced with the processing in which enhancement layer mode information is input to 1305.
  • the internal configuration of the enhancement layer control unit 1708 is the same as that of the enhancement layer control unit 1503, and thus description thereof is omitted.
  • the present embodiment in the scalable code method when the CELP type code method is used in the lower layer and the transform code method is used in the upper layer, By switching the encoding method (bit allocation) of the upper layer according to the encoding result (quantized adaptive excitation gain) of the lower layer, it is possible to provide an output signal with good quality. Specifically, if the periodicity of the signal to be quantized is high based on the result of the lower layer coding, the number of bits allocated to shave quantization is increased in the upper layer, and the quantization target signal When the periodicity is low, encoding can be performed more efficiently by reducing the number of bits allocated to shave quantization in the upper layer. In the case of adopting the above configuration, unlike the case described in Embodiment 2, it is possible to code at a lower bit rate without the need to include enhancement layer mode information in the bitstream.
  • the quantization apparatus compares the quantized adaptive excitation gain, which is the result of the lower-layer code sign, with a predetermined threshold value in the encoding device.
  • the present invention is not limited to this, but can also be applied to the case of using distortion of parameters such as adaptive excitation code, fixed excitation code, or gain.
  • the upper layer code encoding method is switched according to the size of the pitch period indicated by the adaptive excitation code as the lower layer encoding result.
  • the enhancement layer mode information is used. If ModeA is set and more bits are allocated for shape quantization in the upper layer and the bit is larger than the threshold, that is, if the periodicity of the signal to be quantized is low, the extended layer mode information is set to ModeB and the shape in the upper layer It is possible to reduce the number of bits allocated to quantization of.
  • the conditions for determining the enhancement layer mode information may be reversed.
  • the enhancement layer mode information is ModeB, and if greater than the threshold! /, The enhancement layer mode information is ModeA. It is good.
  • the code result to be used is merely replaced by the quantized adaptive excitation gain force adaptive excitation code, and therefore description thereof is omitted here.
  • the enhancement layer mode information when the quantized adaptive excitation gain, which is the result of lower layer coding, is greater than the threshold, the enhancement layer mode information is set to Mode A, and when it is less than the threshold, the enhancement layer mode The power explained for the case where the information is ModeB. However, if the quantized adaptive excitation gain, which is the result of the lower layer code sign, is greater than the threshold, the enhancement layer mode information is ModeB, and if it is less than the threshold! /, The enhancement layer mode information is ModeA. The same applies to the case.
  • the scalable layer coding method in which CELP type coding is performed in the lower layer and transform code is performed in the upper layer, and the upper layer is obtained using the result of the lower layer coding.
  • the case where the sign key method (bit allocation) is changed has been described. In the above description, it is assumed that the band to be quantized is the same in the lower layer and the upper layer. However, the present invention is not limited to this. The same applies to the case.
  • Embodiment 4 when the bands to be quantized are different between the lower layer and the upper layer, there is a configuration in which the upper layer coding method is switched according to the lower layer coding result. explain. Note that the communication system having the encoding apparatus and decoding apparatus according to the present embodiment is the same as that shown in FIG.
  • FIG. 18 is a block diagram showing a configuration of the encoding device 101b according to the present embodiment.
  • parts that are the same as those in FIG. 10 are given the same reference numerals as in FIG. 10, and descriptions thereof are omitted.
  • the encoding apparatus 101b in Fig. 18 employs a configuration in which a downsampling unit 1813 and an upsampling unit 1814 are added to Fig. 10.
  • the downsampling unit 1813 performs downsampling processing on the input signal, converts the sampling frequency of the input signal from Ratel to Rate2 (Ratel> Rate2), and outputs the converted signal to the base layer coding unit 1002.
  • Upsampling section 1814 performs upsampling processing on the base layer decoded signal input from base layer decoding section 1004, and converts the sampling frequency of the base layer decoded signal from Rate2 to Ratel. And output to the first frequency domain converter 1005.
  • FIG. 19 is a block diagram showing a configuration of decoding apparatus 103b according to the present embodiment.
  • Decoding apparatus 103b in Fig. 19 employs a configuration in which upsampling section 1908 is added to Fig. 13.
  • Upsampling section 1908 performs upsampling processing on the base layer decoded signal input from base layer decoding section 1302, and converts the sampling frequency of the base layer decoded signal from Rate2 to Ratel. And output to the frequency domain converter 1303.
  • the CELP type coding method is used in the lower layer
  • the transform coding method is used in the upper layer
  • the bandwidths of the lower layer and the upper layer are further reduced. It is possible to provide an output signal of good quality by switching the encoding method (bit allocation) of the upper layer according to the encoding result of the lower layer according to the scalable encoding method in different cases. it can.
  • the coding apparatus controls the code key mode in the upper layer based on the quantization error of the LPC in the lower layer.
  • the present invention is not limited to this, and it is also possible to control the code mode in the upper hierarchy based on other parameters of the lower hierarchy.
  • the code key mode in the upper layer is controlled based on the SNR (signal-to-noise ratio) of the synthesized sound in the lower layer.
  • the synthesis filter 404 in the base layer code base unit 1002 multiplies the LPC quantization coefficient output from the LPC quantization unit 403 and the adaptive excitation code output from the adaptive excitation codebook 406 by a gain.
  • the SNR of the synthesized sound synthesized from the values is calculated and output to the enhancement layer mode information decision unit 1102 in the enhancement layer control unit 1003.
  • the enhancement layer mode information determination unit 1102 compares the input SNR with a threshold value stored in advance, determines enhancement layer mode information according to the comparison result, and determines the enhancement layer mode information unit 1008. Output to.
  • enhancement layer mode information determination section 1102 sets the enhancement layer mode to Mode A, and sets the base layer code section 1002 When the SNR output from is below the threshold, the enhancement layer mode is set to ModeB.
  • the enhancement layer mode determination method may be reversed. That is, the base layer code If the SNR output from the part 1002 is greater than the threshold, the enhancement layer mode is changed to ModB. If the SNR output from the base layer code part 1002 is less than or equal to the threshold, the extension layer mode is set to ModeA.
  • the encoding apparatus uses the code layer result of the lower layer and uses the codebooks of different sizes when the upper layer code is input.
  • the present invention is not limited to changing the size of the code book, and is intended to provide the user with a better audio signal when combined with the code result of the lower layer.
  • a certain codebook is used from multiple codebooks combined with another codebook of the same size in the upper layer. It is possible to apply it when switching between and selecting.
  • the present invention is not limited to this, and the present invention is similarly applied to cases where the amount of information that can be used for a sign can be changed to some extent.
  • a certain threshold value SNR, etc.
  • the input signal is satisfied with the minimum amount of information by satisfying the threshold value by the above-described enhancement layer control method. It is also possible to sign.
  • SNR threshold value
  • the present invention is not limited to this, and the present invention can also be applied to a case where the threshold value is dynamically changed according to a value based on a sign key method such as an LPC order, a user instruction, and a line status.
  • the present invention is a difference between an input signal and an output signal in a lower layer in a hierarchical signal encoding / decoding method composed of a plurality of hierarchies that does not limit the hierarchies.
  • the present invention can be applied to all cases where the residual signal is encoded in an upper layer.
  • the present invention is suitable for a signal processing program for causing a computer to perform a signal processing operation. It can also be used.
  • the present invention can also be applied to the case where the signal processing program is recorded and written on a machine-readable recording medium such as a memory, a disk, a tape, a CD, or a DVD, and the operation is performed.
  • a machine-readable recording medium such as a memory, a disk, a tape, a CD, or a DVD
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them. Also, here, it is sometimes called IC, system LSI, super LSI, ultra LSI, etc. depending on the difference in power integration as LSI.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable 'processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • integrated circuit technology that replaces LSI emerges as a result of advances in semiconductor technology or other derived technologies, it is naturally possible to perform functional block integration using that technology. Biotechnology can be applied.
  • the present invention is suitable for use in a coding apparatus and a decoding apparatus in a communication system using the scalable coding technique.

Abstract

 上位の階層において下位の階層の符号化結果に基づいた最適な符号化を柔軟に行い、限られた環境下で良質な音声信号をユーザに提供する符号化装置。この符号化装置では、基本レイヤ符号化部(202)は、入力信号を符号化して基本レイヤ情報源符号を生成し、符号化の際に算出されるパラメータであるLPCおよび量子化LPCを拡張レイヤ制御部(205)に出力する。基本レイヤ復号化部(203)は、基本レイヤ情報源符号を復号化する。加算部(204)は、基本レイヤ復号化信号の極性を反転させて入力信号と加算して差分信号を算出する。拡張レイヤ制御部(205)は、LPCおよび量子化LPCに基づいて、拡張レイヤにおける符号化モードを示す拡張レイヤモード情報を生成する。拡張レイヤ符号化部(206)は、拡張レイヤ制御部(205)の制御により、加算器(204)から得られる差分信号に対して符号化を行う。

Description

明 細 書
符号化装置および符号化方法
技術分野
[0001] 本発明は、信号を符号ィ匕して伝送する通信システムに用いられる符号ィ匕装置およ び符号化方法に関する。
背景技術
[0002] 近年、音声信号、楽音信号の符号化において、符号化情報の一部からでも音声- 楽音信号を復号ィ匕でき、パケット損失が発生するような状況にお!、ても音質劣化を抑 制することができるスケーラブル符号ィ匕技術が開発されている (例えば、特許文献 1 参照)。このスケーラブル符号化技術は、符号化情報の一部からでも音声、楽音信号 を復号ィ匕できるように音声信号、楽音信号を符号ィ匕するものであり、パケット損失が 発生するような状況においても音質劣化を抑制することができる。具体的には、第 1 階層で入力信号を符号化して符号化情報を生成し、上位の第 (i 1)目の階層 (iは 2以上の整数)で、入力信号と第 (i 1)階層の符号ィ匕情報に応じて得られる復号ィ匕 信号との差である残差信号を生成し、さらに上位の第 i階層で残差信号に応じて符号 化することを繰り返す方法が知られて ヽる。
[0003] また、スケーラブル符号ィ匕技術を用いて、下位の階層における符号ィ匕結果と予め 定められた閾値との比較結果に基づき上位の階層の符号化部の動作'非動作を切り 替えるという方法も提案されている(例えば、特許文献 2参照)。
特許文献 1:特開平 10— 97295号公報
特許文献 2:特開 2005 - 80063号公報
発明の開示
発明が解決しょうとする課題
[0004] 上記特許文献 1の方法は、上位の階層にお ヽて残差信号を符号化する際、下位の 階層における符号ィヒ結果を特に考慮せずに予め決められた符号ィヒ方式により残差 信号を符号ィ匕する方法であり、下位と上位の階層間の関係は固定的なものであるか ら、限られた環境下で良質な音声信号を提供するにあたり最適な符号ィ匕を行ってい るとは言えない。
[0005] また、上記特許文献 2の方法は、下位の階層の符号ィ匕結果を考慮しているものの、 その主たる目的は、回線が輻輳した場合に送信バッファのオーバーフローを避ける ために上位の階層のビットレートを調整することであり、回線が輻輳していない場合に おいては良質な音声信号を提供するにあたり最適な符号ィ匕を行っているとは言えな い。
[0006] 本発明の目的は、上位の階層において残差信号を符号ィ匕する際に、下位の階層 の符号ィ匕結果を考慮し、それに基づいた最適な符号ィ匕を柔軟に行うことにより、限ら れた環境下で良質な音声信号をユーザに提供することである。
課題を解決するための手段
[0007] 本発明の符号化装置は、入力信号を n階層 (nは 2以上の整数)の符号化情報で符 号化する符号化装置であって、入力信号を符号化して第 1階層の符号化情報を生 成する基本レイヤ符号化手段と、第 i階層 (iは 1以上 n— 1以下の整数)の符号化情 報を復号化して第 i階層の復号化信号を生成する第 i階層の復号化手段と、前記入 力信号と第 1階層の復号化信号との差分である第 1階層の差分信号あるいは第 (i 1)階層の差分信号と第 i階層の復号ィ匕信号との差分である第 i階層の差分信号を求 める加算手段と、第 i階層の差分信号を符号化して第 (i+ 1)階層の符号化情報を生 成する第 (i+ 1)階層の拡張レイヤ符号化手段と、所定の階層の符号化手段の符号 ィ匕パラメータに基づいて前記所定の階層よりも上位の階層の符号ィ匕手段における符 号化方法を制御する拡張レイヤ制御手段と、を具備する構成を採る。
[0008] 本発明の符号化方法は、入力信号を n階層(nは 2以上の整数)の符号化情報で符 号ィ匕する符号ィ匕方法であって、入力信号を符号化して第 1階層の符号化情報を生 成する基本レイヤ符号化工程と、第 i階層(iは 1以上 n— 1以下の整数)の符号化情 報を復号化して第 i階層の復号ィ匕信号を生成する第 i階層の復号ィ匕工程と、前記入 力信号と第 1階層の復号化信号との差分である第 1階層の差分信号あるいは第 (i 1)階層の差分信号と第 i階層の復号ィ匕信号との差分である第 i階層の差分信号を求 める加算工程と、第 i階層の差分信号を符号化して第 (i+ 1)階層の符号化情報を生 成する第 (i+ 1)階層の拡張レイヤ符号ィ匕工程と、所定の階層の符号ィ匕パラメータに 基づいて前記所定の階層よりも上位の階層における符号ィヒ方法を制御する拡張レイ ャ制御工程と、を具備する方法を採る。
発明の効果
[0009] 本発明によれば、スケーラブル符号ィ匕技術において、下位の階層の符号化結果を 考慮し、下位の階層の符号ィ匕結果と上位の階層の符号ィ匕結果を組み合わせた上で 最適な品質の音声信号となるように上位の階層の符号化方式を柔軟に切り替えるこ とができるので、回線の輻輳状態に関係なぐユーザに対し良質な音声信号を提供 することが可能となる。
図面の簡単な説明
[0010] [図 1]本発明の実施の形態 1に係る符号化装置および復号化装置を有する通信シス テムの構成を示す図
[図 2]本発明の実施の形態 1に係る符号ィ匕装置の構成を示すブロック図
[図 3]本発明の実施の形態 1に係る符号ィ匕情報のビットストリーム構造を示す図
[図 4]本発明の実施の形態 1に係る符号ィ匕装置の基本レイヤ符号ィ匕部の内部構成を 示すブロック図
[図 5]本発明の実施の形態 1に係る符号ィ匕装置の基本レイヤ復号ィ匕部の内部構成を 示すブロック図
[図 6]本発明の実施の形態 1に係る符号ィ匕装置の拡張レイヤ制御部の内部構成を示 すブロック図
[図 7]本発明の実施の形態 1に係る符号ィ匕装置の拡張レイヤ符号ィ匕部の内部構成を 示すブロック図
[図 8]本発明の実施の形態 1に係る復号ィ匕装置の構成を示すブロック図
[図 9]本発明の実施の形態 1に係る復号ィ匕装置の拡張レイヤ復号ィ匕部の内部構成を 示すブロック図
[図 10]本発明の実施の形態 2に係る符号ィ匕装置の構成を示すブロック図
[図 11]本発明の実施の形態 2に係る符号ィ匕装置の拡張レイヤ制御部の内部構成を 示すブロック図
[図 12]本発明の実施の形態 2に係る符号ィ匕装置の拡張レイヤ符号ィ匕部の内部構成 を示すブロック図
[図 13]本発明の実施の形態 2に係る復号ィ匕装置の構成を示すブロック図
[図 14]本発明の実施の形態 2に係る復号ィ匕装置の拡張レイヤ復号ィ匕部の内部構成 を示すブロック図
[図 15]本発明の実施の形態 3に係る符号ィ匕装置の構成を示すブロック図
[図 16]本発明の実施の形態 3に係る符号ィ匕装置の拡張レイヤ制御部の内部構成を 示すブロック図
[図 17]本発明の実施の形態 3に係る復号ィ匕装置の構成を示すブロック図
[図 18]本発明の実施の形態 4に係る符号ィ匕装置の構成を示すブロック図
[図 19]本発明の実施の形態 4に係る復号ィ匕装置の構成を示すブロック図
発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、図面を用いて説明する。なお、以下の説明 において、符号化および復号化は、 CELP (Code- Excited Linear Prediction)方法を 用いて、階層的に行われることとする。また、以下の説明では、基本レイヤと一つの拡 張レイヤ力もなる二層のスケーラブル符号ィ匕技術を例に採る。ここで、各階層(以下、 「レイヤ」という)は、下の方から、それぞれ、「基本レイヤ」、「第 1の拡張レイヤ」、「第 2 の拡張レイヤ」、「第 3の拡張レイヤ」、 · · ·といい、基本レイヤ以外のレイヤを「拡張レ ィャ」という。
[0012] スケーラブル符号ィ匕技術は、階層化することによって、通信速度を表すビットレート が充分確保できるときには、全てのレイヤのデータを送信し、ビットレートが充分確保 できなくなったときには、ビットレートに応じて下位のレイヤから所定のレイヤまでのデ ータを送信し、スケーラビリティを確保する技術である。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る符号ィ匕装置および復号ィ匕装置を有する通信 システムのブロック構成を示す図である。図 1において、通信システムは、符号化装 置 101と復号ィ匕装置 103とを備える。
[0014] 符号化装置 101は、入力信号と伝送モード情報を入力し、伝送モード情報に基づ いて入力信号を符号ィ匕し、伝送路 102を介して復号ィ匕装置 103に符号ィ匕情報を送 信する。復号化装置 103は、伝送路 102を介して符号化装置 101から送信された符 号ィ匕情報を受信して復号ィ匕し、復号化した伝送モード情報に基づいて出力信号を 生成し、後工程の装置に出力する。ここで、伝送モード情報とは、符号化装置 101が 復号化装置 103に伝送するビットレートを示し、 BR1、 BR2 (BR1 < BR2)のいずれ かの値をとるものとする。
[0015] 図 2は、本実施の形態に係る符号ィ匕装置 101の構成を示すブロック図である。符号 化装置 101は、図 2に示すように、符号化動作制御部 201と、基本レイヤ符号化部 2 02と、基本レイヤ復号化部 203と、加算部 204と、拡張レイヤ制御部 205と、拡張レ ィャ符号化部 206と、符号ィ匕情報統合部 207と、制御スィッチ 208、 209と、から主に 構成される。
[0016] 符号ィ匕動作制御部 201には、伝送モード情報が入力される。符号化動作制御部 2 01は、入力した伝送モード情報に応じて、制御スィッチ 208、 209のオン Zオフ制御 を行う。具体的には、符号ィ匕動作制御部 201は、伝送モード情報が BR2である場合 、制御スィッチ 208、 209を全てオンにする。また、符号ィ匕動作制御部 201は、伝送 モード情報が BR1である場合、制御スィッチ 208、 209を全てオフにする。なお、伝 送モード情報は、上記のように符号ィ匕動作制御部 201に入力されるとともに、図 2の ように符号化動作制御部 201経由力 あるいは符号化動作制御部 201を経由せず に直接、符号ィ匕情報統合部 207にも入力される。このように、符号化動作制御部 201 が伝送モード情報に応じて制御スィッチ群をオン Zオフ制御することにより、入力信 号の符号ィ匕に用いる符号ィ匕部の組み合わせが決定される。
[0017] 基本レイヤ符号ィ匕部 202は、音声信号等の入力信号に対して CELPタイプの音声 符号化方法を用いて符号化を行って基本レイヤ情報源符号を生成し、生成した基本 レイヤ情報源符号を符号ィ匕情報統合部 207および制御スィッチ 209に出力する。ま た、基本レイヤ符号ィ匕部 202は、入力信号の音声符号ィ匕の際に算出されるパラメ一 タである LPC (線形予測係数)および量子化 LPCを拡張レイヤ制御部 205に出力す る。なお、基本レイヤ符号ィ匕部 202の内部構成の詳細については後述する。
[0018] 基本レイヤ復号ィ匕部 203は、制御スィッチ 209がオンのとき、基本レイヤ符号化部 2 02から出力された基本レイヤ情報源符号に対して CELPタイプの音声復号ィ匕方法を 用いて復号化を行って基本レイヤ復号化信号を生成し、基本レイヤ復号化信号を加 算器 204に出力する。一方、基本レイヤ復号ィ匕部 203は、制御スィッチ 209がオフの ときには何も動作しない。なお、基本レイヤ復号ィ匕部 203の内部構成の詳細につい ては後述する。
[0019] 加算部 204は、制御スィッチ 208がオンのとき、基本レイヤ復号化信号の極性を反 転させて入力信号と加算することにより差分信号を算出し、差分信号を拡張レイヤ符 号ィ匕部 206に出力する。一方、加算部 204は、制御スィッチ 208がオフのときには何 も動作しない。
[0020] 拡張レイヤ制御部 205は、基本レイヤ符号ィ匕部 202から出力された LPCおよび量 子化 LPCに基づいて拡張レイヤモード情報を生成し、拡張レイヤモード情報を拡張 レイヤ符号ィ匕部 206および符号ィ匕情報統合部 207に出力する。拡張レイヤモード情 報とは、拡張レイヤにおける符号ィ匕モードを示す情報であり、復号化装置において拡 張レイヤ情報源符号を復号ィ匕する際に利用される。なお、拡張レイヤ制御部 205の 内部構成の詳細については後述する。
[0021] 拡張レイヤ符号ィ匕部 206は、制御スィッチ 208、 209がオンのとき、拡張レイヤ制御 部 205の制御により、加算器 204から得られる差分信号に対して CELPタイプの音声 符号ィ匕方法を用いて符号ィ匕を行って拡張レイヤ情報源符号を生成し、拡張レイヤ情 報源符号を符号ィ匕情報統合部 207に出力する。一方、拡張レイヤ符号ィ匕部 206は、 制御スィッチ 208、 209がオフのときには何も動作しない。なお、拡張レイヤ制御部 2 05による拡張レイヤ符号ィ匕部 206の制御方法の詳細については後述する。
[0022] 符号ィ匕情報統合部 207は、基本レイヤ符号ィ匕部 202および拡張レイヤ符号ィ匕部 2 06から出力された情報源符号と、拡張レイヤ制御部 205から出力された拡張レイヤ モード情報と、符号ィ匕動作制御部 201から出力された伝送モード情報と、を統合して 符号ィ匕情報を生成し、生成した符号ィ匕情報を伝送路 102に出力する。
[0023] 次に、伝送前符号ィ匕情報のデータ構造 (ビットストリーム)について図 3を用いて説 明する。伝送モード情報が BR1である場合、符号化情報は、図 3Aに示すように、伝 送モード情報、基本レイヤ情報源符号および冗長部によって構成される。伝送モー ド情報が BR2である場合、符号化情報は、図 3Bに示すように、伝送モード情報、基 本レイヤ情報源符号、拡張レイヤ情報源符号、拡張レイヤモード情報および冗長部 によって構成される。ここで、図 3中のデータ構造における冗長部とは、ビットストリー ム中に用意される冗長的なデータ格納部であり、伝送誤り検出 ·訂正用のビットおよ び、パケットの同期をとるためのカウンタ等に利用される。
[0024] 次に、図 2の基本レイヤ符号ィ匕部 202の内部構成について図 4を用いて説明する。
前処理部 401は、入力信号に対し、 DC成分を取り除くハイパスフィルタ処理や後続 する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理 を行い、これらの処理後の信号 (Xin)を LPC分析部 402および加算部 405に出力す る。
[0025] LPC分析部 402は、 Xinを用いて線形予測分析を行 ヽ、分析結果である LPCを LP C量子化部 403および拡張レイヤ制御部 205に出力する。 LPC量子ィ匕部 403は、 L PC分析部 402から出力された LPCの量子化処理を行 、、量子化 LPCを合成フィル タ 404および拡張レイヤ制御部 205に出力するとともに量子化 LPCを表す符号 (L) を多重化部 414に出力する。合成フィルタ 404は、量子化 LPCに基づくフィルタ係数 により、後述する加算部 411から出力される駆動音源に対してフィルタ合成を行うこと により合成信号を生成し、合成信号を加算部 405に出力する。加算部 405は、合成 信号の極性を反転させて Xinに加算することにより誤差信号を算出し、誤差信号を聴 覚重み付け部 412に出力する。
[0026] 適応音源符号帳 406は、過去に加算部 411によって出力された駆動音源をバッフ ァに記憶しており、ノ メータ決定部 413から出力された信号により特定される過去の 駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部 40 9に出力する。量子化利得生成部 407は、パラメータ決定部 413から出力された信号 によって特定される量子化適応音源利得と量子化固定音源利得とをそれぞれ乗算 部 409と乗算部 410とに出力する。固定音源符号帳 408は、パラメータ決定部 413 から出力された信号によって特定される形状を有するパルス音源ベクトルを選択し、 そのパルス音源ベクトルを固定音源ベクトルとして乗算部 410に出力する。なお、選 択したノルス音源ベクトルに拡散ベクトルを乗算して固定音源ベクトルを生成し、そ の固定音源ベクトルを乗算部 410に出力してもよい。 [0027] 乗算部 409は、量子化利得生成部 407から出力された量子化適応音源利得を、適 応音源符号帳 406から出力された適応音源ベクトルに乗じて、加算部 411に出力す る。乗算部 410は、量子化利得生成部 407から出力された量子化固定音源利得を、 固定音源符号帳 408から出力された固定音源ベクトルに乗じて、加算部 411に出力 する。加算部 411は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをべタト ル加算し、加算結果である駆動音源を合成フィルタ 404および適応音源符号帳 406 に出力する。なお、適応音源符号帳 406に入力された駆動音源は、ノ ッファに記憶 される。
[0028] 聴覚重み付け部 412は、加算部 405から出力された誤差信号に対して聴覚的な重 み付けをおこない符号ィ匕歪みとしてパラメータ決定部 413に出力する。パラメータ決 定部 413は、聴覚重み付け部 412から出力された符号ィ匕歪みを最小とする適応音 源ベクトル、固定音源ベクトル及び量子化利得を、各々適応音源符号帳 406、固定 音源符号帳 408及び量子化利得生成部 407から選択し、選択結果を示す適応音源 べ外ル符号 (A)、固定音源べ外ル符号 (F)及び音源利得符号 (G)を多重化部 41 4に出力する。
[0029] 多重化部 414は、 LPC量子化部 403から量子化 LPCを表す符号 (L)を入力し、パ ラメータ決定部 413から適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す 符号 (F)および量子化利得を表す符号 (G)を入力し、これらの情報を多重化して基 本レイヤ情報源符号として出力する。
[0030] 次に、図 2の基本レイヤ復号ィ匕部 203の内部構成について図 5を用いて説明する。
多重化分離部 501は、入力した基本レイヤ情報源符号を個々の符号 (L、 A、 G、 F) に分離する。 LPC符号 (L)は LPC復号化部 502に出力され、適応音源ベクトル符号 (A)は適応音源符号帳 505に出力され、音源利得符号 (G)は量子化利得生成部 5 06に出力され、固定音源ベクトル符号 (F)は固定音源符号帳 507に出力される。
[0031] 適応音源符号帳 505は、多重化分離部 501から出力された符号 (A)で指定される 過去の駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして取り出して乗 算部 508に出力する。量子化利得生成部 506は、多重化分離部 501から出力され た音源利得符号 (G)で指定される量子化適応音源利得と量子化固定音源利得を復 号ィ匕し乗算部 508及び乗算部 509に出力する。固定音源符号帳 507は、多重化分 離部 501から出力された符号 (F)で指定される固定音源ベクトルを生成し、乗算部 5 09に出力する。
[0032] 乗算部 508は、適応音源ベクトルに量子化適応音源利得を乗算して、加算部 510 に出力する。乗算部 509は、固定音源ベクトルに量子化固定音源利得を乗算して、 加算部 510に出力する。加算部 510は、乗算部 508、 509から出力された利得乗算 後の適応音源ベクトルと固定音源ベクトルとの加算を行い駆動音源を生成し、これを 合成フィルタ 503及び適応音源符号帳 505に出力する。
[0033] LPC復号ィ匕部 502は、多重化分離部 501から出力された符号 (L)から量子化 LP Cを復号ィ匕し、合成フィルタ 503に出力する。合成フィルタ 503は、 LPC復号化部 50 2によって復号化されたフィルタ係数を用いて、加算部 510から出力された駆動音源 のフィルタ合成を行い、合成した信号を後処理部 504に出力する。後処理部 504は 、合成フィルタ 503から出力された信号に対して、ホルマント強調やピッチ強調といつ たような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善す る処理などを施し、基本レイヤ復号化信号として出力する。
[0034] 次に、図 2の拡張レイヤ制御部 205の内部構成及び拡張レイヤ制御部 205による 拡張レイヤ符号ィ匕部 206の制御方法について図 6を用いて説明する。拡張レイヤ制 御部 205は、量子化歪み算出部 601と、閾値比較部 602と、拡張レイヤモード情報 決定部 603と、から主に構成される。
[0035] 量子化歪み算出部 601は、まず、以下の式(1)により、入力した LPC力も LPCケプ ストラムを、量子化 LPCから量子化 LPCケプストラムをそれぞれ算出する。ここで、式 (1)中の aは、基本レイヤ符号ィ匕部 202から入力される p次の LPC (あるいは量子化 LPC)を表し、 cは、 LPCケプストラム(あるいは量子化 LPCケプストラム)を表す。
[数 1]
Figure imgf000012_0001
[0036] 量子化歪み算出部 601は、次に、以下の式(2)および式(3)により、上記式(1)で 算出された LPCケプストラムと量子化 LPCケプストラムとの間の距離 (LPCケプストラ ム距離 (CD) )を算出する。算出された LPCケプストラム距離は、閾値比較部 602に 出力される。ここで、式(2)中の c1は LPCケプストラムを表し、 c2は量子化 LPCケプス トラムを表す。
[数 2]
Figure imgf000012_0002
[数 3]
CD = 101og 10 · · · ( 3 )
[0037] 閾値比較部 602は、量子化歪み算出部 601から出力された LPCケプストラム距離 と、内部に保持する予め定められた閾値とを比較し、比較結果を拡張レイヤモード情 報決定部 603に出力する。なお、 LPCが 12次程度の場合には、閾値を 1. 0程度と するのが適当である。
[0038] 拡張レイヤモード情報決定部 603は、閾値比較部 602から出力された比較結果に 応じて拡張レイヤにおける符号ィ匕モードを決定し、符号化モードを示す拡張レイヤモ ード情報を拡張レイヤ符号ィ匕部 206に出力する。具体的には、拡張レイヤモード情 報決定部 603は、 LPCケプストラム距離が閾値よりも大きいという比較結果の場合、 すなわち、 LPCの量子化誤差が大き 、場合には拡張レイヤの符号ィ匕モードを Mode Aにし、 LPCケプストラム距離が閾値以下であるという比較結果の場合、すなわち、 L PCの量子化誤差が小さい場合には拡張レイヤの符号ィ匕モードを ModeBにする。 [0039] 次に、図 2の拡張レイヤ符号ィ匕部 206の内部構成について図 7を用いて説明する。 前処理部 701は、残差信号に対し、 DC成分を取り除くハイパスフィルタ処理や後続 する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理 を行い、これらの処理後の信号 (Xin)を LPC分析部 702および加算部 705に出力す る。
[0040] LPC分析部 702は、 Xinを用いて線形予測分析を行 ヽ、分析結果である LPCを LP C量子化部 703に出力する。 LPC量子化部 703は、拡張レイヤ制御部 205から出力 される拡張レイヤモード情報を利用して、 LPC分析部 702から出力された LPCの量 子化処理を行い、量子化 LPCを合成フィルタ 704に出力するとともに量子化 LPCを 表す符号 (L)を多重化部 714に出力する。ここで、 LPC量子化部 703は、拡張レイ ャモード情報に基づ ヽて、 LPCの量子化に用いる符号帳 (LPC符号帳)を適宜切り 替えるものとする。具体的には、 LPC量子化部 703は、拡張レイヤモード情報が Mo deAすなわち LPCの量子化誤差が大きい場合に予め備えられた LPC符号帳 Aを利 用した量子化を行 、、拡張レイヤモード情報が ModeBである場合すなわち LPCの 量子化誤差が小さい場合に予め備えられた LPC符号帳 Bを利用した量子化を行う。 ここで、 LPC符号帳 Bは、 LPC符号帳 Aよりもサイズが小さい符号帳である。なお、本 実施の形態では、 LPC符号帳 Bのサイズをゼロ、すなわち拡張レイヤにおいては LP Cを用いな 、とすることもできる。
[0041] 合成フィルタ 704は、量子化 LPCに基づくフィルタ係数により、後述する加算部 71 1から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、 合成信号を加算部 705に出力する。加算部 705は、合成信号の極性を反転させて X inに加算することにより誤差信号を算出し、誤差信号を聴覚重み付け部 712に出力 する。
[0042] 適応音源符号帳 706は、過去に加算部 711によって出力された駆動音源をバッフ ァに記憶しており、ノ メータ決定部 713から出力された信号により特定される過去の 駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部 70 9に出力する。量子化利得生成部 707は、パラメータ決定部 713から出力された信号 によって特定される量子化適応音源利得と量子化固定音源利得とをそれぞれ乗算 部 709と乗算部 710とに出力する。
[0043] 固定音源符号帳群 708は、複数の固定音源符号帳を備え、拡張レイヤ制御部 205 力 出力される拡張レイヤモード情報に応じて一つの固定音源符号帳を選択する。 具体的には、固定音源符号帳群 708は、拡張レイヤモード情報が ModeAすなわち LPCの量子化誤差が大きい場合に固定音源符号帳 Aを選択し、拡張レイヤモード 情報が ModeBである場合すなわち LPCの量子化誤差が小さい場合に固定音源符 号帳 Aのサイズよりも大きい固定音源符号帳 Bを選択する。ここで、各フレームにおけ る固定音源符号帳 Bと固定音源符号帳 Aのサイズ差 (ビット差)が、 LPC符号帳 Aと L PC符号帳 Bのサイズ差 (ビット差)と同じである場合、符号化に利用されるビットレート は等しくなる。例えば、 LPC符号は 1フレーム単位に算出し、固定音源符号は 1Z4 フレーム毎に算出する符号化方式において、 LPC符号帳 Aのサイズが 256、 LPC符 号帳 Bのサイズが 16、固定音源符号帳 Aのサイズが 16、固定音源符号帳 Bのサイズ が 32という場合がその例に該当する。
[0044] そして、固定音源符号帳群 708は、選択した固定音源符号帳に保存された複数の パルス音源ベクトルの中から、パラメータ決定部 713から出力された信号によって特 定される形状を有するパルス音源ベクトルを選択し、そのノ ルス音源ベクトルを固定 音源ベクトルとして乗算部 710に出力する。なお、選択したパルス音源ベクトルに拡 散ベクトルを乗算して固定音源ベクトルを生成し、その固定音源ベクトルを乗算部 71 0に出力してもよい。
[0045] 乗算部 709は、量子化利得生成部 707から出力された量子化適応音源利得を、適 応音源符号帳 706から出力された適応音源ベクトルに乗じて、加算部 711に出力す る。乗算部 710は、量子化利得生成部 707から出力された量子化固定音源利得を、 固定音源符号帳群 708から出力された固定音源ベクトルに乗じて、加算部 711に出 力する。加算部 711は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをべク トル加算し、加算結果である駆動音源を合成フィルタ 704および適応音源符号帳 70 6に出力する。なお、適応音源符号帳 706に入力された駆動音源は、ノ ッファに記憶 される。
[0046] 聴覚重み付け部 712は、加算部 705から出力された誤差信号に対して聴覚的な重 み付けをおこない符号ィ匕歪みとしてパラメータ決定部 713に出力する。パラメータ決 定部 713は、聴覚重み付け部 712から出力された符号ィ匕歪みを最小とする適応音 源ベクトル、固定音源ベクトル及び量子化利得を、各々適応音源符号帳 706、固定 音源符号帳群 708及び量子化利得生成部 707から選択し、選択結果を示す適応音 源べ外ル符号 (A)、固定音源べ外ル符号 (F)及び音源利得符号 (G)を多重化部 714に出力する。
[0047] 多重化部 714は、 LPC量子化部 703から量子化 LPCを表す符号 (L)を入力し、パ ラメータ決定部 713から適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す 符号 (F)および量子化利得を表す符号 (G)を入力し、これらの情報を多重化して拡 張レイヤ情報源符号として出力する。
[0048] 次に、図 1の復号ィ匕装置 103の構成について図 8を用いて説明する。復号化装置 1 03は、復号化動作制御部 801と、基本レイヤ復号化部 802と、拡張レイヤ復号化部 803と、制御スィッチ 805と、カロ算咅 804と、力ら主に構成される。
[0049] 復号化動作制御部 801は、符号化装置 101から伝送路 102を介して伝送される符 号ィ匕情報を入力する。復号化動作制御部 801は、符号ィ匕情報を、伝送モード情報、 拡張レイヤモード情報および各レイヤの情報源符号に分離し、伝送モード情報に応 じて制御スィッチ 805のオン Zオフ状態を制御する。また、復号ィ匕動作制御部 801は 、基本レイヤ復号化部 802、拡張レイヤ復号化部 803に、それぞれ各レイヤに対応 する情報源符号および拡張レイヤモード情報を出力する。具体的には、復号化動作 制御部 801は、伝送モード情報が BR2である場合は、制御スィッチ 805をオン状態 にし、基本レイヤ情報源符号を基本レイヤ復号ィ匕部 802に、拡張レイヤモード情報 および拡張レイヤ情報源符号を拡張レイヤ復号ィ匕部 803に、それぞれ出力する。ま た、復号化動作制御部 801は、伝送モード情報が BR1である場合は、制御スィッチ 8 05をオフ状態にし、基本レイヤ情報源符号を基本レイヤ復号ィ匕部 802に出力する。 またこの時、復号化動作制御部 801は、拡張レイヤ復号ィ匕部 803には何も出力しな い。
[0050] 基本レイヤ復号ィ匕部 802は、復号ィ匕動作制御部 801から基本レイヤ情報源符号を 入力し、これを CELPタイプの音声復号ィ匕方法により復号ィ匕し、復号化信号を基本レ ィャ復号ィ匕信号として加算部 804に出力する。なお、図 8の基本レイヤ復号化部 802 の内部構成は、図 5に示した基本レイヤ復号ィ匕部 203の内部構成と同一である。
[0051] 拡張レイヤ復号ィ匕部 803は、制御スィッチ 805がオン状態である場合、復号化動作 制御部 801から拡張レイヤモード情報および拡張レイヤ情報源符号を入力し、拡張 レイヤモード情報に応じて拡張レイヤ情報源符号を CELPタイプの音声復号ィ匕方法 により復号化し、復号化信号を拡張レイヤ復号化信号として加算部 804に出力する。 一方、拡張レイヤ復号ィ匕部 803は、制御スィッチ 805がオフ状態である場合、何も動 作しない。なお、拡張レイヤ復号ィ匕部 803の構成については後述する。
[0052] 加算部 804は、制御スィッチ 805がオン状態である場合は、基本レイヤ復号化部 8 02から基本レイヤ復号化信号を入力し、また拡張レイヤ復号ィ匕部 803から拡張レイ ャ復号化信号を入力し、これらの信号を加算した後、これを出力信号として後工程の 装置に出力する。一方、加算部 804は、制御スィッチ 805がオフ状態である場合は、 基本レイヤ復号化部 802から基本レイヤ復号化信号を入力し、これを出力信号として 後工程の装置に出力する。
[0053] 次に、図 8の拡張レイヤ復号ィ匕部 803の内部構成について図 9を用いて説明する。
図 9において、多重化分離部 901は、復号ィ匕動作制御部 801から出力された拡張レ ィャ情報源符号を個々の符号 (L、 A、 G、 F)に分離する。 LPC符号 (L)は LPC復号 化部 902に出力され、適応音源ベクトル符号 (A)は適応音源符号帳 905に出力され 、音源利得符号 (G)は量子化利得生成部 906に出力され、固定音源ベクトル符号( F)は固定音源符号帳群 907に出力される。
[0054] LPC復号ィ匕部 902は、復号ィ匕動作制御部 801から出力された拡張レイヤモード情 報を用いて、多重化分離部 901から出力された符号 (L)から量子化 LPCを復号ィ匕し 、合成フィルタ 903に出力する。ここで、 LPC復号ィ匕部 902は、拡張レイヤモード情 報に基づいて、 LPCの復号ィ匕に用いる符号帳 (LPC符号帳)を適宜切り替える。具 体的には、 LPC復号ィ匕部 902は、拡張レイヤモード情報が ModeAである場合には 、予め備えられた LPC符号帳 Aを利用した復号ィ匕を行い、拡張レイヤモード情報が ModeBである場合には、予め備えられた LPC符号帳 Bを利用した復号ィ匕を行う。こ こで、 LPC符号帳 Bは、 LPC符号帳 Aよりもサイズが小さい符号帳である。なお、本 実施の形態では、 LPC符号帳 Bのサイズをゼロ、すなわち拡張レイヤにおいては LP Cを用いな 、とすることもできる。
[0055] 適応音源符号帳 905は、多重化分離部 901から出力された符号 (A)で指定される 過去の駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして取り出して乗 算部 908に出力する。量子化利得生成部 906は、多重化分離部 901から出力され た音源利得符号 (G)で指定される量子化適応音源利得と量子化固定音源利得を復 号ィ匕し乗算部 908及び乗算部 909に出力する。
[0056] 固定音源符号帳群 907は、複数の固定音源符号帳を備え、復号化動作制御部 80 1から出力される拡張レイヤモード情報に応じて一つの固定音源符号帳を選択する。 具体的には、固定音源符号帳群 907は、拡張レイヤモード情報が ModeAである場 合に固定音源符号帳 Aを選択し、拡張レイヤモード情報が ModeBである場合に固 定音源符号帳 Bを選択する。そして、固定音源符号帳群 907は、選択した固定音源 符号帳に保存された複数のパルス音源ベクトルの中から、多重化分離部 901から出 力された符号 (F)で指定されるパルス音源ベクトルを選択し、そのパルス音源べタト ルを固定音源ベクトルとして乗算部 909に出力する。なお、選択したパルス音源べク トルに拡散ベクトルを乗算して固定音源ベクトルを生成し、その固定音源ベクトルを 乗算部 909に出力してもよい。
[0057] 乗算部 908は、適応音源ベクトルに量子化適応音源利得を乗算して、加算部 910 に出力する。乗算部 909は、固定音源ベクトルに量子化固定音源利得を乗算して、 加算部 910に出力する。加算部 910は、乗算部 908、 909から出力された利得乗算 後の適応音源ベクトルと固定音源ベクトルとをベクトル加算し、加算結果である駆動 音源を合成フィルタ 903及び適応音源符号帳 905に出力する。
[0058] 合成フィルタ 903は、 LPC復号ィ匕部 902によって復号ィ匕されたフィルタ係数を用い て、加算部 910から出力された駆動音源のフィルタ合成を行い、合成した信号を後 処理部 904に出力する。後処理部 904は、合成フィルタから出力された信号に対し て、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理 や、定常雑音の主観的品質を改善する処理などを施し、拡張レイヤ復号化信号とし て出力する。 [0059] 以上説明したように、本実施の形態によれば、スケーラブル符号ィ匕技術を用いて符 号ィ匕を行う符号ィ匕装置において、下位の階層の符号ィ匕結果に基づいて、 LPC、固 定音源符号などのパラメータ間でのビットアロケーションを変更する等の上位の階層 における符号ィ匕方法を柔軟に変更することができるので、下位の階層の符号ィ匕結果 と組み合わせた場合により良質な音声信号をユーザに提供する通信システムを実現 することができる。
[0060] なお、本実施の形態では、符号化装置において、下位の階層の LPCの歪み (LPC ケプストラム距離)を利用して、上位の階層の符号ィ匕時に、サイズの小さい LPC符号 帳を用いることにより LPCに割り当てるビット数を減らすとともに、サイズの大きい固定 音源符号帳を用いることにより固定音源符号に割り当てるビットを増やすと!ヽぅ場合を 例に挙げて説明した力 本発明はこれに限らず、上位の階層の符号ィ匕時に、サイズ の大き 、LPC符号帳とサイズの小さい固定音源符号帳を用いる場合にっ ヽても同様 に適用される。
[0061] また、本実施の形態では、符号化装置において、下位の階層の LPCの量子化誤 差に基づいて上位の階層における符号ィ匕モードを制御する場合を例に挙げて説明 したが、本発明はこれに限らず、下位の階層の他のパラメータに基づいて上位の階 層における符号ィ匕モードを制御することもできる。以下、例として、下位の階層の合成 音の SNR (信号対雑音比)に基づ!/ヽて上位の階層における符号ィ匕モードを制御する 場合について説明する。この場合、基本レイヤ符号ィ匕部 202内の合成フィルタ 404 において、 LPC量子化部 403から出力される LPC量子化係数と、適応音源符号帳 4 06から出力される適応音源符号に利得を乗じた値とから合成される合成音の SNR を算出し、これを拡張レイヤ制御部 205内の閾値比較部 602に出力する。閾値比較 部 602は、入力された SNRと、内部に予め格納された閾値とを比較し、比較結果を 拡張レイヤモード情報決定部 603に出力する。拡張レイヤモード情報決定部 603は 、閾値比較部 602から出力された比較結果に応じて拡張レイヤモード情報を決定し 、これを拡張レイヤ符号ィ匕部 206に出力する。具体的には、拡張レイヤモード情報決 定部 603は、基本レイヤ符号ィ匕部 202から出力される SNRが閾値よりも大きい場合 には、拡張レイヤモードを ModeAにし、基本レイヤ符号ィ匕部 202から出力される SN Rが閾値以下である場合には拡張レイヤモードを ModeBにする。
[0062] また、上述した LPCケプストラム距離を用いた拡張レイヤ制御方法、及び利得を乗 じた適応音源符号と LPC係数カゝら合成される合成音の SNRを用いた拡張レイヤ制 御方法を組合せることにより、上位の階層での符号ィ匕において、 LPC、適応音源符 号、固定音源符号という 3つのパラメータ間でのビット調整も可能である。
[0063] (実施の形態 2)
上記実施の形態 1では、下位レイヤ、上位レイヤ共に CELPタイプの符号ィ匕方法を 用いるスケーラブル符号ィ匕方式について説明したが、本発明はこれに限らず、上位 レイヤにぉ 、て CELPタイプ以外の符号ィ匕方法を用いるスケーラブル符号ィ匕方式に おいても同様に適用できる。実施の形態 2では、下位レイヤにて CELPタイプの符号 化を行 、、上位レイヤでは変換符号ィ匕を行う場合のスケーラブル符号ィ匕方式に本発 明を適用する場合について説明する。本実施の形態に係る符号化装置および復号 化装置を有する通信システムは、図 1と同一であるので説明を省略する。
[0064] 図 10は、本実施の形態に係る符号ィ匕装置 101の構成を示すブロック図である。符 号化装置 101は、図 10に示すように符号ィ匕動作制御部 1001と、基本レイヤ符号ィ匕 部 1002と、拡張レイヤ制御部 1003と、基本レイヤ復号化部 1004と、第 1周波数領 域変換部 1005と、遅延部 1006と、第 2周波数領域変換部 1007と、拡張レイヤ符号 化部 1008と、多重化部 1009と、から主に構成される。
[0065] 符号ィ匕動作制御部 1001には、伝送モード情報が入力される。符号化動作制御部 1001は、入力した伝送モード情報に応じて、制御スィッチ 1010〜1012のオン/ォ フ制御を行う。具体的には、符号ィ匕動作制御部 1001は、伝送モード情報が BR2で ある場合、制御スィッチ 1010〜: L012を全てオンにする。また、符号化動作制御部 1 001は、伝送モード情報が BR1である場合、制御スィッチ 1010〜1012を全てオフ にする。なお、伝送モード情報は、上記のように符号ィ匕動作制御部 1001に入力され るとともに、図 10のように符号ィ匕動作制御部 1001経由力 あるいは符号化動作制御 部 1001を経由せずに直接、多重化部 1009にも入力される。このように、符号化動 作制御部 loo 1が伝送モード情報に応じて制御スィッチ群をオン Zオフ制御すること により、入力信号の符号ィ匕に用いる符号ィ匕部の組み合わせが決定される。 [0066] 基本レイヤ符号ィ匕部 1002は、音声信号等の入力信号に対して CELPタイプの音 声符号ィ匕方法を用いて符号ィ匕を行って基本レイヤ情報源符号を生成し、生成した基 本レイヤ符号ィ匕情報を多重化部 1009および制御スィッチ 1012に出力する。また、 基本レイヤ符号ィ匕部 1002は、入力信号の音声符号ィ匕の際に算出されるパラメータ である LPC (線形予測係数)および量子化 LPCを制御スィッチ 1011に出力する。な お、基本レイヤ符号ィ匕部 1002の内部構成は、図 4に示した基本レイヤ符号ィ匕部 202 のものと同一であるので、その説明は省略する。
[0067] 拡張レイヤ制御部 1003は、制御スィッチ 1011がオンのとき、基本レイヤ符号化部 1002から出力された LPCおよび量子化 LPCに基づいて拡張レイヤモード情報を生 成し、拡張レイヤモード情報を拡張レイヤ符号ィ匕部 1008および多重化部 1009に出 力する。拡張レイヤモード情報とは、拡張レイヤにおける符号ィ匕モードを示す情報で あり、復号ィ匕装置において拡張レイヤ符号ィ匕情報を復号ィ匕する際に利用される。な お、拡張レイヤ制御部 1003の内部構成の詳細については後述する。また、拡張レイ ャ制御部 1003は、制御スィッチ 1011がオフの時には何も動作しない。
[0068] 基本レイヤ復号ィ匕部 1004は、制御スィッチ 1012がオンのとき、基本レイヤ符号ィ匕 部 1002から出力された基本レイヤ符号ィ匕情報に対して CELPタイプの音声復号ィ匕 方法を用いて復号化を行って基本レイヤ復号化信号を生成し、基本レイヤ復号化信 号を第 1周波数領域変換部 1005に出力する。一方、基本レイヤ復号ィ匕部 1004は、 制御スィッチ 1012がオフのときには何も動作しない。なお、基本レイヤ復号化部 100 4の内部構成は、図 5の基本レイヤ復号ィ匕部 203のものと同一であるので、その説明 は省略する。
[0069] 第 1周波数領域変換部 1005は、基本レイヤ復号化部 1004から入力される基本レ ィャ復号ィ匕信号に対して修正離散コサイン変換 (MDCT)を行い、周波数領域のパ ラメータとして得られる基本レイヤ復号ィ匕 MDCT係数を拡張レイヤ符号ィ匕部 1008に 出力する。
[0070] 第 1周波数領域変換部 1005は、 N個のノ ッファを内蔵し、まず、下記の式 (4)に従 い、「0」値を用いて各バッファを初期化する。なお、式 (4)において、 buf (n=0、… 、 N— 1)は第 1周波数領域変換部 1005が内蔵している N個のバッファの中の n+ 1 番目を示す,
[数 4] bufn = 0 (η = 0,···,Ν-ί) (4)
[0071] 次いで、第 1周波数領域変換部 1005は、下記の式 (5)に従い、基本レイヤ復号化 信号 xl を修正離散コサイン変換して基本レイヤ復号ィ匕 MDCT係数 XI を求める。
n k
式(5)において、 kは 1フレームにおける各サンプルのインデックスを示す。なお、 xl, は、下記の式 (6)に従い、基本レイヤ復号ィ匕信号 xl とバッファ buf とを結合させた ベクトルである。
[数 5]
( 。,·■·, N - 1) . . . (5)
Figure imgf000021_0001
[数 6]
XV -\buf" ("厂 1) 、 … (6)
、η = Ν,··-2Ν—、
[0072] 次いで、第 1周波数領域変換部 1005は、下記の式(7)に示すようにバッファ buf ( η=0、 "·、Ν— 1)を更新する。
[数 7] bufn = xl„ (" = 0,〜N— 1) . . . (7)
[0073] 次いで、第 1周波数領域変換部 1005は、求められた基本レイヤ復号化 MDCT係 数 XIを拡張レイヤ符号ィ匕部 1008に出力する。
k
[0074] 遅延部 1006は、制御スィッチ 1010がオンのとき、入力される音声 'オーディオ信 号を内蔵のバッファに記憶し、所定時間経過後に音声 ·オーディオ信号を第 2周波 数領域変換部 1007に出力する。ここで、所定時間は、基本レイヤ符号ィ匕部 1002、 基本レイヤ復号化部 1004、第 1周波数領域変換部 1005、および第 2周波数領域変 換部 1007において生じるアルゴリズム遅延を考慮した時間である。また、遅延部 10 06は、制御スィッチ 1010がオフの時には何も動作しない。
[0075] 第 2周波数領域変換部 1007は、制御スィッチ 1010がオンのとき、遅延部 1006か ら入力される音声 'オーディオ信号に対して MDCTを行い、周波数領域のパラメータ として得られる入力 MDCT係数を拡張レイヤ符号ィ匕部 1008に出力する。ここで、第 2周波数領域変換部 1007における周波数変換方法は、第 1周波数領域変換部 100 5における処理と同様であるため説明を省略する。また、第 2周波数領域変換部 100 7は、制御スィッチ 1010がオフの時には何も動作しない。
[0076] 拡張レイヤ符号化部 1008は、制御スィッチ 1010、 1011、 1012がオンのとき、拡 張レイヤ制御部 1003から入力される拡張レイヤモード情報と、第 1周波数領域変換 部 1005から入力される基本レイヤ復号ィ匕 MDCT係数および第 2周波数領域変換部 1007から入力される入力 MDCT係数とを用いて拡張レイヤ符号ィ匕を行い、得られ る拡張レイヤ符号ィ匕情報を多重化部 1009に出力する。拡張レイヤ符号ィ匕部 1008 の内部の構成および具体的な動作については後述する。また、拡張レイヤ符号化部 1008は、制御スィッチ 1010、 1011、 1012がオフの時には何も動作しない。
[0077] 多重化部 1009は、基本レイヤ符号化部 1002から入力される基本レイヤ符号化情 報、拡張レイヤ制御部 1003から入力される拡張レイヤモード情報、拡張レイヤ符号 化部 1008から入力される拡張レイヤ符号ィ匕情報、及び符号化動作制御部 1001か ら入力される伝送モード情報を多重化し、得られるビットストリームを復号ィ匕装置に送 信する。
[0078] なお、伝送前符号化情報のデータ構造 (ビットストリーム)につ 、ては、実施の形態 1で説明したものと同様であるため、ここでは説明を省略する。
[0079] 次に、図 10の拡張レイヤ制御部 1003の内部構成について図 11を用いて説明す る。拡張レイヤ制御部 1003は、量子化歪み算出部 1101と、拡張レイヤモード情報 決定部 1102と、から主に構成される。
[0080] 量子化歪み算出部 1101は、まず上記式(1)により、入力した LPC力 LPCケプス トラムを、量子化 LPCから量子化 LPCケプストラムをそれぞれ算出し、次に、上記式( 2)及び式(3)により、式(1)で算出された LPCケプストラムと量子化 LPCケプストラム との間の距離 (LPCケプストラム距離 (CD) )を算出し、算出した LPCケプストラム距 離を拡張レイヤモード情報決定部 1102に出力する。
[0081] 拡張レイヤモード情報決定部 1102は、量子化歪み算出部 1101から出力された L PCケプストラム距離と、内部に保持する予め定められた閾値とを比較し、その比較結 果に応じて拡張レイヤにおける符号ィ匕モードを決定し、符号化モードを示す拡張レイ ャモード情報を拡張レイヤ符号ィ匕部 1008に出力する。具体的には、拡張レイヤモー ド情報決定部 1102は、 LPCケプストラム距離が閾値よりも大きいという比較結果の場 合、すなわち、 LPCの量子化誤差が大きい場合には拡張レイヤの符号ィ匕モードを M odeAにし、 LPCケプストラム距離が閾値以下であるという比較結果の場合、すなわ ち、 LPCの量子化誤差が小さい場合には拡張レイヤの符号ィ匕モードを ModeBにす る。なお、 LPCが 12次程度の場合には、閾値を 1. 0程度とするのが適当である。
[0082] 次に、図 10の拡張レイヤ符号ィ匕部 1008の内部構成について図 12を用いて説明 する。拡張レイヤ符号ィ匕部 1008は、残差 MDCT係数算出部 1201と、帯域選択部 1 202と、シエイプ量子ィ匕咅 1203と、ゲイン量子ィ匕咅 1204と、多重ィ匕咅 1205と、から 主に構成される。
[0083] 残差 MDCT係数算出部 1201は、第 1周波数領域変換部 1005から入力される基 本レイヤ復号ィ匕 MDCT係数 XIと第 2周波数領域変換部 1007から入力される入力
k
MDCT係数 Xとの残差を求め、残差 MDCT係数 X2として帯域選択部 1202に出
k k
力する。
[0084] 帯域選択部 1202は、まず、残差 MDCT係数を複数のサブバンドに分割する。ここ では、 J Ciは自然数)個のサブバンドに均等に分割する場合を例に説明する。帯域選 択部 1202は、 J個のサブバンドの中で連続する L (Lは自然数)個のサブバンドを選 択し、 M (Mは自然数)種類のサブバンドのグループを得る。以下、この M種類のサ ブバンドのグノレープをリージョンと呼ぶ。
[0085] 次いで、帯域選択部 1202は、下記の式(8)に従い、 M種類の各リージョンの平均 エネルギ E (m)を算出する。
[数 8] E(m) 1 1 (w = 0, ---, - l) ( 8 )
L
[0086] この式にぉ 、て、 j ίお個の各サブバンドのインデックスを示し、 mは、 M種類の各リ 一ジョンのインデックスを示す。なお、 S (m)は、リージョン mを構成する L個のサブバ ンドのインデックスのうちの最小値を示し、 B (j)は、サブバンド jを構成する複数の MD CT係数のインデックスのうちの最小値を示す。 W(j)は、サブバンド jのバンド幅を示 し、以下の説明では、 J個の各サブバンドのバンド幅が全て等しい場合、すなわち W( j)が定数である場合を例にとって説明する。
[0087] 次 、で、帯域選択部 1202は、平均エネルギ E (m)が最大となるリージョン、例えば サブバンド j "〜; T+L—1からなる帯域を量子化対象となる帯域 (量子化対象帯域)と して選択し、このリージョンを示すインデックス m— maxを帯域情報としてシエイプ量 子化部 1203、ゲイン量子化部 1204、および多重化部 1205に出力する。また、帯域 選択部 1202は、残差 MDCT係数をシエイプ量子化部 1203に出力する。なお、残 差 MDCT係数は、上記のように帯域選択部 1202に入力されるとともに、図 12のよう に、帯域選択部 1202経由力 あるいは帯域選択部 1202を経由せずに直接、シエイ プ量子化部 1203にも入力される。
[0088] シエイプ量子化部 1203は、帯域選択部 1202から入力される帯域情報 m— maxが 示す帯域に対応する残差 MCDT係数に対して、拡張レイヤ制御部 1003から入力さ れる拡張レイヤモード情報を利用して、サブバンド毎にシエイプ量子化を行う。具体 的には、シエイプ量子化部 1203は、拡張レイヤモード情報が ModeAの場合には、 L 個の各サブバンド毎に、 SQA個のシエイプコードベクトルからなる内蔵のシエイプコ ードブックを探索して下記の式(9)の結果が最大となるシエイプコードベクトルのイン デッタスを求める。
[数 9]
Shape一 q
Figure imgf000024_0001
[0089] この式(9)にお!/、て、 SCはシエイプコードブックを構成するシエイプコードベクトル k を示し、 iはシエイプコードベクトルのインデックスを示し、 kはシエイプコードベクトルの 要素のインデックスを示す。
[0090] また、シエイプ量子化部 1203は、拡張レイヤモード情報が ModeBの場合には、 L 個の各サブバンド毎に、 SQB (SQBく SQA)個のシエイプコードベクトルからなる内 蔵のシエイプコードブックを探索して下記の式(10)の結果が最大となるシエイプコー ドベクトルのインデックスを求める。
[数 10]
Shape _ q(f) =
Figure imgf000025_0001
[0091] シエイプ量子化部 1203は、上記の式(9)あるいは式(10)の結果が最大となるシェ ィプコードベクトルのインデックス S— maxをシエイプ符号化情報として多重化部 120 5に出力する。また、シエイプ量子化部 1203は、下記の式(11)に従い、理想ゲイン 値 Gain— i (j )を算出してゲイン量子化部 1204に出力する。
[数 11]
Λ k+BU) "し }
Gain_i(j) = ,…, + — ( 1 1 )
、、 ^ max ^ ー max
[0092] ゲイン量子化部 1204は、シヱイプ量子化部 1203から入力される理想ゲイン値 Gai n_i (j)に対して、拡張レイヤ制御部 1003から入力される拡張レイヤモード情報を利 用して、ゲイン値のベクトル量子化を行う。具体的には、ゲイン量子化部 1204は、拡 張レイヤモード情報が ModeAの場合には、理想ゲイン値を L次元ベクトルとして扱 ヽ 、 GQA個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して下記の 式(12)を最小にするコードブックのインデックスを求める。なお、上記の式(12)を最 小にするコードブックのインデックスを G—minと記す。
[数 12] Gain _ q{i) = ^ ^J inJ + f) - GC) } (i = 0, -, GQA - l) . . . ( 1 2 )
[0093] また、ゲイン量子化部 1204は、拡張レイヤモード情報が ModeBの場合には、理想 ゲイン値を L次元ベクトルとして扱!、、 GQB (CQB< CQA)個のゲインコードベクトル 力 なる内蔵のゲインコードブックを探索して下記の式(13)を最小にするコードブッ クのインデックスを求める。
[数 13]
Gain _ q(i) = ^ in _ i(j + j" ) - GC) } (i = 0, - - -, GQB - ί) . . . ( 1 3 )
[0094] ゲイン量子化部 1204は、式(12)あるいは式(13)の結果が最小となるゲインコード ベクトルのインデックス G—minをゲイン符号ィ匕情報として多重化部 1205に出力する
[0095] 多重化部 1205は、帯域選択部 1202から入力される帯域情報 m—max、シエイプ 量子化部 1203から入力されるシエイプ符号ィ匕情報 S—max、ゲイン量子化部 1204 力 入力されるゲイン符号ィ匕情報 G—minを多重化し、得られるビットストリームを拡 張レイヤ符号ィ匕情報として多重化部 1009に出力する。なお、これら情報を、多重化 部 1205で多重化せず、多重化部 1009に直接入力して、多重化部 1009で多重化 してちよい。
[0096] 図 13は、本実施の形態に係る復号化装置 103の主要な構成を示すブロック図であ る。図 13において、復号ィ匕装置 103は、分離部 1301と、基本レイヤ復号化部 1302 と、周波数領域変換部 1303と、復号化動作制御部 1304と、拡張レイヤ復号ィ匕部 13 05と、時間領域変換部 1306と、から主に構成される。
[0097] 分離部 1301は、符号ィ匕装置 101から伝送されるビットストリーム力も基本レイヤ符 号化情報、拡張レイヤ符号化情報、伝送モード情報、及び拡張レイヤモード情報を 分離し、基本レイヤ符号ィ匕情報を基本レイヤ復号ィ匕部 1302に出力し、拡張レイヤモ ード情報及び拡張レイヤ符号ィ匕情報を拡張レイヤ復号ィ匕部 1305に出力し、伝送モ ード情報を復号化動作制御部 1304に出力する。 [0098] 基本レイヤ復号ィ匕部 1302は、分離部 1301から出力された基本レイヤ符号ィ匕情報 に対して CELPタイプの音声復号ィ匕方法を用いて復号ィ匕を行って基本レイヤ復号ィ匕 信号を生成し、基本レイヤ復号ィ匕信号を周波数領域変換部 1303及び制御スィッチ 1307に出力する。なお、基本レイヤ復号ィ匕部 1302の内部構成は、図 5の基本レイ ャ復号ィ匕部 203のものと同一であるので、その説明は省略する。
[0099] 周波数領域変換部 1303は、基本レイヤ復号化部 1302から入力される基本レイヤ 復号ィ匕信号に対して修正離散コサイン変換 (MDCT)を行い、周波数領域のパラメ ータとして得られる基本レイヤ復号ィ匕 MDCT係数を拡張レイヤ復号ィ匕部 1305に出 力する。
[0100] 復号ィ匕動作制御部 1304は、分離部 1301から入力される伝送モード情報に応じて 制御スィッチ 1307のオン Zオフの動作と、周波数領域変換部 1303、拡張レイヤ復 号ィ匕部 1305、時間領域変換部 1306の動作を制御する。具体的には、伝送モード 情報が BR2であった場合、復号化動作制御部 1304は、周波数領域変換部 1303、 拡張レイヤ復号ィ匕部 1305、時間領域変換部 1306の動作をオン状態にし、また制御 スィッチ 1307を時間領域変換部 1306側に接続する。また、伝送モード情報が BR1 であった場合、復号化動作制御部 1304は、周波数領域変換部 1303、拡張レイヤ 復号化部 1305、時間領域変換部 1306の動作をオフ状態にし、また制御スィッチ 13 07を基本レイヤ復号ィ匕部 1302側に接続する。このように、復号ィ匕動作制御部 1304 が伝送モード情報に応じて制御スィッチ、及び処理ブロックをオン Zオフ制御するこ とにより、符号ィ匕情報の復号ィ匕に用いる符号ィ匕部の組み合わせが決定される。
[0101] 拡張レイヤ復号ィ匕部 1305は、分離部 1301から拡張レイヤ符号ィ匕情報及び拡張レ ィャモード情報が入力され、また周波数領域変換部 1303から基本レイヤ復号ィ匕 M DCT係数 X"lが入力される。拡張レイヤ復号ィ匕部 1305は、復号化動作制御部 13
k
04によりオン状態に制御されているとき、入力された情報から、加算 MDCT係数 X"
k を算出し、これを時間領域変換部 1306に出力する。拡張レイヤ復号ィ匕部 1305は、 復号ィ匕動作制御部 1304によりオフ状態に制御されているときは何も動作しない。拡 張レイヤ復号ィ匕部 1305の処理の詳細につ 、ては、後述する。
[0102] 時間領域変換部 1306は、復号ィ匕動作制御部 1304によりオン状態に制御されて いるとき、拡張レイヤ復号部 1305から入力される加算 MDCT係数 X"に対して IMD
k
CTを行 ヽ、時間領域成分として得られる復号化信号を制御スィッチ 1307に出力す る。時間領域変換部 1306は、復号ィ匕動作制御部 1304によりオフ状態に制御されて いるときは何も動作しない。
[0103] 以下、時間領域変換部 1306がオン状態に制御されているときの処理を説明する。
時間領域変換部 1306は、バッファ buf'を内部に有し、式(14)により初期化される。
k
[数 14] buf = 0 ( 0,'",N - 1) . . . ( 1 4 )
[0104] 時間領域変換部 1306は、拡張レイヤ復号ィ匕部 1305から入力される加算レイヤ復 号 MDCT係数 X"を用いて、下記の式(15)に従い拡張レイヤ復号ィ匕信号 Yを求め
k n る。この式(15)〖こおいて、 X,は、復号 MDCT係数 X"とバッファ buf とを結合させ
k k
たベクトルであり、下記の式( 16)を用 、て求められる。
[数 15]
Figure imgf000028_0001
[数 16]
Figure imgf000028_0002
[0105] 次いで、時間領域変換部 1306は、下記の式(17)に従いバッファ buf' を更新す
k
る。
[数 17] = X ( = 0 ..N— 1) · · · ( 1 7 )
[0106] 時間領域変換部 1306は、求められる拡張レイヤ復号ィ匕信号 Yを制御スィッチ 130 7に出力する。 [0107] 制御スィッチ 1307は、復号ィ匕動作制御部 1304の制御に基づいて、基本レイヤ復 号ィ匕部 1302から出力された基本レイヤ復号ィ匕信号あるいは時間領域変換部 1306 力 出力された拡張レイヤ復号ィ匕信号を出力信号として出力する。
[0108] 図 14は、拡張レイヤ復号ィ匕部 1305の内部構成を示す図である。拡張レイヤ復号 化部 1305は、分離部 1401と、シエイプ逆量子化部 1402と、ゲイン逆量子化部 140 3と、加算 MDCT係数算出部 1404と、から主に構成される。
[0109] 分離部 1401は、分離部 1301から入力される拡張レイヤ符号ィ匕情報力も帯域情報 、シエイプ符号化情報、及びゲイン符号化情報を分離し、帯域情報及びシエイプ符 号化情報をシエイプ逆量子化部 1402に、ゲイン符号化情報をゲイン逆量子化部 14 03に出力する。なお、分離部 1401を設けずに、分離部 1301でこれら情報を分離し て、これら情報を直接、シエイプ逆量子化部 1402、ゲイン逆量子化部 1403に入力し てもよい。
[0110] シエイプ逆量子化部 1402は、シエイプ量子化部 1203が備えるシエイプコードブッ クと同様なシエイプコードブックを内蔵し、分離部 1401から入力されるシエイプ符号 化情報 S— maxをインデックスとするシエイプコードベクトルを探索する。この時、シェ イブ逆量子化部 1402は、分離部 1401から入力される拡張レイヤモード情報が Mod eAの時には、 SQA個のシエイプコードベクトルからなる内蔵のシエイプコードブックを 探索し、探索されたコードベクトルを分離部 1401から入力される帯域情報 m_maX が示す量子化対象帯域の MDCT係数のシエイプの値としてゲイン逆量子化部 1403 に出力する。また、シエイプ逆量子化部 1402は、分離部 1401から入力される拡張レ ィャモード情報が ModeBの時には、 SQB個のシエイプコードベクトルからなる内蔵 のシエイプコードブックを探索し、探索されたコードベクトルを、分離部 1401から入力 される帯域情報 m— maxが示す量子化対象帯域の MDCT係数のシェイブの値とし てゲイン逆量子化部 1403に出力する。ここでは、シェイブの値として探索されたシェ ィプコードベクトルを Shape— q (k) (k=B (j") , · ··, B (j" + L)— 1)と記す。
[0111] ゲイン逆量子化部 1403は、ゲイン量子化部 1204と同様なゲインコードブックを内 蔵しており、下記の式(18)に従いゲインの値を逆量子化する。ここでは、ゲイン値を L次元ベクトルとして扱い、ベクトル逆量子化を行う。このとき、ゲイン逆量子化部 140 3は、分離部 1401から入力される拡張レイヤモード情報が ModeAの時には、 GQA 個のゲインコードベクトルからなる内蔵のゲインコードブックを探索し、ゲインの逆量 子化を行う。また、ゲイン逆量子化部 1403は、分離部 1401から入力される拡張レイ ャモード情報が ModeBの時には、 GQB個のゲインコードベクトルからなる内蔵のゲ インコードブックを探索し、ゲインの逆量子化を行う。
[数 18]
Gam_q'(j + f) = GC°-mm (ゾ= 0,. - - ー1,) . . . (1 8 )
[0112] 次いで、ゲイン逆量子化部 1403は、逆量子化で得られるゲイン値、およびシエイプ 逆量子化部 1402から入力されるシェイブの値を用いて、下記の式(19)に従い拡張 レイヤ MDCT係数を算出する。ここでは、算出された復号 MDCT係数を X"と記す。
k
[数 19]
Gain q' (ゾ) - Shape q' (k) ( 1 9 )
Figure imgf000030_0001
[0113] ゲイン逆量子化部 1403は、上記の式(19)に従い算出された拡張レイヤ MDCT係 数 X"2を加算 MDCT係数算出部 1404に出力する。
k
[0114] 加算 MDCT係数算出部 1404は、周波数領域変換部 1303から入力される基本レ ィャ復号 MDCT係数 X"lと、ゲイン逆量子化部 1403から入力される拡張レイヤ復
k
号 MDCT係数 X"2とを加算し、得られる加算結果を加算 MDCT係数 X" として時
k k
間領域変換部 1306に出力する。
[0115] 以上説明したように、本実施の形態によれば、下位レイヤで CELPタイプの符号ィ匕 方法を用い、上位レイヤでは変換符号ィ匕方法を用いる場合のスケーラブル符号ィ匕方 式にぉ 、て、下位レイヤの符号ィ匕結果に応じて上位レイヤの符号ィ匕方法 (ビットァロ ケーシヨン)を切り替えることにより、良好な品質の出力信号を提供することができる。
[0116] また、本実施の形態では、符号化装置において、下位の階層の LPCの量子化誤 差に基づいて上位の階層における符号ィ匕モードを制御する場合を例に挙げて説明 したが、本発明はこれに限らず、下位の階層の他のパラメータに基づいて上位の階 層における符号ィ匕モードを制御することもできる。以下、例として、下位の階層の合成 音の SNR (信号対雑音比)に基づ!/ヽて上位の階層における符号ィ匕モードを制御する 場合について説明する。この場合、基本レイヤ符号ィ匕部 1002内の合成フィルタ 404 において、 LPC量子化部 403から出力される LPC量子化係数と、適応音源符号帳 4 06から出力される適応音源符号に利得を乗じた値とから合成される合成音の SNR を算出し、これを拡張レイヤ制御部 1003内の拡張レイヤモード情報決定部 1102に 出力する。拡張レイヤモード情報決定部 1102は、入力された SNRと、内部に予め格 納された閾値とを比較し、比較結果に応じて拡張レイヤモード情報を決定し、これを 拡張レイヤ符号ィ匕部 1008に出力する。具体的には、拡張レイヤモード情報決定部 1 102は、基本レイヤ符号ィ匕部 1002から出力される SNRが閾値よりも大きい場合には 、拡張レイヤモードを ModeAにし、基本レイヤ符号ィ匕部 1002から出力される SNR が閾値以下である場合には拡張レイヤモードを ModeBにする。
[0117] また、拡張レイヤモードの決定方法は、逆でも構わない。つまり、基本レイヤ符号ィ匕 部 1002から出力される SNRが閾値よりも大きい場合には、拡張レイヤモードを Mod eB〖こし、基本レイヤ符号ィ匕部 1002から出力される SNRが閾値以下である場合には 拡張レイヤモードを ModeAにしてもよ!、。
[0118] なお、本実施の形態では、符号化装置において、下位レイヤで CELPタイプの符 号化を行い、上位レイヤで変換符号ィ匕を行う場合について説明したが、本発明はこ れに限らず、上位レイヤにおいて LPCパラメータを量子化し、さらに音源成分につい て変換符号ィ匕を行う場合に対しても同様に適用できる。具体的には、下位レイヤの C Dの大きさに応じて、上位レイヤの LPCパラメータに割り当てるビットと、音源成分の 変換符号ィ匕に割り当てるビットを変更する、という例が挙げられる。
[0119] (実施の形態 3)
実施の形態 2では、下位レイヤで CELPタイプ符号ィ匕を行い、上位レイヤで変換符 号ィ匕を行うスケーラブル符号ィ匕方式にぉ 、て、下位レイヤの符号ィ匕結果を利用して 上位レイヤの符号ィ匕方法 (ビットアロケーション)を変更する場合について説明した。 その中で、下位レイヤの符号ィ匕結果として LPCパラメータの符号ィ匕歪みを利用する 場合について説明したが、本発明はこれに限らず、下位レイヤの符号ィ匕結果としてピ ツチゲインの大きさなどのピッチに関する情報を利用して上位レイヤの符号ィ匕方法を 変更する場合に対しても同様に適用できる。
[0120] 実施の形態 3では、下位レイヤにて CELPタイプの符号ィ匕を行い、上位レイヤでは 変換符号化を行う場合のスケーラブル符号化方式に対して、下位レイヤにおいて算 出されたピッチゲインの大きさを利用して上位レイヤの符号ィ匕方法を変更する場合に ついて説明する。なお、本実施の形態に係る符号化装置および復号化装置を有す る通信システムは、図 1と同一であるので説明を省略する。
[0121] 図 15は、本実施の形態に係る符号ィ匕装置 101aの構成を示すブロック図である。な お、図 15において、図 10と共通する部分には、図 10と同一の符号を付して説明を 省略する。
[0122] 図 15に示す符号ィ匕装置 101aは、基本レイヤ符号ィ匕部 1502が制御スィッチ 1011 経由にて拡張レイヤ制御部 1503に量子化適応音源利得を出力する点で、図 10の ものと異なる。また、図 15に示す符号ィ匕装置 101aは、拡張レイヤ制御部 1503の内 部構成が、図 10の拡張レイヤ制御部 1003と異なる。また、図 15に示す符号化装置 10 laは、拡張レイヤ制御部 1503が、拡張レイヤモード情報を拡張レイヤ符号ィ匕部 1 008のみに出力する点で、図 10と異なる。また、図 15に示す符号ィ匕装置 101aは、 多重化部 1509が、多重化する情報の数が異なる点で、図 10と異なる。
[0123] 図 16は、図 15の拡張レイヤ制御部 1503の内部構成を示す図である。拡張レイヤ 制御部 1503は、ピッチ情報判定部 1601と、拡張レイヤモード情報決定部 1602と、 から主に構成される。
[0124] ピッチ情報判定部 1601は、入力した量子化適応音源利得の値の絶対値を算出し 、これを絶対値量子化適応音源利得として、拡張レイヤモード情報決定部 1602に出 力する。
[0125] 拡張レイヤモード情報決定部 1602は、ピッチ情報判定部 1601から入力される絶 対値量子化適応音源利得と、内部に保持する予め定められた閾値とを比較し、その 比較結果に応じて拡張レイヤにおける符号ィ匕モードを決定し、符号化モードを示す 拡張レイヤモード情報を拡張レイヤ符号ィ匕部 1008に出力する。具体的には、拡張レ ィャモード情報決定部 1602は、絶対値量子化適応音源利得が閾値よりも大きいと いう比較結果の場合、すなわち、音源成分の周期性が高い場合には拡張レイヤの符 号ィ匕モードを ModeAにし、絶対値量子化適応音源利得が閾値以下であると!/、う比 較結果の場合、すなわち、音源成分の周期性が低い場合には拡張レイヤの符号ィ匕 モードを ModeBにする。
[0126] 図 17は、本実施の形態に係る復号ィ匕装置 103aの主要な構成を示すブロック図で ある。なお、図 17において、図 13と共通する部分には、図 13と同一の符号を付して 説明を省略する。
[0127] 図 17の復号ィ匕装置 103aは、図 13に対して、拡張レイヤ制御部 1708を追カロした 構成をとる。また、図 17の復号ィ匕装置 103aでは、分離部 1701から拡張レイヤ復号 化部 1305に拡張レイヤモード情報は入力されず、図 13にお 、て分離部 1301から 拡張レイヤ復号ィ匕部 1305に拡張レイヤモード情報が入力される処理が、まず基本レ ィャ復号化部 1302から拡張レイヤ制御部 1708に量子化適応音源利得が入力され 、次に拡張レイヤ制御部 1708から拡張レイヤ復号ィ匕部 1305に拡張レイヤモード情 報が入力される処理に置き換わる。
[0128] また、拡張レイヤ制御部 1708の内部構成は、拡張レイヤ制御部 1503と同一であ るため、説明を省略する。
[0129] 以上説明したように、本実施の形態によれば、下位レイヤで CELPタイプの符号ィ匕 方法を用い、上位レイヤでは変換符号ィ匕方法を用いる場合のスケーラブル符号ィ匕方 式において、下位レイヤの符号化結果 (量子化適応音源利得)に応じて上位レイヤ の符号ィ匕方法 (ビットアロケーション)を切り替えることにより、良好な品質の出力信号 を提供することができる。具体的には、下位レイヤの符号ィ匕結果から、量子化対象の 信号の周期性が高い場合には、上位レイヤにおいて、シェイブの量子化に割り当て るビットを多くし、量子化対象の信号の周期性が低い場合には、上位レイヤにおいて 、シェイブの量子化に割り当てるビットを少なくすることによって、より効率的に符号化 を行うことができる。なお、以上の構成を採る場合には、実施の形態 2で説明した場 合と異なり、ビットストリームに拡張レイヤモード情報を含める必要がなぐより低ビット レートで符号ィ匕することが可能である。
[0130] また、本実施の形態では、下位レイヤの符号ィ匕結果として、量子化適応音源利得 を利用して上位レイヤの符号ィ匕方法を切り替える場合について説明したが、本発明 はこれに限らず、下位レイヤで算出した適応音源ベクトルと、量子化対象の駆動音源 ベクトルとから算出できる理想的な適応音源利得を使って上位レイヤの符号ィ匕方法 を切り替える場合についても同様に適用できる。なお、この手法を採る場合には、符 号化装置側の拡張レイヤ符号化部 1008から多重化部 1509に拡張レイヤモード情 報を伝送する必要がある。また、この場合は、復号化装置側では、拡張レイヤ復号化 部 1305は、分離部 1701から拡張レイヤモード情報を得るため、拡張レイヤ制御部 1 708を備える必要はない。
[0131] また、本発明の実施の形態では、符号化装置において、下位の階層の符号ィ匕結果 である量子化適応音源利得を予め定められた一定の閾値と比較する場合について 説明したが、本発明はこれに限らず、適応音源符号、固定音源符号、あるいはゲイン などのパラメータの歪みを利用する場合にも適用することができる。例えば、適応音 源符号を利用する場合、下位レイヤの符号化結果である適応音源符号が示すピッチ 周期の大きさに応じて、上位レイヤの符号ィ匕方法を切り替える場合が挙げられる。具 体的には、下位レイヤの符号ィ匕結果である適応音源符号が示すピッチ周期がある閾 値以下の場合、つまり量子化対象の信号の周期性が高い場合には、拡張レイヤモー ド情報を ModeAとし、上位レイヤにおけるシエイプの量子化に割り当てるビットを多く し、閾値よりも大きい場合、つまり量子化対象の信号の周期性が低い場合には、拡張 レイヤモード情報を ModeBとし、上位レイヤにおけるシェイブの量子化に割り当てる ビットを少なくする、という方法が考えられる。
[0132] なお、当然、拡張レイヤモード情報を決定する条件が逆であっても構わない。つまり 、下位レイヤの符号ィヒ結果である適応音源符号が示すピッチ周期がある閾値以下の 場合には拡張レイヤモード情報を ModeBとし、閾値よりも大き!/、場合には拡張レイヤ モード情報を ModeAとしてもよい。この構成は、上述した構成において、利用する符 号ィ匕結果が、量子化適応音源利得力 適応音源符号に置き換わっただけであるた め、ここでは説明を省略する。
[0133] また、本実施の形態では、下位レイヤの符号ィ匕結果である量子化適応音源利得が 閾値よりも大きい場合には拡張レイヤモード情報を ModeAとし、閾値より小さい場合 には拡張レイヤモード情報を ModeBとする場合について説明した力 本発明はこれ に限らず、下位レイヤの符号ィ匕結果である量子化適応音源利得が閾値よりも大きい 場合には拡張レイヤモード情報を ModeBとし、閾値より小さ!/、場合には拡張レイヤ モード情報を ModeAとする場合についても同様に適用できる。
[0134] (実施の形態 4)
実施の形態 2では、下位レイヤで CELPタイプ符号ィ匕を行い、上位レイヤで変換符 号ィ匕を行うスケーラブル符号ィ匕方式にぉ 、て、下位レイヤの符号ィ匕結果を利用して 上位レイヤの符号ィ匕方法 (ビットアロケーション)を変更する場合について説明した。 上述した説明では、下位レイヤと上位レイヤで量子化する帯域が同一であることを前 提として説明したが、本発明はこれに限らず、下位レイヤと上位レイヤで量子化する 帯域が異なる場合に対しても同様に適用できる。
[0135] 実施の形態 4では、下位レイヤと上位レイヤで量子化する帯域が異なる場合にお!ヽ て、下位レイヤの符号ィ匕結果に応じて上位レイヤの符号ィ匕方法を切り替える構成に ついて説明する。なお、本実施の形態に係る符号化装置および復号化装置を有す る通信システムは、図 1と同一であるので説明を省略する。
[0136] 図 18は、本実施の形態に係る符号ィ匕装置 101bの構成を示すブロック図である。な お、図 18において、図 10と共通する部分には、図 10と同一の符号を付して説明を 省略する。
[0137] 図 18の符号化装置 101bは、図 10に対して、ダウンサンプリング部 1813及びアツ プサンプリング部 1814を追加した構成を採る。
[0138] ダウンサンプリング部 1813は、入力信号に対してダウンサンプリング処理を行い、 入力信号のサンプリング周波数を Ratelから Rate2に変換し (Ratel >Rate2)、基 本レイヤ符号ィ匕部 1002に出力する。
[0139] アップサンプリング部 1814は、基本レイヤ復号化部 1004から入力される基本レイ ャ復号化信号に対してアップサンプリング処理を行 ヽ、基本レイヤ復号化信号のサ ンプリング周波数を Rate2から Ratelに変換して第 1周波数領域変換部 1005に出 力する。
[0140] 図 19は、本実施の形態に係る復号ィ匕装置 103bの構成を示すブロック図である。な お、図 19において、図 13と共通する部分には、図 13と同一の符号を付して説明を 省略する。
[0141] 図 19の復号化装置 103bは、図 13に対して、アップサンプリング部 1908を追加し た構成を採る。
[0142] アップサンプリング部 1908は、基本レイヤ復号化部 1302から入力される基本レイ ャ復号化信号に対してアップサンプリング処理を行 ヽ、基本レイヤ復号化信号のサ ンプリング周波数を Rate2から Ratelに変換し、周波数領域変換部 1303に出力す る。
[0143] 以上説明したように、本実施の形態によれば、下位レイヤで CELPタイプの符号ィ匕 方法を用い、上位レイヤでは変換符号ィ匕方法を用い、さらに下位レイヤと上位レイヤ の帯域が異なる場合のスケーラブル符号ィ匕方式にぉ ヽて、下位レイヤの符号ィ匕結果 に応じて上位レイヤの符号ィ匕方法 (ビットアロケーション)を切り替えることにより、良好 な品質の出力信号を提供することができる。
[0144] また、本実施の形態では、符号化装置において、下位の階層の LPCの量子化誤 差に基づいて上位の階層における符号ィ匕モードを制御する場合を例に挙げて説明 したが、本発明はこれに限らず、下位の階層の他のパラメータに基づいて上位の階 層における符号ィ匕モードを制御することもできる。以下、例として、下位の階層の合成 音の SNR (信号対雑音比)に基づ!/ヽて上位の階層における符号ィ匕モードを制御する 場合について説明する。この場合、基本レイヤ符号ィ匕部 1002内の合成フィルタ 404 において、 LPC量子化部 403から出力される LPC量子化係数と、適応音源符号帳 4 06から出力される適応音源符号に利得を乗じた値とから合成される合成音の SNR を算出し、これを拡張レイヤ制御部 1003内の拡張レイヤモード情報決定部 1102に 出力する。拡張レイヤモード情報決定部 1102は、入力された SNRと、内部に予め格 納された閾値とを比較し、比較結果に応じて拡張レイヤモード情報を決定し、これを 拡張レイヤ符号ィ匕部 1008に出力する。具体的には、拡張レイヤモード情報決定部 1 102は、基本レイヤ符号ィ匕部 1002から出力される SNRが閾値よりも大きい場合には 、拡張レイヤモードを ModeAにし、基本レイヤ符号ィ匕部 1002から出力される SNR が閾値以下である場合には拡張レイヤモードを ModeBにする。
[0145] また、拡張レイヤモードの決定方法は、逆でも構わない。つまり、基本レイヤ符号ィ匕 部 1002から出力される SNRが閾値よりも大きい場合には、拡張レイヤモードを Mod eB〖こし、基本レイヤ符号ィ匕部 1002から出力される SNRが閾値以下である場合には 拡張レイヤモードを ModeAにしてもよ!、。
[0146] なお、上記各実施の形態では、符号化装置において、下位の階層の符号ィヒ結果 を利用して、上位の階層の符号ィ匕時に異なるサイズの符号帳を用いることにより符号 化情報のビットアロケーションを変更する場合について説明したが、本発明は、符号 帳のサイズ変更に留まらず、下位の階層の符号ィ匕結果と組み合わせた場合により良 質な音声信号をユーザに提供するために、パラメータの取捨選択を含む、上位の階 層における符号化方法を切り替える場合、ある ヽは上位の階層にお ヽて同じサイズ である別の符号帳と合わせた複数の符号帳から利用する符号帳を切り替えて選択す る場合にち適用することがでさる。
[0147] また、上記各実施の形態では、符号化装置において、符号ィ匕に用いる情報量はほ ぼ一定と 、う条件で符号ィ匕情報のビットアロケーションを変更する場合にっ 、て説明 したが、本発明はこれに限らず、符号ィ匕に用いることのできる情報量をある程度変更 することが出来る場合にも同様に適用される。例えば、システム側、あるいはユーザ 側からの指示等によりある閾値 (SNR等)が定められる場合においては、上述した拡 張レイヤ制御方法により、その閾値を満たし、かつ最低限の情報量で入力信号を符 号ィ匕することも可能である。これにより、回線使用率を抑えつつ、システムあるいはュ 一ザの要求を満たす柔軟な符号ィ匕装置 ·方法を実現することができる。
[0148] また、上記各実施の形態では、符号化装置において、下位の階層の符号化結果で ある LPCケプストラム距離を予め定められた一定の閾値と比較する場合について説 明したが、本発明はこれに限らず、 LPCの次数などの符号ィ匕方法に基づく値、ユー ザ指示および回線状況に等応じて閾値を動的に変化させる場合にも適用することが できる。
[0149] また、本発明は階層を限定するものではなぐ複数階層で構成された階層的な信 号符号ィ匕または復号ィ匕方法において、下位レイヤでの入力信号と出力信号との差で ある残差信号を上位レイヤで符号ィ匕する全ての場合について適用することができる。
[0150] また、本発明を、コンピュータに信号処理動作を行わせる信号処理プログラムに適 用することもできる。また、この信号処理プログラムを、メモリ、ディスク、テープ、 CD、 DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合に ついても、本発明は適用することができ、本実施の形態と同様の作用 ·効果を得るこ とがでさる。
[0151] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。また、ここでは LSIとした力 集積度の違い によって、 IC、システム LSI、スーパー LSI、ウルトラ LSI等と呼称されることもある。ま た、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッサで 実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Progra mmable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能なリ コンフィギユラブル'プロセッサを利用しても良い。さらに、半導体技術の進歩または 派生する別技術により、 LSIに置き換わる集積回路化の技術が登場すれば、当然、 その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適用等が可 能性としてあり得る。
[0152] 2006年 3月 10曰出願の特願 2006— 066771および 2007年 2月 13曰出願の特 願 2007— 032746の日本出願に含まれる明細書、図面および要約書の開示内容 は、すべて本願に援用される。
産業上の利用可能性
[0153] 本発明は、スケーラブル符号ィ匕技術を用いた通信システムにおける符号ィ匕装置、復 号化装置に用いるに好適である。

Claims

請求の範囲
入力信号を n階層 (nは 2以上の整数)の符号化情報で符号化する符号化装置であ つて、
入力信号を符号化して第 1階層の符号ィ匕情報を生成する基本レイヤ符号ィ匕手段と 第 i階層 (iは 1以上 n— 1以下の整数)の符号ィ匕情報を復号化して第 i階層の復号ィ匕 信号を生成する第 i階層の復号化手段と、
前記入力信号と第 1階層の復号化信号との差分である第 1階層の差分信号ある 、 は第 (i— 1)階層の差分信号と第 i階層の復号ィ匕信号との差分である第 i階層の差分 信号を求める加算手段と、
第 i階層の差分信号を符号化して第 (i+ 1)階層の符号化情報を生成する第 (i+ 1) 階層の拡張レイヤ符号化手段と、
所定の階層の符号ィ匕手段の符号ィ匕パラメータに基づいて前記所定の階層よりも上 位の階層の符号ィ匕手段における符号ィ匕方法を制御する拡張レイヤ制御手段と、を具 備する符号化装置。
前記拡張レイヤ制御手段は、前記所定の階層の符号化手段の符号化パラメータに 基づいて前記所定の階層よりも上位の階層の符号ィ匕手段におけるビットァロケーショ ンを制御する請求項 1に記載の符号化装置。
前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号化手段の LPCの量子化誤差が、所定の閾値より大きい場 合には第 1の LPC符号帳を利用して量子化を行い、前記閾値以下の場合には前記 第 1の LPC符号帳よりもサイズが小さい第 2の LPC符号帳を利用して量子化を行うよ うに、前記所定の階層よりも上位の階層の符号ィヒ手段における符号ィヒ方法を制御す る請求項 1に記載の符号化装置。
前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号化手段の LPCの量子化誤差が、所定の閾値より大きい場 合には第 1の固定音源符号帳を用いて符号ィ匕を行い、前記閾値以下の場合には前 記第 1の固定音源符号帳よりもサイズが大きい第 2の固定音源符号帳を用いて符号 化を行うように、前記所定の階層よりも上位の階層の符号ィ匕手段における符号ィ匕方 法を制御する請求項 1に記載の符号化装置。
[5] 前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号化手段の LPCの量子化誤差が、所定の閾値より大きい場 合には第 1のシエイプ符号帳を利用して量子化を行い、前記閾値以下の場合には前 記第 1のシエイプ符号帳よりもサイズが小さい第 2のシエイプ符号帳を利用して量子 化を行うように、前記所定の階層よりも上位の階層の符号ィ匕手段における符号ィ匕方 法を制御する請求項 1に記載の符号化装置。
[6] 前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号化手段の LPCの量子化誤差が、所定の閾値より大きい場 合には第 1のゲイン符号帳を利用して量子化を行い、前記閾値以下の場合には前記 第 1のゲイン符号帳よりもサイズが小さい第 2のゲイン符号帳を利用して量子化を行う ように、前記所定の階層よりも上位の階層の符号化手段における符号化方法を制御 する請求項 1に記載の符号化装置。
[7] 前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号ィ匕手段のピッチゲインの大きさが、所定の閾値より大きい場 合には第 1のシエイプ符号帳を利用して量子化を行い、前記閾値以下の場合には前 記第 1のシエイプ符号帳よりもサイズが小さい第 2のシエイプ符号帳を利用して量子 化を行うように、前記所定の階層よりも上位の階層の符号ィ匕手段における符号ィ匕方 法を制御する請求項 1に記載の符号化装置。
[8] 前記符号化手段の少なくとも 1つが CELP型であって、前記拡張レイヤ制御手段は 、前記所定の階層の符号ィ匕手段のピッチゲインの大きさが、所定の閾値より大きい場 合には第 1のゲイン符号帳を利用して量子化を行い、前記閾値以下の場合には前記 第 1のゲイン符号帳よりもサイズが小さい第 2のゲイン符号帳を利用して量子化を行う ように、前記所定の階層よりも上位の階層の符号化手段における符号化方法を制御 する請求項 1に記載の符号化装置。
[9] 入力信号を n階層 (nは 2以上の整数)の符号ィ匕情報で符号ィ匕する符号ィ匕方法であ つて、 入力信号を符号化して第 1階層の符号ィ匕情報を生成する基本レイヤ符号ィ匕工程と 第 i階層 (iは 1以上 n— 1以下の整数)の符号ィ匕情報を復号化して第 i階層の復号ィ匕 信号を生成する第 i階層の復号化工程と、
前記入力信号と第 1階層の復号化信号との差分である第 1階層の差分信号ある 、 は第 (i— 1)階層の差分信号と第 i階層の復号ィ匕信号との差分である第 i階層の差分 信号を求める加算工程と、
第 i階層の差分信号を符号化して第 (i+ 1)階層の符号化情報を生成する第 (i+ 1) 階層の拡張レイヤ符号化工程と、
所定の階層の符号化パラメータに基づいて前記所定の階層よりも上位の階層にお ける符号化方法を制御する拡張レイヤ制御工程と、を具備する符号化方法。
コンピュータに、入力信号を n階層 (nは 2以上の整数)の符号化情報で符号化する 符号ィ匕方法を実行させるプログラムであって、
入力信号を符号化して第 1階層の符号ィ匕情報を生成する基本レイヤ符号ィ匕手順と 第 i階層 (iは 1以上 n— 1以下の整数)の符号ィ匕情報を復号化して第 i階層の復号ィ匕 信号を生成する第 i階層の復号ィ匕手順と、
前記入力信号と第 1階層の復号化信号との差分である第 1階層の差分信号ある 、 は第 (i— 1)階層の差分信号と第 i階層の復号ィ匕信号との差分である第 i階層の差分 信号を求める加算手順と、
第 i階層の差分信号を符号化して第 (i+ 1)階層の符号化情報を生成する第 (i+ 1) 階層の拡張レイヤ符号ィ匕手順と、
所定の階層の符号化パラメータに基づいて前記所定の階層よりも上位の階層にお ける符号化方法を制御する拡張レイヤ制御手順と、を具備するプログラム。
PCT/JP2007/054528 2006-03-10 2007-03-08 符号化装置および符号化方法 WO2007105586A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP07738019.4A EP1988544B1 (en) 2006-03-10 2007-03-08 Coding device and coding method
US12/282,287 US8306827B2 (en) 2006-03-10 2007-03-08 Coding device and coding method with high layer coding based on lower layer coding results
JP2008505088A JP5058152B2 (ja) 2006-03-10 2007-03-08 符号化装置および符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006-066771 2006-03-10
JP2006066771 2006-03-10
JP2007-032746 2007-02-13
JP2007032746 2007-02-13

Publications (1)

Publication Number Publication Date
WO2007105586A1 true WO2007105586A1 (ja) 2007-09-20

Family

ID=38509414

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/054528 WO2007105586A1 (ja) 2006-03-10 2007-03-08 符号化装置および符号化方法

Country Status (4)

Country Link
US (1) US8306827B2 (ja)
EP (1) EP1988544B1 (ja)
JP (1) JP5058152B2 (ja)
WO (1) WO2007105586A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2128857A1 (en) * 2007-03-02 2009-12-02 Panasonic Corporation Encoding device and encoding method
JP2011501828A (ja) * 2007-10-22 2011-01-13 クゥアルコム・インコーポレイテッド Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US20120093144A1 (en) * 2007-10-22 2012-04-19 Marie Line Alberi-Morel Optimized method of transmitting layered contents to mobile terminals and via a radio infrastructure with access procedure of tdm/tdma/ofdma type, and associated processing device
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP2013511054A (ja) * 2009-11-27 2013-03-28 ゼットティーイー コーポレーション 階層的オーディオ符号化、復号化方法及びシステム
JP5544371B2 (ja) * 2009-10-14 2014-07-09 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US10325609B2 (en) 2015-04-13 2019-06-18 Nippon Telegraph And Telephone Corporation Coding and decoding a sound signal by adapting coefficients transformable to linear predictive coefficients and/or adapting a code book
WO2022009505A1 (ja) * 2020-07-07 2022-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、及び、ハイブリッド符号化システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
ES2613693T3 (es) * 2008-05-09 2017-05-25 Nokia Technologies Oy Aparato de audio
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
IN2012DN05235A (ja) 2010-01-08 2015-10-23 Nippon Telegraph & Telephone
AU2011241424B2 (en) * 2010-04-14 2016-05-05 Voiceage Evs Llc Flexible and scalable combined innovation codebook for use in CELP coder and decoder
EP2395505A1 (en) * 2010-06-11 2011-12-14 Thomson Licensing Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer
WO2019017362A1 (ja) * 2017-07-20 2019-01-24 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127998A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
JPH11330977A (ja) * 1998-03-11 1999-11-30 Matsushita Electric Ind Co Ltd オ―ディオ信号符号化装置、オ―ディオ信号復号化装置、及び、オ―ディオ信号符号化・復号化装置
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP2004199064A (ja) * 2002-12-16 2004-07-15 Samsung Electronics Co Ltd ビット率を調節できるオーディオ符号化方法、復号方法、符号化装置及び復号装置
JP2004301954A (ja) * 2003-03-28 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005025203A (ja) * 2003-07-03 2005-01-27 Samsung Electronics Co Ltd 階層的な帯域幅構造を有する音声圧縮および復元装置、ならびにその方法
JP2005080063A (ja) 2003-09-02 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 多段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
JP2005316499A (ja) * 2005-05-20 2005-11-10 Oki Electric Ind Co Ltd 音声符号化装置
JP2006066771A (ja) 2004-08-30 2006-03-09 Toppan Printing Co Ltd ステンシルマスク用基板及びステンシルマスク並びにそれを用いた露光方法
JP2007032746A (ja) 2005-07-28 2007-02-08 Iseki & Co Ltd 静油圧式無段変速装置の制御操作装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
US6182031B1 (en) * 1998-09-15 2001-01-30 Intel Corp. Scalable audio coding system
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP3784583B2 (ja) * 1999-08-13 2006-06-14 沖電気工業株式会社 音声蓄積装置
DE69932460T2 (de) * 1999-09-14 2007-02-08 Fujitsu Ltd., Kawasaki Sprachkodierer/dekodierer
ATE419713T1 (de) 2001-11-29 2009-01-15 Panasonic Corp Verfahren zur beseitigung von kodierungsverzerrung und verfahren zur videokodierung und -dekodierung
PT2938071T (pt) 2001-11-29 2018-01-08 Godo Kaisha Ip Bridge 1 Método de remoção de distorção de codificação
US7283966B2 (en) * 2002-03-07 2007-10-16 Microsoft Corporation Scalable audio communications utilizing rate-distortion based end-to-end bit allocation
WO2003077235A1 (en) * 2002-03-12 2003-09-18 Nokia Corporation Efficient improvements in scalable audio coding
CN100346392C (zh) 2002-04-26 2007-10-31 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
CN100583241C (zh) * 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
EP1496500B1 (en) * 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
RU2387024C2 (ru) * 2004-11-05 2010-04-20 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
KR20070092240A (ko) 2004-12-27 2007-09-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127998A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
JPH11330977A (ja) * 1998-03-11 1999-11-30 Matsushita Electric Ind Co Ltd オ―ディオ信号符号化装置、オ―ディオ信号復号化装置、及び、オ―ディオ信号符号化・復号化装置
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP2004199064A (ja) * 2002-12-16 2004-07-15 Samsung Electronics Co Ltd ビット率を調節できるオーディオ符号化方法、復号方法、符号化装置及び復号装置
JP2004301954A (ja) * 2003-03-28 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005025203A (ja) * 2003-07-03 2005-01-27 Samsung Electronics Co Ltd 階層的な帯域幅構造を有する音声圧縮および復元装置、ならびにその方法
JP2005080063A (ja) 2003-09-02 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 多段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
JP2006066771A (ja) 2004-08-30 2006-03-09 Toppan Printing Co Ltd ステンシルマスク用基板及びステンシルマスク並びにそれを用いた露光方法
JP2005316499A (ja) * 2005-05-20 2005-11-10 Oki Electric Ind Co Ltd 音声符号化装置
JP2007032746A (ja) 2005-07-28 2007-02-08 Iseki & Co Ltd 静油圧式無段変速装置の制御操作装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1988544A4

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2128857A1 (en) * 2007-03-02 2009-12-02 Panasonic Corporation Encoding device and encoding method
EP2128857A4 (en) * 2007-03-02 2013-08-14 Panasonic Corp CODING DEVICE AND CODING METHOD
US8918315B2 (en) 2007-03-02 2014-12-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method and decoding method
US8934469B2 (en) * 2007-10-22 2015-01-13 Alcatel Lucent Optimized method of transmitting layered contents to mobile terminals and via a radio infrastructure with access procedure of TDM/TDMA/OFDMA type, and associated processing device
JP2011501828A (ja) * 2007-10-22 2011-01-13 クゥアルコム・インコーポレイテッド Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング
US20120093144A1 (en) * 2007-10-22 2012-04-19 Marie Line Alberi-Morel Optimized method of transmitting layered contents to mobile terminals and via a radio infrastructure with access procedure of tdm/tdma/ofdma type, and associated processing device
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US9009037B2 (en) 2009-10-14 2015-04-14 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
JP5544371B2 (ja) * 2009-10-14 2014-07-09 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP5544370B2 (ja) * 2009-10-14 2014-07-09 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP2013511054A (ja) * 2009-11-27 2013-03-28 ゼットティーイー コーポレーション 階層的オーディオ符号化、復号化方法及びシステム
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US9384749B2 (en) 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
US9741356B2 (en) 2011-09-09 2017-08-22 Panasonic Intellectual Property Corporation Of America Coding apparatus, decoding apparatus, and methods
US9886964B2 (en) 2011-09-09 2018-02-06 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, and methods
US10269367B2 (en) 2011-09-09 2019-04-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, and methods
US10629218B2 (en) 2011-09-09 2020-04-21 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, and methods
US10325609B2 (en) 2015-04-13 2019-06-18 Nippon Telegraph And Telephone Corporation Coding and decoding a sound signal by adapting coefficients transformable to linear predictive coefficients and/or adapting a code book
WO2022009505A1 (ja) * 2020-07-07 2022-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、及び、ハイブリッド符号化システム

Also Published As

Publication number Publication date
EP1988544A4 (en) 2012-09-19
JPWO2007105586A1 (ja) 2009-07-30
EP1988544A1 (en) 2008-11-05
US8306827B2 (en) 2012-11-06
US20090094024A1 (en) 2009-04-09
EP1988544B1 (en) 2014-12-24
JP5058152B2 (ja) 2012-10-24

Similar Documents

Publication Publication Date Title
JP5058152B2 (ja) 符号化装置および符号化方法
JP5328368B2 (ja) 符号化装置、復号装置、およびこれらの方法
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
CN101611442B (zh) 编码装置、解码装置以及其方法
EP2016583B1 (en) Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
WO2006030865A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置
WO2009113316A1 (ja) 符号化装置、復号装置およびこれらの方法
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
WO2007129728A1 (ja) 符号化装置及び符号化方法
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
JP5746974B2 (ja) 符号化装置、復号装置およびこれらの方法
JP4948401B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5236033B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2011045927A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07738019

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008505088

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12282287

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2007738019

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE