WO2005112005A1 - スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 - Google Patents

スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 Download PDF

Info

Publication number
WO2005112005A1
WO2005112005A1 PCT/JP2005/007438 JP2005007438W WO2005112005A1 WO 2005112005 A1 WO2005112005 A1 WO 2005112005A1 JP 2005007438 W JP2005007438 W JP 2005007438W WO 2005112005 A1 WO2005112005 A1 WO 2005112005A1
Authority
WO
WIPO (PCT)
Prior art keywords
lsp
wideband
band
scalable
quantized
Prior art date
Application number
PCT/JP2005/007438
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to BRPI0510303-7A priority Critical patent/BRPI0510303A/pt
Priority to EP05734658A priority patent/EP1755109B1/en
Priority to US11/587,379 priority patent/US8271272B2/en
Priority to JP2006513512A priority patent/JP4546464B2/ja
Priority to CN2005800131755A priority patent/CN1947174B/zh
Publication of WO2005112005A1 publication Critical patent/WO2005112005A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/38Synchronous or start-stop systems, e.g. for Baudot code
    • H04L25/40Transmitting circuits; Receiving circuits
    • H04L25/49Transmitting circuits; Receiving circuits using code conversion at the transmitter; using predistortion; using insertion of idle bits for obtaining a desired frequency spectrum; using three or more amplitude levels ; Baseband coding techniques specific to data transmission systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/20Repeater circuits; Relay circuits

Definitions

  • the present invention relates to a scalable encoding device, a scalable decoding device, and methods thereof.
  • the present invention relates to a scalable encoding apparatus, a scalable decoding apparatus, a scalable encoding method, and a scalable encoding apparatus used when performing voice communication in a mobile communication system or a packet communication system using the Internet protocol. And a scalable decoding method.
  • packets such as VoIP (Voice over IP) or the like
  • VoIP Voice over IP
  • packets may be discarded on a transmission path due to congestion or the like.
  • Patent Document 1 discloses a method in which core layer coding information and enhancement layer coding information are packed into separate packets and transmitted using scalable coding.
  • Another application of packet communication is multicast communication (one-to-many communication) using a network in which a thick line (broadband line) and a thin line (line with a low transmission rate) are mixed. Even when multipoint communication is performed on such an uneven network, it is not necessary to send different encoded information for each network if the encoded information is hierarchized corresponding to each network. Therefore, scalable coding is effective.
  • Patent Document 2 discloses a bandwidth scalable coding technique having scalability in a signal bandwidth, that is, a frequency axis direction.
  • Patent Document 2 discloses an example of a CELP system in which spectrum envelope information of a speech signal is represented by LSP (line spectrum pair) parameters.
  • LSP line spectrum pair
  • the LSP parameters (narrowband coded LSP) are converted to LSP parameters for wideband speech coding using the following (Equation 1), and the converted LSP parameters are converted to a wideband speech coding section (enhancement layer).
  • Equation 1 the quantum obtained by the coding layer
  • Equation 1 the converted LSP parameters are converted to a wideband speech coding section (enhancement layer).
  • fw (i) is the i-th LSP parameter of the wideband signal
  • fn (i) is the i-th LSP parameter of the narrowband signal
  • P is the LSP analysis order of the narrowband signal
  • P is the LSP of the wideband signal.
  • Patent Document 2 describes an example in which the sampling frequency is 8 kHz as a narrowband signal, the sampling frequency is 16 kHz as a wideband signal, and the broadband LSP analysis order is twice the narrowband LSP analysis order. Therefore, the conversion from the narrow-band LSP to the wide-band LSP can be performed by a simple equation as represented by (Equation 1). However, the position of the P-order LSP parameter on the lower order side of the broadband LSP is determined for the entire wideband signal including the (P-P) order on the higher order side. It does not correspond to the following LSP parameters.
  • Non-Patent Document 1 instead of setting the conversion coefficient by which the i-th order narrowband LSP parameter of (Equation 1) is multiplied by 0.5, the conversion coefficient is expressed by the following (Equation 2). There is disclosed a method of obtaining an optimum transform coefficient ⁇ G) for each order using a coefficient optimization algorithm.
  • fw_n (i) a (i) X L (i) + j8 (i) X fn-n (i)
  • fw_n (i) is the i-th broadband quantized LSP parameter in the n-th frame
  • a (i) XL (i) is the i-th element of the vector obtained by quantizing the prediction error signal (ex (i) is the i-th element
  • L (i) is the LSP prediction residual vector
  • ⁇ (i) is the weighting factor for the predicted wideband LSP
  • fn_n (i) is the narrowband LSP parameter in the nth frame.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2003-241799
  • Patent Document 2 JP-A-11-30997
  • Non-Patent Document 1 K. Koishida et al, "Enhancing MPEG-4 CELP by jointly optimized inter / intra-frame LSP predictors, IEEE Speech Coding Workshop 2000,
  • FIG. 1 shows a signal obtained by subjecting a wideband signal to band limitation, that is, a signal obtained by once down-sampling and then up-sampling a wide-band signal to return to the original sampling frequency.
  • FIG. 8 is a diagram showing an example of narrow-band LSP parameters obtained by performing the LSP analysis in FIG.
  • FIG. 2 shows a wideband signal corresponding to the narrowband LSP parameter shown in FIG.
  • FIG. 9 is a diagram showing an example of a broadband LSP parameter obtained by performing the LSP analysis in FIG.
  • the horizontal axis is time (analysis frame number)
  • the vertical axis is normalized frequency (1.0 is the Nyquist frequency, 8 kHz in the example in the figure).
  • This change is caused by a difference in frequency components (mainly high-frequency components) included in the wideband signal, not included in the narrowband signal.
  • FIG. 3 is a diagram showing ideal conversion coefficients when converting a narrowband LSP obtained for each order into a wideband LSP using the LSP data shown in FIGS. 1 and 2.
  • the coefficient is a value obtained by dividing the wideband LSP by the narrowband LSP
  • the horizontal axis is time (analysis frame number)
  • the order is shown as an example when the order is 0th, 4th, or 8th.
  • the ideal value of the conversion coefficient fluctuates with time. That is, the conversion factor when converting a narrowband LSP to a wideband LSP, or in other words, the ideal value of the conversion factor when predicting a wideband LSP from a narrowband LSP varies with time, Even if the conversion coefficient obtained by the design method shown in Non-Patent Document 1 is used, if the conversion coefficient is a fixed value, it is not possible to accurately represent an ideal conversion coefficient that fluctuates with time.
  • an object of the present invention is to improve the conversion performance from a narrowband LSP to a wideband LSP, that is, to improve the prediction accuracy when predicting a wideband LSP from a narrowband LSP, and to provide a high-performance band scalable LSP codec
  • An object of the present invention is to provide a scalable coding apparatus, a scalable decoding apparatus, a scalable coding method, and a scalable decoding method that can be realized.
  • a scalable encoding device is a scalable encoding device that generates a narrowband and a wideband quantized LSP parameter having scalability in the frequency axis direction from an input signal. Narrowing the LSP parameter, narrowband encoding means for generating a narrowband first quantization LSP parameter, conversion means for converting the frequency band of the first quantized LSP parameter into a wideband, Wideband encoding means for performing encoding of LSP parameters of a wideband input signal using the first quantized LSP parameters after conversion to a wideband to generate second quantized LSP parameters of a wideband; Based on the relationship between the first and second quantized LSP parameters generated in A calculating means for calculating a conversion coefficient used in the converting means.
  • the present invention it is possible to improve the conversion performance from a narrowband LSP to a wideband LSP and realize a high-performance band scalable LSP encoding.
  • FIG. 1 A diagram showing an example of LSP parameters in a narrow band.
  • FIG. 4 is a block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 1.
  • FIG. 5 is a block diagram showing a main configuration inside a wideband LSP coding apparatus according to Embodiment 1. 6] Block diagram showing main components inside transform coefficient calculating section according to Embodiment 1.
  • FIG. 7 is a block diagram showing a main configuration of a scalable decoding device according to the first embodiment.
  • FIG. 8 is a block diagram showing a main configuration inside a wideband LSP decoding device according to the first embodiment.
  • FIG. 10 is a block diagram showing a main configuration inside a wideband LSP decoding unit according to Embodiment 2.
  • FIG. 11 is a block diagram showing a main configuration inside a wideband LSP decoding unit according to Embodiment 2.
  • FIG. 12 A block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 3.
  • FIG. 13 A block diagram showing a main configuration inside a transform coefficient calculation unit according to Embodiment 3.
  • FIG. FIG. 15 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 3.
  • FIG. 15 A block diagram showing a main configuration of a scalable decoding device according to Embodiment 4.
  • FIG. 16 Embodiment 4.
  • FIG. 17 is a block diagram showing a main configuration of a scalable decoding device according to [FIG. 17] A block diagram showing a main configuration of a wideband LSP coding device according to Embodiment 5 [FIG. 18] Conversion according to Embodiment 5 Block diagram showing the main configuration of the coefficient calculator
  • FIG. 19 is a block diagram showing a main configuration of a scalable coding apparatus according to a fifth embodiment.
  • FIG. 20 is a block diagram showing a main configuration of a wideband LSP coding section according to the sixth embodiment.
  • FIG. 22 is a block diagram showing a main configuration of a wideband LSP encoding unit according to Embodiment 7. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 4 is a block diagram showing a main configuration of the scalable coding apparatus according to Embodiment 1 of the present invention.
  • Scalable coding apparatus includes down-sampling section 101, LSP analysis section (for narrowband) 102, narrowband LSP coding section 103, sound source coding section (for narrowband). 104, phase correction unit 105, LSP analysis unit (for wideband) 106, wideband LSP coding unit 107, excitation coding unit (for wideband) 108, transform coefficient calculation unit 109, upsampling unit 110, adder 111, And a multiplexing unit 112.
  • Each part of the scalable coding apparatus according to the present embodiment performs the following operation.
  • Down-sampling section 101 performs down-sampling processing on the input audio signal, and outputs a narrow-band signal to LSP analysis section (for narrow band) 102 and excitation codec section (for narrow band) 104.
  • the input audio signal is a digitized signal, and is subjected to preprocessing such as HPF and background noise suppression processing as necessary.
  • LSP analysis section (for narrow band) 102 calculates an LSP (line spectrum pair) parameter for the narrow band signal input from down sampling section 101, and outputs the result to narrow band LSP coding section 103. I do.
  • Narrowband LSP encoding section 103 encodes the narrowband LSP parameters input from LSP analysis section (for narrowband) 102 and converts the quantized narrowband LSP parameters to wideband LSP encoding section. 107, a transform coefficient calculating section 109, and an excitation coding section (for narrow band) 104. Further, narrowband LSP encoding section 103 outputs the encoded data to multiplexing section 112.
  • the excitation coding section (for narrowband) 104 converts the quantized narrowband LSP parameters input from the narrowband LSP coding section 103 into linear prediction coefficients, and obtains the obtained linear prediction coefficients.
  • a linear prediction synthesis filter is constructed using the coefficients.
  • Excitation coding section 104 calculates an auditory weighting error between the synthesized signal synthesized using the linear prediction synthesis filter and the narrowband input signal separately input from down-sampling section 101, The encoding of the excitation parameters that minimizes the target weighting error is performed.
  • the obtained encoded information is sent to the multiplexing unit 112. Is output.
  • excitation codec unit 104 generates a narrowband decoded audio signal and outputs it to upsample unit 110.
  • narrow-band LSP coding section 103 or excitation coding section (for narrow-band) 104 is a circuit generally used in CELP-type speech coding apparatus using LSP parameters.
  • the technology described in Patent Document 2 or ITU-T Recommendation G.729 can be used.
  • Up-sampling section 110 receives the narrow-band decoded speech signal synthesized by excitation coding section 104, performs up-sampling processing, and outputs the result to adder 111.
  • Adder 111 receives as input the phase-corrected input signal from phase corrector 105 and the narrowband decoded speech signal upsampled from upsampler 110, and obtains a difference signal between the two signals to generate a sound signal. Output to encoder (for wideband) 108.
  • the phase correction section 105 is for correcting a phase shift (delay) generated in the down-sample section 101 and the up-sample section 110, and the down-sample processing and the up-sample processing perform linear phase low-pass.
  • the input signal is delayed by the delay caused by the linear phase low-pass filter, and the LSP analysis unit (for wide band) 106 and the adder 111 are used.
  • LSP analysis section (for wideband) 106 receives a wideband signal output from phase correction section 105, performs a known LSP analysis, and outputs wideband LSP parameters obtained to wideband LSP encoding section 107. I do.
  • Transform coefficient calculating section 109 includes a narrowband quantized LSP previously output from narrowband LSP encoding section 103 and a wideband quantized LSP previously output from wideband LSP encoding section 107. , And transform coefficients are obtained and output to the wideband LSP encoding unit 107.
  • the wideband LSP encoding unit 107 converts the narrowband quantized LSP input from the narrowband LSP encoding unit 103 by the transform coefficient input from the transform coefficient calculation unit 109 to convert to a wideband LSP. Then, the predicted wideband LSP is obtained by multiplying the wideband LSP by a weighting factor. Then, the error signal between the wideband LSP input from the LSP analysis unit (for wideband) 106 and the predicted wideband LSP obtained is coded using a method such as Bezel quantization, and the amount of wideband obtained is obtained. The child LSP is output to the excitation codec shading unit (for wideband) 108.
  • the quantized LSP is It is expressed as (Equation 3) below.
  • fw_n (i) a (i) X L (i) + j8 (i) X
  • fw_n (i) is the i-th broadband quantized LSP parameter in the n-th frame
  • a (i) XL (i) is the i-th element of the vector obtained by quantizing the prediction error signal (ex (i) is the i-th element
  • L (i) is the LSP prediction residual vector
  • ⁇ (i) is the weighting factor for the predicted wideband LSP
  • fw_n—1 (i) is the wideband quantization LSP parameter in the (n ⁇ 1) th frame
  • fn n-1 (i) is a narrowband quantized LSP parameter in the (n1) th frame
  • fn_n (i) is a narrowband LSP parameter in the nth frame.
  • wideband LSP encoding section 107 outputs the obtained code information to multiplexing section 112.
  • the weighting factor a (i) by which the above LSP prediction residual vector is multiplied may be a fixed value of 1.0, a constant obtained by separate learning, or a plurality of values obtained by separate learning. You may prepare the coefficients as a codebook and select one from them.
  • Excitation coding section (for wideband) 108 converts the quantized wideband LSP parameters input from wideband LSP coding section 107 into linear prediction coefficients, and uses the obtained linear prediction coefficients. To construct a linear prediction synthesis filter. Then, an auditory weighting error between the synthesized signal synthesized using the linear predictive synthesis filter and the phase-corrected input signal is determined, and a sound source parameter that minimizes the auditory weighting error is determined.
  • excitation signal encoding unit 108 separately receives an error signal between the wideband input signal and the narrowband decoded signal after up-sampling from adder 111, and outputs this error signal and excitation code encoding unit 108 An error with respect to the decoded signal generated in step (1) is obtained, and the sound source parameters are determined so that the one obtained by applying the auditory weighting to this error is minimized.
  • the obtained code information of the excitation parameter is output to multiplexing section 112.
  • this sound source encoding for example, “K. Koishiaa et al, ⁇ lo—koit / s oandwidth scalable audio coder based on the ./9 standard,” IEEE Proc. ICASSP 2000, pp.1149-1152, 2000 Is disclosed.
  • the multiplexing section 112 receives narrowband LSP encoding information from the narrowband LSP encoding section 103, and the excitation encoding section (for narrowband) 104 outputs the excitation code of the narrowband signal from the excitation encoding section (for narrowband) 104.
  • the information is transmitted from the wideband LSP encoding unit 107 to the wideband LSP encoding information. From), the excitation code information of the wideband signal is input.
  • the multiplexing unit 112 multiplexes these pieces of information and sends them out as a bit stream to the transmission path. Note that the bit stream is framed or packetized into a transmission channel frame according to the specifications of the transmission path. Also, in order to increase the resistance to transmission line errors, error protection and error detection codes are added, and interleave processing is applied.
  • FIG. 5 is a block diagram showing a main configuration inside broadband LSP coding section 107 described above.
  • the wideband LSP encoding section 107 includes an error minimizing section 121, an LSP codebook 122, a weighting factor codebook 123, amplifiers 124 to 126, and adders 127 and 128.
  • the adder 127 calculates an error between the LSP parameter serving as a quantization target input from the LSP analysis unit 106 and a quantized LSP parameter candidate input from the adder 128, and calculates the obtained error. Is output to the error minimizing section 121.
  • the error calculation may be a square error between the input LSP vectors. Also, if weighting is performed according to the characteristics of the input LSP vector, the quality of the audibility can be further improved. For example, in ITU-T Recommendation G.729, error minimization is performed using the weighted square error (weighted Euclidean distance) of Equation (21) in Chapter 3.2.4 (Quantization of the LSP coefficients).
  • Error minimizing section 121 selects an LSP vector and a weight coefficient vector that minimize the error output from adder 127 from among LSP codebook 122 and weight coefficient codebook 123, respectively.
  • the corresponding index is encoded and output to the multiplexing unit 112 (S1 Do
  • LSP codebook 122 outputs the stored LSP vector to amplifier 124.
  • the LSP vector stored in the LSP codebook 122 is the LSP vector of the wideband LSP predicted based on the narrowband quantized LSP output from the amplifier 125 (the wideband LSP input from the LSP analysis unit 106). Is the prediction residual vector).
  • the weighting coefficient codebook 123 selects one set from the stored weighting coefficient sets, and the weight of the selected weighting coefficient set also determines the coefficient for the amplifier 124 and the coefficient for the amplifier 125 as an amplifier 124 And output to 125. It should be noted that this weighting factor set also includes the weighting factor power prepared for each of the LSP orders for each of the amplifiers 124 and 125.
  • the amplifier 124 multiplies the LSP vector input from the LSP codebook 122 by the weight coefficient for the amplifier 124 output from the weight coefficient codebook 123, and outputs the result to the adder 128.
  • the amplifier 125 converts the vector of the wideband LSP input from the amplifier 126, that is, the vector of the wideband LSP obtained by converting the narrowband LSP after quantization into an amplifier output from the weight coefficient codebook 123. The result is multiplied by the weighting coefficient for 125 and output to the adder 128.
  • Adder 128 calculates the sum of the LSP vectors output from amplifiers 124 and 125, and outputs the sum to adder 127.
  • the sum of the LSP vectors determined by error minimizing section 121 to minimize the error is output to excitation code converting section 108 and transform coefficient calculating section 109 as a wideband quantized LSP parameter.
  • the LSP parameter output as a wideband quantized LSP parameter is a stable condition (if the nth LSP is larger than the 0th to (n ⁇ 1) th LSPs, that is, the LSP is the order If the value does not satisfy the order, the adder 128 operates to satisfy the stability condition of the LSP.
  • the operation is generally performed so as to be longer than the predetermined interval.
  • Amplifier 126 multiplies the LSP parameter input from narrowband LSP encoding section 103 by the coefficient input from transform coefficient calculation section 109, and outputs the result to amplifier 125.
  • the LSP parameter input from narrowband LSP encoding unit 103 to amplifier 126 may be the quantization result of narrowband LSP encoding unit 103 as it is, but may be upsampled to obtain the sampling frequency of the wideband signal. It is even better to match with the order of the wideband LSP.
  • an up-sampling method an impulse response of an LPC synthesis filter that can obtain a narrow-band LSP force is up-sampled, an auto-correlation is obtained from the up-sampled impulse response (for example, see Patent Document 2), A method of converting a number into an LSP of a desired order by a known method, and the like are not limited to this.
  • FIG. 6 is a block diagram showing a main configuration inside transform coefficient calculating section 109 shown in FIG.
  • the transform coefficient calculation unit 109 includes delay units 131 and 132, a divider 133, a limiter 134, and a smoothing unit 135.
  • the delay unit 131 converts the narrowband LSP parameters input from the narrowband LSP encoding unit 103 into It is delayed by one processing unit time (the LSP parameter update cycle) and output to the divider 133.
  • the narrow-band LSP input from the narrow-band LSP encoding unit 103 may be the parameter narrow-band LSP as it is, but it is more preferable to up-sample and equalize the order.
  • Delay unit 132 delays the wideband LSP parameter input from wideband LSP encoding unit 107 by one processing unit time (the update period of the LSP parameter), and outputs the result to divider 133.
  • Divider 133 combines the wideband LSP parameter quantized one processing unit time before input from delay unit 132 with the narrow band LSP parameter quantized one processing unit time before input from delay unit 131. Divide by the band LSP parameter and output the result of the division to the limiter 134. If the order of the narrowband LSP parameter output from the delay unit 131 is different from the order of the wideband LSP meter output from the delay unit 132, only the smaller order (usually the order of the narrowband LSP parameter) Performs division and outputs.
  • the limiter 134 clips the division result input from the divider 133 with a preset upper limit value and lower limit value (when the limit value is exceeded, the limit value is reset to the upper limit value, and when the value falls below the lower limit value, The processing is reset to the lower limit, and the result is output to the smoothing unit 135.
  • the upper limit value and the lower limit value may be the same for all orders, but it is more preferable to set an optimum value for each order.
  • Smoothing unit 135 temporally smoothes the division result after clipping input from limiter 134, and outputs the result to wideband LSP encoding unit 107 as a transform coefficient. This smoothing process can be realized, for example, by using the following (Equation 4).
  • X (i) is a transform coefficient applied to the i-th narrowband LSP parameter in the n-th processing unit time
  • K is a smoothing coefficient and takes a value of 0 ⁇ K ⁇ 1
  • ⁇ (i) is the result of dividing the i-th order LSP parameter output from the limiter 134.
  • FIG. 7 is a block diagram showing a main configuration of a scalable decoding device that decodes encoded information encoded by the scalable encoding device.
  • This scalable decoding device includes a demultiplexing unit 151, a sound source decoding unit (for narrow band) 152. , Narrowband LSP decoding unit 153, sound source decoding unit (for wideband) 154, transform coefficient calculation unit 155, wideband LSP decoding unit 156, speech synthesis unit (for narrowband) 157, speech synthesis unit (for wideband) 158, an up-sampling section 159, and an adder 160.
  • Demultiplexing section 151 receives the coded information coded by the scalable coding apparatus described above, separates the coded information into coding information for each parameter, and converts the narrowband excitation coding information into the excitation decoding section (narrowband).
  • Band 152 the narrowband LSP coding information to the narrowband LSP decoding unit 153, the wideband excitation coding information to the excitation decoding unit (for wideband) 154, and the wideband LSP coding information to the wideband LSP.
  • Output to the decryption unit 156 respectively.
  • the excitation decoding section (for narrowband) 152 converts the encoded information of the narrowband excitation signal input from the demultiplexing section 151 into an excitation encoding section (for narrowband) of the above scalable encoding apparatus. Decoding is performed using the reverse of the processing performed in step 104, and the quantized narrow-band sound source signal is output to the voice synthesizer (for narrow-band) 157.
  • Narrowband LSP decoding section 153 performs encoding of narrowband LSP input from demultiplexing section 151 in narrowband LSP coding section 103 of the above scalable coding apparatus. Decoding is performed by the reverse of the processing, and the resulting narrowband quantized LSP is output to a speech synthesis unit (for narrowband) 157, a transform coefficient calculation unit 155, and a wideband LSP decoding unit 156.
  • Speech synthesis section (for narrowband) 157 converts the quantized narrowband LSP parameters input from narrowband LSP decoding section 153 into linear prediction coefficients, and converts the obtained linear prediction coefficients. To construct a linear prediction synthesis filter.
  • the speech synthesis section (for narrow band) 157 drives this linear prediction synthesis filter with the narrow band quantized excitation signal input from the sound source decoding section (for narrow band) 152 to synthesize a decoded speech signal, Output as a narrowband decoded audio signal.
  • This narrow-band decoded audio signal is output to up-sampling section 159 to obtain a wide-band decoded audio signal. Note that this narrowband decoded audio signal may be used as it is as a final output. When the narrow-band decoded audio signal is used as the final output as it is, it is common to output it after performing post-processing such as a post-filter to improve subjective quality.
  • Up-sampling section 159 performs up-sampling processing on the narrow-band audio signal input from speech synthesizing section (for narrow band) 157, and outputs the result to adder 160.
  • Excitation decoding section (for wideband) 154 converts encoded information of the wideband excitation signal input from demultiplexing section 151 into excitation coding section (for wideband) 108 of the above-described scalable encoding apparatus. Decoding is performed by a process reverse to the performed process, and the obtained wideband quantized excitation signal is output to a voice synthesis unit (for wideband) 158.
  • Transform coefficient calculating section 155 includes a narrowband quantized LSP previously input from narrowband LSP decoding section 153, and a wideband quantized LSP previously input from wideband LSP decoding section 156. , And transform coefficients are obtained and output to the wideband LSP decoding unit 156.
  • Wideband LSP decoding section 156 multiplies the narrow-band quantized LSP input from narrow-band LSP decoding section 153 by a transform coefficient input from transform coefficient calculating section 155 to convert to a wideband LSP. Then, the predicted wideband LSP is obtained by multiplying the wideband LSP by a weighting factor. Note that the weighting factor uses the same value as the weighting factor used in the wideband LSP coding unit 107 of the scalable coding device. Also, the wideband LSP decoding unit 156, based on the wideband LSP coding information input from the demultiplexing unit 151, quantizes the wideband LSP prediction residual (input wideband LSP on the coding side and the prediction Decoding error from the wideband LSP).
  • wideband LSP decoding section 156 adds the quantized wideband LSP prediction residual and the predicted wideband LSP already obtained above to decode the wideband quantized LSP.
  • the obtained broadband quantized LSP parameters are output to speech synthesis section (for wideband) 158 and transform coefficient calculation section 155.
  • Speech synthesis section (for wideband) 158 converts the quantized wideband LSP parameters input from wideband LSP decoding section 156 into linear prediction coefficients, and performs linear prediction synthesis using the obtained linear prediction coefficients. Build a filter.
  • the speech synthesis section (for wideband) 158 drives this linear predictive synthesis filter with the wideband quantized sound source signal input from the sound source decoding section (for wideband) 154 and decodes the wideband decoded speech signal (mainly high-frequency component). ) And outputs the result to adder 160.
  • Adder 160 includes a narrow-band decoded speech signal after up-sampling input from up-sampling section 159 and a wide-band decoded speech signal (mainly high-frequency component) input from speech synthesis section (for wide band) 158. , And outputs the final wideband decoded audio signal.
  • a narrow-band decoded speech signal after up-sampling input from up-sampling section 159 and a wide-band decoded speech signal (mainly high-frequency component) input from speech synthesis section (for wide band) 158. , And outputs the final wideband decoded audio signal.
  • FIG. 8 is a block diagram showing a main configuration inside broadband LSP decoding section 156 described above.
  • the wideband LSP decoding section 156 includes an index decoding section 161, an LSP codebook 162, a weight coefficient codebook 163, amplifiers 164 to 166, and an adder 167.
  • Index decoding section 161 obtains the wideband LSP encoding information from demultiplexing section 151, decodes the index information for LSP codebook 162 and weighting factor codebook 163, and decomposes each piece of index information. Output to codebook.
  • LSP codebook 162 acquires an LSP codebook index from index decoding section 161, extracts an LSP vector specified by the index from the codebook, and outputs the LSP vector to amplifier 164. If the codebook power is an S-split type or has a multi-stage configuration, a plurality of subcodebook powers are also extracted to generate an LSP vector.
  • the weighting factor codebook 163 acquires the weighting factor codebook index from the index decoding unit 161, extracts a weighting factor set specified by the index from the codebook card, and extracts the amplifier 164 from the extracted factor set.
  • Coefficient subset (for the LSP codebook) (a coefficient power that multiplies each order of the LSP vector) to the amplifier 164, and a coefficient subset for the amplifier 165 (for the narrowband LSP) (coefficient to multiply each order of the predicted wideband LSP vector) Output to the amplifier 165, respectively.
  • the amplifier 164 multiplies the LSP vector input from the LSP codebook 162 by the weight coefficient for the amplifier 164 input from the weight coefficient codebook 163, and outputs the result to the adder 167.
  • the amplifier 165 multiplies the vector of the wideband LSP converted from the quantized narrowband LSP input from the amplifier 166 by the weight coefficient for the amplifier 165 input from the weight coefficient codebook 163. Output to adder 167.
  • the calo calculator 167 calculates the sum of the LSP vectors input from the amplifiers 164 and 165, and as a quantized (decoded) wideband LSP parameter, a speech synthesis unit (for wideband) 158 and a transform coefficient calculation unit Output to 155. If the LSP parameter output as a wideband quantized LSP parameter does not satisfy the stability condition, that is, if the n-th LSP is in the 0th to (n ⁇ 1) th If it is smaller than the LSP (when the LSP does not increase in the order of the order), perform operations to satisfy the stability condition of the LSP. Note that even when the interval between adjacent quantized LSPs is smaller than the predetermined interval, the interval will be longer than the predetermined interval. Operate as follows.
  • transform coefficient calculating section 155 shown in FIG. 7 is basically the same as that of transform coefficient calculating section 109 shown in FIG. Therefore, although detailed description is omitted, the input to the delay unit 131 in the transform coefficient calculation unit 155 is from the narrowband LSP decoding unit 153, and the input to the delay unit 132 is from the wideband LSP decoding unit 156. The point that the output of the smoothing unit 135 is sent to the wideband LSP decoding unit 156 is different from the transform coefficient calculating unit 109 shown in FIG.
  • transform coefficient calculation section 109 uses a narrowband and wideband quantized LSP norameter encoded in a past frame (for example, the immediately preceding frame or the like). Then, an approximate value of the ideal transform coefficient in the past frame is obtained, and the transform coefficient to the narrowband quantized LSP force in the current frame is determined based on the approximate value. Specifically, the approximate value of the ideal transform coefficient is obtained by dividing the wideband quantized LSP of the past frame by the narrowband quantized LSP of the same frame.
  • the conversion coefficient when estimating the narrowband LSP parameter power by multiplying the wideband LSP parameter by the conversion coefficient XG), the conversion coefficient is adaptively determined for each frame by utilizing the relationship between the past narrowband LSP parameter and the wideband LSP parameter. To determine. Therefore, the conversion coefficient changes over time. By employing this configuration, it is possible to improve the prediction accuracy when predicting a wideband LSP from a narrowband LSP.
  • the above transform coefficient can be calculated only from the narrowband and wideband quantized LSP parameters in the past frame, for example, information is separately transmitted from the encoding side on the decoding side. No need to get. That is, it is possible to improve the encoding performance of wideband LSP parameters without increasing the transmission rate of communication.
  • the above-mentioned transform coefficients can be directly obtained by a predetermined calculation of the narrow-band and wide-band LSP parameter forces in the past frame. You don't need to keep it.
  • the limiter 134 in the conversion coefficient calculation unit 109 sets the conversion coefficient to, for example, about 10% above and below the average value so that the calculated conversion coefficient does not become an extreme value.
  • the restrictions that can be kept within the limit are obtained. For example, when the voice mode switches from voiced mode to unvoiced mode or unvoiced mode to voiced mode, the LSP parameter fluctuates greatly, and the calculated conversion coefficient also fluctuates to a reasonable value. Sometimes . If the transform coefficient fluctuates greatly in a short period of time, the prediction using the LSP ratio of the wideband Z narrowband of the previous frame becomes ineffective, and works in the direction of increasing the error.
  • the power of the LSP codebook trying to correct such a large error is to provide such a large error and vector in the codebook, so that the prediction error is small and the error in the case increases. Will be.
  • the relationship between the transform coefficient and the LSP codebook falls into a kind of oscillation state, and it is necessary to adopt a configuration that can balance the two well so that this does not occur.
  • a conversion coefficient is obtained for all frames according to the above-described arithmetic expression.
  • the conversion coefficient is provided with an upper limit and a lower limit, and the calculated conversion coefficient If not, make the correction so that the conversion factor falls within this range.
  • the conversion coefficient actually used for the conversion can be set to a value within a certain range, so that the continuity (or quasi-stationarity) of the conversion coefficient is guaranteed, and the oscillation state does not occur.
  • the prediction ability due to the transform coefficient is limited, and the prediction error may increase.However, if the range is limited to the vicinity of the “fixed value” when the transform coefficient is a fixed value, the prediction error fixes the transform coefficient.
  • the approximate value of the transform coefficient is obtained by dividing the wideband quantized LSP of the immediately preceding frame by the narrowband quantized LSP of the immediately preceding frame.
  • the transform coefficient used in the current frame is obtained by dividing the approximate value by the average transform coefficient. Neighboring (for example, a range of about 10% before and after or a range of about standard deviation of the conversion coefficient).
  • the above-described conversion coefficient is subjected to the smoothing processing between the analysis frames (between the preceding and succeeding frames) so as to fluctuate gradually with time. For this reason, the conversion coefficient changes gently with respect to changes in the LSP parameter, and can be prevented from being excessively sensitive to a transmission path error. Further, since the value of the transform coefficient is stable, the design of the corresponding LSP code vector codebook becomes easy. The predicted value of the quantized LSP is And the LSP code vector, if one of the parameters goes out of control, the other goes out of control, the relationship between them diverges (the above-mentioned oscillation state), and a codebook with good performance can be designed. It is because it disappears. With the above configuration, for example, the SD performance can be improved by 0.05 dB. Note that the amount of improvement depends on the number of quantization bits and the frame length.
  • the present invention is also applicable when using an MA predictor.
  • the MA prediction coefficient is stored in the weight coefficient codebook 163, and the number of dimensions of the weight coefficient vector is increased by the MA prediction order.
  • transform coefficient calculating section 109 includes both limiter 134 and smoothing section 135, but the configuration is such that only one of them is provided. May be.
  • the conversion coefficient when the calculated conversion coefficient fluctuates greatly, the conversion coefficient is corrected to be within a certain range, whereby the prediction when predicting the wideband LSP from the narrowband LSP is performed stably. It was made to be.
  • the LSP parameter fluctuates by paying attention to the quantized LSP parameter and observing a change in the quantized LSP parameter! Judgment is made, and the conversion coefficient used for conversion is switched.
  • a narrow-band quantized LSP parameter obtained by a narrow-band LSP coding unit on the encoding side or a narrow-band LSP decoding unit on the decoding side.
  • the stationary mode is determined when the LSP parameter fluctuates, and when the quantized LSP parameter of the narrow band fluctuates, the mode is determined to be the unsteady mode.
  • the code book and the weight coefficient code book are switched and used. That is, in the steady mode, adaptive control is performed by calculating the conversion coefficient for each frame in accordance with the above equation (Equation 2), whereas in the unsteady mode, the above equation (Equation 3) is used. , Set the conversion coefficient to a fixed or semi-fixed value.
  • the semi-fixed value means that a plurality of conversion coefficients are set in advance, and the conversion coefficients are switched according to the coding result (sound quality) of the audio signal.
  • the conversion coefficients are switched according to the coding result (sound quality) of the audio signal.
  • the basic configuration of the scalable coding apparatus according to Embodiment 2 of the present invention is the same as that of the scalable coding apparatus according to Embodiment 1. Therefore, detailed description of the scalable coding apparatus according to the present embodiment will be omitted, and transform coefficient calculating section 109a and wideband LSP coding section 107a having different configurations will be described in detail below. The same components are denoted by the same reference numerals, and description thereof will be omitted.
  • FIG. 9 is a block diagram showing a main configuration inside transform coefficient calculating section 109a.
  • the conversion coefficient calculation unit 109a includes a mode determination unit 201, a coefficient table 202, and a switching switch 203, instead of the limiter 134.
  • the conversion coefficient calculation unit 109a uses the calculated conversion coefficient and the conversion coefficient stored in the coefficient table in advance according to the mode determination result of the mode determination unit 201.
  • the mode determination unit 201 includes the narrow-band quantization LSP input from the narrow-band LSP encoding unit 103, and the narrow-band quantization LSP output by the delay unit 131, which is quantized one processing unit time ago.
  • the distance (change amount) from the LSP is calculated, and whether the mode is the stationary mode or the non-stationary mode is determined based on the calculated distance. For example, when the calculated distance is equal to or less than a preset threshold, the mode is determined to be the steady mode, and when the calculated distance exceeds the threshold, the mode is determined to be the non-stationary mode.
  • the result of the determination is output to wideband LSP encoding section 107a and switching switch 203. Note that the calculated distance may be used as it is for threshold determination, or may be used for threshold determination after smoothing between frames.
  • switch 203 When the determination result of mode determination section 201 is the steady mode, switch 203 outputs the transform coefficient output from smoothing section 135 to wideband LSP coding section 107a.
  • the determination result of the determination unit 201 is the non-stationary mode, switching is performed so as to output the transform coefficients stored in the coefficient table to the wideband LSP coding unit 107a.
  • Fig. 10 is a block diagram showing a main configuration inside wideband LSP coding section 107a.
  • the LSP codebook and the weighting factor codebook are each composed of sub-codebooks for the number of modes (here, two) (LSP codebooks 222-1 and 222-2, weighting factor codebook). 223-1, 223-2), and the switching switches 224, 225 select one of the sub-codebooks based on the mode information input from the mode determining unit 201.
  • the basic configuration of the scalable decoding device according to the second embodiment of the present invention is the same as that of the scalable decoding device according to the first embodiment. Therefore, detailed description will be omitted, and the following description will be given of the transform coefficient calculating section 155a and the wideband LSP decoding section 156a having different configurations. Note that the same components are denoted by the same reference numerals, and description thereof will be omitted.
  • transform coefficient calculating section 155a The internal configuration of transform coefficient calculating section 155a is basically the same as that of transform coefficient calculating section 109a shown in FIG. Therefore, the input to the delay unit 131 is from the narrowband LSP decoding unit 153, the input to the delay unit 132 is from the wideband LSP decoding unit 156a, and the output of the smoothing unit 135 is It is different from the transform coefficient calculating unit 109a shown in FIG. 9 in that the conversion to the wideband LSP decoding unit 156a is performed. In addition, the numbering of the mode determination unit is 251 for the sake of convenience to distinguish it from the mode determination unit 201 on the encoding side.
  • FIG. 11 is a block diagram showing a main configuration inside wideband LSP decoding section 156a.
  • the LSP codebook and the weighting factor codebook are each composed of sub-codebooks for the number of modes (here, two) (LSP codebooks 262-1, 262-2, and weighting factor codebook). 263-1, 2 63-2), and the switching switches 264 and 265 select one of the sub-codebooks based on the mode information input from the mode determination unit 251.
  • the continuity of the input unquantized wideband LSP or the narrowband LSP quantized in the current frame is determined, and the stationary state (inter-frame The calculated conversion coefficient is selectively used only when it is determined that the variation is small, and the conversion coefficient separately stored in the table is determined when it is determined to be unsteady (the variation between frames is large). Used. In other words, the calculated conversion coefficient and the conversion coefficient designed in advance and stored in the table are switched based on the stationarity of the LSP parameter. [0100] By employing the above configuration, it is possible to improve the prediction accuracy when predicting a wideband LSP from a narrowband LSP.
  • the decoding side can determine the variation of the LSP parameter without transmitting the mode information from the encoding side. Since there is no need to transmit mode information from the encoding side, resources of the communication system are not consumed.
  • a change in the quantized LSP parameter in a narrow band is observed, and the presence or absence of a change in the LSP parameter is determined (mode determination).
  • mode determination the presence or absence of a change in the LSP parameter is determined.
  • the narrow-band quantized LSP parameters may fluctuate.
  • decoding of the current frame is performed based on the result of the past mode determination, so that in the method of Embodiment 2, if the past mode determination is incorrect, The error propagates to subsequent processing.
  • the encoding side newly installs a mode determination unit that performs mode determination using wideband LSP parameters, and transmits the obtained mode determination result to the decoding side.
  • the decoding side newly installs a mode decoding unit for decoding the mode determination result.
  • FIG. 12 is a block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 3 of the present invention. Note that this scalable coding device has the same basic configuration as the scalable coding device shown in Embodiment 1 (see FIG. 4), and the same components have the same codes. And a description thereof will be omitted.
  • the mode determining unit 301 basically performs the same operation as the mode determining unit 201 (251) shown in the second embodiment. That is, the distance between the LSP parameter delayed by one processing unit time and the current LSP parameter is calculated, and the steady mode is set when the distance is equal to or less than a predetermined threshold. Judge as the steady mode.
  • this embodiment differs from the second embodiment in that the input information used is a wideband LSP parameter output from LSP analysis section (for wideband) 106.
  • the determination result of the mode determination unit 301 is a conversion coefficient
  • the information is output to calculation section 109b and wideband LSP encoding section 107a, and the encoding information of the mode information is output to multiplexing section 112.
  • the wideband LSP coding unit 107a has already been described in the second embodiment.
  • mode determination section 301 determines stationary Z non-stationary using wideband LSP parameters that are not encoded information (quantized LSP parameters). It is possible to cope with a signal having a large fluctuation in
  • mode determination section 301 multiplexes the obtained mode result together with other encoding parameters and transmits the result to the decoding side. In this way, since the mode information is transmitted to the decoding side, even if the decoding side makes a mistake in determining the mode information once, the next mode information is transmitted in the succeeding frame. The influence of the decision error is not propagated, and the transmission path error tolerance is improved.
  • FIG. 13 is a block diagram showing a main configuration inside transform coefficient calculating section 109b.
  • the transform coefficient calculating section 109b has the same basic configuration as the transform coefficient calculating section 109a of the second embodiment shown in FIG. 9, and only different points will be described below.
  • the conversion coefficient calculation unit 109b does not include a mode determination unit inside, and inputs only the mode determination result from the outside. Then, conversion coefficient calculating section 109b switches the switch according to the input mode determination result. Specifically, in the steady mode, the switching switch 203 is switched so that the transform coefficient output from the smoothing unit 135 is output to the wideband LSP encoding unit 107a. In the non-stationary mode, the switching switch 203 is switched so that a transform coefficient designed in advance by offline learning or the like is output from the coefficient table 202 to the wideband LSP encoding unit 107a.
  • FIG. 14 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 3 of the present invention.
  • This scalable decoding device also has the same basic configuration as scalable decoding device shown in Embodiment 1 (see FIG. 7), and the same components are denoted by the same reference numerals. The description is omitted.
  • the difference from the scalable decoding device shown in the first embodiment is that the scalable decoding device has a new mode decoding unit 351 and decodes the output information of the mode determining unit 301 of the scalable coding device according to the present embodiment.
  • the decoded information is converted by the transform coefficient calculation unit 155b and And output to the wideband LSP decoding unit 156a.
  • the transform coefficient calculating section 155b has the same basic configuration as the transform coefficient calculating section 109b on the encoding side (see FIG. 13).
  • mode determination may be performed based on the conversion gain of the conversion coefficient.
  • the conversion gain of this conversion coefficient indicates how close the ⁇ wideband quantization LSP / narrowband quantization LS PJ ratio '' of the previous frame is to the ⁇ input wideband LSP / narrowband quantization LSP '' ratio of the current frame. .
  • a feature of this embodiment is that the mode information is not transmitted to the decoding side by the encoding side, and the mode determination is performed by the narrowband LSP encoding section on the encoding side or the narrow band LSP encoding section on the decoding side. This is done inside the department.
  • FIG. 15 is a block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 4 of the present invention. Note that this scalable coding device has the same basic configuration as the scalable coding device shown in Embodiment 3 (see FIG. 12), and the same components have the same reference characters. And description thereof is omitted.
  • narrow-band LSP coding section 103c performs multi-mode coding
  • transform coefficient calculating section 109b uses the mode information (S41). Mode switching and mode switching of the wideband LSP encoding unit 107a.
  • FIG. 16 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 4 of the present invention. Note that this scalable decoding device also has the same basic configuration as scalable decoding device shown in Embodiment 3 (see FIG. 14), and the same components are denoted by the same reference numerals. And description thereof is omitted.
  • narrowband LSP decoding device 153c is provided with a mode information decoding function. That is, narrowband LSP decoding section 153c performs multimode decoding, and outputs the mode information (S42) to transform coefficient calculating section 155b and wideband LSP decoding section 156a.
  • the transform coefficient calculation unit 155b and the wideband LSP decoding unit 156a perform mode switching using the mode information (S42) input from the narrowband LSP decoding unit 153c.
  • the mode of the wideband LSP encoding is switched using the mode information of the narrowband LSP encoded information, so that the wideband LSP encoding section can be switched without additional bits.
  • the mode of the wideband LSP decoding unit or the transform coefficient unit can be switched. Also, since the mode information is transmitted, even if there is a transmission path error, it is possible to prevent the influence of the error from propagating to subsequent frames.
  • mode determination is performed prior to LSP quantization, and the codebook to be searched is switched based on the mode determination result. That is, since the mode determination is performed in an open loop before quantization, the mode that minimizes the quantization error is not always selected.
  • the mode determination according to the third embodiment is performed based on the LSP parameters before quantization. However, even though the LSP parameters before quantization fluctuate, the mode determination is not necessarily performed. The LSP parameters after quantization do not always fluctuate, and just because the LSP parameters before quantization are stationary does not mean that the LSP parameters after quantization are necessarily stationary.
  • the mode is not determined by the open loop, but by the closed loop.
  • Perform mode determination That is, if there are two or more modes in the stationary mode Z non-stationary mode, codebook search is actually performed in all modes, and the quantization error (quantization distortion) is determined based on the result. Select the mode to minimize.
  • the wideband LSP coding unit a mode in which the transform coefficient is obtained and the wideband LSP is quantized, and a mode in which the wideband LSP is quantized using a predetermined fixed transform coefficient, Quantization is actually performed using both modes, and the result of quantization in the mode with the smaller quantization error is selected as the final quantization result.
  • FIG. 17 is a block diagram showing a main configuration of wideband LSP encoding section 107d according to Embodiment 5 of the present invention.
  • broadband LSP encoding section 107d has the same basic configuration as broadband LSP encoding section 107a shown in Embodiment 2 (see FIG. 10), and the same constituent elements include The same reference numerals are given and the description is omitted.
  • the error minimizing section 121d performs a codebook search for all modes, and calculates an LSP vector and a weight coefficient vector that minimize the quantization error from the codebooks for all modes, using the LSP codebook 222-1, It also selects the respective intermediate powers of 222-2 and weight coefficient codebooks 223-1 and 223-2, encodes the corresponding index, and outputs the result to multiplexing section 112 (S11). At this time, the selected LSP vector and mode information (information indicating which mode codebook power is selected) S51 for generating the weight coefficient vector are also output to multiplexing section 112.
  • FIG. 18 is a block diagram showing a main configuration of transform coefficient calculating section 109d according to Embodiment 5 of the present invention.
  • transform coefficient calculating section 109d has the same basic configuration as transform coefficient calculating section 109a shown in Embodiment 2 (see FIG. 9), and the same components are denoted by the same reference numerals. And the description is omitted.
  • Transform coefficient calculation section 109d switches the prediction coefficient to be used according to control signal C51 output from error minimization section 121d in wideband LSP encoding section 107d. That is, the conversion coefficient calculation unit 109d switches whether to express the quantized LSP by the force (Expression 3) represented by (Expression 2) according to the control signal C51.
  • the transform coefficient calculation unit 109d actually performs quantization, and determines whether or not to perform quantization using (Equation 3) based on the quantization result. Therefore, (Equation 3) Since the mode using (Equation 3) is selected only for a frame that is expected to reliably improve performance by the quantization of, a high prediction performance can be obtained.
  • the wideband Z narrowband quantized LSP parameter ratio of the previous frame is close to the wideband Z narrowband LSP parameter ratio of the current frame, and only for the frame.
  • (Equation 3) quantization using (Equation 3) is performed for a frame in which the wideband Z narrowband LSP parameter ratio is determined to be steady, not for a frame in which the wideband Z narrowband LSP parameter is determined to be steady.
  • error resilience can be improved. Because, according to the present embodiment, it is almost guaranteed that the quantization LSP parameter ratio in the wideband Z narrowband is steady in the section where the quantization mode according to (Equation 3) is continuously selected.
  • the quantized LSP parameter ratio of the wideband Z narrowband of the frame two frames before or even earlier is not necessarily steady. Therefore, if the immediately preceding frame is incorrect, the quantized LSP parameter ratio of the wideband Z narrowband two frames before, which may not be stationary, may be used as an approximate value instead of this frame. At this time, a decoding result significantly different from the decoding result when there is no error will be obtained.
  • the mode according to (Equation 2) is selected. Therefore, the prediction coding is reset at this stage, so that it is possible to prevent the error from propagating to the subsequent frame, and the error resilience is further improved.
  • FIG. 19 is a block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 5 of the present invention, which is provided with wideband LSP coding section 107d and transform coefficient calculating section 109d. is there.
  • the signal (S11, S51) output from the wideband LSP coding unit 107d is different from the scalable coding device shown in the first to fourth embodiments.
  • the configuration of the scalable decoding device according to the present embodiment is the same as that of scalable decoding device shown in Embodiment 3 (see FIG. 14), and a description thereof will not be repeated.
  • Embodiments 1 to 5 positively utilize the quantization result of the previous frame to predict the current frame, so that the quantization performance can be improved. Therefore, it is particularly effective for applications having no or almost no transmission path errors.
  • the error may propagate to a subsequent frame for a relatively long time.
  • the wideband quantization LSP is predicted from the current narrowband quantization LSP using the relationship between the past narrowband quantization LSP and the wideband quantization LSP.
  • different quantization results may be generated between the encoding device and the decoding device.
  • the decoding device does not correctly perform prediction in the subsequent frame, and thus an error propagates to the subsequent frame.
  • error propagation occurs in Embodiments 2 to 5 because the mode using the prediction using the past quantized LSP is continuous, and a transmission path error occurs in this continuous frame. Limited to the case.
  • Embodiment 6 of the present invention even when a transmission path error occurs, the effect of the transmission path error is reduced by applying the method of incorporating the forgetting element in Embodiment 5. That is, in the calculation of the wideband quantization LSP of the current frame, the adaptive prediction mode component using the quantization result of the previous frame and the quantization result of the past frame are used. No fixed prediction mode component (fixed value) is used in combination. As a result, even if a transmission path error occurs in a frame in the adaptive prediction mode, the adaptive prediction component is forgotten with the lapse of time by using a fixed value, and the internal state of the encoding device and the decoding device becomes time consuming. It can be approached as time passes, and the effect of transmission path errors is reduced.
  • the internal states of the encoding and decoding devices are both reset in a frame switched to the fixed prediction mode, and the effect of transmission path errors is reduced. Propagation to subsequent frames is avoided, improving error resilience
  • FIG. 20 is a block diagram showing a main configuration of wideband LSP encoding section 107e according to the present embodiment.
  • FIG. 21 is a block diagram showing a main configuration of transform coefficient calculating section 109e according to the present embodiment.
  • the wideband LSP encoding unit 107e and the transform coefficient calculating unit 109e in Embodiment 5 are different from the wideband LSP encoding unit 107d (see FIG. 17) and the transform coefficient calculating unit 109d (see FIG. 18). It is used for Therefore, in the present embodiment, only the wideband LSP coding unit 107e and the transform coefficient calculating unit 109e will be described for the scalable encoding device and the scalable decoding device.
  • the constituent elements of wideband LSP coding section 107e and transform coefficient calculating section 109e exhibit the same functions as those of wideband LSP coding section 107d and transform coefficient calculating section 109d.
  • the same reference numerals are given to the constituent elements, and the description is omitted.
  • amplifier 126-1 receives the LSP parameters input from narrowband LSP encoding section 103, and inputs the LSP parameters from coefficient table 2202-2 in transform coefficient calculating section 109e. The multiplication result is multiplied, and the result of the multiplication is output to the amplifier 125-1.
  • the amplifier 126-2 performs a smoothing operation on the LSP parameter input from the narrowband LSP coding section 103 in the steady mode (adaptive prediction mode).
  • the multiplication result is multiplied by the conversion coefficient output from the dangling unit 135, and is multiplied by the conversion coefficient stored in the coefficient table 202-1 in the non-stationary mode (fixed prediction mode). Output to amplifier 125-2. Therefore, the amplifiers 126-1 and 126-2 constitute the multiplication means in the present invention.
  • amplifiers 125-1 and 125-2 respectively convert the wideband LSP vectors input from amplifiers 126-1 and 126-2, that is, the narrowband quantized LSP.
  • the vector of the wideband LSP obtained by the conversion is multiplied by a predetermined weighting factor output from the weighting factor codebooks 223-1 and 223-2, and the multiplication result is output to the adder 128. Then, the adder 128 calculates the sum of the LSP vector output from the amplifier 124, the amplifiers 125-1 and 125-2, and outputs the addition result to the adder 127.
  • the fixed transform coefficient is always multiplied to the narrow-band quantized LSP of the amplifier 126-1 and the amplifiers 125-1, 125-2. That is, the signal input to the adder 128 via the amplifiers 126-1 and 125-1 is a signal transmitted from the narrow-band quantized LSP input from the narrow-band LSP coding unit 103. Unless affected by errors, it is not affected by transmission path errors that occurred in the past.
  • the amplifier 126-2 also multiplies the fixed transform coefficient by the narrowband quantization LSP, so that information is not exchanged between the previous and next frames, and the transmission path error that occurred in the past has occurred. Does not propagate to subsequent frames. As a result, according to the present embodiment, even when a transmission line error occurs, it is possible to suppress the influence of the error from propagating to the subsequent frame and improve error resilience.
  • two coefficient tables 202-1 and 202-2 are arranged in transform coefficient calculating section 109e, and two amplifiers 126-1 are provided in wideband LSP encoding section 107e correspondingly. , 126-2 are arranged, but the present invention is not limited to this case, and more coefficient tables 202 and amplifiers 126 may be arranged.
  • the present invention is not limited to this case. Only one coefficient table 202 is arranged in the transform coefficient calculating section 109e, and the same transform coefficient is input from the coefficient table 202 to the two amplifiers 126-1 and 126-2 in the wideband LSP coding section 107e. It may be done.
  • the present invention is not limited to this case.
  • the output of the divider 133 may be directly connected to the switching switch 203 without disposing the smoothing unit 135. With this configuration, when the switch 203 is switched to the coefficient table 202-1, the propagation of the transmission path error can be completely reset.
  • transform coefficient calculating section 109e shown in FIG. 21 can be used instead of transform coefficient calculating section 155b in the scalable decoding device (see FIG. 14) shown in the third embodiment.
  • the configuration ratio of the adaptive prediction mode component is reduced.
  • the weighting factor is designed to be low (for example, 50% or less), while the adaptive prediction mode component is used when wideband quantization LSP is predicted based on the high frequency component of the voice signal. If the weighting factor is designed so that the composition ratio of the components becomes high (for example, 50% or more), error resilience and quantization performance in subjective quality can be harmonized.
  • Embodiment 7 of the present invention differs from Embodiment 6 in that the ratio between the fixed prediction mode component and the adaptive prediction mode component in the prediction of the wideband quantized LSP is determined for each frame based on the error sensitivity of the narrowband quantized LSP.
  • Decide adaptively That is, in the sixth embodiment, the weighting factors output from weighting factor codebooks 223-1 and 223-2 are the default values. However, in the present embodiment, the weighting factors selected in the stationary mode are set.
  • the codebook 223-1 is sequentially updated with the weight coefficient calculated from the narrowband quantization LSP of the current frame.
  • FIG. 22 is a block diagram showing a main configuration of wideband LSP encoding section 107f according to the present embodiment.
  • the wideband LSP encoding unit 107f is used in Embodiment 6 instead of the wideband LSP encoding unit 107e (see FIG. 20). Therefore, in the present embodiment, the scalable coding apparatus will be described only for wideband LSP coding section 107f. Further, in the present embodiment, with respect to the constituent elements of wideband LSP encoding section 107f, the same elements as those of broadband LSP encoding section 107e are denoted by the same reference numerals, and the same reference numerals are assigned thereto. Description is omitted.
  • Broadband LSP encoding unit 107f is different from wideband LSP encoding unit 107e shown in Embodiment 6, in that it further includes a weighting factor calculator 2201.
  • the weighting factor calculator 2201 performs “weighting according to error sensitivity” for each frame. For example, based on the narrowband quantized LSP input from the narrowband LSP encoding unit 103, for example, “R. Salami et al, "Design and Description of C-ACELP: A Toll Quality 8 kb / s Speech Coder, IEEE Trans, on Speech and Audio Process., vol. 6, no.2, pp.116-130, March 1998.” Equation (9) of “K. Paliwal and BS Atal,” Efficient Vector Quantization of LPC
  • the weighting factor for weighting factor codebook 223-1 is calculated using the calculated weighting. Then, the weighting factor calculator 2201 sequentially updates the contents of the weighting factor codebook 223-1 with the weighting factor calculated for each frame. Also, in the present embodiment, the weighting factor calculator 2201 sets the ratio of the fixed prediction mode component in the prediction of the wideband quantization LSP to be higher as the calculated weight is larger (the error sensitivity is larger) (for example, The ratio of the fixed prediction mode component is set to 50% or more), while the smaller the weight, the better the quantization performance. Practice. Then, the weighting factor calculator 2201 updates the content of the weighting factor codebook 223-1 so as to approach the optimum composition ratio (generally, the ratio of the adaptive prediction mode component increases) obtained by this learning.
  • weighting factor calculator 2201 selects weighting factor codebook 223-1 selected in the steady mode based on the error sensitivity of the narrowband quantized LSP of the current frame. Optimizes the ratio of fixed prediction mode components to adaptive prediction mode components in LSP prediction to maximize the quantization performance while suppressing the degradation of error resilience in order to sequentially update the contents of can do. For example, if the weighting factor calculator 2221 sets the ratio of the fixed prediction mode component to 100% in the prediction of the wideband quantized LSP, that is, it is connected to the amplifier 126-1, which multiplies the narrowband quantized LSP by the fixed transform coefficient.
  • the error resilience can be improved.
  • the weighting factor calculator 2201 sets the ratio of the adaptive prediction mode component to 100%, the quantization performance can be improved instead of deteriorating the error resilience. If the weighting factor calculator 2201 sets the ratio between the fixed prediction mode component and the adaptive prediction mode component to, for example, 50% or 50%, an effect of improving the quantization performance derived from the adaptive prediction mode component occurs. In addition, since the effect of the transmission path error due to the fixed prediction mode component is diluted according to the number of calculations in the wideband LSP coding section 107f, the influence of the transmission path error can be made difficult to propagate to subsequent frames.
  • the content of weighting factor codebook 223-1 is sequentially updated for each frame by weighting factor calculator 2201, so that the error sensitivity of narrowband quantized LSP is reduced for each frame.
  • weighting factor calculator 2201 Even when the state transitions to, adaptively harmonize the quantization performance improvement effect derived from the adaptive prediction mode component and the error resilience degradation suppression effect derived from the fixed prediction mode component, which are in a trade-off relationship with each other. Can be.
  • the weighting factor calculator 2201 uses the fixed prediction for the low frequency component. It is preferable to determine the weighting factor so that the ratio of the mode component is high, while the ratio of the adaptive prediction mode component is high for the high frequency component.
  • weight coefficient multiplier 2201 calculates a weight coefficient for weight coefficient codebook 223-1 based on the error sensitivity of narrowband quantized LSP. The present invention is not limited to this case.
  • the weighting factor multiplier 2201 may calculate the weighting factor for the weighting factor codebook 223-1 as well as the offline learning data power.
  • the scalable encoding device and the scalable decoding device according to the present invention are not limited to the above embodiments, and can be implemented with various modifications. For example, the embodiments can be combined as appropriate.
  • the scalable coding apparatus and the scalable decoding apparatus according to the present invention can also be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system.
  • a communication terminal device and a base station device having the same can be provided.
  • the present invention is also applicable to the force ISP (Immittance Spectrum Pairs) parameter described in the case where the LSP parameter is encoded and Z-decoded.
  • LSF Line Spectral Frequency
  • LSF Line Spectral Frequency
  • the ratio of the LSP parameter of the wideband Z narrowband one frame before is used as the narrowband-one-wideband transform coefficient in the current frame.
  • the ratio of the quantized LSP parameter of the current frame wideband Z narrowband is estimated or extrapolated, and the obtained value is used as the narrowband wideband transform coefficient of the current frame. Good to use!
  • three or more force modes may be described as an example in which the mode is composed of two modes, the steady mode and the non-stationary mode.
  • band scalable coding when there are two layers of band scalable coding, that is, a band scalable coding or band having two frequency band powers of a narrow band and a wide band.
  • scalable decoding has been described as an example, the present invention can be applied to band scalable decoding or band scalable decoding composed of three or more frequency bands (layers).
  • the power described in the case of configuring the present invention by hardware as an example can also be realized by software.
  • the algorithm of the scalable encoding method or the scalable decoding method according to the present invention is described in a programming language, and this program is stored in a memory and executed by information processing means. Functions similar to those of the scalable decoding device or the scalable decoding device of the invention can be realized.
  • Each functional block used in the description of each of the above embodiments is typically implemented as an LSI which is an integrated circuit. These may be individually integrated into one chip, or may be integrated into one chip so as to include a part or all of them.
  • an LSI it may be referred to as an IC, a system LSI, a super LSI, or a unoratora LSI.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. After the LSI is manufactured, an FPGA (Field Programmable Gate Array) that can be programmed or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • a scalable encoding apparatus, a scalable decoding apparatus, a scalable encoding method, and a scalable decoding method according to the present invention are used in a communication apparatus in a mobile communication system, a packet communication system using an Internet protocol, or the like. It can be applied to applications.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Power Engineering (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 狭帯域LSPから広帯域LSPへの変換性能(狭帯域LSPから広帯域LSPを予測する際の予測精度)を高め、高性能な帯域スケーラブルLSP符号化を実現することができるスケーラブル符号化装置を開示する。この装置において、変換係数算出部(109)は、狭帯域LSP符号化部(103)から過去に出力された狭帯域の量子化LSPと、広帯域LSP符号化部(107)から過去に出力された広帯域の量子化LSPと、を用いて変換係数を求める。広帯域LSP符号化部(107)は、狭帯域の量子化LSPに変換係数算出部(109)から入力される変換係数を乗じて広帯域LSPに変換し、この広帯域LSPに重み係数を乗じて予測広帯域LSPを求める。そして、広帯域LSP符号化部(107)は、求まった予測広帯域LSPと広帯域LSPとの誤差信号を符号化し、広帯域の量子化LSPを得る。

Description

明 細 書
スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 技術分野
[0001] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等において、音声通信を行う際に用いられるスケーラブル符号ィ匕装置、スケー ラブル復号ィ匕装置、スケーラブル符号化方法、およびスケーラブル復号ィ匕方法に関 する。
背景技術
[0002] VoIP (Voice over IP)等のようにパケットを用いた音声通信にぉ 、ては、音声デー タの符号化にフレーム消失耐性のある符号化方式が望まれて 、る。インターネット通 信に代表されるパケット通信においては、輻輳等により伝送路上でパケットが破棄さ れることがあるカゝらである。
[0003] フレーム消失耐性を高める方法の一つとして、伝送情報の一部が消失しても他の 一部から復号処理を行うようにすることでフレーム消失の影響をできるだけ少なくする アプローチがある(例えば、特許文献 1参照)。特許文献 1には、スケーラブル符号ィ匕 を用いてコアレイヤ符号ィ匕情報と拡張レイヤの符号ィ匕情報とを別々のパケットに詰め て伝送する方法が開示されている。また、パケット通信のアプリケーションとして、太い 回線(ブロードバンド回線)と細い回線(伝送レートの低い回線)とが混在するネットヮ ークを用いたマルチキャスト通信(一対多の通信)が挙げられる。このような不均一な ネットワーク上で多地点間通信を行う場合にも、それぞれのネットワークに対応して符 号化情報が階層化されていれば、ネットワークごとに異なる符号化情報を送る必要が ないため、スケーラブル符号ィ匕が有効である。
[0004] 例えば、音声信号の高能率な符号化を可能とする CELP方式をベースとして、信 号帯域幅に、すなわち周波数軸方向にスケーラビリティを有する帯域スケーラブル符 号ィ匕技術として、特許文献 2に開示されている技術がある。特許文献 2では、音声信 号のスペクトル包絡情報を LSP (線スペクトル対)パラメータで表現する CELP方式の 例が示されている。ここでは、狭帯域音声用の符号ィ匕部 (コアレイヤ)で得られた量子 ィ匕 LSPパラメータ (狭帯域符号化 LSP)を以下の (式 1)を用いて広帯域音声符号ィ匕 用の LSPパラメータに変換し、変換した LSPパラメータを広帯域音声用の符号ィ匕部( 拡張レイヤ)で用いることにより、帯域スケーラブルな LSP符号ィ匕方法を実現している fw(i) = 0. 5 X fn(i) [ただし、 i= 0, · · · , P —1]
= 0. 0 [ただし、 i= P , · · · , P —1] · · · (式 1)
n w
なお、 fw(i)は広帯域信号における i次の LSPパラメータ、 fn(i)は狭帯域信号におけ る i次の LSPパラメータ、 Pは狭帯域信号の LSP分析次数、 Pは広帯域信号の LSP
n w
分析次数をそれぞれ示して!ヽる。
[0005] しかし、特許文献 2においては、狭帯域信号としてサンプリング周波数が 8kHz、広 帯域信号としてサンプリング周波数が 16kHz、広帯域 LSP分析次数が狭帯 LSP分 析次数の 2倍である場合を例にとって説明しているため、狭帯域 LSPから広帯域 LS Pへの変換が(式 1)で表されるような単純な式で行われ得る。ところが、広帯域 LSP の低次側の P次の LSPパラメータの存在する位置は、高次側の(P — P )次を含め た広帯域信号全体に対して決定されるため、必ずしも狭帯域 LSPの P次の LSPパラ メータに対応するわけではない。このため、(式 1)で表される変換では高い変換効率 (狭帯域 LSPから広帯域 LSPを予測すると見た場合、予測精度と言う事も可能)は得 られず、(式 1)に基づいて設計された広帯域 LSP符号化器には、符号化性能を改善 する余地が残されている。
[0006] 例えば、非特許文献 1には、(式 1)の i次の狭帯域 LSPパラメータに乗じる変換係 数を 0. 5とする代わりに、以下の(式 2)に示すように、変換係数の最適化ァルゴリズ ムを用いて次数毎に最適な変換係数 β G)を求める方法が開示されている。
fw_n (i) = a (i) X L (i) + j8 (i) X fn— n (i) · · · (式 2)
ただし、 fw_n (i)は第 nフレームにおける i次の広帯域量子化 LSPパラメータ、 a (i) X L (i)は予測誤差信号を量子化したベクトルの i次の要素( ex (i)は i次の重み係数) 、 L (i)は LSP予測残差ベクトル、 β (i)は予測広帯域 LSPへの重み係数、 fn_n (i)は 第 nフレームにおける狭帯域 LSPパラメータである。このような変換係数の最適化に より、特許文献 2と同じ構成の LSP符号化器でありながら、より高い符号ィ匕性能を実 現している。
特許文献 1:特開 2003 - 241799号公報
特許文献 2:特開平 11― 30997号公報
非特許文献 1 : K. Koishida et al, "Enhancing MPEG- 4 CELP by jointly optimized inter/intra- frame LSP predictors, IEEE Speech Coding Workshop 2000,
Proceeding, pp.90- 92, 2000
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、広帯域 LSPの低次側の Pn次の LSPパラメータの位置は広帯域信号 全体に対して決定されるため、個々の LSPパラメータ (分析フレームごとの LSPパラメ ータ)につ 、て着目すれば、時間経過に伴 、 (フレームによって)最適な変換係数 β ( i)の値は変化する。よって、特許文献 2に開示された技術には以下の問題がある。
[0008] 図 1は、広帯域信号に帯域制限をかけた信号、すなわち広帯域信号を一旦ダウン サンプルしてからアップサンプルして元のサンプリング周波数に戻したものを、 P = 1
w
8で LSP分析して得られる狭帯域の LSPパラメータの例を示した図である。
[0009] また、図 2は、図 1に示した狭帯域 LSPパラメータに対応する広帯域信号を、 P = 1
w
8で LSP分析して得られる広帯域の LSPパラメータの例を示した図である。これらの 図において、横軸は時間(分析フレーム番号)であり、縦軸は正規化周波数(1. 0を ナイキスト周波数とし、図の例では 8kHz)である。
[0010] これらの図に示されるように、信号の周波数帯域が異なる以外は条件を全て同じに して得られる LSPパラメータ、すなわち同じサンプリング周波数(16kHz)で同じ分析 次数の LSP分析を行って得られる LSPパラメータでも、狭帯域に帯域制限された信 号から得られる低次側の(P
w Z2)次の LSPパラメータと、広帯域信号から得られる低 次側の(P Z2)次の LSPパラメータとの対応関係が時間的に変化していることが分
w
かる。この変化は、狭帯域信号には含まれず、広帯域信号に含まれる周波数成分( 主として高域成分)の違いによって生ずるものである。
[0011] 図 3は、図 1および図 2に示した LSPデータを用いて、次数毎に求めた狭帯域 LSP を広帯域 LSPに変換する場合の理想的な変換係数を示した図である。ここで、変換 係数は、広帯域 LSPを狭帯域 LSPで除した値であり、横軸は時間 (分析フレーム番 号)であり、次数が、 0次、 4次、 8次の場合を例にとって示している。
[0012] この図からも明らかなように、理想的な変換係数の値は時間的に変動している。す なわち、狭帯域 LSPを広帯域 LSPに変換する際の変換係数、別の表現をするなら ば、狭帯域 LSPから広帯域 LSPを予測する際の変換係数の理想値は時間的に変動 するので、非特許文献 1に示される設計手法によって得られる変換係数を用いても、 変換係数が固定値であれば、時間的に変動する理想的な変換係数を正確に表すこ とはできない。
[0013] なお、ここでは、 LSP分析の条件を揃えるために、サンプリング周波数および分析 次数が同じで信号の帯域だけが異なる場合を例にとって示したが、ダウンサンプルし た信号を用いて広帯域 LSPよりも低 ヽ次数で LSP分析を行った場合にぉ ヽても同様 のことが言える。このことは、この分野の技術者であれば容易に理解できることである 。ただし、 LSP分析の条件が異なることとなるため、狭帯域 LSPと広帯域 LSPとの対 応関係は上記の例よりも悪くなる。
[0014] よって、本発明の目的は、狭帯域 LSPから広帯域 LSPへの変換性能、すなわち狭 帯域 LSPから広帯域 LSPを予測する際の予測精度を高め、高性能な帯域スケーラ ブル LSP符号ィ匕を実現することができるスケーラブル符号ィ匕装置、スケーラブル復 号化装置、スケーラブル符号化方法、およびスケーラブル復号ィ匕方法を提供するこ とである。
課題を解決するための手段
[0015] 本発明のスケーラブル符号化装置は、入力信号から、周波数軸方向にスケーラビリ ティを有する狭帯域および広帯域の量子化 LSPパラメータを生成するスケーラブル 符号化装置であって、狭帯域の入力信号の LSPパラメータを符号ィ匕して、狭帯域の 第 1の量子化 LSPパラメータを生成する狭帯域符号化手段と、前記第 1の量子化 LS Pパラメータの周波数帯域を広帯域に変換する変換手段と、広帯域に変換後の前記 第 1の量子化 LSPパラメータを用いて広帯域の入力信号の LSPパラメータの符号ィ匕 を行い、広帯域の第 2の量子化 LSPパラメータを生成する広帯域符号化手段と、過 去に生成された前記第 1および第 2の量子化 LSPパラメータ間の関係に基づいて、 前記変換手段で使用される変換係数を算出する算出手段と、を具備する構成を採る 発明の効果
[0016] 本発明によれば、狭帯域 LSPから広帯域 LSPへの変換性能を高め、高性能な帯 域スケーラブル LSP符号ィ匕を実現することができる。
図面の簡単な説明
[0017] [図 1]狭帯域の LSPパラメータの例を示した図
[図 2]広帯域の LSPパラメータの例を示した図
[図 3]理想的な変換係数を示した図
[図 4]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 5]実施の形態 1に係る広帯域 LSP符号ィ匕部内部の主要な構成を示すブロック図 [図 6]実施の形態 1に係る変換係数算出部内部の主要な構成を示すブロック図
[図 7]実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 8]実施の形態 1に係る広帯域 LSP復号ィ匕部内部の主要な構成を示すブロック図 [図 9]実施の形態 2に係る変換係数算出部内部の主要な構成を示すブロック図
[図 10]実施の形態 2に係る広帯域 LSP符号ィ匕部内部の主要な構成を示すブロック図 [図 11]実施の形態 2に係る広帯域 LSP復号ィ匕部内部の主要な構成を示すブロック図 [図 12]実施の形態 3に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 13]実施の形態 3に係る変換係数算出部内部の主要な構成を示すブロック図 [図 14]実施の形態 3に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 15]実施の形態 4に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 16]実施の形態 4に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 17]実施の形態 5に係る広帯域 LSP符号ィ匕部の主要な構成を示すブロック図 [図 18]実施の形態 5に係る変換係数算出部の主要な構成を示すブロック図
[図 19]実施の形態 5に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 20]実施の形態 6に係る広帯域 LSP符号ィ匕部の主要な構成を示すブロック図 [図 21]実施の形態 6に係る変換係数算出部の主要な構成を示すブロック図
[図 22]実施の形態 7に係る広帯域 LSP符号ィ匕部の主要な構成を示すブロック図 発明を実施するための最良の形態
[0018] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0019] (実施の形態 1)
図 4は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。
[0020] 本実施の形態に係るスケーラブル符号ィ匕装置は、ダウンサンプル部 101、 LSP分 析部 (狭帯域用) 102、狭帯域 LSP符号ィ匕部 103、音源符号ィ匕部 (狭帯域用) 104、 位相補正部 105、 LSP分析部 (広帯域用) 106、広帯域 LSP符号化部 107、音源符 号化部 (広帯域用) 108、変換係数算出部 109、アップサンプル部 110、加算器 111 、および多重化部 112を備える。
[0021] 本実施の形態に係るスケーラブル符号ィ匕装置の各部は以下の動作を行う。
[0022] ダウンサンプル部 101は、入力音声信号に対しダウンサンプリング処理を行って狭 帯域信号を LSP分析部 (狭帯域用) 102および音源符号ィ匕部 (狭帯域用) 104に出 力する。なお、入力音声信号は、デジタル化された信号であり、必要に応じて HPFや 背景雑音抑圧処理等の前処理が施されて 、る。
[0023] LSP分析部 (狭帯域用) 102は、ダウンサンプル部 101から入力された狭帯域信号 に対して LSP (線スペクトル対)パラメータを算出し、狭帯域 LSP符号ィ匕部 103へ出 力する。
[0024] 狭帯域 LSP符号ィ匕部 103は、 LSP分析部 (狭帯域用) 102から入力された狭帯域 LSPパラメータを符号ィ匕し、量子化された狭帯域 LSPパラメータを広帯域 LSP符号 化部 107、変換係数算出部 109、および音源符号ィ匕部 (狭帯域用) 104へ出力する 。また、狭帯域 LSP符号ィ匕部 103は、符号化データを多重化部 112へ出力する。
[0025] 音源符号化部 (狭帯域用) 104は、狭帯域 LSP符号ィ匕部 103から入力された、量 子化された狭帯域 LSPパラメータを線形予測係数に変換し、得られた線形予測係数 を用いて線形予測合成フィルタを構築する。音源符号ィ匕部 104は、この線形予測合 成フィルタを用いて合成される合成信号と別途ダウンサンプル部 101から入力された 狭帯域入力信号との間の聴覚的重みづき誤差を求め、この聴覚的重みづき誤差を 最小とする音源パラメータの符号ィ匕を行う。得られた符号ィ匕情報は多重化部 112へ 出力される。また、音源符号ィ匕部 104は、狭帯域復号音声信号を生成してアップサ ンプル部 110へ出力する。
[0026] なお、狭帯域 LSP符号ィ匕部 103または音源符号ィ匕部 (狭帯域用) 104については 、LSPパラメータを利用する CELP型音声符号ィ匕装置で一般的に用いられている回 路を適用でき、例えば、特許文献 2または ITU— T勧告 G. 729等に記載されている 技術を利用できる。
[0027] アップサンプル部 110は、音源符号ィ匕部 104で合成された狭帯域復号音声信号が 入力され、アップサンプル処理を施し加算器 111へ出力する。
[0028] 加算器 111は、位相補正部 105から位相補正後の入力信号、アップサンプル部 11 0からアップサンプルされた狭帯域復号音声信号、がそれぞれ入力され、両信号の 差分信号を求めて音源符号化部 (広帯域用) 108へ出力する。
[0029] 位相補正部 105は、ダウンサンプル部 101およびアップサンプル部 110で生じる位 相のずれ (遅延)を補正するためのものであり、ダウンサンプル処理およびアップサン プル処理が直線位相低域通過フィルタとサンプル間弓 Iき Z零点挿入によって行なわ れる場合は、直線位相低域通過フィルタによって生じる遅延の分だけ入力信号を遅 延させる処理を行い、 LSP分析部 (広帯域用) 106および加算器 111に出力する。
[0030] LSP分析部 (広帯域用) 106は、位相補正部 105から出力される広帯域信号を入 力して公知の LSP分析を行い得られた広帯域 LSPパラメータを広帯域 LSP符号ィ匕 部 107へ出力する。
[0031] 変換係数算出部 109は、狭帯域 LSP符号ィ匕部 103から過去に出力された狭帯域 の量子化 LSPと、広帯域 LSP符号化部 107から過去に出力された広帯域の量子化 LSPと、を用いて変換係数を求めて広帯域 LSP符号ィ匕部 107へ出力する。
[0032] 広帯域 LSP符号ィ匕部 107は、狭帯域 LSP符号ィ匕部 103から入力される狭帯域の 量子化 LSPに、変換係数算出部 109から入力される変換係数を乗じて広帯域 LSP に変換し、この広帯域 LSPに重み係数を乗じて予測広帯域 LSPを求める。そして、 L SP分析部 (広帯域用) 106から入力された広帯域 LSPと求まった予測広帯域 LSPと の誤差信号を、べ外ル量子化などの手法を用いて符号ィ匕し、得られる広帯域の量 子化 LSPを音源符号ィ匕部 (広帯域用) 108へ出力する。ここで、量子化 LSPは、以 下の(式 3)のように表される。
fw_n (i) = a (i) X L (i) + j8 (i) X
{ fw_n 1 (i) /f n— n 1 (i) } X f n— n (i) · · · (式 3)
ただし、 fw_n (i)は第 nフレームにおける i次の広帯域量子化 LSPパラメータ、 a (i) X L (i)は予測誤差信号を量子化したベクトルの i次の要素( ex (i)は i次の重み係数) 、 L (i)は LSP予測残差ベクトル、 β (i)は予測広帯域 LSPへの重み係数、 fw_n— 1 ( i)は第 (n— 1)フレームにおける広帯域量子化 LSPパラメータ、 fn n- 1 (i)は第 (n 1)フレームにおける狭帯域量子化 LSPパラメータ、 fn_n (i)は第 nフレームにおけ る狭帯域 LSPパラメータである。
[0033] 一方、広帯域 LSP符号化部 107は、得られる符号情報を多重化部 112へ出力する 。なお、上記の LSP予測残差ベクトルに乗じる重み係数 a (i)は、 1. 0の固定値とし ても良いし、別途学習によって得られた定数でもよいし、別途学習によって得られた 複数の係数をコードブックとして備えてその中から一つを選ぶようにしても良 、。
[0034] 音源符号化部 (広帯域用) 108は、広帯域 LSP符号ィ匕部 107から入力された、量 子化された広帯域 LSPパラメータを線形予測係数に変換し、得られた線形予測係数 を用いて線形予測合成フィルタを構築する。そして、この線形予測合成フィルタを用 いて合成される合成信号と位相補正された入力信号との間の聴覚的重みづき誤差 を求め、この聴覚的重みづき誤差を最小とする音源パラメータを決定する。より詳細 には、音源符号ィ匕部 108には、広帯域入力信号とアップサンプル後の狭帯域復号 信号との誤差信号が別途加算器 111より入力され、この誤差信号と音源符号ィ匕部 10 8で生成される復号信号との間の誤差が求められ、この誤差に聴覚的重みづけが施 されたものが最小となるように音源パラメータが決定される。求まった音源パラメータ の符号情報は、多重化部 112へ出力される。この音源符号ィ匕については、例えば、「 K. Koishiaa et al, Ά lo— koit/ s oandwidth scalable audio coder based on the . / 9 standard," IEEE Proc. ICASSP 2000, pp.1149- 1152, 2000」に開示されている。
[0035] 多重化部 112には、狭帯域 LSP符号ィ匕部 103から狭帯域 LSPの符号ィ匕情報が、 音源符号ィ匕部 (狭帯域用) 104からは狭帯域信号の音源符号ィ匕情報が、広帯域 LS P符号ィ匕部 107からは広帯域 LSPの符号ィ匕情報が、そして、音源符号化部 (広帯域 用) 108からは広帯域信号の音源符号ィ匕情報が入力される。多重化部 112は、これ らの情報を多重化してビットストリームとして伝送路に送出する。なお、ビットストリーム は、伝送路の仕様に応じて、伝送チャネルフレームにフレーム化されたり、パケットィ匕 されたりする。また、伝送路誤りに対する耐性を高めるために、誤り保護や誤り検出符 号を付加したり、インタリーブ処理等を適用したりする。
[0036] 図 5は、上記の広帯域 LSP符号ィ匕部 107内部の主要な構成を示すブロック図であ る。
[0037] この広帯域 LSP符号化部 107は、誤差最小化部 121、 LSP符号帳 122、重み係 数符号帳 123、増幅器124〜126、および加算器 127、 128を備える。
[0038] 加算器 127は、 LSP分析部 106から入力された、量子化ターゲットとなる LSPパラ メータと、加算器 128から入力される量子化 LSPパラメータ候補と、の誤差を計算し、 求まった誤差を誤差最小化部 121へ出力する。なお、この誤差計算は、入力された LSPベクトル間の二乗誤差で良い。また、入力された LSPベクトルの特徴に応じて重 み付けを行なうようにすれば、さらに聴感上の品質を良くすることができる。例えば、 I TU— T勧告 G. 729では、 3. 2. 4章(Quantization of the LSP coefficients)の (21)式 の重み付け二乗誤差 (重み付けユークリッド距離)を用いて誤差最小化を行なう。
[0039] 誤差最小化部 121は、加算器 127から出力される誤差を最小とする LSPベクトル および重み係数ベクトルを、 LSP符号帳 122および重み係数符号帳 123のそれぞ れの中から選択し、対応するインデックスを符号化し、多重化部 112に出力する(S1 D o
[0040] LSP符号帳 122は、格納している LSPベクトルを増幅器 124へ出力する。ここで、 L SP符号帳 122が格納している LSPベクトルは、増幅器 125から出力される狭帯域量 子化 LSPに基づいて予測された広帯域 LSPの(LSP分析部 106から入力される広 帯域 LSPに対する)予測残差ベクトルである。
[0041] 重み係数符号帳 123は、格納している重み係数セットの中から 1セットを選び、選択 された重み係数セットの中力も増幅器 124用の係数と増幅器 125用の係数とを増幅 器 124および 125に出力する。なお、この重み係数セットは、増幅器 124および 125 のそれぞれに対して LSPの次数毎に用意された重み係数力もなる。 [0042] 増幅器 124は、 LSP符号帳 122から入力された LSPベクトルに、重み係数符号帳 123から出力された増幅器 124用の重み係数を乗じて加算器 128へ出力する。
[0043] 増幅器 125は、増幅器 126から入力される広帯域 LSPのベクトル、すなわち、量子 化後の狭帯域 LSPを変換して得られる広帯域 LSPのベクトルに、重み係数符号帳 1 23から出力される増幅器 125用の重み係数を乗じて加算器 128へ出力する。
[0044] 加算器 128は、増幅器 124と増幅器 125とから出力された LSPベクトルの和を計算 し、加算器 127へ出力する。また、誤差最小化部 121で誤差が最小になると判断さ れた LSPベクトルの和が広帯域の量子化 LSPパラメータとして音源符号ィ匕部 108お よび変換係数算出部 109に出力される。なお、広帯域の量子化 LSPパラメータとして 出力される LSPパラメータが安定条件 (第 n次の LSPは第 0次〜第 (n— 1)次の 、ず れの LSPより大きい場合、すなわち、 LSPは次数の順番に値が大きくなる)を満たし ていない場合は、加算器 128は、 LSPの安定条件を満たすように操作を加える。な お、隣接する量子化 LSPの間隔が所定の間隔より狭い場合も、所定の間隔以上にな るように操作するのが一般的である。
[0045] 増幅器 126は、狭帯域 LSP符号ィ匕部 103から入力された LSPパラメータに、変換 係数算出部 109から入力された係数を乗じて、増幅器 125へ出力する。なお、狭帯 域 LSP符号ィ匕部 103から増幅器 126に入力される LSPパラメータは、狭帯域 LSP符 号ィ匕部 103の量子化結果そのままでも良いが、アップサンプルして広帯域信号のサ ンプリング周波数に合わせると共に、広帯域 LSPの次数に合わせると尚良い。このァ ップサンプルの方法としては、狭帯域 LSP力 得られる LPC合成フィルタのインパル ス応答をアップサンプルし、アップサンプルしたインパルス応答から自己相関を求め( 例えば、特許文献 2参照)、求めた自己相関係数を周知の方法によって所望の次数 の LSPに変換する方法等が挙げられる力 これに限定されるものではない。
[0046] 図 6は、図 4に示した変換係数算出部 109内部の主要な構成を示すブロック図であ る。
[0047] この変換係数算出部 109は、遅延器 131、 132、除算器 133、リミッタ 134、および 平滑化部 135を備える。
[0048] 遅延器 131は、狭帯域 LSP符号ィ匕部 103から入力された狭帯域 LSPパラメータを 1処理単位時間 (LSPパラメータの更新周期)だけ遅延させ、除算器 133へ出力する 。なお、前述したように、狭帯域 LSP符号ィ匕部 103から入力される狭帯域 LSPは、パ ラメータ狭帯域 LSPそのままでも良いが、アップサンプルして次数を揃えると尚良い。
[0049] 遅延器 132は、広帯域 LSP符号ィ匕部 107から入力された広帯域 LSPパラメータを 1処理単位時間 (LSPパラメータの更新周期)だけ遅延させ、除算器 133へ出力する
[0050] 除算器 133は、遅延器 132から入力された 1処理単位時間前に量子化された広帯 域 LSPパラメータを、遅延器 131から入力された 1処理単位時間前に量子化された 狭帯域 LSPパラメータで除算し、除算結果をリミッタ 134に出力する。遅延器 131か ら出力される狭帯域 LSPパラメータの次数と遅延器 132から出力される広帯域 LSP ノ メータの次数とが異なる場合は、少ない方の次数 (通常、狭帯域 LSPパラメータ の次数)分だけ除算を行い、出力する。
[0051] リミッタ 134は、除算器 133から入力された除算結果を、予め設定した上限値と下 限値とでクリッピング (上限値を超えたらこの上限値に設定し直し、下限値を下回った らこの下限値に設定し直す処理)し、平滑化部 135へ出力する。なお、上限値および 下限値は、全次数で同一のものであっても良いが、次数毎に最適なものを設定する と尚良い。
[0052] 平滑ィ匕部 135は、リミッタ 134から入力されたクリッピング後の除算結果を時間的に 平滑化して、変換係数として広帯域 LSP符号ィ匕部 107へ出力する。この平滑化処理 は、例えば、以下の(式 4)を用いることにより実現できる。
X (i) = K X X (i) + (1 -K) X γ (i) · · · (式 4)
ここで、 X (i)は、第 n番目の処理単位時間における i次の狭帯域 LSPパラメータに 適用される変換係数であり、 Kは、平滑化係数で 0≤K< 1の値を採り、 γ (i)は、リミツ タ 134から出力される i次の LSPパラメータに対する除算結果である。
[0053] 以上、本実施の形態に係るスケーラブル符号ィ匕装置について詳細に説明した。
[0054] 図 7は、上記のスケーラブル符号ィ匕装置で符号化された符号ィ匕情報を復号ィ匕する スケーラブル復号ィ匕装置の主要な構成を示すブロック図である。
[0055] このスケーラブル復号ィ匕装置は、多重分離部 151、音源復号化部 (狭帯域用) 152 、狭帯域 LSP復号ィ匕部 153、音源復号化部 (広帯域用) 154、変換係数算出部 155 、広帯域 LSP復号化部 156、音声合成部 (狭帯域用) 157、音声合成部 (広帯域用) 158、アップサンプル部 159、および加算器 160を備える。
[0056] 多重分離部 151は、上記のスケーラブル符号化装置で符号化された符号化情報を 受け取り、各パラメータの符号ィ匕情報に分離し、狭帯域音源符号化情報を音源復号 化部 (狭帯域用) 152に、狭帯域 LSP符号ィ匕情報を狭帯域 LSP復号ィ匕部 153に、広 帯域音源符号化情報を音源復号化部 (広帯域用) 154に、広帯域 LSP符号化情報 を広帯域 LSP復号ィ匕部 156に、それぞれ出力する。
[0057] 音源復号化部 (狭帯域用) 152は、多重分離部 151から入力された狭帯域音源信 号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部 (狭帯域用) 1 04で行われた処理と逆の処理を用いて復号し、量子化された狭帯域音源信号を音 声合成部 (狭帯域用) 157へ出力する。
[0058] 狭帯域 LSP復号ィ匕部 153は、多重分離部 151から入力された狭帯域 LSPの符号 化情報を、上記のスケーラブル符号ィ匕装置の狭帯域 LSP符号ィ匕部 103で行われた 処理と逆の処理によって復号し、得られた狭帯域の量子化 LSPを音声合成部 (狭帯 域用) 157、変換係数算出部 155、および広帯域 LSP復号ィ匕部 156へ出力する。
[0059] 音声合成部 (狭帯域用) 157は、狭帯域 LSP復号ィ匕部 153から入力された、量子 化された狭帯域 LSPパラメータを線形予測係数に変換し、得られた線形予測係数を 用いて線形予測合成フィルタを構築する。音声合成部 (狭帯域用) 157は、この線形 予測合成フィルタを音源復号ィ匕部 (狭帯域用) 152から入力される狭帯域の量子化 音源信号で駆動して復号音声信号を合成し、狭帯域復号音声信号として出力する。 この狭帯域復号音声信号は、広帯域復号音声信号を得るためにアップサンプル部 1 59へ出力される。なお、この狭帯域復号音声信号は、そのまま最終出力として用いら れても良い。狭帯域復号音声信号をそのまま最終出力とする場合は、ポストフィルタ など主観的な品質を改善するための後処理を行なってから出力するのが一般的であ る。
[0060] アップサンプル部 159は、音声合成部 (狭帯域用) 157から入力された狭帯域音声 信号のアップサンプル処理を行って加算器 160へ出力する。 [0061] 音源復号化部 (広帯域用) 154は、多重分離部 151から入力された広帯域音源信 号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部 (広帯域用) 1 08で行われた処理と逆の処理によって復号し、得られた広帯域量子化音源信号を 音声合成部 (広帯域用) 158へ出力する。
[0062] 変換係数算出部 155は、狭帯域 LSP復号ィ匕部 153から過去に入力された狭帯域 の量子化 LSPと、広帯域 LSP復号化部 156から過去に入力された広帯域の量子化 LSPと、を用いて変換係数を求めて広帯域 LSP復号ィ匕部 156へ出力する。
[0063] 広帯域 LSP復号ィ匕部 156は、狭帯域 LSP復号ィ匕部 153から入力される狭帯域の 量子化 LSPに、変換係数算出部 155から入力される変換係数を乗じて広帯域 LSP に変換し、この広帯域 LSPに重み係数を乗じて予測広帯域 LSPを求める。なお、こ の重み係数は、上記のスケーラブル符号ィ匕装置の広帯域 LSP符号ィ匕部 107で使用 される重み係数と同じ値を用いる。また、広帯域 LSP復号ィ匕部 156は、多重分離部 1 51から入力された広帯域 LSP符号ィ匕情報から、量子化された広帯域 LSP予測残差 (符号ィ匕側の入力広帯域 LSPと前記の予測広帯域 LSPとの誤差)を復号する。そし て、広帯域 LSP復号化部 156は、この量子化された広帯域 LSP予測残差と上記に お!、て既に求まって 、る予測広帯域 LSPとを加算し、広帯域の量子化 LSPを復号 する。得られた広帯域の量子化 LSPパラメータは、音声合成部 (広帯域用) 158およ び変換係数算出部 155に出力される。
[0064] 音声合成部 (広帯域用) 158は、広帯域 LSP復号化部 156から入力された量子化 された広帯域 LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用 いて線形予測合成フィルタを構築する。音声合成部 (広帯域用) 158は、この線形予 測合成フィルタを音源復号化部 (広帯域用) 154から入力される広帯域の量子化音 源信号で駆動して広帯域復号音声信号 (主として高域成分)を合成し、加算器 160 へ出力する。
[0065] 加算器 160は、アップサンプル部 159から入力されるアップサンプル後の狭帯域復 号音声信号と、音声合成部 (広帯域用) 158から入力される広帯域復号音声信号( 主として高域成分)と、を加算し、最終的な広帯域復号音声信号を出力する。
[0066] 図 8は、上記の広帯域 LSP復号ィ匕部 156内部の主要な構成を示すブロック図であ る。
[0067] この広帯域 LSP復号化部 156は、インデックス復号部 161、 LSP符号帳 162、重み 係数符号帳 163、増幅器 164〜166、および加算器 167を備える。
[0068] インデックス復号部 161は、多重分離部 151から広帯域 LSPの符号化情報を取得 し、 LSP符号帳 162用と重み係数符号帳 163用のインデックス情報を復号し、各イン デッタス情報をそれぞれの符号帳に出力する。
[0069] LSP符号帳 162は、インデックス復号部 161から LSP符号帳インデックスを取得し 、このインデックスで指定される LSPベクトルを符号帳から取り出し、増幅器 164に出 力する。なお、符号帳力 Sスプリット型や他段構成になっている場合は、複数のサブコ ードブック力も指定されたベクトルを取り出して LSPベクトルを生成する。
[0070] 重み係数符号帳 163は、インデックス復号部 161から重み係数符号帳インデックス を取得し、このインデックスで指定される重み係数セットを符号帳カゝら取り出し、取り出 した係数セットから、増幅器 164用(LSP符号帳用)の係数サブセット (LSPベクトル の各次数に乗じる係数力もなる)を増幅器 164に、増幅器 165用(狭帯域 LSP用)の 係数サブセット(予測広帯域 LSPベクトルの各次数に乗じる係数力もなる)を増幅器 1 65に、それぞれ出力する。
[0071] 増幅器 164は、 LSP符号帳 162から入力された LSPベクトルに、重み係数符号帳 163から入力された増幅器 164用の重み係数を乗じて加算器 167へ出力する。
[0072] 増幅器 165は、増幅器 166から入力される、量子化された狭帯域 LSPから変換さ れた広帯域 LSPのベクトルに、重み係数符号帳 163から入力された増幅器 165用の 重み係数を乗じて加算器 167へ出力する。
[0073] カロ算器 167は、増幅器 164および増幅器 165から入力された LSPベクトルの和を 計算し、量子化 (復号)広帯域 LSPパラメータとして音声合成部 (広帯域用) 158およ び変換係数算出部 155へ出力する。なお、広帯域の量子化 LSPパラメータとして出 力される LSPパラメータが、安定条件を満たしていない場合、すなわち、第 n次の LS Pが第 0次〜第 (n— 1)次の 、ずれかの LSPよりも小さ 、場合 (LSPが次数の順に値 が大きくなつていない場合)は、 LSPの安定条件を満たすように操作を加える。なお、 隣接する量子化 LSPの間隔が所定の間隔よりも狭い場合も所定の間隔以上になるよ うに操作する。
[0074] なお、図 7に示した変換係数算出部 155の内部構成は、図 6に示した変換係数算 出部 109と基本的に同様である。よって詳細な説明は省略するが、この変換係数算 出部 155内の遅延器 131への入力は狭帯域 LSP復号ィ匕部 153から、遅延器 132へ の入力は広帯域 LSP復号化部 156から、平滑化部 135の出力は広帯域 LSP復号 化部 156へとされる点は、図 6に示した変換係数算出部 109と異なる。
[0075] 以上、本実施の形態に係るスケーラブル復号ィ匕装置について詳細に説明した。
[0076] このように、本実施の形態によれば、変換係数算出部 109は、過去のフレーム (例 えば、直前のフレーム等)において符号化された狭帯域および広帯域の量子化 LSP ノラメータを用いて、過去のフレームにおける理想的な変換係数の近似値を求め、こ の近似値に基づいて現フレームにおける狭帯域の量子化 LSP力 広帯域 LSPへの 変換係数を決定する。具体的には、理想的な変換係数の近似値は、過去のフレーム の広帯域の量子化 LSPを同じフレームの狭帯域の量子化 LSPで除算することによつ て求められる。換言すると、狭帯域 LSPパラメータ力も広帯域 LSPパラメータに変換 係数 X G)を乗じて推定する際、過去の狭帯域 LSPパラメータと広帯域 LSPパラメ一 タとの関係を利用して適応的にフレームごとに変換係数を決定する。よって、変換係 数は、時間経過と共に変化する。この構成を採ることにより、狭帯域 LSPから広帯域 LSPを予測する際の予測精度を高めることができる。
[0077] また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域 および広帯域の量子化 LSPパラメータのみから算出可能であるので、例えば、復号 化側において符号化側から情報を別途取得する必要がない。すなわち、通信の伝 送レートを増加させることなしに広帯域 LSPパラメータの符号ィ匕性能を改善すること ができる。
[0078] また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域 および広帯域の LSPパラメータ力 所定の演算によって直接求めることができるので 、予め複数の変換係数のセットをデータテーブル等に保持しておく必要がな 、。
[0079] また、以上の構成において、変換係数算出部 109内のリミッタ 134は、算出された 変換係数が極端な値とならないように、変換係数に、例えば、平均値の上下 10%程 度内に収まるような制限をカ卩える。例えば、音声モードが、有声モードから無声モード へ、または無声モード力 有声モードへ切り替わる等の場合には、 LSPパラメータが 大きく変動するため、算出される変換係数も変動して妥当な値とはならないことがある 。変換係数が短時間のうちに大きく変動する場合は、前フレームの広帯域 Z狭帯域 の LSP比を用いた予測が効かなくなり、むしろ誤差を大きくする方向に働く。すると L SP符号帳の方でそのように大きくなつた誤差を修正しょうとすることになる力 そのよ うに誤差の大き 、ベクトルを符号帳に備えることは、予測誤差が小さ 、場合の誤差を 増大させることになる。つまり、変換係数と LSP符号帳との間の関係が一種の発振状 態に陥るので、このようにならぬ様、両者のバランスをうまくとれるような構成にする必 要がある。
[0080] そこで、本実施の形態では、まず、全てのフレームに対し上記の演算式に従って変 換係数を求めるが、変換係数には上限および下限を設けておいて、算出された変換 係数がこの範囲内に入っていない場合には変換係数をこの範囲内に収める修正を 行う。これにより、変換に実際に使用される変換係数を一定範囲内の値とすることが できるので、変換係数の定常性 (もしくは準定常性)が保証され、発振状態になること がなくなる。これにより、変換係数による予測能力が制限され、予測誤差が大きくなる こともあるが、変換係数を固定値とする場合の「固定値」の近傍に範囲限定すれば、 予測誤差が変換係数を固定値とする場合を大きく上回るようなことはなぐ変換係数 を固定値とする場合と同様に LSP符号帳側で対応することが可能である。変換係数 の近似値は、直前フレームの広帯域量子化 LSPを直前フレームの狭帯域の量子化 LSPで除算することによって求められ、現フレームで用いられる変換係数は、近似値 を平均的な変換係数の近傍 (例えば前後 10%程度の範囲または変換係数の標準偏 差程度の範囲)〖こ限定すること〖こよって得られる。
[0081] また、以上の構成において、上記の変換係数は、時間的に緩やかに変動するよう に分析フレーム間で (前後のフレーム間で)平滑ィ匕処理が施される。このため、変換 係数は、 LSPパラメータの変動に対し緩やかに推移し、伝送路誤りに対して過剰に センシティブとなることを防止できる。また、変換係数の値が安定するため、対応する LSPコードベクトル符号帳の設計が容易となる。量子化 LSPの予測値は、変換係数 と LSPコードベクトルとの積で表されているため、一方のパラメータが暴れると他方の パラメータも暴れ、お互いの関係が発散状態 (前述した発振状態)に陥り、性能の良 い符号帳を設計できなくなるためである。上記の構成とすることで、例えば SD性能を 0. 05dB改善することができる。なお、この改善幅は、量子化ビット数やフレーム長に よって変わってくる。
[0082] なお、本実施の形態では、 MA予測型 LSP符号化器を使用しな 、例を示したが、 MA予測器を用いた場合にも本発明は適用可能である。かかる場合、 MA予測係数 は重み係数符号帳 163に格納され、重み係数ベクトルの次元数が MA予測次数の 分だけ増えることになる。
[0083] また、本実施の形態では、変換係数算出部 109が、リミッタ 134および平滑ィ匕部 13 5の双方を備える場合を例にとって説明したが、これらは一方のみを備えるような構成 であっても良い。
[0084] (実施の形態 2)
実施の形態 1では、算出される変換係数が大きく変動する場合に、変換係数を一 定範囲内に収める修正を行うことにより、狭帯域 LSPから広帯域 LSPを予測する際 の予測が安定して行なわれるようにした。本実施の形態では、量子化 LSPパラメータ に着目し、この量子化 LSPパラメータの変化を観測することにより、 LSPパラメータが 変動して!/、る力 、な 、かを判断し、変換に使用する変換係数を切り替える。
[0085] 具体的には、符号ィ匕側の狭帯域 LSP符号ィ匕部または復号ィ匕側の狭帯域 LSP復号 化部で得られる狭帯域の量子化 LSPパラメータに着目し、この狭帯域の量子化 LSP ノ ラメータが変動して 、な 、場合には定常モードと、狭帯域の量子化 LSPパラメータ が変動している場合には非定常モードと判定し、このモードの判定結果に従い、 LS P符号帳と重み係数符号帳とを切り替えて使用する。すなわち、定常モードでは、変 換係数をフレームごとに上記の演算式 (式 2)に従って算出することにより適応的な制 御を行い、一方、非定常モードでは、上記の(式 3)を用いて、変換係数を固定値また は準固定値に設定する。ここで準固定値とは、予め複数の変換係数を設定しておい て、音声信号の符号化結果 (音質)に応じて変換係数を切り替えることを意味してい る。すなわち、固定値の変換係数セットを複数種類持っていて、量子化時に最適なも のを 1つ選んで使用する。
[0086] 以下、本実施の形態について、添付図面を参照して具体的に説明する。
[0087] 本発明の実施の形態 2に係るスケーラブル符号化装置の基本的構成は、実施の形 態 1に係るスケーラブル符号ィ匕装置と同様である。よって、本実施の形態に係るスケ ーラブル符号ィ匕装置の詳細な説明は省略し、異なる構成である変換係数算出部 10 9aおよび広帯域 LSP符号ィ匕部 107aについて以下詳細に説明する。なお、同一の 構成要素には同一の符号を付し、その説明を省略する。
[0088] 図 9は、変換係数算出部 109a内部の主要な構成を示すブロック図である。
[0089] この変換係数算出部 109aは、リミッタ 134の代わりに、モード判定部 201、係数テ 一ブル 202、および切り替えスィッチ 203を備える。変換係数算出部 109aは、算出し た変換係数と係数テーブルに予め保存してある変換係数とを、モード判定部 201の モード判定結果によって切り替えて使用する。
[0090] モード判定部 201は、狭帯域 LSP符号ィ匕部 103から入力された狭帯域の量子化 L SPと、遅延器 131の出力である 1処理単位時間だけ前に量子化された狭帯域 LSP との距離 (変化量)を計算し、計算した距離に基づいて、定常モードか非定常モード かを判定する。例えば、計算した距離が予め設定した閾値以下である場合は定常モ ード、閾値を越えた場合は非定常モードと判定する。判定結果は、広帯域 LSP符号 化部 107aおよび切り替えスィッチ 203に出力される。なお、計算した距離は、そのま ま閾値判定に用いても、フレーム間で平滑ィ匕してから閾値判定に用いても良い。
[0091] 切り替えスィッチ 203は、モード判定部 201の判定結果が定常モードであった場合 、平滑ィ匕部 135から出力される変換係数を広帯域 LSP符号ィ匕部 107aに出力し、一 方、モード判定部 201の判定結果が非定常モードであった場合、係数テーブルに格 納されている変換係数を広帯域 LSP符号ィ匕部 107aに出力するように切り替えられる
[0092] LSPパラメータが定常的な値を示す場合は、現フレームの広帯域 Z狭帯域の LSP ノ ラメータ比と前フレームの広帯域 Z狭帯域の量子化 LSPパラメータの比とが近くな るので、(式 2)を用いた量子化を適用することで、狭帯域 LSPパラメータ力も広帯域 LSPパラメータを予測する際の予測精度を向上させ、量子化性能を改善させる。 [0093] 図 10は、上記の広帯域 LSP符号ィ匕部 107a内部の主要な構成を示すブロック図で ある。
[0094] LSP符号帳と重み係数符号帳とがそれぞれモード数分 (ここでは 2つ)のサブ符号 帳カゝら構成されていて (LSP符号帳 222— 1、 222— 2、重み係数符号帳 223— 1、 2 23— 2)、モード判定部 201から入力されるモード情報に基づいて、切り替えスィッチ 224、 225がそれぞれサブ符号帳の 1つを選択する構成となっている。
[0095] 本発明の実施の形態 2に係るスケーラブル復号ィ匕装置の基本的構成も、実施の形 態 1に係るスケーラブル復号ィ匕装置と同様である。よって、詳細な説明は省略し、異 なる構成である変換係数算出部 155aおよび広帯域 LSP復号ィ匕部 156aにつ 、て以 下説明する。なお、同一の構成要素には同一の符号を付し、その説明を省略する。
[0096] 変換係数算出部 155aの内部構成は、図 9に示した変換係数算出部 109aと基本 的に同様である。よって詳細な説明は省略する力 遅延器 131への入力は狭帯域 L SP復号ィ匕部 153から、遅延器 132への入力は広帯域 LSP復号ィ匕部 156aから、平 滑化部 135の出力は広帯域 LSP復号ィ匕部 156aへとされる点は、図 9に示した変換 係数算出部 109aと異なる。また、モード判定部の付番は、符号化側のモード判定部 201と区別するため、便宜上 251とする。
[0097] 図 11は、上記の広帯域 LSP復号ィ匕部 156a内部の主要な構成を示すブロック図で ある。
[0098] LSP符号帳と重み係数符号帳とがそれぞれモード数分 (ここでは 2つ)のサブ符号 帳カゝら構成されていて (LSP符号帳 262— 1、 262- 2、重み係数符号帳 263— 1、 2 63— 2)、モード判定部 251から入力されるモード情報に基づいて、切り替えスィッチ 264、 265がそれぞれサブ符号帳の 1つを選択する構成となっている。
[0099] このように、本実施の形態によれば、入力された未量子化の広帯域 LSPまたは現フ レームで量子化された狭帯域 LSPの定常性を判定し、定常的である(フレーム間の 変動が小さい)と判定された場合のみ選択的に前記算出された変換係数を用い、非 定常 (フレーム間の変動が大き 、)と判定された場合には別途テーブルに格納された 変換係数を用いる。換言すると、算出された変換係数と予め設計してテーブルに格 納してお!/、た変換係数とを、 LSPパラメータの定常性に基づ 、て切り替える。 [0100] 上記の構成を採ることにより、狭帯域 LSPから広帯域 LSPを予測する際の予測精 度を向上させることができる。また、 LSPパラメータの変動を符号ィ匕後の量子化 LSP パラメータを用いて判断するので、復号側は、符号化側からモード情報を送信されな くとも LSPパラメータの変動を判断することができる。符号化側からモード情報を送信 する必要もなくなるので、通信システムのリソースを消費することもな 、。
[0101] (実施の形態 3)
実施の形態 2では、狭帯域の量子化 LSPパラメータの変化を観測し、 LSPパラメ一 タの変動の有無を判断 (モード判定)している。しかし、狭帯域の量子化 LSPパラメ一 タが変動状態にない場合でも、広帯域の量子化 LSPパラメータの方は変動している 場合がある。
[0102] また、復号化側では、過去のモード判定結果に基づ!、て現フレームの復号ィ匕を行 うので、実施の形態 2の方法では、過去のモード判定が誤っていると、その誤りが後 の処理に伝播する。
[0103] そこで、本実施の形態では、符号化側は、広帯域 LSPパラメータを用いてモード判 定を行うモード判定部を新たに設置し、得られるモード判定結果を復号ィ匕側に送信 する。復号化側は、このモード判定結果を復号ィ匕するモード復号部を新たに設置す る。
[0104] 以下、本実施の形態について、添付図面を参照して具体的に説明する。
[0105] 図 12は、本発明の実施の形態 3に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。なお、このスケーラブル符号ィ匕装置は、実施の形態 1に示したス ケーラブル符号ィ匕装置(図 4参照)と同様の基本的構成を有しており、同一の構成要 素には同一の符号を付し、その説明を省略する。
[0106] モード判定部 301は、基本的には、実施の形態 2に示したモード判定部 201 (251 )と同様の動作をする。すなわち、 1処理単位時間遅延された LSPパラメータと現在 の LSPパラメータとの距離計算を行 、、この距離が予め設定してぉ 、た閾値以下の 場合は定常モードと、閾値を越えた場合は非定常モードと判定する。しかし、入力情 報として用いるものは、 LSP分析部 (広帯域用) 106から出力される広帯域 LSPパラ メータである点が実施の形態 2と異なる。モード判定部 301の判定結果は、変換係数 算出部 109bと広帯域 LSP符号ィ匕部 107aに出力され、モード情報の符号ィ匕情報は 多重化部 112に出力される。なお、広帯域 LSP符号ィ匕部 107aは、実施の形態 2で 既に説明したものである。
[0107] このように、モード判定部 301は、符号ィ匕済みの情報(量子化 LSPパラメータ)でな ぐ広帯域 LSPパラメータを用いて定常 Z非定常を判定するので、広帯域信号の高 域部のみに変動が大きい信号にも対応可能となる。
[0108] また、モード判定部 301は、得られるモード結果を他の符号化パラメータと共に多 重化して復号化側に送信している。このように、モード情報を復号ィヒ側に伝送するの で、復号化側でモード情報の判定を一度誤っても、後続フレームでは、次のモード情 報が送信されてくるので、前フレームの判定誤りの影響が伝播せず、伝送路誤り耐性 が改善する。
[0109] 図 13は、変換係数算出部 109b内部の主要な構成を示すブロック図である。なお、 この変換係数算出部 109bは、実施の形態 2の図 9に示した変換係数算出部 109aと 同様の基本的構成を有しており、異なる点のみを以下説明する。
[0110] 変換係数算出部 109bは、モード判定部を内部に備えず、モード判定結果のみを 外部から入力する。そして、変換係数算出部 109bは、入力されるモード判定結果に 従って切り替えスィッチを切り替える。具体的には、定常モードの時は、平滑化部 13 5から出力される変換係数が広帯域 LSP符号ィ匕部 107aへ出力されるように切り替え スィッチ 203が切り替えられる。非定常モードのときは、予めオフラインの学習等によ つて設計された変換係数を係数テーブル 202から広帯域 LSP符号ィ匕部 107aへ出 力されるように切り替えスィッチ 203が切り替えられる。
[0111] 図 14は、本発明の実施の形態 3に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。
[0112] このスケーラブル復号ィ匕装置も、実施の形態 1に示したスケーラブル復号ィ匕装置( 図 7参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付 し、その説明を省略する。実施の形態 1に示したスケーラブル復号ィ匕装置と異なる点 は、モード復号部 351を新たに有し、本実施の形態に係るスケーラブル符号ィ匕装置 のモード判定部 301の出力情報を復号して、復号情報を変換係数算出部 155bおよ び広帯域 LSP復号ィ匕部 156aへ出力することである。なお、変換係数算出部 155bも 符号ィ匕側の変換係数算出部 109b (図 13参照)と同様の基本的構成を有している。
[0113] なお、本実施の形態では、 LSPパラメータの時間的変化に基づいてモード判定を 行う場合を説明したが、変換係数の変換利得に基づいてモード判定を行っても良い 。この変換係数の変換利得は、前フレームの「広帯域量子化 LSP/狭帯域量子化 LS PJ比と現フレームの「入力広帯域 LSP/狭帯域量子化 LSP」比がどれだけ近 、かを 表している。
[0114] (実施の形態 4)
本実施の形態の特徴は、モード情報を符号ィ匕側が復号ィ匕側に送信せずに、モード 判定を符号ィ匕側の狭帯域 LSP符号ィ匕部または復号側の狭帯域 LSP符号ィ匕部の内 部で行うことである。
[0115] 図 15は、本発明の実施の形態 4に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。なお、このスケーラブル符号ィ匕装置は、実施の形態 3に示したス ケーラブル符号ィ匕装置(図 12参照)と同様の基本的構成を有しており、同一の構成 要素には同一の符号を付し、その説明を省略する。
[0116] 本実施の形態に係るスケーラブル符号ィ匕装置は、狭帯域 LSP符号ィ匕部 103cがマ ルチモード符号ィ匕を行っており、そのモード情報 (S41)を利用して変換係数算出部 109bのモード切り替え、および広帯域 LSP符号ィ匕部 107aのモード切り替えが行わ れる。
[0117] 狭帯域 LSP符号ィ匕部が LSPの定常性でモード切替を行なう技術としては、例えば T. Eriksson, J. Linden, and J. Skoglund, 'Exploiting mterframe correlation in spectral quantization - A study of different memory VQ schemes," Proc. IEEE ICASSP-96, pp.765-768, 1996等に記載がある。この文献では、フレーム間相関の 強 ヽ(定常性の高 、)フレームとそうでな 、フレームとの双方に対応するために、フレ ーム間予測を用いるモードとそうでないモードとを切り替える「Safty-net VQ」という手 法を提案している。このような量子化器を狭帯域 LSP符号ィ匕部に用いれば、そのモ ード情報を広帯域 LSP符号ィ匕部'変換係数算出部のモード切り替え情報として利用 することが可能である。 [0118] 図 16は、本発明の実施の形態 4に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。なお、このスケーラブル復号ィ匕装置も、実施の形態 3に示したス ケーラブル復号ィ匕装置(図 14参照)と同様の基本的構成を有しており、同一の構成 要素には同一の符号を付し、その説明を省略する。
[0119] 本実施の形態に係るスケーラブル復号ィ匕装置では、狭帯域 LSP復号ィ匕部 153cに モード情報復号機能が備えられている。すなわち、狭帯域 LSP復号ィ匕部 153cが、マ ルチモードの復号ィ匕を行なっており、そのモード情報 (S42)を変換係数算出部 155 bおよび広帯域 LSP復号ィ匕部 156aへ出力する。変換係数算出部 155bおよび広帯 域 LSP復号化部 156aでは、狭帯域 LSP復号化部 153cから入力されたモード情報( S42)を用いて、モード切替を行なう。
[0120] このように、本実施の形態によれば、狭帯域 LSP符号化情報のモード情報を用い て広帯域 LSP符号ィ匕のモードを切り替えるので、追加のビットなしに、広帯域 LSP符 号化部、広帯域 LSP復号化部、または変換係数部のモード切り替えを行うことができ る。また、モード情報が伝送されるため、伝送路誤りがあった場合でも誤りの影響が 後続フレームに伝播することを防止できる。
[0121] (実施の形態 5)
実施の形態 3では、モード判定は、 LSPの量子化に先立って行なわれ、このモード 判定結果に基づいて探索する符号帳を切り替えている。すなわち、モード判定は量 子化前に開ループで行なわれるため、必ずしも量子化誤差を最小にするモードが選 択されるとは限らない。例えば、実施の形態 3のモード判定は、量子化前の LSPパラ メータに基づ 、て行われて 、るが、量子化前の LSPパラメータが変動して 、るからと 言って、必ずしも、量子化後の LSPパラメータも変動するとは限らないし、量子化前 の LSPパラメータが定常的であるからと言って、必ずしも、量子化後の LSPパラメ一 タが定常的であるとも限らない。また、一部の次数の LSPパラメータが定常であっても 、残りの次数の LSPパラメータが非定常であれば、全次数で変化を見た場合には定 常と判定されることもある。このように、開ループでモード判定を行なう場合は、確実 に量子化誤差を最小とするモードを選択することが難しい。
[0122] そこで、本実施の形態では、開ループでモードを判定するのではなぐ閉ループで モード判定を行う。すなわち、定常モード Z非定常モードについて、 2以上のモード がある場合は全モードにっ 、て符号帳探索を実際に行ってみて、この結果に基づ ヽ て量子化誤差 (量子化歪み)を最小とするモードを選択する。さらに換言すると、広帯 域 LSP符号ィ匕部において、変換係数を求めて広帯域 LSPを量子化するモードと、予 め定めておいた固定の変換係数を用いて広帯域 LSPを量子化するモードと、の双 方のモードを用いて量子化を実際に行い、量子化誤差の小さくなる方のモードで量 子化した結果を最終的な量子化結果として選択する。
[0123] 以下、本実施の形態について、添付図面を参照して具体的に説明する。
[0124] 図 17は、本発明の実施の形態 5に係る広帯域 LSP符号ィ匕部 107dの主要な構成 を示すブロック図である。なお、この広帯域 LSP符号ィ匕部 107dは、実施の形態 2に 示した広帯域 LSP符号ィ匕部 107a (図 10参照)と同様の基本的構成を有しており、同 一の構成要素には同一の符号を付し、その説明を省略する。
[0125] 誤差最小化部 121dは、全モードの符号帳探索を行い、全てのモードの符号帳の 中から量子化誤差を最小とする LSPベクトルおよび重み係数ベクトルを、 LSP符号 帳 222— 1、 222— 2、重み係数符号帳 223— 1、 223— 2のそれぞれの中力も選択 し、対応するインデックスを符号ィ匕して多重化部 112に出力する(Sl l)。このとき、選 択された LSPベクトル、および重み係数ベクトルが生成されるモード情報(どのモード の符号帳力 選択されたかを示す情報) S51も多重化部 112に出力される。
[0126] 図 18は、本発明の実施の形態 5に係る変換係数算出部 109dの主要な構成を示す ブロック図である。なお、この変換係数算出部 109dは、実施の形態 2に示した変換 係数算出部 109a (図 9参照)と同様の基本的構成を有しており、同一の構成要素に は同一の符号を付し、その説明を省略する。
[0127] 変換係数算出部 109dは、広帯域 LSP符号ィ匕部 107d内の誤差最小化部 121dか ら出力される制御信号 C51によって、使用する予測係数を切り替える。すなわち、変 換係数算出部 109dは、制御信号 C51によって量子化 LSPを (式 2)で表す力 (式 3) で表すかを切り替える。
[0128] このように、変換係数算出部 109dは、実際に量子化を行なってみて、この量子化 結果に基づいて、(式 3)を用いた量子化を行なうか否かを決定する。よって、(式 3) の量子化によって確実に性能が良くなることが期待されるフレームに対してだけ (式 3 )を用いるモードが選択されるので、高い予測性能を得ることができる。
[0129] また、本実施の形態によれば、前フレームの広帯域 Z狭帯域の量子化 LSPパラメ ータ比と、現フレームの広帯域 Z狭帯域の LSPパラメータ比とが近 、フレームに対し てのみ、(式 3)による量子化が行なわれることとなる。すなわち、広帯域 Z狭帯域 LS Pパラメータが定常と判断されるフレームに対してではなぐ広帯域 Z狭帯域 LSPパ ラメータ比が定常と判断されるフレームに対して (式 3)による量子化が行なわれる。よ つて、誤り耐性を向上させることができる。何故なら、本実施の形態によれば、(式 3) による量子化モードが選択され続ける区間においては、広帯域 Z狭帯域の量子化 L SPパラメータ比が定常であることがほぼ保障される。よって、例えば、直前のフレーム が誤った場合、 2フレーム前、もしくはさらにもっと前のフレームの広帯域 Z狭帯域の 量子化 LSPパラメータ比を用いて近似を行うことが可能だ力もである。一方、 LSPパ ラメータが定常である力否かによってモード判定を行う場合、 LSPパラメータが定常 であっても必ずしも広帯域 Z狭帯域の量子化 LSPパラメータ比が定常であるとは限 らない。よって、直前のフレームが誤った場合、このフレームの代わりに、定常ではな い可能性のある 2フレーム前の広帯域 Z狭帯域の量子化 LSPパラメータ比を近似値 として用いてしまうおそれがある。このとき、誤りがない場合の復号結果とは大きく異な る復号結果を得てしまうこととなる。
[0130] また、本実施の形態によれば、直前のフレームが誤った場合、(式 2)によるモード が選択されることになる。よって、この段階で予測符号化がリセットされることとなるの で、誤りが後続フレームに伝播することを防止でき、誤り耐性がより高まる。
[0131] 図 19は、上記の広帯域 LSP符号ィ匕部 107dおよび変換係数算出部 109dを備えた 、本発明の実施の形態 5に係るスケーラブル符号ィ匕装置の主要な構成を示すブロッ ク図である。広帯域 LSP符号ィ匕部 107dから出力される信号 (Sl l、 S51)が実施の 形態 1〜4で示したスケーラブル符号ィ匕装置と異なつて 、る。
[0132] 本実施の形態に係るスケーラブル復号ィ匕装置の構成は、実施の形態 3に示したス ケーラブル復号ィ匕装置(図 14参照)と同様であるので、説明を省略する。
[0133] 以上、本実施の形態に係るスケーラブル符号ィ匕装置およびスケーラブル復号ィ匕装 置について説明した。
[0134] (実施の形態 6)
実施の形態 1〜5に係る発明は、前フレームの量子化結果を積極的に利用して現 フレームの予測を行うため、量子化性能を高くできる。よって、伝送路誤りのない、ま たはほとんどないアプリケーションに特に有効である。しかし、実施の形態 1〜5では、 伝送路誤りが発生すると、後続フレームに誤りが比較的長時間伝播する可能性があ る。具体的には、実施の形態 1〜5では、過去の狭帯域量子化 LSPと広帯域量子化 LSPとの関係を利用して現在の狭帯域量子化 LSPから広帯域量子化 LSPを予測す るため、伝送路誤りが発生した場合、符号化装置と復号化装置とで異なる量子化結 果が生成する可能性がある。かかる場合、復号化装置では、後続フレームにおける 予測が正しく行われなくなるため、後続フレームに誤りが伝播する。ただし、実施の形 態 2〜5においてこのような誤り伝播が生じるのは、過去の量子化 LSPを利用した予 測を用いるモードが連続し、かつ、この連続するフレームにおいて伝送路誤りが発生 した場合に限定される。
[0135] このような場合の改善手法として、過去の量子化結果に依存する予測に「忘却要素 」を組み込む手法が知られている(例えば、 Allen Gersho, Robert M. Gray著、古井, 田崎,小寺,渡辺共訳、「ベクトル量子化と情報圧縮」、第 16章、 698頁〜、小節「利 得適応 VQにおける伝送誤り」、コロナ社、 1998年 11月 10日発行を参照)。この忘 却要素を組み込む手法によれば、過去の量子化結果に依存する予測 (適応予測モ ード成分)と過去の量子化結果に依存しな 、予測(固定予測モード成分)との和を用 V、て現在の狭帯域量子化 LSPから現在の広帯域量子化 LSPを予測する。よって、 適応予測モード成分と固定予測モード成分との比率を最適化することにより、互いに トレードオフの関係にある、適応予測モード成分に由来する量子化性能改善効果と、 固定予測モード成分に由来する誤り耐性劣化抑制効果との調和を図ることができる。
[0136] 本発明の実施の形態 6では、実施の形態 5において前記忘却要素を組み込む手 法を適用することにより、伝送路誤りが発生した場合でも、伝送路誤りの影響を軽減 する。すなわち、現フレームの広帯域量子化 LSPの算出において、前フレームの量 子化結果を利用した適応予測モード成分と、過去のフレームの量子化結果を利用し ない固定予測モード成分(固定値)とを組み合わせて用いる。これにより、適応予測 モードのフレームで伝送路誤りが発生した場合でも、固定値の使用によって適応予 測成分を時間の経過とともに忘却させ、符号化装置と復号化装置との内部状態が時 間の経過とともに近づくようにすることができ、伝送路誤りの影響が軽減する。さらに、 本実施の形態では、固定予測だけを行うモードを備えるので、固定予測モードに切り 替わったフレームにおいて符号ィ匕装置および復号ィ匕装置の内部状態が共にリセット され、伝送路誤りの影響の後続フレームへの伝播が回避され、誤り耐性が改善される
[0137] 図 20は、本実施の形態に係る広帯域 LSP符号ィ匕部 107eの主要な構成を示すブ ロック図である。また、図 21は、本実施の形態に係る変換係数算出部 109eの主要な 構成を示すブロック図である。なお、この広帯域 LSP符号ィ匕部 107eおよび変換係数 算出部 109eは、実施の形態 5において、広帯域 LSP符号ィ匕部 107d (図 17参照)お よび変換係数算出部 109d (図 18参照)の代わりに使用されるものである。従って、本 実施の形態では、スケーラブル符号化装置およびスケーラブル復号化装置にっ 、て 、広帯域 LSP符号ィ匕部 107eと変換係数算出部 109eとに限り説明する。さらに、本 実施の形態では、広帯域 LSP符号ィ匕部 107eおよび変換係数算出部 109eの構成 要素について、広帯域 LSP符号ィ匕部 107dおよび変換係数算出部 109dの構成要 素と同様の機能を発揮する構成要素には同一の符号を付して、その説明を省略する
[0138] 広帯域 LSP符号ィ匕部 107eにおいて、増幅器 126— 1は、狭帯域 LSP符号化部 1 03から入力された LSPパラメータに、変換係数算出部 109eにおける係数テーブル 2 02— 2から入力された変換係数を乗じて、その乗算結果を増幅器 125— 1へ出力す る。一方で、増幅器 126— 2は、狭帯域 LSP符号ィ匕部 103から入力された LSPパラメ ータに対して、定常モード (適応予測モード)の場合には変換係数算出部 109eにお ける平滑ィ匕部 135から出力される変換係数を乗じて、また非定常モード(固定予測モ ード)の場合には係数テーブル 202— 1に格納されて 、る変換係数を乗じて、その乗 算結果を増幅器 125— 2へ出力する。従って、増幅器 126— 1、 126— 2が、本発明 における乗算手段を構成することになる。 [0139] また、広帯域 LSP符号化部 107eにおいて、増幅器 125— 1、 125— 2はそれぞれ 、増幅器 126— 1、 126— 2から入力されてくる広帯域 LSPのベクトル、すなわち狭帯 域量子化 LSPを変換して得られる広帯域 LSPのベクトルに対して、重み係数符号帳 223— 1、 223— 2から出力される既定の重み係数を乗じて、その乗算結果を加算器 128へ出力する。そして、加算器 128は、増幅器 124と増幅器 125— 1、 125— 2とカゝ ら出力された LSPベクトルの和を計算し、その加算結果を加算器 127へ出力する。
[0140] このように、本実施の形態では、増幅器 126— 1および増幅器 125— 1、 125— 2力 現フレームの狭帯域量子化 LSPに対して固定変換係数を常に乗じることになる。す なわち、増幅器 126— 1、 125— 1を介して加算器 128へ入力される信号は、狭帯域 LSP符号ィ匕部 103から入力される狭帯域量子化 LSPが、過去に発生した伝送路誤 りの影響を受けない限り、過去に発生した伝送路誤りの影響を受けない。また、固定 予測モードでの予測では、増幅器 126— 2も固定変換係数を前記狭帯域量子化 LS Pに乗じるので、前後フレームとの間で情報のやり取りが行われず、過去に発生した 伝送路誤りの影響が後続フレームに伝播しない。これらの結果、本実施の形態によ れば、伝送路誤りが発生した場合でも、その誤りの影響が後続フレームに伝播するこ とを抑制し、誤り耐性を改善することができる。
[0141] なお、本実施の形態では、変換係数算出部 109eに 2つの係数テーブル 202— 1、 202— 2を配置し、これに対応させて広帯域 LSP符号化部 107eに 2つの増幅器 126 —1、 126— 2を配置する場合について説明したが、本発明はこの場合に限定される ものではなく、さらに多くの係数テーブル 202および増幅器 126を配置するようにして も良い。
[0142] また、本実施の形態では、変換係数算出部 109eにおける係数テーブル 202— 1、 202— 2がそれぞれ別個である場合について説明したが、本発明はこの場合に限定 されるものではなぐ例えば変換係数算出部 109eにおいて係数テーブル 202が 1つ しか配置されず、この係数テーブル 202から同一の変換係数が広帯域 LSP符号ィ匕 部 107e〖こおける 2つの増幅器 126— 1、 126— 2にそれぞれ入力されるようにしても 良い。
[0143] また、本実施の形態では、変換係数算出部 109eが平滑ィ匕部 135を必要とする場 合について説明したが、本発明はこの場合に限定されるものではなぐ例えば平滑 化部 135を配置せず、除算器 133の出力をそのまま切替スィッチ 203へ接続する構 成としても良い。このような構成にすれば、切替スィッチ 203がー且係数テーブル 20 2— 1側に切り替わると、伝送路誤りの伝播を完全にリセットすることができる。
[0144] なお、変換係数算出部 109eが平滑ィ匕部 135を備える場合であっても、直前フレー ムが固定予測モードである(すなわち、切替スィッチ 203が係数テーブル 202— 1側 に接続される)場合は、(式 4)における Kを 0にして、換言すれば X (i) = Ύ (i)として 、現フレームの狭帯域量子化 LSPに適用される変換係数を求めるようにすれば、同 様に伝送路誤りの伝播を完全にリセットすることができる。
[0145] また、図 21に示した変換係数算出部 109eは、実施の形態 3に示したスケーラブル 復号化装置(図 14参照)における変換係数算出部 155bの代わりに使用することもで きる。
[0146] ちなみに、音声信号の主要成分はその低域に集まる傾向があるため、音声信号の 低域成分につ 、て広帯域量子化 LSPを予測する場合は、適応予測モード成分の構 成比率が低くなるように (例えば 50%以下となるように)重み係数を設計し、一方で音 声信号の高域成分にっ 、て広帯域量子化 LSPを予測する場合には、適応予測モ ード成分の構成比率が高くなるように (例えば 50%以上となるように)重み係数を設 計すれば、主観的な品質における誤り耐性と量子化性能との調和を図ることができる
[0147] (実施の形態 7)
本発明の実施の形態 7では、実施の形態 6において、狭帯域量子化 LSPの誤り感 度に基づいて、広帯域量子化 LSPの予測における固定予測モード成分と適応予測 モード成分との比率をフレーム毎に適応的に決定する。すなわち、実施の形態 6では 、重み係数符号帳 223— 1、 223— 2から出力される重み係数が既定値であつたが、 本実施の形態では、定常モードである場合に選択される重み係数符号帳 223— 1を 、現フレームの狭帯域量子化 LSPから算出される重み係数で逐次更新する。
[0148] ここで、 LSPの量子化においては、スペクトルの山の部分にある LSPと谷の部分に ある LSPとで主観的に許容される量子化雑音のレベルが異なることを利用するため に、量子化誤差を算出するときに「重み」を乗じた重み付きユークリッド距離で量子化 誤差を評価する手法が知られて ヽる。この「重み」を誤り感度に対応する尺度として 用いれば、フレーム毎に狭帯域量子化 LSPから「重み」を算出し、算出した「重み」に 応じて適応的に広帯域量子化 LSPの予測における固定予測モード成分と適応予測 モード成分との比率を変化させることができる。その結果、トレードオフの関係にある 誤り耐性と量子化性能との調節をフレーム毎に図れるようになる。
[0149] 図 22は、本実施の形態に係る広帯域 LSP符号ィ匕部 107fの主要な構成を示すプロ ック図である。なお、この広帯域 LSP符号ィ匕部 107fは、実施の形態 6において、広 帯域 LSP符号ィ匕部 107e (図 20参照)の代わりに使用されるものである。従って、本 実施の形態では、スケーラブル符号ィ匕装置について、広帯域 LSP符号化部 107fに 限り説明する。さらに、本実施の形態では、広帯域 LSP符号ィ匕部 107fの構成要素に ついて、広帯域 LSP符号化部 107eの構成要素と同様の機能を発揮する構成要素 には同一の符号を付して、その説明を省略する。
[0150] 広帯域 LSP符号ィ匕部 107fは、実施の形態 6で示した広帯域 LSP符号ィ匕部 107e において、重み係数算出器 2201をさらに具備するものである。重み係数算出器 220 1は、「誤り感度に応じた重み付け」をフレーム毎に行うものであり、狭帯域 LSP符号 化部 103から入力された狭帯域量子化 LSPに基づいて、例えば「R. Salami et al, " Design and Description of C - ACELP: A Toll Quality 8 kb/ s Speech Coder, IEEE Trans, on Speech and Audio Process., vol. 6, no. 2, pp.116- 130, March 1998.」の (9 )式ゃ「 K. Paliwal and B. S. Atal, "Efficient Vector Quantization of LPC
Parameters at 24 Bits/Frame," IEEE Trans, on Speech and Audio Process., vol. 1, no. 1, pp.3-14, January 1993.」の(9)式に記載された重みを算出し、算出した重みを 用いて重み係数符号帳 223— 1用の重み係数を算出する。そして、重み係数算出器 2201は、フレーム毎に算出した重み係数で重み係数符号帳 223— 1の重み係数符 号帳の内容を逐次更新する。また、本実施の形態では、重み係数算出器 2201は、 算出した重みが大きいほど (誤り感度が大きいほど)、広帯域量子化 LSPの予測にお ける固定予測モード成分の比率を高く設定し (例えば固定予測モード成分の比率を 50%以上に設定し)、一方でその重みが小さいほど、量子化性能が良くなるように学 習を行う。そして、この学習によって得られる最適構成比 (一般に適応予測モード成 分の比率が高くなる)に近づくように、重み係数算出器 2201は、重み係数符号帳 22 3— 1の内容を更新する。
[0151] このように、本実施の形態によれば、重み係数算出器 2201が現フレームの狭帯域 量子化 LSPの誤り感度に基づ 、て定常モードで選択される重み係数符号帳 223 - 1の内容を逐次更新するため、現フレームの広帯域量子化 LSPの予測における固定 予測モード成分と適応予測モード成分との比率を最適化することにより、誤り耐性の 劣化を抑えつつ量子化性能を最大化することができる。例えば、重み係数算出器 22 01が、広帯域量子化 LSPの予測において固定予測モード成分の比率を 100%とす れば、すなわち狭帯域量子化 LSPに固定変換係数を乗じる増幅器 126— 1に連結 された増幅器 125— 1の重みの比率を 100%とし、かつ、増幅器 125— 2の比率を 0 %とすれば、誤り耐性を改善することができる。一方、重み係数算出器 2201が、適 応予測モード成分の比率を 100%とすれば、誤り耐性が劣化する代わりに量子化性 能を改善することができる。また、重み係数算出器 2201が、固定予測モード成分と 適応予測モード成分との比率を例えば 50%、 50%とすれば、適応予測モード成分 に由来する量子化性能改善効果が生じ、この効果と共に、固定予測モード成分によ つて伝送路誤りの影響が広帯域 LSP符号ィ匕部 107fにおける計算回数に応じて希薄 化するため、その伝送路誤りの影響を後続フレームに伝播し難くすることができる。
[0152] また、本実施の形態によれば、重み係数符号帳 223— 1の内容が重み係数算出器 2201によってフレーム毎に逐次更新されるため、狭帯域量子化 LSPの誤り感度がフ レーム毎に遷移する場合でも、互 ヽにトレードオフの関係にある適応予測モード成分 に由来する量子化性能改善効果と固定予測モード成分に由来する誤り耐性劣化抑 制効果との調和を適応的に図ることができる。
[0153] ちなみに、音声信号の場合には、その高域成分について LSPパラメータを誤っても 主観品質への影響が比較的小さいことから、重み係数算出器 2201は、その低域成 分について固定予測モード成分の比率が高くなるように、一方でその高域成分につ V、て適応予測モード成分の比率が高くなるように、重み係数を決定することが好まし い。 [0154] なお、本実施の形態では、重み係数乗算器 2201が狭帯域量子化 LSPの誤り感度 に基づいて重み係数符号帳 223— 1用の重み係数を算出する場合について説明し たが、本発明はこの場合に限定されるものではなぐ例えば重み係数乗算器 2201が オフラインでの学習データ力も重み係数符号帳 223— 1用の重み係数を算出するよ うにしても良い。
[0155] 以上、本発明の各実施の形態について説明した。
[0156] 本発明に係るスケーラブル符号化装置およびスケーラブル復号化装置は、上記各 実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実 施の形態は、適宜組み合わせて実施することが可能である。
[0157] 本発明に係るスケーラブル符号ィ匕装置およびスケーラブル復号ィ匕装置は、移動体 通信システムにおける通信端末装置および基地局装置に搭載することも可能であり 、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供 することができる。
[0158] なお、ここでは、 LSPパラメータを符号ィ匕 Z復号ィ匕する場合について説明した力 I SP (Immittance Spectrum Pairs)パラメータについても本発明は適用可能である。
[0159] また、 LSPの余弦をとつたもの、すなわち、 LSPを L (i)とした場合の cos (L (i) )を特 に LSF (Line Spectral Frequency)と呼び、 LSPと区別する場合もあるが、本明細書 では、 LSFは LSPの一形態であり、 LSPに LSFは含まれるものとして LSPという用語 を用いている。すなわち、 LSPを LSFと読み替えても良い。
[0160] また、ここでは、 1フレーム前の広帯域 Z狭帯域の量子化 LSPパラメータの比を現 フレームにおける狭帯域一広帯域変換係数としたが、さらに過去のフレームの広帯 域 Z狭帯域の量子化 LSPパラメータの比を時系列的に用いて、現フレームの広帯域 Z狭帯域の量子化 LSPパラメータの比を予測あるいは外挿的に求め、求められた値 を現フレームの狭帯域 広帯域変換係数として用いても良!、。
[0161] また、ここでは、モードが定常モード Z非定常モードの 2つのモードからなる場合を 例にとって説明した力 モードは 3つ以上であっても良い。
[0162] また、ここでは、帯域スケーラブル符号ィ匕のレイヤが 2つである場合、すなわち、狭 帯域および広帯域の 2つの周波数帯域力 なる帯域スケーラブル符号ィ匕または帯域 スケーラブル復号ィ匕を例にとって説明したが、本発明は、 3つ以上の周波数帯域 (レ ィャ)カゝらなる帯域スケーラブル符号ィ匕または帯域スケーラブル復号ィ匕にぉ ヽても適 用できる。
[0163] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明はソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル 符号ィ匕方法またはスケーラブル復号ィ匕方法のアルゴリズムをプログラミング言語によ つて記述し、このプログラムをメモリに記憶してぉ 、て情報処理手段によって実行させ ることにより、本発明のスケーラブル符号ィ匕装置またはスケーラブル復号ィ匕装置と同 様の機能を実現することができる。
[0164] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部または全 てを含むように 1チップィ匕されても良い。
[0165] また、ここでは、 LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー LSI,ウノレ卜ラ LSIと呼称されることちある。
[0166] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Programmable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可 能なリコンフィギユラブル'プロセッサーを利用しても良い。
[0167] さらには、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積 回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィヒを行つ ても良 、。バイオ技術の適応等が可能性としてあり得る。
[0168] 本明細書は、 2004年 4月 27日出願の特願 2004— 132113および 2004年 9月 6 日出願の特願 2004— 259036に基づく。これらの内容はすべてここに含めておく。 産業上の利用可能性
[0169] 本発明に係るスケーラブル符号ィ匕装置、スケーラブル復号ィ匕装置、スケーラブル符 号化方法、およびスケーラブル復号ィ匕方法は、移動体通信システムやインターネット プロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] 入力信号から、周波数軸方向にスケーラビリティを有する狭帯域および広帯域の量 子化 LSPパラメータを生成するスケーラブル符号ィ匕装置であって、
狭帯域の入力信号の LSPパラメータを符号ィ匕して、狭帯域の第 1の量子化 LSPパ ラメータを生成する狭帯域符号ィヒ手段と、
前記第 1の量子化 LSPパラメータの周波数帯域を広帯域に変換する変換手段と、 広帯域に変換後の前記第 1の量子化 LSPパラメータを用いて広帯域の入力信号 の LSPパラメータの符号ィ匕を行 、、広帯域の第 2の量子化 LSPパラメータを生成す る広帯域符号化手段と、
過去に生成された前記第 1および第 2の量子化 LSPパラメータ間の関係に基づい て、前記変換手段で使用される変換係数を算出する算出手段と、
を具備するスケーラブル符号ィ匕装置。
[2] 変換係数が所定の範囲内に収まるように、前記算出手段によって算出された変換 係数に対し修正を行うリミッタ、
をさらに具備する請求項 1記載のスケーラブル符号ィ匕装置。
[3] 前記算出手段によって算出された変換係数を時間的に平滑化する平滑化手段、 をさらに具備する請求項 1記載のスケーラブル符号ィ匕装置。
[4] 前記算出手段は、
予め 1つまたは複数の変換係数が保持された係数テーブルを具備し、 過去に生成された前記第 1および第 2の量子化 LSPパラメータ間の関係に基づい て算出される変換係数と前記係数テーブルに保持された変換係数とを、前記入力信 号の音声モードによって切り替えて出力する、
請求項 1記載のスケーラブル符号化装置。
[5] 前記入力信号の音声モードは、
狭帯域の前記第 1の量子化 LSPの時間的変化に基づいて決定される、 請求項 4記載のスケーラブル符号化装置。
[6] 前記入力信号の音声モードは、
広帯域の前記入力信号の LSPパラメータの時間的変化に基づいて決定される、 請求項 4記載のスケーラブル符号化装置。
[7] 前記入力信号の音声モードは、
前記変換係数の変換利得に基づ 、て決定される、
請求項 4記載のスケーラブル符号化装置。
[8] 前記入力信号の音声モードは、
量子化誤差に基づ 、て閉ループで決定される、
請求項 4記載のスケーラブル符号化装置。
[9] 前記入力信号の音声モードを復号化装置に送信する、
請求項 4記載のスケーラブル符号化装置。
[10] 前記変換手段で得られる前記第 1の量子化 LPSパラメータを加算する加算手段を さらに具備し、
前記算出手段は、
予め 1つ以上の変換係数が保持された係数テーブルを具備し、過去に生成された 前記第 1および第 2の量子化 LSPパラメータ間の関係に基づいて算出される変換係 数と前記係数テーブルに保持された変換係数とを共に出力し、
前記変換手段は、
前記第 1の量子化 LSPパラメータに対して、前記算出手段力 出力される少なくと も 2つの前記変換係数を個別に乗算することにより、前記第 1の量子化 LSPパラメ一 タの周波数帯域を広帯域に変換して、広帯域に変換後の前記第 1の量子化 LSPパ ラメータを少なくとも 2つ生成し、
前記加算手段は、
前記変換手段によって広帯域に変換された少なくとも 2つの前記第 1の量子化 LPS ノ ラメータを加算し、
前記広帯域符号化手段は、
前記加算手段による加算後の前記第 1の量子化 LSPパラメータを用いて広帯域の 入力信号の LSPパラメータの符号ィ匕を行 、、広帯域の第 2の量子化 LSPパラメータ を生成する、
請求項 1記載のスケーラブル符号化装置。
[11] 前記変換手段によって広帯域に変換された少なくとも 2つの前記第 1の量子化 LPS ノ メータそれぞれに対して所定の重み係数を個別に乗算する乗算手段と、 前記乗算手段で使用される前記重み係数を算出する重み係数算出手段と、 をさらに具備し、
前記加算手段は、
前記乗算手段によって前記重み係数を乗じられた少なくとも 2つの前記第 1の量子 ィ匕 LSPパラメータを加算し、
前記重み係数算出手段は、
前記第 1の量子化 LSPパラメータの誤り感度に基づいて、前記乗算手段で使用さ れる前記重み係数を算出する、
請求項 10記載のスケーラブル符号ィ匕装置。
[12] 請求項 1記載のスケーラブル符号化装置を具備する通信端末装置。
[13] 請求項 1記載のスケーラブル符号化装置を具備する基地局装置。
[14] 周波数軸方向にスケーラビリティを有する狭帯域および広帯域の量子化 LSPパラメ ータを復号ィ匕するスケーラブル復号ィ匕装置であって、
狭帯域の量子化 LSPパラメータを復号ィ匕して、狭帯域の第 1の LSPパラメータを生 成する狭帯域復号化手段と、
前記第 1の LSPパラメータの周波数帯域を広帯域に変換する変換手段と、 広帯域に変換後の前記第 1の LSPパラメータを用いて広帯域の量子化 LSPパラメ 一タの復号化を行 、、広帯域の第 2の LSPパラメータを生成する広帯域復号ィ匕手段 と、
過去に生成された前記第 1および第 2の LSPパラメータ間の関係に基づいて、前記 変換手段で使用される変換係数を算出する算出手段と、
を具備するスケーラブル復号ィ匕装置。
[15] 請求項 14記載のスケーラブル復号ィ匕装置を具備する通信端末装置。
[16] 請求項 14記載のスケーラブル復号化装置を具備する基地局装置。
[17] 狭帯域の入力信号を符号ィヒして得られる狭帯域量子化 LSPパラメータの周波数帯 域を広帯域に変換する際に、過去の狭帯域量子化 LSPパラメータとこれに対応する 広帯域量子化 LSPパラメータとの関係に基づいて各フレームごとに適応的に前記変 換を行う、
スケーラブル符号ィ匕方法。
狭帯域量子化 LSPパラメータを復号ィ匕して得られる狭帯域 LSPパラメータの周波 数帯域を広帯域に変換する際に、過去の狭帯域 LSPパラメータとこれに対応する広 帯域 LSPパラメータとの関係に基づいて各フレームごとに適応的に前記変換を行う、 スケーラブル復号ィ匕方法。
PCT/JP2005/007438 2004-04-27 2005-04-19 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 WO2005112005A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
BRPI0510303-7A BRPI0510303A (pt) 2004-04-27 2005-04-19 dispositivo de codificação escalável, dispositivo de decodificação escalável, e seu método
EP05734658A EP1755109B1 (en) 2004-04-27 2005-04-19 Scalable encoding and decoding apparatuses and methods
US11/587,379 US8271272B2 (en) 2004-04-27 2005-04-19 Scalable encoding device, scalable decoding device, and method thereof
JP2006513512A JP4546464B2 (ja) 2004-04-27 2005-04-19 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
CN2005800131755A CN1947174B (zh) 2004-04-27 2005-04-19 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-132113 2004-04-27
JP2004132113 2004-04-27
JP2004-259036 2004-09-06
JP2004259036 2004-09-06

Publications (1)

Publication Number Publication Date
WO2005112005A1 true WO2005112005A1 (ja) 2005-11-24

Family

ID=35394383

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/007438 WO2005112005A1 (ja) 2004-04-27 2005-04-19 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法

Country Status (8)

Country Link
US (1) US8271272B2 (ja)
EP (1) EP1755109B1 (ja)
JP (1) JP4546464B2 (ja)
KR (1) KR20070009644A (ja)
CN (1) CN1947174B (ja)
BR (1) BRPI0510303A (ja)
RU (1) RU2006137841A (ja)
WO (1) WO2005112005A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1949693A1 (en) * 2005-10-12 2008-07-30 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
WO2008120438A1 (ja) * 2007-03-02 2008-10-09 Panasonic Corporation ポストフィルタ、復号装置およびポストフィルタ処理方法
JP2010520504A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
WO2010101190A1 (ja) * 2009-03-06 2010-09-10 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP2012088729A (ja) * 2011-12-06 2012-05-10 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0510014B1 (pt) * 2004-05-14 2019-03-26 Panasonic Intellectual Property Corporation Of America Dispositivo de codificação, dispositivo de decodificação e método do mesmo
EP1785985B1 (en) * 2004-09-06 2008-08-27 Matsushita Electric Industrial Co., Ltd. Scalable encoding device and scalable encoding method
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
CA2972808C (en) * 2008-07-10 2018-12-18 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
US20120053949A1 (en) * 2009-05-29 2012-03-01 Nippon Telegraph And Telephone Corp. Encoding device, decoding device, encoding method, decoding method and program therefor
US8964966B2 (en) * 2010-09-15 2015-02-24 Avaya Inc. Multi-microphone system to support bandpass filtering for analog-to-digital conversions at different data rates
MY185091A (en) 2011-04-21 2021-04-30 Samsung Electronics Co Ltd Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
CN105244034B (zh) * 2011-04-21 2019-08-13 三星电子株式会社 针对语音信号或音频信号的量化方法以及解码方法和设备
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
EP3279895B1 (en) * 2011-11-02 2019-07-10 Telefonaktiebolaget LM Ericsson (publ) Audio encoding based on an efficient representation of auto-regressive coefficients
EP2830062B1 (en) 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US20140307808A1 (en) * 2012-12-14 2014-10-16 Boris Kudryashov Protection against packet loss during transmitting video information
EP3742440B1 (en) * 2013-04-05 2024-07-31 Dolby International AB Audio decoder for interleaved waveform coding
CN104143336B (zh) * 2013-05-29 2015-12-02 腾讯科技(深圳)有限公司 一种获取语音信号的平滑谱的方法和装置
EP3399522B1 (en) * 2013-07-18 2019-09-11 Nippon Telegraph and Telephone Corporation Linear prediction analysis device, method, program, and storage medium
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6270992B2 (ja) * 2014-04-24 2018-01-31 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、プログラム及び記録媒体
EP3139383B1 (en) * 2014-05-01 2019-09-25 Nippon Telegraph and Telephone Corporation Coding and decoding of a sound signal
JP6270993B2 (ja) * 2014-05-01 2018-01-31 日本電信電話株式会社 符号化装置、及びその方法、プログラム、記録媒体
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10824917B2 (en) 2018-12-03 2020-11-03 Bank Of America Corporation Transformation of electronic documents by low-resolution intelligent up-sampling

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
TW326070B (en) * 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3134817B2 (ja) 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
CA2429832C (en) * 2000-11-30 2011-05-17 Matsushita Electric Industrial Co., Ltd. Lpc vector quantization apparatus
JP2003241799A (ja) 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EHARA H. ET AL.: "Kyotaiiki - Kotaiiki Yosoku Model ni Motozuku Taiiki Scalable LSP Ryoshika.", DAI 3 KAI FORUM ON INFORMATION TECHNOLOGY KOEN RONBUNSHU, 20 August 2004 (2004-08-20), pages 139 - 141, XP002992976 *
FURUI, TASAKI, KODERA, WATANABE: "Vector Ryoshika to Joho Asshuku", KORONASHA, 10 November 1998 (1998-11-10), pages 694 - 703, XP002903458 *
KOISHIDA X. ET AL.: "Enhancing MPEG-4CELP by jointly optimized inter/intra-frame LSP predictors.", PROC. IEEE WORKSHOP ON SPEECH CODING, 2000, pages 90 - 92, XP010520051 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8212693B2 (en) 2005-10-12 2012-07-03 Samsung Electronics Co., Ltd. Bit-stream processing/transmitting and/or receiving/processing method, medium, and apparatus
EP1949693A4 (en) * 2005-10-12 2010-05-19 Samsung Electronics Co Ltd METHOD AND DEVICE FOR PROCESSING / SENDING A BITSTROM AND METHOD AND DEVICE FOR RECEIVING / PROCESSING A BITSTROM
EP1949693A1 (en) * 2005-10-12 2008-07-30 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
WO2008120438A1 (ja) * 2007-03-02 2008-10-09 Panasonic Corporation ポストフィルタ、復号装置およびポストフィルタ処理方法
JP2010520504A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
US8599981B2 (en) 2007-03-02 2013-12-03 Panasonic Corporation Post-filter, decoding device, and post-filter processing method
CN102737642A (zh) * 2009-03-06 2012-10-17 株式会社Ntt都科摩 声音信号编解码方法、编解码装置和声音信号处理系统
CN102341851B (zh) * 2009-03-06 2013-09-04 株式会社Ntt都科摩 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统
CN102341851A (zh) * 2009-03-06 2012-02-01 株式会社Ntt都科摩 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统、声音信号编码程序以及声音信号解码程序
CN102737641A (zh) * 2009-03-06 2012-10-17 株式会社Ntt都科摩 声音信号编解码方法、编解码装置和声音信号处理系统
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
TWI385649B (zh) * 2009-03-06 2013-02-11 Ntt Docomo Inc An audio signal coding method, an audio signal decoding method, an encoding apparatus, a decoding apparatus, an audio signal processing system, an audio signal coding program recording medium, and an audio signal decoding program recording medium
RU2482554C1 (ru) * 2009-03-06 2013-05-20 Нтт Докомо, Инк. Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала
US9214161B2 (en) 2009-03-06 2015-12-15 Ntt Docomo, Inc. Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
RU2493619C1 (ru) * 2009-03-06 2013-09-20 Нтт Докомо, Инк. Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала
RU2493620C1 (ru) * 2009-03-06 2013-09-20 Нтт Докомо, Инк. Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала
WO2010101190A1 (ja) * 2009-03-06 2010-09-10 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
US8666754B2 (en) 2009-03-06 2014-03-04 Ntt Docomo, Inc. Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
US8751245B2 (en) 2009-03-06 2014-06-10 Ntt Docomo, Inc Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
CN102737641B (zh) * 2009-03-06 2014-07-02 株式会社Ntt都科摩 声音信号编解码方法、编解码装置和声音信号处理系统
CN102737642B (zh) * 2009-03-06 2014-07-30 株式会社Ntt都科摩 声音信号编解码方法、编解码装置和声音信号处理系统
JP2012088729A (ja) * 2011-12-06 2012-05-10 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム

Also Published As

Publication number Publication date
RU2006137841A (ru) 2008-05-10
BRPI0510303A (pt) 2007-10-02
EP1755109A4 (en) 2008-04-02
US20070223577A1 (en) 2007-09-27
KR20070009644A (ko) 2007-01-18
JPWO2005112005A1 (ja) 2008-03-27
EP1755109B1 (en) 2012-08-15
JP4546464B2 (ja) 2010-09-15
US8271272B2 (en) 2012-09-18
CN1947174A (zh) 2007-04-11
EP1755109A1 (en) 2007-02-21
CN1947174B (zh) 2012-03-14

Similar Documents

Publication Publication Date Title
JP4546464B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
RU2418324C2 (ru) Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
JP5143193B2 (ja) スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
JP5270025B2 (ja) パラメータ復号装置およびパラメータ復号方法
JP4394578B2 (ja) 可変ビットレート通話符号化における線形予測パラメータの強力な予測ベクトル量子化方法と装置
JP7209032B2 (ja) 音声符号化装置および音声符号化方法
JPH09127996A (ja) 音声復号化方法及び装置
Bouzid et al. Switched split vector quantizer applied for encoding the LPC parameters of the 2.4 Kbits/s MELP speech coder

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006513512

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007223577

Country of ref document: US

Ref document number: 11587379

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005734658

Country of ref document: EP

Ref document number: 1020067022317

Country of ref document: KR

Ref document number: 2006137841

Country of ref document: RU

Ref document number: 200580013175.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 1020067022317

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2005734658

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11587379

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0510303

Country of ref document: BR