WO1994029965A1 - Codeur-decodeur predictif lineaire a excitation par codes - Google Patents

Codeur-decodeur predictif lineaire a excitation par codes Download PDF

Info

Publication number
WO1994029965A1
WO1994029965A1 PCT/JP1993/000776 JP9300776W WO9429965A1 WO 1994029965 A1 WO1994029965 A1 WO 1994029965A1 JP 9300776 W JP9300776 W JP 9300776W WO 9429965 A1 WO9429965 A1 WO 9429965A1
Authority
WO
WIPO (PCT)
Prior art keywords
code
excitation
vector
excited linear
decoder
Prior art date
Application number
PCT/JP1993/000776
Other languages
English (en)
French (fr)
Inventor
Kenichiro Hosoda
Hiromi Aoyagi
Hiroshi Katsuragawa
Yoshihiro Ariyama
Original Assignee
Oki Electric Industry Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co., Ltd. filed Critical Oki Electric Industry Co., Ltd.
Priority to PCT/JP1993/000776 priority Critical patent/WO1994029965A1/ja
Priority to US08/379,653 priority patent/US5727122A/en
Priority to SG1996004078A priority patent/SG43128A1/en
Priority to EP03013629A priority patent/EP1355298B1/en
Priority to DE69334115T priority patent/DE69334115T2/de
Priority to EP93913500A priority patent/EP0654909A4/en
Priority claimed from SG1996004078A external-priority patent/SG43128A1/en
Publication of WO1994029965A1 publication Critical patent/WO1994029965A1/ja
Priority to NO950490A priority patent/NO950490L/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Definitions

  • the present invention relates to an encoder and a decoder that follow a code-excited linear predictive coding system (CELP).
  • CELP code-excited linear predictive coding system
  • code-excited linear predictive coding which is a modification of the code-excited linear predictive coding
  • VSELP vector-addition-excited linear predictive coding
  • Coders using the code-excited linear prediction coding method are described in, for example, the literature “NSJarna and JHChen,“ Speech Coding with Time-Varying Bit Allocations to Excitation and LPC Parameters ”, Proc. ICASSP, p65-68, 1989 J.
  • the basic configuration of an encoding method for a speech signal is to find a vocal tract parameter representing vocal tract characteristics of speech and a sound source parameter representing sound source information.
  • an excitation signal as sound source information is converted to an adaptive excitation code vector that contributes to voiced sound with statistically strong periodicity and a random non-speech signal with statistically weak periodicity.
  • the statistical excitation code vector that contributes to the input speech vector and stored in the codebook are coded with the statistical excitation code vector that contributes to the input speech vector and stored in the codebook, and the sum of the weighted error powers of the input speech vector and the synthesized speech vector is minimized.
  • the encoding process is performed by finding the optimal adaptive excitation code vector and statistical excitation code vector in each small codebook.
  • a forward-type coding for obtaining vocal tract parameters from the input speech vector At least the sound source parameters, that is, the information of the optimal adaptive excitation code and the statistical excitation code, are transmitted, regardless of the format or the coding method of the background type that obtains the vocal tract parameters from the synthesized speech vector.
  • the adaptive excitation codebook is updated adaptively by the synthesis code vector of the optimal adaptive excitation code vector and the statistical excitation code vector. It can be said that it is formed based on the code vector. For this reason, voiced sounds with strong periodicity have a slow rise time, and codes with strong pulse characteristics cannot be formed even in the stationary part of voiced sounds, and the reproduced voice lacks clarity.
  • the present invention has been made in consideration of the above points, and has a code capable of obtaining a high-quality reproduced voice even when a noise component having a strong pulse property is included in an input voice vector.
  • the objective is to provide an excitation linear predictive encoder and decoder.
  • the present invention improves the quality of reproduced audio even at low coding rates. It is intended to provide a code-excited linear prediction encoder and decoder that can be enhanced. Disclosure of the invention
  • the present invention relates to a code excitation linear prediction encoder that uses an excitation signal as an excitation codebook as sound source information of a voice, and a fixed code vector such as a statistical excitation code vector output from the excitation codebook.
  • a code vector conversion circuit is provided in the code excitation linear predictive encoder, which converts the frequency characteristics of the above into the frequency characteristics determined when the excitation code vector is output.
  • the code vector conversion circuit is provided for the following reason.
  • the frequency characteristics of the excitation signal have been theoretically modeled as white, but it has been experimentally confirmed that the frequency characteristics of the excitation signal are not white and have characteristics close to the frequency characteristics of the input speech vector. I have.
  • information representing the frequency characteristics includes parameters of LPC (linear prediction coefficient) and information of an optimal adaptive excitation code (including VQ gain corresponding thereto), which means pitch prediction information. Therefore, the code vector conversion circuit operates the frequency characteristics of the fixed code vector such as the statistical excitation code vector based on such information.
  • the code vector conversion circuit that brings the frequency characteristics of the fixed code vector closer to the frequency characteristics of the input speech vector is used. It is also provided in the linear predictive decoder. Then, in this code vector conversion circuit, an impulse response determined based on a vocal tract parameter as a filter transfer function H (Z),
  • H (Z) (1 - ⁇ Aj ajZ-J) / (1 - ⁇ BJ ajZ- ⁇ (1)
  • the adaptive excitation vector Is added to create the excitation code vector.
  • aj (j is 1 to p) is a parameter of LPC
  • p is a vocal tract analysis order.
  • A, B, and ⁇ are predetermined constants in the range of 0 ⁇ ⁇ 1, 0 ⁇ ⁇ 1, and 1 ⁇ 1, and L is calculated from the index of the adaptive excitation code vector. Pitch lag.
  • a pulsed excitation codebook that stores the pulsed excitation vector is provided so that the voiced sound with a strong periodicity can start quickly, and a clear pulse can be generated even in the stationary part of the voiced sound. This makes it possible to form a strong excitation code vector.
  • an excitation vector from a statistical excitation codebook or a pulsed excitation codebook is selected and used, and the selected information is used as a code excitation linear prediction code.
  • the excitation vector from the statistical excitation codebook or the pulse excitation codebook is selected based on the selection information given from the code-excitation linear prediction encoder. It is designed to improve playback quality at low encoding speeds.
  • the output vocal tract parameters are set as LSP (line spectrum pair) parameters, and the code-excited linear predictive decoder is used to reproduce the line spectral pair parameters.
  • LSP line spectrum pair
  • the code-excited linear predictive decoder is used to reproduce the line spectral pair parameters.
  • the playback quality at low coding rates is improved in terms of vocal tract parameters.
  • the LSP parameter is used as the vocal tract parameter because the interpolation characteristics with respect to the vocal tract frequency characteristics are improved, and the LSP parameter is better than the LPC parameter even if the LSP parameter is coded with a small number of coding bits. This is because there is an advantage that distortion imparted to the spectrum is small and that efficient coding can be performed by a combination with the vector quantization method.
  • FIG. 1 is a block diagram showing the structure of first and second code-excited linear prediction encoders according to the present invention
  • FIG. 2 is a block diagram showing first and second code-excited linear prediction encoders. It is a block diagram which shows the structure of the corresponding code excitation linear prediction decoder.
  • FIG. 3 is a block diagram showing the structure of a third code-excited linear prediction encoder according to the present invention
  • FIG. 4 is a code diagram corresponding to the third code-excited linear prediction encoder.
  • FIG. 4 is a block diagram showing a structure of a linear excitation linear prediction decoder.
  • FIG. 5 is a block diagram showing a detailed configuration of the code vector conversion circuit described in FIG. 3 or FIG. BEST MODE FOR CARRYING OUT THE INVENTION Code Excited Linear Prediction Encoder and Code Excited Linear Prediction Preferred embodiments of the encoder are described in detail with reference to the drawings.
  • FIG. 1 is a block diagram showing a structure of a first code excitation linear prediction encoder according to the present invention.
  • an input speech vector S which is grouped in a frame unit from an input terminal 101 and input as a vector, is first input to a vocal tract analysis circuit 102, and a vocal tract prediction parameter aj is calculated.
  • the LPC (linear prediction coefficient) quantization circuit 103 LPC-quantizes the vocal tract prediction parameters a j and sends the code Ic (LPC code) to the LPC inverse quantization circuit 104 and the multiplexing circuit 106.
  • the LPC inverse quantization circuit 104 inversely transforms the LPC code Ic into a vocal tract prediction parameter aqj and sends it to the synthesis filter 105.
  • the code vector conversion circuit 109 convolves the statistical excitation code vector e si from the statistical excitation codebook 108 using the impulse response of the filter transfer function H (Z) shown in the following equation (3). Calculates and outputs the modified statistical excitation code vector escl.
  • H (Z) (1 - ⁇ 0.4j aqj Z-no (1— ⁇ 0.9 ⁇ aqj Z) ⁇ ⁇ ⁇ (3)
  • the adaptive excitation vector eai is multiplied by the gain / 9k by the multiplier 113 to become the vector eaik, while the modified statistical excitation code vector e scl is multiplied by the gain yk by the multiplier 114 to become the vector esclk.
  • the adder 115 calculates the excitation code vector e by adding the components of the vector eaik and the vector esclk in component units.
  • the synthesis filter 105 calculates a synthesized speech vector Sw for the excitation code vector e, and sends it to the subtractor 116.
  • the subtractor 116 subtracts the component of the synthesized speech vector Sw and the input speech vector S on a component basis, and sends an error vector er to the perceptual filter 111.
  • the perceptual filter 111 sends a perceptual error vector ew for the error vector er to the perceptual error calculation circuit 112.
  • the perceptual error calculation circuit 112 calculates the root mean square of each component of the perceptual error vector ew, and determines the excitation code vector (ie, the combination of i, 1 and k) that minimizes this value as the input voice at the current time. The optimal excitation code vector of the vector is determined. Then, the indexes Ia, 18 and 1 of each codebook at that time are sent to the adaptive excitation codebook 107, the statistical excitation codebook 108, the VQ gain codebook 110 and the multiplexing circuit 106.
  • the adaptive excitation codebook 107 has the optimal adaptive excitation code vector ea based on the index Ia.
  • the statistical excitation codebook 108 outputs the optimal statistical excitation code vector es according to the index I s. Output, and the VQ gain codebook 110 provides the optimal VQ gain /? And a. Is output.
  • the code vector conversion circuit 109 outputs the statistical excitation code vector es output from the statistical excitation codebook based on the index Is.
  • the optimal modified statistical excitation code vector esc. And output.
  • the optimal excitation code vector e. pt is input to the adaptive excitation codebook 107, and changes the contents of the adaptive excitation codebook 107.
  • FIG. 2 is a block diagram of a code-excited linear prediction encoder corresponding to the code-excited linear prediction encoder of FIG.
  • a total code C input from an input terminal 201 is demultiplexed by an LPC code Ic, an adaptive excitation code index Ia, a statistical excitation code index Is and a VQ gain code by a demultiplexing circuit 212.
  • the signals are separated into an index Ig and sent to an LPC inverse quantization circuit 202, an adaptive excitation codebook 204, a statistical excitation codebook 205, and a VQ gain codebook 207, respectively.
  • the LPC inverse quantization circuit 202 converts the LPC code Ic into a vocal tract prediction parameter aj and sends it to the synthesis filter 203.
  • the adaptive excitation codebook 204 stores the adaptive excitation code vector ea based on the index la
  • the statistical excitation codebook 205 stores the statistical excitation code vector es based on the index Is
  • the VQ gain codebook 207 stores the index Ig based on the index Is.
  • the excitation gain / 3 and ⁇ are output based on this.
  • the code vector conversion circuit 206 converts the vector e s into the vector e sc in the same manner as the above-mentioned code excitation linear predictive encoder, and outputs it.
  • the adaptive excitation vector e a is multiplied by a gain /? By a multiplier 208, while the vector e sc is multiplied by a gain y by a multiplier 209. Then, the adder 210 performs addition in component units of these multiplied vectors to obtain an excitation code vector e.
  • the synthesis filter 203 calculates a synthesized speech vector S for the excitation code vector e, and outputs it from the output terminal 211.
  • the content of the adaptive excitation codebook 204 is updated by the vector e.
  • the configuration of the second code-excited linear prediction encoder is the same as that of the first code-excited linear prediction encoder except for the code vector conversion circuit 109. Now, only the operation of the code vector conversion circuit 109 will be described in detail.
  • the code vector conversion circuit 109 has a filter transfer function represented by the following equation (4).
  • L the pitch lag calculated from the index of the adaptive excitation code.
  • the index of the adaptive excitation code and the pitch lag correspond one-to-one as follows, for example.
  • the convolution process of the first and second code excitation linear predictive encoders is as follows, where esl is the output statistical excitation code vector of the statistical excitation codebook, escl is the converted statistical excitation code vector, and h is the impulse response. (5).
  • X, y and h are the respective elements, and n is the subframe length (or frame length).
  • the impulse response is the impulse response of the transfer function expressed using vocal tract parameters in the case of the first code-excited linear predictive encoder using the short-time nature of the input speech vector.
  • the transfer expressed using pitch lag is used. This is the impulse response of the arrival function.
  • FIG. 3 is a block diagram showing a structure of a third code excitation linear prediction encoder according to the present invention.
  • the code-excited linear predictive encoder generally includes an input speech processing unit 301, an optimum synthesized speech search unit 302, and a multiplexing circuit 303.
  • the input speech processing unit 301 includes an LSP parameter analysis circuit 311, an LSP parameter encoding circuit 312, an LSP parameter decoding circuit 313, an LPC inverse quantization circuit 314, a weighting filter 315, a synthesis filter zero input response generation circuit 316, It comprises a weighting filter zero input response generation circuit 317, a subtractor 318, and a subtractor 319.
  • the digitized discrete input speech vector sequence is accumulated for a time corresponding to the analysis frame length for obtaining the vocal tract parameters. Is divided into several subframes and processed by the input audio processing unit 301.
  • the input speech vector is provided to an LSP parameter analysis circuit 311, where the LSP parameter analysis circuit 311 analyzes the LSP parameter and converts it into LSP parameters as vocal tract parameters.
  • LSP parameters are encoded (for example, vectorized) by an LSP parameter encoding circuit 312, provided to a multiplexing circuit 303, and transmitted to a code excitation linear prediction decoder side. Further, the encoded LSP parameters are decoded (vector inverse quantization) by an LSP parameter decoding circuit 313 and then converted to LPC by an LPC inverse quantization circuit 314.
  • the above-mentioned input speech vector is given to the weighting filter 315 and weighted in consideration of human auditory characteristics, and then given to the subtracter 318 as a subtracted input. Further, to the subtracter 318, a zero input response vector relating to the synthesis filter 329 generated by the synthesis filter zero input response generator 316 using LPC as a tap coefficient is given as a subtraction input. Thus, a speech vector is obtained in which the influence of the state of the synthesis filter 329 in the immediately preceding analysis frame has been removed, and this is provided to the subtractor 319 as an input to be subtracted.
  • a zero input response vector related to the weighting filter 315 generated by the weighting filter zero input response generator 317 using the LPC as a sunset coefficient is given as a subtraction input.
  • a speech vector from which the influence of the state of the weighting filter 315 in the immediately preceding analysis frame has been removed is obtained, and this is given to a subtractor 330 described later as a target speech vector.
  • the optimum synthesized speech search unit 302 searches for sound source parameters whose synthesized speech vector obtained by local reproduction is most similar to the target speech vector.
  • the adaptive excitation codebook 320, statistical excitation codebook 321 and pulsed excitation codebook 322 are adaptive excitation code vector, statistical excitation code vector, and pulsed excitation code vector, which are waveform codes related to excitation signals, respectively.
  • the VQ gain codebook 323 stores the VQ for the adaptive excitation code vector and the fixed excitation code vector (general term for the statistical excitation code vector and the pulse excitation excitation vector). It stores the gain code.
  • the adaptive excitation code vector and the statistical excitation code vector are waveform excitation vectors in which the adaptive excitation code vector contributes to a voiced sound with strong statistical periodicity, as in the past. This is a waveform excitation code vector whose code vector contributes to random unvoiced sound with statistically weak periodicity. Note that the adaptive excitation code vector of the adaptive excitation codebook 320 is adaptively updated as described later.
  • the pulse excitation code vector is a waveform excitation code vector consisting of an isolated impulse, and takes into account the fact that it contributes to the rise of a voiced sound with a strong periodicity and the steady portion of a voiced sound with a clear pulse. It was done.
  • the VQ gain code is, for example, vector quantized, and one component of the vector relates to the VQ gain of the adaptive excitation code vector, and the other component relates to the VQ gain of the fixed code vector.
  • the pulsed sound source vector is a simple signal having a periodicity, it is considered that the pulsed signal can be generated by a pulse signal generation circuit.
  • This code is coded like a linear excitation predictive encoder. It is preferable to generate the information by reading it from the book 322 for the following reasons. That is, the sound source vector can be synchronized with the output from the adaptive excitation codebook 320, and the statistical excitation.
  • multiplexing processing when selecting a statistical excitation code vector or a pulse excitation code vector and transmitting the selected vector to the decoder will be described later. This is because it becomes easy.
  • the optimum code of various codes whose locally reproduced synthesized speech vector is most similar to the target speech vector is obtained, and the index is given to the multiplexing circuit 303, and the code excitation linearity is calculated. Transmit to the predictive decoder side.
  • the search for the optimal code including the selection process of the statistical excitation code vector or the pulse excitation code vector is performed by the adaptive excitation code,
  • the statistical excitation code, the pulse excitation code, and the VQ gain code are executed in this order.
  • the outputs from the statistical excitation codebook 321 and the pulse excitation codebook 322 are set to 0, and the VQ gain controller 324 sets the VQ gain to an appropriate value. Multiply by a factor (for example, 1).
  • the adaptive excitation codebook 320 outputs all stored adaptive excitation code vectors in time order or in parallel, and outputs the synthesized filter 329 via the VQ gain controller 324 and the adder 325. Is given as an excitation code vector.
  • the synthesis filter 329 performs convolution processing on this excitation code vector using the LPC given from the LPC inverse quantization circuit 314 as a tap coefficient, and only the content of the adaptive excitation code vector is used as a sound source parameter.
  • the reflected synthesized speech vector is obtained for all adaptive excitation code vectors.
  • the subtractor 330 obtains an error vector between the synthesized speech vector reflecting only the content of the adaptive excitation code vector and the target speech vector for all the adaptive excitation code vectors, and calculates an error.
  • Power sum calculation circuit 331 calculates the sum of squares of the components of the error vector (error power Is calculated for all the adaptive excitation code vectors, and given to the minimum error power sum code selection circuit 332.
  • the minimum error power sum code selection circuit 332 determines the adaptive excitation code vector having the minimum error power sum as the optimal one.
  • a search for an optimal statistical excitation code vector is performed.
  • the fixed code selection switch 326 is switched to the statistical excitation codebook 321 and the adaptive excitation codebook 320 is output. Is set to 0. -At this time, the optimal adaptive excitation code vector obtained earlier may be output.
  • the statistical excitation codebook 321 outputs all the stored statistical excitation code vectors in time order or in parallel, and switches the fixed code selection switch 326 and the VQ gain controller 324. Input to the code vector converter 328 via
  • the code vector conversion circuit 328 converts the frequency characteristics of the input statistical excitation code vector into the frequency characteristics of the input speech vector corresponding to the time length of the statistical excitation code vector. Perform the conversion operation to make them closer. All the statistical excitation vectors whose frequency characteristics have been converted in this way are added to the synthesis filter 329 as excitation code vectors via the adder 325 (in this case, they do not function as adders). Given. Subsequent processing is performed in the same manner as the search for the optimal adaptive excitation vector, and the minimum error power sum code selection circuit 332 determines the optimal statistical excitation vector.
  • the search for the optimal pulse excitation code vector is performed next.
  • the fixed code selection switch 326 is switched to the pulse excitation codebook 322, and the output of the adaptive excitation codebook 320 becomes zero.
  • the pulse excitation code book 322 stores all the stored pulse excitation codes. The vectors are output in chronological order or in parallel. Subsequent processing is the same as when searching for the optimal statistical excitation vector, and a description thereof will be omitted.
  • the minimum error power sum code selection circuit 332 determines the error power sum of the optimal statistical excitation code vector and the optimal pulse excitation code. The sum of the error power of the code vector and the sum of the error powers is compared, and the one with the smaller error power sum is determined as the fixed code to be transmitted to the code-excitation linear prediction decoder.
  • the search for the optimal VQ gain code is performed.
  • the adaptive excitation codebook 320 outputs the optimal adaptive excitation code vector
  • the fixed code selection switch 326 selects the selected statistical excitation codebook 321 or pulsed excitation.
  • the codebook is switched to the codebook 322, and the optimum fixed code vector is output from the selected fixed codebook 321 or 322.
  • One VQ gain codebook 323 consists of VQ gain for adaptive excitation code vector and VQ gain for fixed code vector, and VQ gain for adaptive excitation code vector is VQ gain.
  • the VQ gain for the fixed code vector is provided to the VQ gain controller 327.
  • the VQ gain-controlled optimal adaptive excitation code vector and the frequency characteristic operation and the VQ gain-controlled optimal fixed code vector are added by the adder 325, and the result is obtained as the excitation code vector.
  • the synthesis filter is provided to the filter 329. Such processing is performed on all the VQ gain codes in the VQ gain codebook 323 in time order or in parallel. The processing at the time of search after the synthesis filter 329 is the same as the processing at the time of searching for other codes.
  • the multiplexing circuit 303 multiplexes the LSP parameter given from the LSP parameter coding circuit 312 and the information, and outputs the multiplexed result to the code excitation linear predictive decoding side.
  • the transmitted index is a vector number.
  • the minimum error power sum code selection circuit 332 converts the index and fixed code selection switch information to be given to the multiplexing circuit 303 into a corresponding codebook (320 and 323 and 321 or 322) or a fixed code selection switch. Give to 326. At this time, the switch 326 is switched, and the optimal code is output from each codebook. As a result, an excitation vector that can form a synthesized speech vector closest to the target speech vector during the current subframe processing is output from the adder 325, and this is output to the adaptive excitation codebook 320. Given. Then, the adaptive excitation codebook 320 performs an adaptive excitation code update process.
  • the above encoding process is repeated for each subframe, and the encoded speech vector is sequentially transmitted to the code excitation linear prediction decoder.
  • FIG. 5 shows a detailed configuration of the code vector conversion circuit 328 described above.
  • the code vector conversion circuit 328 includes two cascade-connected filters 328a and 328b and a pitch lag determination circuit 328c.
  • the fixed code vector output from the fixed code selection switch 326 is provided to the first filter 328a.
  • the impulse response H1 (Z) of the first filter 328a is selected as shown in the following equation (6), whereby the frequency conversion with respect to the input fixed code vector is performed. Perform the operation.
  • H1 (Z) (1 ⁇ Ai ajZ- — ⁇ ajZ) —— (6)
  • aj (j is 1 to p) is a tap coefficient for the synthesis filter 329 supplied from the LPC inverse quantization circuit 314.
  • Yes, p is the vocal tract analysis order.
  • a and B are constants that are predetermined in the range of 0 ⁇ A and B ⁇ 1.
  • the fixed code vector whose frequency characteristic is manipulated by the first filter 328a is converted to the second filter 328b Is input to
  • the pitch lag determination circuit 328c obtains the pitch lag L from the index of the optimal adaptive excitation code for the adaptive excitation codebook 320, and provides the pitch lag L to the second filter 328b.
  • the impulse response H2 (Z) of the second filter 328b is selected as shown in the following equation (7), whereby the frequency conversion operation is performed on the input fixed code vector. .
  • is a predetermined constant in the range of 0 ⁇ 1.
  • the output power of the second filter 328b is provided to the VQ gain controller 327 shown in FIG.
  • the code vector conversion circuit 328 having such a detailed configuration changes the frequency characteristics of the input fixed code vector to the time length of the fixed code vector. Correspondingly, it can approach the frequency characteristics of the input speech vector.
  • FIG. 4 is a block diagram showing the structure of a code-excited linear prediction decoder corresponding to the code-excited linear prediction encoder of FIG.
  • the code-excited linear predictive decoder is a demultiplexer 440, an LSP parameter decoder 441, an LPC dequantizer 442, an adaptive excitation codebook 443, a statistical excitation codebook 444, and a pulsed excitation code. It consists of a bookbook 445, a VQ gain codebook 446, a VQ gain controller 447, a VQ gain controller 449, a fixed code selection switch 448, a frequency characteristic operation unit 450, an adder 451, and a synthesis filter 452.
  • the coded speech vector given from the code excitation linear prediction coder side is input to the demultiplexing circuit 440.
  • the demultiplexing circuit 440 separates the coded speech vector into LSP parameters, the index of the optimal adaptive excitation code, the index of the optimal fixed code, the index of the optimal VQ gain code, and the fixed code selection switch information. .
  • the LSP parameters are given to the LSP parameter decoding circuit 441, the index of the optimal adaptive excitation code is given to the adaptive excitation codebook 443, and the index of the optimal VQ gain code is given to the VQ gain codebook 446.
  • the fixed code selection switch information is provided to the fixed code selection switch 448.
  • the index of the optimal fixed code is given to the statistical excitation codebook 444 or the pulsed excitation codebook 445 determined based on the fixed code selection switch information.
  • the adaptive excitation codebook 443 outputs an adaptive excitation code vector determined by the given index, and the adaptive excitation vector is VQ-gain controlled via the VQ gain controller 447 and is output to the adder 451. Given. Further, the adaptive excitation codebook 443 provides the adaptive excitation code vector to the code vector conversion circuit 450.
  • the Statistical Excitation Codebook 444 or the Pulse Excitation Codebook 445 contains the statistical excitation vector or pulsed excitation code corresponding to the given index.
  • the code vector is supplied to a code vector conversion circuit 450 via a fixed code selection switch 448.
  • the code vector conversion circuit 450 operates based on the LPC and the index of the adaptive excitation code vector so that its frequency characteristic is close to the frequency characteristic of the input speech vector.
  • the more detailed configuration of the code vector conversion circuit 450 is the same as that in FIG. 5 described above.
  • the fixed code vector whose frequency characteristics have been manipulated in this way is subjected to VQ gain control by a VQ gain controller 449, and is provided to an adder 451.
  • the adder 451 adds the given adaptive excitation code vector and the fixed code vector, sets the added vector as an excitation code vector, and provides the resultant to the synthesis filter 452.
  • the synthesis filter 452 convolves the excitation code vector with LPC to form a synthesized speech vector and outputs it.
  • This code-excited linear predictive decoder performs the above processing every time a decoded speech vector is given, that is, for each subframe.
  • Characteristic features of the present invention are that transmission is performed using LSP parameters as vocal tract parameters, that a pulse excitation codebook is provided to provide sound source parameters, and that a fixed code base is used. The point is that the frequency characteristics of the vector are being manipulated. Each of these features is effective even if each is incorporated in the encoder and the decoder independently.
  • the encoder and the decoder relate to a forward-type code-excited linear predictive encoder and a decoder
  • the present invention relates to a backward-type code-excited linear-prediction encoder and a decoder. It can also be applied to gasifiers.
  • the above encoder and decoder are designed to solve the problems arising from the encoding speed of 4 bit / s or less. Even better adaptation to encoders and decoders You can get live audio. If the coding speed allows, the statistical excitation codebook and the pulse excitation codebook may not always be selected, but both may always be activated. Industrial applicability
  • the excitation code vector is considered in consideration of the fact that the frequency characteristics of the actual excitation code vector are close to those of the input speech vector.
  • convolution processing is performed on the statistical excitation code vector using a specific impulse response, and then added to the adaptive excitation code vector. Since there is a means to create the excitation code vector, an excitation code vector that is well suited to the input speech vector can be obtained even with a small number of vectors, and the quantization error vector associated with this conversion is obtained. A masking effect on the torque is produced, and the reproduction quality can be improved.
  • a pulse excitation excitation codebook that stores a pulse excitation excitation vector consisting of isolated impulse is provided, so that voiced sound with strong periodicity is provided. As a result, it is possible to form the excitation code vector with a clear pulse characteristic even in the stationary part of voiced sound.
  • the pulse excitation code vector and the statistical excitation code vector are switched, they can cope with low encoding speeds and have a mixture of random and pulse signals. A good reproduced sound can be obtained even for the signal of the period.
  • the excitation god vector from the statistical excitation codebook or the pulse excitation codebook is selected and used, so that the encoding bit of the sound source parameter is used. Number of Good reproduction sound can be obtained in a small number of states.
  • the vocal tract parameters used for voice synthesis are encoded with a small number of encoded bits, the vocal tract parameters are reduced by LPC or the like. Since the LSP parameter has a small distortion to the vector, it is possible to improve the reproduction quality at low coding speed from the viewpoint of the vocal tract parameters.

Description

明 細 書 コード励振線形予測符号化器及び復号化器 技術分野
本発明は、 コード励振線形予測符号化方式 (C E L P ) に従う符号化 器及び復号化器に関する。 技術背景
従来、 デジタル移動通信分野における音声信号 (音響信号を含む) の 高能率符号方式として、 コード励振線形予測符号化方式やこのコード励 振線形予測符号化方式の変形であるべク トル加算励振線形予測符号化方 式 (V S E L P ) が採用されてきた。 コード励振線形予測符号化方式を 用いた符号化装置は、 例えば文献 「N.S.Jayant and J.H.Chen, "Speech Cod- ing with Time-Varying Bit Allocations to Excitation and LPC Parameters", Proc. ICASSP, p65-68, 1989 J に開示されている。
音声信号に対する符号化方式の基本構成は、 音声の声道特性を表現す る声道パラメータと、 音源情報を表現する音源パラメータを求めること にある。 最近のコード励振線形予測符号化方式では音源情報としての励 振信号を、 統計的に周期性の強い有声音に寄与する適応励振コードべク トルと統計的に周期性の弱いランダム的な無音声に寄与する統計励振 コ—ドべク トルとでコードィ匕して、 ぞれぞれコードブックに格納してお き、 入力音声べク トルと合成音声べク トルとの重み付け誤差電力和が最 小となる各コードブック内の最適な適応励振コードべク トル及び統計励 振コードベク トルを見つけだすことで符号化処理を行なっている。 そし て、 入力音声べク トルから声道パラメータを得るフォヮ一ド型の符号化 形式であれ、 合成音声べク トルから声道パラメータを得るバックヮード 型の符号化方式であれ、 少なく とも音源パラメータ、 つまり最適な適応 励振コード及び統計励振コードの情報を伝送する。
このようなコ一ド励振線形予測符号化方式を用いることによって、 6 kbit/s〜 8 kbit/sの符号化速度において高品質な再生音声が得られることが 知られている。 - しかしながら、 通信システムの中には、 より低い符号化速度、 例えば 4 kbit/s以下を要求するものがあり、 このような低符号化速度の場合、 声 道パラメータ及び音源パラメータを共に伝送するフォヮード型であろう と、 音源パラメータを伝送するバックワー ド型であろう と、 音源パラ メータに割り当てられる符号化ビッ ト数は当然に少なくなり、 適応励振 コ一ドブック及ぴ統計励振コードブックに格納されている適応励振コ一 ドべク トル及び統計励振コードべク トルの数も少なくなる。 その結果、 このような低符号化速度においては再生音声の品質が低下する。
また、 適応励振コードブックは、 最適な適応励振コードべク トル及び 統計励振コードべク トルの合成コードべク トルによって適応的に更新さ れるものであるので、 適応励振コードべク トルは統計励振コードべク ト ルに基づいて形成されるものであるということができる。 そのため、 周 期性の強い有声音の立ち上がりが遅く、 有声音の定常部においても明確 なパルス性の強いコ—ドを形成できず、 再生音声が明瞭性に欠けるとい う欠点を有する。
本発明は、 以上の点を考慮してなされたものであり、 パルス性の強い 雑音成分が入力音声べク トルに含まれている場合にも、 高品質の再生音 声を得ることができるコード励振線形予測符号化器及び復号化器を提供 しょうとするものである。
さらに本発明は、 低符号化速度の場合であっても、 再生音声の品質を 高めることができるコード励振線形予測符号化器及び復号化器を提供し よう という ものである。 発明の開示
本発明は、 音声の音源情報として励振信号を励振コー ドブック化して 用いるコ—ド励振線形予測符号化器において、 励振コードブックから出 力された統計励振コードべク トル等の固定コードべク トルの周波数特性 を、 励振コードべク トルが出力された時点で定められた周波数特性に変 換するコードべク トル変換回路を、 コード励振線形予測符号化器に設け たものである。 ここで、 コードベク トル変換回路を設けたのは以下の理 由による。 従来、 励振信号の周波数特性は理論的に白色としてモデル化 されてきたが、 実際には白色的でなく、 入力音声ベク トルの周波数特性 に近い特性を有していることが実験によって確認されている。 従って、 固定コードべク トルの周波数特性を、 入力音声べク トルの周波数特性に 近付ければ、 それだけ高品質な合成音声ベク トルを得ることができる上 に、 励振コードべク トルの有効な周波数成分が量子化誤差べク トルより かなり大きくなつて、 量子化誤差べク トルのマスキング効果が得られる からである。 ここで、 周波数特性を表す情報としては、 L P C (線形予 測係数) のパラメータや、 ピッチ予測情報を意味する最適な適応励振 コー ドの情報 (それに対する V Qゲインを含む) がある。 従って、 コー ドべク トル変換回路はこれらの情報に基づいて、 統計励振コードべク ト ル等の固定コードべクトルの周波数特性を操作するものである。
さらに、 固定コードベク トルの周波数特性を、 対応するコード励振線 形予測符号化器から与えられた情報に基づいて、 入力音声ベク トルの周 波数特性に近付けるコ—ドべク トル変換回路をコード励振線形予測復号 化器にも設けたものである。 そして、 このコー ドベク トル変換回路において、 フィ ルタ伝達関数 H (Z)として声道パラメータに基づいて定められるインパルス応答、
H(Z)= (1 -∑ Aj ajZ-J) / (1 -∑ BJ ajZ- · · · · ( 1 ) あるいは、 励振のピッチラグに基づいて定められるィンパルス応答、 H(Z)=1 / ( 1一 ε Z- L) . . · · (2)
または、 上記式 ( 1 ) , (2) で示されるフィルタを縦属接続したイ ン パルス応答を用いて、 統計励振コードべク トルに畳み込み処理を施した 後、 適応励振コ一ドべク トルと加算して励振コードべク トルを作成する ようにしたものである。 但し、 aj ( j は 1〜 p) は、 L P Cのパラメ一 タであり、 pは声道分析次数である。 また、 A , B 及び εはそれぞれ、 0 < Α< 1 , 0 <Β< 1及び 1 < ε≤ 1の範囲で予め定められた定数で あり、 Lは適応励振コードべク トルのインデックスから計算したピッチ ラグである。
或いは、 励振コードブックとして適応励振コードブック及び統計励振 コ—ドブックを備えるコード励振線形予測符号化器或いは復号化器にお いて、 適応励振コードブック及び統計励振コードブックに加えて、 孤立 ィ ンパルスからなるパルス性励振コ一 ドべク トルを格納しているパルス 性励振コードブックを設け、 周期性の強い有声音の立ち上がりを早くで きるようにするとともに、 有声音の定常部においても明確なパルス性の 強い励振コードべク トルを形成できるようにしたものである。
さらに、 このコード励振線形予測符号化器において、 統計励振コード ブック又はパルス性励振コ一ドブックからの励振コ一ドべク トルを選択 して使用すると共に、 その選択情報をコ一ド励振線形予測復号化器に送 出する。 そして、 このコード励振線形予測復号化器において、 統計励振 コ一ドブック又はパルス性励振コードブックからの励振コ一ドべク トル を、 コード励振線形予測符号化器から与えられる選択情報に基づいて選 択して使用するようにし、 低符号化速度での再生品質の向上を実現する ようにしたものである。
加えて、 上記の各コード励振線形予測符号化器において、 出力する声 道パラメータを L S P (線スペク トル対) パラメータとし、 コード励振 線形予測複号化器において、 この線スペク トル対パラメータを音声再生 に利用することによって、 声道パラメータの面から、 低符号化速度での 再生品質を向上するものである。 ここで、 声道パラメータとして L S P パラメータを用いるのは、 声道の周波数特性に対する補間特性が良くな ることと、 L S Pパラメータは少ない符号化ビッ ト数で符号化しても L P Cパラメータ等よ り声道スペク トルに与える歪みが小さいこと、 及び べク トル量子化法との組み合わせによって効率の良い符号化ができるこ とを、 利点として有するからである。 図面の簡単な説明
第 1図は、 本発明に係る第 1及び第 2のコード励振線形予測符号化器 の構造を示すブロック図であり、 第 2図は、 第 1及び第 2のコード励振 線形予測符号化器に対応したコード励振線形予測復号化器の構造を示す ブロック図である。
第 3図は、 本発明に係る第 3のコ一ド励振線形予測符号化器の構造を 示すブロック図であり、 第 4図は、 第 3のコード励振線形予測符号化器 に対応したコ一ド励振線形予測復号化器の構造を示すプロック図であ る。 第 5図は、 第 3図或いは第 4図に記載されているコードべク トル変 換回路の詳細な構成を示したプロック図である。 発明を実施するための最良の形態 本発明によるコ—ド励振線形予測符号化器及びコード励振線形予測復 号化器の望ましい実施例を、 図面を参照しながら詳細に説明する。
第 1図は、 本発明に係る第 1のコード励振線形予測符号化器の構造を 示すブロック図である。 第 1図おいて、 入力端子 101よりフレーム単位に まとめられてベク トルとして入力された、 入力音声ベク トル Sは、 まず 声道分析回路 102に入力され、 声道予測パラメータ ajが計算される。
LPC (線形予測係数) 量子化回路 103は、 声道予測パラメ—ダ a jを L PC量子化し、 そのコード Ic (LPCコード) を LPC逆量子化回路 104 及び多重化回路 106に送出する。
L PC逆量子化回路 104は、 LPCコ一ド Icを声道予測パラメータ aqj に逆変換して合成フィルタ 105に送出する。
次に、 適応励振コードブック 107から適応励振コードベク トル e ai ( i = 1〜! l ) が、 統計励振コードブック 108から統計励振コードベク トル e si U=l〜m) 、 そして VQゲインコードブック 110から励振ゲイン /9k 及びァ k (k = l〜r) が出力される。
コードベク トル変換回路 109は、 次の式 (3) で示すフィルタ伝達関数 H(Z)のインパルス応答を用いて、 統計励振コードブック 108からの統計励 振コ一ドべク トル e siを畳み込み、 修正統計励振コードべク トル esclを計 算し出力する。 H(Z)= (1 -∑ 0.4j aqj Z一 ノ(1—∑ 0.9^ aqj Z ) · · · (3)
j = i j = 1 但し、 aqj は LPC逆量子化回路 104の出力、 pは声道分析次数であ る
適応励振コ一ドべク トル eaiは乗算器 113によりゲイン /9kが乗ぜられべ ク トル eaikとなり、 一方、 修正統計励振コードベクトル e sclは乗算器 114 によりゲイン ykが乗ぜられべクトル esclkとなる。 加算器 115は、 べク トル eaikとべク トル e sclkの成分単位の加算を行な い励振コー ドべク トル eを計算する。
合成フィルタ 105は、 励振コー ドべク トル eに対する合成音声べク トル Swを計算し、 減算器 116に送出する。
減算器 116は、 合成音声ベク トル Swと入力音声ベク トル Sの成分単位 の減算を行ない、 誤差べク トル erを知覚フィルタ 111に送出する。
知覚フィルタ 111は誤差べク トル erに対する知覚誤差べク トル ewを知 覚誤差計算回路 112に送出する。
知覚誤差計算回路 112は、 知覚誤差べク トル ewの各成分の 2乗平均を 計算し、 この値が最小となる励振コードベク トル (即ち、 i, 1及び k の組み合わせ) を現時刻の入力音声べク トルの最適な励振コー ドべク ト ルとして決定する。 そして、 その時の各コー ドブックのインデックス I a, 18及び1 を、 適応励振コードブック 107, 統計励振コードブック 108, VQゲインコードブック 110及び多重化回路 106に送出する。
適応励振コー ドブック 107は、 インデックス I aによ り最適な適応励振 コードベク トル ea。を出力し、 統計励振コードブック 108は、 インデック ス I sによ り最適な統計励振コードベク トル es。を出力し、 VQゲイ ン コードブック 110は、 ィンデックス Igにより最適な VQゲイン /?。及びァ。 を出力する。 コードベク トル変換回路 109は、 インデックス I sに基づいて 統計励振コードブックから出力された統計励振コードベク トル es。を、 最 適な修正統計励振コードべク トル esc。に変換して出力する。
これら eaQ , esc0 , /3。及ぴァ。により構成される最適な励振コードべ ク トル e。 ptは適応励振コ一ドブック 107に入力され、 適応励振コードブッ ク 107の内容を変更する。
多重化回路 106は、 Ic, la, I s及び I gをトータルコード Cとして出 力端子 117により受信側に伝送する。 第 2図は、 第 1図のコード励振線形予測符号化器に対応したコード励 振線形予測符号化器のプロック図である。
第 2図において、 入力端子 201より入力されたトータルコード Cは多重 分離回路 212によ り L P Cコー ド I c, 適応励振コー ドインデックス I a, 統計励振コードィンデックス I s及ぴ V Qゲインコードィンデックス I gに 分離され、 各々 L P C逆量子化回路 202, 適応励振コードブック 204, 統計 励振コードブック 205及び V Qゲインコードプック 207に送出される。
L P C逆量子化回路 202は、 L P Cコード I cを声道予測パラメータ aj に変換して合成フィルタ 203に送出する。 適応励振コードブック 204はィン デックス l aに基づいて適応励振コードベク トル e aを、 統計励振コード ブック 205はインデックス I sに基づいて統計励振コードべクトル e sを、 V Qゲインコードブック 207はィンデックス I gに基づいて励振ゲイン /3及 び γを出力する。
コードべク トル変換回路 206は、 上記のコ—ド励振線形予測符号化器と 同様にしてべクトル e sをべク トル e scに変換して出力する。
適応励振コ一ドべクトル e aは乗算器 208によりゲイン/?が乗ぜられ、 一 方、 ベク トル e scは乗算器 209によりゲイン yが乗ぜられる。 そして加算 器 210によって、 これらの乗算されたべク トルの成分単位の加算を行なわ れ、 励振コードベク トル eが求められる。
そして、 合成フィルタ 203が、 励振コードベク トル eに対する合成音声 べク トル Sを計算し、 出力端子 211より出力する。 併せて、 適応励振コー ドブック 204はべク トル eによりその内容が更新される。
次に、 第 1図を使い、 本発明に係る第 2のコード励振線形予測符号化 器について説明する。
この第 2のコード励振線形予測符号化器の構成は、 コードベク トル変 換回路 109以外は全て第 1のコ—ド励振線形予測符号化器と同様であるの で、 コー ドベク トル変換回路 109の動作についてのみ詳細に説明する。 コードベク トル変換回路 109は、 次の式 (4 ) で示すフィルタ伝達関数
H(Z)のイ ンパルス応答を用いて、 ベク トル e siを畳み込み、 ベク トル e sclを計算する。
H(Z)= 1ノ ( 1— ε Z し) · · · ( 4 )
ただし、 εは e = 1.0、 Lは適応励振コードのインデックスから計算し たピッチラグである。
なお、 シフトタイプの適応励振コードブックでは、 適応励振コードの インデックスと、 ピッチラグは、 例えば以下のように 1対 1に対応して いる。
適応コードインデックス 0 1 2 · · · i · · ·
1 I ! 1
ピッチラグ 20 21 22 20+ i
上記第 1及び 2のコード励振線形予測符号化器の畳み込み処理は、 esl を統計励振コードブックの出力統計励振コードベク トル、 esclを変換後 の統計励振コードベク トル、 hをインパルス応答として、 次の式 (5) で示すことができる。
e scl = e si X h · · . · ( 5 )
ただし、 escl =[x0, x, , , , x n_j], esl =[y0, y , , , , y n_ h=[h0 , h, , , , h n_J ([ ]は列べク トル) ,
X, y及び hはそれぞれの要素、 nはサブフレーム長 (又はフレーム 長) である。
インパルス応答は、 入力音声べク トルの短時間的な性質を用いる第 1 のコード励振線形予測符号化器の場合は、 声道パラメ一タを用いて表現 した伝達関数のインパルス応答であり、 長時間的な性質を用いる第 2の コード励振線形予測符号化器の場合は、 ピッチラグを用いて表現した伝 達関数のィンパルス応答である。
第 3図は、 本発明に係る第 3のコード励振線形予測符号化器の構造を 示すブロック図である。 第 3図おいて、 このコード励振線形予測符号化 器は、 大きくは入力音声処理部 301と最適合成音声探索部 302と多重化回路 303とから構成されている。
入力音声処理部 301は、 L S Pパラメータ分析回路 311, L S Pパラメ一 タ符号化回路 312, L S Pパラメータ複号化回路 313, L P C逆量子化回路 314, 重み付けフィルタ 315, 合成フィルタ零入力応答生成回路 316, 重み 付けフィルタ零入力応答生成回路 317, 減算器 318及び減算器 319から構成 されており、 入力音声べク トルが与えられたときに、 復号化器に伝送す る声道パラメータを得ると共に、 局部再生で形成される合成音声べク ト ルの目標音声べク トルを形成するものである。
このコード励振線形予測符号化器の場合、 デジタル化された離散的な 入力音声べク トル系列は、 声道パラメータを求めるための分析フレーム 長に対応する時間だけ蓄積され、 さらに、 この分析フレーム長は数個の サブフレームに分割されて入力音声処理部 301で処理される。
入力音声べク トルは L S Pパラメータ分析回路 311に与えられ、 この L S Pパラメータ分析回路 311によって L S Pパラメータ分析されて声道パ ラメ一タとしての L S Pパラメータに変換される。 この L S Pパラメ一 タは L S Pパラメータ符号化回路 312によって符号化 (例えばベク トル量 子化) されて多重化回路 303に与えられてコード励振線形予測復号化器側 に伝送される。 また、 符号化された L S Pパラメ一タは、 L S Pパラ メータ復号化回路 313によって複号化 (ベク トル逆量子化) された後、 L P C逆量子化回路 314によって L P Cに変換される。 このように変換され た L P C力 s、 重み付けフィルタ 315、 合成フィルタ零入力応答生成回路 316、 重み付けフィルタ零入力応答生成回路 317及び後述する合成フィルタ 329のタップ係数として使用される。 また、 後述するコードベク トル変換 回路 328にも与えられる。 なお、 L S Pパラメータ分析回路 311から出力さ れた L S Pパラメータを直接 L P Cに変換するのではなく、 符号ー復号 処理を施した L S Pパラメータを L P Cに変換するするのは、 復号化器 が利用する L P Cと同様な L P Cを局部再生で利用して、 音源パラメ一 タを適切に決定できるようにするためである。
次に、 入力音声べク トルから局部再生される合成音声べク トルに対す る、 目標音声ベク トルを形成する動作を説明する。
上記した入力音声べク トルは重み付けフィルタ 315に与えられ、 人間の 聴覚特性が考慮された重み付けが施された後に、 減算器 318に被減算入力 として与えられる。 さらに、 この減算器 318には、 合成フィルタ零入力応 答生成器 316が L P Cをタツプ係数として用いて生成した合成フィルタ 329 に関する零入力応答ベク トルが、 減算入力として与えられる。 かく し て、 直前の分析フレームにおける合成フィルタ 329の状態の影響が除去さ れた音声ベク トルが得られ、 これが減算器 319に被減算入力として与えら れる。 さらに、 この減算器 319には、 重み付けフィルタ零入力応答生成器 317が L P Cを夕ップ係数として用いて生成した重み付けフィルタ 315に関 する零入力応答ベク トルが、 減算入力として与えられる。 かく して、 直 前の分析フレームにおける重み付けフィルタ 315の状態の影響が除去され た音声ベク トルが得られ、 これが目標音声ベク トルとして後述する減算 器 330に与えられる。
最適合成音声探索部 302は、 局部再生による合成音声べク トルが最も目 標音声べク トルに類似する音源パラメ一タを探索するものであり、 適応 励振コードブック 320、 統計励振コードブック 321、 パルス性励振コード ブック 322、 V Qゲインコードブック 323、 V Qゲイン制御器 324及び 327、 加算器 325、 固定コード選択スィッチ 326、 前述のコードべク トル変換回路 328、 合成フィルタ 329、 減算器 330、 誤差電力和計算回路 331及び最小誤差 電力和コード選択回路 332から構成されている。
適応励振コードブック 320、 統計励振コードブック 321及びパルス性励振 コードブック 322はそれぞれ、 励振信号に係る波形コードである適応励振 コー ドベク トル、 統計励振コー ドベク トル、 パルス性励振コー ドべク ト ルを格納しているものであり、 V Qゲインコードブック 323は適応励振 コードべク トル及び固定コードべク トル (統計励振コ一ドべク トル及び パルス性励振コードべク トルを総称する) に関する V Qゲインコードを 格納しているものである。
適応励振コードベク トル及び統計励振コードベク トルはそれぞれ、 従 来と同様に、 適応励振コードべク トルが統計的に周期性の強い有声音に 寄与する波形励振コ一ドべク トルであり、 統計励振コー ドべク トルが統 計的に周期性の弱いランダム的な無声音に寄与する波形励振コードべク トルである。 なお、 適応励振コードブック 320の適応励振コードベク トル は後述するように適応的に更新される。
パルス性励振コ一 ドべク トルは、 孤立イ ンパルスよ り なる波形励振 コードベク トルであり、 周期性の強い有声音の立ち上がりや、 パルス性 が明確な有声音の定常部分に寄与することを考慮したものである。
V Qゲインコ一ドは、 例えばべク トル量子化されており、 べク トルの 一成分が適応励振コー ドベク トルの V Qゲインに関し、 他成分が固定 コードべクトルの V Qゲインに関するものである。
なお、 パルス性の音源べク トルは、 周期性を有する単純な信号である のでパルス信号発生回路で発生させることも考えられる力?、 このコード 励振線形予測符号化器のようにコード化してコードブック 322から読出し て発生させるほうが、 以下の理由により好ましい。 即ち、 音源べク トル を適応励振コードブック 320からの出力と同期させ良く、 また、 統計励振 コードブック 321と同一のブック構成とすることで後述するように統計励 振コードべク トル又はパルス性励振コ一ドべク トルを選択して復号化器 に伝送する際の多重化処理等が容易になるためである。
このような各種コードを用いて、 局部再生した合成音声べク トルが目 標音声ベク トルに最も類似する各種コー ドの最適コードを求めて、 その インデックスを多重化回路 303に与え、 コード励振線形予測復号化器側に 伝送する。
このような、 統計励振コードべク トル又はパルス性励振コードべク ト ルの選択処理を含む、 最適コー ドの検索は、 このコー ド励振線形予測符 号化器の場合、 適応励振コー ド, 統計励振コー ド, パルス性励振コー ド, V Qゲインコードの順に実行される。
最適な適応励振コ—ドべク トルの探索時においては、 統計励振コード ブック 321及びパルス性励振コ一ドブック 322からの出力を 0とし、 また、 V Qゲイン制御器 324が適切な値の V Qゲイン係数 (例えば 1 ) を乗算す る。 このような状態において、 適応励振コードブック 320は、 格納されて いる全ての適応励振コードべク トルを時間順に又は並列的に出力させ、 V Qゲイン制御器 324及び加算器 325を介して合成フィルタ 329に励振コー ドべク トルとして与える。 合成フィルタ 329は、 L P C逆量子化回路 314か ら与えられた L P Cをタップ係数として、 この励振コードべク トルに対 して畳み込み処理を行ない、 音源パラメータとして適応励振コードべク トルの内容だけが反映された合成音声べク トルを、 全ての適応励振コー ドべク トルについて求める。
減算器 330は、 適応励振コードべク トルの内容だけが反映された合成音 声べク トルと目標音声べク トルとの誤差べク トルを、 全ての適応励振 コードべク トルについて求めて誤差電力和計算回路 331に与える。 誤差電 力和計算回路 331は誤差べク トルについてその成分の 2乗和 (誤差電力 和) を、 全ての適応励振コードベク トルについて求めて最小誤差電力和 コード選択回路 332に与える。 最小誤差電力和コード選択回路 332は、 誤差 電力和が最小の適応励振コードべク トルを最適なものと決定する。
次に、 最適な統計励振コードベク トルの探索が実行されるが、 この探 索時おいては、 固定コ一ド選択スィツチ 326が統計励振コードブック 321側 に切り換えられ、 適応励振コードブック 320が出力を 0とする。-このと き、 先に求めた最適適応励振コードべク トルを出力してもよい。 このよ うな状態において、 統計励振コードブック 321は、 格納されている全ての 統計励振コー ドべク トルを時間順に又は並列的に出力し、 固定コー ド選 択スィッチ 326及び V Qゲイン制御器 324を介してコードべク トル変換回路 328に入力する。
このコードべク トル変換回路 328は、 入力された統計励振コードべク ト ルの周波数特性を、 統計励振コードべク トルの時間的な長さに対応して 入力音声べク トルの周波数特性に近付けるように変換操作する。 このよ うに周波数特性が変換操作された全ての統計励振コ—ドべク トルが加算 器 325 (この場合、 加算器としての機能はしていない) を介して励振コー ドベク トルとして合成フィルタ 329に与えられる。 これ以降は、 最適な適 応励振コ一ドべク トルの探索と同様に処理され、 最小誤差電力和コード 選択回路 332が最適な統計励振コ—ドべクトルを決定する。
このようにして、 最適な統計励振コードベク トルの探索が終了する と、 次には、 最適なパルス性励振コードベク トルの探索を行なう。 この 探索時においては、 固定コード選択スィツチ 326がパルス性励振コード ブック 322側に切り換えられ、 適応励振コードブック 320が出力を 0とす る。 このとき、 統計励振コードべク トルの場合と同様に、 先に求めた最 適適応励振コードベク トルを出力してもよい。 この状態において、 パル ス性励振コ一ドブック 322は、 収納されている全てのパルス性励振コ一ド べク トルを、 時間順に又は並列的に出力する。 以降の処理は、 最適な統 計励振コ一 ドべク トルの探索時と同様であるので、 その説明は省略す る
このようにして、 最適なパルス性励振コードべク トルが決定されたと きには、 最小誤差電力和コード選択回路 332は、 最適な統計励振コードべ ク トルの誤差電力和と最適なパルス性励振コードべク トルの誤差電力和 とを比較し、 誤差電力和が小さい方をコード励振線形予測復号化器側に 伝送する固定コ—ドに決定する。
この後、 最適な V Qゲインコー ドの探索が行なわれる。 この V Qゲイ ンコー ドの探索時においては、 適応励振コードブック 320からは最適な適 応励振コードべク トルが出力され、 固定コード選択スィツチ 326は選択さ れた統計励振コードブック 321又はパルス性励振コ一ドブック 322に切り換 えられ、 選択された固定コードブック 321又は 322から最適な固定コードべ クトルが出力される。 1個の V Qゲインコードブック 323は適応励振コー ドべク トル用の V Qゲインと固定コ一ドべク トル用の V Qゲインからな り、 適応励振コー ドべク トル用の V Qゲインは V Qゲイン制御器 324に与 えられ、 固定コードべク トル用の V Qゲインは V Qゲイン制御器 327に与 えられる。 かく して、 V Qゲイン制御された最適適応励振コードべク ト ルと、 周波数特性操作と V Qゲイン制御とが施された最適固定コードべ ク トルとが加算器 325によって加算され、 励振コードベク トルとして合成 フィルタ 329に与えられる。 このような処理は、 V Qゲインコードブック 323内の全ての V Qゲインコードに対して時間順又は並列的に実行され る。 合成フィルタ 329以降の探索時の処理は、 他のコードの探索時の処理 と同様である。
最小誤差電力和コード選択回路 332は、 最適適応励振コード、 最適固定 コード、 最適 V Qゲインコードが得られると、 これらのインデックスを 多重化回路 303に与えると共に、 統計励振コードべク トル及びパルス性励 振コ一ドべク トルのどちらかを選択したかを表す固定コード選択スィッ チ情報も多重化回路 303に与える。 多重化回路 303は、 L S Pパラメ一タ符 号化回路 312から与えられた L S Pパラメータと、 これら情報とを多重化 してコード励振線形予測複号化器側に出力する。 なお、 V Qゲインコー ドとしてべク トル量子化を適用している場合には、 伝送されるィンデッ クスはべク トル番号である。
また、 最小誤差電力和コード選択回路 332は、 多重化回路 303に与えるィ ンデックス及び固定コ一 ド選択スィ ツチ情報を、 対応するコー ドブック (320及び 323と、 321又は 322) や固定コード選択スィ ッチ 326に与える。 このとき、 スィッチ 326が切り換えられ、 各コードブックから最適コード が出力される。 これにより、 今回のサブフレーム処理時において最も目 標音声べク トルに近い合成音声べク トルを形成できる励振コ一ドべク ト ルが加算器 325から出力され、 これが適応励振コードブック 320に与えられ る。 そして、 適応励振コードブック 320は適応励振コードの更新処理を行 なう。
以上のような符号化処理がサブフレーム毎に繰り返され、 符号化音声 べク トルが順次コード励振線形予測復号化器に送信される。
第 5図は、 上述したコードべク トル変換回路 328の詳細構成を示すもの である。 第 3図において、 このコードベク トル変換回路 328は、 縦属接続 された 2個のフィルタ 328a及ぴ 328bと、 ピッチラグ決定回路 328cとから構 成されている。
固定コ一ド選択スィツチ 326から出力された固定コ一ドべク トルは、 第 1のフィルタ 328aに与えられる。 この第 1のフィルタ 328aのィンパルス応 答 H 1(Z)は、 次の式 (6 ) に示すように選定されており、 これによつて入 力された固定コ—ドべク トルに対する周波数変換操作を行なう。 H1(Z)= ( 1 ∑ A.i ajZ- —∑ ajZ )—— (6) 但し、 aj ( j は 1〜 p) は、 L PC逆量子化回路 314から供給される 合成フィルタ 329に対するタップ係数であり、 pは声道分析次数である。 また、 A及び Bは、 0 <A, B< 1の範囲で予め定められた定数であ この第 1のフィルタ 328aによつて周波数特性が操作された固定コードべ クトルが、 第 2のフィルタ 328bに入力される。 ピッチラグ決定回路 328cは 適応励振コードブック 320に対する最適適応励振コ— ドのインデックスか らピッチラグ Lを得て第 2のフィルタ 328bに与える。 この第 2のフィルタ 328bのインパルス応答 H2(Z)は、 次の式 (7) で示すように選定されてお り、 これによつて入力された固定コードべク トルに対する周波数変換操 作を行なう。
H2(Z)= 1 / ( 1 - ε Z-L) · · · · (7)
但し、 εは 0< ε≤ 1の範囲で予め定められた定数である。 この第 2の フィルタ 328bの出力力'、 第 3図に示された VQゲイン制御器 327に与えら れる。
このような詳細構成を有するコ一ドべク トル変換回路 328によって、 上 述したように、 入力された固定コードべク トルの周波数特性を固定コ一 ドべク トルの時間的な長さに対応して入力音声べク トルの周波数特性に 近付けることができる。
従って、 上記のコード励振線形予測符号化器によれば、 低符号化速度 においても高品質の再生音声を得ることができる。
次に、 この第 3のコ—ド励振線形予測符号化器に対応したコード励振 線形予測復号化器を、 図面を参照しながら詳細に説明する。
第 4図は、 第 3図のコード励振線形予測符号化器に対応したコ ド励 振線形予測複号化器の構造を示すブロック図である。 第 4図おいて、 こ のコード励振線形予測複号化器は、 多重分離回路 440, L S Pパラメ一タ 複号化回路 441, L P C逆量子化回路 442, 適応励振コー ドブック 443, 統 計励振コー ドブック 444, パルス性励振コ一 ドブック 445, V Qゲインコー ドブック 446, V Qゲイン制御器 447, V Qゲイ ン制御器 449, 固定コード 選択スィッチ 448, 周波数特性操作部 450, 加算器 451及び合成フィルタ 452 から構成されている。 - コー ド励振線形予測符号化器側から与えられた符号化音声べク トル は、 多重分離回路 440に入力される。 多重分離回路 440は、 この符号化音声 ベク トルを L S Pパラメータ, 最適適応励振コー ドのインデックス, 最 適固定コー ドのインデックス, 最適 V Qゲインコー ドのインデックス及 び固定コ一ド選択スィッチ情報に分離する。
そして、 L S Pパラメータは L S Pパラメータ復号化回路 441に与えら れ、 最適適応励振コー ドのインデックスは適応励振コー ドブック 443に与 えられ、 最適 V Qゲイ ンコー ドのィンデックスは V Qゲインコー ドブッ ク 446に与えられ、 固定コード選択スィッチ情報は固定コード選択スイツ チ 448に与えられる。
最適固定コ一 ドのィンデックスは、 固定コー ド選択スィツチ情報に基 づいて定まる統計励振コードブック 444又はパルス性励振コードブック 445 に与えられる。
適応励振コードブック 443は、 与えられたイ ンデックスによって定まる 適応励振コー ドベク トルを出力し、 この適応励振コ一 ドべク トルが V Q ゲイン制御器 447を介して V Qゲイン制御されて加算器 451に与えられる。 また、 適応励振コードブック 443は適応励振コ一ドべク トルをコ一ドべク トル変換回路 450に与える。
統計励振コードブック 444又はパルス性励振コードブック 445は、 与えら れたィンデックスに対応する統計励振コ一 ドべク トル又はパルス性励振 コ一ドべク トルを固定コ一ド選択スィツチ 448を介してコードべク トル変 換回路 450に与えられる。
コー ドベク トル変換回路 450は、 L P C及び適応励振コー ドベク トルの インデックスに基づいて、 その周波数特性を、 入力音声ベク トルの周波 数特性に近くなるよう操作する。 コードベク トル変換回路 450のよ り詳細 な構成は、 上記した第 5図と同一なものである。 このようにして周波数 特性が操作された固定コードベク トルが、 V Qゲイン制御器 449で V Qゲ イン制御されて、 加算器 451に与えられる。
加算器 451は、 与えられた適応励振コードべク トルと固定コードべク ト ルを加算して、 その加算ベク トルを励振コードベク トルとし、 合成フィ ルタ 452に与える。 合成フィルタ 452は、 この励振コードベク トルを L P C で畳み込んで合成音声ベク トルを形成し、 出力する。
このコード励振線形予測復号化器は、 以上のような処理を復号化音声 べク トルが与えられる毎に、 つまりサブフレーム毎に行なう。
本発明において特徴的なことは、 声道パラメータとして L S Pパラ メータを用いて伝送している点、 音源パラメ一タを与えるものとしてパ ルス性励振コードブックを備えている点及び固定コ一ドべク トルの周波 数特性を操作している点である。 これらの各特徴は、 各々が独立して符 号化器及ぴ復号化器に盛り込まれていても効果を発揮する。
さらに、 上記符号化器及び復号化器は、 フォワード型のコード励振線 形予測符号化器及び復号化器に関するものであるが、 本発明を、 バック ワード型のコード励振線形予測符号化器及び復号化器にも適応すること もできる。
そして、 上記符号化器及び復号化器は、 4 bit/s以下の符号化速度から生 じる問題点を解決することを意識して構成されたものである力 これよ り高い符号化速度の符号化器及び復号化器に適応しても、 より良好な再 生音声を得ることができる。 符号化速度が許すならば、 統計励振コード ブック及びパルス性励振コ一ドブックを選択的ではなく、 常に両者を有 効に動作させるものであっても良い。 産業上の利用可能性
本発明のコード励振線形予測符号化器及び複号化器によれば、 実際の 励振コードべク トルの周波数特性が入力音声べク トルに近い周波数特性 を有することを考慮して、 励振コードべク トルの周波数特性を、 入力音 声べク トルの周波数特性に近付ける為に、 特定のインパルス応答を用い て統計励振コードベク トルに畳み込み処理を施した後、 適応励振コード べク トルと加算して励振コードべク トルを作成する手段を有しているの で、 少ないベタ トル数でも入力音声べク トルによく適応した励振コード べク トルが得られると共に、 この変換にともない量子化誤差べク トルに 対するマスキング効果が生じて再生品質を高めることができる。
さらに、 適応励振コードブック及び銃計励振コードブックに加えて、 孤立ィンパルスからなるパルス性励振コードべク トルを格納しているパ ルス性励振コ一 ドブックを設けたので、 周期性の強い有声音の立ち上が りを早くできるようにするとともに、 有声音の定常部においても明確な パルス性の強い励振コードべク トルを形成することが可能である。
. また、 パルス性励振コードベク トルと統計励振コードベク トルとを切 り換えて用いているので、 低符号化速度に対応できると共に、 ランダム 信号とパルス的な信号が混在している、 例えば音声の過渡期の信号に対 しても良好な再生音声を得ることができる。
さらに、 このコード励振線形予測符号化器及ぴ復号化器によれば、 統 計励振コードブックまたはパルス性励振コードブックからの励振ゴード ベク トルを選択して使用するので、 音源パラメータの符号化ビッ ト数が 少ない状態で良好な再生音声を得ることができる。
さらに、 このコード励振線形予測符号化器及び復号化器によれば、 音 声合成に使用する声道パラメ一タを、 少ない符号化ビッ ト数で符号化し ても L P C等よ り声道スぺク トルに与える歪みが小さい L S Pパラメ一 タとしたので、 声道パラメータ面からも低符号化速度での再生品質を向 上させることができる。

Claims

請 求 の 範 囲
1 . 音声の音源情報として励振信号を励振コー ドブック化して用いる コード励振線形予測符号化器において、 前記励振コードブックから出力 された励振コ一 ドべク トルを、 前記励振コードべク トルが出力された時 点で定められた周波数特性に変換するコードべク トル変換回路を有する ことを特徴とするコード励振線形予測符号化器。
2 . 音声の音源情報として励振信号を励振コードブック化して用いる コード励振線形予測復号化器において、 前記励振コ一ドブックから出力 された励振コードベク トルを、 前記励振コードベク トルが出力された時 点で定められた周波数特性に変換するコードべク トル変換回路を有する ことを特徴とするコード励振線形予測復号化器。
3 . 請求項 1記載のコード励振線形予測符号化器又は請求項 2記載の コー ド励振線形予測復号化器において、 前記コー ドべク トル変換回路 で、 入力された音声信号の声道パラメータに基づいて定められた伝達関 数のィンパルス応答を作成し、 前記ィンパルス応答を用いて前 励振 コードべク トルに畳み込み処理を施すことを特徴とするコ一ド励振線形 予測符号化器又はコ一ド励振線形予測復号化器。
4 . 請求項 3記載のコ―ド励振線形予測符号化器又はコ一ド励振線形予 測復号化器において、 前記声道パラメータに基づいて定められた伝達関 数のインパルス応答は、
H(Z)= ( 1—∑ Aj aj Z一 j) / ( 1—∑ Bj aj Z—リ
で示され、 aj ( j は 1〜 p ) は線形予測係数、 pは声道分析次数、 A 及 び B は 0 < Aく 1及び 0く: B < 1なる定数である伝達関数 H(Z)のインパ ルス応答であることを特徴とした、 コード励振線形予測符号化器又は コード励振線形予測復号化器。
5. 請求項 1記載のコ― ド励振線形予測符号化器又は請求項 2記載の コー ド励振線形予測復号化器において、 前記コー ドべク トル変換回路 で、 励振のピッチラグに基づいて定められた伝達関数のインパルス応答 を作成し、 前記ィンパルス応答を用いて前記励振コードべク トルに畳み 込み処理を施すことを特徴とするコード励振線形予測符号化器又はコー ド励振線形予測復号化器。
6. 請求項 5記載のコ一ド励振線形予測符号化器又はコ一ド励振線形予 測復号化器において、 前記励振のピッチラグに基づいて定められた伝達 関数のィンパルス応答は、
H(Z)= 1/ (1 - εΖ一し)
で示され、 εは 0< ε≤ 1なる定数、 Lは励振信号のピッチラグである 伝達関数 Η(Ζ)のィンパルス応答であることを特徴とした、 コード励振線 形予測符号化器又はコ一ド励振線形予測復号化器。
7. 請求項 1記載のコード励振線形予測符号化器又は請求項 2記載の コード励振線形予測復号化器において、 前記コードべク トル変換回路 で、
Η(Ζ)= ( 1ー∑ Aj ajZ一り / ( 1 -∑ BJ ajZ—
で示され、 aj (jは 1〜 p) は線形予測係数、 pは声道分析次数、 A及 び B は 0<A, B< 1なる定数である、 入力された音声信号の声道パラ メータに基づいて定められた伝達関数のィンパルス応答と、
H(Z)= 1/ (1 - eZ-L)
で示され、 εは 0< ε ^ 1なる定数、 Lは励振信号のピッチラグである 伝達関数のィンパルス応答とを縦属接続したィンパルス応答を用いて前 記励振コードべク トルに畳み込み処理を施すことを特徴とするコード励 振線形予測符号化器又はコ―ド励振線形予測複号化器。
8. 音声.の音源情報として励振信号を励振コードブック化して用いる コード励振線形予測符号化器において、 孤立ィンパルスからなるパルス 性励振コードべク トルを格納しているパルス性励振コー ドブックを設け たことを特徴とするコード励振線形予測符号化器。
9 . 請求項 8記載のコード励振線形予測符号化器において、 前記パルス 性励振コードブックから出力されるパルス性励振コ一ドべク トルを選択 して使用し、 その選択情報をコード励振線形予測復号化器に送出するこ とを特徴とするコ—ド励振線形予測符号化器。
10. 請求項 8又は 9記載のコード励振線形予測符号化器において、 コード 励振線形予測復号化器に出力する声道パラメ一タが線スぺク トル対パラ メータであることを特徴とするコ一ド励振線形予測符号化器。
11. 音声の音源情報として励振信号を励振コードブック化して用いるコー ド励振線形予測符号化器において、 孤立ィンパルスからなるパルス性励 振コ一ドべク トルを格納しているパルス性励振コードブックを設けたこ とを特徴とするコード励搌線形予測復号化器。
12. 請求項 1 1記載のコード励振線形予測復号化器において、前記パルス 性励振コ一 ドブックから出力されるパルス性励振コードべク トルを、 対 応するコー ド励振線形予測符号化器から与えられる選択情報に基づい て、 選択して使用することを特徴とするコード励振線形予測復号化器。
13. 請求項 1 1又は 1 2記載のコード励振線形予測復号化器において、 対 応するコ一ド励振線形予測符号化器から与えられる声道パラメータが線 スぺク トル対パラメータであり、 これを音声再生に利用することを特徴 とするコード励振線形予測復号化器。
14. 請求項 9記載のコード励振線形予測符号化器又は請求項 1 2記載の コード励振線形予測復号化器において、 前記パルス性励振コ—ドブック から出力されるパルス性励振コー ドベク トルを、 前記パルス性励振コ一 ドべク トルが出力された時点で定められた周波数特性に変換するコ一ド ベク トル変換回路を有することを特徴とするコード励振線形予測符号化 器又はコード励振線形予測復号化器。
PCT/JP1993/000776 1993-06-10 1993-06-10 Codeur-decodeur predictif lineaire a excitation par codes WO1994029965A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
PCT/JP1993/000776 WO1994029965A1 (fr) 1993-06-10 1993-06-10 Codeur-decodeur predictif lineaire a excitation par codes
US08/379,653 US5727122A (en) 1993-06-10 1993-06-10 Code excitation linear predictive (CELP) encoder and decoder and code excitation linear predictive coding method
SG1996004078A SG43128A1 (en) 1993-06-10 1993-06-10 Code excitation linear predictive (celp) encoder and decoder
EP03013629A EP1355298B1 (en) 1993-06-10 1993-06-10 Code Excitation linear prediction encoder and decoder
DE69334115T DE69334115T2 (de) 1993-06-10 1993-06-10 CELP Kodierer und Dekodierer
EP93913500A EP0654909A4 (en) 1993-06-10 1993-06-10 PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION.
NO950490A NO950490L (no) 1993-06-10 1995-02-09 Kode-eksiterende, lineært forutsigbar (CELP) koder og dekoder

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/JP1993/000776 WO1994029965A1 (fr) 1993-06-10 1993-06-10 Codeur-decodeur predictif lineaire a excitation par codes
SG1996004078A SG43128A1 (en) 1993-06-10 1993-06-10 Code excitation linear predictive (celp) encoder and decoder

Publications (1)

Publication Number Publication Date
WO1994029965A1 true WO1994029965A1 (fr) 1994-12-22

Family

ID=26434408

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1993/000776 WO1994029965A1 (fr) 1993-06-10 1993-06-10 Codeur-decodeur predictif lineaire a excitation par codes

Country Status (2)

Country Link
NO (1) NO950490L (ja)
WO (1) WO1994029965A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
JPH03171828A (ja) * 1989-11-29 1991-07-25 Sony Corp 圧縮符号化装置及び方法
JPH0451100A (ja) * 1990-06-18 1992-02-19 Sharp Corp 音声情報圧縮装置
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
JPH03171828A (ja) * 1989-11-29 1991-07-25 Sony Corp 圧縮符号化装置及び方法
JPH0451100A (ja) * 1990-06-18 1992-02-19 Sharp Corp 音声情報圧縮装置
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0654909A4 *

Also Published As

Publication number Publication date
NO950490L (no) 1995-03-29
NO950490D0 (no) 1995-02-09

Similar Documents

Publication Publication Date Title
JP3134817B2 (ja) 音声符号化復号装置
EP1235203A2 (en) Method for concealing erased speech frames and decoder therefor
US5727122A (en) Code excitation linear predictive (CELP) encoder and decoder and code excitation linear predictive coding method
EP0926660B1 (en) Speech encoding/decoding method
JP2002202799A (ja) 音声符号変換装置
JPH0353300A (ja) 音声符号化装置
WO2004097796A1 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
KR20010099763A (ko) 광대역 신호들의 효율적 코딩을 위한 인식적 가중디바이스 및 방법
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
EP1019907A2 (en) Speech coding
US6826527B1 (en) Concealment of frame erasures and method
JP2003223189A (ja) 音声符号変換方法及び装置
WO2005106850A1 (ja) 階層符号化装置および階層符号化方法
JP2002518694A (ja) 音声符号化装置及び音声復号化装置
JP3063668B2 (ja) 音声符号化装置及び復号装置
JP2001154699A (ja) フレーム消去の隠蔽及びその方法
US7346503B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
JP3199142B2 (ja) 音声の励振信号符号化方法および装置
JP2968109B2 (ja) コード励振線形予測符号化器及び復号化器
WO1994029965A1 (fr) Codeur-decodeur predictif lineaire a excitation par codes
JPS6238500A (ja) 高能率音声符号化方式とその装置
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3232701B2 (ja) 音声符号化方法
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
EP1355298A2 (en) Code Excitation linear prediction encoder and decoder

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): NO US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 08379653

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1993913500

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1993913500

Country of ref document: EP

WWR Wipo information: refused in national office

Ref document number: 1993913500

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1993913500

Country of ref document: EP