WO2000000963A1 - Codeur vocal - Google Patents

Codeur vocal Download PDF

Info

Publication number
WO2000000963A1
WO2000000963A1 PCT/JP1999/003492 JP9903492W WO0000963A1 WO 2000000963 A1 WO2000000963 A1 WO 2000000963A1 JP 9903492 W JP9903492 W JP 9903492W WO 0000963 A1 WO0000963 A1 WO 0000963A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
gain
output
mode
audio signal
Prior art date
Application number
PCT/JP1999/003492
Other languages
English (en)
French (fr)
Inventor
Kazunori Ozawa
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US09/720,767 priority Critical patent/US6973424B1/en
Priority to EP99957654A priority patent/EP1093230A4/en
Priority to CA002336360A priority patent/CA2336360C/en
Publication of WO2000000963A1 publication Critical patent/WO2000000963A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Definitions

  • the present invention relates to an audio encoding device, and more particularly to an audio encoding device for encoding an audio signal at a low bit rate with high quality.
  • CEL P is described, for example, in the paper "Code—excited li near near pred icti on; High quali li ty sp e ch at ve ry ow bitrates" by M. Schroeder and B. Ata1 (Proc. I CASS P, pp.
  • the transmitting side first extracts spectral parameters representing the spectral characteristics of the audio signal from the audio signal for each frame (for example, 20 ms) using linear prediction (LPC) analysis.
  • LPC linear prediction
  • the frame is further divided into subframes (for example, 5 ms), and the parameters (adapted parameters and delay parameters corresponding to the pitch period) in the adaptive codebook are extracted for each subframe based on the past sound source signals.
  • the pitch of the audio signal of the subframe is predicted by the adaptive codebook.
  • an optimum sound source code vector is selected from a sound source book (vector quantization codebook) composed of predetermined types of noise signals, and the optimum gain is selected.
  • a quantized source signal is obtained.
  • the sound source code vector is selected so as to minimize the error power between the signal synthesized with the selected noise signal and the residual signal.
  • an index and a gain representing the type of the selected code vector, and the parameters of the spectrum parameter and the adaptive code book are combined and transmitted by a multiplexer unit. The description on the receiving side is omitted.
  • the sound source signal is represented by a plurality of pulses, and the position of each pulse is represented by a predetermined number of bits and transmitted.
  • the amplitude of each pulse is limited to +1.0 or 1.1.0. Therefore, according to the method described in Reference 3, the amount of calculation for pulse search can be significantly reduced.
  • bit rates of 8 kb / s and above can provide good sound quality, At a bit rate lower than this, there is a problem that the sound quality of the background noise portion of the coded sound is extremely deteriorated, especially when background noise is superimposed on the sound.
  • the reason is as follows.
  • the sound source signal is represented by a combination of a plurality of pulses. Therefore, in the vowel section of the voice, the pulses concentrate around the pitch pulse, which is the starting point of the pitch. Therefore, it is possible to efficiently represent an audio signal with a small number of pulses.
  • a random signal such as background noise
  • it is necessary to generate pulses at random so it is difficult to represent the background noise well with a small number of pulses. Therefore, if the bit rate is reduced and the number of pulses is reduced, the sound quality against the background noise will be rapidly deteriorated.
  • an object of the present invention is to solve the above-mentioned problems and to provide a speech coding apparatus with a relatively small amount of computation even when the bit rate is low, and in particular, with less deterioration of sound quality against background noise. . Disclosure of the invention
  • a speech encoding device includes a spectrum parameter calculation unit that receives a speech signal, obtains a spectrum parameter, and quantizes the spectrum parameter.
  • An adaptive codebook section that obtains a delay and gain from an obtained sound source signal using an adaptive codebook, predicts an audio signal, and obtains a residual, and quantizes an audio signal of the audio signal using the spectrum parameter.
  • a sound source quantization device that outputs a sound signal from the sound signal and determines a mode by extracting a feature of the sound signal from the sound signal; and a case where an output of the judgment unit is a predetermined mode.
  • a code book for expressing a sound source signal by a combination of a plurality of non-zero pulses, and for quantizing the amplitude or polarity of the pulses collectively and storing the code book in the code book.
  • Sound source quantization that searches by combining a vector and a plurality of shift amounts for shifting the position of the pulse, and outputs a combination of the vector and the shift amount that minimizes distortion with the input voice.
  • a multiplexer unit that combines and outputs the output of the spectrum parameter calculation unit, the output of the discrimination unit, the output of the adaptive codebook unit, and the output of the excitation quantization unit.
  • a speech encoding device extracts a feature from the speech signal.
  • a discriminating unit for discriminating a mode by using a combination of a plurality of non-zero pulses when the output of the discriminating unit is a predetermined mode, and quantifying the amplitude or polarity of the pulse collectively.
  • a sound source quantization unit that has a codebook to be converted, generates a code vector that generates the position of the pulse according to a predetermined rule, and minimizes distortion with an input voice, and the spectrum parameter calculation unit
  • a multiplexer unit for combining and outputting the output of the discriminating unit, the output of the adaptive codebook unit, and the output of the sound source quantization unit.
  • a speech encoding device includes: a discriminating unit that extracts a feature from the speech signal to discriminate a mode; A codebook that represents a combination of a number of non-zero pulses, has a codebook that quantizes the amplitude or polarity of the pulses together, and a gain codebook that quantizes the gain, and a code vector stored in the codebook.
  • a search is performed by combining a plurality of shift amounts for shifting the position of the pulse and a gain code vector stored in the gain codebook, and a code vector and a shift amount for minimizing a distortion from an input voice are obtained.
  • a sound source quantization unit that outputs a combination of gain vectors, an output of the spectrum parameter calculation unit, an output of the discrimination unit, and the adaptive code With the output of the book section, and a multiplexer unit you output by combining the output of the sound source quantization section.
  • a speech encoding apparatus includes: a discriminating unit that extracts a feature from the speech signal to discriminate a mode; A codebook that quantizes the amplitude or polarity of the pulse collectively and a gain codebook that quantizes the gain.The position of the pulse is determined according to a predetermined rule.
  • a sound source quantization unit for outputting a combination of a code vector and a gain code vector for minimizing distortion of the generated and input voice, an output of the spectrum parameter calculation unit, and an output of the discrimination unit.
  • a multiplexer section for combining and outputting the output of the adaptive codebook section and the output of the excitation quantization section.
  • FIG. 2 is a block diagram showing the configuration of a second embodiment of the present invention
  • FIG. 3 is a block diagram showing a configuration of a third embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a fourth embodiment of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a fifth embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
  • a mode discrimination circuit extracts a feature amount from a speech signal and discriminates a mode based on the feature amount. .
  • the sound source quantization circuit (350 in FIG. 1) quantizes the amplitudes or polarities of a plurality of pulses collectively in a codebook (FIG. 1).
  • the search is performed by combining the code vector stored in (3 51, 3 52) with each of a plurality of shift amounts that temporally shift the position of a predetermined pulse, and distortion with the input voice is obtained. Select the combination of code vector and shift amount that minimizes.
  • the gain quantization circuit (365 in FIG.
  • the multiplexer section (400 in FIG. 1) is composed of the output of the spectrum parameter calculation section (210 in FIG. 1), the output of the mode determination section (800 in FIG. 1), and an adaptive code.
  • the output of the book circuit (500 in FIG. 1), the output of the sound source quantization section (350 in FIG. 1), and the output of the gain quantization circuit are combined and output.
  • the demultiplexer section 5100 separates a code sequence input from an input terminal, and outputs a spectrum parameter, a delay of an adaptive codebook, an adaptive code vector, And the gain of the sound source, the amplitude or polarity code vector as the sound source information, and the code representing the pulse position are output separately.
  • the mode discrimination unit (530 in FIG. 5) discriminates the mode using the past quantized gain in the adaptive codebook.
  • FIG. 1 is a block diagram showing the configuration of one embodiment of the speech encoding device of the present invention.
  • the frame division circuit 110 divides the audio signal into frames (for example, 20 m), and the sub-frame division circuit 120 outputs the frame signal as the frame signal. Is divided into subframes (for example, 5 ms) shorter than a frame.
  • the well-known LPC (Linear Prediction Coding) analysis, the Bulg analysis, or the like can be used for calculating the spectrum parameters.
  • the Burg analysis is used. For details of the Burg analysis, see the description of “Signal Analysis and System Identification” by Nakamizo (Corona Corp., 1988), pp. 82-87 (hereinafter referred to as Reference 4). The description of Reference 4 is incorporated herein by reference.
  • the conversion from linear prediction coefficients to LSP is described in a paper by Sugamura et al.
  • the LSP of the fourth subframe is output to spectrum parameter quantization circuit 210.
  • the spectrum parameter quantization circuit 210 efficiently quantizes the LSP parameter of a predetermined subframe and outputs a quantization value that minimizes the distortion of the following equation (1).
  • LSP (i), QLSP (i) j, and W (i) are the i-th LSP before quantization, the j-th result after quantization, and the weight coefficient, respectively.
  • Japanese Patent Application Laid-Open No. Hei 5-6199 Japanese Patent Application No. 3-155049:
  • the spectral parameter overnight quantization circuit 210 restores the LSP parameters of the first to fourth subframes based on the LSP parameters quantized in the fourth subframe.
  • the spectral parameter quantization circuit 210 linearly interpolates the quantized LSP parameter of the fourth sub-frame of the current frame and the quantized LSP of the fourth sub-frame of the previous frame, and performs first to Recover the LSP of 3 subframes.
  • the spectrum parameter quantization circuit 210 selects one type of code vector that minimizes the error power between the LSP before quantization and the LSP after quantization, and then performs linear interpolation on the first to fourth subframes. LSF can be restored. In order to further improve the performance, the spectral parameter quantization circuit 210 minimizes the error power.
  • the cumulative distortion is evaluated for each candidate, and a set of a candidate and an interpolation LSP that minimizes the cumulative distortion can be selected.
  • Reference 10 Japanese Patent Application No. 5-8737
  • the response signal calculation circuit 240 receives the linear prediction coefficient ⁇ ; i for each subframe from the spectrum parameter calculation circuit 200 and performs quantization and interpolation from the spectrum parameter quantization circuit 210 to restore the signal.
  • the response signal x z (n) is expressed by the following equation.
  • N indicates the subframe length.
  • A is a weighting factor that controls the amount of hearing weighting, and is the same value as the following equation (7).
  • s w (n) and p (n) are The output signal of the weighting signal calculation circuit and the output signal of the filter denominator term of the first term on the right side of equation (7) described below are shown.
  • the impulse response calculation circuit 310 calculates the impulse response h w (n) of the auditory weighting filter having a transfer function H w (z) represented by the following equation (6) by a predetermined point L, Output to adaptive codebook circuit 500 and sound source quantization circuit 350.
  • the mode discriminating circuit 800 uses the output signal of the sub-frame dividing circuit 120 to extract a feature amount and discriminate between voiced and unvoiced for each sub-frame.
  • a pitch prediction gain can be used as a feature.
  • the mode discriminating circuit 800 compares the value of the pitch prediction gain obtained for each subframe with a predetermined threshold value, and determines that the voice is voiced if the pitch prediction gain is larger than the threshold value, and is otherwise unvoiced.
  • the mode discrimination circuit 800 outputs voiced / unvoiced discrimination information to the sound source quantization circuit 350, the gain quantization circuit 365, and the multiplexer 400.
  • ne represents a convolution operation
  • adaptive codebook circuit 500 performs pitch prediction according to the following equation (10), and outputs prediction residual signal e w (n) to sound source quantization circuit 350.
  • e w (n) x t ( ⁇ ) - ⁇ ( ⁇ - ⁇ ) * ⁇ ( ⁇ )
  • the sound source quantization circuit 350 receives the voiced / unvoiced discrimination information from the mode discrimination circuit 800, and switches between voiced and unvoiced pulses.
  • a voiced voice has a ⁇ -bit amplitude codebook or a polarity codebook for quantizing the pulse amplitude for ⁇ pulses at a time.
  • the polarity codebook is used.
  • This polarity codebook is stored in the sound source codebook 351 in the case of voice, and in the sound source codebook 352 in the case of no voice.
  • the sound source quantization circuit 350 reads the polarity code vector from the sound source codebook 351 and fits the position to each code vector.
  • the D K to select a combination of co-one de base vector and a position that minimizes the (
  • h w (n) is the auditory weighted impulse response.
  • s wk ( mi ) is calculated by the second term in the sum of the right-hand side of equation (11), that is, the sum of g ′ i k h w (n-rrii).
  • the sound source quantization circuit 350 outputs the index representing the code vector to the multiplexer 400. Further, the sound source quantization circuit 350 quantizes the position of the pulse with a predetermined number of bits, and outputs an index representing the position to the multiplexer 400.
  • the positions of the pulses are determined at fixed intervals, and the shift amount for shifting the position of the entire pulse is determined.
  • the sound source quantization circuit 350 can use four types of shift amounts (shift 0, shift 1, shift 2, and shift 3) assuming that the shift is performed one sample at a time. In this case, the sound source quantization circuit 350 quantizes the shift amount with two bits and transmits the result.
  • the sound source quantization circuit 350 inputs the polarity code vector from the polarity code book 352 for each shift amount, and outputs all shift amounts. Then, a combination search of the code vector and all code vectors is performed, and a combination of the shift amount (5 (j)) and the code vector g k that minimizes the distortion D k .j in the following equation (15) is selected.
  • the sound source quantization circuit 350 outputs to the multiplexer 400 an index representing the selected vector and a code representing the shift amount.
  • a codebook for quantizing the amplitude of a plurality of pulses may be learned and stored in advance using an audio signal.
  • Codebook learning methods are described, for example, in the paper by Linde et al., "An algorithm for vector quantification desig gn, (IEEE Tran s. Commun., Pp. 84-95, Jannury, 1980: The following is disclosed in References 12), etc. This Reference 12 forms a part of the present specification by reference thereto.
  • the information on the amplitude and position in the voiced / unvoiced state is output to the gain quantization circuit 365.
  • Gain quantization circuit 365 inputs amplitude and position information from sound source quantization circuit 350 Then, voiced / unvoiced discrimination information is input from the mode discrimination circuit 800.
  • the gain quantization circuit 365 reads the gain code vector from the gain codebook 380, and calculates the following equation (16) with respect to the selected amplitude code vector or polarity code vector and position. the D K to select a gain code base transfected Le to minimize.
  • the gain quantization circuit 365 simultaneously vector-quantizes both the gain of the adaptive codebook and the gain of the sound source expressed in pulses.
  • Gain quantization circuit 3 6 5 discrimination information in the case of voiced obtains a gain code base vector to minimize D K of the formula (1 6).
  • j3 k and G k are the k-th code vector in the two-dimensional gain codebook stored in the gain codebook 365.
  • the gain quantization circuit 365 outputs an index representing the selected gain code vector to the multiplexer 400.
  • the gain quantization circuit 3 6 searches for a gain code vector.
  • the gain quantization circuit 365 outputs an index representing the selected gain code vector to the multiplexer 400.
  • the weighted signal calculation circuit 360 receives the voiced / unvoiced discrimination information and the respective indexes, and reads the corresponding code vector from the index. In the case of voiced, the weighting signal calculation circuit 360 calculates the driving sound source signal V based on the following equation (18).
  • v (n) is output to adaptive codebook circuit 500.
  • the weighting signal calculation circuit 360 obtains the driving sound source signal V (n) based on the following equation (19).
  • v ( ⁇ ) is output to the adaptive codebook circuit 500.
  • the weighting signal calculation circuit 360 uses the output parameter of the spectrum parameter calculation circuit 200 and the output parameter of the spectrum parameter quantization circuit 210 to calculate the response signal by the following equation (20). s w (n) is calculated for each subframe and output to the response signal calculation circuit 240.
  • FIG. 2 is a block diagram showing the configuration of the second embodiment of the present invention.
  • the operation of the sound source quantization circuit 355 is different from that of the first embodiment. That is, in the second embodiment of the present invention, when voiced / unvoiced discrimination information is unvoiced, a position generated according to a predetermined rule is used as a pulse position.
  • the position of a predetermined number (for example, Ml) of pulses is generated by the random number generation circuit 600. That is, Ml numbers generated by the random number generator 600 are considered as pulse positions. The Ml positions thus generated are output to the sound source quantization circuit 355.
  • the sound source quantization circuit 355 performs the same operation as the sound source quantization circuit 350 in FIG. 1 when the discrimination information is voiced, and performs the sound source quantization for the position output from the random number generation circuit 600 when the discrimination information is unvoiced.
  • the sound source quantization circuit 356 calculates the shift amount of all the code vectors of the sound source code book 352 and the pulse position.
  • the distortion by the following equation is calculated for all the combinations, and a plurality of combinations are selected in the order of minimizing D k .j in the following equation ( 21 ), and output to the gain quantization circuit 366.
  • the gain quantization circuit 365 quantizes the gain using the gain codebook 380 for each of the outputs of the plurality of sets in the sound source quantization circuit 365, and calculates D k of the following equation ( 22 ). Select the combination of shift amount, sound source code vector, and gain code vector that minimizes j.
  • FIG. 4 is a block diagram showing a configuration of a fourth embodiment of the present invention.
  • the sound source quantization circuit 357 when the voiced / unvoiced discrimination information is unvoiced, the sound source quantization circuit 357 generates a sound source code book 35 5 based on the position of the pulse generated by the random number generator 600. The amplitude or polarity of the pulse is collectively quantized by using 2, and all code vectors or a plurality of code vector candidates are output to the gain quantization circuit 367.
  • the gain quantization circuit 365 quantizes the gain of each of the candidates output from the sound source quantization circuit 357 by a gain codebook 380, and a code vector and a gain code for minimizing distortion. Outputs a combination of vectors.
  • FIG. 5 is a block diagram showing a configuration of a fifth embodiment of the present invention.
  • the demultiplexer 510 separates the code sequence input from the input terminal 500, and outputs a spectrum parameter, an adaptive codebook delay, an adaptive code vector, and a sound source gain.
  • the code indicating the amplitude or polarity code vector as the sound source information and the position of the pulse are separated and output.
  • the gain decoding circuit 510 uses the gain codebook 380 to decode and output the adaptive codebook and the gain of the sound source.
  • the adaptive codebook circuit 520 decodes the delay and the gain of the adaptive code vector, and generates an adaptive codebook reproduction signal using the synthesis filter input signal in the past subframe.
  • the mode discriminating circuit 530 uses the adaptive codebook gain decoded in the past subframe, compares it with a predetermined threshold value, and judges whether the current subframe is voiced or unvoiced.
  • the voiceless discrimination information is output to the sound source signal restoration circuit 540.
  • the sound source signal restoration circuit 540 receives the voiced / unvoiced discrimination information, and when voiced, decodes the pulse position, reads the code vector from the sound source codebook 351 and gives the amplitude or polarity. A fixed number of pulses are generated per subframe to recover the sound source signal.
  • the sound source signal restoring circuit 540 restores the sound source signal by generating a pulse from a predetermined pulse position, shift amount, amplitude or polarity code vector when there is no voice.
  • the spectrum parameter decoding circuit 570 decodes the spectrum parameter and outputs it to the synthesis filter circuit 560.
  • Adder 550 adds the adaptive codebook output signal and the output signal of excitation signal decoding circuit 540, and outputs the result to synthesis filter circuit 560.
  • the synthesis filter circuit 560 receives the output of the adder 550, reproduces the sound, and outputs it from the terminal 580.
  • the mode is determined based on the past quantization gain of the adaptive codebook, and the amplitude or polarity of a plurality of pulses is determined in the case of a predetermined mode.
  • a search is made by combining a code vector stored in a codebook to be quantized together and each of a plurality of shift amounts for temporally shifting the position of a predetermined pulse to minimize distortion from input speech.
  • a search is performed by combining a code vector, each of a plurality of shift amounts, and a gain code vector stored in a gain codebook for quantizing a gain, and Since the combination of the code vector, shift amount, and gain code vector that minimizes distortion is selected, even if the background noise is encoded at a low bit rate, the background noise Can be satisfactorily encoded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明細書 音声符号化装置 技術分野
本発明は、 音声符号化装置に関し、 特に音声信号を低いビッ ト レートで高品質 に符号化するための音声符号化装置に関する。 背景技術
従来、 音声信号を高能率に符号化する方式として、 CELP Code Ex c i t ed L i nea r Pr ed i c t i ve Cod i ng) が知られて いる。 CEL Pは、 例えば、 M. Schr o ede r及び B. A t a 1氏による 論文 "Code— exc i t ed l i near p r ed i c t i on ; H i gh qua l i ty sp e e ch a t ve ry l ow b i t r a t e s" (P r o c. I CASS P, pp. 937— 940, 1985 : 以下、 参考文献 1) や、 K 1 e i j n氏らによる論文 "Imp r oved s p e e ch qua l i ty and e f f i c i ent ve c t o r q u ant i za t i on i n CELP" (P r o c. I CAS S P, PP. 155-158, 1988:以下参考文献 2) などに記載されている。
この CELP符号化方式において、 送信側は、 まず、 フレーム毎 (例えば 20 ms) に音声信号から線形予測 (LPC) 分析を用いて、 音声信号のスペク トル 特性を表すスペクトルパラメータを抽出する。 次いで、 フレームをさらにサブフ レーム (例えば 5ms) に分割し、 サブフレーム毎に過去の音源信号を基に適応 コードブックにおけるパラメ一夕 (ピツチ周期に対応する遅延パラメ一夕とゲイ ンパラメータ) を抽出し、 適応コードブックにより前記サブフレームの音声信号 をピッチ予測する。
ピッチ予測して求めた音源信号に対して、 予め定められた種類の雑音信号から なる音源コ一ブック (ベク トル量子化コードブック) から最適な音源コードべク トルを選択し、 最適なゲインを計算すると、 量子化した音源信号が得られる。 音源コードべクトルの選択は、 その選択された雑音信号により合成した信号と、 前記残差信号との誤差電力を最小化するようにして、 行われる。 そして、 選択さ れたコードベクトルの種類を表すインデクス及びゲイン、 並びに、 前記スぺク ト ルパラメ一タ及び適応コードブックのパラメータをマルチプレクサ部により組み 合わせて伝送する。 なお、 受信側の説明は省略する。
しかしながら、 上述の従来の符号化方式によると、 大別して、 2つの問題が生 じていた。
そのうちの一つは、 音源コードブックから最適な音源コードべクトルを選択す るのに多大な演算量を要するという問題である。 これは、 上記参考文献 1や参考 文献 2記載の方法では、 音源コードベク トルを選択するために、 各コードべクト ルに対して、 一旦フィルタリングもしくは畳み込み演算を行ない、 この演算をコ —ドブックに格納されているコードべクトルの個数だけ繰り返すことに起因する。 例えば、 コードブックのビット数が Bビットで、 次元数が Nの場合に、 フィルタ リングあるいは畳み込み演算のときのフィルタあるいはィンパルス応答長を と すると、 演算量は 1秒当たり、 NxKx 2B X 8000ZNだけ必要となる。 一 例として、 B= 10、 N=40、 k= 10の場合を考慮すると、 1秒当たり 81, 920, 000回の演算が必要であり、 極めて膨大であることが理解される。
音源コードブック探索に必要な演算量の低減を図るための方法として、 従来よ り、 種々の方法が提案されている。 例えば、 ACELP (Ar g e b r a i c Co d e Exc i t e d L i ne a r Pr e d i c t i on) 方式が提案 されている。 これは、 例えば、 C. L a f 1 amme氏らによる論文 "16 kb p s w i d e b a nd s p e e c h c o d i ng t e c hn i q u e ba s e d on a l geb r a i c CELP" (P r o c. I C AS S P, PP. 13-16, 1991 :以下、 参考文献 3) 等に記載されている。
上記参考文献 3の方法によれば、 音源信号は、 複数個のパルスで表され、 更に 各パルスの位置が予め定められたビッ ト数で表されて、 伝送される。 ここで、 各 パルスの振幅は、 + 1. 0もしくは一 1..0に限定されている。 従って、 参考文 献 3に記載された方法によれば、 パルス探索の演算量は大幅に低減化され得る。 他の一つは、 8 k b/s以上のビッ トレートでは良好な音質が得られるが、 そ れ未満のビッ トレートでは、 特に音声に背景雑音が重畳している場合に、 符号化 音声の背景雑音部分の音質が極めて劣化する、 という問題である。
この理由は、 次の通りである。 音源信号は、 複数個のパルスの組合せで表され る。 そのため、 音声の母音区間においては、 パルスがピッチの開始点であるピッ チパルスの近辺に集中することとなる。 従って、 音声信号を少ない個数のパルス で効率的に表すことは可能である。 一方、 背景雑音のようなランダム信号に対し ては、 パルスをランダムに立てる必要があるため、 少ない個数のパルスで、 背景 雑音を良好に表すことは困難である。 従って、 ビッ ト レートを低減化し、 パルス の個数を削減してしまうと、 背景雑音に対する音質が急激に劣化することとなる。 それ故、 本発明の目的は、 上記問題点を解決し、 ビッ トレートが低い場合にも、 比較的少ない演算量で、 特に背景雑音に対する音質の劣化の少ない音声符号化装 置を提供することにある。 発明の開示
前記目的を達成するため、 本発明の第一の側面による音声符号化装置は、 音声 信号を入力されスぺク トルパラメータを求めて量子化するスぺク トルパラメータ 計算部と、 過去の量子化された音源信号から適応コードブックにより遅延とゲイ ンを求め音声信号を予測して残差を求める適応コードブック部と、 前記スぺク ト ルパラメータを用いて前記音声信号の音源信号を量子化して出力する音源量子化 部と、 を備える音声符号化装置において、 前記音声信号からその特徴を抽出して モードを判別する判別部と、 前記判別部の出力が予め定められたモードである場 合に音源信号を複数個の非零のパルスの組合せで表わし、 前記パルスの振幅もし くは極性をまとめて量子化するコードブックを有し、 前記コードブックに格納さ れるコ一ドべクトルと前記パルスの位置をシフトする複数のシフト量とを組み合 わせて探索し、 入力音声との歪みを最小にするコ一ドべクトルとシフト量の組合 せを出力する音源量子化部と、 前記スペク トルパラメータ計算部の出力と、 前記 判別部の出力と、 前記適応コードブック部の出力と、 前記音源量子化部の出力と、 を組み合わせて出力するマルチプレクサ部と、 を備える。
本発明の第二の側面による音声符号化装置は、 前記音声信号から特徴を抽出し てモードを判別する判別部と、 前記判別部の出力が予め定められたモードである 場合に、 音源信号を複数個の非零のパルスの組合せで表わし、 前記パルスの振幅 もしくは極性をまとめて量子化するコードブックを有し、 予め定められた規則に より前記パルスの位置を発生し入力音声との歪みを最小にするコードべクトルを 出力する音源量子化部と、 前記スぺクトルパラメータ計算部の出力と前記判別部 の出力と前記適応コ一ドブック部の出力と前記音源量子化部の出力とを組み合わ せて出力するマルチプレクサ部と、 を有する。
本発明の第三の側面による音声符号化装置は、 前記音声信号から特徴を抽出し てモードを判別する判別部と、 前記判別部の出力が予め定められたモードである 場合に音源信号を複数個の非零のパルスの組合せで表わし、 前記パルスの振幅も しくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコー ドブックを有し、 前記コードブックに格納されるコードベクトルと、 前記パルス の位置をシフトする複数のシフト量と、 前記ゲインコードブックに格納されるゲ ィンコードべクトルとを組み合わせて探索し、 入力音声との歪みを最小にするコ 一ドべクトルとシフト量とゲインコ一ドべクトルの組合せを出力する音源量子化 部と、 前記スペク トルパラメータ計算部の出力と、 前記判別部の出力と、 前記適 応コードブック部の出力と、 前記音源量子化部の出力と、 を組み合わせて出力す るマルチプレクサ部と、 を有する。
本発明の第四の側面による音声符号化装置は、 前記音声信号から特徴を抽出し てモードを判別する判別部と、 前記判別部の出力が予め定められたモードである 場合に音源信号を複数個の非零のパルスの組合せで表わし、 前記パルスの振幅も しくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコー ドブックを有し、 予め定められた規則により前記パルスの位置を発生し入力音声 との歪みを最小にするコ一ドべクトルとゲインコードべクトルの組合せを出力す る音源量子化部と、 前記スペク トルパラメータ計算部の出力と、 前記前記判別部 の出力と、 前記適応コードブック部の出力と、 前記音源量子化部の出力と、 を組 み合わせて出力するマルチプレクサ部と、 を有する。 図面の簡単な説明 第 1図は、 本発明の第 1の実施例の構成を示すプロック図であり、
第 2図は、 本発明の第 2の実施例の構成を示すブロック図であり、
第 3図は、 本発明の第 3の実施例の構成を示すプロック図であり、
第 4図は、 本発明の第 4の実施例の構成を示すブロック図であり、
第 5図は、 本発明の第 5の実施例の構成を示すブロック図である。 発明を実施するための最良の形態
本発明の実施の形態について以下に説明する。
本発明の一の実施の形態による音声符号化装置において、 モード判別回路 (第 1図の 8 0 0 ) は、 音声信号から特徴量を抽出し、 その特徴量をもとに、 モード を判別する。 音源量子化回路 (第 1図の 3 5 0 ) は、 判別されたモードが予め定 められたモードの場合、 複数個のパルスの振幅もしくは極性をまとめて量子化す るコードブック (第 1図の 3 5 1、 3 5 2 ) に格納されるコードベクトルと、 予 め定められたパルスの位置を時間的にシフ卜する複数のシフト量の各々とを組み 合わせて探索し、 入力音声との歪みを最小にするコードべクトルとシフト量の組 合せを選択する。 ゲイン量子化回路 (第 1図の 3 6 5 ) は、 ゲインコードブック (第 1図の 3 8 0 ) を用いてゲインを量子化する。 マルチプレクサ部 (第 1図の 4 0 0 ) は、 スペク トルパラメ一夕計算部 (第 1図の 2 1 0 ) の出力と、 モード 判別部 (第 1図の 8 0 0 ) の出力と、 適応コードブック回路 (第 1図の 5 0 0 ) の出力と、 音源量子化部 (第 1図の 3 5 0 ) の出力と、 ゲイン量子化回路の出力 とを組み合わせて出力する。
本発明の好ましい一の実施の形態による音声復号化装置において、 デマルチプ レクサ部 5 1 0は、 入力端子から入力された符号系列を分離し、 スペクトルパラ メータ、 適応コードブックの遅延、 適応コードベクトル、 及び音源のゲイン、 音 源情報としての振幅若しくは極性コードベクトル及びパルスの位置を表す符号と を分離して出力する。 モード判別部 (第 5図の 5 3 0 ) は、 適応コードブックに おける過去の量子化されたゲインを用いてモードを判別する。 音源信号復元部
(第 5図の 5 4 0 ) は、 モード判別部の出力が予め定められたモードの場合、 量 子化された音源情報から非零のパルスを発生して音源信号を復元する。 このよう な音声復号化装置は、 合成フィルタ部 (第 5図の 560) に前記音源信号を通し て音声信号を再生する。 本発明の実施例について図面を参照して以下に説明する。
第 1図は、 本発明の音声符号化装置の一実施例の構成を示すプロック図である。 第 1図を参照すると、 入力端子 100から音声信号が入力されると、 フレーム 分割回路 1 10は音声信号をフレーム (例えば 20 m) 単位に分割し、 サブフレ ーム分割回路 120はそのフレーム信号としての音声信号をフレームよりも短い サブフレーム (例えば 5ms) 単位に分割する。
スぺクトルパラメ一タ計算回路 200では、 少なくとも一つのサブフレームの 音声信号に対して、 サブフレーム長よりも長い窓 (例えば 24ms) をかけて音 声を切り出し、 それにより、 スペク トルパラメータを予め定められた次数 (例え ば P= 10次) 計算する。 ここで、 スペクトルパラメータの計算には、 周知の L PC (線形予測符号化) 分析や、 Bu r g分析等を用いることができる。 本実施 例においては、 Bu r g分析を用いることとする。 なお、 Bu r g分析の詳細に ついては、 中溝著による 「信号解析とシステム同定」 (コロナ社 1988年刊) の 第 82〜87頁 (以下、 参考文献 4) 等の記載を参照されたい。 この参考文献 4 の記載は、 それを参照することにより、 本明細書の一部をなす。
さらに、 スペクトルパラメ一タ計算部 210では、 Bu r g法により計算され た線形予測係数 ct i (i = 1, ···, 10) を量子化や補間に適した LSPパラメ一 夕に変換する。 ここで、 線形予測係数から LSPへの変換は、 菅村他による論文
"線スペク トル対 (LSP) 音声分析合成方式による音声情報圧縮" (電子通信学 会論文誌、 J 64— A、 p p. 599— 606、 1 981年:以下、 参考文献 5) を参照することができる。 例えば、 第 2、 4サブフレームで Bu r g法によ り求めた線形予測係数を、 LSPパラメータに変換し、 第 1、 3サブフレームの LSPを直線補間により求めて、 第 1、 3サブフレームの LSPを逆変換して線 形予測係数に戻し、 第 1—4サブフレームの線形予測係数 H (i =1, -·, 1 0 ; 1 =1, ···, 5) を聴感重み付け回路 230に出力する。 また、 第 4サブフ レームの LSPをスぺク トルパラメータ量子化回路 210へ出力する。 スぺクトルパラメータ量子化回路 210では、 予め定められたサブフレームの LSPパラメータを効率的に量子化し、 次式 (1) の歪みを最小化する量子化値 を出力する。
Figure imgf000009_0001
ここで、 LSP (i), QLSP (i ) j、 W (i) はそれぞれ、 量子化前の i 次目の LSP、 量子化後の j番目の結果、 重み係数である。
以下では、 量子化法として、 ベク トル量子化を用いるものとし、 第 4サブフレ ームの LSPパラメータを量子化するものとする。 LSPパラメータのべク トル 量子化の手法は周知の手法を用いることができる。 具体的な方法は、 例えば、 特 開平 4— 171500号公報 (特願平 2_297600号:以下、 参考文献 6)、 特開平 4 -363000号公報 (特願平 3— 261 925号: 以下、 参考文献
7)、 特開平 5 -6199号公報 (特願平 3— 155049号:以下、 参考文献
8) や、 T. Nomu r a e t a 1 による論文 "LSP Co d i ng Us i ng VQ- S VQ Wi t h I n t e r p o l a t i on i n 4. 075 k b p s M-LCELP S e e c h C o d e r" (P r o c. Mob i l e Mu l t ime d i a Co mm un i c a t i ons, pp. B. 2. 5, 1993 :以下、 参考文献 9) 等に開示されている。 これら参考 文献に記載された内容は、 それを参照することにより、 本明細書の一部をなす。 スぺクトルパラメ一夕量子化回路 210は、 第 4サブフレームで量子化した L S Pパラメータをもとに、 第 1〜第 4サブフレームの L S Pパラメータを復元す る。 ここでは、 スペク トルパラメータ量子化回路 210は、 現フレームの第 4サ ブフレームの量子化 LSPパラメータと 1つ過去のフレームの第 4サブフレーム め量子化 L S Pを直線補間して、 第 1〜第 3サブフレームの L S Pを復元する。 ここで、 スペクトルパラメータ量子化回路 210は、 量子化前の LSPと量子化 後の L S Pとの誤差電力を最小化するコードベク トルを 1種類選択した後に、 直 線補間により第 1〜第 4サブフレームの LSFを復元できる。 さらに性能を向上 させるために、 スぺクトルパラメータ量子化回路 210が、 前記誤差電力を最小 化するコードベクトルを複数候補選択したのちに、 各々の候補について、 累積歪 を評価し、 累積歪を最小化する候補と補間 L S Pの組を選択するようにすること ができる。 これに関連する技術の詳細は、 例えば、 特願平 5— 8737号明細書 (以下、 参考文献 10) に開示されている。 この参考文献 10に記載された内容 は、 それを参照することにより、 本明細書の一部をなす。
スぺクトルパラメータ量子化回路 210は、 このようにして復元した第 1 ~3 サブフレームの L S Pと第 4サブフレームの量子化 L S Fをサブフレーム毎に線 形予測係数 ( i = 1, ···, 10 ; 1 = 1, ···, 5) に変換し、 インパルス応 答計算回路 310へ出力する。 また、 スぺクトルパラメータ量子化回路 210は、 第 4サブフレームの量子化 L S Pのコ一ドべクトルを表すインデクスをマルチプ レクサ 400に出力する。
聴感重み付け回路 230は、 スペク トルパラメ一夕計算回路 200から、 各サ ブフレーム毎に量子化前の線形予測係数 i (i = l, ···, 10 : 1 = 1, '··, 5) を入力されると、 前記参考文献 1にもとづき、 サブフレームの音声信号に対 して聴感重み付けを行い、 聴感重み付け信号を出力する。
応答信号計算回路 240は、 スペク トルパラメ一タ計算回路 200から、 各サ ブフレーム毎に線形予測係数 α; iを入力され、 スぺクトルパラメータ量子化回路 210から、 量子化、 補間して復元した線形予測係数 をサブフレーム毎に入 力されて、 保存されているフィルタメモリの値を用いて、 入力信号を零 d (n) =0とした応答信号を 1サブフレーム分計算し、 減算器 235へ出力する。 ここ で、 応答信号 xz (n) は下式で表される。
10 10 10
xAn) = (") - > , ("一 t yin— !·)+〉, xx{n-i) (2)
/=1 】 ' 1
但し、 n— i≤0のときは
y(n-i) = p(N + (n-i)) (3)
^("—り = + ("— )) (4)
ここで、 Nはサブフレーム長を示す。 アは、 聴感重み付け量を制御する重み係 数であり、 下記の式 (7) と同一の値である。 sw (n)、 p (n) は、 それぞれ、 重み付け信号計算回路の出力信号、 後述の式 (7) における右辺第 1項のフィル 夕の分母の項の出力信号をそれぞれ示す。
減算器 235は、 次式 (5) により、 聴感重み付け信号から応答信号を 1サブ フレーム分減算し、 x' w (n) を適応コードブック回路 300へ出力する。 ',,,(") = (")— ") (5)
インパルス応答計算回路 310は、 z変換が次式 (6) で表される伝達函数 Hw (z) を有する聴感重み付けフィルタのインパルス応答 hw (n) を予め定められ た点数 Lだけ計算し、 適応コードブック回路 500、 音源量子化回路 350へ出 力する。
10
卜 ",ζ- '
Hw (Z) =— # · —— (6)
7=1 /=1
モード判別回路 800は、 サブフレーム分割回路 120の出力信号を用いて、 特徴量を抽出し、 サブフレーム毎に有声か無声かの判別を行う。 ここで、 特徴と しては、 ピッチ予測ゲインを用いることができる。 モード判別回路 800は、 サ ブフレーム毎に求めたピッチ予測ゲインの値と予め定められたしきい値を比較し、 ピッチ予測ゲインがしきい値より大きければ有声、 さもなければ無声と判断する。 モ一ド判別回路 800は、 有声 ·無声判別情報を音源量子化回路 350とゲイ ン量子化回路 365とマルチプレクサ 400へ出力する。
適応コードブック回路 500は、 ゲイン量子化回路 365から過去の音源信号 V (η) を、 減算器 235から出力信号 X' w (n) を、 インパルス応答計算回路 310から聴感重み付けインパルス応答 hw (n) を入力される。 これらの信号を 受けると、 適応コードブック回路 500は、 ピッチに対応する遅延 Tを次式 (7) の歪み DTを最小化するように求め、 遅延を表すインデクスをマルチプレク サ 400に出力する。 DT =∑ (")一 [∑ 'w (n)yw (n― T)f — Γ)] (7)
«=0 n- w=0
yw{n-T) = v(n-T)*hw{n) (8)
式 (8) において、 記号ネは畳み込み演算を表す。
そしてゲイン /3を次式 (9) に従い求める。
N - N-1
β =∑ ( , (" - Γ) /∑ (" - Γ) (9) ここで、 女性音や、 子供の声に対して、 遅延の抽出精度を向上させるために、 遅延を整数サンプルではなく、 小数サンプル値で求めてもよい。 具体的な方法は、 例えば、 P. K r ο ο ηらによる論文 "P i t c h p r e— d i c t o r s w i t h h i gh t emp o r a l r e s o l u t i o n (P r o c. I CASS P, p p. 661—664, 1990年:以下、 参考文献 1 1 ) 等に開示されている。 この参考文献 1 1は、 それを参照することにより、 本明細 書の一部をなす。
さらに、 適応コードブック回路 500は、 次式 (10) に従いピッチ予測を行 ない、 予測残差信号 ew (n) を音源量子化回路 350へ出力する。 ew{n) = x t (η)-βν(η-Τ)*Κ(η)
音源量子化回路 350は、 モード判別回路 800からの有声 ·無声判別情報を 入力され、 有声と無声でパルスを切替える。
有声では、 Μ個のパルスをたてるとする。
有声では、 パルスの振幅を Μパルス分まとめて量子化するための、 Βビッ トの 振幅コードブック、 もしくは極性コードブックを有しているものとする。 以下で は、 極性コードブックを用いる場合について説明する。
この極性コードブックは、 有声の場合は音源コードブック 351に、 無声の場 合は音源コードブック 352に格納されている。
有声では、 音源量子化回路 350は、 音源コードブック 351から極性コード ベク トルを読みだし、 各コードベク トルに対して位置をあてはめ、 次式 (1 1) の DKを最小化するコ一ドべクトルと位置の組合せを選択する (
Figure imgf000013_0001
ここで、 hw (n) は、 聴感重み付けインパルス応答である。
上式 (1 1) を最小化するには、 次式 (12) の D (k. uを最大化する振幅コ 一ドべクトル kと位置 miの組合せを求めれば良い。
D(k ) = [ ( , ) •(12)
Figure imgf000013_0002
ここで、 swk (mi) は、 式 (11) の右辺の総和における第 2項、 即ち g' i khw (n-rrii) の総和で計算される。
または、 次式 (13) の D (k, i)を最大化するように選択しても良い。 この方 が分子に計算に要する演算量が低減化される。
Figure imgf000013_0003
N-l
Φ(η) = X ew {ι) (— ")," = 0,〜.. ,Ν - \ (14) ここで、 有声の場合の各パルスのとり得る位置は、 演算量削減のため、 上記参 考文献 3に示すように、 拘束することができる。 一例として、 Ν=40、 Μ=5 とすると、 各パルスのとり得る位置は、 表 1のようになる。
表 1
0, 5, 10, 15, 20, 25, 30, 35,
1, 6, 11, 16, 21, 26, 31, 36,
2, 7, 12, 17, 22, 27, 32, 37,
3, 8, 13. 18, 23, 28, 33, 38,
4, 9, 14, 19, 24, 29, 34, 39, そして、 音源量子化回路 350は、 コードベクトルを表すインデクスをマルチ プレクサ 400に出力する。 さらに、 音源量子化回路 350は、 パルスの位置を予め定められたビット数で 量子化し、 位置を表すィンデクスをマルチプレクサ 400に出力する。
無声では、 表 2に示すように、 パルスの位置を一定の間隔で定め、 パルス全体 の位置をシフ トさせるためのシフト量を定めておく。 以下の例の場合、 音源量子 化回路 350は、 1サンプルずつシフトさせるとして、 4種類のシフト量 (シフ ト 0、 シフト 1、 シフト 2、 シフト 3) を用いることができる。 また、 この場合、 音源量子化回路 350は、 シフト量を 2ビッ トで量子化して伝送する。
表 2
パルスの位置
0, 4, 8, 12, 16, 20, 24, 28, さらに、 音源量子化回路 350は、 各々のシフト量に対して、 極性コードブッ ク 352から極性コードべクトルを入力し、 全てのシフト量と全てのコ一ドべク トルの組合せ探索を行ない、 次式 (15) の歪み Dk. jを最小化するシフ ト量 (5 ( j ) とコードベク トル gkの組合せを選択する。
N-\ M
Dkj =∑ [ew (n) - X g k K ("― m, - ^ゾ) )]2 .(15)
«=0 =1
音源量子化回路 350は、 選択されたコ一ドべクトルを表すィンデタスとシフ ト量を表す符号をマルチプレクサ 400に出力する。
なお、 複数パルスの振幅を量子化するためのコードブックを、 音声信号を用い て予め学習して格納しておくようにしてもよい。 コードブックの学習法は、 例え ば、 L i n d e氏らによる論文 "An a l g o r i t hm f o r ve c t o r q u a n t i z a t i o n d e s i gn, (I EEE Tr a n s. C ommu n., pp. 84— 95, J a nu r y, 1980 :以下、 参 考文献 12) 等に開示されている。 この参考文献 12は、 それを参照することに より、 本明細書の一部をなす。
有声 ·無声の場合の振幅、 位置の情報は、 ゲイン量子化回路 365に出力され る。
ゲイン量子化回路 365は、 音源量子化回路 350から振幅、 位置情報を入力 され、 モード判別回路 8 0 0から有声 ·無声判別情報を入力される。
また、 ゲイン量子化回路 3 6 5は、 ゲインコードブック 3 8 0からゲインコー ドべクトルを読み出し、 選択された振幅コードべクトルもしくは極性コードべク トルと位置に対して、 次式 (1 6 ) の DKを最小化するようにゲインコードべクト ルを選択する。
ここでは、 ゲイン量子化回路 3 6 5が、 適応コードブックのゲインとパルスで 表した音源のゲインの両者を同時にべクトル量子化する例について示す。
ゲイン量子化回路 3 6 5は、 判別情報が有声の場合には、 次式 (1 6 ) の D Kを 最小化するようにゲインコードべクトルを求める。
N-] M
Dk =∑ [xw {n)― β ν(η - Τ) * h、、, (η) - G ∑ g',k K (" - " )]2 ·… ·ひ 6)
n=0 ;=1
ここで、 j3 k、 G kは、 ゲインコードブック 3 5 5に格納された 2次元ゲインコ 一ドブックにおける k番目のコードべクトルである。 ゲイン量子化回路 3 6 5は、 選択されたゲインコードべクトルを表すィンデクスをマルチプレクサ 4 0 0に出 力する。
一方、 判別情報が無声の場合、 ゲイン量子化回路 3 6 5は、 次式 (1 7 ) の D K を最小化するよう、 ゲインコードベクトルを探索する。
Dk =∑ [xw(n)― β ν{η― Γ) * hw(n)― G ∑ g k K{n - m,― S(j)) …… (17) n=0 ;=1
ゲイン量子化回路 3 6 5は、 選択されたゲインコードべクトルを表すィンデク スをマルチプレクサ 4 0 0に出力する。
重み付け信号計算回路 3 6 0は、 有声 ·無声判別情報とそれぞれのィンデクス を入力され、 インデクスからそれに対応するコードベクトルを読み出す。 有声の 場合、 重み付け信号計算回路 3 6 0は、 次式 (1 8 ) に基づき駆動音源信号 V
(n) を求める。 M
v(n) = ^iv(n-T) + G^g kS(n-mi) (18)
;=1
v (n) は適応コードブック回路 500に出力される。
無声の場合、 重み付け信号計算回路 360は、 次式 (1 9) に基づき駆動音源 信号 V (n) を求める。
M
ν(η) = β ν(η -Τ) + σ,^ g k δ{η -mt -S(j)) (19)
=1
v (η) は適応コードブック回路 500に出力される。
次に、 重み付け信号計算回路 360は、 スペク トルパラメータ計算回路 200 の出力パラメ一タ、 及びスぺク トルパラメータ量子化回路 210の出力パラメ一 タを用いて、 次式 (20) により、 応答信号 sw (n) をサブフレーム毎に計算し、 応答信号計算回路 240へ出力する。
10 10 10
sw (") = v(") - Z atv n - Ϊ) ρ{η - ) +∑ '^("- (20)
=1 /'=1 ;=1
次に本発明の第 2の実施例について説明する。 第 2図は、 本発明の第 2の実施 例の構成を示すプロック図である。
第 2図を参照すると、 本発明の第 2の実施例においては、 前記第 1の実施例と、 音源量子化回路 355の動作が相違している。 すなわち、 本発明の第 2の実施例 では、 有声 .無声判別情報が無声の場合に、 パルスの位置として、 あらかじ定め られた規則に従い発生した位置を使用する。
例えば、 予め定められた個数 (例えば Ml) のパルスの位置を乱数発生回路 6 00により発生させる。 つまり、 乱数発生器 600により発生された Ml個の数 値をパルスの位置と考える。 これにより発生された Ml個の位置を音源量子化回 路 355に出力する。
音源量子化回路 355は、 判別情報が有声の場合は、 第 1図の音源量子化回路 350と同一の動作を行ない、 無声の場合は、 乱数発生回路 600から出力され た位置に対して、 音源コードブック 352を用いてパルスの振幅もしくは極性を まとめて量子化する。 次に、 本発明の第 3の実施例について説明する。 第 3図は、 本発明の第 3の実 施例の構成を示すブロック図である。
第 3図を参照すると、 音源量子化回路 3 5 6は、 有声 ·無声判別情報が無声の 場合、 音源コ一ドブック 3 5 2の全てのコ一ドべクトルとパルスの位置のシフト 量との全ての組合せについて、 次式による歪みを計算し、 次式 (2 1 ) の D k. j を最小にする順に、 複数個の組合せを選択し、 ゲイン量子化回路 3 6 6へ出力す る。
DkJ =∑[ew (n) ~∑g k KXn - m, - S(j))]2 (21)
"=0 i=l
ゲイン量子化回路 3 6 6は、 音源量子化回路 3 5 6に複数セッ 卜の出力の各々 に対し、 ゲインコードブック 3 8 0を用いてゲインを量子化し、 次式 (2 2 ) の D k. jを最小化するシフ ト量、 音源コードベク トル、 ゲインコードベク トルの組 合せを選択する。
DkJ =∑ [xw (n) - β v(n - T) * hw (") - J] g'ik hw ("― m, - S(j))]2…… (22) w=0 ;'=1
次に本発明の第 4の実施例について説明する。 第 4図は、 本発明の第 4の実施 例の構成を示すプロック図である。
第 4図を参照すると、 音源量子化回路 3 5 7は、 有声 ·無声判別情報が無声の 場合に、 乱数発生器 6 0 0において発生されたパルスの位置に対して、 音源コ一 ドブック 3 5 2を用いてパルスの振幅もしくは極性をまとめて量子化し、 全ての コードべクトル、 もしくはコードべクトルの複数個の候補をゲイン量子化回路 3 6 7に出力する。
ゲイン量子化回路 3 6 7は、 音源量子化回路 3 5 7から出力された候補の各々 に対してゲインコードブック 3 8 0により、 ゲインを量子化し、 歪みを最小化す るコードべクトルとゲインコードべクトルの組合せを出力する。 次に本発明の第 5の実施例について説明する。 第 5図は、 本発明の第 5の実施 例の構成を示すブロック図である。
第 5図を参照すると、 デマルチプレクサ 5 1 0は、 入力端子 5 0 0から入力さ れた符号系列を分離し、 スペク トルパラメータ、 適応コードブックの遅延、 適応 コードベクトル、 及び音源のゲインと、 音源情報としての振幅若しくは極性コー ドべクトル及びパルスの位置とを表す符号を分離して、 出力する。
ゲイン復号回路 5 1 0は、 ゲインコードブック 3 8 0を用いて適応コードブッ クと音源のゲインを復号して出力する。
適応コードブック回路 5 2 0は、 遅延と適応コ一ドべク トルのゲインを復号化 し、 過去のサブフレームでの合成フィルタ入力信号を用いて適応コードブック再 生信号を発生する。
モード判別回路 5 3 0は、 過去のサブフレームで復号した適応コードブックゲ インを用いて、 予め定められたしきい値と比較し、 現在のサブフレームが有声か 無声かを判別し、 有声 ·無声判別情報を音源信号復元回路 5 4 0に出力する。 音源信号復元回路 5 4 0は、 有声 ·無声判別情報を入力されて、 有声のときは、 パルスの位置を復号し、 音源コードブック 3 5 1からコードべクトルを読み出し て振幅もしくは極性を与えて、 サブフレーム当たり定められた個数のパルスを発 生させて、 音源信号を復元する。
一方、 音源信号復元回路 5 4 0は、 無声のときは、 予め定められたパルスの位 置とシフト量と振幅もしくは極性コードべクトルからパルスを発生させて、 音源 信号を復元する。
スペク トルパラメータ復号回路 5 7 0は、 スペク トルパラメータを復号し、 合 成フィルタ回路 5 6 0へ出力する。
加算器 5 5 0は、 適応コードブック出力信号と音源信号復号回路 5 4 0の出力 信号を加算して、 合成フィルタ回路 5 6 0へ出力する。
合成フィルタ回路 5 6 0は、 加算器 5 5 0の出力を入力されて、 音声を再生し て端子 5 8 0から出力する。 産業上の利用可能性
以上説明したように、 本発明によれば、 適応コードブックの過去の量子化ゲイ ンをもとに、 モードを判別し、 予め定められたモードの場合に、 複数個のパルス の振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべク トルと予め定められたパルスの位置を時間的にシフトする複数のシフト量の各々 とを組み合わせて探索し、 入力音声との歪みを最小にするコードべクトルとシフ ト量の組合せを選択する構成としたことにより、 ビッ トレートが低い場合にも、 比較的少ない演算量で、 背景雑音部分を良好に符号化することができる。
また、 本発明によれば、 コードベク トルと複数のシフト量の各々とゲインを量 子化するためのゲインコ一ドブックに格納されるゲインコードべク トルとを組み 合わせて探索し、 入力音声との歪みを最小にするコードべクトルとシフト量とゲ インコードべクトルの組合せを選択しているので、 背景雑音の重畳された音声を 低ビッ トレートで符号化した場合であっても、 背景雑音部分を良好に符号化する ことができる。

Claims

請求の範囲
1 . 音声信号を入力され、 スペク トルパラメータを求めて量子化するスペク トル パラメータ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック部と、
前記スぺク トルパラメータを用いて、 前記音声信号の音源信号を量子化して出 力する音源量子化部と、
を備える音声符号化装置において、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコードブックを有し、
前記コードプックに格納されるコードべク トルと前記パルスの位置をシフ卜す る複数のシフト量とを組み合わせて探索し、 入力音声との歪みを最小にするコー ドべクトルとシフト量の組合せを出力する音源量子化部と、
前記スぺクトルバラメータ計算部の出力と前記判別部の出力と前記適応コード ブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレ クサ部と、 を更に備えたことを特徴とする音声符号化装置。
2. 音声信号を入力され、 スペク トルパラメータを求めて量子化するスペク トル パラメ一夕計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック部と、
前記スぺク トルパラメータを用いて、 前記音声信号の音源信号を量子化して出 力する音源量子化部と、
を備える音声符号化装置において、
前記音声信号から特徴を抽出してモードを判別する判別部と、 前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコ一ドブックを有し、
予め定められた規則により前記パルスの位置を発生し、 入力音声との歪みを最 小にするコードべクトルを出力する音源量子化部と、
前記スペク トルパラメータ計算部の出力と前記判別部の出力と前記適応コード ブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレ クサ部と、
を更に有することを特徴とする音声符号化装置。
3 . 音声信号を入力され、 スペク トルパラメ一タを求めて量子化するスペク トル パラメータ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して残差を求める適応コードブック部と、
前記スペク トルパラメータを用いて前記音声信号の音源信号を量子化して出力 する音源量子化部と、
を備える音声符号化装置において、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコードブックとゲインを量子化するゲインコードブックを有し、
前記コードブックに格納されるコードべクトルと、 前記パルスの位置をシフト する複数のシフト量と、 前記ゲインコードブックに格納されるゲインコードべク トルとを組み合わせて探索し、 入力音声との歪みを最小にするコードべクトルと シフト量とゲインコードべクトルの組合せを出力する音源量子化部と、
前記スペクトルパラメータ計算部の出力と、 前記判別部の出力と、 前記適応コ ードブック部の出力と、 前記音源量子化部の出力と、 を組み合わせて出力するマ ルチプレクサ部と、
を備えることを特徴とする音声符号化装置。
4 . 音声信号を入力され、 スペク トルパラメータを求めて量子化するスペク トル パラメ一タ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック部と、
前記スペク トルパラメータを用いて前記音声信号の音源信号を量子化して出力 する音源量子化部と、
を備える音声符号化装置において、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモ一ドである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコードブックとゲインを量子化するゲインコードプックを有し、
予め定められた規則により前記パルスの位置を発生し、 入力音声との歪みを最 小にするコ一ドべクトルとゲインコードべクトルの組合せを出力する音源量子化 部と、
前記スぺク トルバラメータ計算部の出力と前記前記判別部の出力と前記適応コ 一ドブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチ プレクサ部と、
を備えることを特徴とする音声符号化装置。
5 . 音声信号を入力され、 スペク トルパラメータを求めて量子化するスペク トル パラメータ計算手段と、
過去の量子化された音源信号から適応コ一ドブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック手段と、
前記音声信号からその特徴量を抽出し有声 ·無声等に関するモード判別を行な うモード判別手段と、
を備え、 さらに、
前記スぺク トルパラメータを用いて前記音声信号の音源信号を量子化して出力 する音源量子化手段であって、 予め定められたモードの場合に、 複数個のパルス の振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべク トルと、 予め定められたパルスの位置を時間的にシフトする複数のシフト量の 各々とを組み合わせて探索し、 入力音声との歪みを最小にするコ一ドべクトルの インデクスとシフト量の組合せを選択する音源量子化手段と、
ゲインコードブックを用いてゲインを量子化するゲイン量子化手段と、 前記スペク トルパラメータ計算手段と前記適応コードブック手段と前記音源量 子化手段と前記ゲイン量子化手段の各出力とを組み合わせて出力するマルチプレ タス手段と、 を備えることを特徴とする音声符号化装置。
6. 前記モード判別手段での判別が予め定められたモードの場合、 前記音源量子 化手段は、 パルスの位置として、 予め定められた規則に従い発生した位置を用い る
ことを特徴とする請求の範囲第 5項記載の音声符号化装置。
7. 予め定められた個数のパルスの位置を発生する乱数発生手段であって、 前記 モード判別手段での判別が予め定められたモードの場合に、 前記発生された個数 の位置を前記音源量子化手段に出力する乱数発生手段を更に備える、
ことを特徴とする請求の範囲第 5項記載の音声符号化装置。
8. 前記モード判別手段での判別が予め定められたモードの場合、 前記音源量子 化手段は、 前記コードブックの全てのコードべクトルとパルスの位置のシフト量 との全ての組合せについて所定の歪み量を最小にする順に複数個の組合せを選択 してゲイン量子化手段へ出力し、
前記ゲイン量子化手段は、 前記音源量子化手段からの複数セッ トの出力の各々 に対し、 ゲインコードブックを用いてゲインを量子化し、 所定の歪み量を最小化 するシフト量、 音源コードベクトル、 ゲインコードベクトルの組合せを選択する、 ことを特徴とする請求の範囲第 5項記載の音声符号化装置。
9. 前記モード判別手段が、 音声信号の前記特徴量としてピッチ予測ゲインを用 い、 サブフレーム毎に求めたピッチ予測ゲインの値と、 予め定められたしきい値 とを比較し、 前記ピッチ予測ゲインが前記しきい値より大であれば有声、 しきい 値未満であれば無声と判断する、 ことを特徴とする請求の範囲第 5項記載の音声 符号化装置。
1 0. 前記予め定められたモードが無音であることを特徴とする請求の範囲第 5 項記載の音声符号化装置。
1 1 . 音声信号を入力され、 スペク トルパラメータを求めて量子化するスぺク ト ルパラメータ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して残差を求める適応コードブック部と、
前記スぺク トルパラメータを用いて、 前記音声信号の音源信号を量子化して出 力する音源量子化部と、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコ一ドブックと、
前記コードブックに格納されるコードべクトルと前記パルスの位置をシフトす る複数のシフト量とを組み合わせて探索し、 入力音声との歪みを最小にするコー ドべクトルとシフト量の組合せを出力する音源量子化部と、
前記スペク トルパラメータ計算部の出力と前記判別部の出力と前記適応コード ブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレ クサ部と、 を備えた音声符号化装置と、
前記音声符号化装置の符号化出力を入力され、 スペク トルパラメータ、 適応コ 一ドブックの遅延、 適応コードベク トル、 及び音源のゲインと、 音源情報として の、 振幅若しくは極性コードベクトル、 及びパルスの位置を表す符号とを分離し て、 出力するデマルチプレクサ手段と、
適応コードブックにおける過去の量子化されたゲインを用いてモードを判別す るモード判別手段と、
前記モード判別手段の出力が予め定められたモ一ドの場合に、 予め定められた 規則によりパルスの位置を発生し、 コードべクトルから前記パルスの振幅もしく は極性を発生して、 音源信号を復元する音源信号復元手段と、
前記音源信号を通して音声信号を再生する合成フィルタ部と、
を備えたことを特徴とする音声符号化復号化装置。
1 2. 音声信号を入力され、 スペク トルパラメータを求めて量子化するスぺク ト ルパラメータ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して残差を求める適応コードブック部と、
前記スぺク トルパラメータを用いて、 前記音声信号の音源信号を量子化して出 力する音源量子化部と、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコ一ドブックと、
予め定められた規則により前記パルスの位置を発生し、 入力音声との歪みを最 小にするコードべクトルを出力する音源量子化部と、
前記スペク トルパラメ一タ計算部の出力と前記判別部の出力と前記適応コード ブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレ クサ部と、 を有する音声符号化装置と、
前記音声符号化装置の符号化出力を入力され、 スペク トルパラメータ、 適応コ —ドブックの遅延、 適応コードベクトル、 及び音源のゲインと、 音源情報として の、 振幅若しくは極性コードベク トル、 及びパルスの位置を表す符号とを分離し て、 出力するデマルチプレクサ手段と、
適応コードブックにおける過去の量子化されたゲインを用いてモードを判別す るモード判別手段と、
前記モード判別手段の出力が予め定められたモードの場合に、 予め定められた 規則によりパルスの位置を発生し、 コードべクトルから前記パルスの振幅もしく は極性を発生して、 音源信号を復元する音源信号復元手段と、
前記音源信号を通して音声信号を再生する合成フィルタ部と、
を備えたことを特徴とする音声符号化復号化装置。
1 3. 音声信号を入力され、 スペクトルパラメータを求めて量子化するスぺク ト ルパラメ一タ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して残差を求める適応コードブック部と、
前記スぺク トルパラメータを用いて前記音声信号の音源信号を量子化して出力 する音源量子化部と、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコ一ドブックとゲインを量子化するゲインコードブックと、
前記コ一ドブックに格納されるコードべク トノレと、 前記パルスの位置をシフ ト する複数のシフト量と、 前記ゲインコードブックに格納されるゲインコードべク トルとを組み合わせて探索し、 入力音声との歪みを最小にするコードべクトルと シフト量とゲインコードべクトルの組合せを出力する音源量子化部と、
前記スペクトルパラメータ計算部の出力と、 前記判別部の出力と、 前記適応コ ードブック部の出力と、 前記音源量子化部の出力と、 を組み合わせて出力するマ ルチプレクサ部と、 を有する音声符号化装置と、
前記音声符号化装置の符号化出力を入力され、 スペク トルパラメータ、 適応コ ードブックの遅延、 適応コードベクトル、 及び音源のゲインと、 音源情報として の、 振幅若しくは極性コードベク トル、 及びパルスの位置を表す符号とを分離し て、 出力するデマルチプレクサ手段と、
適応コ一ドブックにおける過去の量子化されたゲインを用いて、 モードを判別 するモード判別手段と、
前記モード判別手段の出力が予め定められたモードの場合に、 予め定められた 規則によりパルスの位置を発生し、 コードべクトルから前記パルスの振幅もしく は極性を発生して、 音源信号を復元する音源信号復元手段と、
前記音源信号を通して音声信号を再生する合成フィルタ部と、
を備えたことを特徴とする音声符号化復号化装置。
1 4. 音声信号を入力され、 スペク トルパラメータを求めて量子化するスぺク ト ルパラメ一タ計算部と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック部と、
前記スぺク トルパラメ一タを用いて前記音声信号の音源信号を量子化して出力 する音源量子化部と、
前記音声信号から特徴を抽出してモードを判別する判別部と、
前記判別部の出力が予め定められたモードである場合に、 音源信号を複数個の 非零のパルスの組合せで表わし、 前記パルスの振幅もしくは極性をまとめて量子 化するコ一ドブックとゲインを量子化するゲインコードブックと、
予め定められた規則により前記パルスの位置を発生し、 入力音声との歪みを最 小にするコ一ドべクトルとゲインコードべクトルの組合せを出力する音源量子化 部と、
前記スぺク トルパラメータ計算部の出力と前記前記判別部の出力と前記適応コ 一ドプック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチ プレクサ部と、 を有する音声符号化装置と、
前記音声符号化装置の符号化出力を入力され、 スペク トルパラメータ、 適応コ ―ドブックの遅延、 適応コードべクトル、 及び音源のゲインと、 音源情報として の、 振幅若しくは極性コードベク トル、 及びパルスの位置を表す符号とを分離し て、 出力するデマルチプレクサ手段と、
適応コードブックにおける過去の量子化されたゲインを用いてモ一ドを判別す るモード判別手段と、
前記モード判別手段の出力が予め定められたモ一ドの場合に、 予め定められた 規則によりパルスの位置を発生し、 コードべクトルから前記パルスの振幅もしく は極性を発生して、 音源信号を復元する音源信号復元手段と、
前記音源信号を通して音声信号を再生する合成フィルタ部と、
を備えたことを特徴とする音声符号化復号化装置。
1 5. 音声信号を入力され、 スペク トルパラメ一タを求めて量子化するスぺクト ルパラメータ計算手段と、
過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、 音声信号を予測して、 残差を求める適応コードブック手段と、
前記音声信号からその特徴量を抽出し有声 ·無声等に関するモード判別を行な うモード判別手段と、
前記スぺク トルパラメ一タを用いて前記音声信号の音源信号を量子化して出力 する音源量子化手段であって、 予め定められたモードの場合に、 複数個のパルス の振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべク トルと、 予め定められたパルスの位置を時間的にシフ卜する複数のシフト量の 各々とを組み合わせて探索し、 入力音声との歪みを最小にするコードべクトルの ィンデタスとシフト量の組合せを選択する音源量子化手段と、
ゲインコードブックを用いてゲインを量子化するゲイン量子化手段と、 前記スペク トルパラメータ計算手段と前記適応コードブック手段と前記音源量 子化手段と前記ゲイン量子化手段の各出力とを組み合わせて出力するマルチプレ クス手段と、 を備える音声符号化装置と、
前記音声符号化装置の符号化出力を入力され、 スペク トルパラメータ、 適応コ —ドブックの遅延、 適応コードベクトル、 及び音源のゲインと、 音源情報として の、 振幅若しくは極性コードベク トル、 及びパルスの位置を表す符号とを分離し て、 出力するデマルチプレクサ手段と、
適応コードブックにおける過去の量子化されたゲインを用いて、 モードを判別 するモード判別手段と、
前記モ一ド判別手段の出力が予め定められたモードの場合に、 予め定められた 規則によりパルスの位置を発生し、 コードべクトルから前記パルスの振幅もしく は極性を発生して、 音源信号を復元する音源信号復元手段と、 前記音源信号を通して音声信号を再生する合成フィルタ部と、 を備えたことを特徴とする音声符号化復号化装置。
PCT/JP1999/003492 1998-06-30 1999-06-29 Codeur vocal WO2000000963A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US09/720,767 US6973424B1 (en) 1998-06-30 1999-06-29 Voice coder
EP99957654A EP1093230A4 (en) 1998-06-30 1999-06-29 speech
CA002336360A CA2336360C (en) 1998-06-30 1999-06-29 Speech coder

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP18517998 1998-06-30
JP10/185179 1998-06-30

Publications (1)

Publication Number Publication Date
WO2000000963A1 true WO2000000963A1 (fr) 2000-01-06

Family

ID=16166231

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/003492 WO2000000963A1 (fr) 1998-06-30 1999-06-29 Codeur vocal

Country Status (4)

Country Link
US (1) US6973424B1 (ja)
EP (1) EP1093230A4 (ja)
CA (1) CA2336360C (ja)
WO (1) WO2000000963A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002071394A1 (en) * 2001-03-07 2002-09-12 Nec Corporation Sound encoding apparatus and method, and sound decoding apparatus and method
JP2003532149A (ja) * 2000-04-24 2003-10-28 クゥアルコム・インコーポレイテッド 音声発話を予測的に量子化するための方法および装置
JP6996185B2 (ja) 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306813B2 (en) * 2007-03-02 2012-11-06 Panasonic Corporation Encoding device and encoding method
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281999A (ja) * 1992-04-02 1993-10-29 Sharp Corp 巡回符号帳を用いる音声符号化装置
JPH09179593A (ja) * 1995-12-26 1997-07-11 Nec Corp 音声符号化装置
JPH10133696A (ja) * 1996-10-31 1998-05-22 Nec Corp 音声符号化装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
JP3114197B2 (ja) 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JP3151874B2 (ja) 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3143956B2 (ja) 1991-06-27 2001-03-07 日本電気株式会社 音声パラメータ符号化方式
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
JP3144284B2 (ja) * 1995-11-27 2001-03-12 日本電気株式会社 音声符号化装置
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
JPH10124091A (ja) 1996-10-21 1998-05-15 Matsushita Electric Ind Co Ltd 音声符号化装置および情報記憶媒体
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281999A (ja) * 1992-04-02 1993-10-29 Sharp Corp 巡回符号帳を用いる音声符号化装置
JPH09179593A (ja) * 1995-12-26 1997-07-11 Nec Corp 音声符号化装置
JPH10133696A (ja) * 1996-10-31 1998-05-22 Nec Corp 音声符号化装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003532149A (ja) * 2000-04-24 2003-10-28 クゥアルコム・インコーポレイテッド 音声発話を予測的に量子化するための方法および装置
US8660840B2 (en) 2000-04-24 2014-02-25 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
WO2002071394A1 (en) * 2001-03-07 2002-09-12 Nec Corporation Sound encoding apparatus and method, and sound decoding apparatus and method
US7680669B2 (en) 2001-03-07 2010-03-16 Nec Corporation Sound encoding apparatus and method, and sound decoding apparatus and method
JP6996185B2 (ja) 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Also Published As

Publication number Publication date
CA2336360C (en) 2006-08-01
CA2336360A1 (en) 2000-01-06
EP1093230A1 (en) 2001-04-18
US6973424B1 (en) 2005-12-06
EP1093230A4 (en) 2005-07-13

Similar Documents

Publication Publication Date Title
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH0353300A (ja) 音声符号化装置
JPH0990995A (ja) 音声符号化装置
JPH09281998A (ja) 音声符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3266178B2 (ja) 音声符号化装置
JP3558031B2 (ja) 音声復号化装置
WO2000000963A1 (fr) Codeur vocal
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3003531B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3144284B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3845316B2 (ja) 音声符号化装置及び音声復号装置
JP3092654B2 (ja) 信号符号化装置
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法
JPH0291697A (ja) 音声符号化復号化方式とその装置
JPH0291699A (ja) 音声符号化復号化方式

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FI FR GB NL SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1999957654

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2336360

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 09720767

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1999957654

Country of ref document: EP