WO2008072732A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2008072732A1
WO2008072732A1 PCT/JP2007/074132 JP2007074132W WO2008072732A1 WO 2008072732 A1 WO2008072732 A1 WO 2008072732A1 JP 2007074132 W JP2007074132 W JP 2007074132W WO 2008072732 A1 WO2008072732 A1 WO 2008072732A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
gain
sound source
search
fixed
Prior art date
Application number
PCT/JP2007/074132
Other languages
English (en)
French (fr)
Inventor
Toshiyuki Morii
Original Assignee
Panasonic Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corporation filed Critical Panasonic Corporation
Priority to US12/518,378 priority Critical patent/US20100049508A1/en
Priority to EP07850636A priority patent/EP2099025A4/en
Priority to JP2008549374A priority patent/JPWO2008072732A1/ja
Publication of WO2008072732A1 publication Critical patent/WO2008072732A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Definitions

  • the present invention relates to a voice encoding device and a voice encoding method for encoding a voice by CELP (Code Excited Linear Prediction).
  • CELP is a basic method that skillfully applies vector quantization by modeling the speech utterance mechanism.
  • CELP has a lot of information to be encoded and the spectrum envelope by LPC (Linear Prediction Coefficient) system parameters, the excitation by the adaptive excitation codebook and the fixed excitation codebook, and the gains of the two excitations. It is necessary to devise a method to reduce the amount of calculation for searching for them.
  • LPC Linear Prediction Coefficient
  • the LPC code is decoded to obtain a decoded parameter, and a synthesis filter is configured with the parameter.
  • excitation search using an adaptive excitation codebook alone is performed. Specifically, assuming the ideal gain (the gain with the smallest distortion), the value obtained by multiplying each adaptive excitation vector stored in the adaptive excitation codebook by the ideal gain is passed through the synthesis filter. Then, a synthesized signal is generated, coding distortion that is a distance between the synthesized signal and the input speech signal is calculated, and a code of an adaptive excitation vector that minimizes the coding distortion is searched. [0009] Next, the searched code is decoded, and a decoded adaptive excitation vector is obtained.
  • the ideal gain the gain with the smallest distortion
  • excitation search using a fixed excitation codebook is performed. Specifically, assuming the ideal gains (two types of adaptive excitation vector gain and fixed excitation vector gain), the value obtained by multiplying each fixed excitation vector of the fixed excitation codebook by the ideal gain is decoded as described above. Then, a value obtained by adding the value obtained by multiplying the adaptive excitation vector by the ideal gain is passed through the synthesis filter to generate a synthesized signal, and a coding distortion which is a distance between the synthesized signal and the input speech signal is calculated. The code of the fixed excitation vector that minimizes the coding distortion is searched.
  • the searched code is decoded to obtain a decoded fixed excitation vector.
  • each gain candidate is multiplied by the above two sound source vectors and passed through the synthesis filter to search for a gain closest to the input speech signal, and finally, the searched gain is quantized.
  • CELP has conventionally adopted an open loop search algorithm that fixes other information when searching for one information and searches for codes one by one. ing. For this reason, CELP was unable to obtain sufficient performance.
  • Patent Document 1 discloses a basic invention for searching for an adaptive excitation codebook and a fixed excitation codebook and simultaneously obtaining an optimal code using preliminary selection. This method makes it possible to search two codebooks in a closed loop.
  • Patent Document 1 Japanese Patent Laid-Open No. 5-19794
  • the closed-loop search of the adaptive excitation codebook and the fixed excitation codebook is originally relatively independent because of the structure in which their vectors are added, and is much larger than the open-loop search. There is no performance gain.
  • CELP uses a LPC synthesis filter for the sound source vector and gain search algorithm, and greatly improves performance by analysis by synthesis. This is because the synthesis filter is completely multiplied by two sound source vectors and gains.
  • the present invention has been made in view of the power and the point, and performs a closed-loop search for gains and sound source vectors so as not to significantly increase the amount of calculation compared with the open-loop search, thereby greatly improving performance. It is an object to provide a speech encoding apparatus and speech encoding method that can be obtained.
  • the speech coding apparatus includes a first parameter determining unit that searches for a code of an adaptive excitation vector in the adaptive excitation codebook, and a closed-loop search for the code and gain of the fixed excitation vector in the fixed excitation codebook.
  • Two parameter determination means wherein the second parameter determination means is a combination of a fixed sound source vector and a gain, a value obtained by multiplying a candidate fixed sound source vector by a fixed sound source candidate gain, and the adaptive sound source vector for an adaptive sound source.
  • the value obtained by adding the value multiplied by the candidate gain is passed through a synthesis filter composed of filter coefficients based on quantized linear prediction coefficients to generate a synthesized signal, and is the distance between this synthesized signal and the input speech signal.
  • a configuration is adopted in which the coding distortion is calculated and the code and gain of the fixed excitation vector that minimizes the coding distortion are searched.
  • the speech coding method of the present invention includes a first step of searching for an adaptive excitation vector code of the adaptive excitation codebook and a closed loop search of the code and gain of the fixed excitation vector of the fixed excitation codebook.
  • the second step the combination of the fixed sound source vector and the gain! /, The value obtained by multiplying the candidate fixed sound source vector by the candidate gain for fixed sound source and the adaptive sound source vector are applied.
  • a value obtained by multiplying the value obtained by multiplying the sound source candidate gain is passed through a synthesis filter composed of filter coefficients based on quantized linear prediction coefficients to generate a synthesized signal, and the distance between the synthesized signal and the input speech signal
  • a method is employed in which the coding distortion is calculated and the code and gain of the fixed sound source vector having the smallest coding distortion are searched.
  • a closed loop search for gain and fixed sound source vector can be performed without performing a vector operation, so that a large performance can be achieved without significantly increasing the amount of calculation compared to an open loop search. An improvement can be obtained.
  • FIG. 1 is a flowchart showing a conventional encoding procedure.
  • FIG. 2 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 3 is a flowchart showing an encoding procedure according to Embodiment 1 of the present invention.
  • FIG. 4 shows a fixed excitation codebook and gain closed loop search according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of the speech encoding apparatus according to Embodiment 1.
  • the pre-processing unit 101 performs a waveform shaping process and a pre-facility process on the input audio signal to improve the performance of the high-pass filter process for removing the DC component and the subsequent encoding process.
  • the signal (Xin) is output to the LPC analysis unit 102 and the addition unit 105.
  • the LPC analysis unit 102 performs linear prediction analysis using Xin, and outputs the analysis result (linear prediction coefficient) to the LPC quantization unit 103.
  • the LPC quantization unit 103 quantizes the linear prediction coefficient (LPC) output from the LPC analysis unit 102, outputs the quantized LPC to the synthesis filter 104, and multiplexes a code (U is multiplexed) representing the quantized LPC. Output to part 114.
  • LPC linear prediction coefficient
  • the synthesis filter 104 generates a synthesized signal by performing filter synthesis on a driving sound source output from the adding unit 111 to be described later using a filter coefficient based on the quantized LPC, and adds the synthesized signal to the adding unit 105. Output to.
  • Adder 105 calculates the error signal by inverting the polarity of the combined signal and adding it to Xin, and outputs the error signal to auditory weighting unit 112.
  • Adaptive excitation codebook 106 buffers drive excitations output by adding section 111 in the past.
  • a frame sample is extracted as an adaptive excitation vector from the past driving sound source specified by the signal output from the parameter determining unit 113 and output to the multiplication unit 109.
  • Gain codebook 107 outputs the gain of the adaptive excitation vector and the gain of the fixed excitation vector specified by the signal output from parameter determining section 113 to multiplication section 109 and multiplication section 110, respectively.
  • Fixed excitation codebook 108 fixes a Norse excitation vector having a shape specified by the signal output from parameter determining unit 113 or a vector obtained by multiplying the Norse excitation vector by a diffusion vector.
  • the sound source vector is output to multiplication section 110.
  • Multiplication section 109 multiplies the adaptive excitation vector output from adaptive excitation codebook 106 by the gain output from gain codebook 107 and outputs the result to addition section 111.
  • Multiplication section 110 multiplies the gain output from gain codebook 107 by the fixed excitation vector output from fixed excitation codebook 108 and outputs the result to addition section 111.
  • Adder 111 receives the adaptive excitation vector and the fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these to each other, and adds the drive sound source that is the addition result to the synthesis filter.
  • 104 and adaptive excitation codebook 106 receives the adaptive excitation vector and the fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these to each other, and adds the drive sound source that is the addition result to the synthesis filter.
  • 104 and adaptive excitation codebook 106 receives the adaptive excitation vector and the fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these to each other, and adds the drive sound source that is the addition result to the synthesis filter.
  • 104 and adaptive excitation codebook 106 receives the adaptive excitation vector and the fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these to each other, and adds the drive sound source that
  • the auditory weighting unit 112 performs auditory weighting on the error signal output from the adding unit 105 and outputs it to the parameter determining unit 113 as coding distortion.
  • the parameter determining unit 113 searches for an adaptive excitation vector, a fixed excitation vector and a gain code that minimizes the coding distortion output from the auditory weighting unit 112, and represents the searched adaptive excitation vector.
  • the code (A), the code (F) representing the fixed excitation vector, and the code (G) representing the gain are output to the multiplexing unit 114.
  • the present invention is characterized by a method for searching for fixed sound source vectors and gains in the parameter determination unit 113. That is, first, the first parameter determination unit 121 performs excitation search using the adaptive excitation codebook alone, and then the second parameter determination unit 122 simultaneously performs sound source search and gain search using the fixed excitation codebook in a closed loop. Do.
  • the multiplexing unit 114 receives the code (L) representing the quantized LPC from the LPC quantizing unit 103, A code (A) representing an adaptive excitation vector, a code (F) representing a fixed excitation vector, and a code (G) representing a gain are input from the parameter determination unit 113, and these pieces of information are multiplexed and output as encoded information.
  • LPC system parameters are extracted, and converted to LSP (Line Spectrum Pair) beta.
  • VQ vector quantization
  • the LPC code is decoded to obtain decoded parameters, and a synthesis filter is configured with the parameters.
  • excitation search using the adaptive excitation codebook alone is performed. Specifically, assuming the ideal gain (the gain with the smallest distortion), the value obtained by multiplying each adaptive excitation vector stored in the adaptive excitation codebook by the ideal gain is passed through the synthesis filter. Then, a synthesized signal is generated, coding distortion that is a distance between the synthesized signal and the input speech signal is calculated, and a code of an adaptive excitation vector that minimizes the coding distortion is searched.
  • the ideal gain the gain with the smallest distortion
  • the searched code is decoded to obtain a decoded adaptive excitation vector.
  • excitation search and gain search using a fixed excitation codebook are simultaneously performed in a closed loop. Specifically, for all combinations of fixed excitation vectors and gains, the value obtained by multiplying the candidate fixed excitation vector by the candidate gain and the value obtained by multiplying the decoded adaptive excitation vector by the candidate gain are added. Is passed through the synthesis filter to generate a synthesized signal, and a coding distortion, which is a distance between the synthesized signal and the input speech signal, is calculated, and the code and gain of the fixed sound source vector having the smallest coding distortion are obtained. Explore.
  • Equation (1) represents coding distortion E used for code search in CELP.
  • the encoder process searches for a code that minimizes the encoding distortion E.
  • X is the encoding target (input speech)
  • p is the adaptive excitation gain
  • H is the impulse response of the LPC synthesis filter
  • a is the adaptive excitation vector
  • q is the fixed excitation gain
  • s is a fixed sound source Represents each vector.
  • an intermediate value that is not related to fixed excitation vector s or gain q is calculated in advance before performing a closed-loop search of the fixed excitation codebook and gain.
  • the first term of the above equation (2) is a target parameter and is irrelevant to the codebook search. Also, the second and third terms of the above equation (2) are the gain q and the fixed sound source.
  • Equation (4) Equation (4)
  • I is the number of fixed sound source vector candidates.
  • J is the number of gain candidates (the number of vectors in this embodiment).
  • N. P jPj M x ⁇ p j M 2 _. (6)
  • the intermediate value is calculated in advance, and a simultaneous search is performed for each of the number of candidates for the fixed excitation codebook and the gain.
  • the closed loop search of this embodiment is a double loop in which a fixed excitation codebook search loop (second loop) is placed in a gain search loop (first loop). /!
  • the feature of the search process shown in FIG. 4 is that all calculations in the loop are simple numerical calculations and there is no calculation of a vector. As a result, the amount of calculation is minimized.
  • a closed loop search for gain and fixed sound source vector can be performed without performing vector calculation.
  • a large performance improvement can be obtained without a significant increase.
  • the amount of computation for the search (first loop) It can be greatly lowered.
  • the computational complexity of the fixed sound source vector search (second loop) can be greatly reduced.
  • the fixed sound source vector is a vector composed of a small number of noises or a vector obtained by diffusing it
  • a scaling coefficient is calculated in advance for each of the number of noises and the type of the diffusion vector.
  • Stored in memory, and the fixed excitation codebook and gain closed loop The following describes the case where gain quantization is performed by multiplying a fixed excitation vector by a scaling coefficient in a search for a group.
  • the scaling coefficient in the present embodiment is the reciprocal of the value representing the size (amplitude) of the fixed sound source vector, and depends on the number of pulses and the type of diffusion vector.
  • the scaling coefficient V is an amount depending on the number of pulses, it is calculated in advance, for example, as in the following equation (8).
  • 1 ⁇ is the number of pulses of the i-th fixed sound source vector.
  • This equation (8) of the codebook corresponds to the case where the impulse size is 1.
  • the scaling coefficient may be further divided by the vector length before the calculation of the square root.
  • the scaling factor is defined as the reciprocal of the average amplitude of one sample.
  • Equation (9) the average amplitude of all the sound source vector candidates for each pulse number or spread vector, or a coefficient based on the number is used as an approximate value for each number or spread vector.
  • One scaling factor can be determined.
  • Equation (9) below is only an approximation. This is because when the pulse is diffused, the diffusion vector overlaps at the position of the pulse, so that the power varies from position to position.
  • Equation (9) d mi is the diffusion vector, m is the diffusion vector of the i-th fixed sound source beta Indicates the number.
  • the two intermediate value M 3, M 4 corresponds to the denominator and numerator term of the cost function of the algebraic codebook search.
  • the algebraic codebook encodes with the position of the pulse and the polarity of the pulse (+-).
  • the polarity of the pulse is referred to the position of the pulse by referring to the polarity of each element of the vector X tfi.
  • the two are ⁇ 20, 2 0 ⁇ and 1600 ways of 20 X 20 X 2 2 , 3 are ⁇ 16, 16, 8 ⁇ and 16 X 16 X 8 X 2 3 16384, and 4 (or ⁇ 16, 8, 8, 8 ⁇ are 16 X 8 X 8 X 8 X 2 4 131072 ways, human-powered speech signals (or a total of 17 to each subframe; encoded with 18 bits).
  • a diffused sound source that is, creating a fixed sound source vector by convolving a diffusion vector with a noise is also effective in improving sound quality.
  • various characteristics can be given to the fixed sound source vector. In this case, the power varies depending on the diffusion vector used.
  • the present invention is a multi-pulse codebook or the like. It is effective even for some sound sources.
  • the present invention is also effective in a fixed excitation codebook of full pulses (values are present at all positions) other than the excitation with a pulse. This is because it is sufficient to perform clustering of the sound source vector parcels in advance, and obtain and store the scaling coefficient calculated with the small number of representative values. In this case, it is necessary to store the correspondence between the status of each fixed sound source and the scaling factor to be used.
  • the adaptive excitation codebook is searched in advance and then the closed-loop search of the fixed excitation codebook and the gain is performed.
  • the present invention is not limited to this, and the adaptive excitation codebook Can also be included in the closed-loop search.
  • the intermediate value of the adaptive excitation codebook can be calculated in the same way as the intermediate value for the fixed excitation codebook in each embodiment, and the last closed-loop search part becomes a triple loop. The calculation amount may be too high. In this case, by performing preliminary selection of the adaptive excitation codebook, the number of adaptive excitation vector candidates can be reduced, and the amount of calculation can be reduced to a realistic amount.
  • a fixed excitation codebook and a closed-loop search for gain are performed.
  • the present invention is not limited to this, and the preliminary selection of any candidate can be combined, thereby further reducing the amount of calculation.
  • the closed-loop search for the fixed excitation codebook and the fixed excitation vector gain is performed in each embodiment. It can be realized in the same way.
  • the power described for the case of using for CELP is not limited to this, and it is effective as long as the codebook includes a sound source codebook. This is because the present invention is a closed-loop search for fixed sound source vectors and gains, and does not depend on the presence / absence of an adaptive sound source codebook or the analysis method of the spectral envelope! /.
  • the input signal of the speech coding apparatus may be an audio signal that is not only a speech signal. Further, a configuration in which the present invention is applied to an LPC prediction residual signal instead of an input signal may be employed.
  • the speech coding apparatus can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby has a similar effect to the above.
  • a base station apparatus, and a mobile communication system can be provided.
  • the power described by taking the case where the present invention is configured by hardware as an example can be realized by software.
  • the algorithm of the speech coding method according to the present invention is described in a programming language, the program is stored in a memory, and is executed by the information processing means, so that it is the same as the speech coding device according to the present invention. Function can be realized.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • the LSI is used here, it may be referred to as an IC, a system LSI, a super LSI, an unroller LSI, or the like depending on the degree of integration.
  • circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • FPGA Field Pro
  • reconfigurable processors that can reconfigure the connection or settings of circuit cells inside the LSI.
  • the present invention is suitable for use in a speech encoding apparatus that encodes speech by CELP.

Abstract

 開ループ探索と比較して計算量を大幅には増やさないようにゲインと音源ベクトルの閉ループ探索を行う音声符号化装置。この音声符号化装置では、まず、第1パラメータ決定部(121)が、適応音源符号帳による音源探索を行った後、第2パラメータ決定部(122)が、固定音源符号帳による音源探索とゲインの探索とを閉ループにより同時に行う。具体的には、固定音源ベクトルとゲインの組み合わせについて、候補固定音源ベクトルに候補ゲインを乗じた値と適応音源ベクトルに候補ゲインを乗じた値とを加算したものを、量子化線形予測係数に基づくフィルタ係数により構成された合成フィルタに通して合成信号を生成し、この合成信号と入力音声信号との距離である符号化歪を計算し、この符号化歪が最も小さくなる固定音源ベクトルの符号およびゲインを探索する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、 CELP (Code Excited Linear Prediction)によって音声を符号化する音 声符号化装置および音声符号化方法に関する。
背景技術
[0002] 移動体通信においては、電波などの伝送路容量や記憶媒体の有効利用を図るた め、音声や画像のディジタル情報に対して圧縮符号化を行うことが必須であり、これ までに多くの符号化/複号化方式が開発されてきた。
[0003] 音声符号化技術は、音声の発声機構をモデル化してベクトル量子化を巧みに応用 した基本方式 CELPによってその性能を大きく向上させた。
[0004] ここで、 CELPには、 LPC (線形予測係数)系パラメータによるスペクトル包絡、適応 音源符号帳と固定音源符号帳による音源および 2つの音源のゲインと符号化対象と なる情報が多いため、これらを探索するための計算量を少なくする工夫が必要となる
[0005] 以下、従来力 行われている CELPの各情報の典型的な符号化手順について図 1 を用いて説明する。
[0006] まず、入力音声信号に対して線形予測分析を行い、 LPC系パラメータを抽出し、 L SP (Line Spectrum Pair)のべタトノレに変換する。そして、そのべタトノレの VQ (ベクトノレ 量子化)を行!、LPCの符号を決める。
[0007] 次に、その LPCの符号を復号化して復号化されたパラメータを求め、そのパラメ一 タで合成フィルタを構成する。
[0008] 次に、適応音源符号帳単独による音源探索を行う。具体的には、理想ゲイン (歪が 最も小さくなるゲイン)を仮定して、適応音源符号帳に格納されてレ、る各適応音源べ タトルに上記理想ゲインを乗じた値を上記合成フィルタに通して合成信号を生成し、 この合成信号と入力音声信号との距離である符号化歪を計算し、この符号化歪が最 も小さくなる適応音源ベクトルの符号を探索する。 [0009] 次に、その探索された符号を復号化し、復号化された適応音源ベクトルを求める。
[0010] 次に、固定音源符号帳による音源探索を行う。具体的には、理想ゲイン (適応音源 ベクトルのゲインと固定音源ベクトルのゲインの 2種類)を仮定して、固定音源符号帳 の各固定音源ベクトルに上記理想ゲインを乗じた値と上記復号化された適応音源べ タトルに上記理想ゲインを乗じた値とを加算したものを上記合成フィルタに通して合 成信号を生成し、この合成信号と入力音声信号との距離である符号化歪を計算し、 この符号化歪が最も小さくなる固定音源ベクトルの符号を探索する。
[0011] 次に、その探索された符号を復号化し、復号化された固定音源ベクトルを求める。
[0012] 次に、上記復号化された適応音源ベクトルと上記復号化された固定音源ベクトルの ゲインを量子化する。具体的には、各ゲイン候補を上記 2つの音源ベクトルに乗じて 上記合成フィルタに通したものが入力音声信号に最も近くなるゲインを探索し、最後 に、探索されたゲインを量子化する。
[0013] このように、従来から CELPでは、計算量を少なくするため、 1つの情報を探索する 際に他の情報を固定し、 1つずつ符号を探索する開ループ探索のアルゴリズムを採 用している。このため、 CELPでは、十分な性能を得ることができなかった。
[0014] この問題を解決するべぐ従来から、計算量を大幅には増やさないような閉ループ 探索法が検討されている。特許文献 1には、適応音源符号帳と固定音源符号帳の探 索を、予備選択を使いながら同時に最適な符号を求める基本的な発明が開示されて いる。この方法により 2つの符号帳を閉ループで探索することが可能になる。
特許文献 1:特開平 5— 19794号公報
発明の開示
発明が解決しょうとする課題
[0015] しかしながら、適応音源符号帳と固定音源符号帳の閉ループ探索は、それらのベ タトルが加算される構造であることから元々比較的独立の関係にあり、開ループ探索 と比較してそれほど大きな性能向上を得ることはできない。
[0016] これに対し、 2つのパラメータが乗算される関係にあれば、閉ループ探索で大きな 効果がある。 CELPにおいて、音源ベクトルやゲインの探索アルゴリズムに LPC合成 フィルタを使用し、合成による分析 (Analysis by Synthesis)により大きな性能向上を得 ることができたのは、合成フィルタが完全に 2つの音源ベクトルやゲインと乗算される 関係にあるためである。
[0017] 合成フィルタ以外で、乗算される関係にあるものは、ゲインと音源ベクトルである力 ゲインと音源ベクトルの閉ループ探索に関する従来の技術では、計算量が大幅に増 えてしまうものしか開示されてレヽなレ、。
[0018] 本発明は力、かる点に鑑みてなされたものであり、開ループ探索と比較して計算量を 大幅には増やさないようにゲインと音源ベクトルの閉ループ探索を行い、大きな性能 向上を得ることができる音声符号化装置および音声符号化方法を提供することを目 的とする。
課題を解決するための手段
[0019] 本発明の音声符号化装置は、適応音源符号帳の適応音源ベクトルの符号を探索 する第 1パラメータ決定手段と、固定音源符号帳の固定音源ベクトルの符号とゲイン とを閉ループ探索する第 2パラメータ決定手段と、を具備し、前記第 2パラメータ決定 手段は、固定音源ベクトルとゲインの組み合わせについて、候補固定音源ベクトルに 固定音源用候補ゲインを乗じた値と前記適応音源ベクトルに適応音源用候補ゲイン を乗じた値とを加算した値を、量子化線形予測係数に基づくフィルタ係数により構成 された合成フィルタに通して合成信号を生成し、この合成信号と入力音声信号との距 離である符号化歪を計算し、この符号化歪が最も小さくなる固定音源ベクトルの符号 およびゲインを探索する、構成を採る。
[0020] 本発明の音声符号化方法は、適応音源符号帳の適応音源ベクトルの符号を探索 する第 1ステップと、固定音源符号帳の固定音源ベクトルの符号とゲインとを閉ルー プ探索する第 2ステップと、を具備し、前記第 2ステップでは、固定音源ベクトルとゲイ ンの組み合わせにつ!/、て、候補固定音源ベクトルに固定音源用候補ゲインを乗じた 値と前記適応音源ベクトルに適応音源用候補ゲインを乗じた値とを加算した値を、量 子化線形予測係数に基づくフィルタ係数により構成された合成フィルタに通して合成 信号を生成し、この合成信号と入力音声信号との距離である符号化歪を計算し、こ の符号化歪が最も小さくなる固定音源べ外ルの符号およびゲインを探索する、方法 を採る。 発明の効果
[0021] 本発明によれば、ベクトル演算を行うことなくゲインと固定音源ベクトルの閉ループ 探索を行うことができるので、開ループ探索と比較して計算量を大幅には増加させず に、大きな性能向上を得ることができる。
図面の簡単な説明
[0022] [図 1]従来の符号化手順を示すフロー図
[図 2]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 3]本発明の実施の形態 1に係る符号化手順を示すフロー図
[図 4]本発明の実施の形態 1に係る固定音源符号帳とゲインの閉ループ探索のアル 発明を実施するための最良の形態
[0023] 以下、本発明の各実施の形態について、図面を用いて説明する。
[0024] (実施の形態 1)
図 2は、実施の形態 1に係る音声符号化装置の構成を示すブロック図である。
[0025] 前処理部 101は、入力音声信号に対し、 DC成分を取り除くハイパスフィルタ処理 や後続する符号化処理の性能改善につながるような波形整形処理やプリェンファシ ス処理を行い、これらの処理後の信号 (Xin)を LPC分析部 102および加算部 105に 出力する。
[0026] LPC分析部 102は、 Xinを用いて線形予測分析を行い、分析結果 (線形予測係数) を LPC量子化部 103に出力する。 LPC量子化部 103は、 LPC分析部 102から出力 された線形予測係数(LPC)の量子化処理を行い、量子化 LPCを合成フィルタ 104 に出力するとともに量子化 LPCを表す符号 (Uを多重化部 114に出力する。
[0027] 合成フィルタ 104は、量子化 LPCに基づくフィルタ係数により、後述する加算部 11 1から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、 合成信号を加算部 105に出力する。
[0028] 加算部 105は、合成信号の極性を反転させて Xinに加算することにより誤差信号を 算出し、誤差信号を聴覚重み付け部 112に出力する。
[0029] 適応音源符号帳 106は、過去に加算部 111によって出力された駆動音源をバッフ ァに記憶しており、ノ ラメータ決定部 113から出力された信号により特定される過去の 駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部 10 9に出力する。
[0030] ゲイン符号帳 107は、ノ ラメータ決定部 113から出力された信号によって特定され る適応音源ベクトルのゲインと固定音源ベクトルのゲインとをそれぞれ乗算部 109と 乗算部 110とに出力する。
[0031] 固定音源符号帳 108は、ノ ラメータ決定部 113から出力された信号によって特定さ れる形状を有するノ ルス音源ベクトル又はそのノ ルス音源ベクトルに拡散ベクトルを 乗算して得られたベクトルを固定音源ベクトルとして乗算部 110に出力する。
[0032] 乗算部 109は、ゲイン符号帳 107から出力されたゲインを、適応音源符号帳 106か ら出力された適応音源ベクトルに乗じて、加算部 111に出力する。乗算部 110は、ゲ イン符号帳 107から出力されたゲインを、固定音源符号帳 108から出力された固定 音源ベクトルに乗じて、加算部 111に出力する。
[0033] 加算部 111は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをそれぞれ乗 算部 109と乗算部 110とから入力し、これらをベクトル加算し、加算結果である駆動 音源を合成フィルタ 104および適応音源符号帳 106に出力する。なお、適応音源符 号帳 106に入力された駆動音源は、バッファに記憶される。
[0034] 聴覚重み付け部 112は、加算部 105から出力された誤差信号に対して聴覚的な重 み付けをおこない符号化歪みとしてパラメータ決定部 113に出力する。
[0035] ノ ラメータ決定部 113は、聴覚重み付け部 112から出力された符号化歪みを最小 とする適応音源ベクトル、固定音源べ外ル及びゲインの符号を探索し、探索された 適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す符号 (F)及びゲインを表 す符号 (G)を多重化部 114に出力する。
[0036] 本発明は、パラメータ決定部 113における固定音源ベクトル及びゲインの探索方法 に特徴がある。すなわち、まず、第 1パラメータ決定部 121が、適応音源符号帳単独 による音源探索を行った後、第 2パラメータ決定部 122が、固定音源符号帳による音 源探索とゲインの探索とを閉ループにより同時に行う。
[0037] 多重化部 114は、 LPC量子化部 103から量子化 LPCを表す符号 (L)を入力し、パ ラメータ決定部 113から適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す 符号 (F)およびゲインを表す符号 (G)を入力し、これらの情報を多重化して符号化 情報として出力する。
[0038] 次に、本実施の形態に係る符号化手順について図 3を用いて説明する。
[0039] まず、入力音声信号に対して線形予測分析を行い、 LPC系パラメータを抽出し、 L SP (Line Spectrum Pair)のべタトノレに変換する。そして、そのべタトノレの VQ (ベクトノレ 量子化)を行!、LPCの符号を決める。
[0040] 次に、その LPCの符号を復号化して復号化されたパラメータを求め、そのパラメ一 タで合成フィルタを構成する。
[0041] 次に、適応音源符号帳単独による音源探索を行う。具体的には、理想ゲイン (歪が 最も小さくなるゲイン)を仮定して、適応音源符号帳に格納されてレ、る各適応音源べ タトルに上記理想ゲインを乗じた値を上記合成フィルタに通して合成信号を生成し、 この合成信号と入力音声信号との距離である符号化歪を計算し、この符号化歪が最 も小さくなる適応音源ベクトルの符号を探索する。
[0042] 次に、その探索された符号を復号化し、復号化された適応音源ベクトルを求める。
[0043] 次に、固定音源符号帳による音源探索とゲインの探索とを閉ループにより同時に行 う。具体的には、すべての固定音源ベクトルとゲインの組み合わせについて、候補固 定音源ベクトルに候補ゲインを乗じた値と上記復号化された適応音源ベクトルに候 補ゲインを乗じた値とを加算したものを上記合成フィルタに通して合成信号を生成し 、この合成信号と入力音声信号との距離である符号化歪を計算し、この符号化歪が 最も小さくなる固定音源べ外ルの符号およびゲインを探索する。
[0044] 最後に、探索された 2つのベクトルのゲインを量子化する。
[0045] 次に、固定音源符号帳とゲインの閉ループ探索のアルゴリズムについて、図 4のフ 口一および数式を用レ、て具体的に説明する。
[0046] 式(1)は、 CELPにおいて符号探索に用いる符号化歪 Eを示すものである。この符 号化歪 Eを最小化する符号を探索するのが符号器の処理である。なお、式(1)にお いて、 Xは符号化ターゲット(入力音声)、 pは適応音源用ゲイン、 Hは LPC合成フィ ルタのインパルス応答、 aは適応音源ベクトル、 qは固定音源用ゲイン、 sは固定音源 ベクトルをそれぞれ表す。
Figure imgf000009_0001
[0047] 上記式(1)を展開すると以下の式(2)となる。ここで、以降の説明ではインデクスを 付与して表記する。適応音源ベクトルは先に符号化して復号化しておくので上記記 号のままで表記する力 固定音源ベクトルにはインデクス iを付与して sと表記する。ま たゲインは適応音源用ゲイン pと固定音源用ゲイン qをまとめてベクトル量子化するも のとし、同じインデクス jを付与して p、 qと表記する。
J J
[数 2]
Ε = χ'χ + ρ2α'Η'Ηα― Ιρχ'Ηα + q2s'H'Hs― Iqx'Hs + 2pqa'H'Hs · · · ( 2 ) t :転置記号
[0048] ここで、本実施の形態では、固定音源符号帳とゲインの閉ループ探索を行う前に、 固定音源ベクトル sあるいはゲイン qに関わらない中間値を予め計算しておく。
1 j
[0049] まず、上記式(2)の第 1項は、ターゲットのパヮであり、符号帳探索には無関係であ るので以後省略する。また、上記式(2)の第 2項、第 3項は、ゲイン qおよび固定音源
J
ベクトル sに関わらないので、第 2項、第 3項のゲイン p以外を、以下の式(3)に示す
J
Figure imgf000009_0002
M2とする。なお、本実施の形態では前もって適応音源ベクトルの 探索を終えているので、上記式(2)の第 2項、第 3項は両者ともスカラ値になる。 國
M1 = α'Η'Ηα , 、
. . · ( 3 )
Μ2 = - Ιχ'Η
[0050] また、上記式(2)の第 4項、第 5項は、ゲイン pに関わらないので、第 4項、第 5項の
J
ゲイン q以外を、以下の式 (4)に示すように中間値 M3、 M4とする。なお、式 (4)にお
J
いて、 Iは固定音源ベクトルの候補数である。
[数 4コ
M = si'H'Hsi
M^ -2x'HSi · · · ( 4 ) [0051] また、上記式(2)の第 6項のゲイン p、 q以外を、以下の式(5)に示すように中間値
J J
M5とする。
[数 5コ
M5 = la'H'Hs,
' , · · · ( 5 )
[0052] ここで、上記式(2)の第 2項、第 3項についてはゲイン候補全てについて予め加算 しておくことができるので、以下の式(6)に示すように中間値 Nとする。なお、式(6) j
にお!/、て、 Jはゲインの候補数 (本実施の形態ではベクトル数)である。
[数 6]
N . = pjPjMx ^ pjM2 _ . . ( 6 )
ゾ = 1…ゾ
[0053] このように、本実施の形態では、中間値を予め計算し、固定音源符号帳とゲインに ついてそれぞれの候補数の総当りで同時探索を行う。図 4に示すように、本実施の形 態の閉ループ探索は、ゲインの探索のループ (第 1ループ)の中に固定音源符号帳 の探索のループ(第 2ループ)が入る 2重ループになって!/、る。
[0054] 図 4に示す探索処理の特徴は、ループ内の計算が全て簡単な数値計算であり、ベ タトルの演算が無い点である。この結果、計算量は必要最小限に抑えられる。
[0055] このように、本実施の形態によれば、 CELP方式において、ベクトル演算を行うこと なくゲインと固定音源ベクトルの閉ループ探索を行うことができるので、開ループ探索 と比較して計算量を大幅には増加させずに、大きな性能向上を得ることができる。
[0056] また、中 の探索(第 1ループ) の計算量を
Figure imgf000010_0001
大きく下げることができる。同様に、中間値 M3、 M5を予め求めておく ことによって固定音源ベクトルの探索(第 2ループ)の計算量を大きく下げることができ
^ o
[0057] (実施の形態 2)
実施の形態 2では、固定音源ベクトルが少数のノ ルスで構成されたベクトルか、そ れを拡散させたベクトルであるときに、予めノ ルス本数や拡散ベクトルの種類毎にス ケーリング係数を計算してメモリに格納しておき、固定音源符号帳とゲインの閉ルー プ探索において、スケーリング係数を固定音源ベクトルに乗じてゲインの量子化を行 う場合について説明する。本実施の形態におけるスケーリング係数は、固定音源べク トルの大きさ(振幅)を表す値の逆数であり、パルスの本数や拡散ベクトルの種類に依 存する。
[0058] 固定音源符号帳とゲインの閉ループ探索において、スケーリング係数を用いること は、ゲイン qにスケーリング係数 Vを乗ずるのと等価であり、上記式(2)は以下の式(
J
7)に変更になる。
[数 7]
E = x'x + p一 a'H'Ha― 2px'Ha + q2s'H'Hs v2 - 2qx'Hs v + 2pqalH'Hs v
…(7 )
[0059] 上記スケーリング係数 Vは、パルスの本数に依存した量であるので、例えば以下の 式(8)の様に予め算出しておく。なお、式(8)において、 1^は i番目の固定音源べタト ルのパルスの本数である。符号帳のこの式(8)は、インパルスの大きさを 1とした場合 に相当する。
[数 8コ
Figure imgf000011_0001
…(8 )
i = -I
[0060] なお、上記スケーリング係数はその定義から更に平方根の計算の前にベクトル長で 割る場合もある。このような場合は、スケーリング係数を 1サンプルの平均振幅の逆数 と定義した場合等である。
[0061] また、更に拡散ベクトルを用いる場合には平均の振幅が拡散ベクトルによって異な つてくる。この場合でも、以下の式(9)の様に、パルス本数や拡散ベクトル毎に全ての 音源ベクトル候補の平均振幅や、上記本数に基づく係数を近似値として使用する等 、本数や拡散ベクトル毎に 1つのスケーリング係数を求めることができる。ただし、以 下の式(9)の計算はあくまで近似である。なぜなら、パルスを拡散する場合、パルス の位置で、拡散ベクトルが重なるので位置毎にパヮが異なってくるからである。なお、 式(9)において、 d miは拡散ベクトル、 mは i番目の固定音源べタトノレの拡散ベクトル の番号を示す。
[数 9コ
Figure imgf000012_0001
/ = 1·· ·7 · · · ( 9 )
ただし、 Pdmi = d
[0062] 従って、ノ^レス本数や拡散ベクトルの種類毎にスケーリング係数 Vがある場合は、 上記のスケーリング係数を用いて、中間値 M3、 M4、 M5は以下の式(10)の様に表さ れる。
[数 10]
M = ' V,2
M = - 2x'Hsj ν,.
Μ,5 = la'H'Hs, v.
. j · · · ( 1 0 )
[0063] このように、本実施の形態によれば、スケーリングに伴う処理があっても、中間値に 含めることができるので、スケーリングを用いない場合と同様に固定音源符号帳とゲ インの閉ループ探索を実現することができる。
[0064] なお、固定音源符号帳として代数的符号帳を用いる場合は、上記 2つの中間値 M3 、 M4は代数的符号帳探索のコスト関数の分母項と分子項に相当する。また、代数的 符号帳はノ ルスの位置とパルスの極性(+—)で符号化を行い、この場合、ベクトル X tfiの各要素の極性を参照して、パルスの極性をパルスの位置の参照値とすることに よって、性能の劣化を最小限にしながら極性の探索を省略することができるので、ィ ンデタス iの種類を少なくでき、閉ループ探索の計算量をより少なくすることができる。 例えば、ノ ルス数 3で各チャネルのエントリ数が { 16, 16, 8 }の場合には情報量(ビッ ト数)は(位置) (4 + 4 + 3) + (極性) (1 + 1 + 1)の 14ビット(1= 16384通り)であるが 、極性が探索の対象外だとすると 11ビット(1 = 2048通り)で済むことになる。したがつ て、上記実施の形態 1に代数的符号帳を用いることは、計算量を下げるために有効 なことである。 [0065] また、固定音源符号帳としての代数的符号帳のパルス数の本数として様々なヴァリ エーシヨンを持つことは音質の向上に効果がある。これは、有声性の部分は声帯波 に近いことから少数パルスが適しており、無声性や環境ノイズの部分は多数パルスが 適しているという傾向から明らかである。例えば、パルス数のヴァリエーションとして 2 本、 3本、 4本を使用し、サブフレームの長さ力 0サンプルである場合、 2本は { 20, 2 0 }で 20 X 20 X 22の 1600通り、 3本は { 16, 16, 8 }で 16 X 16 X 8 X 23の 16384通 り、 4本 (ま { 16, 8, 8, 8 }で 16 X 8 X 8 X 8 X 24の 131072通りで、人力音声信号 (まサ ブフレーム毎に合計 17〜; 18ビットで符号化される。
[0066] また、拡散した音源を用いること、すなわち拡散ベクトルをノ ルスに畳み込んで固 定音源ベクトルを作成することも音質の向上に効果がある。この技術により、固定音 源ベクトルに様々な特性を与えることができる。この場合、使用する拡散ベクトルによ つてパヮが異なってくることになる。
[0067] また、本実施の形態では固定音源符号帳の説明の中で代数的符号帳を用いた場 合を例に説明した力 本発明は、マルチパルス符号帳等、ノ ルス本数のヴアリエーシ ヨンがある音源でも有効である。
[0068] また、パルスが立っている音源以外のフルパルス(全部の位置に値がある)の固定 音源符号帳でも本発明は有効である。なぜなら、予め音源ベクトルのパヮのクラスタリ ングを行い、その少数の代表値で計算したスケーリング係数を求めて格納しておけ ばよいからである。この場合は、各固定音源のインデタスと使用するスケーリング係数 との対応を格納しておく必要がある。
[0069] なお、上記各実施の形態では適応音源符号帳を事前に探索した後で、固定音源 符号帳とゲインとの閉ループ探索を行ったが、本発明はこれに限られず、適応音源 符号帳をも閉ループ探索に含めることもできる。ただし、この場合、適応音源符号帳 の中間値は各実施の形態の固定音源符号帳に関する中間値と同様に計算すること ができる力 S、最後の閉ループ探索の部分が 3重ループになるために計算量が掛かり すぎる可能性がある。この場合は適応音源符号帳の予備選択を行うことにより、適応 音源ベクトルの候補数を削減し、現実的な計算量へ抑えることができる。
[0070] また、上記各実施の形態では固定音源符号帳とゲインの閉ループ探索をそれぞれ の候補の総当りで行ったが、本発明はこれに限られず、いずれかの候補の予備選択 を組み合わせることができ、これにより計算量をさらに削減することができる。
[0071] また、本発明は、適応音源ベクトルを符号化した後で適応音源ベクトルのゲインを 先に符号化した場合でも、固定音源符号帳と固定音源ベクトルのゲインの閉ループ 探索を各実施の形態と同様に実現することができる。
[0072] また、上記各実施の形態では CELPに対して用いる場合について説明した力 本 発明はこれに限られず、音源の符号帳が存在する符号化であれば有効である。なぜ なら、本発明の所在は固定音源ベクトルとゲインの閉ループ探索であり、適応音源符 号帳の有無や、スペクトル包絡の分析方法に依存しな!/、からである。
[0073] また、本発明に係る音声符号化装置の入力信号は、音声信号だけでなぐオーデ ィォ信号でも良い。また、入力信号の代わりに、 LPC予測残差信号に対して本発明 を適用する構成であっても良い。
[0074] また、本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装 置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果 を有する通信端末装置、基地局装置、および移動体通信システムを提供することが できる。
[0075] また、ここでは、本発明をハードウェアで構成する場合を例にとって説明した力 本 発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化 方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記 憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化 装置と同様の機能を実現することができる。
[0076] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップ化されても良い。
[0077] また、ここでは LSIとしたが、集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることもある。
[0078] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル .プロセッサを利用しても良!/、。
[0079] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行って も良い。バイオ技術への適用等が可能性としてあり得る。
[0080] 2006年 12月 14曰出願の特願 2006— 337025の曰本出願に含まれる明細書、図 面および要約書の開示内容は、すべて本願に援用される。
産業上の利用可能性
[0081] 本発明は、 CELPによって音声を符号化する音声符号化装置等に用いるに好適で ある。

Claims

請求の範囲
[1] 適応音源符号帳の適応音源ベクトルの符号を探索する第 1パラメータ決定手段と、 固定音源符号帳の固定音源べ外ルの符号とゲインとを閉ループ探索する第 2パラ メータ決定手段と、を具備し、
前記第 2パラメータ決定手段は、固定音源ベクトルとゲインの組み合わせにつ!/、て 、候補固定音源ベクトルに固定音源用候補ゲインを乗じた値と前記適応音源べタト ルに適応音源用候補ゲインを乗じた値とを加算した値を、量子化線形予測係数に基 づくフィルタ係数により構成された合成フィルタに通して合成信号を生成し、この合成 信号と入力音声信号との距離である符号化歪を計算し、この符号化歪が最も小さく なる固定音源ベクトルの符号およびゲインを探索する、
音声符号化装置。
[2] 前記第 2パラメータ決定手段は、前記符号化歪みにおいて前記固定音源べクトノレ あるいは前記ゲインに関わらない部分である中間値を予め計算し、ゲインの探索の ループの中に固定音源符号帳の探索のループが入る 2重ループにより、前記中間 値を用いた前記閉ループ探索を行う請求項 1に記載の音声符号化装置。
[3] 前記第 2パラメータ決定手段は、前記固定音源ベクトルが所定数のノ^レスで構成さ れたベクトルか、それを拡散させたベクトルであるときに、予めパルス本数や拡散べク トルの種類毎にスケーリング係数を計算してメモリに格納しておき、前記閉ループ探 索において、スケーリング係数を固定音源ベクトルに乗じてゲインの量子化を行う請 求項 1に記載の音声符号化装置。
[4] 適応音源符号帳の適応音源ベクトルの符号を探索する第 1ステップと、
固定音源符号帳の固定音源べ外ルの符号とゲインとを閉ループ探索する第 2ステ ップと、を具備し、
前記第 2ステップでは、固定音源ベクトルとゲインの組み合わせについて、候補固 定音源ベクトルに固定音源用候補ゲインを乗じた値と前記適応音源ベクトルに適応 音源用候補ゲインを乗じた値とを加算した値を、量子化線形予測係数に基づくフィル タ係数により構成された合成フィルタに通して合成信号を生成し、この合成信号と入 力音声信号との距離である符号化歪を計算し、この符号化歪が最も小さくなる固定 音源ベクトルの符号およびゲインを探索する、
音声符号化方法。
[5] 前記第 2ステップでは、前記符号化歪みにおいて前記固定音源ベクトルあるいは 前記ゲインに関わらない部分である中間値を予め計算し、ゲインの探索のループの 中に固定音源符号帳の探索のループが入る 2重ループにより、前記中間値を用いた 前記閉ループ探索を行う請求項 4に記載の音声符号化方法。
[6] 前記第 2ステップでは、前記固定音源ベクトルが所定数のノ レスで構成されたべク トルカ、、それを拡散させたベクトルであるときに、予めパルス本数や拡散ベクトルの種 類毎にスケーリング係数を計算してメモリに格納しておき、前記閉ループ探索におい て、スケーリング係数を固定音源ベクトルに乗じてゲインの量子化を行う請求項 4に 記載の音声符号化方法。
PCT/JP2007/074132 2006-12-14 2007-12-14 音声符号化装置および音声符号化方法 WO2008072732A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/518,378 US20100049508A1 (en) 2006-12-14 2007-12-14 Audio encoding device and audio encoding method
EP07850636A EP2099025A4 (en) 2006-12-14 2007-12-14 AUDIO CODING DEVICE AND AUDIO CODING METHOD
JP2008549374A JPWO2008072732A1 (ja) 2006-12-14 2007-12-14 音声符号化装置および音声符号化方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-337025 2006-12-14
JP2006337025 2006-12-14

Publications (1)

Publication Number Publication Date
WO2008072732A1 true WO2008072732A1 (ja) 2008-06-19

Family

ID=39511745

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/074132 WO2008072732A1 (ja) 2006-12-14 2007-12-14 音声符号化装置および音声符号化方法

Country Status (4)

Country Link
US (1) US20100049508A1 (ja)
EP (1) EP2099025A4 (ja)
JP (1) JPWO2008072732A1 (ja)
WO (1) WO2008072732A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508512A (ja) * 2012-01-06 2015-03-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーバーフローを検出するための装置、デバイス、方法及びコンピュータプログラム製品
JPWO2013129439A1 (ja) * 2012-02-28 2015-07-30 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
JP2017032825A (ja) * 2015-08-03 2017-02-09 株式会社タムラ製作所 音符号化システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830299A (ja) * 1994-07-19 1996-02-02 Nec Corp 音声符号化装置
JPH08179797A (ja) * 1994-12-27 1996-07-12 Nec Corp 音声符号化装置
JPH1063297A (ja) * 1996-08-16 1998-03-06 Toshiba Corp 音声符号化方法および装置
WO1999034354A1 (en) * 1997-12-24 1999-07-08 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
JPH11282497A (ja) * 1998-03-31 1999-10-15 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置、及び音声符号化装置/復号化装置、音声信号通信システム、並びに音声信号記録システム
JP2000089797A (ja) * 1998-09-11 2000-03-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2006337025A (ja) 2005-05-31 2006-12-14 Hitachi Ltd 絶対速度計測装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0577488B9 (en) * 1992-06-29 2007-10-03 Nippon Telegraph And Telephone Corporation Speech coding method and apparatus for the same
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
DE69712538T2 (de) * 1996-11-07 2002-08-29 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
DE69734837T2 (de) * 1997-03-12 2006-08-24 Mitsubishi Denki K.K. Sprachkodierer, sprachdekodierer, sprachkodierungsmethode und sprachdekodierungsmethode
KR100527217B1 (ko) * 1997-10-22 2005-11-08 마츠시타 덴끼 산교 가부시키가이샤 확산 벡터 생성 방법, 확산 벡터 생성 장치, celp형 음성 복호화 방법 및 celp형 음성 복호화 장치
US6044339A (en) * 1997-12-02 2000-03-28 Dspc Israel Ltd. Reduced real-time processing in stochastic celp encoding
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP3426207B2 (ja) * 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
EP1860650A1 (en) * 2000-11-30 2007-11-28 Matsushita Electric Industrial Co., Ltd. Vector quantizing device for LPC parameters
US7302387B2 (en) * 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
CN101044553B (zh) * 2004-10-28 2011-06-01 松下电器产业株式会社 可扩展编码装置、可扩展解码装置及其方法
JP4887279B2 (ja) * 2005-02-01 2012-02-29 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8433581B2 (en) * 2005-04-28 2013-04-30 Panasonic Corporation Audio encoding device and audio encoding method
EP1876586B1 (en) * 2005-04-28 2010-01-06 Panasonic Corporation Audio encoding device and audio encoding method
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830299A (ja) * 1994-07-19 1996-02-02 Nec Corp 音声符号化装置
JPH08179797A (ja) * 1994-12-27 1996-07-12 Nec Corp 音声符号化装置
JPH1063297A (ja) * 1996-08-16 1998-03-06 Toshiba Corp 音声符号化方法および装置
WO1999034354A1 (en) * 1997-12-24 1999-07-08 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
JPH11282497A (ja) * 1998-03-31 1999-10-15 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置、及び音声符号化装置/復号化装置、音声信号通信システム、並びに音声信号記録システム
JP2000089797A (ja) * 1998-09-11 2000-03-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2006337025A (ja) 2005-05-31 2006-12-14 Hitachi Ltd 絶対速度計測装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2099025A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508512A (ja) * 2012-01-06 2015-03-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーバーフローを検出するための装置、デバイス、方法及びコンピュータプログラム製品
JPWO2013129439A1 (ja) * 2012-02-28 2015-07-30 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
JP2017032825A (ja) * 2015-08-03 2017-02-09 株式会社タムラ製作所 音符号化システム

Also Published As

Publication number Publication date
JPWO2008072732A1 (ja) 2010-04-02
EP2099025A1 (en) 2009-09-09
EP2099025A4 (en) 2010-12-22
US20100049508A1 (en) 2010-02-25

Similar Documents

Publication Publication Date Title
US6393390B1 (en) LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP5241701B2 (ja) 符号化装置および符号化方法
JP3224955B2 (ja) ベクトル量子化装置およびベクトル量子化方法
JPWO2008072701A1 (ja) ポストフィルタおよびフィルタリング方法
JP3981399B1 (ja) 固定符号帳探索装置および固定符号帳探索方法
CN1947173B (zh) 分层编码装置及分层编码方法
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
WO2008072732A1 (ja) 音声符号化装置および音声符号化方法
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
JP5159318B2 (ja) 固定符号帳探索装置および固定符号帳探索方法
WO2008018464A1 (fr) dispositif de codage audio et procédé de codage audio
JP2002503835A (ja) 固定コードブックにおける最適のベクトルの高速決定のための方法および装置
US20100094623A1 (en) Encoding device and encoding method
JP2979943B2 (ja) 音声符号化装置
JPH06282298A (ja) 音声の符号化方法
JP3552201B2 (ja) 音声符号化方法および装置
JP3192051B2 (ja) 音声符号化装置
WO2007129726A1 (ja) 音声符号化装置及び音声符号化方法
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
JPH09269800A (ja) 音声符号化装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07850636

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008549374

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12518378

Country of ref document: US

Ref document number: 1103/MUMNP/2009

Country of ref document: IN

Ref document number: 2007850636

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE