WO2012035781A1 - 量子化装置及び量子化方法 - Google Patents

量子化装置及び量子化方法 Download PDF

Info

Publication number
WO2012035781A1
WO2012035781A1 PCT/JP2011/005244 JP2011005244W WO2012035781A1 WO 2012035781 A1 WO2012035781 A1 WO 2012035781A1 JP 2011005244 W JP2011005244 W JP 2011005244W WO 2012035781 A1 WO2012035781 A1 WO 2012035781A1
Authority
WO
WIPO (PCT)
Prior art keywords
candidates
quantization
stage
vector
distortion
Prior art date
Application number
PCT/JP2011/005244
Other languages
English (en)
French (fr)
Inventor
利幸 森井
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to KR1020137006545A priority Critical patent/KR20130112869A/ko
Priority to BR112013006103A priority patent/BR112013006103A2/pt
Priority to US13/821,577 priority patent/US9135919B2/en
Priority to JP2012533874A priority patent/JP5687706B2/ja
Priority to RU2013111526/08A priority patent/RU2013111526A/ru
Priority to CA2810995A priority patent/CA2810995A1/en
Priority to CN2011800423091A priority patent/CN103081007A/zh
Priority to EP11824794.9A priority patent/EP2618331B1/en
Publication of WO2012035781A1 publication Critical patent/WO2012035781A1/ja
Priority to ZA2013/01886A priority patent/ZA201301886B/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0006Tree or treillis structures; Delayed decisions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Definitions

  • the present invention relates to a quantization apparatus and a quantization method that perform quantization using tree search.
  • ⁇ CELP Code Excited Linear Prediction
  • LPC Linear Prediction Coding
  • ISP Immittance Spectral Spair
  • VQ Vector Quantization
  • multiple stage quantization is used as a method for obtaining more encoding performance.
  • the target vector is not divided and a plurality of small vector quantizations are used to perform continuous quantization so as to gradually reduce the error. That is, the quantization error vector of the previous stage is quantized at the next stage. If only the one with the smallest error in the previous stage is used, the amount of calculation can be made very small.
  • multistage quantization is performed using only the quantization result with the smallest error as a candidate, the overall coding distortion is not sufficiently reduced, and the quantization performance is deteriorated.
  • Patent Document 1 describes a method of quantizing a CELP sound source vector in multiple stages. It is well known that when the number of stages increases, an efficient search can be performed by using a tree search. A method of performing a search by setting the number of candidates (quantization results with small errors) to remain in each stage as N is called “N best search (N best search)” and is known as an efficient multistage search method. Yes.
  • Patent Document 2 describes an example of search by N best search, although vector quantization is not used.
  • An object of the present invention is to provide a quantization apparatus and a quantization method that can reduce encoding distortion with a small amount of calculation and obtain sufficient encoding performance.
  • the quantization apparatus of the present invention is a quantization apparatus that performs multi-stage quantization using tree search, and performs matching between each of one or more targets to be encoded and a code vector stored in a codebook.
  • Search means for obtaining one or more candidates from the least quantized distortion by the number of candidates determined in the previous stage or set in advance, and subtracting the code vector from the target and quantizing the candidates A configuration is provided that includes a calculation unit that calculates a quantization error vector and a candidate number determination unit that determines the number of candidates used in the next stage based on the number of candidates determined in the previous stage.
  • the quantization method of the present invention is a quantization method that performs multistage quantization using tree search, and performs matching between each of one or more targets to be encoded and a code vector stored in a codebook.
  • the first stage one or more candidates from the smallest quantization distortion are obtained for the number of candidates specified in advance, and in the second and subsequent stages, the number of candidates determined in the previous stage is obtained.
  • a quantization error vector is calculated by subtracting the code vector from the target, and the number of candidates used in the next stage is determined based on the number of candidates determined in the previous stage.
  • encoding distortion can be reduced with a small amount of calculation, and sufficient encoding performance can be obtained.
  • FIG. 1 is a block diagram showing a configuration of a CELP encoding apparatus according to Embodiment 1 of the present invention.
  • the block diagram which shows the internal structure of the multistage vector quantization part shown in FIG.
  • the block diagram which shows the internal structure of the vector quantization part shown in FIG.
  • the flowchart which shows the candidate number determination procedure in the candidate number determination part shown in FIG.
  • the flowchart which shows the candidate number determination procedure in the candidate number determination part which concerns on Embodiment 2 of this invention.
  • FIG. 1 is a block diagram showing a configuration of CELP encoding apparatus 100 according to Embodiment 1 of the present invention.
  • the CELP encoding apparatus 100 encodes vocal tract information by obtaining LPC parameters (linear prediction coefficients) in the audio signal S11 composed of vocal tract information and sound source information.
  • CELP encoding apparatus 100 uses code data for specifying which of the previously stored speech models is used for excitation information, that is, what excitation vector (in adaptive codebook 103 and fixed codebook 104)
  • the sound source information is encoded by obtaining code data specifying whether to generate a code vector.
  • each unit of CELP encoding apparatus 100 performs the following operation.
  • the LPC analysis unit 101 performs linear prediction analysis on the speech signal S11, obtains LPC parameters that are spectrum envelope information, and outputs them to the multistage vector quantization unit 102 and the perceptual weighting unit 111.
  • Multistage vector quantization section 102 multistage vector quantizes the LPC parameters obtained by LPC analysis section 101, the obtained quantized LPC parameters are sent to LPC synthesis filter 109, and the coded data of the quantized LPC parameters is sent to CELP coding apparatus 100 Output to the outside.
  • adaptive codebook 103 stores past driving sound sources used in LPC synthesis filter 109, and stores them according to the adaptive codebook lag corresponding to the code data instructed from distortion minimizing section 112.
  • a sound source vector for one subframe is generated from the driving sound source.
  • This excitation vector is output to multiplier 106 as an adaptive codebook vector.
  • Fixed codebook 104 stores a plurality of excitation vectors of a predetermined shape in advance, and outputs the excitation vector corresponding to the code data instructed from distortion minimizing section 112 to multiplier 107 as a fixed codebook vector.
  • the fixed codebook 104 is an algebraic codebook, and a case in which weighting is performed by addition will be described for a configuration in which an algebraic codebook using two kinds of pulses is used.
  • An algebraic sound source is a sound source that has been adopted by many standard codecs, and is a sound source that has a small number of impulses of size 1 with only position and polarity (+-) information.
  • CS-ACELP CS-ACELP
  • ARIB ARIB standard “RCR STD-27K”
  • ACELP ACELP
  • the above adaptive codebook 103 is used to express a component having strong periodicity such as voiced sound.
  • the fixed codebook 104 is used to express a component with weak periodicity such as white noise.
  • the gain codebook 105 is a gain for the adaptive codebook vector (adaptive codebook gain) output from the adaptive codebook 103 and a fixed codebook output from the fixed codebook 104 in accordance with an instruction from the distortion minimizing unit 112.
  • Vector gain (fixed codebook gain) is generated and output to multipliers 106 and 107, respectively.
  • Multiplier 106 multiplies the adaptive codebook gain output from gain codebook 105 by the adaptive codebook vector output from adaptive codebook 103 and outputs the result to adder 108.
  • Multiplier 107 multiplies the fixed codebook gain output from gain codebook 105 by the fixed codebook vector output from fixed codebook 104 and outputs the result to adder 108.
  • Adder 108 adds the adaptive codebook vector output from multiplier 106 and the fixed codebook vector output from multiplier 107, and outputs the added excitation vector to LPC synthesis filter 109 as a driving excitation. .
  • the LPC synthesis filter 109 uses a quantized LPC parameter output from the multistage vector quantization unit 102 as a filter coefficient, and a filter function using the excitation vector generated by the adaptive codebook 103 and the fixed codebook 104 as a driving excitation, that is, A synthesized signal is generated using an LPC synthesis filter. This combined signal is output to adder 110.
  • the adder 110 calculates an error signal by subtracting the synthesized signal generated by the LPC synthesis filter 109 from the audio signal S 11, and outputs the error signal to the auditory weighting unit 111.
  • This error signal corresponds to coding distortion.
  • the perceptual weighting unit 111 performs perceptual weighting on the encoded distortion output from the adder 110 and outputs it to the distortion minimizing unit 112.
  • the distortion minimizing unit 112 obtains indexes of the adaptive codebook 103, the fixed codebook 104, and the gain codebook 105 for each subframe so that the coding distortion output from the perceptual weighting unit 111 is minimized. Are output as code data to the outside of the CELP encoding apparatus 100. More specifically, a series of processes for generating a composite signal based on the above-described adaptive codebook 103 and fixed codebook 104 and obtaining the coding distortion of this signal is closed loop control (feedback control), and distortion minimum
  • the encoding unit 112 searches each code book by changing code data instructing each code book in one subframe, and finally obtains the code of each code book that minimizes the coding distortion. Output data.
  • the driving sound source when the coding distortion is minimized is fed back to the adaptive codebook 103 for each subframe.
  • the adaptive codebook 103 updates the stored driving sound source by this feedback.
  • the search for the excitation vector and the derivation of the code data are performed by searching for the excitation vector that minimizes the encoding distortion of the following equation (1).
  • E coding distortion
  • x coding target
  • p adaptive codebook vector gain
  • H perceptual weighting synthesis filter
  • a adaptive codebook vector
  • q fixed codebook vector gain
  • s fixed codebook vector
  • the derivation of the code of the fixed codebook 104 is performed by reducing the encoding distortion of the following equation (2). This is done by searching for a fixed codebook vector to be minimized.
  • E coding distortion
  • x coding target (audibility weighted speech signal)
  • p optimal gain of adaptive codebook vector
  • H perceptual weighting synthesis filter
  • a adaptive codebook vector
  • q gain of fixed codebook vector
  • S fixed codebook vector
  • y target vector for fixed codebook search
  • the function C can be calculated with a small amount of calculation by calculating yH and HH in advance.
  • FIG. 2 is a block diagram showing an internal configuration of the multistage vector quantization unit 102 shown in FIG.
  • multistage vector quantization (multistage VQ) is used as a method for quantizing spectral parameters (LPC parameters).
  • the multi-stage VQ is a method in which a plurality of stages of VQ are continuously performed, and the quantization distortion of the previous stage is quantized in the next stage.
  • the internal configuration of multistage vector quantization section 102 will be described on the assumption that the number of quantization bits is relatively large and the number of stages is relatively large, that is, 6 to 10 stages or more.
  • the vector quantization unit 201-1 quantizes the LPC parameter obtained by the LPC analysis unit 101, that is, the encoding target (target vector). Specifically, vector quantization is performed in which the distance (quantization distortion) from the code vector stored in the codebook is calculated to obtain the smallest number. In the tree search, several candidate numbers are obtained from the one with the smallest distance (quantization distortion).
  • the vector quantization unit 201-1 obtains a temporary target vector, a code candidate (which becomes a number sequence (candidate number sequence) in tree search) and the number of candidates as quantization distortion, and obtains the calculated temporary target vector, code candidate, and candidate. The number is output to the vector quantization unit 201-2, and the code candidate is also output to the code determination unit 202.
  • the vector quantization unit 201-2 performs the same quantization as the vector quantization unit 201-1 on the temporary target vector output from the vector quantization unit 201-1 (a plurality of temporary target vectors may exist in the tree search).
  • the temporary target vector, the code candidates (candidate number sequence) and the number of candidates are output to the vector quantization unit 201-3, and the code candidates are also output to the code determination unit 202.
  • the vector quantization units 201-3 to 201-J perform the same quantization as that of the vector quantization unit 201-1, and the vector quantization unit 203-J includes a temporary target vector, a code candidate (candidate number sequence), and a candidate. The number is output to the code determination unit 202.
  • the code determination unit 202 integrates the number of the candidate number sequence with the least quantization distortion among the candidate number sequences output from the vector quantization units 201-1 to 201-J into one data sequence, and generates code data. It is sent to the outside of CELP encoding apparatus 100. Further, when the final distortion is subtracted from the target vector that is an input of the multistage vector quantization unit 102, a decoded vector obtained as a result of decoding using the code data is obtained. From this decoded vector, a quantized LPC parameter used in the LPC synthesis filter 109 is obtained and sent to the LPC synthesis filter 109.
  • FIG. 3 is a block diagram showing an internal configuration of the vector quantization unit 201-j (1 ⁇ j ⁇ J) shown in FIG.
  • the internal configuration of the vector quantization unit 201-j (1 ⁇ j ⁇ J) will be described with reference to FIG.
  • Three signals are input to the vector quantization unit 201-j.
  • One is the number j of candidates, which is the number of candidate number sequences and temporary target vectors that are left as candidates in the quantization unit 201-j and output to the vector quantization unit 201- (j + 1) in the next stage. It is.
  • a target vector or a temporary target vector (hereinafter, these may be collectively referred to as a “temporary target vector”) j, which is a first vector to be encoded (target vector) or a previous vector in the middle of a stage. This is a temporary target vector as an encoding distortion vector obtained by the quantization unit 201- (j-1).
  • candidate number sequence j which is the number sequence of each vector quantization unit with the least distortion up to the vector quantization unit 201-j.
  • target vector there may be a plurality of temporary target vectors j and candidate number sequences j.
  • the candidate number j is set as K
  • the candidate number j-1 is set as M
  • M 1 since there is one target vector.
  • the distortion calculation and codebook search unit 301 matches all the M temporary target vectors with all the code vectors stored in the codebook 302 (Euclidean distance (the sum of squares by taking a difference for each element as a vector). The distance calculation is generally performed), and K candidates are searched from the smallest distance (quantization distortion), and their code numbers are obtained. At that time, the original number sequence is also determined. Then, with reference to the candidate number sequence j, the candidate code numbers are connected to the original number sequence to calculate K candidate number sequences j + 1 and output to the vector quantization unit 201- (j + 1) in the next stage To do. Also, the candidate number j, the code vector of the candidate code number, and the target vector to be quantized are output to the temporary target calculation unit 304. Also, one value is output from the candidate number j and the coding distortion to the candidate number determination unit 303.
  • the candidate number j and the candidate number sequence j are preset in the vector quantization unit 201-1. Only the target vector is input.
  • the vector quantization unit 201-j is the last-stage vector quantization unit 201-J, the number of candidates is 1, and the number with the smallest distance (quantization distortion) is set as the target vector. Only by connecting to the corresponding candidate number sequence and outputting it as the candidate number sequence j + 1 to the code determining unit 202, the candidate number determining unit 303 and the temporary target calculating unit 304 are not operated.
  • a specific processing example of the distortion calculation and codebook search unit 301 is shown below.
  • Codevector and C i m. m is the code vector number.
  • the quantization distortion En , m is expressed by the following equation (5).
  • the upper three code numbers that minimize the quantization distortion En , m are obtained.
  • the top three were (1) code number 35 when the temporary target vector was 0, (2) code number 8 when the temporary target vector was 0, and (3) the temporary target vector was 3 It is assumed that the code number 52 at that time is.
  • the code number is attached last with reference to the candidate number sequence
  • the next three number sequences to be sent as candidate number sequence j + 1 are (5, 12, 31, 35), (5, 12, 31, 8), (31, 3, 18, 52).
  • three sets of temporary target vectors and code vectors (x i 0 , C i 35 ), (x i 0 , C i 8 ), and (x i 3 , C i 52 ) are output to the temporary target calculation unit 304.
  • one distance (quantization distortion) from the three candidates and the top three is output to the candidate number determination unit 303. In the present embodiment, any of the three distances may be output. This is because there is no significant difference in performance regardless of which is output.
  • the candidate number determination unit 303 refers to the number j of candidates and the distance (quantization distortion) output from the distortion calculation and codebook search unit 301, and is used in the vector quantization unit 201- (j + 1) in the next stage.
  • the candidate number j + 1 is determined and output to the vector quantization unit 201- (j + 1).
  • the temporary target calculation unit 304 refers to the target and code vector set output from the distortion calculation and codebook search unit 301 and subtracts the code vector from the target vector to calculate K temporary target vectors j + 1.
  • the three vectors (x i 0 -C i 35 ), (x i 0 -C i 8 ), and (x i 3 -C i 52 ) are the temporary target vector j + 1.
  • the candidate number determination unit 303 described above will be described in detail including the effect of the algorithm.
  • the N best search used in the tree search VQ when the number of stages is large, the amount of calculation increases N times in proportion to the number of candidates N. Conversely, if N is reduced, the quantization performance deteriorates. End up. Therefore, the present inventor repeatedly conducted a multi-stage VQ simulation experiment using tree search, analyzed tree search performance, and extracted the following four tendencies.
  • the present inventor has invented a tree search by combining the following three algorithms. That is, according to the following procedure.
  • the first stage proceeds to the next stage, leaving the number N of candidates specified in advance.
  • (Procedure 2) From the second stage, the number of candidates is reduced by one each N-1, N-2 each time the stage advances.
  • (Procedure 3) When the number of candidates is equal to or less than a predetermined value P, the quantization distortion is evaluated each time. In this case, the number of candidates in the next stage is set to a value Q smaller than a predetermined P.
  • This algorithm is applied to the candidate number determination unit 303.
  • the number of candidates is increased at the beginning, and the number of candidates is decreased by one each time the stage advances (that is, (step 2)). It is possible to select accurate candidates in part, and to reach the minimum number of candidates as soon as possible without degrading the quantization performance, and furthermore, sufficient quantization performance with a small amount of calculation Obtainable.
  • the candidate number j + 1 is represented by KK.
  • the number of candidates j (K) and distance (quantization distortion) obtained from the distortion calculation and codebook search unit 301 are input to the candidate number determination unit 303. It is assumed that the stage number J is grasped by the candidate number determination unit 303. Further, it is assumed that the initial value of K and the reference value of the distance are determined in advance before starting the quantization. In FIG. 4, the distance reference value is set to 50000, for example, but other values may be appropriate. An appropriate value may be determined depending on the dimension of the vector or the size of the element value.
  • the number of candidates K (in this case, the initial value of K) is input, and it is determined whether or not the total number of stages is greater than 7. If the total number of stages is greater than 7, the process proceeds to ST403, and the total number of stages is 7 If not, the process proceeds to ST404.
  • the numerical value “7” may be other values depending on conditions. An appropriate value may be determined in advance according to the total number of stages or the initial value of the number of candidates.
  • stage number j 4 or more and the distance It is determined whether (quantization distortion) exceeds the reference value. If this condition is satisfied (YES), the process proceeds to ST407, and if this condition is not satisfied (NO), the process proceeds to ST409.
  • the encoder is based on CELP, the bit rate is about 24 kbps, and the data used is 40 samples of Japanese with a wide band frequency. What is quantized is a 16-dimensional vector of ISF (Immittance Spectral Frequency).
  • the base multi-stage VQ is an N-base tree search and has 6 or more stages. The present invention uses the same N as the initial number of candidates.
  • the quantization experiment results are shown in Table 1 below.
  • the calculation amount of the maximum frame can be reduced by about 1.7 wMOPS (weitghed Mega OparationPer Second), and the calculation amount can be greatly reduced. Further, it can be seen that the S / N ratio (Signal / Noise ratio) hardly changes, and that the synthesized sound hardly deteriorates at an objective value. Even if the distortion of the ISF is compared with SD (Spectral Distance), the degradation is as small as 0.01 dB, and in the outlier that sees a ratio of 2 dB or more, the degradation is only 0.2%. This is a rate of once every 500 frames, indicating almost no deterioration. In addition, the increase in processing according to the present invention is only the determination of the number of candidates, and the amount of calculation is negligible, so the influence on the entire algorithm is small.
  • the first stage is set to the number N of candidates specified in advance, and the number of candidates is increased by one each time the stage advances from the second stage.
  • the quantization distortion is evaluated each time.
  • the number is larger than a predetermined threshold
  • Embodiment 2 The configuration of the CELP encoding apparatus according to Embodiment 2 of the present invention is the same as that shown in FIG. 1 of Embodiment 1, and the function of candidate number determination section 303 of vector quantization section 201-j is different. Therefore, description will be made with reference to FIGS. 1 to 3 as necessary.
  • FIG. 5 is a flowchart showing a candidate number determination procedure in candidate number determination unit 303 according to Embodiment 2 of the present invention.
  • the procedure for determining the number of candidates will be described with reference to FIG.
  • the candidate number j + 1 is represented by KK.
  • the number of candidates j (K) and distance (quantization distortion) obtained from the distortion calculation and codebook search unit 301 are input to the candidate number determination unit 303. Further, it is assumed that the stage number J is grasped by the candidate number determination unit 303. Further, it is assumed that the initial value of K and the reference value of the distance are determined in advance before starting the quantization. In FIG. 5, the distance reference value is set to 50000, for example, but other values may be appropriate. An appropriate value may be determined depending on the dimension of the vector or the size of the element value.
  • the second embodiment by confirming that the number of candidates KK has become sufficiently small before evaluating the quantization distortion, if the number of candidates KK becomes sufficiently small, a candidate using the quantization distortion is used. Number control can be performed immediately, and sufficient quantization performance can be obtained with as little calculation as possible.
  • the candidate number determination unit 303 is provided in the subsequent stage of the distortion calculation and codebook search unit 301, but the candidate number determination unit 303 is provided with the distortion calculation and codebook. You may provide in the front
  • the candidate number determination unit 303 can use the distance (quantization distortion) and the number of candidates from the previous stage vector quantization unit, and it is clear that the same effect can be obtained.
  • CELP Code Division Multiple Access
  • MDCT Modified Discrete Cosine Transform
  • QMF Quadrature Mirror Filter
  • the present invention can be applied to all coding schemes using LPC analysis.
  • the present invention is applied to the CELP spectral parameter tree search VQ.
  • the present invention is also effective for quantization of another parameter vector. This is because the nature of the parameter does not affect the present invention.
  • the Euclidean distance is used for the distortion calculation and codebook search unit 301.
  • this may be another distance scale such as a weighted Euclidean distance or a city area distance (sum of absolute values). This is because the present invention is in the algorithm of the candidate number determination unit 303 and the distance measure is irrelevant to the present invention.
  • the present invention can also be applied to a tree search used for pattern matching such as speech recognition or image recognition. This is because the present invention relates to the determination of the number of tree search candidates and does not affect the overall purpose of the algorithm.
  • the encoding device described in each of the above embodiments can be used by being mounted on a communication terminal device or a base station device.
  • the reference value to be compared with the distance is a predetermined constant, but it is obvious that this may be a value different depending on each stage (stage number). This is because the present invention does not constrain the reference value. A more efficient search can be realized by changing the reference value in each stage (stage number).
  • a predetermined numerical value of “3 and 2” is used for the control of the number of candidates, but this also uses numerical values such as “4 and 3” and “4 and 2”. Also good. Further, this numerical value may be different for each stage (stage number). These numerical values may be set according to circumstances, such as when there is a margin in the calculation amount or when higher performance is required.
  • a predetermined numerical value (constant) of “3 and 3” is used for the determination of j and KK, respectively, but this is also “2 and 2”, “2 and 3”, “ It may be changed to “4 and 3”, “2 and 4”, “4 and 4” or “5 and 4”. Further, it may be different at each stage (stage number). These numerical values may be set depending on the case, such as when there is a margin in the calculation amount or when higher performance is required.
  • each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the quantization apparatus and the quantization method according to the present invention can be applied to a speech encoding apparatus and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 少ない計算量で符号化歪を小さくし、十分な符号化性能を得る量子化装置及び量子化方法を提供する。多段ベクトル量子化部(102)は、1段目のベクトル量子化部(201-1)では予め指定された候補数Nとし、2段目以降のベクトル量子化部(201-2~201-J)では段が進む毎に候補数を1つずつ減らし、候補数が3以下になった場合には、その都度、量子化歪を評価して、量子化歪が所定の閾値よりも大きい場合は次の段の候補数を予め定められた数値P、量子化歪が所定の閾値以下の場合は次の段の候補数を予め定められたPより小さな数値Qとする。

Description

量子化装置及び量子化方法
 本発明は、木探索を用いて量子化を行う量子化装置及び量子化方法に関する。
 移動体通信においては、伝送帯域の有効利用のために音声及び画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用された音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に対してよりよい音質の要求が強まっている。また、公衆で使用されるために標準化が必須であり、世界的に研究開発が盛んに行われている。
 近年では、音声も音楽も符号化できるコーデックの標準化がITU-T(International Telecommunication Union Telecommunication Standardization Sector)及びMPEG(Moving Picture Expert Group)で検討されており、より効率的で高品質の音声コーデックが求められている。
 20年前に確立された、音声の発声機構をモデル化してベクトル量子化を巧みに応用した基本方式であるCELP(Code Excited Linear Prediction)によって、音声符号化技術は大きく性能を向上させた。国際規格では、ITU-T標準G.729、G.722.2、ETSI標準AMR、AMR-WB、3GPP2標準VMR-WBなど、多くの標準方式にCELPが採用されている。
 上記CELPの主要な技術は、音声スペクトルの概形を低ビットレートで符号化することができるLPC(Linear Prediction Coding)分析と、LPC分析によって得られたパラメータの量子化である。特に、近年の標準方式のほとんどに使用されているのは線スペクトルによる量子化である。その代表的なものはLSP(Line Spectral Pair)と、それを改良したISP(Immittance Spectral Pair)とであり、両者とも補間性の良さからベクトル量子化(以下、「VQ(Vector Quantization)」という)と親和性が高い。これらを符号化に用いることにより、低ビットレートでスペクトル情報を伝送することができる。これらにより、CELPを基本とするコーデックの性能は格段に向上した。
 最近では、高効率かつ高品質な音声コーデックが求められていることに対応するため、広帯域信号(16kbps)、超広帯域信号(32kbps)を符号化するコーデックが、ITU-T、MPEG、3GPPなどにおいて標準化されつつある。広帯域、超広帯域のディジタル信号を符号化するためにLPC係数を用いる場合は、16次以上の次数の多いLSPまたはISPを多くのビット数で符号化する必要がある。そのため、符号化対象(ターゲットベクトル)を複数に分割し、それぞれをベクトル量子化するという「スプリットVQ」が一般に用いられているが、ベクトルの要素間の統計的相関を使うことができないので、符号化性能が落ちてしまう。
 そこで、より符号化性能が得られる方法として、多段量子化(Multiple stage quantization)が用いられる。これは、ターゲットベクトルを分割せずに、複数の小さなベクトル量子化を用いて誤差を段々小さくするように連続して量子化を行うものである。すなわち、前の段の量子化の誤差ベクトルを次の段で量子化するという方法である。前の段で最も誤差が小さいものだけを用いれば計算量は非常に小さくできる。ただし、誤差の最も小さい量子化結果だけを候補にして多段量子化を行うと、総合的な符号化歪が十分に小さくならず、量子化性能が悪くなる。
 そのため、誤差の小さい量子化結果の候補を上位からいくつか残す木探索(Tree search)を用いることが考えられている。これにより、ある程度少ない計算量で高い符号化性能を得ることができる。特に、割り当てビット数が多い場合は、計算量を少なく抑えるために段数を増やすことになるが、多くの段数の多段量子化では木探索を用いないと十分な量子化性能を得ることはできない。
 特許文献1には、CELPの音源ベクトルを多段で量子化する方法について記載されている。また、段数が多くなった場合には、木探索を用いることにより、効率の良い探索ができることがよく知られている。各段において残す候補(誤差の小さい量子化結果)の数をNとして探索を行う方法は「Nベストサーチ(N best search)」と呼ばれており、効率の良い多段の探索方法として知られている。
 また、特許文献2には、ベクトル量子化は使用していないが、Nベストサーチによる探索の例が記載されている。
特開2003-8446号公報 特開2000-261321号公報
 しかしながら、上述したN>1のNベストサーチを用いた多段ベクトル量子化は、各段の候補を1つに絞る(N=1)よりも最終的な符号化歪を小さくすることはできるが、計算量がN倍に増えてしまう。逆に、Nの数を少なく抑えると、今度は符号化歪が大きくなってしまう。
 このように、従来のNベストサーチを用いた多段ベクトル量子化では、より少ない計算量で符号化歪を小さくする工夫がなされておらず、十分な符号化性能を得ることができない。
 本発明の目的は、少ない計算量で符号化歪を小さくし、十分な符号化性能を得る量子化装置及び量子化方法を提供することである。
 本発明の量子化装置は、木探索を用いて多段量子化を行う量子化装置であって、符号化対象の1つ以上のターゲットのそれぞれと符号帳に格納されたコードベクトルとのマッチングを行い、量子化歪の最も小さい方から1つ以上の候補を、前段において決定された、もしくは予め設定された候補数だけ求める探索手段と、前記候補について、前記ターゲットから前記コードベクトルを減算して量子化誤差ベクトルを算出する算出手段と、前記前段において決定された候補数に基づいて次段で用いる候補数を決定する候補数決定手段と、を具備する構成を採る。
 本発明の量子化方法は、木探索を用いて多段量子化を行う量子化方法であって、符号化対象の1つ以上のターゲットのそれぞれと符号帳に格納されたコードベクトルとのマッチングを行い、量子化歪の最も小さい方から1つ以上の候補を、1段目では、予め指定された候補数だけ求め、2段目以降では、前段において決定された候補数だけ求め、前記候補について、前記ターゲットから前記コードベクトルを減算して量子化誤差ベクトルを算出し、前記前段において決定された候補数に基づいて次段で用いる候補数を決定するようにした。
 本発明によれば、少ない計算量で符号化歪を小さくし、十分な符号化性能を得ることができる。
本発明の実施の形態1に係るCELP符号化装置の構成を示すブロック図 図1に示した多段ベクトル量子化部の内部構成を示すブロック図 図2に示したベクトル量子化部の内部構成を示すブロック図 図3に示した候補数決定部における候補数決定手順を示すフロー図 本発明の実施の形態2に係る候補数決定部における候補数決定手順を示すフロー図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 図1は、本発明の実施の形態1に係るCELP符号化装置100の構成を示すブロック図である。このCELP符号化装置100は、声道情報と音源情報とからなる音声信号S11のうち、声道情報については、LPCパラメータ(線形予測係数)を求めることにより符号化する。また、CELP符号化装置100は、音源情報については、予め記憶されている音声モデルのいずれを用いるかを特定する符号データ、すなわち、適応符号帳103および固定符号帳104でどのような音源ベクトル(コードベクトル)を生成するかを特定する符号データを求めることにより、音源情報を符号化する。
 具体的には、CELP符号化装置100の各部は以下の動作を行う。
 LPC分析部101は、音声信号S11に対して線形予測分析を施し、スペクトル包絡情報であるLPCパラメータを求め、多段ベクトル量子化部102及び聴感重み付け部111に出力する。
 多段ベクトル量子化部102は、LPC分析部101で得られるLPCパラメータを多段ベクトル量子化し、得られる量子化LPCパラメータをLPC合成フィルタ109に、量子化LPCパラメータの符号データをCELP符号化装置100の外部へ出力する。
 一方、適応符号帳103は、LPC合成フィルタ109で使用された過去の駆動音源を記憶しており、歪み最小化部112から指示された符号データに対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器106に出力される。
 固定符号帳104は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部112から指示された符号データに対応する音源ベクトルを、固定符号帳ベクトルとして乗算器107に出力する。ここで、固定符号帳104は代数的符号帳であり、2種類の本数のパルスによる代数的符号帳を用いた場合の構成について、重み付けが加算によりなされる場合について説明する。
 代数的音源とは、多くの標準コーデックに採用されている音源であり、位置と極性(+-)だけが情報の、大きさが1のインパルスを少数立てた音源である。例えば、ARIB規格書「RCR STD-27K」の5.3節の「CS-ACELP」での5.3.1.9章、5.4節の「ACELP」での5.4.3.7章等に記載されている。
 なお、上記の適応符号帳103は、有声音のように周期性の強い成分を表現するために使われる。一方、固定符号帳104は、白色雑音のように周期性の弱い成分を表現するために使われる。
 ゲイン符号帳105は、歪み最小化部112からの指示に従って、適応符号帳103から出力される適応符号帳ベクトル用のゲイン(適応符号帳ゲイン)、および固定符号帳104から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成し、それぞれ乗算器106、107に出力する。
 乗算器106は、ゲイン符号帳105から出力された適応符号帳ゲインを、適応符号帳103から出力された適応符号帳ベクトルに乗じ、加算器108に出力する。
 乗算器107は、ゲイン符号帳105から出力された固定符号帳ゲインを、固定符号帳104から出力された固定符号帳ベクトルに乗じ、加算器108に出力する。
 加算器108は、乗算器106から出力された適応符号帳ベクトルと、乗算器107から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源としてLPC合成フィルタ109に出力する。
 LPC合成フィルタ109は、多段ベクトル量子化部102から出力された量子化LPCパラメータをフィルタ係数とし、適応符号帳103及び固定符号帳104で生成される音源ベクトルを駆動音源としたフィルタ関数、すなわち、LPC合成フィルタを用いて合成信号を生成する。この合成信号は、加算器110に出力される。
 加算器110は、LPC合成フィルタ109で生成された合成信号を音声信号S11から減算することによって誤差信号を算出し、この誤差信号を聴感重み付け部111に出力する。なお、この誤差信号が符号化歪みに相当する。
 聴感重み付け部111は、加算器110から出力された符号化歪みに対して聴感的な重み付けを施し、歪み最小化部112に出力する。
 歪み最小化部112は、聴感重み付け部111から出力された符号化歪みが最小となるような、適応符号帳103、固定符号帳104及びゲイン符号帳105の各インデックスをサブフレームごとに求め、これらのインデックスを符号データとしてCELP符号化装置100の外部に出力する。より詳細には、上記の適応符号帳103及び固定符号帳104に基づいて合成信号を生成し、この信号の符号化歪みを求める一連の処理は閉ループ制御(帰還制御)となっており、歪み最小化部112は、各符号帳に指示する符号データを1サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小とする各符号帳の符号データを出力する。
 なお、符号化歪みが最小となる際の駆動音源は、サブフレームごとに適応符号帳103へフィードバックされる。適応符号帳103は、このフィードバックにより、記憶されている駆動音源を更新する。
 ここで、固定符号帳104の探索方法について説明する。まず、音源ベクトルの探索と符号データの導出は、以下の式(1)の符号化歪を最小化する音源ベクトルを探索することにより行われる。
Figure JPOXMLDOC01-appb-M000001
 E:符号化歪、x:符号化ターゲット、p:適応符号帳ベクトルのゲイン、H:聴感重み付け合成フィルタ、a:適応符号帳ベクトル、q:固定符号帳ベクトルのゲイン、s:固定符号帳ベクトル
 一般的に、適応符号帳ベクトルと固定符号帳ベクトルとはオープンループで(別々のループで)探索されるので、固定符号帳104の符号の導出は、以下の式(2)の符号化歪を最小化する固定符号帳ベクトルを探索することにより行われる。
E:符号化歪、x:符号化ターゲット(聴感重み付け音声信号)、p:適応符号帳ベクトルの最適ゲイン、H:聴感重み付け合成フィルタ、a:適応符号帳ベクトル、q:固定符号帳ベクトルのゲイン、s:固定符号帳ベクトル、y:固定符号帳探索のターゲットベクトル
 ここで、ゲインp、qは音源の符号を探索した後で決定するので、ここでは最適ゲインで探索を進めることとする。すると、上式(2)は以下の式(3)と書ける。
Figure JPOXMLDOC01-appb-M000003
 そして、この歪の式を最小化することは、以下の式(4)の関数Cを最大化することと同値であることがわかる。
Figure JPOXMLDOC01-appb-M000004
 よって、代数的符号帳の音源のような少数パルスからなる音源の探索の場合は、yHとHHを予め計算しておけば、少ない計算量で上記関数Cを算出できる。
 図2は、図1に示した多段ベクトル量子化部102の内部構成を示すブロック図である。本実施の形態では、スペクトルパラメータ(LPCパラメータ)の量子化方法として多段ベクトル量子化(多段VQ)を用いる。多段VQとは、複数段のVQを連続的に行うものであり、前の段の量子化歪を次の段で量子化する方法である。ここでは、量子化ビット数が比較的多く、段数も比較的多い6~10段以上を想定して、多段ベクトル量子化部102の内部構成について説明する。
 ベクトル量子化部201-1は、LPC分析部101によって得られたLPCパラメータ、すなわち、符号化対象(ターゲットベクトル)を量子化する。具体的には、符号帳に格納されたコードベクトルとの距離(量子化歪)を計算して、最も小さいものの番号を求めるというベクトル量子化を行う。木探索では、距離(量子化歪)が最も小さい方から数個の候補の番号を求めることになる。ベクトル量子化部201-1は、量子化歪として仮ターゲットベクトル、符号候補(木探索では番号の列(候補番号列)になる)及び候補数を求め、求めた仮ターゲットベクトル、符号候補及び候補数をベクトル量子化部201-2に出力し、符号候補を符号決定部202にも出力する。
 ベクトル量子化部201-2は、ベクトル量子化部201-1から出力された仮ターゲットベクトル(木探索では複数存在することもある)に対して、ベクトル量子化部201-1と同様の量子化を行い、仮ターゲットベクトル、符号候補(候補番号列)及び候補数をベクトル量子化部201-3に出力し、符号候補を符号決定部202にも出力する。
 ベクトル量子化部201-3~201-Jは、それぞれベクトル量子化部201-1と同様の量子化を行い、ベクトル量子化部203-Jは仮ターゲットベクトル、符号候補(候補番号列)及び候補数を符号決定部202に出力する。
 符号決定部202は、ベクトル量子化部201-1~201-Jから出力された候補番号列のうち最も量子化歪が少ない候補番号列の番号を1つのデータ列に統合して、符号データとしてCELP符号化装置100の外部へ送る。また、多段ベクトル量子化部102の入力であるターゲットベクトルから最終的な歪を減算すると、符号データを用いて復号化した結果得られる復号化ベクトルになる。この復号化ベクトルから、LPC合成フィルタ109で使用する量子化LPCパラメータを求めて、LPC合成フィルタ109へ送る。
 図3は、図2に示したベクトル量子化部201-j(1≦j≦J)の内部構成を示すブロック図である。以下、ベクトル量子化部201-j(1≦j≦J)の内部構成について図3を用いて説明する。
 ベクトル量子化部201-jには、3つの信号が入力される。一つは、候補数jであり、これは、量子化部201-jで候補として残して次の段のベクトル量子化部201-(j+1)に出力する、候補番号列及び仮ターゲットベクトルの数である。次に、ターゲットベクトル又は仮ターゲットベクトル(以下、これらをまとめて「仮ターゲットベクトル」ということがある)jであり、これは、最初の符号化対象(ターゲットベクトル)又は段の途中で前のベクトル量子化部201-(j-1)で得られた符号化歪ベクトルとしての仮ターゲットベクトルである。最後に、候補番号列jであり、これは、ベクトル量子化部201-jまでで最も歪の少ない各ベクトル量子化部の番号列である。なお、ターゲットベクトルは1つであるが、仮ターゲットベクトルjと候補番号列jは複数存在する場合がある。
 ここで、候補数jをKとおき、候補数j-1をMとおく。なお、ベクトル量子化部201-1では、ターゲットベクトルが1つなのでM=1である。また、最後の段のベクトル量子化部201-Jでは、1つの候補番号列を求めればよいのでK=1でよい。Mは入力されるターゲットベクトルと候補番号列jの数であり、Kは次の段のベクトル量子化部201-(j+1)に出力する候補数を意味することに注意されたい。
 歪計算及び符号帳探索部301は、M個の仮ターゲットベクトルの全てと、符号帳302に格納された全てのコードベクトルとのマッチング(ユークリッド距離(ベクトルとして要素毎に差分を取って2乗和を求める)による距離計算が一般的である)を行い、距離(量子化歪)が最も小さい方からK個の候補を探索し、それらのコード番号を求める。その際、元になった番号列も決定される。そして、候補番号列jを参照して、元の番号列に候補のコード番号を接続してK個の候補番号列j+1を算出し、次の段のベクトル量子化部201-(j+1)に出力する。また、候補数j、候補のコード番号のコードベクトル、量子化対象のターゲットベクトルを仮ターゲット算出部304に出力する。また、候補数jと符号化歪の中から1つの値を候補数決定部303に出力する。
 なお、当該ベクトル量子化部201-jが最初の段のベクトル量子化部201-1である場合は、候補数j及び候補番号列jはベクトル量子化部201-1の内部に予め設定されており、ターゲットベクトルのみが入力される。また、当該ベクトル量子化部201-jが最後の段のベクトル量子化部201-Jである場合は、候補数は1であり、最も距離(量子化歪)が小さくなった番号をターゲットベクトルに対応する候補番号列に接続して、候補番号列j+1として符号決定部202に出力するだけで、候補数決定部303及び仮ターゲット算出部304を機能させない。
 歪計算及び符号帳探索部301の具体的な処理例を以下に示す。j=4,M=4、K=3、ベクトル長をLとし、ターゲット(ここでは仮ターゲットベクトル)はx ,x ,x ,x 、候補番号列は、j=4であることからこれまでにサイズ64(6ビット)の符号帳を用いたベクトル量子化部が3段あったとして、(5,12,31)(5,12,48)(31,11,57)(31、3、18)の4列とする。この4列の候補列のそれぞれが上記4つの仮ターゲットベクトルと1対1の関係にある。コードベクトルはC とする。mはコードベクトルの番号とする。量子化歪En,mは、以下の式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 そして、この量子化歪En,mが最も小さくなる上位3つのコード番号を求める。求めた結果、上位3つだったのは、(1)仮ターゲットベクトルが0の時のコード番号35、(2)仮ターゲットベクトルが0の時のコード番号8、(3)仮ターゲットベクトルが3の時のコード番号52、であったとする。上記候補番号列を参照して最後に前記コード番号をつけると、候補番号列j+1として、次に送られる3つの番号列は、(5,12,31,35)、(5,12,31,8)、(31,3,18,52)となる。さらに、(x ,C 35)、(x ,C )、(x ,C 52)の3組の仮ターゲットベクトルとコードベクトルとを仮ターゲット算出部304に出力する。さらに、候補数3と上位3つの中から1つの距離(量子化歪)を候補数決定部303に出力する。なお、本実施の形態においては、3つの距離のいずれを出力してもよい。どれを出力しても性能に大きな差はないからである。
 候補数決定部303は、歪計算及び符号帳探索部301から出力された候補数jと距離(量子化歪)を参照して、次の段のベクトル量子化部201-(j+1)で用いられる候補数j+1を決定してベクトル量子化部201-(j+1)に出力する。
 仮ターゲット算出部304は、歪計算及び符号帳探索部301から出力されたターゲットとコードベクトルの組を参照して、ターゲットベクトルからコードベクトルを減算してK個の仮ターゲットベクトルj+1を算出する。上記具体例では、(x -C 35)、(x -C )、(x -C 52)の3つのベクトルが仮ターゲットベクトルj+1となる。
 次に、上述した候補数決定部303についてアルゴリズムの効果を含めて詳細に説明する。まず、木探索VQで用いられるNベストサーチにおいては、段数が多い場合、候補数Nに比例して計算量がN倍に増えてしまい、逆に、Nを小さくすると量子化性能が悪くなってしまう。そこで、本発明者は、木探索を用いた多段VQのシミュレーション実験を繰り返し行い、木探索の性能分析を行い、以下の4つの傾向を抽出した。
 すなわち、(1)Nベストサーチにおける候補数Nは段毎に増加又は不変としても計算量ほどの性能は得られない。候補を複数残すのが量子化性能に効果があるのは、多段量子化における最初の段においてである。(2)段が1つ進んだ際に、サーチの候補数を急激に下げると、量子化性能が大きく落ちる。(3)N=2とN=1は絶大な差があり、段数が多い場合はN=2でほぼ十分な量子化性能が得られる。(4)段数が複数進んだ後で符号化歪が小さくならない場合には、最終的なアウトライア(量子化誤差がある値以上の割合)が悪化する可能性が増加する。
 上記傾向に鑑み、本発明者は以下の3つのアルゴリズムを組み合わせることによる木探索を発案した。すなわち、以下の手順による。(手順1)1段目は予め指定された候補数Nだけ残して次の段に進む。(手順2)2段目からは段が進む毎に候補数をN-1、N-2と1つずつ減らしていく。(手順3)候補数が予め定められた値P以下になった場合、その都度、量子化歪を評価して、所定の閾値よりも大きい場合は次の段の候補数をP、閾値以下の場合は次の段の候補数を予め定められたPより小さい値Qとする。以下の説明においては、PとQとの例として、P=3、Q=2として説明を行う。なお、この数値は、計算量に余裕のある場合は、もっと大きな数値でも良い。その場合にはより符号化歪を小さくすることが出来る。
 このようなアルゴリズムを適用したのが候補数決定部303であり、この結果、最初は候補を多くして段が進む毎に1つずつ減らしていくこと(すなわち(手順2))により、最初の部分で的確な候補を選択することができ、また、量子化性能を悪化させることなく可能な限り早く最小限の候補数に辿り着くことができ、さらに、少ない計算量で十分な量子化性能を得ることができる。また、候補数が3(=P)以下になった場合には、その都度、量子化歪を評価して、大きければ候補数を3(=P)に増やし、十分小さければ候補数を2(=Q)に減らすこと(すなわち(手順3))により、十分小さい符号化歪に最低限の計算量で辿り着くように制御することができ、少ない計算量で十分な量子化性能を得ることができる。
 次に、候補数決定部303における候補数決定手順について図4を用いて説明する。以下の説明では、候補数j+1をKKで表す。候補数決定部303に入力されるのは、歪計算及び符号帳探索部301から得られる、候補数j(K)、距離(量子化歪)である。段数Jについては候補数決定部303で把握しているものとする。また、Kの初期値、距離の基準値は本量子化を始める前に予め定められていることとする。なお、図4においては距離の基準値として例えば50000とするが、これは他の値が適当な場合もあり得る。ベクトルの次元または要素の値の大きさなどにより適切な値を決めておけばよい。
 まず、ステップ(以下、「ST」と省略する)401では、段番号j=1、すなわち、ベクトル量子化部201-1であるか否かが判定され、段番号j=1である(YES)場合はST402に移行し、段番号j=1ではない(NO)場合はST405に移行する。
 ST402では、候補数K(この場合、Kの初期値)を入力とし、総段数が7より大きいか否かを判定し、総段数が7より大きい場合はST403に移行し、総段数が7より大きくない場合はST404に移行する。なお、この「7」という数値はもちろん条件次第で他の値が適切な場合もあり得る。総段数または候補数の初期値などに応じて適切な値を予め決めておけばよい。
 ST403では、KK=K-1とし、また、ST404では、KK=Kとする。
 ST405では、ST401において段番号j=1ではない(ベクトル量子化部201-1ではない)と判定されたため、KK=K-1とし、ST406では、段番号j=4以上であり、かつ、距離(量子化歪)が基準値を超えているか否かを判定し、この条件を満たす(YES)場合はST407に移行し、この条件を満たさない(NO)場合はST409に移行する。なお、ここでは、段番号j=4以上と設定しているがこれも他の値が適切な場合もあり得る。
 ST407では、KKが3(=P)より小さいか否かを判定し、KKが3(=P)より小さい(YES)場合はST408に移行してKK=3とし、KKが3(=P)より小さくない(NO)場合はST411に移行する。
 また、ST409では、KKが2(=Q)より小さいか否かを判定し、KKが2(=Q)より小さい(YES)場合はST410に移行してKK=2とし、KKが2(=Q)より小さくない(NO)場合はST411に移行する。
 このようにST406~ST410では、ある程度量子化が進んだ段階で距離(量子化歪)が十分小さければ候補数を小さく設定し、距離がまだ大きい場合には候補数をより大きくして総合的量子化歪をより小さくするという効果が得られるようにしたものである。最低候補数の「2」(=Q)を確保しながら候補数「3」(=P)を使ってより総合的量子化歪を小さくするアルゴリズムである。本発明者の量子化実験においては、この距離の判定によりアウトライア(量子化歪がある大きな値以上になる割合)を低減できることを確認している。
 ST411では、段番号j=J、すなわち、最終段であるか否かを判定し、段番号j=Jである(YES)場合はST412に移行し、段番号j=Jではない(NO)場合はこの段における候補数決定手順を終了する。
 ST412では、KK=1に設定し、最終段における候補数決定処理を終了する。
 ここで、本発明の有効性を示すために、CELPのISF量子化に適用した量子化実験について示す。符号器はCELPを基本としたもので、ビットレートは約24kbps、用いたデータは広帯域の周波数の日本語40サンプルである。量子化したのはISF(ImmittanceSpectral Frequency)の16次元のベクトルである。ベースとなる多段VQはNベースの木探索であり6段以上の段数がある。本発明は同じNを初期の候補数にしている。量子化実験結果を以下の表1に示す。
Figure JPOXMLDOC01-appb-T000001
 上記表1から、最大フレームの計算量を約1.7wMOPS(weitghed Mega OparationPer Second)削減することができ、計算量を大きく削減できることが分かる。また、S/N比(Signal/Noise ratio)では殆ど変わらず、客観値では合成音は殆ど劣化しないことが分かる。ISFの歪をSD(Spectral Distance)で比較しても0.01dBという微量の劣化であり、2dB以上の割合を見るアウトライアでは劣化は0.2%だけである。これは500フレームに1回という割合であり、殆ど劣化がないことを示している。しかも、本発明による処理の増加は、候補数の決定だけであり、その計算量は軽微であることから、アルゴリズム全体に与える影響も小さい。
 このように、実施の形態1によれば、木探索を用いた多段VQにおいて、1段目は予め指定された候補数Nとし、2段目以降では段が進む毎に候補数を1つずつ減らし、候補数が3以下になった場合は、その都度、量子化歪を評価し、所定の閾値よりも大きい場合は次の段の候補数を3(=P)、閾値以下の場合は次の段の候補数を2(=Q)とする。これにより、最初の部分で的確な候補を選択することができ、また、量子化性能を悪化させることなく可能な限り早く最小限の候補数に辿り着くことができ、さらに、少ない計算量で十分な量子化性能を得ることができる。また、最低限の計算量で十分小さい符号化歪に辿り着くように制御することができる。
 (実施の形態2)
 本発明の実施の形態2に係るCELP符号化装置の構成は、実施の形態1の図1に示した構成と同一であり、ベクトル量子化部201-jの候補数決定部303の機能が異なるのみなので、必要に応じて図1~図3を援用して説明する。
 図5は、本発明の実施の形態2に係る候補数決定部303における候補数決定手順を示すフロー図である。以下、候補数決定手順について図5を用いて説明する。ただし、図5において、図4と共通する部分には図4と同一の符号を付し、重複する説明は省略する。
 また、以下の説明では、実施の形態1の図4と同じ条件とする。すなわち、候補数j+1をKKで表す。候補数決定部303に入力されるのは、歪計算及び符号帳探索部301から得られる、候補数j(K)、距離(量子化歪)である。また、段数Jについては候補数決定部303で把握しているものとする。また、Kの初期値、距離の基準値は本量子化を始める前に予め定められていることとする。なお、図5においては距離の基準値として例えば50000とするが、これは他の値が適当な場合もあり得る。ベクトルの次元または要素の値の大きさなどにより適切な値を決めておけばよい。
 ST501では、段番号j=3以上であるか、またはKK=3以下であるか否かを判定し、この条件を満たす(YES)場合はST502に移行し、この条件を満たさない(NO)場合はST411に移行する。
 ST502では、距離(量子化歪)が基準値を超えているか否かを判定し、超えている(YES)場合はST407に移行し、超えていない(NO)場合はST409に移行する。
 このように、実施の形態2によれば、量子化歪を評価する前に候補数KKが十分小さくなったことを確認することにより、候補数KKが十分小さくなれば量子化歪を用いた候補数制御をすぐに行うことができ、できるだけ少ない計算量で十分な量子化性能を得ることができる。
 なお、上記各実施の形態では、図3に示したように、候補数決定部303を歪計算及び符号帳探索部301の後段に設けているが、候補数決定部303を歪計算及び符号帳探索部301の前段に設けてもよい。この場合、候補数決定部303は、前の段のベクトル量子化部からの距離(量子化歪)及び候補数を使用でき、同様の効果が得られることは明らかである。
 また、上記各実施の形態では、CELPにおける例を示したが、本発明はベクトル量子化に利用できる発明であるので、CELPに限らないことは明らかである。例えば、MDCT(Modified Discrete Cosine Transform)またはQMF(Quadrature Mirror Filter)を利用したスペクトルの量子化にでも利用できるし、帯域拡張技術における低周波数領域のスペクトルの中から似たスペクトル形状を探索するアルゴリズムにも応用できる。さらに、本発明はLPC分析を用いる符号化方式の全てに適用することができる。
 また、上記各実施例の形態では、ISFを符号化する例を示したが、本発明はこれに限らず、ISP(ImmittanceSpectrum Pairs)、LSP(Lin Spectrum Pairs)、PARCOR(PARtial autoCORrelation)などのパラメータを量子化する場合に適用することができる。実施の形態におけるISF量子化の代わりに別の量子化法を用いれば良いからである。
 また、上記各実施の形態では、CELPのスペクトルパラメータの木探索VQに対して本発明を適用したが、別のパラメータベクトルの量子化でも本発明が有効であるのは明らかである。パラメータの性質が本発明に影響を与えないからである。
 また、上記各実施の形態では、歪計算及び符号帳探索部301にユークリッド距離を用いたが、これは重み付きユークリッド距離あるいは市街地距離(絶対値の和)など、他の距離尺度でもよい。本発明は、候補数決定部303のアルゴリズムにあり、距離尺度は本発明に無関係だからである。
 また、上記各実施の形態では、符号器に応用した場合を示したが、音声認識または画像認識などのパターンマッチングに用いられる木探索にも本発明は応用することができる。本発明は、木探索の候補数の決定に係り、アルゴリズム全体の目的に影響しないからである。
 また、上記各実施の形態で説明した符号化装置は、通信端末装置あるいは基地局装置に搭載して用いることが可能である。
 また、上記各実施の形態では、距離(量子化歪)と比較する基準値を予め決められた定数としているが、これは各段(段番号)によって異なる値でもよいことは明らかである。本発明は基準値を拘束するものではないからである。各段(段番号)において基準値を変えることによって、より効率的な探索を実現することができる。
 また、上記各実施の形態では、候補数の制御に「3と2」という予め定められた数値を用いているが、これも「4と3」、「4と2」などの数値を用いてもよい。また、この数値を各段(段番号)で異ならせてもよい。これらの数値は、計算量に余裕がある場合または、より高い性能が必要な場合など、場合に応じて設定すればよい。
 また、実施の形態2では、jとKKの判定にそれぞれ「3と3」という予め定められた数値(定数)を用いているが、これも「2と2」、「2と3」、「4と3」、「2と4」、「4と4」又は「5と4」などに変えてもよい。また各段(段番号)で異ならせてもよい。これらの数値は、計算量に余裕がある場合、より高い性能が必要な場合など、場合に応じて設定すればよい。
 また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアによって実現することも可能である。
 また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)または、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2010年9月17日出願の特願2010-210116及び2010年10月13日出願の特願2010-230537の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明にかかる量子化装置及び量子化方法は、音声符号化装置等に適用できる。
 101 LPC分析部
 102 多段ベクトル量子化部
 103 適応符号帳
 104 固定符号帳
 105 ゲイン符号帳
 106、107 乗算器
 108、110 加算器
 109 LPC合成フィルタ
 111 聴感重み付け部
 112 歪み最小化部
 201-1~201-J ベクトル量子化部
 202 符号決定部
 301 歪計算及び符号帳探索部
 302 符号帳
 303 候補数決定部
 304 仮ターゲット算出部

Claims (6)

  1.  木探索を用いて多段量子化を行う量子化装置であって、
     符号化対象の1つ以上のターゲットのそれぞれと符号帳に格納されたコードベクトルとのマッチングを行い、量子化歪の最も小さい方から1つ以上の候補を、前段において決定された、もしくは予め設定された候補数だけ求める探索手段と、
     前記候補について、前記ターゲットから前記コードベクトルを減算して量子化誤差ベクトルを算出する算出手段と、
     前記前段において決定された候補数に基づいて次段で用いる候補数を決定する候補数決定手段と、
     を具備する量子化装置。
  2.  前記候補数決定手段は、前記前段において決定された候補数から1だけ減らした候補数を次段で用いることを決定する、請求項1記載の量子化装置。
  3.  前記候補数決定手段は、前記前段において決定された候補数が予め指定された値P以下の場合、前記量子化歪が所定の閾値よりも大きい場合は候補数Pを次段で用いることを決定し、前記量子化歪が前記所定の閾値以下である場合は候補数として予め指定されたPより小さい値Qを次段で用いることを決定する、請求項1に記載の量子化装置。
  4.  前記探索手段は、1段目である場合、予め指定された候補数だけ量子化歪の最も小さい方から候補を求める、請求項1に記載の量子化装置。
  5.  前記候補数決定手段は、現在の段数が所定の段数以上であるか、または候補数が所定の候補数P以下であって、
     前記量子化歪が所定の閾値よりも大きく、かつ、所定の候補数Rより候補数が小さい場合、候補数Rを次段で用いることを決定し、
     前記量子化歪が前記所定の閾値以下であり、かつ、前記候補数Rより小さい所定の候補数Qより候補数が小さい場合、候補数Qを次段で用いることを決定する、
     請求項1に記載の量子化装置。
  6.  木探索を用いて多段量子化を行う量子化方法であって、
     符号化対象の1つ以上のターゲットのそれぞれと符号帳に格納されたコードベクトルとのマッチングを行い、量子化歪の最も小さい方から1つ以上の候補を、1段目では、予め指定された候補数だけ求め、2段目以降では、前段において決定された候補数だけ求め、
     前記候補について、前記ターゲットから前記コードベクトルを減算して量子化誤差ベクトルを算出し、
     前記前段において決定された候補数に基づいて次段で用いる候補数を決定する、
     量子化方法。
PCT/JP2011/005244 2010-09-17 2011-09-16 量子化装置及び量子化方法 WO2012035781A1 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
KR1020137006545A KR20130112869A (ko) 2010-09-17 2011-09-16 양자화 장치 및 양자화 방법
BR112013006103A BR112013006103A2 (pt) 2010-09-17 2011-09-16 dispositivo de quantização e método de quantização
US13/821,577 US9135919B2 (en) 2010-09-17 2011-09-16 Quantization device and quantization method
JP2012533874A JP5687706B2 (ja) 2010-09-17 2011-09-16 量子化装置及び量子化方法
RU2013111526/08A RU2013111526A (ru) 2010-09-17 2011-09-16 Устройство квантования и способ квантования
CA2810995A CA2810995A1 (en) 2010-09-17 2011-09-16 Quantization device and quantization method
CN2011800423091A CN103081007A (zh) 2010-09-17 2011-09-16 量化装置及量化方法
EP11824794.9A EP2618331B1 (en) 2010-09-17 2011-09-16 Quantization device and quantization method
ZA2013/01886A ZA201301886B (en) 2010-09-17 2013-03-13 Quantization device and quantization method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010-210116 2010-09-17
JP2010210116 2010-09-17
JP2010-230537 2010-10-13
JP2010230537 2010-10-13

Publications (1)

Publication Number Publication Date
WO2012035781A1 true WO2012035781A1 (ja) 2012-03-22

Family

ID=45831266

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/005244 WO2012035781A1 (ja) 2010-09-17 2011-09-16 量子化装置及び量子化方法

Country Status (11)

Country Link
US (1) US9135919B2 (ja)
EP (1) EP2618331B1 (ja)
JP (1) JP5687706B2 (ja)
KR (1) KR20130112869A (ja)
CN (1) CN103081007A (ja)
BR (1) BR112013006103A2 (ja)
CA (1) CA2810995A1 (ja)
RU (1) RU2013111526A (ja)
TW (1) TW201220715A (ja)
WO (1) WO2012035781A1 (ja)
ZA (1) ZA201301886B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053854A1 (ko) * 2022-09-05 2024-03-14 서울대학교산학협력단 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011126340A2 (ko) * 2010-04-08 2011-10-13 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN104918046B (zh) * 2014-03-13 2019-11-05 中兴通讯股份有限公司 一种局部描述子压缩方法和装置
CN110764696B (zh) * 2019-09-26 2020-10-16 开放智能机器(上海)有限公司 向量信息存储及更新的方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234424A (ja) * 1986-04-04 1987-10-14 Mitsubishi Electric Corp 木探索ベクトル量子化器
JPH04171500A (ja) * 1990-11-02 1992-06-18 Nec Corp 音声パラメータ符号化方法
JPH04328800A (ja) * 1991-04-30 1992-11-17 Nippon Telegr & Teleph Corp <Ntt> 音声の線形予測パラメータ符号化方法
US5271089A (en) 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US5966688A (en) 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
JP2002229597A (ja) * 2000-11-30 2002-08-16 Matsushita Electric Ind Co Ltd Lpcパラメータのベクトル量子化装置
US7392179B2 (en) 2000-11-30 2008-06-24 Matsushita Electric Industrial Co., Ltd. LPC vector quantization apparatus

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234432A (ja) * 1986-04-04 1987-10-14 Hitachi Ltd 双方向光伝送方法とその装置
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
US5774839A (en) * 1995-09-29 1998-06-30 Rockwell International Corporation Delayed decision switched prediction multi-stage LSF vector quantization
JP3973789B2 (ja) * 1999-03-09 2007-09-12 三菱電機株式会社 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
JP3428595B2 (ja) * 2002-06-03 2003-07-22 日本電気株式会社 音声符号化方式
WO2011126340A2 (ko) 2010-04-08 2011-10-13 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234424A (ja) * 1986-04-04 1987-10-14 Mitsubishi Electric Corp 木探索ベクトル量子化器
JPH04171500A (ja) * 1990-11-02 1992-06-18 Nec Corp 音声パラメータ符号化方法
US5271089A (en) 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
JPH04328800A (ja) * 1991-04-30 1992-11-17 Nippon Telegr & Teleph Corp <Ntt> 音声の線形予測パラメータ符号化方法
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US5966688A (en) 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
JP2002229597A (ja) * 2000-11-30 2002-08-16 Matsushita Electric Ind Co Ltd Lpcパラメータのベクトル量子化装置
US7392179B2 (en) 2000-11-30 2008-06-24 Matsushita Electric Industrial Co., Ltd. LPC vector quantization apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2618331A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053854A1 (ko) * 2022-09-05 2024-03-14 서울대학교산학협력단 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체

Also Published As

Publication number Publication date
JPWO2012035781A1 (ja) 2014-01-20
US9135919B2 (en) 2015-09-15
TW201220715A (en) 2012-05-16
US20130173263A1 (en) 2013-07-04
CA2810995A1 (en) 2012-03-22
RU2013111526A (ru) 2014-10-27
KR20130112869A (ko) 2013-10-14
EP2618331A1 (en) 2013-07-24
BR112013006103A2 (pt) 2019-09-24
CN103081007A (zh) 2013-05-01
ZA201301886B (en) 2013-11-27
JP5687706B2 (ja) 2015-03-18
EP2618331A4 (en) 2013-10-09
EP2618331B1 (en) 2016-08-31

Similar Documents

Publication Publication Date Title
US8306007B2 (en) Vector quantizer, vector inverse quantizer, and methods therefor
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JP5190445B2 (ja) 符号化装置および符号化方法
US8438020B2 (en) Vector quantization apparatus, vector dequantization apparatus, and the methods
JP5687706B2 (ja) 量子化装置及び量子化方法
WO2009125588A1 (ja) 符号化装置および符号化方法
WO2010092827A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
US20100049508A1 (en) Audio encoding device and audio encoding method
EP2051244A1 (en) Audio encoding device and audio encoding method
EP1187337A1 (en) Speech coder, speech processor, and speech processing method
JPWO2007066771A1 (ja) 固定符号帳探索装置および固定符号帳探索方法
JPWO2008001866A1 (ja) 音声符号化装置及び音声符号化方法
US9230553B2 (en) Fixed codebook searching by closed-loop search using multiplexed loop
TW201329960A (zh) 量化裝置及量化方法
JP2013055417A (ja) 量子化装置及び量子化方法
JP2013068847A (ja) 符号化方法及び符号化装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180042309.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11824794

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012533874

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 2810995

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 13821577

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20137006545

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2011824794

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011824794

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2013111526

Country of ref document: RU

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013006103

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112013006103

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130314