WO2012053149A1 - 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 - Google Patents

音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 Download PDF

Info

Publication number
WO2012053149A1
WO2012053149A1 PCT/JP2011/005147 JP2011005147W WO2012053149A1 WO 2012053149 A1 WO2012053149 A1 WO 2012053149A1 JP 2011005147 W JP2011005147 W JP 2011005147W WO 2012053149 A1 WO2012053149 A1 WO 2012053149A1
Authority
WO
WIPO (PCT)
Prior art keywords
order
parameter
analysis
decoding
vector
Prior art date
Application number
PCT/JP2011/005147
Other languages
English (en)
French (fr)
Inventor
利幸 森井
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Publication of WO2012053149A1 publication Critical patent/WO2012053149A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Definitions

  • the present invention relates to a speech analysis device, a quantization device, an inverse quantization device, and a method thereof.
  • CELP Code Excited Linear Prediction
  • G. 729 G.G.
  • AMR Adaptive Multi-Rate
  • AMR-WB Wide Band
  • VMR-WB Vehicle-Rate Multimode Wideband
  • CELP Linear Prediction Coefficient
  • LPC Linear Prediction Coefficient
  • ISP Immittance Spectral Spair
  • VQ Vector Quantization
  • split vector quantization split vector quantization
  • split VQ is used from the beginning.
  • the line spectral parameters LSP and ISP are in ascending order of magnitude, and their values are expressed in the frequency domain. Therefore, in the split VQ, the frequency components of the LSP or ISP are divided into a plurality of parts and are independent of each other. Will be quantized.
  • Patent Document 1 the vocal tract from the human vocal fold (glottis) to the opening is used as one acoustic tube, and the vocal tract to be encoded is divided into the opening and the vocal fold (glottal).
  • An encoding technique based on the above is disclosed. Specifically, in Patent Document 1, a portion close to the opening in the encoding target is encoded using LSP and a correction bit is added to protect the portion. On the other hand, a portion close to the vocal cord in the encoding target is encoded using PARCOR (Partial Auto Correlation). Then, the opening side and the vocal cord side are synthesized last.
  • PARCOR Partial Auto Correlation
  • the line spectral parameters LSP and ISP have a correlation between the high band region and the low band region. For this reason, when the split VQ based on the above-described order is performed, there is a problem that the quantization efficiency is deteriorated.
  • the quantization since the amount of calculation is large when quantized as one acoustic tube, the quantization is often performed using the split VQ as described above. In this case, although the amount of calculation is reduced, although the two tubes should have high correlation, conventionally, the acoustic tube was divided without considering its characteristics (correlation), so the quantization efficiency deteriorated. It was. In order to solve this problem, in the split VQ, not a division method based on the order of the LSP or ISP but a division method with smaller correlation is required.
  • An object of the present invention is to provide a speech analysis apparatus and a speech analysis method capable of analyzing acoustic characteristics in each vector divided for performing split VQ. It is another object of the present invention to provide a quantization device, an inverse quantization device, and a method thereof that can realize quantization / inverse quantization with good quantization performance by using this speech analysis device.
  • the speech analysis apparatus analyzes a speech signal and determines a parameter that represents a filter coefficient of an Nth-order filter from order 1 to order N (where N is an integer equal to or greater than 2).
  • a first analysis unit that performs parameter analysis on the speech signal to obtain linear prediction coefficients from order 1 to order M (where M ⁇ N, M is a positive integer); and the linear prediction
  • a second analyzing means for converting the coefficient to obtain the first parameter, and performing a parameter analysis using the linear prediction coefficient, calculating a reflection coefficient from the order (M + 1) to the order N, and using the reflection coefficient
  • a third analysis means for obtaining a square matrix having polynomial elements as a result of matrix calculation, and by multiplying the square matrix by a predetermined vector, the square matrix is converted into a vector having two polynomial elements. That taking the converting means, the arrangement comprising a fourth analyzing means for calculating a second parameter from the equation using the two polynomials.
  • a quantization apparatus includes the speech analysis apparatus, first quantization means for quantizing the first parameter to obtain a first code, and quantizing the second parameter. And a second quantization means for obtaining a code of 2.
  • An inverse quantization apparatus is an inverse quantization apparatus that inputs the first code and the second code generated by the quantization apparatus and performs inverse quantization.
  • a first decoding means for decoding the first code, and generating a first decoding vector having two polynomials representing filter characteristics of order 1 to order M as elements, and decoding the second code ,
  • Second decoding means for generating a second decoding vector having two polynomials representing filter characteristics from degree (M + 1) to order N as elements, and a decoding square matrix having a polynomial as an element using the second decoding vector
  • a whole decoding means for obtaining a filter coefficient of the Nth order filter by multiplying the first decoded vector by the decoding square matrix.
  • the speech analysis method analyzes a speech signal and determines a parameter representing a filter coefficient of an N-th order filter from order 1 to order N (where N is an integer of 2 or more).
  • a quantization method is obtained by a first quantization step of obtaining a first code by quantizing the first parameter obtained by the speech analysis method, and the speech analysis method.
  • An inverse quantization method is an inverse quantization method that performs inverse quantization by inputting the first code and the second code obtained by the quantization method, A first decoding step for decoding the first code, generating a first decoding vector having two polynomials representing filter characteristics of the order 1 to order M as elements, and decoding the second code A second decoding step of generating a second decoding vector having two polynomials representing filter characteristics from the order (M + 1) to the order N as elements, and a decoding square matrix having the polynomial as an element using the second decoding vector And a total decoding step of obtaining a filter coefficient of the Nth order filter by multiplying the first decoding vector by the decoding square matrix.
  • the speech analysis apparatus and speech analysis method of the present invention it is possible to analyze the acoustic characteristics of each vector divided in the split VQ. Further, according to the quantization device, the inverse quantization device, and these methods of the present invention, quantization / inverse quantization with good quantization performance can be realized for each vector divided in the split VQ.
  • the block diagram which shows the structure of the CELP encoding apparatus which concerns on one embodiment of this invention The block diagram which shows the structure of the speech analyzer and quantization apparatus which concern on one embodiment of this invention
  • the block diagram which shows the structure of the CELP decoding apparatus which concerns on one embodiment of this invention The block diagram which shows the structure of the inverse quantization apparatus which concerns on one embodiment of this invention
  • FIG. 1 is a block diagram showing a configuration of CELP encoding apparatus 100 according to the present embodiment.
  • a CELP encoding apparatus 100 encodes a speech signal composed of vocal tract information and sound source information by obtaining an LPC parameter (linear prediction coefficient) for the vocal tract information, Encoding is performed by obtaining an index for specifying which of the stored speech models is used. That is, the sound source information is encoded by obtaining an index (code) that specifies what kind of sound source vector (code vector) is generated in the adaptive codebook 103 and the fixed codebook 104.
  • each unit of CELP encoding apparatus 100 performs the following operation.
  • the LPC analysis unit 101 performs linear prediction analysis (LPC analysis) on the speech signal, obtains an LPC parameter that is spectrum envelope information, and outputs the obtained LPC parameter to the LPC quantization unit 102 and the perceptual weighting unit 111.
  • LPC analysis linear prediction analysis
  • the LPC quantization unit 102 quantizes the LPC parameter output from the LPC analysis unit 101. Then, the LPC quantization unit 102 outputs the obtained quantized LPC parameter to the LPC synthesis filter 109, and outputs an index (code) of the quantized LPC parameter to the outside of the CELP encoding apparatus 100.
  • the adaptive codebook 103 stores past driving sound sources used in the LPC synthesis filter 109, and stores them according to an adaptive codebook lag corresponding to an index instructed from the distortion minimizing unit 112 described later.
  • a sound source vector for one subframe is generated from the driving sound source. This excitation vector is output to multiplier 106 as an adaptive codebook vector.
  • Fixed codebook 104 stores a plurality of excitation vectors having a predetermined shape in advance, and outputs the excitation vector corresponding to the index instructed from distortion minimizing section 112 to multiplier 107 as a fixed codebook vector.
  • fixed codebook 104 is an algebraic sound source, and a case where an algebraic codebook is used will be described.
  • An algebraic sound source is a sound source used in many standard codecs.
  • the above adaptive codebook 103 is used to express a component having strong periodicity such as voiced sound.
  • the fixed codebook 104 is used to express a component with weak periodicity such as white noise.
  • the gain codebook 105 is a gain for an adaptive codebook vector (adaptive codebook gain) output from the adaptive codebook 103 and a fixed codebook output from the fixed codebook 104 in accordance with an instruction from the distortion minimizing unit 112.
  • Vector gain (fixed codebook gain) is generated and output to multipliers 106 and 107, respectively.
  • Multiplier 106 multiplies the adaptive codebook gain output from gain codebook 105 by the adaptive codebook vector output from adaptive codebook 103, and outputs the multiplied adaptive codebook vector to adder 108.
  • Multiplier 107 multiplies the fixed codebook gain output from gain codebook 105 by the fixed codebook vector output from fixed codebook 104, and outputs the fixed codebook vector after multiplication to adder 108.
  • Adder 108 adds the adaptive codebook vector output from multiplier 106 and the fixed codebook vector output from multiplier 107, and outputs the added excitation vector to LPC synthesis filter 109 as a driving excitation. .
  • the LPC synthesis filter 109 uses the quantized LPC parameter output from the LPC quantization unit 102 as a filter coefficient, and a filter function using the excitation vector generated by the adaptive codebook 103 and the fixed codebook 104 as a driving excitation, that is, LPC A synthesized signal is generated using a synthesis filter. This combined signal is output to adder 110.
  • the adder 110 calculates an error signal by subtracting the synthesized signal generated by the LPC synthesis filter 109 from the audio signal, and outputs the error signal to the perceptual weighting unit 111. This error signal corresponds to coding distortion.
  • the perceptual weighting unit 111 performs perceptual weighting on the encoded distortion output from the adder 110 using the LPC parameters input from the LPC analysis unit 101 and outputs the result to the distortion minimizing unit 112.
  • the distortion minimizing unit 112 sets the indexes (codes) of the adaptive codebook 103, the fixed codebook 104, and the gain codebook 105 such that the coding distortion output from the perceptual weighting unit 111 is minimized for each subframe. These indices are output to the outside of the CELP encoding apparatus 100 as encoded information. More specifically, a series of processes for generating a composite signal based on the above-described adaptive codebook 103 and fixed codebook 104 and obtaining the coding distortion of this signal is closed loop control (feedback control), and distortion minimum
  • the encoding unit 112 searches each codebook by changing the index indicated to each codebook in one subframe, and finally obtains the index of each codebook that minimizes the encoding distortion. Output.
  • the driving sound source when the coding distortion is minimized is fed back to the adaptive codebook 103 for each subframe.
  • the adaptive codebook 103 updates the stored driving sound source by this feedback.
  • the ISP can quantize with less spectrum distortion than the LSP.
  • the ISP expresses one parameter in the vocal cord (glottis) as PARCOR when the vocal tract from the human vocal cord (glottis) to the opening is a single acoustic tube (for example, reflection coefficient (PARCOR coefficient)), This is a parameter in which the other part on the opening side than the one parameter is represented by LSP.
  • PARCOR reflection coefficient
  • Non-Patent Document 1 although LSP has clearly better quantization performance than PARCOR (the spectrum can be accurately quantized with a small number of bits), in ISP, one parameter is expressed by PARCOR. The quantization performance can be improved as compared with the case of only LSP.
  • the portion near the opening in the acoustic tube shows phonological properties, and the fluctuation is severe, whereas the portion near the vocal cords (glottis) shows a relatively constant individuality.
  • the correlation between the portion close to the opening and the portion close to the vocal cord (glottis) is statistically small.
  • the amount of calculation can be reduced compared to performing VQ on the whole, and the quantization performance is improved. It may not deteriorate.
  • the present inventor considers analysis of the vocal tract by the acoustic tube model, and applies the same condition as the opening to the cut surface of the acoustic tube in the portion close to the vocal cord (glottis), thereby being close to the vocal cord (glottis). It was discovered that there is a method that can perform VQ with LSP instead of VQ with PARCOR. If the acoustic tube can be quantized with a plurality of LSPs, further improvement in quantization performance can be expected.
  • the vocal tract that is the target of LPC analysis is physically divided, and the parameters obtained from the divided vocal tracts of each segment are efficiently quantized.
  • FIG. 2 is a block diagram showing an internal configuration of the LPC analysis unit 101 and the LPC quantization unit 102 constituting the speech analysis device and the quantization device according to the present embodiment.
  • the LPC analysis unit 101 includes a parameter analysis unit 201, an LSP analysis unit 202, a parameter analysis unit 203, a polynomial extraction unit 204, and an LSP analysis unit 205.
  • the LPC quantization unit 102 includes an LSP quantization unit 206, an LSP quantization unit 207, an LSP decoding unit 208, an LSP decoding unit 209, a polynomial decoding unit 210, and an overall decoding unit 211.
  • a parameter analysis unit 201 extracts an autocorrelation coefficient by performing autocorrelation analysis on input speech (input speech signal), and performs LPC analysis using the extracted autocorrelation coefficient.
  • the parameter analysis unit 201 uses the ⁇ parameter on the opening side when dividing the vocal tract by the acoustic tube model (up to the portion to be divided) ⁇ parameter (linear prediction coefficient)) from the opening is obtained.
  • a n (z) indicates a polynomial having a linear prediction coefficient (LPC) as a coefficient, and is an expression that proceeds from the opening toward the vocal cord (that is, in the back direction).
  • B n (z) represents a polynomial having a linear prediction coefficient (LPC) as a coefficient, and is an expression that proceeds from the vocal cord (that is, the back) toward the opening.
  • K n represents a reflection coefficient (PARCOR coefficient)
  • z ⁇ 1 represents a variable (corresponding to a variable of a Z-converted filter).
  • the maximum order to be analyzed is N (N is an integer of 2 or more), and the order from the opening to the divided part is M (M ⁇ N, M is a positive integer) on the opening side. That is, the characteristics of the vocal tract are expressed by an Nth order filter having the lower order side as an opening and the higher order side as a vocal cord. That is, the Nth-order filter is modeled as an acoustic tube, and is designed to represent the characteristics of the vocal tract with an opening of degree 1 and a vocal cord (glottis) of order N.
  • the parameter analysis unit 201 obtains the ⁇ parameter from the coefficient of the polynomial of A M (z).
  • the parameter analysis unit 201 performs a parameter analysis process on the input sound (speech signal) in each sample up to orders 1 to M (that is, the opening side) of the Nth order filters, and orders 1 to M ⁇ parameters (linear prediction coefficients) up to are obtained.
  • the LSP analysis unit 202 obtains the LSP using the ⁇ parameter obtained by the parameter analysis unit 201.
  • the LSP obtained by the LSP analysis unit 202 is referred to as “LSP1”.
  • Non-patent document 1 describes in detail the method for obtaining LSP.
  • the reflection coefficient of the order (for example, the order (M + 1)) that is one order higher than the order (for example, the order M) of the analysis target in the equation (1)
  • a M + 1 (z) when k M + 1 ) is assumed to be 1 (completely closed) and ⁇ 1 (completely open) is P (z) and R (z) shown in Equation (2), respectively.
  • the LSP analysis unit 202 obtains LSP1 (LSP of orders 1 to M) by obtaining solutions of P (z) and R (z).
  • P (z) and R (z) represent polynomials for obtaining LSP1.
  • the two formulas (P (z) and R (z)) shown in the formula (2) are lossless filters, and their solutions exist on the unit circle in the complex plane.
  • the LSP analysis unit 202 can obtain a solution by, for example, the Newton-Raphson method, using the property that the mutual solutions appear alternately on the circumference.
  • the obtained solution is LSP1. That is, LSP1 is a parameter on the opening side when the vocal tract is divided from the opening by an order M.
  • the parameter analysis unit 203 receives the autocorrelation coefficient obtained by the parameter analysis unit 201 and the ⁇ parameter (order 1 to M) on the aperture side, and performs the Durbin-Levinson recursion method performed by the parameter analysis unit 201.
  • Parameter analysis (parameter analysis processing from the opening to the order M) is performed, and the parameter analysis is performed as it is, and the reflection coefficient (ie, k M + 1 , order M (order M + 1) to order N) is ahead of the order M.
  • k M + 2 ,..., k N ).
  • a N (z), A M (z) and the reflection coefficients (k M + 1 , k M + 2 ,..., K N ) prior to the order M is based on the equation (1), It is expressed as follows. Further, the parameter analysis unit 203 sends the coefficient of A N (z) to the audibility weighting unit 111 as an LPC parameter.
  • the characteristics of the acoustic tube on the vocal cord side (order (M + 1) to vocal cord (order N)) when the vocal tract is divided are the reflection coefficient (k M + 1 , k M + 2 ,..., K N ) and the variable z ⁇ . It is represented by a square matrix whose elements are two-dimensional polynomials obtained by multiplying all square matrices consisting of 1 . That is, the parameter analysis unit 203 performs parameter analysis processing on the input speech (speech signal) in samples of orders (M + 1) to N among the Nth order filters, and reflects coefficients of orders (M + 1) to N. (K M + 1 , k M + 2 ,..., K N ) are calculated.
  • the parameter analysis unit 203 the reflection coefficient (k M + 1, k M + 2, ..., k N), order (M + 1) 2 polynomials representing parameters analyzed in recurrence formula (A M (z), B M (z )) And a square matrix having two polynomials (A N (z), B N (z)) representing a parameter analysis of order N as a recurrence formula (that is, characteristics of the acoustic tube on the vocal cord side (filter) A square matrix representing (characteristic) (formula (3)) is calculated.
  • a M (z) 1
  • the polynomial extraction unit 204 used the polynomial corresponding to the degree (M + 1) included in the square matrix (equation (3)) calculated by the parameter analysis unit 203 for parameter analysis at the degree 1.
  • the square matrix shown in Equation (3) is converted into the two polynomials Q (z) and S (z) shown in Equation (4). Convert to element vector.
  • each polynomial of Q (z) and S (z) shown in Equation (4) is similar to A M (z) and B M (z) shown in Equation (2).
  • the point is that a lossless polynomial can be obtained by calculating the sum and difference of Q (z) and S (z) as shown in Equation (2).
  • the LSP analysis unit 205 obtains the LSP using the polynomial input from the polynomial extraction unit 204.
  • the LSP obtained by the LSP analysis unit 205 is referred to as “LSP2”.
  • the LSP analysis unit 205 obtains LSP2 using polynomials U (z) and V (z) shown in Expression (5).
  • the LSP analysis unit 205 obtains LSP2 (LSPs of orders (M + 1) to N) using two polynomials Q (z) and S (z). That is, U (z) and V (z) represent lossless polynomials for obtaining LSP2.
  • LSP2 LSPs of orders (M + 1) to N
  • Q (z) and S (z) represent lossless polynomials for obtaining LSP2.
  • U (z) and V (z) represent lossless polynomials for obtaining LSP2.
  • Expression (4) is expressed by Expression (6).
  • the LSP analysis unit 205 calculates Equation (5) using Equation (6) to obtain two polynomials U (z) and V (z) shown in Equation (7).
  • the encoder can obtain two LSPs (LSP1 and LSP2) by performing an analysis equivalent to dividing the vocal tract.
  • the LSP1 generated by the LSP analysis unit 202 is output to the LSP quantization unit 206.
  • the LSP2 generated by the LSP analysis unit 205 is output to the LSP quantization unit 207.
  • the LSP quantization unit 206 and the LSP quantization unit 207 independently quantize LSP1 and LSP2, respectively, to obtain the codes of the LSPs (LSP1 code and LSP2 code).
  • the LSP1 code and the LSP2 code are output to the outside of the CELP encoding apparatus 100 as an LSP code. Further, the LSP1 code and the LSP2 code are input to the LSP decoding unit 208 and the LSP decoding unit 209, respectively.
  • the LSP decoding unit 208 decodes the LSP1 code and further obtains two polynomials representing the acoustic tube on the opening side when the vocal tract is divided.
  • the LSP decoding unit 209 decodes the LSP2 code and further obtains two polynomials representing the vocal tract side acoustic tube when the vocal tract is divided.
  • the polynomial decoding unit 210 obtains a quadratic square matrix using the two polynomials obtained by the LSP decoding unit 209.
  • the overall decoding unit 211 obtains a polynomial (filter coefficient of the synthesis filter) of the entire filter (all-pole filter) by multiplying the square matrix obtained by the polynomial decoding unit 210 by the polynomial obtained by the LSP decoding unit 208. , And output to the LPC synthesis filter 109 as a quantized LPC parameter.
  • VQ is performed using LSP in both the vocal cord side portion and the opening side portion when the vocal tract is divided, and the amount of calculation is small and the accuracy is high. Quantization can be performed.
  • FIG. 3 is a block diagram showing the main configuration of CELP decoding apparatus 300 according to the present embodiment.
  • information transmitted from CELP encoding apparatus 100 is input to CELP decoding apparatus 300.
  • This information includes an LSP code (for example, an LSP1 code and an LSP2 code) and encoding information.
  • the encoding information includes (codes) indexes of the adaptive codebook 103, the fixed codebook 104, and the gain codebook 105 that minimize the encoding distortion in the CELP encoding apparatus 100.
  • the LPC inverse quantization unit 301 functions as an inverse quantization device, inversely quantizes an input LSP code, obtains a quantized LPC parameter, and outputs the quantized LPC parameter to the LPC synthesis filter 308 as a filter coefficient. .
  • the adaptive codebook 302 cuts out one frame of samples from the buffer from the cutout position specified by the input coding information, and outputs the cut-out excitation vector to the multiplier 305 as an adaptive codebook vector.
  • adaptive codebook 302 updates the contents of the buffer each time a driving sound source is input from adder 307.
  • the gain codebook 303 specifies the adaptive codebook gain and the fixed codebook gain indicated by the input coding information, outputs the adaptive codebook gain to the multiplier 305, and outputs the fixed codebook gain to the multiplier 306. To do.
  • Fixed codebook 304 outputs the excitation vector indicated by the input encoding information to multiplier 306 as a fixed codebook vector.
  • Multiplier 305 multiplies the adaptive codebook vector input from adaptive codebook 302 by the adaptive codebook gain input from gain codebook 303 and outputs the result to adder 307.
  • Multiplier 306 multiplies the fixed codebook vector input from fixed codebook 304 by the fixed codebook gain input from gain codebook 303 and outputs the result to adder 307.
  • Adder 307 adds the adaptive codebook vector after gain multiplication input from multiplier 305 and the fixed codebook vector after gain multiplication input from multiplier 306 to generate a drive excitation.
  • the adder 307 then outputs the generated driving sound source to the LPC synthesis filter 308 and the adaptive codebook 302.
  • the driving sound source input to the adaptive codebook 302 is stored in the buffer of the adaptive codebook 302.
  • the LPC synthesis filter 308 performs synthesis processing using the driving sound source input from the adder 307 and the filter coefficient decoded by the LPC inverse quantization unit 301, and outputs the generated synthesized signal as an audio signal.
  • FIG. 4 is a block diagram showing an internal configuration of an LPC inverse quantization unit 301 which is an inverse quantization apparatus according to the present embodiment.
  • an LSP decoding unit 401 decodes a code related to LSP1 (LSP1 code) from among LSP codes input from the encoder side, and further, on the opening side when the vocal tract is divided. Two polynomials (A M (z), B M (z)) representing the acoustic tube are obtained.
  • the LSP decoding unit 402 decodes a part (LSP2 code) related to LSP2 from the LSP codes input from the encoder side, and further represents an acoustic tube on the vocal cord side when the vocal tract is divided. Two polynomials (Q (z) and S (z) shown in Equation (4)) are obtained.
  • the polynomial decoding unit 403 uses the Q (z) and S (z) obtained by the LSP decoding unit 402 to obtain a quadratic square matrix having the polynomial shown in Equation (3) as an element.
  • the overall decoding unit 404 obtains a polynomial (synthetic filter) of the entire filter (all-pole filter) by multiplying the square matrix obtained by the polynomial decoding unit 403 by the polynomial obtained by the LSP decoding unit 401.
  • Q (z) and S (z) are used as synthesis filter equations, and the acoustic tube step-down process (for example, it can be realized by applying Markel and Gray co-authored by Suzuki, “Speech Linear Prediction”, Chapter 5.2.2, pp. 114-117, November 1978, Corona). That is, one reflection coefficient can be obtained recursively from two polynomials. Then, a quadratic square matrix is obtained by finally multiplying the obtained reflection coefficient k and the square matrix of the variable z- 1 .
  • the overall decoding unit 404 can obtain an overall polynomial (synthetic filter) by multiplying the quadratic square matrix and the polynomial (A M (z), B M (z)).
  • an overall polynomial synthetic filter
  • the encoder is theoretically applicable considering that the LSP2 is obtained by quantizing the polynomial obtained from the reflection coefficient. Omit proof.
  • LSP2 is extracted from the two polynomials in the same manner as the portion close to the opening. . Then, the two LSPs (LSP1, LSP2) are quantized independently.
  • each vector divided in the split VQ uses an LSP or ISP having a high quantization efficiency, so that the amount of calculation is smaller than that of the conventional split VQ and the quantization performance is improved. Good quantization can be realized.
  • the acoustic tube in the range can be quantized by collecting the reflection coefficients obtained in the portion (range) close to the vocal cords and creating a polynomial. From this, the vocal tract can be divided into any number. That is, by simply multiplying the square matrix composed of the reflection coefficient k and the variable z ⁇ 1 shown in Equation (3) into subsets for each division unit of the vocal tract, the other terms of each filter that divides the vocal tract are divided. The formula is obtained.
  • CELP Code Division Multiple Access
  • the present invention is not limited to CELP and can be applied to any spectrum quantization method using vector quantization.
  • the present invention may be applied to a spectrum quantization method using MDCT (Modified Discrete Cosine Transform) or QMF (Quadrature Mirror Filter).
  • MDCT Modified Discrete Cosine Transform
  • QMF Quadrature Mirror Filter
  • the present invention can be applied to an algorithm for searching for a similar spectrum shape from the spectrum in the low frequency region in the band extension technique, it can be applied to reduce the amount of calculation of the algorithm.
  • the present invention can be applied to all encoding methods using LPC analysis.
  • the present invention can be applied to the case where the speech signal is converted into a parameter in which ISP and PARCOR are mixed and encoded. It is clear that it is effective. This is because another quantization method may be used instead of the LSP quantization in the above embodiment. That is, the essence of the present invention is to divide the vocal tract and to encode each parameter independently, and does not depend on the encoding form of the parameter.
  • the autocorrelation coefficient is used as a method for obtaining the linear prediction coefficient, but the present invention is not limited to this.
  • the linear prediction coefficient can be obtained by a covariance method using covariance.
  • the audio signal is used as the signal input to the apparatus.
  • the present invention can be realized using various signals such as a music signal and an acoustic signal.
  • the present invention is not limited to this, and can also be realized by software in cooperation with hardware.
  • the algorithm according to the present invention in a programming language, storing the program in a memory and executing it by an information processing means, the same function as the speech coding apparatus according to the present invention is realized. Can do.
  • each functional block in the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the LSI may be referred to as an IC, a system LSI, a super LSI, or an ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the speech analysis apparatus, quantization apparatus, inverse quantization apparatus, and methods according to the present invention are particularly suitable for speech codecs using CELP.
  • CELP encoding apparatus 101 LPC analysis part 102 LPC quantization part 103,302 Adaptive codebook 104,304 Fixed codebook 105,303 Gain codebook 106,107,305,306 Multiplier 108,110,307 Adder 109, 308 LPC synthesis filter 111 Auditory weighting unit 112 Distortion minimizing unit 201, 203 Parameter analyzing unit 202, 205 LSP analyzing unit 204 Polynomial extracting unit 206, 207 LSP quantizing unit 300 CELP decoding device 301 LPC dequantizing unit 208, 209, 401, 402 LSP decoding unit 210, 403 Polynomial decoding unit 211, 404 Overall decoding unit

Abstract

 スプリットVQにおいて分割された各ベクトルにおいて、音響特性の分析を可能とすることができる音声分析装置。この装置において、パラメータ分析部(201)は、音声信号に対するパラメータ分析を行って、次数1から次数M(ただし、M<N、Mは正の整数、Nは2以上の整数)までの線形予測係数を得て、LSP分析部(202)は、線形予測係数を変換して第1のパラメータを得て、パラメータ分析部(203)は、線形予測係数を用いたパラメータ分析を行って、次数(M+1)から次数Nまでの反射係数を算出し、反射係数を用いた行列の計算により、多項式を要素とする正方行列を得て、多項式抽出部(204)は、正方行列に対して所定のベクトルを乗ずることで、正方行列を、2つの多項式を要素とするベクトルに変換し、LSP分析部(205)は、2つの多項式を用いた方程式から第2のパラメータを算出する。

Description

音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
 本発明は、音声分析装置、量子化装置、逆量子化装置、及びこれらの方法に関する。
 移動体通信においては伝送帯域の有効利用のために音声又は画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に対して更により高音質の要求が強まっている。また、音声通信は公衆で使用されるため、標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。
 近年、音声及び音楽の双方を符号化できるコーデックは、ITU-T(International Telecommunication Union - Telecommunication Standardization Sector)及びMPEG(Moving Picture Experts Group)で標準化が検討されており、より効率的で高品質の音声コーデックが求められている。
 20年前に確立された音声の発声機構をモデル化してベクトル量子化を応用した基本方式であるCELP(Code Excited Linear Prediction)によって、音声符号化技術は大きく性能を向上させた。ITU-T標準G.729、G.722.2、ETSI標準AMR(Adaptive Multi-Rate)、AMR-WB(Wide Band)、又は、3GPP2標準VMR-WB(Variable-Rate Multimode Wideband)等の多くの国際規格では、CELPは標準方式として採用されている。
 上記CELPの主要な技術は、スペクトルの概形を低ビットレートで符号化できる、LPC(Linear Prediction Coefficient)分析技術、及び、LPC分析により得られたパラメータ(線形予測係数(LPC)等)の量子化技術である。特に、近年の標準方式のほとんどに使用されているのは線スペクトルによる量子化であり、代表的なものとして、LSP(Line Spectral Pair)と、LSPを更に改良したISP(Immittance Spectral Pair)とがある(例えば、非特許文献1及び非特許文献2を参照)。LSP及びISPの双方とも補間性が良く、ベクトル量子化(Vector Quantization:VQ)との親和性が高いので、これらを符号化に用いることにより、低ビットレートでスペクトル情報を伝送することができる。LSP及びISPという線スペクトルパラメータとVQとによって、CELPを基本方式とする音声符号化(コーデック)の性能は格段に向上した。
 最近では、「より高音質に」というニーズに対応するために、広帯域信号(16kbpsサンプリング)又は超広帯域信号(32kbpsサンプリング)を符号化するコーデックが求められており、ITU-T、MPEG及び3GPP等で標準化が進んでいる。広帯域又は超広帯域のディジタル信号を符号化するために線形予測係数(LPC)を用いる場合、符号化装置では、例えば16次以上の次数の多いLSP又はISPを量子化する必要がある。そこで、量子化対象(符号化対象)であるターゲットベクトルを複数に分割し、それぞれをベクトル量子化するという「スプリットベクトル量子化(スプリットVQ:Split Vector Quantization)」が用いられる。スプリットVQは、これまでの標準方式でも用いられている一般的な方法である。例えば、スプリットVQでは、16次のパラメータベクトルを前半8サンプルと、後半8サンプルとに分割して、それぞれに対してVQを行う。
 特に、次数が多い場合には最初からスプリットVQを用いることになる。ここで、LSP及びISPという線スペクトルパラメータは大きさが昇順になっており、その値は周波数領域で表されるので、スプリットVQでは、LSP又はISPの周波数成分を複数に分割してそれぞれを独立に量子化することになる。
 また、特許文献1には、人間の声帯(声門)から開口部までの声道を1つの音響管として、符号化対象である声道を開口部側と声帯(声門)側とに分断する発想に基づく符号化技術が開示されている。具体的には、特許文献1では、符号化対象のうち開口部に近い部分に対してLSPを用いて符号化して訂正ビットを付加することで当該部分を保護する。一方、符号化対象のうち声帯に近い部分に対してPARCOR(Partial Auto Correlation)を用いて符号化する。そして、開口部側と声帯側とを最後に合成する。
特開平6-204983号公報
菅村,板倉,「線スペクトル対(LSP)音声分析合成方式による音声情報圧縮」,電子情報通信学会誌 J64-A,No.8,pp.599-606,1981/8(N.Sugamura, and F.Itakura, "Speech data compression by LSP speech analysis-synthesis technique," Trans. of IEICE, Vol.J64-A, No.8, pp.599-606 (1981-8)) Bistritz, Peller, "IMMITTANCE SPECTORAL PAIRS (ISP) FOR SPEECH ENCODING" IEEE, ICASSP’93, pp.II-9 - II12
 しかしながら、LSP及びISPという線スペクトルパラメータは、高帯域領域と低帯域領域との間で相関がある。そのため、前述した次数に基づくスプリットVQを行うと、量子化効率が劣化してしまうという問題がある。量子化においては、1本の音響管として量子化すると計算量が多いため、上述のように、スプリットVQを用いて量子化することが多い。この場合、計算量は削減されるが、相関が高いはずの2つのベクトルであるのに、従来はその特性(相関)を考慮せずに音響管を分割していたため、量子化効率が劣化していたのである。この問題を解決するために、スプリットVQにおいてLSP又はISPの次数に基づく分割方法ではなく、より相関が小さくなる分割方法が必要になる。
 また、特許文献1のように、PARCORを用いて符号化すると、LSP及びISPと比較して量子化効率が悪くなる。よって、たとえ伝送誤りに強くとも量子化性能が劣化するのでは実用性に欠ける。すなわち、量子化対象を分割した後のそれぞれの部分から抽出したパラメータを効率良く量子化することは性能向上のためには不可欠であり、従来のように、音響管の情報に対する量子化効率が良いLSP及びISP等による量子化を行うことが望ましい。すなわち、従来においては、音響管の特性を分析するときに、音響管を分割し、開口部に近い部分については例えば特許文献1に示すLSP分析を行ったが、声帯に近い部分については、実質的には音響特性について分析されていなかった。
 本発明の目的は、スプリットVQを行うために分割された各ベクトルそれぞれにおいて音響特性を分析することが可能である音声分析装置及び音声分析方法を提供することである。さらに、この音声分析装置を用いることにより、量子化性能の良い量子化/逆量子化を実現できる量子化装置、逆量子化装置及びこれらの方法を提供することである。
 本発明の一態様に係る音声分析装置は、音声信号を分析して、次数1から次数N(ただし、Nは2以上の整数)までのN次のフィルタのフィルタ係数を表すパラメータを決定する音声分析装置であって、前記音声信号に対するパラメータ分析を行って、次数1から次数M(ただし、M<N、Mは正の整数)までの線形予測係数を得る第1分析手段と、前記線形予測係数を変換して第1のパラメータを得る第2分析手段と、前記線形予測係数を用いたパラメータ分析を行って、次数(M+1)から次数Nまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第3分析手段と、前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、2つの多項式を要素とするベクトルに変換する変換手段と、前記2つの多項式を用いた方程式から第2のパラメータを算出する第4分析手段と、を具備する構成を採る。
 本発明の一態様に係る量子化装置は、上記音声分析装置と、前記第1のパラメータを量子化して第1の符号を得る第1量子化手段と、前記第2のパラメータを量子化して第2の符号を得る第2量子化手段と、を具備する構成を採る。
 本発明の一態様に係る逆量子化装置は、上記量子化装置により生成された、前記第1の符号と前記第2の符号とを入力して逆量子化する逆量子化装置であって、前記第1の符号を復号するとともに、次数1から次数Mまでのフィルタ特性を表す2つの多項式を要素とする第1復号ベクトルを生成する第1復号手段と、前記第2の符号を復号するとともに、次数(M+1)から次数Nまでのフィルタ特性を表す2つの多項式を要素とする第2復号ベクトルを生成する第2復号手段と、前記第2復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成手段と、前記第1復号ベクトルに対して前記復号正方行列を乗ずることにより、前記N次のフィルタのフィルタ係数を求める全体復号手段と、を具備する構成を採る。
 本発明の一態様に係る音声分析方法は、音声信号を分析して、次数1から次数N(ただし、Nは2以上の整数)までのN次のフィルタのフィルタ係数を表すパラメータを決定する音声分析方法であって、前記音声信号に対するパラメータ分析を行って、次数1から次数M(ただし、M<N、Mは正の整数)までの線形予測係数を得る第1分析ステップと、前記線形予測係数を変換して第1のパラメータを得る第2分析ステップと、前記線形予測係数を用いたパラメータ分析を行って、次数(M+1)から次数Nまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第3分析ステップと、前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、2つの多項式を要素とするベクトルに変換する変換ステップと、前記2つの多項式を用いた方程式から第2のパラメータを算出する第4分析ステップと、を有する。
 本発明の一態様に係る量子化方法は、上記音声分析方法により得られた前記第1のパラメータを量子化して第1の符号を得る第1量子化ステップと、上記音声分析方法により得られた前記第2のパラメータを量子化して第2の符号を得る第2量子化ステップと、を有する。
 本発明の一態様に係る逆量子化方法は、上記量子化方法により得られた、前記第1の符号と前記第2の符号とを入力して逆量子化する逆量子化方法であって、前記第1の符号を復号するとともに、次数1から次数Mまでのフィルタ特性を表す2つの多項式を要素とする第1復号ベクトルを生成する第1復号ステップと、前記第2の符号を復号するとともに、次数(M+1)から次数Nまでのフィルタ特性を表す2つの多項式を要素とする第2復号ベクトルを生成する第2復号ステップと、前記第2復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成ステップと、前記第1復号ベクトルに対して前記復号正方行列を乗ずることにより、前記N次のフィルタのフィルタ係数を求める全体復号ステップと、を有する。
 本発明の音声分析装置及び音声分析方法によれば、スプリットVQにおいて分割された各ベクトルにおいて、音響特性の分析を可能とする。また、本発明の量子化装置、逆量子化装置、及びこれらの方法によれば、スプリットVQにおいて分割された各ベクトルにおいて、量子化性能の良い量子化/逆量子化を実現できる。
本発明の一実施の形態に係るCELP符号化装置の構成を示すブロック図 本発明の一実施の形態に係る音声分析装置及び量子化装置の構成を示すブロック図 本発明の一実施の形態に係るCELP復号装置の構成を示すブロック図 本発明の一実施の形態に係る逆量子化装置の構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 図1は、本実施の形態に係るCELP符号化装置100の構成を示すブロック図である。
 図1において、CELP符号化装置100は、声道情報と音源情報とからなる音声信号を、声道情報については、LPCパラメータ(線形予測係数)を求めることにより符号化し、音源情報については、予め記憶されている音声モデルのいずれを用いるかを特定するインデックスを求めることにより符号化する。すなわち、音源情報については、適応符号帳103及び固定符号帳104でどのような音源ベクトル(コードベクトル)を生成するかを特定するインデックス(符号)を求めることにより符号化する。
 具体的には、CELP符号化装置100の各部は以下の動作を行う。
 LPC分析部101は、音声信号に対して線形予測分析(LPC分析)を施し、スペクトル包絡情報であるLPCパラメータを求め、求めたLPCパラメータをLPC量子化部102及び聴感重み付け部111に出力する。
 LPC量子化部102は、LPC分析部101から出力されたLPCパラメータを量子化する。そして、LPC量子化部102は、得られた量子化LPCパラメータをLPC合成フィルタ109に出力し、量子化LPCパラメータのインデックス(符号)をCELP符号化装置100の外部へ出力する。
 一方、適応符号帳103は、LPC合成フィルタ109で使用された過去の駆動音源を記憶しており、後述する歪み最小化部112から指示されたインデックスに対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器106に出力される。
 固定符号帳104は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部112から指示されたインデックスに対応する音源ベクトルを、固定符号帳ベクトルとして乗算器107に出力する。ここで、固定符号帳104は代数的音源であり、代数的符号帳を用いた場合について説明する。代数的音源とは、多くの標準コーデックに採用されている音源である。
 なお、上記の適応符号帳103は、有声音のように周期性の強い成分を表現するために使われる。一方、固定符号帳104は、白色雑音のように周期性の弱い成分を表現するために使われる。
 ゲイン符号帳105は、歪み最小化部112からの指示に従って、適応符号帳103から出力される適応符号帳ベクトル用のゲイン(適応符号帳ゲイン)、及び固定符号帳104から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成し、それぞれ乗算器106、107に出力する。
 乗算器106は、ゲイン符号帳105から出力された適応符号帳ゲインを、適応符号帳103から出力された適応符号帳ベクトルに乗じ、乗算後の適応符号帳ベクトルを加算器108に出力する。
 乗算器107は、ゲイン符号帳105から出力された固定符号帳ゲインを、固定符号帳104から出力された固定符号帳ベクトルに乗じ、乗算後の固定符号帳ベクトルを加算器108に出力する。
 加算器108は、乗算器106から出力された適応符号帳ベクトルと、乗算器107から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源としてLPC合成フィルタ109に出力する。
 LPC合成フィルタ109は、LPC量子化部102から出力された量子化LPCパラメータをフィルタ係数とし、適応符号帳103及び固定符号帳104で生成される音源ベクトルを駆動音源としたフィルタ関数、すなわち、LPC合成フィルタを用いて合成信号を生成する。この合成信号は、加算器110に出力される。
 加算器110は、LPC合成フィルタ109で生成された合成信号を音声信号から減算することによって誤差信号を算出し、この誤差信号を聴感重み付け部111に出力する。なお、この誤差信号が符号化歪みに相当する。
 聴感重み付け部111は、LPC分析部101から入力されるLPCパラメータを用いて、加算器110から出力された符号化歪みに対して聴感的な重み付けを施し、歪み最小化部112に出力する。
 歪み最小化部112は、聴感重み付け部111から出力された符号化歪みが最小となるような、適応符号帳103、固定符号帳104及びゲイン符号帳105の各インデックス(符号)をサブフレームごとに求め、これらのインデックスを符号化情報としてCELP符号化装置100の外部に出力する。より詳細には、上記の適応符号帳103及び固定符号帳104に基づいて合成信号を生成し、この信号の符号化歪みを求める一連の処理は閉ループ制御(帰還制御)となっており、歪み最小化部112は、各符号帳に指示するインデックスを1サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小とする各符号帳のインデックスを出力する。
 なお、符号化歪みが最小となる際の駆動音源は、サブフレームごとに適応符号帳103へフィードバックされる。適応符号帳103は、このフィードバックにより、記憶されている駆動音源を更新する。
 次に、CELP符号化装置100(符号化器)でのLPC分析及びLPC量子化の詳細について説明する。
 まず、LSPとISPとの違いについて本発明者が着目した点について説明する。
 同一ビット数で表されるLSPとISPとにおいては、LSPよりもISPの方がスペクトル歪をより少なく抑えて量子化することが可能である。
 ただし、ISPは、人間の声帯(声門)から開口部までの声道を1つの音響管としたとき、声帯(声門)における1つのパラメータをPARCORで表し(例えば、反射係数(PARCOR係数))、当該1つのパラメータよりも開口部側の他の部分をLSPで表わしたパラメータである。
 非特許文献1によればLSPはPARCORよりも量子化性能が明らかに良い(少ないビット数でスペクトルを精度良く量子化できる)にも関わらず、ISPでは、1つのパラメータをPARCORで表現することで、LSPのみの場合と比較して量子化性能を向上させることができる。
 このように1つのパラメータをPARCORで表現することが量子化性能の向上につながる理由としては、声帯(声門)に近い部分をLSPで表現する部分として含めないことで、ベクトル量子化で用いる符号帳のコードベクトルの分布が良くなるという現象が挙げられる。
 また、定性的には、音響管における開口部に近い部分は音韻性を表しており変動が激しいのに対し、声帯(声門)に近い部分は比較的定常的に個人性を表しているという傾向を仮説として導くことができる。従って、開口部に近い部分と声帯(声門)に近い部分とは統計的に相関が小さいと考えられる。
 よって、音響管を分断して得られたパラメータ(相関が小さいパラメータ)に対して独立にVQを行うことで、全体に対してVQを行うよりも計算量を低減でき、かつ、量子化性能が劣化しない可能性がある。
 本発明者は、音響管モデルによる声道の分析を考察し、声帯(声門)に近い部分における音響管の切断面に対して開口部と同じ条件を適用することにより、声帯(声門)に近い部分に対して、PARCORでVQを行うのではなく、LSPでVQを行うことができるという方法があることを発見した。音響管を複数のLSPで量子化できれば、量子化性能の向上が更に望める。
 以上のように、本発明では、LPC分析を行う対象である声道を物理的に分断し、分断されたそれぞれの区間の声道から得られたパラメータを効率良く量子化する。
 以下、本実施の形態に係るパラメータ分析及び量子化の詳細について説明する。
 図2は、本実施の形態に係る音声分析装置及び量子化装置を構成する、LPC分析部101及びLPC量子化部102の内部構成を示すブロック図である。図2に示すように、LPC分析部101は、パラメータ分析部201、LSP分析部202、パラメータ分析部203、多項式抽出部204及びLSP分析部205を備える。また、図2に示すように、LPC量子化部102は、LSP量子化部206、LSP量子化部207、LSP復号部208、LSP復号部209、多項式復号部210及び全体復号部211を備える。
 図2において、パラメータ分析部201は、入力音声(入力される音声信号)に対して自己相関分析を行うことによって自己相関係数を抽出し、抽出した自己相関係数を用いてLPC分析を行う。例えば、パラメータ分析部201は、自己相関係数を用いたDurbin-Levinsonの再帰法によるパラメータ分析処理において、音響管モデルによる声道を分断した際の開口部側のαパラメータ(分断したい部分までの開口部からのαパラメータ(線形予測係数))を得る。
 Levinson-Durbinの再帰法(例えば、マーケル、グレイ共著、鈴木訳「音声の線形予測」、3.3.4章、3.3.5章、pp.65-67、1978年11月、コロナ社)では、人間の声帯から開口部までの声道を1つの音響管でモデル化し、音の発生する方向と逆方向、つまり、開口部から声帯への方向にパラメータ分析が行われる。これを漸化式で示すと次式(1)のようになる。
Figure JPOXMLDOC01-appb-M000001
 ここで、A(z)は線形予測係数(LPC)を係数とする多項式を示し、開口部から声帯(つまり、奥の方向)に向かって進む式である。また、B(z)は線形予測係数(LPC)を係数とする多項式を示し、声帯(つまり、奥)から開口部に向かって進む式である。また、kは反射係数(PARCOR係数)を示し、z-1は変数(Z変換されたフィルタの変数に対応)を示す。
 分析する最大次数をN(Nは2以上の整数)とし、開口部側において、開口部から分断部分までの次数をM(M<N、Mは正の整数)とする。つまり、声道の特性は、低次側を開口部とし、高次側を声帯とするN次のフィルタで表される。すなわち、N次のフィルタは、音響管としてモデル化され、且つ、開口部を次数1とし、声帯(声門)を次数Nとする、声道の特性を表すように設計されている。この場合、パラメータ分析部201は、A(z)の多項式の係数からαパラメータを得る。すなわち、パラメータ分析部201は、N次のフィルタのうち、次数1~Mまでの各サンプル(つまり、開口部側)において、入力音声(音声信号)に対するパラメータ分析処理を行って、次数1~Mまでのαパラメータ(線形予測係数)を得る。
 そして、LSP分析部202は、パラメータ分析部201で得られたαパラメータを用いてLSPを求める。以下、LSP分析部202で得られるLSPを「LSP1」と呼ぶ。
 LSPを求める方法については非特許文献1に詳細な記載がある。このLSPを求める方法を式(1)に対応させて表すと、式(1)における分析対象の次数(例えば、次数M)よりも1つ多い次数(例えば、次数(M+1))の反射係数(kM+1)を1(完全閉塞)及び-1(完全開放)と仮定したときのAM+1(z)をそれぞれ、式(2)に示すP(z)及びR(z)とする。LSP分析部202は、P(z)及びR(z)の解を求めることによってLSP1(次数1~MまでのLSP)を求める。
Figure JPOXMLDOC01-appb-M000002
 つまり、P(z)及びR(z)はLSP1を求めるための多項式を表す。式(2)に示す2式(P(z)及びR(z))は無損失系のフィルタとなり、これらの解は複素平面における単位円上に存在する。また、LSP分析部202は、互いの解が円周上に交互に現れるという性質を利用して、例えば、ニュートン ラフソン法によって解を求めることができる。求められた解がLSP1となる。すなわち、LSP1は、声道を開口部から次数Mで分断した際の開口部側のパラメータである。
 一方、パラメータ分析部203は、パラメータ分析部201で求めた自己相関係数と開口部側のαパラメータ(次数1~M)とを受けて、パラメータ分析部201で行ったDurbin-Levinsonの再帰法によるパラメータ分析(開口部から次数Mまでのパラメータ分析処理)を引き継いで、そのままパラメータ分析を行い、次数Mよりも先(すなわち、次数(M+1)~次数N)の反射係数(つまり、kM+1,kM+2,…,k)を得る。A(z)、A(z)及び次数Mよりも先の反射係数(kM+1,kM+2,…,k)との関係は、式(1)に基づいて、式(3)のように表される。また、パラメータ分析部203は、A(z)の係数をLPCパラメータとして聴感重み付け部111へ送る。
Figure JPOXMLDOC01-appb-M000003
 従って、声道を分断した際の、声帯側(次数(M+1)から声帯(次数N))の音響管の特性は、上記反射係数(kM+1,kM+2,…,k)と変数z-1とから成る正方行列を全て掛け合わせた2次元の多項式を要素とする正方行列で表される。すなわち、パラメータ分析部203は、N次のフィルタのうち、次数(M+1)~Nまでのサンプルにおいて、入力音声(音声信号)に対するパラメータ分析処理を行って、次数(M+1)~Nまでの反射係数(kM+1,kM+2,…,k)を算出する。そして、パラメータ分析部203は、反射係数(kM+1,kM+2,…,k)、次数(M+1)のパラメータ分析を漸化式で表す2つの多項式(A(z),B(z))、及び、次数Nのパラメータ分析を漸化式で表す2つの多項式(A(z),B(z))を要素とする正方行列(つまり、声帯側の音響管の特性(フィルタ特性)を表す正方行列。式(3))を算出する。
 因みに、M=N-1のときがISP(非特許文献2参照)の場合に相当する。すなわち、反射係数k、及び、開口部から次数M(=N-1)までの部分(反射係数k~k)をそれぞれLSPに変換すればISPが得られることに注意されたい。
 次いで、多項式抽出部204は、声帯側の分断した切り口(つまり、次数(M+1))に、開口部(次数=1)の条件であるA=1,B=z-1をベクトルとして適用(乗算)する。具体的には、式(3)において、声帯側の分断した切り口、つまり、次数(M+1)に対応する多項式A(z),B(z)を、それぞれA(z)=1,B(z)=z-1とする。これにより、式(3)に示す声帯側の音響管の特性を示す4つの多項式(A(z),B(z),A(z),B(z))を、式(4)に示す2つの多項式(Q(z),S(z))に纏めることができる。
Figure JPOXMLDOC01-appb-M000004
 このように、多項式抽出部204は、パラメータ分析部203で算出された正方行列(式(3))に含まれる次数(M+1)に対応する多項式に対して、次数1でのパラメータ分析に用いた初期値(A=1,B=z-1)を適用することで、式(3)に示す正方行列を、式(4)に示す2つの多項式Q(z),S(z)を要素とするベクトルに変換する。
 ここで着目すべき重要な点は、式(4)に示すQ(z),S(z)の各多項式は、式(2)に示すA(z),B(z)と同様に扱うことができ、式(2)のようにしてQ(z)とS(z)との和及び差を算出することで、無損失系の多項式を得ることができるという点である。
 そこで、LSP分析部205は、多項式抽出部204から入力される多項式を用いてLSPを求める。以下、LSP分析部205で得られるLSPを「LSP2」と呼ぶ。例えば、LSP分析部205は、式(5)に示す多項式U(z)及びV(z)を用いてLSP2を求める。
Figure JPOXMLDOC01-appb-M000005
 すなわち、LSP分析部205は、2つの多項式Q(z),S(z)を用いて、LSP2(次数(M+1)~NまでのLSP)を求める。つまり、U(z)及びV(z)はLSP2を求めるための無損失系の多項式を表す。なお、上記着目すべき重要な点については、上記反射係数kと変数z-1との2次元正方行列の1つ1つが独立であることから理論的に明らかであるので、その証明を省略する。
 以下、一例として、M=N-1の場合について説明する。
 この場合、式(4)は式(6)で表される。
Figure JPOXMLDOC01-appb-M000006
 そこで、LSP分析部205は、式(6)を用いて式(5)を計算して、式(7)に示す2つの多項式U(z),V(z)を得る。
Figure JPOXMLDOC01-appb-M000007
 式(7)に示す2つの多項式U(z),V(z)において、±1については除外し、2次式の解を求めると、式(8)のようになる。
Figure JPOXMLDOC01-appb-M000008
 安定したLPCフィルタにおける反射係数の特性(-1<k<1)より、式(8)における平方根の中は常に負の値となり、複素平面におけるそれぞれの解の値は単位円上に存在することが証明される。
 以上、M=N-1(N-M=1)の場合について説明した。なお、(N-M)が2以上の場合についても上記同様である。
 以上のように符号化器では、声道を分断するのと等価な分析を行うことで、2つのLSP(LSP1及びLSP2)を得ることができる。LSP分析部202で生成されたLSP1は、LSP量子化部206に出力される。LSP分析部205で生成されたLSP2は、LSP量子化部207に出力される。
 LSP量子化部206及びLSP量子化部207は、LSP1及びLSP2をそれぞれ独立に量子化し、各LSPの符号(LSP1符号及びLSP2符号)を得る。LSP1符号及びLSP2符号は、LSP符号としてCELP符号化装置100の外部に出力される。また、LSP1符号及びLSP2符号は、それぞれLSP復号部208及びLSP復号部209に入力される。
 LSP復号部208は、LSP1符号を復号し、更に、声道を分断したときの開口部側の音響管を表す2つの多項式を求める。
 LSP復号部209は、LSP2符号を復号し、更に、声道を分断したときの声帯側の音響管を表す2つの多項式を求める。
 多項式復号部210は、LSP復号部209で求めた2つの多項式を用いて、2次の正方行列を求める。
 全体復号部211は、多項式復号部210で求めた正方行列を、LSP復号部208で求めた多項式に乗ずることにより、全体のフィルタ(全極型フィルタ)の多項式(合成フィルタのフィルタ係数)を求め、量子化LPCパラメータとしてLPC合成フィルタ109へ出力する。
 上述の、2つのLSP符号を入力してフィルタ係数である量子化LPCパラメータを出力する、という構成は、後述する逆量子化装置(CELP復号装置300のLPC逆量子化部301)と同様である。よって、この構成に関する詳細な説明は後述する。
 このようにして、符号化器側では、声道を分断した際の声帯側の部分及び開口部側の部分の双方でLSPを用いてVQを行うことで少ない計算量で、かつ、精度の高い量子化を行うことができる。
 次に、本実施の形態に係るCELP復号装置300について説明する。図3は、本実施の形態に係るCELP復号装置300の主要な構成を示すブロック図である。
 図3において、CELP復号装置300には、CELP符号化装置100(図1)から伝送される情報が入力される。この情報には、LSP符号(例えば、LSP1符号及びLSP2符号)及び符号化情報が含まれる。また、符号化情報には、CELP符号化装置100において符号化歪みが最小となるような、適応符号帳103、固定符号帳104及びゲイン符号帳105の各インデックスが(符号)含まれる。
 LPC逆量子化部301は、逆量子化装置として機能し、入力されるLSP符号を逆量子化して、量子化LPCパラメータを得て、量子化LPCパラメータをフィルタ係数としてLPC合成フィルタ308に出力する。
 適応符号帳302は、入力される符号化情報により特定される切り出し位置から1フレーム分のサンプルをバッファより切り出し、切り出した音源ベクトルを適応符号帳ベクトルとして乗算器305に出力する。ここで、適応符号帳302は、加算器307から駆動音源が入力されるたびにバッファの内容を更新する。
 ゲイン符号帳303は、入力される符号化情報が示す適応符号帳ゲインと固定符号帳ゲインとを特定し、適応符号帳ゲインを乗算器305に出力し、固定符号帳ゲインを乗算器306に出力する。
 固定符号帳304は、入力される符号化情報が示す音源ベクトルを固定符号帳ベクトルとして乗算器306に出力する。
 乗算器305は、適応符号帳302から入力される適応符号帳ベクトルに、ゲイン符号帳303から入力される適応符号帳ゲインを乗じて加算器307に出力する。
 乗算器306は、固定符号帳304から入力される固定符号帳ベクトルに、ゲイン符号帳303から入力される固定符号帳ゲインを乗じて加算器307に出力する。
 加算器307は、乗算器305から入力されるゲイン乗算後の適応符号帳ベクトルと、乗算器306から入力されるゲイン乗算後の固定符号帳ベクトルとを加算して駆動音源を生成する。そして、加算器307は、生成された駆動音源をLPC合成フィルタ308及び適応符号帳302に出力する。ここで、適応符号帳302に入力される駆動音源は、適応符号帳302のバッファに記憶される。
 LPC合成フィルタ308は、加算器307から入力される駆動音源と、LPC逆量子化部301で復号されたフィルタ係数とを用いて合成処理を行い、生成される合成信号を音声信号として出力する。
 次に、図4は、本実施の形態に係る逆量子化装置である、LPC逆量子化部301の内部構成を示すブロック図である。
 図4において、LSP復号部401は、符号化器側から入力されるLSP符号の中からLSP1に関わる部分の符号(LSP1符号)を復号し、更に、声道を分断したときの開口部側の音響管を表す2つの多項式(A(z),B(z))を求める。
 LSP復号部402は、符号化器側から入力されるLSP符号の中からLSP2に関わる部分の符号(LSP2符号)を復号し、更に、声道を分断したときの声帯側の音響管を表す2つの多項式(式(4)に示すQ(z),S(z))を求める。
 多項式復号部403は、LSP復号部402で求めたQ(z),S(z)を用いて、式(3)に示す多項式を要素とした2次の正方行列を求める。
 全体復号部404は、多項式復号部403で求めた正方行列を、LSP復号部401で求めた多項式に乗ずることにより、全体のフィルタ(全極型フィルタ)の多項式(合成フィルタ)を求める。
 ただし、多項式復号部403においてQ(z),S(z)を用いて正方行列を求める方法としては、Q(z),S(z)を合成フィルタの式として、音響管のステップダウン過程(例えば、マーケル、グレイ共著、鈴木訳「音声の線形予測」、5.2.2章、pp.114-117、1978年11月、コロナ社)を適用することによって実現できる。すなわち、2つの多項式から再帰的に反射係数を1つずつ求めていくことができる。そして、求められた反射係数kと変数z-1の正方行列とを最後に掛け合わせることによって2次の正方行列が求められる。そして、全体復号部404では、上記2次の正方行列と多項式(A(z),B(z))とを掛けることによって、全体の多項式(合成フィルタ)を求めることができる。ステップダウン過程の適用については、符号化器側で、反射係数から求められた多項式を量子化してLSP2を求めたことを考慮すると、理論的には適用可能であることは明らかであるので、その証明を省略する。
 このように、復号器側では、音響管モデルによる声道を分断した各部分で得られた各LSP符号を逆量子化した後に、元の1つの全極型フィルタの多項式に戻す。
 以上のように、本実施の形態では、符号化器側においてLPC分析を行う際、音響管としての声道を物理的に分断した場合と等価のパラメータ分析を行う。また、符号化器側では、分析されたパラメータの内、開口部に近い部分からLSP1を抽出し、声帯に近い部分に対しては、その分断された音響管の切り口における条件として開口部と同様の条件を適用する。これによって、フィルタを表し、多項式が要素である正方行列を、2つの多項式が要素であるベクトルに変換する。この2つの多項式は、開口部から声帯(声門)までのパラメータ分析を表す式と、逆の関係となる式となるので、開口部に近い部分と同様にして、2つの多項式からLSP2を抽出する。そして、2つのLSP(LSP1、LSP2)をそれぞれ独立に量子化する。
 すなわち、声道を物理的に分断するのと等価な分析により、音韻情報を表す部分(開口部に近い部分)と、個人性を表す部分(声帯に近い部分)とに分けることができ、それぞれから相互相関の低いパラメータを抽出することができる。更に、それぞれのパラメータに対して効率が良いパラメータ抽出及び量子化(例えば、LSP及びISP等による量子化)を適用できる。よって、本実施の形態によれば、スプリットVQにおいて分割された各ベクトルにおいて、量子化効率が良いLSP又はISPを用いることで、従来のスプリットVQよりも少ない計算量で、かつ、量子化性能の良い量子化を実現できる。
 なお、上記実施の形態では、声道を2分割する場合について説明したが、これに限らず、声道を何分割にでも容易に分割する場合にも本発明を適用することができる。例えば、声帯に近い部分(範囲)で求められた反射係数を纏めて多項式を作ることで、当該範囲における音響管の量子化を行うことができる。これより、声道をいくつにでも分割できることになる。すなわち、式(3)に示す反射係数kと変数z-1とから成る正方行列を、声道の分割単位毎に部分集合に分けて掛け合わせるだけで、声道を分断した各フィルタの他項式が得られる。
 また、上記実施の形態ではCELPを用いた場合を一例として説明したが、CELPに限らず、ベクトル量子化を用いたスペクトルの量子化方法であれば本発明を適用することができる。例えば、MDCT(Modified Discrete Cosine Transform)又はQMF(Quadrature Mirror Filter)を用いたスペクトル量子化方法に対して本発明を適用してもよい。また、帯域拡張技術における低周波数領域のスペクトルの中から類似するスペクトル形状を探索するアルゴリズムに対して本発明を適用することで、そのアルゴリズムの計算量削減に応用することもできる。つまり、本発明はLPC分析を用いる符号化方式の全てに適用することができる。
 また、上記実施の形態では、音声信号をLSPに変換して符号化する場合について説明したが、音声信号を、ISP及びPARCOR等を混在させたパラメータに変換して符号化する場合でも本発明は有効であることは明らかである。これは、上記実施の形態におけるLSP量子化の代わりに別の量子化法を用いればよいからである。つまり、本発明の本質は、声道の分断、及び、各パラメータを独立に符号化することにあり、パラメータの符号化形態には依存しないからである。
 また、上記実施の形態では、線形予測係数を求める方法として、自己相関係数を用いたが、これに限定されない。例えば、共分散を用いた共分散法により線形予測係数を求めることも可能である。
 また、上記実施の形態では、装置に入力される信号として音声信号を用いて説明したが、音楽信号、音響信号、等の種々の信号を用いても本発明は実現可能である。
 また、上記実施の形態においては、ハードウェアで構成する場合を例に説明したが、本発明はこれに限らず、ハードウェアとの連係においてソフトウェアでも実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置等と同様の機能を実現することができる。
 また、上記実施の形態の各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。ここで、LSIは、集積度の違いによって、IC、システムLSI、スーパーLSIまたはウルトラLSI等と呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブルプロセッサを利用しても良い。
 さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
 2010年10月22日出願の特願2010-237421の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明にかかる音声分析装置、量子化装置、逆量子化装置、及びこれらの方法は、特にCELPを用いた音声コーデックに好適である。
 100 CELP符号化装置
 101 LPC分析部
 102 LPC量子化部
 103、302 適応符号帳
 104、304 固定符号帳
 105、303 ゲイン符号帳
 106、107、305、306 乗算器
 108、110、307 加算器
 109、308 LPC合成フィルタ
 111 聴感重み付け部
 112 歪み最小化部
 201、203 パラメータ分析部
 202、205 LSP分析部
 204 多項式抽出部
 206、207 LSP量子化部
 300 CELP復号装置
 301 LPC逆量子化部
 208、209、401、402 LSP復号部
 210、403 多項式復号部
 211、404 全体復号部

Claims (7)

  1.  音声信号を分析して、次数1から次数N(ただし、Nは2以上の整数)までのN次のフィルタのフィルタ係数を表すパラメータを決定する音声分析装置であって、
     前記音声信号に対するパラメータ分析を行って、次数1から次数M(ただし、M<N、Mは正の整数)までの線形予測係数を得る第1分析手段と、
     前記線形予測係数を変換して第1のパラメータを得る第2分析手段と、
     前記線形予測係数を用いたパラメータ分析を行って、次数(M+1)から次数Nまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第3分析手段と、
     前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、2つの多項式を要素とするベクトルに変換する変換手段と、
     前記2つの多項式を用いた方程式から第2のパラメータを算出する第4分析手段と、
     を具備する音声分析装置。
  2.  前記N次のフィルタは、
     音響管としてモデル化され、且つ、開口部を次数1とし、声帯を次数Nとする、声道の特性を表すように設計された、
     請求項1記載の音声分析装置。
  3.  請求項1記載の音声分析装置と、
     前記第1のパラメータを量子化して第1の符号を得る第1量子化手段と、
     前記第2のパラメータを量子化して第2の符号を得る第2量子化手段と、
     を具備する量子化装置。
  4.  請求項3記載の量子化装置により生成された、前記第1の符号と前記第2の符号とを入力して逆量子化する逆量子化装置であって、
     前記第1の符号を復号するとともに、次数1から次数Mまでのフィルタ特性を表す2つの多項式を要素とする第1復号ベクトルを生成する第1復号手段と、
     前記第2の符号を復号するとともに、次数(M+1)から次数Nまでのフィルタ特性を表す2つの多項式を要素とする第2復号ベクトルを生成する第2復号手段と、
     前記第2復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成手段と、
     前記第1復号ベクトルに対して前記復号正方行列を乗ずることにより、前記N次のフィルタのフィルタ係数を求める全体復号手段と、
     を具備する逆量子化装置。
  5.  音声信号を分析して、次数1から次数N(ただし、Nは2以上の整数)までのN次のフィルタのフィルタ係数を表すパラメータを決定する音声分析方法であって、
     前記音声信号に対するパラメータ分析を行って、次数1から次数M(ただし、M<N、Mは正の整数)までの線形予測係数を得る第1分析ステップと、
     前記線形予測係数を変換して第1のパラメータを得る第2分析ステップと、
     前記線形予測係数を用いたパラメータ分析を行って、次数(M+1)から次数Nまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第3分析ステップと、
     前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、2つの多項式を要素とするベクトルに変換する変換ステップと、
     前記2つの多項式を用いた方程式から第2のパラメータを算出する第4分析ステップと、
     を具備する音声分析方法。
  6.  請求項5記載の音声分析方法により得られた前記第1のパラメータを量子化して第1の符号を得る第1量子化ステップと、
     前記請求項5記載の音声分析方法により得られた前記第2のパラメータを量子化して第2の符号を得る第2量子化ステップと、
     を具備する量子化方法。
  7.  請求項6記載の量子化方法により得られた、前記第1の符号と前記第2の符号とを入力して逆量子化する逆量子化方法であって、
     前記第1の符号を復号するとともに、次数1から次数Mまでのフィルタ特性を表す2つの多項式を要素とする第1復号ベクトルを生成する第1復号ステップと、
     前記第2の符号を復号するとともに、次数(M+1)から次数Nまでのフィルタ特性を表す2つの多項式を要素とする第2復号ベクトルを生成する第2復号ステップと、
     前記第2復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成ステップと、
     前記第1復号ベクトルに対して前記復号正方行列を乗ずることにより、前記N次のフィルタのフィルタ係数を求める全体復号ステップと、
     を具備する逆量子化方法。
PCT/JP2011/005147 2010-10-22 2011-09-13 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 WO2012053149A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-237421 2010-10-22
JP2010237421 2010-10-22

Publications (1)

Publication Number Publication Date
WO2012053149A1 true WO2012053149A1 (ja) 2012-04-26

Family

ID=45974880

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/005147 WO2012053149A1 (ja) 2010-10-22 2011-09-13 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法

Country Status (1)

Country Link
WO (1) WO2012053149A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS593493A (ja) * 1982-06-29 1984-01-10 日本電気株式会社 帯域分割型ボコ−ダ
JPH06149297A (ja) * 1992-10-31 1994-05-27 Sony Corp 短期予測係数の計算方法
JP2001228900A (ja) * 1999-12-10 2001-08-24 Ricoh Co Ltd 音声パラメータ符号化装置およびその装置に用いられる符号化方式およびその符号化アルゴリズムを記載したコンピュータ読み取り可能な記録媒体、および、音声パラメータ量子化装置およびその装置に用いられる量子化方法およびその量子化アルゴリズムを記載したコンピュータ読み取り可能な記録媒体
JP2004212734A (ja) * 2003-01-06 2004-07-29 Yamaha Corp 波形データ圧縮方法
WO2006028010A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
JP2008537606A (ja) * 2005-04-01 2008-09-18 クゥアルコム・インコーポレイテッド 高帯域時間軸伸縮を行うシステム、方法、および装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS593493A (ja) * 1982-06-29 1984-01-10 日本電気株式会社 帯域分割型ボコ−ダ
JPH06149297A (ja) * 1992-10-31 1994-05-27 Sony Corp 短期予測係数の計算方法
JP2001228900A (ja) * 1999-12-10 2001-08-24 Ricoh Co Ltd 音声パラメータ符号化装置およびその装置に用いられる符号化方式およびその符号化アルゴリズムを記載したコンピュータ読み取り可能な記録媒体、および、音声パラメータ量子化装置およびその装置に用いられる量子化方法およびその量子化アルゴリズムを記載したコンピュータ読み取り可能な記録媒体
JP2004212734A (ja) * 2003-01-06 2004-07-29 Yamaha Corp 波形データ圧縮方法
WO2006028010A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
JP2008537606A (ja) * 2005-04-01 2008-09-18 クゥアルコム・インコーポレイテッド 高帯域時間軸伸縮を行うシステム、方法、および装置

Similar Documents

Publication Publication Date Title
JP6571827B2 (ja) 加重値関数決定方法
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
US7502734B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in sound signal coding
JP5419714B2 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
US11594236B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
EP2128858B1 (en) Encoding device and encoding method
RU2469421C2 (ru) Векторный квантователь, инверсный векторный квантователь и способы
JP5335004B2 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2087485B1 (en) Multicodebook source -dependent coding and decoding
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
US8112271B2 (en) Audio encoding device and audio encoding method
US20100049508A1 (en) Audio encoding device and audio encoding method
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
WO2011048810A1 (ja) ベクトル量子化装置及びベクトル量子化方法
JP2013055417A (ja) 量子化装置及び量子化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11833995

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11833995

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP