WO2011071335A2 - 음성 신호 부호화 방법 및 장치 - Google Patents

음성 신호 부호화 방법 및 장치 Download PDF

Info

Publication number
WO2011071335A2
WO2011071335A2 PCT/KR2010/008848 KR2010008848W WO2011071335A2 WO 2011071335 A2 WO2011071335 A2 WO 2011071335A2 KR 2010008848 W KR2010008848 W KR 2010008848W WO 2011071335 A2 WO2011071335 A2 WO 2011071335A2
Authority
WO
WIPO (PCT)
Prior art keywords
current frame
vector
codebook
quantized
spectral
Prior art date
Application number
PCT/KR2010/008848
Other languages
English (en)
French (fr)
Other versions
WO2011071335A3 (ko
Inventor
전혜정
김대환
정규혁
이민기
강홍구
이병석
김락용
Original Assignee
엘지전자 주식회사
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사, 연세대학교 산학협력단 filed Critical 엘지전자 주식회사
Priority to CN201080056249.4A priority Critical patent/CN102656629B/zh
Priority to EP10836230.2A priority patent/EP2511904A4/en
Priority to KR1020127017163A priority patent/KR101789632B1/ko
Priority to US13/514,613 priority patent/US9076442B2/en
Publication of WO2011071335A2 publication Critical patent/WO2011071335A2/ko
Publication of WO2011071335A3 publication Critical patent/WO2011071335A3/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/001Interpolation of codebook vectors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Definitions

  • the present invention relates to a speech signal encoding method and apparatus.
  • BACKGROUND ART Linear prediction, adaptive codebook and fixed codebook search techniques are used to increase the compression rate of speech signals.
  • the present invention aims to minimize errors in spectral quantization in speech signal coding.
  • the present invention proposes a speech signal encoding method characterized by extracting candidates usable as optimal spectrum vectors for speech signals according to the first best information.
  • the present invention proposes a speech signal encoding method comprising extracting candidates usable as optimal adaptive codebooks for speech signals according to the second best information.
  • the present invention proposes a speech signal encoding method comprising extracting candidates usable as optimal fixed codebooks for speech signals according to third best information.
  • the speech signal coding method based on the best information is optimal.
  • the optimal coding parameter is determined through a search process combining coding parameters in all cases. In this way, we can find the optimal parameters to minimize the quantization error and improve the sound quality of the synthesized speech signal.
  • FIG. 1 is a block diagram showing a speech coder of an Analysis by Synthesis method.
  • FIG. 2 is a block diagram illustrating a structure of a speech coder of a CELP scheme according to an embodiment to which the present invention is applied.
  • 3 illustrates a process of sequentially obtaining coding parameters required for a speech signal encoding process as an embodiment to which the present invention is applied.
  • 4 illustrates a process of quantizing an input signal using a quantized spectral candidate vector based on first best information according to an embodiment to which the present invention is applied.
  • 5 illustrates a process of obtaining a quantized spectral candidate vector using first best information.
  • FIG. 6 illustrates a process of quantizing an input signal using an adaptive codebook candidate based on second best information as an embodiment to which the present invention is applied.
  • FIG. 7 illustrates a process of quantizing an input signal using a fixed codebook candidate based on third best information according to an embodiment to which the present invention is applied.
  • the speech signal sub-method according to the present invention obtains a linear filter coefficient of a current frame from an input signal using linear prediction, And quantized spectral vector of the current frame corresponding to the current prelinear prediction filter coefficients, and interpolating the quantized spectral vector of the current frame and the quantized spectral vector of the frame.
  • the first best information is characterized in that the number of information of the codebook index extracted in units of frames.
  • the quantized spectral candidate vector converts the linear prediction filter coefficients of the current frame into a spectral vector of the current frame, calculates an error between the spectral vector of the current frame and the codebook of the current frame, wherein the error and It is obtained by extracting the codebook index of the current frame in consideration of the first best information.
  • an error between the spectral vector of the current frame and the codebook is calculated to align the quantized code vector or codebook index in order of decreasing errors.
  • index of the current frame is characterized in that the error between the spectrum vector of the current frame and the codebook is extracted in the order of less error.
  • the quantized code vector corresponding to the codebook index is a quantized emission spectral frequency candidate vector of the current frame.
  • the apparatus for encoding a speech signal according to the present invention is based on a linear prediction analyzer 200 and first best information for obtaining a linear prediction filter coefficient of a current frame from an input signal using linear prediction.
  • a quantization unit 210 for obtaining a quantized spectral candidate vector of the current frame which is based on the linear prediction filter coefficients of the current frame, and interpolating the quantized spectral candidate vector of the current frame and the quantized spectral vector of the previous frame. Characterized in that.
  • the first best information is characterized in that the number of information of the codebook index extracted in units of frames.
  • the quantization unit 210 for obtaining the quantized spectral frequency candidate vector converts the linear prediction filter coefficients of the current frame into a spectral vector of the current frame, and codes the spectral vector of the current frame and the current frame.
  • the quantization unit 210 further includes a quantization unit 210 that calculates an error between the spectral vector of the current frame and the codebook and arranges the quantized code vector or codebook index in the order of the least errors. It features.
  • the codebook index of the current frame is characterized in that the error between the spectral vector of the current frame and the codebook is extracted in order of decreasing.
  • the quantized code vector corresponding to the codebook index is a quantized spectral candidate vector of the current frame.
  • Fig. 1 is a block diagram illustrating a speech coder of an Analysis by Synthesis method.
  • the analysis method based on the synthesis may mean a method of determining an optimal coding parameter of the speech encoder by comparing the synthesized signal through the block diagram of the speech encoder and the original input signal. It does not measure the mean square error in the excitation signal step, but determines the optimal coding parameter by measuring the mean square error in the synthesis step. That is, it can be seen as a closed loop search method.
  • the speech coder of the analysis method based on the synthesis may include an excitation signal generator 100, a long term synthesis filter 110, and a short term synthesis filter 120.
  • the weighting filter 130 may be further included according to the method.
  • the excitation signal generator 100 may obtain a residual signal according to long-term prediction and finally model a component having no correlation as a fixed codebook.
  • an algebraic codebook which is a method of encoding a pulse position of a fixed size in a subframe, may be used, which may vary the data rate according to the number of pulses and save the codebook memory.
  • the long-term synthesis filter 110 plays a role of making long-term correlation, which is physically related to the pitch excitation signal.
  • the long term synthesis filter 110 may be implemented using a delay value (D) and a gain value (g p ) obtained through long term prediction or pitch analysis. For example, the following equation (1).
  • the short segment synthesis filter 120 models short-term correlation in the input signal.
  • the short-term synthesis filter 120 may be implemented using linear prediction filter coefficients obtained through linear prediction. For example, the following equation (2).
  • the linear prediction filter coefficients may be obtained in a process of minimizing an error due to the linear prediction, and may include a covariance method, an autocorrelation method, a lattice filter, a Levinson-Derbin algorithm. Durbin algorithm) and the like can be used.
  • the weight filter 130 may adjust the noise according to the energy level of the input signal. For example, it can add noise to the formant of the input signal and lower the noise on relatively low energy signals.
  • Equation 3 In the synthesis method based on the synthesis, an optimal coding parameter may be obtained by performing a closed loop search to minimize an error between the original input signal ⁇ ( «) and the synthesized signal.
  • the coding parameter may include an index of a fixed codebook, a delay value and a gain value of an adaptive codebook, and a linear prediction filter coefficient.
  • the synthesis method based on the synthesis may be implemented by various coding methods based on a method of modeling an excitation signal.
  • CELP speech coder as a method of modeling the excitation signal will be described.
  • the present invention is not limited thereto, and the same technical idea may be applied to a multi-pulse excitation (MPE), ACELPCAlgebraic CELP, and the like.
  • MPE multi-pulse excitation
  • ACELPCAlgebraic CELP ACELPCAlgebraic CELP
  • FIG. 2 is a block diagram illustrating a structure of a speech coder of a CELP scheme according to an embodiment to which the present invention is applied.
  • the linear prediction analyzer 200 may obtain linear prediction filter coefficients by performing linear prediction analysis on an input signal. Using a linear predictive analysis and short-term forecasting (short-term prediction) is approaching one "law (autocorrelation approach) with that the current state in the time series data have closely related with the past or the future state, CELP (Code ⁇ Excited Linear
  • CELP Code ⁇ Excited Linear
  • the quantization unit 210 may convert the obtained linear prediction filter coefficients into an emission spectrum pair, which is a parameter suitable for quantization, and then quantize and interpolate the quantization unit 210.
  • the interpolated emittance spectral pairs are transformed onto a linear prediction domain, which can be used to calculate the synthesis filter and the weighted filter for each subframe. Quantization will be described with reference to Figs. 4 and 5.
  • the pitch analyzer 220 determines the pitch of the input signal. Compute the interval from the input signal to obtain the delay value and the gain value of the long-term synthesis filter through pitch analysis on the signal to which the psychometric weighting filter 280 is applied.
  • Codebook 230 may be generated.
  • the fixed codebook 240 may model the aperiodic random signal from which the short-term prediction component and the long-term prediction component are removed, and store the random signals in the form of a codebook.
  • the adder 250 multiplies a gain value by each of the periodic sound source signals extracted from the adaptive codebook 230 and the random signals output from the fixed codebook 240 according to the pitch period estimated by the pitch analyzer 220, and then adds them.
  • the synthesis filter 260 may generate a synthesis signal by performing synthesis filtering based on the quantized linear prediction coefficients on the excitation signal output from the adder 250.
  • the error calculator 270 may calculate an error between the input signal that is the original signal and the synthesized signal.
  • the error minimization unit 290 may determine a delay value, a gain value, and a random signal of the red-eye codebook that minimize the error considering the auditory characteristic through the psychometric weighting filter 280.
  • the speech coder analyzes the excitation signal corresponding to the residual signal of the linear prediction analysis by dividing it into an adaptive codebook and a fixed codebook, and may be modeled as in Equation 4 below.
  • Equation 4 g p v ( ⁇ ) + gA n l for n ⁇ Q , ''., N s- ⁇
  • the above excitation signal is the adaptive codebook, v (") and the degenerate codebook gain ⁇ , fixed codebook It may be expressed as ⁇ and a fixed codebook gain value, ⁇ .
  • a weighted input signal may be generated from an input signal through a weighting filter 300.
  • an initial value of the weighted synthesis filter 310 may be generated.
  • the zero input response (ZIR: zero input response) may be removed from the weighted input signal to generate a target signal of the red ox codebook in order to remove the memory influence
  • the weighted synthesis filter 310 may perform the weighted filter 300.
  • a pitch interval is achieved by minimizing the mean square error (MSE) of the weighted synthesis filter 310 zero state response (ZSR) by the target signal of the adaptive codebook and the adaptive codebook 320.
  • MSE mean square error
  • ZSR zero state response
  • the delay value and the gain value of the adaptive codebook can be obtained.
  • the red ox codebook 320 may be made of the long term synthesis filter 120.
  • the long-term synthesis filter may use an optimal delay value and a gain value for minimizing an error between a target signal of the adaptive codebook and a signal passed through the long-term synthesis filter.
  • the optimal delay value can be obtained as shown in Equation 6 below.
  • Equation 6 which maximizes the above Equation 6, is used, and L means the length of one subframe of the decoding end.
  • the gain value of the long-term synthesis filter is obtained by applying the delay value D obtained in Equation 6 to Equation 7.
  • the fixed codebook 330 models the remaining components from which the influence of the adaptive codebook is removed from the excitation signal.
  • the fixed codebook 330 may be searched by a process of minimizing an error between the weighted input signal and the weighted composite signal.
  • the target signal of the fixed codebook may be updated with a signal from which a zero state response (ZSR) of the adaptive codebook 320 is removed from the input signal to which the weighting filter 300 is applied.
  • ZSR zero state response
  • the target signal of the fixed codebook may be expressed as Equation 8 below.
  • c («) is the target signal of the fixed codebook
  • s w ( «) is the weighted filter 300
  • the v ( «) represents a red-eye codebook made using a long-term synthesis filter.
  • the fixed codebook 330 may be searched by minimizing Equation 9 in the process of minimizing an error between the target signal of the fixed codebook and the fixed codebook.
  • Equation (9) H is a lower triangular Toeplitz convolution matrix made of the impulse response of the augmented short-section synthesis filter, «), and the main diagonal components are / ⁇ (0) and lower diagonal components.
  • the molecular term of Equation 9 is It is calculated as 10, where N p is the number of fixed codebooks and is the sign of the / th pulse.
  • Equation 11 "
  • the coding parameter of the speech coder may use a stepwise estimation method for finding an optimal red-eye codebook and then finding a fixed codebook.
  • 4 illustrates a process of quantizing an input signal using a quantized emission spectrum frequency candidate vector based on first best information according to an embodiment to which the present invention is applied.
  • the linear prediction analyzer 200 may obtain linear prediction filter coefficients through linear prediction analysis on the input signal (S400).
  • the linear prediction filter coefficients may be obtained in a process of minimizing an error due to the linear prediction, and may include a covariance method, an autocorrelation method, a lattice filter, a Levinson-Derbin algorithm. Durbin algorithm) can be used as described above.
  • the linear prediction filter coefficients may be obtained in frame units.
  • the quantization unit 210 may obtain a quantized spectral candidate vector based on the linear prediction filter coefficients (S410).
  • the quantized spectral candidate vector may be obtained using first best information, which will be described with reference to FIG. 5.
  • 5 illustrates a process of obtaining a quantized spectral candidate vector using first best information.
  • the quantization unit 210 may convert the linear prediction filter coefficients of the current frame into a current framer random spectral vector (S500).
  • the spectral vector may already be a dominant spectral frequency vector.
  • the present invention is not limited thereto and may be converted into parameters such as a line spectrum frequency and a line spectrum pair.
  • the spectral vector may be divided into several subvectors to find respective codebooks.
  • a multi-stage vector quantizer having several stages may be used, but the present invention is not limited thereto.
  • the transformed spectral vector of the current frame can be used as it is.
  • a technique of quantizing the spectral residual vector of the current frame may be used.
  • the spectral residual vector of the current frame may be generated using the spectral vector of the current frame and the predictive vector of the current frame.
  • the predictive vector of the current frame may be derived from the quantized spectral vector of the previous frame. For example, the spectral residual vector of the current frame may be derived as in Equation 12 below.
  • r (n) means a current random spectral residual vector
  • z (n) is the vector whose mean value is removed from the spectral vector of the current frame
  • P (n) is the predictive vector of the current frame
  • ⁇ ( «- ⁇ ) is the quantized spectrum of the previous frame.
  • the quantization unit 210 may calculate an error between the spectral vector of the current frame and the codebook of the current frame (S520).
  • the codebook of the current frame may mean a codebook used for spectral vector quantization.
  • the codebook of the current frame may consist of a quantized code vector and a codebook index corresponding to the quantized code vector.
  • the quantization unit 210 may calculate an error between the spectral vector of the current frame and the codebook to sort the quantized code vector or codebook index in the order of decreasing errors.
  • the codebook index may be extracted in consideration of the error and the first best information in S520 (S530).
  • the first best information may mean information on the number of codebook indices extracted on a frame basis.
  • the first best information may be a value determined by an encoder.
  • Codebook indices (or quantized codevectors) may be extracted in order of decreasing errors between the spectral vector of the current frame and the codebook according to the first best information.
  • Each quantized spectral candidate vector corresponding to the extracted codebook index may be obtained (S540).
  • the quantized code vector based on the extracted codebook index may be used as the quantized spectral candidate vector of the current frame.
  • the first best information may mean information on the number of quantized spectral candidate vectors obtained on a frame basis.
  • One quantized spectral candidate vector may be obtained according to the first best information, and a plurality of quantized spectral candidate vectors may be obtained.
  • the quantized spectral candidate vector of the current frame obtained in step S410 may be used as a quantized spectral candidate vector for any one of subframes in the current frame.
  • the quantization unit 210 may interpolate the quantized spectral candidate vector (S420). The interpolation may acquire quantized spectral candidate vectors for the remaining subframes in the current frame.
  • the quantized spectral candidate vectors obtained for each subframe in the current frame will be referred to as a quantized spectral candidate vector set.
  • the first best information may mean information on the number of quantized spectral candidate vector sets obtained on a frame basis. Therefore, one or several quantized spectral candidate vector sets may be obtained for the current frame according to the first best information.
  • the quantized spectral candidate vector of the current frame obtained in S410 is quantized for the subframe in which the weight gain of the shadow is located. Can be used as a spectral candidate vector.
  • the quantized spectral candidate vector for the remaining subframes may be obtained through linear interpolation between the quantized spectral candidate vector of the current frame extracted in S410 and the quantized spectral vector of the previous frame.
  • the quantized spectral candidate vector corresponding to each subframe may be generated as shown in Equation 13.
  • denotes a quantized spectral vector corresponding to the last subframe of the previous frame
  • q denotes a quantized spectral candidate vector corresponding to the last subframe of the current frame.
  • the quantization unit 210 may obtain linear prediction filter coefficients for the interpolated quantized spectral candidate vector.
  • the quantized spectral candidate vector shown in Fig. 1 can be transformed onto a linear prediction domain, which can be used to calculate the linear prediction filter and the weighted filter for each subframe.
  • the mental weight filter 280 may generate a weighted input signal from the input signal (S430).
  • the weighted filter may be obtained from Equation 3 using linear prediction filter coefficients obtained from the interpolated quantized spectral candidate vector.
  • the red-eye codebook 230 may obtain an adaptive codebook with respect to the weighted input signal (S440).
  • the red-eye codebook can be obtained with a long-term synthesis filter.
  • the long-term synthesis filter has an optimal delay value and a gain value that minimizes the error between the target signal of the adaptive codebook and the signal passed through the long-term synthesis filter. Can be used.
  • the delay value and the gain value that is, the coding parameters of the adaptive codebook, may be extracted for quantized spectral candidate vectors according to the first best information, respectively.
  • the delay value and the gain value are as described above with reference to Equations 6 and 7.
  • the fixed codebook 240 may search for the fixed codebook with respect to the target signal of the fixed codebook (S450).
  • the target signal and the fixed codebook search process of the fixed codebook have been described with reference to Equations 8 and 9 below.
  • the fixed codebook may be obtained for each of the quantized emission spectrum frequency candidate vector or the quantized emission spectrum frequency candidate vector set according to the first best information.
  • the adder 250 may generate an excitation signal by multiplying and then adding a gain value to each of the adaptive codebook obtained in S450 and the fixed codebook found in S460 (S460). .
  • the synthesis filter 260 may generate a synthesis signal by performing synthesis filtering on the excitation signal output from the adder 250 based on the linear prediction filter coefficients obtained from the interpolated quantized spectral candidate vector. (S470). When a weighted filter is applied to the synthesis filter 260, a weighted synthesis signal may be generated.
  • the error minimizing unit 290 may obtain a coding parameter for minimizing an error between an input signal (or a weighted input signal) and the composite signal (or the weighted composite signal) (S480).
  • the coding parameters may include linear prediction filter coefficients, delay and gain values of the adaptive codebook, and index and gain values of the fixed codebook. For example, a coding parameter for minimizing the error may be obtained using Equation 14 below.
  • Equation 14 denotes a weighted input signal, and ⁇ denotes an incremental synthesized signal according to an i th coding parameter.
  • FIG. 6 illustrates a process of quantizing an input signal using an adaptive codebook candidate based on second best information as an embodiment to which the present invention is applied. Referring to FIG. 6, the linear prediction analyzer 200 predicts linearly the input signal.
  • the linear prediction filter coefficients may be obtained through the analysis period interceptor (S600).
  • the linear prediction filter coefficients may be obtained in a process of minimizing an error due to the linear prediction, covariance method, autocorrelation method, lattice filter, Levinson-dervin algorithm Durbin algorithm) can be used as described above.
  • the linear prediction filter coefficients may be obtained in units of frames.
  • the quantization unit 210 may obtain a quantized emission spectrum frequency vector corresponding to the linear prediction filter coefficients (S610). Hereinafter, a method of obtaining the quantized spectral vector will be described.
  • the quantization unit 210 may convert the linear prediction filter coefficients of the current frame into a current random spectral vector to quantize the linear prediction filter coefficients in the spectral frequency domain.
  • the quantization unit 210 may measure an error between the spectral vector of the current frame and the codebook of the current frame.
  • the codebook of the current frame may mean a codebook used for spectral vector quantization.
  • the codebook of the current frame may consist of a quantized code vector and an index assigned to the quantized code vector.
  • the quantization unit 210 may measure an error between the spectral vector of the current frame and the codebook and sort the quantized code vector or codebook index in the order of decreasing errors, and may store the error.
  • a codebook injection (or quantized codevector) that minimizes an error between the spectral vector of the current frame and the codebook may be extracted.
  • a quantized code vector subtracting the codebook index may be used as the quantized spectral vector of the current frame.
  • the obtained quantized spectral vector of the current frame can be used as a quantized spectral vector for any of the frames in the current frame.
  • the quantization unit 210 may perform the quantized spectral vector (S620).
  • the interpolation has been described with reference to FIG. 4, and thus a detailed description thereof will be omitted.
  • the quantization unit 210 may obtain a linear prediction filter coefficient corresponding to the interpolated quantized spectral vector.
  • the interpolated quantized spectral vector is placed on a linear prediction domain. Can be converted. This can be used to calculate the linear prediction filter and the weighted filter for each subframe.
  • the mental weight filter 280 may generate a weighted input signal from the input signal (S630).
  • the weighted filter may be obtained from Equation 3 using linear prediction filter coefficients obtained from the interpolated quantized spectral vector.
  • the red-eye codebook 230 may obtain an adaptive codebook candidate in consideration of the second best information with respect to the weighted input signal (S640).
  • the second best information may mean information on the number of adaptive codebooks obtained in units of frames.
  • the second best information may mean information on the number of coding parameters of the adaptive codebook obtained in units of frames.
  • the coding parameter of the adaptive codebook may include a delay value and a gain value of the red-eye codebook.
  • the adaptive codebook candidate may mean a red-eye codebook obtained according to the second best information.
  • the red-eye codebook 230 may obtain a delay value and a gain value corresponding to an error between the target signal of the adaptive codebook and the signal passing through the long-term synthesis filter.
  • the delay and gain values may be ordered in the order of least error, which may be stored.
  • the delay value and the gain value may be extracted in order of decreasing errors between the target signal of the adaptive codebook and the signal passing through the long-term synthesis filter according to the second best information.
  • the extracted delay value and gain value may be used as a delay value and a gain value of the red-hero codebook candidate.
  • the long-term synthesis filter candidate may be obtained using the extracted delay value and gain value.
  • the adaptive codebook candidate may be obtained by applying the long-term synthesis filter candidate to an input signal or a weighted input signal.
  • the fixed codebook 240 may search for the fixed codebook with respect to the target signal of the fixed codebook (S650).
  • the target signal and the fixed codebook search process of the fixed codebook have been described with reference to Equations 8 and 9 below.
  • the target signal of the fixed codebook may mean a signal from which the zero state answer of the red-hero codebook candidate is removed from the input signal to which the weighting filter 300 is applied.
  • the fixed codebook may be searched for the red-hero codebook candidates according to the second best information.
  • the adder 250 may generate an excitation signal by multiplying and then adding a gain value to each of the adaptive codebook candidates obtained in S640 and the fixed codebook found in S650 (S660).
  • the synthesis filter 260 may generate a synthesis signal by performing synthesis filtering on the excitation signal output from the adder 250 based on linear prediction filter coefficients obtained from the interpolated quantized spectral vector ( S670). When a weighted filter is applied to the synthesis filter 260, a weighted synthesis signal may be generated.
  • the error minimizing unit 290 may acquire a coding parameter for minimizing an error between an input signal (or a weighted input signal) and the composite signal (or the weighted composite signal) (S680).
  • the coding parameters may include linear prediction filter coefficients, delay and gain values of adaptive codebook candidates, and index and gain values of fixed codebooks. The coding parameter for minimizing the error is as described in Equation 14, and a detailed description thereof will be omitted.
  • FIG. 7 illustrates a process of quantizing an input signal using a fixed codebook candidate based on third best information according to an embodiment to which the present invention is applied.
  • the linear prediction analyzer 200 may obtain linear prediction filter coefficients through linear prediction analysis on a frame basis with respect to the input signal (S700).
  • the linear prediction filter coefficients may be obtained in a process of minimizing an error due to linear prediction.
  • the quantization unit 210 may obtain a quantized spectral vector corresponding to the linear prediction filter coefficients (S710). The method of obtaining the quantized spectral vector is described with reference to FIG. 4, and thus a detailed description thereof will be omitted.
  • the obtained quantized spectral vector of the current frame may be used as a quantized emission spectral frequency vector for any one of the subframes in the current frame.
  • the quantization unit 210 may interpolate the quantized spectral vector (S720).
  • the interpolated quantized spectral frequency vector of the remaining subframes in the current frame may be obtained through the interpolation, and the interpolation method will be omitted in FIG. 4.
  • the quantizer 210 subtracts the interpolated quantized spectral vector.
  • Linear prediction filter coefficients may be obtained.
  • the interpolated quantized emission spectral frequency vector may be converted into a linear prediction domain impression. This can be used to calculate the linear prediction filter and the weighted filter for each subframe.
  • the psychological weighting filter 280 may generate a weighted input signal from the input signal (S730).
  • the weighted filter may be obtained from Equation 3 using linear prediction filter coefficients obtained from the interpolated quantized spectral vector.
  • the adaptive codebook 230 may obtain an adaptive codebook with respect to the weighted input signal (S740).
  • the red-eye codebook can be obtained with a long-term synthesis filter.
  • the long-term synthesis filter may use an optimal delay value and a gain value for minimizing an error between the target signal of the red-eye codebook and the signal passed through the long-range synthesis filter. The method of obtaining the delay value and the gain value is as described above with reference to Equations 6 and 7.
  • the fixed codebook 240 may search for the fixed codebook candidate for the target signal of the fixed codebook based on the third best information (S750).
  • the third best information may refer to information on the number of coding parameters of a fixed codebook extracted on a frame basis.
  • the coding parameter of the fixed codebook may include an index and a gain value of the fixed codebook.
  • the target signal of the fixed codebook is as described in Equation (8).
  • the fixed codebook 330 may calculate an error between the target signal of the fixed codebook and the fixed codebook. An error between the target signal of the fixed codebook and the fixed codebook may be sorted in a small order, and may be stored.
  • the indexes and gain values of the fixed codebook may be sorted and stored in the order of decreasing errors between the target signal of the fixed codebook and the fixed codebook.
  • the index and the gain value of the fixed codebook may be extracted in order of decreasing errors between the target signal of the fixed codebook and the fixed codebook according to the third best information.
  • the extracted index and gain values of the fixed codebook may be used as indexes and gain values of the fixed codebook candidates.
  • the adder 250 fixes the adaptive codebook acquired in S740 and the search found in S750.
  • An excitation signal may be generated by multiplying each of the codebook candidates by a gain and then adding the gains (S760).
  • the synthesis filter 260 may generate a synthesis signal by performing synthesis filtering on the excitation signal output from the adder 250 by linear prediction filter coefficients obtained from the interpolated quantized spectral vector (S770). .
  • a weighted filter When a weighted filter is applied to the synthesis filter 260, a weighted synthesis signal may be generated.
  • the error minimizing unit 290 may acquire a coding parameter for minimizing an error between an input signal (or a weighted input signal) and the composite signal (or the weighted composite signal) (S780).
  • the coding parameters may include linear prediction filter coefficients, delay and gain values of the adaptive codebook, and index and gain values of the fixed codebook candidates.
  • the coding parameter for minimizing the error is as described in Equation 14, and a detailed description thereof will be omitted.
  • the input signal may be quantized by combining the first best information, the second best information, and the third best information.
  • Industrial Applicability The present invention can be used for speech signal encoding.

Abstract

본 발명에 따르면, 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하고, 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대응하는 현재 프레임의 양자화된 스펙트럼 후보 벡터를 획득하며, 상기 현재 프레임의 양자화된 스펙트럼 후보 벡터와 이전 프레임의 양자화된 스펙트럼 벡터를 보간하는 것을 특징으로 한다. 이처럼 기존의 단계별 최적화 기법에 비해 양자화 오차를 최소화하는 최적의 파라미터를 찾을 수 있다.

Description

【명세서】
【발명의 명칭】 음성 신호 부호화 방법 및 장치
【기술분야】 본 발명은 음성 신호 부호화 방법 및 장치에 관한 것이다. 【배경기술】 음성 신호의 압축률을 높이기 위해 선형 예측, 적응 코드북 및 고정 코드북 탐색 기법 등이 이용된다.
【발명의 상세한 설명】 【기술적 과제】 본 발명은 음성 신호 부호화에 있어서, 스펙트럼 양자화의 오차를 최소화 하고자 함에 있다.
【기술적 해결방법】 상기 목적을 달성하기 위하여 본 발명은 제 1 베스트 정보에 따라 음성 신호에 대하여 최적의 스펙트럼 백터로 이용 가능한 후보자를 추출하는 것을 특징으로 하는 음성 신호 부호화 방법을 제시한다. 본 발명은 제 2 베스트 정보에 따라 음성 신호에 대하여 최적의 적응 코드북으로 이용가능한 후보자를 추출하는 것을 특징으로 하는 음성 신호 부호화 방법을 제시한다. 본 발명은 제 3 베스트 정보에 따라 음성 신호에 대하여 최적의 고정 코드북으로 이용가능한 후보자를 추출하는 것을 특징으로 하는 음성 신호 부호화 방법을 제시한다 .
【유리한 효과】 본 발명에 따르면, 베스트 정보에 기초한 음성 신호 부호화 방법은 최적의 코딩 파라미터의 루보자를 주줄한 뒤, 이에 해당하는 모든 경우의 코딩 파라미터 조합한 탐색 과정을 통해 최적의 코딩 파라미터를 결정하는 방식이다. 이처럼 기존의 단계별 최적화 기법에 비해 양자화 오차를 최소화하는 최적의 파라미터를 찾을 수 있으며 합성된 음성 신호의 음질을 향상시킨다. 또한 기존의 다양한 음성 부호화 기술과 상호 연동이 가능하다.
【도면의 간단한 설명】 도 1은 합성에 의한 분석 (Analysis by Synthesis) 방식의 음성 부호화기를 도시한 블록도 이다. 도 2는 본 발명이 적용되는 일실시예로서, CELP 방식의 음성 부호화기의 구조를 도시한 블록도이다. 도 3은 본 발명이 적용되는 일실시예로서, 음성 신호 부호화 과정에 필요한 코딩 파라미터를 순차적으로 구하는 과정을 도시한 것이다. 도 4는 본 발명이 적용되는 일실시예로서, 제 1 베스트 정보에 기초한 양자화된 스펙트럼 후보 백터를 이용하여 입력 신호를 양자화하는 과정올 도시한 것이다. 도 5는 제 1 베스트 정보를 이용하여 양자화된 스펙트럼 후보 백터를 획득하는 과정을 도시한 것이다.
후호예임이 측보화의전 도 6은 본 발명이 적용되는 일실시예로서, 제 2 베스트 정보에 기초한 적응 코드북 후보자를 이용하여 입력 신호를 양자화하는 과정을 도시한 것이다. 도 7은 본 발명이 적용되는 일실시예로서, 제 3 베스트 정보에 기초한 고정 코드북 후보자를 이용하여 입력 신호를 양자화하는 과정올 도시한 것이다.
【발명의 실시를 위한 최선의 형태】 상기와 같은 목적을 달성하기 위하여 본 발명에 따른 음성 신호 부 방법은 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 필터 계수를 획득하고, 제 1 베스트 정보에 기초하여 상기 현재 프레 선형 예측 필터 계수에 대응하는 현재 프레임의 양자화된 스펙트럼 백터를 획득하며, 상기 현재 프레임의 양자화된 스펙트럼 후보 백터와 프레임의 양자화된 스펙트럼 백터를 보간하는 것을 특징으로 한다. 본 발명에 따르면, 상기 제 1 베스트 정보라 함은 프레임 단위로 추출되는 코드북 인덱스의 개수 정보인 것을 특징으로 한다. 본 발명에 따르면, 상기 양자화된 스펙트럼 후보 백터는 상기 현재 프레임의 선형 예측 필터 계수를 현재 프레임의 스펙트럼 백터로 변환하고, 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에러를 계산하며, 상기 에러 및 제 1 베스트 정보를 고려하여 현재 프레임의 코드북 인덱스를 추출함으로써 획득되는 것을 특징으로 한다. 본 발명에 따르면, 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러를 계산하여 에러가 적은 순서대로 양자화된 코드 백터 또는 코드북 인덱스를 정렬하는 것을 특징으로 한다. 본 발명에 따르면, 상기 현재 프레임의 코드북 인덱스는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러가 적은 순서대로 추출되는 것을 특징으로 한다. 본 발명에 따르면, 상기 코드북 인덱스에 대응하는 양자화된 코드 백터가 상기 현재 프레임의 양자화된 이미턴스 스펙트럼 주파수 후보 백터인 것을 특징으로 한다. 상기와 같은 목적을 달성하기 위하여 본 발명에 따른 음성 신호 부호화 장치는 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하는 선형 예측 분석부 (200) 및 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대웅하는 현재 프레임의 양자화된 스펙트럼 후보 백터를 획득하고, 상기 현재 프레임의 양자화된 스펙트럼 후보 백터와 이전 프레임의 양자화된 스펙트럼 백터를 보간하는 양자화부 (210)를 포함하는 것을 특징으로 한다. 본 발명에 따르면, 상기 제 1 베스트 정보라 함은 프레임 단위로 추출되는 코드북 인덱스의 개수 정보인 것을 특징으로 한다. 본 발명에 따르면, 상기 양자화된 스펙트럼 주파수 후보 백터를 획득하는 양자화부 (210)는 상기 현재 프레임의 선형 예측 필터 계수를 현재 프레임의 스펙트럼 백터로 변환하고, 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에러를 측정하고, 상기 에러 및 제 1 베스트 정보를 고려하여 코드북 인덱스를 추출하는 양자화부 (210)를 더 포함하되, 상기 현재 프레임의 코드북은 양자화된 코드 백터와 상기 양자화된 코드 백터에 대응하는 코드북 인덱스로 구성되는 것을 특징으로 한다. 본 발명에 따르면, 상기 양자화부 (210)는 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러를 계산하여 에러가 적은 순서대로 양자화된 코드 백터 또는 코드북 인덱스를 정렬하는 양자화부 (210)를 더 포함하는 것을 특징으로 한다. 본 발명에 따르면, 상기 현재 프레임의 코드북 인덱스는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러가 적은 순서대로 추출되는 것을 특징으로 한다. 본 발명에 따르면, 상기 코드북 인덱스에 대응하는 양자화된 코드 백터가 상기 현재 프레임의 양자화된 스펙트럼 후보 백터인 것을 특징으로 한다.
【발명의 실시를 위한 형태】 도 1은 합성에 의한 분석 (Analysis by Synthesis) 방식의 음성 부호화기를 도시한 블톡도 이다. 상기 합성에 의한 분석 방식이라 함은 상기 음성 부호화기의 블록도를 거쳐 합성된 신호와 원 입력 신호를 비교하여 최적의 음성 부호화기의 코딩 파라미터를 결정하는 방식을 의미할 수 있다. 이는 여기 신호 단계에서 평균 자승 에러 (Mean Square Error)를 측정하지 아니하고, 합성 단계에서 평균 자승 에러 (Mean Square Error)를 측정하여 최적의 코딩 파라미터를 결정할 수 있다. 즉, 폐회로 검색 방식으로 볼 수 있다. 도 1을 참조하면, 상기 합성에 의한 분석 방식의 음성 부호화기는 여기 신호 발생기 (100), 장구간 합성 필터 (110) 및 단구간 합성 필터 (120)를 포함할 수 있다ᅳ 또한, 여기 신호를 모델링하는 방법에 따라 가중 필터 (130)를 더 포함할 수도 있다. 상기 여기 신호 발생기 (100)는 장구간 예측에 따른 잔차 신호를 구하여 최종적으로 상관관계가 없는 성분을 고정 코드북 (fixed codebook)으로 모델링할 수 있다. 이 경우, 서브 프레임 내에서 고정된 크기의 펄스 위치를 부호화하는 방식인 대수 코드북 (algebraic codebook)이 이용될 수 있다, 이는 펄스 개수에 따라 전송률을 달리할 수 있으며, 코드북 메모리를 절약할 수 있다. 상기 장구간 합성 필터 (110)는 장구간 상관 관계 (long-term correlation)를 만드는 역할을 수행하며, 이는 물리 적으로 피치 여 기 신호와 관련된다. 상기 장구간 합성 필터 (110)는 장구간 예측 또는 피치 분석을 통하여 획득되는 지 연값 (D) 및 이득값 (gp)을 이용하여 구현될 수 있다. 예를 들어, 다음 수학식 1과 같다.
[수학식 1 ]
1 _ 1
p^) = i - gpz-D 상기 단구간 합성 필터 (120)는 입 력 신호 내에서 단구간 상관 관계 (short- term correlation)를 모델링 한다. 상기 단구간 합성 필터 (120)는 선형 예측 (linear prediction)을 통하여 획득되는 선형 예측 필터 계수를 이용하여 구현될 수 있다. 예를 들어, 다음 수학식 2와 같다.
[수학식 2]
1 _ 1 _ 1
기 -'
;=1 상기 수학식 2에서 ai는 i번째 선형 예측 필터 계수를, p는 필터 차수를 나타낸다. 상기 선형 예측 필터 계수는 선형 예측에 따른 에 러를 최소화하는 과정에서 획득될 수 있으며, 공분산 방식 (covariance method), 자기 상관 방식 (autocorrelation method), 래티스 필터 (Latice filter), 레빈슨—더빈 알고리즘 (Levinson-Durbin algorithm) 등이 이용될 수 있다. 상기 가중 필터 (130)는 입 력 신호의 에너지 레벨에 따라 노이즈를 조절할 수 있다. 예를 들어, 입 력 신호의 포만트 (formant)에서 잡음을 가중하고 상대적으로 에너지가 낮은 신호에서는 잡음을 낮게 해줄 수 있다. 일반적으로 사용되는 가중 필터는 다음 수학식 3과 같고, ITU-T G.729 코덱의 경우, ^ = 0.94, ^ = 0.6 이 사용된다. [수학식 3]
Figure imgf000008_0001
상기 합성에 의한 분석 방식은 원 입력 신호 ^(«)과 합성 신호 간의 에러를 최소화하는 폐회로 검색을 수행하여 최적의 코딩 파라미터를 획득할 수 있다. 상기 코딩 파라미터는 고정 코드북의 인덱스, 적응 코드북의 지연값 및 이득값, 선형 예측 필터 계수를 포함할 수 있다. 상기 합성에 의한 분석 방식은 여기 신호를 모델링하는 방법에 기초하여 다양한 코딩 방법으로 구현될 수 있다. 이하, 상기 여기 신호를 모델링하는 방법으로 CELP 방식의 음성 부호화기를 예로 들어 살펴보기로 한다. 다만, 이에 한정되지 아니하며, 동일한 기술 사상이 MPE(Multi-Pulse Excitation), ACELPCAlgebraic CELP) 등 방식에도 적용될 수 있다.
도 2는 본 발명이 적용되는 일실시예로서, CELP 방식의 음성 부호화기의 구조를 도시한 블록도이다. 도 2를 참조하면, 선형 예측 분석부 (200)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 필터 계수를 구할 수 있다. 선형 예측 분석 또는 단기 예측 (short-term prediction)은 시계열적 데이터에서 현재 상태가 과거 또는 미래 상태와 밀접한 연관성을 가지고 있음을 이용한 접근1 "법 (autocorrelation approach)을 사용하여, CELP(Code一 Excited Linear Prediction Coding) 모델의 합성 필터의 계수를 결정할 수 있다. 양자화부 (210)는 상기 구해진 선형 예측 필터 계수를 양자화에 적합한 파라미터인 이미턴스 스펙트럼 페어 (Immitance Spectral Pair)로 변환된 후 양자화 및 보간 (interpolation)할 수 있다. 상기 보간된 이미턴스 스펙트럼 페어는 선형 예측 도메인 (Linear Prediction domain)상으로 변환되고, 이는 각각의 서브 프레임에 대한 합성 필터 및 가중 필터를 계산하는데 이용될 수 있다. 선형 예측 계수의 양자화에 대해서는 도 4 및 도 5를 참조하여 설명하기로 한다. 피치 분석부 (220)는 입력 신호의 피치 간격을 계산한다. 상기 입력 신호로부터 심리 가중 필터 (280)가 적용된 신호를 대상으로 피치 분석을 통해 장구간 합성 필터의 지연값 및 이득값을 구하며, 이로부터 적응 코드북 (230)을 생성할 수 있다. 고정 코드북 (240)은 단구간 예측 성분 및 장구간 예측 성분을 제거한 비주기적인 랜덤 신호를 모델링하몌 상기 랜덤 신호들을 코드북의 형태로 저장할 수 있다. 가산부 (250)는 피치 분석부 (220)에서 추정된 피치 주기에 따라 적응 코드북 (230)으로부터 추출된 주기적인 음원 신호와 고정 코드북 (240)으로부터 출력된 랜덤 신호 각각에 이득값을 곱한 후 가산하여 합성 필터 (260)의 여기 신호를 생성할 수 있다. 합성 필터 (260)는 가산부 (250)로부터 출력된 여기 신호에 대해 상기 양자화된 선형 예측 계수에 의한 합성 필터링을 수행하여 합성 신호를 생성할 수 있다. 에러 계산부 (270)는 원본 신호인 입력 신호와 상기 합성 신호 간의 에러를 계산할 수 있다. 에러 최소화부 (290)는 심리 가중 필터 (280)를 통해 상기 청각적인 특성을 고려한 에러를 최소로 하는 적웅 코드북의 지연값, 이득값 및 랜덤 신호를 결정할 수 있다. 도 3은 본 발명이 적용되는 일실시예로서, 음성 신호 부호화 과정에 필요한 코딩 파라미터를 순차적으로 구하는 과정을 도시한 것이다. 음성 부호화기는 선형 예측 분석의 잔차 신호에 해당하는 여기 신호를 모델링하기 위해 이를 적응 코드북 (Adaptive codebook)과 고정 코드북 (Fixed codebook)으로 나누어 분석하며, 다음 수학식 4와 같이 모델링될 수 있다.
[수학식 4] = gp v(^) + gAnl for n二 Q,''.,Ns-\ 상기 여기 신호, 은 적응 코드북, v(")과 적웅 코드북 이득값 ^, 고정 코드북, ^^과 고정 코드북 이득값, ^으로 표현될 수 있다. 도 3을 참조하면, 가중 필터 (300)를 통해 입력 신호로부터 가중 입력 신호를 생성할 수 있다. 먼저 가중 합성 필터 (310)의 초기 메모리 영향을 제거하기 위하여 영 입력 웅답 (ZIR: zero input response)을 상기 가중 입력 신호에서 제거하여 적웅 코드북의 타겟 신호를 생성할 수 있다. 상기 가중 합성 필터 (310)는 상기 가중 필터 (300)를 단구간 합성 필터에 적용하여 만들 수 있다. 예를 들어, ITU-T G.729 코덱에 사용되는 가중 합성 필터는 다음 수학식 5와 같다.
[수학식 5]
Figure imgf000010_0001
다음으로 상기 적응 코드북의 타겟 신호와 적응 코드북 (320)에 의 한 가중 합성 필터 (310) 영 상태 응답 (ZSR : zero state response)의 MSE (mean square error)를 최소화하는 과정에 의해 피치 간격 에 해당하는 적응 코드북의 지 연값과 이득값올 구할 수 있다. 적웅 코드북 (320)은 장구간 합성 필터 (120)로 만들 수 있다. 상기 장구간 합성 필터는 적응 코드북의 타겟 신호와 장구간 합성 필터를 통과한 신호 간의 에 러를 최소화하는 최 적의 지 연값과 이득값을 사용할 수 있다. 예를 들어 , 최 적의 지 연값은 다음 수학식 6과 같이 구할 수 있다.
[수학식 6]
Figure imgf000010_0002
여기서 , 상기 수학식 6을 최 대화하는 k가 사용되고, L은 복호화단의 한 서브 프레임의 길이를 의미 한다. 장구간 합성 필터의 이득값은 상기 수학식 6에서 구해진 지 연값 D를 수학식 7에 적용하여 구해진다.
[수학식 7]
bounded by 0 < gp < 1.2
Figure imgf000010_0003
상기 과정을 통해 최종적으로 적웅 코드북의 이득값 gp , 그리고 피치 간격에 해당하는 D, 그리고 적응 코드북 v(«)이 구해진다. 고정 코드북 (330)은 여기 신호에서 적응 코드북의 영향이 제거된 나머지 성분을 모델링한다. 고정 코드북 (330)은 가중 입력 신호와 가중 합성 신호 간의 에러를 최소화하는 과정에 의해서 탐색될 수 있다. 고정 코드북의 타겟 신호는 가중 필터 (300)가 적용된 입력 신호에서 적응 코드북 (320)의 영 상태 응답 (ZSR : zero state response)을 제거한 신호로 업데이트될 수 있다. 예를 들어, 상기 고정 코드북의 타겟 신호는 다음 수학식 8과 같이 표현될 수 있다. [수학식 8] c(n) = sw(n)-gp\(n) 상기 수학식 8에서 c(«)은 고정 코드북의 타겟 신호를, sw(«) 은 가중 필터 (300)가 적용된 입력 신호를, 은 적응 코드북 (320)의 영 상태 응답을 나타낸다. 상기 v(«)은 장구간 합성 필터를 이용해서 만들어진 적웅 코드북을 나타낸다. 고정 코드북 (330)은 상기 고정 코드북의 타겟 신호와 고정 코드북 간의 에러를 최소화하는 과정에서 다음 수학식 9를 최소화하여 탐색될 수 있다.
[수학식 9]
Figure imgf000011_0001
상기 수학식 9에서 H는 가증 단구간 합성 필터의 임펄스 응답, «)으로 만들어진 하삼각 토플리츠 길쌈 행렬 (lower triangular Toeplitz convolution matrix)이고 주 대각성분은 /ζ(0) , 대각 아래 성분 (lower diagonals)은 /z(l),…,; z(Z-l)이 된다. 상기 수학식 9의 분자항은 다음 수학식 10으로 계산되고, 여 기에서 Np 는 고정 코드북의 개수, 는 / 번째 펄스의 부호 (sign)가 된다.
[수학식 10]
R 二
Figure imgf000012_0001
i=0 그리고, 상기 수학식 9의 분모항은 다음 수학식 11로 계산된다. [수학식 11 ] '
Figure imgf000012_0002
rt=mj
이와 같이 음성 부호화기 의 코딩 파라메터는 최 적의 적웅 코드북을 찾고, 이후에 고정 코드북을 찾는 단계별 추정 방식을 사용할 수 있다. 도 4는 본 발명 이 적용되는 일실시 예로서, 제 1 베스트 정보에 기초한 양자화된 이미 턴스 스펙트럼 주파수 (Immittance Spectral Frequencies) 후보 백터를 이용하여 입 력 신호를 양자화하는 과정을 도시 한 것 이다. 도 4를 참조하면, 선형 예측 분석부 (200)는 입 력 신호에 대해 선형 예측 분석을 통하여 선형 예측 필터 계수를 획득할 수 있다 (S400). 상기 선형 예측 필터 계수는 선형 예측에 따른 에 러를 최소화하는 과정에서 획득될 수 있으며, 공분산 방식 (covariance method), 자기 상관 방식 (autocorrelation method), 래티스 필터 (Latice filter), 레빈슨—더빈 알고리즘 (Levinson- Durbin algorithm) 등이 이용될 수 있음은 앞서 살펴본 바와 같다. 또한, 상기 선형 예측 필터 계수는 프레 임 단위로 획득될 수 있다. 양자화부 (210)는 상기 선형 예측 필터 계수에 대웅하는 양자화된 스펙트럼 후보 백터를 획득할 수 있다 (S410). 상기 양자화된 스펙트럼 후보 백터는 제 1 베스트 정보를 이용하여 획득될 수 있으며, 이는 도 5를 참조하여 살펴보기로 한다. 도 5는 제 1 베스트 정보를 이용하여 양자화된 스펙트럼 후보 백터를 획득하는 과정을 도시 한 것이다. 도 5를 참조하면, 양자화부 (210)는 현재 프레임의 선형 예측 필터 계수를 현재 프레 임의 스펙트럼 백터로 변환할 수 있다 (S500). 상기 스펙트럼 백터는 이미 턴스 스펙트럼 주파수 백터 일 수 있다. 다만 본 발명은 이에 한정되지 아니하며, 선 스펙트럼 주파수 (Line Spectrum Frequency), 선 스펙트럼 페어 (Line Spectrum Pair) 등의 파라미터로 변환될 수도 있다. 상기 현재 프레임의 스펙트럼 백터를 현재 프레임 의 코드북으로 매핑하여 양자화하는 과정에서 상기 스펙트럼 백터를 수 개의 서브 백터로 나누어 이에 해당하는 각각의 코드북을 찾을 수 있다. 또는, 수개의 스테이지를 가지는 멀티 스테 이지 백터 양자화기 (Multi-Stage Vector Quantizer)가 사용될 수도 있으나, 본 발명은 이에 한정되지 아니 한다. 양자화를 위 해 상기 변환된 현재 프레임의 스펙트럼 백터를 그대로 사용할 수 있다. 또는 현재 프레임의 스펙트럼 레지듀얼 백터를 양자화하는 기법 이 사용될 수도 있다. 상기 현재 프레임의 스펙트럼 레지듀얼 백터는 현재 프레임의 스펙트럼 백터와 현재 프레임의 예측 백터를 이용하여 생성될 수 있다. 상기 현재 프레임의 예측 백터는 이 전 프레임의 양자화된 스펙트럼 백터로부터 유도될 수 있다. 예를 들어 , 상기 현재 프레임 의 스펙트럼 레지듀얼 백터는 다음 수학식 12와 같이 유도될 수 있다.
[수학식 12]
r («) = z(n) - p("), where p(«) =― r(n - 1) 상기 수학식 12에서 r(n)은 현재 프레 임의 스펙트럼 레지듀얼 백터를 의미하고, z(n)은 현재 프레임의 스펙트럼 백터 에서 각 차수의 평균값이 제거된 백터를 의미하며, P(n)은 현재 프레임의 예측 백터를 의미하고, ί(« - ΐ)은 이 전 프레임의 양자화된 스펙트럼 백터를 의미 한다. 상기 양자화부 (210)는 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에러를 계산할 수ᅳ있다 (S520). 상기 현재 프레임의 코드북은 스펙트럼 백터 양자화에 이용되는 코드북을 의미할 수 있다. 상기 현재 프레임의 코드북은 양자화된 코드 백터와 상기 양자화된 코드 백터에 대응하는 코드북 인덱스로 구성될 수 있다. 상기 양자화부 (210)는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러를 계산하여 에러가 적은 순서대로 양자화된 코드 백터 또는 코드북 인덱스를 정렬할 수도 있다.
S520에서의 에러 및 제 1 베스트 정보를 고려하여 코드북 인덱스를 추출할 수 있다 (S530). 상기 제 1 베스트 정보라 함은 프레임 단위로 추출되는 코드북 인덱스의 개수 정보를 의미할 수 있다. 상기 제 1 베스트 정보는 인코더에서 기 결정된 값일 수 있다. 상기 제 1 베스트 정보에 따라 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러가 적은 순서대로 코드북 인덱스 (또는 양자화된 코드 백터)가 추출될 수 있다. 상기 추출된 코드북 인텍스에 대응하는 각각의 양자화된 스펙트럼 후보 백터를 획득할 수 있다 (S540). 즉, 상기 추출된 코드북 인덱스에 대웅하는 양자화된 코드 백터가 현재 프레임의 양자화된 스펙트럼 후보 백터로 이용될 수 있다. 따라서, 상기 제 1 베스트 정보는 프레임 단위로 획득되는 양자화된 스펙트럼 후보 백터의 개수 정보를 의미할 수도 있다. 상기 제 1 베스트 정보에 따라 한 개의 양자화된 스펙트럼 후보 백터가 획득될 수 있고, 복수개의 양자화된 스펙트럼 후보 백터가 획득될 수도 있다. 상기 S410에서 획득된 현재 프레임의 양자화된 스펙트럼 후보 백터는 현재 프레임 내의 서브 프레임 중 어느 하나를 위한 양자화된 스펙트럼 후보 백터로 이용될 수 있다. 이 경우, 상기 양자화부 (210)는 상기 양자화된 스펙트럼 후보 백터를 보간할 수 있다 (S420). 상기 보간을 통하여 현재 프레임 내의 나머지 서브 프레임에 대한 양자화된 스펙트럼 후보 백터가 획득될 수 있다. 이하, 상기 현재 프레임 내의 서브 프레임 별로 획득된 양자화된 스펙트럼 후보 백터들을 양자화된 스펙트럼 후보 백터 세트라 부르기로 한다. 이 경우, 상기 제 1 베스트 정보는 프레임 단위로 획득되는 양자화된 스펙트럼 후보 백터 세트의 개수 정보를 의미할 수도 있다. 따라서, 상기 제 1 베스트 정보에 따라 현재 프레임에 대해 한 개 또는 수개의 양자화된 스펙트럼 후보 백터 세트가 획득될 수 있다. 예를 들어, 상기 S410에서 획득된 현재 프레임의 양자화된 스펙트럼 후보 백터는 뷘도우의 무게 증심이 위치하는 서브 프레임에 대한 양자화된 스펙트럼 후보 백터로 이용될 수 있다. 이 경우, 나머지 서브 프레임에 대한 양자화된 스펙트럼 후보 백터는 S410에서 추출된 현재 프레임의 양자화된 스펙트럼 후보 백터와 이전 프레임의 양자화된 스펙트럼 백터 간의 선형 보간을 통해서 획득될 수 있다. 현재 프레임이 4개의 서브 프레임으로 구성되는 경우, 각 서브 프레임에 해당하는 양자화된 스펙트럼 후보 백터는 다음 수학식 13과 같이 생성될 수 있다.
[수학식 13] q[0 .75qe^+0.25qen,
q[1]=0.5(ᅵ .p +0.5q^
q[2]=0.25qe^+0.75q^
ᅳ ^.end 상기 수학식 13에서 ^는 이전 프레임의 마지막 서브 프레임에 해당하는 양자화된 스펙트럼 백터를, q 는 현재 프레임의 마지막 서브 프레임에 해당하는 양자화된 스펙트럼 후보 백터를 의미한다. 상기 양자화부 (210)는 상기 보간된 양자화된 스펙트럼 후보 백터 대웅하는 선형 예측 필터 계수를 획득할 수 있다. 이를 위해 상기 보긴^를에된 양자화된 스펙트럼 후보 백터는 선형 예측 도메인상으로 변환될 수 있 이는 각각의 서브 프레임에 대한 선형 예측 필터 및 가중 필터 계산하는데 이용될 수 있다. 심리 가중 필터 (280)는 입력 신호로부터 가중 입력 신호를 생성할 수 있다 (S430). 상기 가중 필터는 상기 보간된 양자화된 스펙트럼 후보 백터로부터 획득된 선형 예측 필터 계수를 이용하여 상기 수학식 3으로부터 구해질 수 있다. 상기 적웅 코드북 (230)은 상기 가중 입력 신호에 대하여 적응 코드북을 획득할 수 있다 (S440). 상기 적웅 코드북은 장구간 합성 필터로 구해질 수 있다. 상기 장구간 합성 필터는 적응 코드북의 타겟 신호와 장구간 합성 필터를 통과한 신호 간의 에러를 최소화하는 최적의 지연값 및 이득값이 사용될 수 있다. 상기 지 연값 및 이득값 즉, 적응 코드북의 코딩 파라미터는 제 1 베스트 정보에 따른 양자화된 스펙트럼 후보 백터에 대해 각각 추출될 수 있다. 상기 지 연값 및 이득값은 수학식 6 및 수학식 7을 참조하여 살펴본 바와 같다. 또한, 고정 코드북 (240)은 고정 코드북의 타겟 신호에 대하여 고정 코드북을 탐색할 수 있다 (S450). 상기 고정 코드북의 타겟 신호와 고정 코드북 탐색 과정은 수학식 8과 수학식 9를 참조하여 살펴본 바와 같다. 마찬가지로, 상기 고정 코드북은 상기 제 1 베스트 정보에 따른 양자화된 이 미턴스 스펙트럼 주파수 후보 백터 또는 양자화된 이 미 턴스 스펙트럼 주파수 후보 백터 세트에 대해 각각 획득될 수 있다. 가산부 (250)는 S450에서 획득된 적응 코드북 및 S460에서 탐색된 고정 코드북 각각에 이득값을 곱한 후 가산하여 여기 신호를 생성할 수 있다 (S460). . 합성 필터 (260)는 상기 가산부 (250)로부터 출력된 여기 신호에 대해 상기 보간된 양자화된 스펙트럼 후보 백터로부터 획득된 선형 예측 필터 계수에 의 한 합성 필터 링을 수행하여 합성 신호를 생성할 수 있다 (S470). 상기 합성 필터 (260)에 가중 필터가 적용된 경우, 가중 합성 신호가 생성될 수도 있다. 에 러 최소화부 (290)는 입 력 신호 (또는 가중 입 력 신호)와 상기 합성 신호 (또는 상기 가중 합성 신호) 간의 에 러를 최소화하는 코딩 파라미터를 획득할 수 있다 (S480). 상기 코딩 파라미터는 선형 예측 필터 계수, 적응 코드북의 지 연값 및 이득값, 그리고 고정 코드북의 인덱스 및 이득값을 포함할 수 있다. 예를 들어, 상기 에 러를 최소화하는 코딩 파라미 터는 다음 수학식 14를 이용하여 획득될 수 있다.
[수학식 14]
Figure imgf000016_0001
상기 수학식 14에서 은 가중 입 력 신호를 나타내며, 상기 ^ 은 i번째 코딩 파라미 터 에 따른 가증 합성 신호를 나타낸다. 도 6은 본 발명 이 적용되는 일실시 예로서 , 제 2 베스트 정보에 기초한 적응 코드북 후보자를 이용하여 입 력 신호를 양자화하는 과정을 도시한 것 이다. 도 6을 참조하면, 선형 예측 분석부 (200)는 입 력 신호에 대해 선형 예측
서상보여있
분석브기다간기을 통하여 선형 예측 필터 계수를 획득할 수 있다 (S600). 상기 선형 예측 필터 계수는 선형 예측에 따른 에 러를 최소화하는 과정에서 획득될 수 있으며, 공분산 방식 (covariance method), 자기 상관 방식 (autocorrelation method), 래티스 필터 (Latice filter), 레빈슨 -더빈 알고리즘 (Levinson- Durbin algorithm) 등이 이용될 수 있음은 앞서 살펴본 바와 같다. 또한, 상기 선형 예측 필터 계수는 프레임 단위로 획득될 수 있다. 양자화부 (210)는 상기 선형 예측 필터 계수에 대응하는 양자화된 이 미턴스 스펙트럼 주파수 백터를 획득할 수 있다 (S610). 이하, 상기 양자화된 스펙트럼 백터를 획득하는 방법에 대해서 살펴보기로 한다. 상기 양자화부 (210)는 상기 선형 예측 필터 계수를 스펙트럼 주파수 도메인상에서 양자화하기 위하여 현재 프레임의 선형 예측 필터 계수를 현재 프레 임의 스펙트럼 백터로 변환할 수 있다. 이와 관련하여 도 5에서 살펴보았는바, 여기서 자세한 설명은 생략하기로 한다. 상기 양자화부 (210)는 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에 러를 측정할 수 있다. 상기 현재 프레임의 코드북은 스펙트럼 백터 양자화에 이용되는 코드북을 의 미할 수 있다. 상기 현재 프레임의 코드북은 양자화된 코드 백터와 상기 양자화된 코드 백터 에 할당된 인덱스로 구성 될 수 있다. 상기 양자화부 (210)는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에 러를 측정하여 에 러가 적은 순서 대로 양자화된 코드 백터 또는 코드북 인덱스를 정 렬할 수 있고, 이를 저 장할 수도 있다. 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에 러를 최소로 하는 코드북 인젝스 (또는 양자화된 코드 백터 )가 추출될 수 있다. 상기 코드북 인덱스에 대웅하는 양자화된 코드 백터가 현재 프레임의 양자화된 스펙트럼 백터로 이용될 수 있다. 획득된 현재 프레임의 양자화된 스펙트럼 백터는 현재 프레임 내의 프레임 중 어느 하나를 위 한 양자화된 스펙트럼 백터로 이용될 수
. 이 경우, 상기 양자화부 (210)는 상기 양자화된 스펙트럼 백터를 할 수 있다 (S620). 상기 보간에 대해서는 도 4에서 살펴보았는바, 서 자세한 설명은 생략하기로 한다.상기 양자화부 (210)는 상기 보간된 양자화된 스펙트럼 백터에 대응하는 선형 예측 필터 계수를 획득할 수 있다. 이를 위해 상기 보간된 양자화된 스펙트럼 백터는 선형 예측 도메인상으로 변환될 수 있다. 이는 각각의 서브 프레임에 대한 선형 예측 필터 및 가중 필터를 계산하는데 이용될 수 있다. 심리 가중 필터 (280)는 입력 신호로부터 가중 입력 신호를 생성할 수 있다 (S630). 상기 가중 필터는 상기 보간된 양자화된 스펙트럼 백터로부터 획득된 선형 예측 필터 계수를 이용하여 상기 수학식 3으로부터 구해질 수 있다. ᅳ 적웅 코드북 (230)은 상기 가중 입력 신호에 대하여 제 2 베스트 정보를 고려하여 적응 코드북 후보자를 획득할 수 있다 (S640). 상기 제 2 베스트 정보라 함은 프레임 단위로 획득되는 적응 코드북의 개수 정보를 의미할 수 있다. 또는 상기 제 2 베스트 정보라 함은 프레임 단위로 획득되는 적응 코드북의 코딩 파라미터의 개수 정보를 의미할 수도 있다. 상기 적응 코드북의 코딩 파라미터는 적웅 코드북의 지연값 및 이득값을 포함할 수 있다. 상기 적응 코드북 후보자는 상기 제 2 베스트 정보에 따라 획득되는 적웅 코드북을 의미할 수 있다. 먼저, 상기 적웅 코드북 (230)은 적응 코드북의 타겟 신호와 장구간 합성 필터를 통과한 신호 간의 에러에 대응하는 지연값 및 이득값을 획득할 수 있다. 상기 지연값 및 이득값은 상기 에러가 적은 순서대로 정렬될 수 있고, 이는 저장될 수도 있다. 여기서, 상기 제 2 베스트 정보에 따라 상기 적응 코드북의 타겟 신호와 장구간 합성 필터를 통과한 신호 간의 에러가 적은 순서대로 지연값 및 이득값이 추출될 수 있다. 상기 추출된 지연값 및 이득값이 상기 적웅 코드북 후보자의 지연값 및 이득값으로 이용될 수 있다. 상기 추출된 지연값 및 이득값을 이용하여 상기 장구간 합성 필터 후보자를 구할 수 있다. 입력 신호 또는 가중 입력 신호에 상기 장구간 합성 필터 후보자를 적용함으로써 상기 적응 코드북 후보자를 획득할 수 있다. 고정 코드북 (240)은 고정 코드북의 타겟 신호에 대하여 고정 코드북을 탐색할 수 있다 (S650). 상기 고정 코드북의 타겟 신호와 고정 코드북 탐색 과정은 수학식 8과 수학식 9를 참조하여 살펴본 바와 같다. 다만, 상기 고정 코드북의 타겟 신호는 가중 필터 (300)가 적용된 입력 신호에서 적웅 코드북 후보자의 영 상태 웅답을 제거한 신호를 의미할 수 있다. 따라서, 상기 고정 코드북은 상기 제 2 베스트 정보에 따른 적웅 코드북 후보자에 대해 각각 탐색될 수 있다. 가산부 (250)는 S640에서 획득된 적응 코드북 후보자 및 S650에서 탐색된 고정 코드북 각각에 이득값을 곱한 후 가산하여 여기 신호를 생성할 수 있다 (S660). 합성 필터 (260)는 상기 가산부 (250)로부터 출력된 여기 신호에 대해 상기 보간된 양자화된 스펙트럼 백터로부터 획득된 선형 예측 필터 계수에 의 한 합성 필터 링을 수행하여 합성 신호를 생성할 수 있다 (S670). 상기 합성 필터 (260)에 가중 필터가 적용된 경우, 가중 합성 신호가 생성 될 수도 있다. 에 러 최소화부 (290)는 입 력 신호 (또는 가중 입 력 신호)와 상기 합성 신호 (또는 상기 가중 합성 신호) 간의 에 러를 최소화하는 코딩 파라미터를 획득할 수 있다 (S680). 상기 코딩 파라미 터는 선형 예측 필터 계수, 적응 코드북 후보자의 지 연값 및 이득값, 그리고 고정 코드북의 인덱스 및 이득값을 포함할 수 있다. 상기 에 러를 최소화하는 코딩 파라미터는 상기 수학식 14에서 살펴본 바와 같으며, 구체적 인 설명은 생략하기로 한다.
도 7은 본 발명 이 적용되는 일실시 예로서, 제 3 베스트 정보에 기초한 고정 코드북 후보자를 이용하여 입 력 신호를 양자화하는 과정을 도시한 것이다. 도 7을 참조하면, 선형 예측 분석부 (200)는 입 력 신호에 대해 프레임 단위로 선형 예측 분석을 통하여 선형 예측 필터 계수를 획득할 수 있다 (S700). 상기 선형 예측 필터 계수는 선형 예측에 따른 에 러를 최소화하는 과정에서 획득될 수 있다. 양자화부 (210)는 상기 선형 예측 필터 계수에 대응하는 양자화된 스펙트럼 백터를 획득할 수 있다 (S710). 상기 양자화된 스펙트럼 백터를 획득하는 방법은 도 4에서 설명 한 바, 자세한 설명은 생략하기로 한다. 상기 획득된 현재 프레임의 양자화된 스펙트럼 백터는 현재 프레임 내의 서브 프레 임 중 어느 하나를 위 한 양자화된 이미 턴스 스펙트럼 주파수 백터로 이용될 수 있다. 이 경우, 상기 양자화부 (210)는 상기 양자화된 스펙트럼 백터를 보간할 수 있다 (S720). 상기 보간을 통하여 현재 프레임 내의 나머지 서브 프레임에 대한 양자화된 이미턴스 스펙트럼 주파수 백터가 획득될 수 있으며, 상기 보간 방법에 대해서는 도 4에서 설명 한 바, 자세한 설명은 생략하기로 한다. 상기 양자화부 (210)는 상기 보간된 양자화된 스펙트럼 백터에 대웅하는 선형 예측 필터 계수를 획득할 수 있다. 이를 위해 상기 보간된 양자화된 이 미 턴스 스펙트럼 주파수 백터는 선형 예측 도메 인상으로 변환될 수 있다. 이는 각각의 서브 프레임에 대한 선형 예측 필터 및 가중 필터를 계산하는데 이용될 수 있다. 심 리 가중 필터 (280)는 입 력 신호로부터 가중 입 력 신호를 생성할 수 있다 (S730). 상기 가중 필터는 상기 보간된 양자화된 스펙트럼 백터로부터 .획득된 선형 예측 필터 계수를 이용하여 상기 수학식 3으로부터 구해질 수 있다. 적응 코드북 (230)은 상기 가중 입 력 신호에 대하여 적응 코드북을 획득할 수 있다 (S740). 상기 적웅 코드북은 장구간 합성 필터로 구해질 수 있다. 상기 장구간 합성 필터는 적웅 코드북의 타겟 신호와 장구간 합성 필터를 통과한 신호 간의 에 러를 최소화하는 최 적 의 지 연값 및 이득값이 사용될 수 있다. 상기 지 연값 및 이득값을 획득하는 방법은 수학식 6 및 수학식 7을 참조하여 살펴본 바와 같다. 고정 코드북 (240)은 제 3 베스트 정보에 기초하여 고정 코드북의 타겟 신호에 대하여 고정 코드북 후보자를 탐색할 수 있다 (S750). 상기 제 3 베스트 정보라 함은 프레임 단위로 추출되는 고정 코드북의 코딩 파라미터 의 개수 정보를 의미할 수 있다. 상기 고정 코드북의 코딩 파라미터는 고정 코드북의 인덱스 및 이득값을 포함할 수 있다. 상기 고정 코드북의 타겟 신호는 수학식 8에서 살펴본 바와 같다. 상기 고정 코드북 (330)은 상기 고정 코드북의 타겟 신호와 고정 코드북 간의 에 러를 계산할 수 있다. 상기 고정 코드북의 타겟 신호와 고정 코드북 간의 에 러가 적은 순서 대로 정 렬할 수 있고, 이를 저장할 수도 있다. 예를 들어, 상기 고정 코드북의 타겟 신호와 고정 코드북 간의 에 러가 적은 순서 대로 고정 코드북의 인덱스 및 이득값이 정 렬될 수 있고, 저장될 수 있다. 여기서, 상기 제 3 베스트 정보에 따라 상기 고정 코드북의 타겟 신호와 고정 코드북 간의 에 러가 적은 순서 대로 상기 고정 코드북의 인덱스 및 이득값이 추출될 수 있다. 상기 추출된 고정 코드북의 인덱스 및 이득값이 고정 코드북 후보자의 인덱스 및 이득값으로 이용될 수 있다. 가산부 (250)는 S740에서 획득된 적응 코드북 및 S750에서 탐색된 고정 코드북 후보자 각각에 이득값을 곱한 후 가산하여 여기 신호를 생성할 수 있다 (S760). 합성 필터 (260)는 상기 가산부 (250)로부터 출력된 여기 신호에 대해 상기 보간된 양자화된 스펙트럼 백터로부터 획득된 선형 예측 필터 계수에 의한 합성 필터링을 수행하여 합성 신호를 생성할 수 있다 (S770). 상기 합성 필터 (260)에 가중 필터가 적용된 경우, 가중 합성 신호가 생성될 수도 있다. 에러 최소화부 (290)는 입력 신호 (또는 가중 입력 신호)와 상기 합성 신호 (또는 상기 가중 합성 신호) 간의 에러를 최소화하는 코딩 파라미터를 획득할 수 있다 (S780). 상기 코딩 파라미터는 선형 예측 필터 계수, 적응 코드북의 지연값 및 이득값, 그리고 고정 코드북 후보자의 인덱스 및 이득값을 포함할 수 있다. 상기 에러를 최소화하는 코딩 파라미터는 상기 수학식 14에서 살펴본 바와 같으며, 구체적인 설명은 생략하기로 한다. 또한, 앞서 설명한 제 1 베스트 정보, 제 2 베스트 정보 및 제 3 베스트 정보를 조합하여 입력 신호를 양자화할 수도 있다. 【산업상 이용가능성】 본 발명은 음성 신호 부호화에 이용될 수 있다.

Claims

【청구의 범위】
【청구항 11 선형 예측을 이용하여 입 력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하는 단계 ; 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대응하는 현재 프레임의 양자화된 스펙트럼 후보 백터를 획득하는 단계 ; 및 상기 현재 프레임의 양자화된 스펙트럼 후보 백터 와 이 전 프레임의 양자화된 스펙트럼 백터를 보간하는 단계를 포함하되, 상기 제 1 베스트 정보라 함은 프레임 단위로 추출되는 코드북 인덱스의 개수 정보인 것을 특징으로 하는 음성 신호 부호화 방법 .
【청구항 2] 거 1 1항에 있어서, 상기 양자화된 스펙트럼 후보 백터를 획득하는 단계는, 상기 현재 프레 임의 선형 예측 필터 계수를 현재 프레 임 의 스펙트럼 백터로 변환하는 단계 ; 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에 러를 계산하는 단계 ; 및 상기 에 러 및 제 1 베스트 정보를 고려하여 현재 프레임의 코드북 인덱스를 추출하는 단계를 더 포함하되, 상기 현재 프레임의 코드북은 양자화된 코드 백터와 상기 양자화된 코드 백터에 대응하는 코드북 인덱스로 구성되는 것을 특징으로 하는 음성 신호 부호화 방법 .
【청구항 3] 제 2항에 있어서 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러를 계산하여 에러가 적은 순서대로 양자화된 코드 백터 또는 코드북 인덱스를 정렬하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 부호화 방법 .
【청구항 4】 제 3항에 있어서, 상기 현재 프레임의 코드북 인덱스는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러가 적은 순서대로 추출되는 것을 특징으로 하는 음성 신호 부호화 방법ᅳ
【청구항 5] 제 2항에 있어서, 상기 코드북 인덱스에 대응하는 양자화된 코드 백터가 상기 현재 프레임의 양자화된 이미턴스 스펙트럼 주파수 후보 백터인 것을 특징으로 하는 음성 신호 부호화 방법 .
【청구항 6] 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하는 선형 예측 분석부 (200); 및 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대웅하는 현재 프레임의 양자화된 스펙트럼 후보 백터를 획득하고, 상기 현재 프레임의 양자화된 스펙트럼 후보 백터와 이전 프레임의 양자화된 스펙트럼 백터를 보간하는 양자화부 (210)를 포함하되, 상기 제 1 베스트 정보라 함은 프레임 단위로 추출되는 코드북 인덱스의 개수 정보인 것을 특징으로 하는 음성 신호 부호화 장치.
【청구항 7] 제 6항에 있어서, 상기 양자화된 스펙트럼 주파수 후보 백터를 획득하는 양자화부 (210)는, 상기 현재 프레임의 선형 예측 필터 계수를 현재 프레임의 스펙트럼 백터로 변환하고 , 상기 현재 프레임의 스펙트럼 백터와 현재 프레임의 코드북 간의 에러를 측정하고, 상기 에러 및 제 1 베스트 정보를 고려하여 코드북 인덱스를 추출하는 양자화부 (210)를 더 포함하되, 상기 현재 프레임의 코드북은 양자화된 코드 백터와 상기 양자화된 코드 백터에 대응하는 코드북 인덱스로 구성되는 것을 특징으로 하는 음성 신호 부호화 장치 .
【청구항 8] 제 7항에 있어서, 상기 양자화부 (210)는 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러를 계산하여 에러가 적은 순서대로 양자화된 코드 백터 또는 코드북 인덱스를 정렬하는 양자화부 (210)를 더 포함하는 것을 특징으로 하는 음성 신호 부호화 장치 .
【청구항 9】 제 8항에 있어서, 상기 현재 프레임의 코드북 인덱스는 상기 현재 프레임의 스펙트럼 백터와 상기 코드북 간의 에러가 적은 순서대로 추출되는 것을 특징으로 하는 음성 신호 부호화 장치 .
【청구항 10] 제 7항에 있어서, 상기 코드북 인덱스에 대응하는 양자화된 코드 백터가 상기 현재 프레임의 양자화된 스펙트럼 후보 백터인 것을 특징으로 하는 음성 신호 부호화 장치.
PCT/KR2010/008848 2009-12-10 2010-12-10 음성 신호 부호화 방법 및 장치 WO2011071335A2 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201080056249.4A CN102656629B (zh) 2009-12-10 2010-12-10 编码语音信号的方法和设备
EP10836230.2A EP2511904A4 (en) 2009-12-10 2010-12-10 METHOD AND APPARATUS FOR ENCODING A SPEECH SIGNAL
KR1020127017163A KR101789632B1 (ko) 2009-12-10 2010-12-10 음성 신호 부호화 방법 및 장치
US13/514,613 US9076442B2 (en) 2009-12-10 2010-12-10 Method and apparatus for encoding a speech signal

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US28518409P 2009-12-10 2009-12-10
US61/285,184 2009-12-10
US29516510P 2010-01-15 2010-01-15
US61/295,165 2010-01-15
US32188310P 2010-04-08 2010-04-08
US61/321,883 2010-04-08
US34822510P 2010-05-25 2010-05-25
US61/348,225 2010-05-25

Publications (2)

Publication Number Publication Date
WO2011071335A2 true WO2011071335A2 (ko) 2011-06-16
WO2011071335A3 WO2011071335A3 (ko) 2011-11-03

Family

ID=44146063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/008848 WO2011071335A2 (ko) 2009-12-10 2010-12-10 음성 신호 부호화 방법 및 장치

Country Status (5)

Country Link
US (1) US9076442B2 (ko)
EP (1) EP2511904A4 (ko)
KR (1) KR101789632B1 (ko)
CN (1) CN102656629B (ko)
WO (1) WO2011071335A2 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
EP3786949B1 (en) * 2014-05-01 2022-02-16 Nippon Telegraph And Telephone Corporation Coding of a sound signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960015861B1 (ko) * 1993-12-18 1996-11-22 휴우즈 에어크라프트 캄파니 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기
US6108624A (en) 1997-09-10 2000-08-22 Samsung Electronics Co., Ltd. Method for improving performance of a voice coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US7389227B2 (en) * 2000-01-14 2008-06-17 C & S Technology Co., Ltd. High-speed search method for LSP quantizer using split VQ and fixed codebook of G.729 speech encoder
KR20010084468A (ko) * 2000-02-25 2001-09-06 대표이사 서승모 음성 부호화기의 lsp 양자화기를 위한 고속 탐색 방법
US7003454B2 (en) 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
CN1975861B (zh) * 2006-12-15 2011-06-29 清华大学 声码器基音周期参数抗信道误码方法
US8719011B2 (en) 2007-03-02 2014-05-06 Panasonic Corporation Encoding device and encoding method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None
See also references of EP2511904A4

Also Published As

Publication number Publication date
WO2011071335A3 (ko) 2011-11-03
KR101789632B1 (ko) 2017-10-25
EP2511904A2 (en) 2012-10-17
CN102656629B (zh) 2014-11-26
CN102656629A (zh) 2012-09-05
US9076442B2 (en) 2015-07-07
KR20120109539A (ko) 2012-10-08
US20120245930A1 (en) 2012-09-27
EP2511904A4 (en) 2013-08-21

Similar Documents

Publication Publication Date Title
KR100872538B1 (ko) Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치
US8392178B2 (en) Pitch lag vectors for speech encoding
KR100756298B1 (ko) 고속 코드 여기 선형 예측 파라미터 매핑 방법 및 장치
JP4005154B2 (ja) 音声復号化方法及び装置
CA2061803C (en) Speech coding method and system
JP6316398B2 (ja) Celpコーデックにおける励振信号の適応寄与分および固定寄与分の利得を量子化するための装置および方法
KR101849613B1 (ko) 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
JPH0990995A (ja) 音声符号化装置
WO2010079164A1 (en) Speech coding
KR20180021906A (ko) 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
CN112927703A (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
KR20130069546A (ko) 씨이엘피 부호기 및 복호기에 사용하기 위한 가요성 및 스케일러블 조합형 이노베이션 코드북
JPH0341500A (ja) 低遅延低ビツトレート音声コーダ
WO2011071335A2 (ko) 음성 신호 부호화 방법 및 장치
CN101192408A (zh) 选择导谱频率系数矢量量化的方法及装置
WO2000057401A1 (en) Computation and quantization of voiced excitation pulse shapes in linear predictive coding of speech
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
Yen et al. Introducing compact: An oscillator-based approach to toll-quality speech coding at low bit rates
JPH0455899A (ja) 音声信号符号化方式
JP2003195899A (ja) 音声/音響信号の符号化方法及び電子装置
JPH0594200A (ja) コード励振線形予測符号化装置
JP2001100799A (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
JPH0473699A (ja) 音声符号化方式
JPH1097299A (ja) ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080056249.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10836230

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010836230

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010836230

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13514613

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20127017163

Country of ref document: KR

Kind code of ref document: A