KR101997897B1 - Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization - Google Patents
Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization Download PDFInfo
- Publication number
- KR101997897B1 KR101997897B1 KR1020180052804A KR20180052804A KR101997897B1 KR 101997897 B1 KR101997897 B1 KR 101997897B1 KR 1020180052804 A KR1020180052804 A KR 1020180052804A KR 20180052804 A KR20180052804 A KR 20180052804A KR 101997897 B1 KR101997897 B1 KR 101997897B1
- Authority
- KR
- South Korea
- Prior art keywords
- coefficient
- weight function
- frame
- frequency
- lpc
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013139 quantization Methods 0.000 title description 44
- 238000001228 spectrum Methods 0.000 claims description 69
- 230000003595 spectral effect Effects 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 177
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 230000005284 excitation Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000010183 spectrum analysis Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법이 개시된다. 가중치 함수 결정 장치는 입력 신호의 중간 서브 프레임의 선형 예측 계수를 ISF 계수 또는 LSF 계수 중 어느 하나로 변환하고, 변환된 ISF 계수 또는 LSF 계수를 이용하여 ISF 계수 또는 LSF 계수의 중요도와 관련된 가중치 함수를 결정할 수 있다. An apparatus and method for determining a weight function having a low complexity for quantizing a linear prediction coefficient are disclosed. The weight function determining apparatus converts the linear prediction coefficient of the intermediate sub-frame of the input signal into either the ISF coefficient or the LSF coefficient and determines a weighting function related to the importance of the ISF coefficient or LSF coefficient using the transformed ISF coefficient or the LSF coefficient .
Description
본 발명은 선형 예측 계수를 양자화하기 위한 가중치 함수를 결정하는 장치 및 방법에 관한 것으로, 보다 구체적으로는 선형 예측(Linear Predition: LP) 기술에서 선형 예측 계수의 양자화 효율을 향상시키기 위해 저복잡도를 가지는 가중치 함수를 결정하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for determining a weighting function for quantizing a linear prediction coefficient, and more particularly, to an apparatus and a method for determining a weighting function for quantizing a linear prediction coefficient, To an apparatus and method for determining a weight function.
종래에, 음성 신호 및 오디오 신호를 부호화하기 위해 선형예측 부호화가 적용되었다. 선형 예측을 위해 CELP(Code Excited Linear Prediction) 부호화 기술이 사용되었는데, CELP 부호화 기술은 입력 신호에 대한 선형 예측 (Linear Predictive Coding: LPC) 계수 와 여기 신호(Excited Signal)를 필요로 한다. 입력 신호를 부호화할 때, 선형 예측 계수는 양자화될 수 있다. 그러나, 선형 예측 계수를 그 자체로 양자화하는 것은 다이내믹 레인지가 좁고 안정도 확인이 어려운 문제점이 있다.Conventionally, linear predictive coding has been applied to encode a speech signal and an audio signal. For linear prediction, CELP (Code Excited Linear Prediction) coding technique is used. CELP coding technique requires Linear Predictive Coding (LPC) coefficient and excited signal for the input signal. When coding the input signal, the linear prediction coefficients can be quantized. However, quantization of the linear prediction coefficients by themselves has a problem that the dynamic range is narrow and stability is difficult to be confirmed.
또한, 복호화 단계에서 입력 신호를 복원하기 위한 코드북 인덱스를 선택해야 하는 데 모든 선형 예측 계수를 동일한 중요도로 하여 양자화하는 경우 최종 합성된 입력 신호의 품질의 열화가 발생할 수 있다. 즉, 모든 선형 예측 계수는 중요도가 다르므로, 중요한 선형 예측 계수의 에러가 작아야 최종 합성된 입력 신호의 품질이 향상될 수 있으나, 이러한 중요도가 다른 점을 고려하지 않고 동일한 중요도를 적용하여 양자화하면 입력 신호의 품질은 떨어질 수 밖에 없다.In addition, in the decoding step, a codebook index for restoring an input signal must be selected. If all the linear prediction coefficients are quantized with the same importance, the quality of the final synthesized input signal may deteriorate. In other words, since all the linear prediction coefficients have different importance, the quality of the final synthesized input signal can be improved only if the error of the important linear prediction coefficients is small. However, if quantization is performed by applying the same importance, The quality of the signal is inevitable.
따라서, 선형 예측 계수를 효율적으로 양자화하고, 복호화기를 통해 입력 신호를 복원할 때 합성 신호의 품질을 향상시키는 방법이 요구된다. 무엇보다 비슷한 복잡도에서 우수한 코딩 성능을 나타내는 기술이 필요하다.Therefore, there is a need for a method for improving the quality of the composite signal when efficiently quantizing the linear prediction coefficients and restoring the input signal through the decoder. Best of all, there is a need for techniques that demonstrate good coding performance at similar complexity.
선형 예측(Linear Predition: LP) 기술에서 선형 예측 계수의 양자화 효율을 향상시키기 위해 저복잡도를 가지는 가중치 함수를 결정하는 장치 및 방법을 제공하는데 있다.There is provided an apparatus and method for determining a weighting function having a low complexity in order to improve a quantization efficiency of a linear prediction coefficient in a linear prediction (LP) technique.
본 발명의 일실시예에 따른 장치는 입력 신호의 중간 서브 프레임(mid-subframe)의 선형 예측(Linear Predictive Coding: LPC) 계수를 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF) 계수 중 어느 하나로 변환하는 제1 계수 변환부; 상기 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 중간 서브 프레임의 LPC 계수의 중요도와 관련된 가중치 함수를 결정하는 가중치 함수 결정부; 및 상기 결정된 가중치 함수를 이용하여 상기 변환된 ISF 계수 또는 LSF 계수를 양자화하는 양자화부; 및 상기 양자화된 ISF 계수 또는 LSF 계수를 양자화된 LPC 계수로 변환하는 제2 계수 변환부를 포함할 수 있다.The apparatus according to an embodiment of the present invention may further include a linear predictive coding (LPC) coefficient of a mid-subframe of an input signal with a Line Spectral Frequency (LSF) coefficient or an emittance spectrum frequency Immitance Spectral Frequency (ISF) coefficients; A weight function determining unit for determining a weight function related to the importance of LPC coefficients of the intermediate subframe using the transformed ISF coefficient or LSF coefficient; And a quantizer for quantizing the transformed ISF coefficient or the LSF coefficient using the determined weight function; And a second coefficient conversion unit for converting the quantized ISF coefficient or the LSF coefficient into a quantized LPC coefficient.
본 발명의 일실시예에 따른 장치의 가중치 함수 결정부는 상기 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 보간된 스펙트럼 크기(interpolated spectrum magnitude)를 이용하여 상기 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다.The weight function determining unit of the apparatus according to an embodiment of the present invention may calculate the ISF coefficient or the LSF coefficient using the interpolated spectrum magnitude corresponding to the frequency of the ISF coefficient or the LSF coefficient transformed from the LPC coefficient. The weight function can be determined.
본 발명의 일실시예에 따른 장치의 가중치 함수 결정부는 상기 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 LPC 스펙트럼 크기를 이용하여 상기 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다.The weight function determining unit of the apparatus according to an embodiment of the present invention may determine the weight function for the ISF coefficient or the LSF coefficient using the LPC spectrum size corresponding to the frequency of the ISF coefficient or the LSF coefficient transformed from the LPC coefficient .
본 발명의 일실시예에 따른 방법은 입력 신호의 중간 서브 프레임(mid-subframe)의 선형 예측(Linear Predictive Coding: LPC) 계수를 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF) 계수 중 어느 하나로 변환하는 단계; 상기 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 중간 서브 프레임의 LPC 계수의 중요도와 관련된 가중치 함수를 결정하는 단계; 및 상기 결정된 가중치 함수를 이용하여 상기 변환된 ISF 계수 또는 LSF 계수를 양자화하는 단계; 및 상기 양자화된 ISF 계수 또는 LSF 계수를 양자화된 LPC 계수로 변환하는 단계를 포함할 수 있다.A method according to an embodiment of the present invention may include calculating a linear predictive coding (LPC) coefficient of a mid-subframe of an input signal using a Line Spectral Frequency (LSF) coefficient or an emittance spectrum frequency Immitance Spectral Frequency (ISF) coefficients; Determining a weight function related to the importance of the LPC coefficients of the intermediate subframe using the transformed ISF coefficient or the LSF coefficient; And quantizing the transformed ISF coefficient or LSF coefficient using the determined weight function; And converting the quantized ISF coefficient or LSF coefficient into a quantized LPC coefficient.
본 발명의 일실시예에 따른 방법에서 가중치 함수를 결정하는 단계는 상기 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 보간된 스펙트럼 크기(interpolated spectrum magnitude)를 이용하여 상기 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다.In the method according to an embodiment of the present invention, the step of determining the weight function may comprise calculating an ISF coefficient or an LSF value using an interpolated spectrum magnitude corresponding to a frequency of the transformed ISF coefficient or the LSF coefficient from the LPC coefficient. The weight function for the coefficient can be determined.
본 발명의 일실시예에 따른 방법에서 가중치 함수를 결정하는 단계는 상기 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 LPC 스펙트럼 크기를 이용하여 상기 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다.In the method according to an embodiment of the present invention, the weighting function for the ISF coefficient or the LSF coefficient may be determined by using an LPC spectrum size corresponding to the frequency of the ISF coefficient or the LSF coefficient transformed from the LPC coefficient. You can decide.
본 발명의 일실시예에 따르면, 선형 예측 계수를 ISF 계수 또는 LSF 계수로 변환하여 양자화함으로써 선형 예측 계수의 양자화 효율을 향상시킬 수 있다.According to an embodiment of the present invention, quantization efficiency of linear prediction coefficients can be improved by converting linear prediction coefficients into ISF coefficients or LSF coefficients and quantizing them.
본 발명의 일실시예에 따르면, 선형 예측 계수의 중요도와 관련된 가중치 함수를 결정함으로써 선형 예측 계수의 중요도에 따른 합성 신호의 품질을 향상시킬 수 있다.According to an embodiment of the present invention, quality of a composite signal according to importance of a linear prediction coefficient can be improved by determining a weight function related to importance of a linear prediction coefficient.
본 발명의 일실시예에 따르면, 중간 서브 프레임의 LPC 계수를 양자화하기 위해 현재 프레임의 LPC 계수를 양자화하기 위한 가중치 함수와 이전 프레임의 LPC 계수를 양자화하기 위한 가중치 함수를 보간함으로써, 입력 신호의 품질을 향상시킬 수 있다. According to an embodiment of the present invention, by interpolating a weight function for quantizing an LPC coefficient of a current frame and a weight function for quantizing an LPC coefficient of a previous frame to quantize an LPC coefficient of an intermediate sub-frame, Can be improved.
본 발명의 일실시예에 따르면, ISF 또는 LSF가 실제로 입력 신호의 스펙트럼 포락선에 영향을 미치는 것을 나타내는 크기별 가중치 함수뿐만 아니라, 주파수 도메인에서의 지각적인 특성과 포만트의 분포를 고려한 주파수별 가중치 함수를 조합함으로써, 선형 예측 계수의 양자화 효율을 향상시킬 수 있고 선형 예측 계수에 대한 가중치 값이 정확하게 도출될 수 있다.According to an embodiment of the present invention, not only a size weight function indicating that the ISF or the LSF actually affects the spectral envelope of the input signal, but also a frequency weight function considering the perceptual characteristics and the distribution of the formants in the frequency domain The quantization efficiency of the linear prediction coefficient can be improved and the weight value for the linear prediction coefficient can be accurately derived.
도 1은 본 발명의 일실시예에 따른 오디오 신호 부호화 장치의 전체 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 도 1의 LPC 계수 양자화부의 세부 구성을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 LPC 계수를 양자화하는 과정을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따라 도 2의 가중치 함수 결정부가 가중치 함수를 결정하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 부호화 모드, 입력 신호의 대역폭 정보를 이용하여 가중치 함수를 결정하는 과정을 도시한 도면이다.
도 6은 본 발명의 일실시예에 따라 LPC 계수를 변환한 ISF를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따라 부호화 모드에 따른 가중치 함수를 도시한 도면이다.
도 8은 본 발명의 다른 일실시예에 따라 도 2의 가중치 함수 결정부가 가중치 함수를 결정하는 과정을 도시한 도면이다.
도 9는 본 발명의 일실시예에 따라 중간 서브 프레임의 LPC 부호화 방식을 설명하기 위한 도면이다.FIG. 1 is a diagram illustrating an overall configuration of an audio signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.
FIG. 2 is a diagram illustrating a detailed configuration of the LPC coefficient quantization unit of FIG. 1 according to an embodiment of the present invention.
3 is a diagram illustrating a process of quantizing an LPC coefficient according to an embodiment of the present invention.
FIG. 4 illustrates a process of determining a weight function according to an exemplary embodiment of the present invention. Referring to FIG.
5 is a diagram illustrating a process of determining a weight function using an encoding mode and an input signal bandwidth information according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating an ISF obtained by transforming an LPC coefficient according to an embodiment of the present invention. Referring to FIG.
7 is a diagram illustrating a weight function according to an encoding mode according to an embodiment of the present invention.
FIG. 8 is a diagram illustrating a process of determining a weight function according to another embodiment of the present invention.
FIG. 9 is a diagram for explaining an LPC coding method of an intermediate subframe according to an embodiment of the present invention. Referring to FIG.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited to or limited by the embodiments. Like reference symbols in the drawings denote like elements.
도 1은 본 발명의 일실시예에 따른 오디오 신호 부호화 장치의 전체 구성을 도시한 도면이다.FIG. 1 is a diagram illustrating an overall configuration of an audio signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.
도 1을 참고하면, 본 발명의 일실시예에 따른 오디오 신호 부호화 장치(100)는 전처리부(101), 스펙트럼 분석부(102), LPC 계수 추출 및 오픈 루프 피치 분석부(103), 부호화모드 선택부(104), LPC 계수 양자화부(105), 부호화부(106), 에러 복원부(107) 및 비트스트림 생성부(108)를 포함할 수 있다. 이 때, 오디오 신호 부호화 장치(100)는 스피치(speech) 신호에도 적용될 수 있다.1, an apparatus for encoding an audio signal according to an exemplary embodiment of the present invention includes a
전처리부(101)는 입력 신호를 전처리(pre-prcoessing)할 수 있다. 이를 통해, 입력 신호는 부호화를 위한 준비가 완료된다. 구체적으로, 전처리부(101)는 하이패스 필터(high pass filtering), 프리엠퍼시스(pre-amphasis) 및 샘플링(sampling) 변환 과정을 통해 입력 신호를 전처리할 수 있다.The preprocessing
스펙트럼 분석부(102)는 시간-주파수 맵핑(Time-to-Frequency) 과정을 통해 입력 신호에 대한 주파수 도메인의 특성을 분석할 수 있다. 그리고, 스펙트럼 분석부(102)는 음성 활동도 탐색(Voice Activity Detection) 과정을 통해 입력 신호가 활성 신호(active signal)인지 또는 묵음인지 결정할 수 있다. 또한, 스펙트럼 분석부(102)는 입력 신호에서 배경 잡음을 제거할 수 있다.The
LPC 계수 추출 및 개루프 피치 분석부(103)는 입력 신호의 선형 예측(Linear Prediction) 분석을 통해 선형 예측 계수(LPC 계수)를 추출할 수 있다. 일반적으로 프레임당 1회의 선형 예측 분석이 실행되나, 추가적인 음질 향상을 위해 두 번 이상의 선형 예측 분석이 실행될 수 있다. 이 경우에 한번은 기존의 선형 예측 분석인 프레임 엔드(Frame-end)을 위한 선형 예측이며, 나머지는 음질 향상을 위한 중간 서브 프레임(Mid-subframe)을 위한 선형 예측이 추가된다. 이 때, 현재 프레임의 프레임 엔드는 현재 프레임을 구성하는 서브 프레임 중 마지막 서브 프레임을 의미하고, 이전 프레임의 프레임 엔드는 이전 프레임을 구성하는 서브 프레임 중 마지막 서브 프레임을 의미한다.The LPC coefficient extraction and open-loop
여기서 중간 서브 프레임(mid-subframe)은 이전 프레임의 프레임 엔드(frame-end)인 마지막 서브 프레임과 현재 프레임의 프레임 엔드(rame-end)인 마지막 서브 프레임 사이에 존재하는 서브 프레임 중 하나 이상의 서브 프레임을 의미한다. 그러므로, LPC 계수 추출 및 개루프 피치 분석부(103)는 총 2 set이상의 LPC 계수를 추출할 수 있다.Herein, the mid-subframe includes at least one subframe among the subframes existing between the last subframe that is the frame-end of the previous frame and the last subframe that is the frame end (rame-end) of the current frame, . Therefore, the LPC coefficient extraction and open-loop
그리고, LPC 계수 추출 및 오픈 루프 피치 분석부(103)는 오픈 루프(open-loop)을 통하여 입력 신호의 피치(pitch)를 분석할 수 있다. 이 때, 분석된 피치 정보는 적응적인 코드북(adaptive codebook) 탐색에 사용된다.The LPC coefficient extraction and open-
부호화모드 선택부(104)는 피치 정보, 주파수 도메인의 분석정보 등을 이용하여 입력 신호의 부호화 모드(coding mode)를 선택할 수 있다. 일례로, 입력 신호는 generic mode, voiced mode, unvoiced mode, 또는 transition mode로 분류된 부호화 모드에 따라 부호화 될 수 있다.The encoding
LPC 계수 양자화부(105)는 LPC 계수 추출 및 오픈 루프 피치 분석부(103)에서 추출된 LPC 계수를 양자화할 수 있다. LPC 계수 양자화부(105)에 대해서는 도 2 내지 도 9를 통해 구체적으로 설명하기로 한다.The LPC
부호화부(106)는 선택된 부호화 모드에 따라 LPC 계수의 여기(excitation) 신호를 부호화 한다. LPC 계수의 Ecitation 신호를 부호화하기 위한 대표적인 파라미터는 adaptive codebook index, adaptive codebook gain, fixed codebook index, fixed codebook gain 등이 있다. 이 때, 부호화부(106)는 LPC 계수의 여기 신호를 서브 프레임의 단위로 부호화할 수 있다.The
에러 복원부(107)는 입력 신호의 프레임에서 에러가 발생했을 때, 프레임을 복원하거나 은닉하여 전체적인 음질 향상을 위한 부가 정보(side information)를 추출할 수 있다.When an error occurs in a frame of an input signal, the
비트스트림 생성부(108)는 부호화된 신호를 비트스트림으로 생성할 수 있다. 이 때, 비트스트림은 저장이나 전송의 목적으로 사용될 수 있다.The
도 2는 본 발명의 일실시예에 따른 도 1의 LPC 계수 양자화부의 세부 구성을 도시한 도면이다.FIG. 2 is a diagram illustrating a detailed configuration of the LPC coefficient quantization unit of FIG. 1 according to an embodiment of the present invention.
도 2를 참고하면, 2 단계의 양자화 과정이 수행된다. 첫번째 단계는 LPC 계수 양자화부(200)가 현재 프레임 또는 이전 프레임의 엔드(Frame-end)을 위한 선형 예측에 관한 것이고, 두번째 단계는 LPC 계수 양자화부(202)가 음질 향상을 위해 중간 서브 프레임(Mid-subframe)을 위한 선형 예측을 수행하는 것이다.Referring to FIG. 2, a two-step quantization process is performed. The first step relates to the linear prediction for the current frame or the frame-end of the previous frame and the second step relates to the LPC
현재 프레임 또는 이전 프레임의 프레임 엔드에 대한 LPC 계수 양자화부(200)는 제1 계수 변환부(202), 가중치 함수 결정부(203), 양자화부(204) 및 제2 계수 변환부(205)를 포함할 수 있다.The LPC
제1 계수 변환부(202)는 입력 신호의 현재 프레임 또는 이전 프레임의 프레임 엔드를 선형 예측 분석하여 추출된 선형 예측(LPC) 계수를 변환할 수 있다. 일례로, 제1 계수 변환부(202)는 현재 프레임 또는 이전 프레임의 프레임 엔드에 대한 LPC 계수를 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF) 계수 중 어느 하나의 포맷으로 변환할 수 있다. 이 때, ISF 계수나 LSF 계수는 LPC 계수를 보다 용이하게 양자화할 수 있는 포맷을 나타낸다.The first
가중치 함수 결정부(203)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 현재 프레임의 프레임 엔드 및 이전 프레임의 프레임 엔드에 대한 LPC 계수의 중요도와 관련된 가중치 함수를 결정할 수 있다. 일례로, 가중치 함수 결정부(203)는 크기별 가중치 함수와 주파수별 가중치 함수를 결정할 수 있다. 그리고, 가중치 함수 결정부(203)는 주파수 대역, 부호화 모드 및 스펙트럼 분석 정보 중 적어도 하나를 고려하여 가중치 함수를 결정할 수 있다. The weight
일례로, 가중치 함수 결정부(203)는 부호화 모드 별로 최적의 가중치 함수를 도출할 수 있다. 그리고, 가중치 함수 결정부(203)는 입력 신호의 주파수 대역에 따라 최적의 가중치 함수를 도출할 수 있다. 또한, 가중치 함수 결정부(203)는 입력 신호의 주파수 분석 정보에 따라 최적의 가중치 함수를 도출할 수 있다. 이 때, 주파수 분석 정보는 스펙트럼 틸트 정보를 포함할 수 있다.For example, the weight
그러면, 가중치 함수 결정부(203)를 통해 도출된 현재 프레임의 프레임 엔드의 LPC 계수를 양자화하기 위한 가중치 함수 및 이전 프레임의 프레임 엔드의 LPC 계수를 양자화하기 위한 가중치 함수는 중간 서브 프레임의 LPC 계수를 양자화하기 위한 가중치 함수를 결정하기 위해 가중치 함수 결정부(207)로 전달된다.The weight function for quantizing the LPC coefficients of the frame end of the current frame derived through the weight
가중치 함수 결정부(203)의 동작은 도 4 및 도 8에서 보다 구체적으로 설명된다.The operation of the weighting
양자화부(204)는 현재 프레임의 프레임 엔드 또는 이전 프레임의 프레임 엔드의 LPC 계수가 변환된 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 이용하여 변환된 ISF 계수 또는 LSF 계수를 양자화할 수 있다. 양자화 결과, 현재 프레임 또는 이전 프레임의 프레임 엔드에 대한 양자화된 ISF 계수 또는 LSF 계수의 인덱스가 도출될 수 있다.The
그리고, 제2 계수 변환부(205)는 양자화된 ISF 계수(QISF) 또는 양자화된 LSF 계수(QLSF)를 양자화된 LPC 계수(QLPC)로 변환할 수 있다. 제2 계수 변환부(205)를 통해 도출된 양자화된 LPC 계수는 단순한 스펙트럼 정보를 나타내는 것이 아니라, 반영 계수(reflection coefficient)를 나타내므로 고정된 가중치 값이 사용될 수 있다.The second
도 2를 참고하면, 중간 서브 프레임에 대한 LPC 계수 양자화부(201)는 제1 계수 변환부(206), 가중치 함수 결정부(207), 양자화부(208) 및 제2 계수 변환부(209)를 포함할 수 있다.2, the LPC
제1 계수 변환부(206)는 중간 서브 프레임의 LPC 계수를 ISF 계수 또는 LSF 계수 중 어느 하나로 변환할 수 있다.The
가중치 함수 결정부(207)는 변환된 ISF 계수 또는 LSF 계수를 이용하여 중간 서브 프레임의 LPC 계수의 중요도와 관련된 가중치 함수를 결정할 수 있다.The weight
일례로, 가중치 함수 결정부(207)는 현재 프레임의 파라미터와 이전 프레임의 파라미터를 보간(interpolation)하여 상기 중간 서브 프레임의 선형 예측 계수를 양자화하기 위한 가중치 함수를 결정할 수 있다. 구체적으로, 가중치 함수 결정부(207)는 이전 프레임의 프레임 엔드(Frame-End)의 LPC 계수를 양자화하기 위한 제1 가중치 함수와 현재 프레임의 프레임 엔드의 LPC 계수를 양자화하기 위한 제2 가중치 함수를 보간하여 중간 서브 프레임의 LPC 계수를 양자화하기 위한 가중치 함수를 결정할 수 있다.For example, the weight
이 때, 가중치 함수 결정부(207)는 선형 보간(linear-interpolation) 및 비선형 보간 (non-linear interpolation)중 적어도 하나를 이용하여 보간을 수행할 수 있다. 구체적으로, 가중치 함수 결정부(207)는 (1) 선형 보간 및 비선형 보간을 모든 차수의 벡터에 적용하는 방식, (2) 서브 벡터마다 선형 보간과 비선형 보간을 달리 적용하는 방식, (3) 각각의 LPC 계수에 따라 선형 보간과 비선형 보간을 달리 적용하는 방식 중 어느 하나를 수행할 수 있다.At this time, the weight
그리고, 가중치 함수 결정부(207)는 현재 프레임의 프레임 엔드에 대한 제1 가중치 함수와 이전 프레임의 프레임 엔드에 대한 제2 가중치 함수 전체를 이용하여 보간할 수도 있지만, 가중치 함수를 도출하는 수식을 분석하여 일부의 구성 요소(component)를 이용하여 보간할 수도 있다. 예를 들어, 가중치 함수 결정부(207)는 크기별 가중치 함수를 결정하는 데 사용되는 스펙트럼 정보를 보간을 통해 구할 수 있다.The weighting
일례로, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 보간된 스펙트럼 크기(interpolated spectrum magnitude)를 이용하여 상기 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다. 이 때, 보간된 스펙트럼 크기는 현재 프레임의 프레임 엔드의 스펙트럼 크기와 이전 프레임의 프레임 엔드의 스펙트럼 크기가 보간된 결과인 것을 의미한다. For example, the weight
구체적으로, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수와 주변 주파수에 대응하는 스펙트럼 크기를 이용하여 중간 서브 프레임의 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수와 주변 주파수에 대응하는 스펙트럼 크기의 최대값, 평균값 또는 중간값을 이용하여 가중치 함수를 결정할 수 있다.Specifically, the weight
보간된 스펙트럼 크기(interpolated spectrum magnitude)를 이용하여 가중치 함수를 결정하는 과정에 대해서는 도 5에서 구체적으로 설명하기로 한다.The process of determining the weight function using the interpolated spectrum magnitude will be described in detail with reference to FIG.
다른 일례로, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 LPC 스펙트럼 크기를 이용하여 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다. 이 때, LPC 스펙트럼 크기는 중간 서브 프레임의 LPC 계수를 주파수 변환한 LPC 스펙트럼에 기초하여 결정될 수 있다. 구체적으로, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수와 주변 주파수에 대응하는 스펙트럼 크기를 이용하여 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(207)는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수와 주변 주파수에 대응하는 스펙트럼 크기의 최대값, 평균값 또는 중간값을 이용하여 가중치 함수를 결정할 수 있다.In another example, the weight
LPC 스펙트럼 크기를 이용하여 중간 서브 프레임에 대한 가중치 함수를 결정하는 과정은 도 8에서 구체적으로 설명하기로 한다.The process of determining the weight function for the intermediate sub-frame using the LPC spectrum size will be described in detail with reference to FIG.
그리고, 가중치 함수 결정부(207)는 중간 서브 프레임의 주파수 대역, 부호화 모드 정보 또는 주파수 분석 정보 중 적어도 하나에 기초하여 가중치 함수를 결정할 수 있다. 이 때, 주파수 분석 정보는 스펙트럼 틸트 정보를 포함할 수 있다.The weight
또한, 가중치 함수 결정부(207)는 LPC 스펙트럼 크기 또는 보간된 스펙트럼 크기(interpolated spectrum magnitude) 중 적어도 하나에 기초하여 결정된 크기별 가중치 함수와 주파수별 가중치 함수를 조합하여 최종적인 가중치 함수를 결정할 수 있다. 이 때, 주파수별 가중치 함수는 중간 서브 프레임의 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 대응하는 가중치 함수이고, 바크 스케일(bark scale)로 표현될 수 있다.In addition, the weight
양자화부(208)는 중간 서브 프레임의 LPC 계수가 변환된 ISF 계수 또는 LSF 계수에 대한 가중치 함수를 이용하여 변환된 ISF 계수 또는 LSF 계수를 양자화할 수 있다. 양자화 결과, 중간 서브 프레임에 대한 양자화된 ISF 계수 또는 LSF 계수의 인덱스가 도출될 수 있다.The
그리고, 제2 계수 변환부(209)는 양자화된 ISF 계수(QISF) 또는 양자화된 LSF 계수(QLSF)를 양자화된 LPC 계수(QLPC)로 변환할 수 있다. 제2 계수 변환부(205)를 통해 도출된 양자화된 LPC 계수는 단순한 스펙트럼 정보를 나타내는 것이 아니라, 반영 계수(reflection coefficient)를 나타내므로 고정된 가중치 값이 사용될 수 있다.The second
이하에서는, LPC 계수와 가중치 함수와의 관계를 구체적으로 설명하기로 한다.Hereinafter, the relationship between the LPC coefficient and the weight function will be described in detail.
음성(speech) 및 오디오 신호를 시간 도메인에서 부호화할 때 사용가능한 기술 중 하나로 선형 예측(LPC)아 있다. 선형 예측 기술은 단구간 예측(short-term prediction)을 의미한다. 이 때, 선형 예측의 결과는 시간 도메인에서는 인접한 샘플 간의 상관도(correlation)로 나타내고, 주파수 도메인에서는 스펙트럼 포락선으로 나타낸다.Linear prediction (LPC) is one of the technologies available for encoding speech and audio signals in the time domain. The linear prediction technique refers to short-term prediction. In this case, the result of the linear prediction is represented by a correlation between adjacent samples in the time domain, and is represented by a spectrum envelope in the frequency domain.
선형 예측 기술을 응용한 부호화 기술로 CELP(Code Excited linear Prediction) 기술이 있다. CELP 기술을 사용하는 음성 부호화 기술은 G.729, AMR, AMR-WB, EVRC 등이 있다. CELP 기술을 이용하여 음성 및 오디오 신호를 부호화하기 위해 LPC 계수와 여기 신호(Excitation Signal)이 필요하다. There is CELP (Code Excited Linear Prediction) technology as a coding technique applying linear prediction technology. Speech coding techniques using CELP technology include G.729, AMR, AMR-WB, and EVRC. LPC coefficients and excitation signals are required to encode speech and audio signals using CELP technology.
LPC 계수는 인접한 샘플 간의 상관도를 나타내며 스펙트럼 피크로 표현된다. 만약, LPC 계수의 차수가 16차인 경우, 최대 16개의 샘플 간의 상관도가 도출된다. LPC 계수의 차수는 입력 신호의 대역폭에 따라 결정되며, 보통 음성 신호의 특성에 따라 결정된다. 이 때, 음성 신호의 주요한 발성은 포먼트(formant)의 크기 및 위치에 따라 결정된다. 입력 신호의 포먼트를 표현하기 위해 협대역(NarrowBand: NB)인 300~3400Hz 구간의 입력 신호에 대해서는 10차의 LPC 계수가 사용될 수 있다. 그리고, 광대역(WideBand: WB)인 50~7000Hz 구간의 입력 신호에 대해서는 16~20차의 LPC 계수가 사용될 수 있다.The LPC coefficients represent the correlation between adjacent samples and are expressed as spectral peaks. If the order of the LPC coefficients is 16th order, a correlation between a maximum of 16 samples is derived. The order of the LPC coefficients is determined by the bandwidth of the input signal and is usually determined by the characteristics of the speech signal. At this time, the main speech of the speech signal is determined by the size and position of the formant. In order to express the formants of the input signal, a 10th order LPC coefficient can be used for an input signal of a narrowband (NB) range of 300 to 3400 Hz. For an input signal in a wideband (WB) range of 50 to 7000 Hz, 16 to 20th order LPC coefficients can be used.
하기 수학식 1은 합성 필터(H(z))를 나타내는 것으로, aj는 LPC 계수를 의미하고, p는 LPC 계수의 차수를 의미한다.The following equation (1) represents a synthesis filter (H (z)), where aj denotes an LPC coefficient, and p denotes a degree of an LPC coefficient.
하기 수학식 2는 복호화기에서 합성된 합성 신호를 의미한다.Equation (2) denotes a synthesized signal synthesized by a decoder.
이 때, 는 합성 신호를 의미하고, 는 여기 신호를 의미한다. 그리고, N은 동일한 계수를 이용하는 부호화 프레임의 크기를 의미한다. 이 때, 여기 신호는 adaptive codebook과 fixed codebook의 합으로 결정될 수 있다. 복호화 장치에서는 복호화된 여기신호와 양자화된 LPC 계수를 이용하여 합성신호를 만든다.At this time, Quot; means a synthesized signal, Means an excitation signal. And N denotes the size of an encoded frame using the same coefficient. At this time, the excitation signal can be determined by the sum of the adaptive codebook and the fixed codebook. The decoding apparatus generates a synthesized signal using the decoded excitation signal and the quantized LPC coefficient.
LPC 계수는 스펙트럼 피크(spectrum peak)로 나타나는 스펙트럼의 포먼트 정보를 표현하여 전체 스펙트럼의 포락선(envelope)을 부호화하는 데 사용될 수 있다. 이 때, 부호화 장치는 LPC 계수의 양자화 효율을 높이기 위해 LPC 계수를 ISF 또는 LSF로 변환할 수 있다. ISF는 간단한 안정도 확인을 통해 양자화에 의한 발산을 방지할 수 있다. 만약, 안정도에 문제가 발생하는 경우, 양자화된 ISF의 간격을 조절함으로써 안정도의 문제가 해결될 수 있다. 그리고, LSF는 ISF와 달리 마지막 계수가 반영 계수(reflection coeffiecient)인 점에서 차이가 있을 뿐 나머지 특성은 동일하다. 여기서, ISF 또는 LSF는 LPC 계수로부터 변환된 계수이므로, LPC 계수의 스펙트럼의 포만트 정보를 동일하게 유지하고 있다. The LPC coefficients can be used to encode the envelope of the entire spectrum by expressing the formant information of the spectrum appearing as a spectrum peak. At this time, the encoding apparatus can convert the LPC coefficient to ISF or LSF in order to increase the quantization efficiency of the LPC coefficient. ISF can prevent divergence by quantization through simple stability check. If there is a problem with stability, the problem of stability can be solved by adjusting the spacing of the quantized ISFs. And, unlike ISF, LSF differs from ISF in that the last coefficient is reflection coeffiecient, and the remaining characteristics are the same. Here, since ISF or LSF is a coefficient transformed from the LPC coefficient, the formant information of the spectrum of the LPC coefficient is kept the same.
구체적으로, LPC 계수의 양자화는 LPC 계수를 다이내믹 레인지(dynamic range)가 좁으며, 안정도(stability) 확인이 쉽고 보간(interpolation)에 유리한 ISP나 LSP로 변환한 후 수행될 수 있다. immittance spectral pair (ISP)나 line spectral pair (LSP)는 ISF나 LSF로 표현될 수 있다. 하기 수학식 3은 ISF와 ISP와의 관계 또는 LSF와 LSP와의 관계를 의미한다.Specifically, the quantization of the LPC coefficients can be performed after converting the LPC coefficients into ISPs or LSPs having a narrow dynamic range, easy stability confirmation, and advantageous for interpolation. Immittance spectral pair (ISP) or line spectral pair (LSP) can be expressed as ISF or LSF. Equation (3) represents the relationship between the ISF and the ISP or the relationship between the LSF and the LSP.
여기서 qi는 LSP 또는 ISP이며, ωi는 LSF 또는 ISF를 의미한다. LSF는 양자화 효율을 위해 벡터 양자화될 수 있다. 효육을 향상하기 위해, LSF는 예측 벡터 양자화될 수 있다. 벡터 양자화를 수행하는 경우, dimension이 높아지면 비트 효율이 향상되나, 코드북 크기가 커져 처리 속도가 줄어들 수 있다. 이를 위해, 멀티 스테이지 벡터 양자화(multi-stage Vector Quantization)를 하거나 스플릿 벡터 양자화(split Vector Quantizaton)를 통해 코드북의 크기가 감소할 수 있다. Where qi is the LSP or ISP and ωi is the LSF or ISF. LSF can be vector quantized for quantization efficiency. In order to improve the yield, the LSF can be predicted vector quantized. When vector quantization is performed, the higher the dimension, the better the bit efficiency, but the larger the codebook size, the lower the processing speed. For this purpose, the size of the codebook may be reduced through multi-stage vector quantization or split vector quantization.
벡터 양자화는 벡터 내의 엔트리(entry)들 모두 동일한 중요도라고 간주하여 squared error distance measure를 이용하여 가장 적은 에러를 갖는 코드북 인덱스를 선택하는 과정을 의미한다. 그러나, LPC 계수에 있어, 모든 계수의 중요도가 다르므로 중요한 계수의 에러를 감소시켜 최종 합성된 신호의 지각적인 품질(perceptual quality)이 향상될 수 있다. 따라서, LSF 계수를 양자화 할 때 복호화 장치는 각 LPC 계수의 중요도를 표현하는 가중치 함수(weighting function)를 squared error distance measure에 적용하여 최적의 코드북 인덱스를 선택함으로써, 합성 신호의 성능을 향상시킬 수 있다.The vector quantization means that all the entries in the vector are considered to have the same importance, and the codebook index having the least error is selected using the squared error distance measure. However, since the importance of all the coefficients is different in the LPC coefficients, the error of important coefficients can be reduced and the perceptual quality of the final synthesized signal can be improved. Therefore, when quantizing the LSF coefficient, the decoding apparatus can improve the performance of the synthesized signal by selecting an optimum codebook index by applying a weighting function representing the importance of each LPC coefficient to the squared error distance measure .
본 발명의 일실시예에 따르면, ISF나 LSF의 주파수 정보와 실제 스펙트럼 크기를 이용하여 각 ISF 또는 LSF가 실제로 스펙트럼 포락선에 어떠한 영향을 주는지에 대한 크기별 가중치 함수를 결정할 수 있다. 그리고, 본 발명의 일실시예에 따르면, 주파수 도메인의 지각적인 특성 및 포만트의 분포를 고려한 주파수별 가중치 함수를 크기별 가중치 함수와 조합하여 추가적인 양자화 효율을 얻을 수 있다. 또한, 본 발명의 일실시예에 따르면, 실제 주파수 도메인의 크기를 사용하므로, 전체 주파수의 포락선 정보가 잘 반영되고, 각 ISF 또는 LSF 계수의 가중치 값을 정확하게 도출할 수 있다.According to an embodiment of the present invention, the weighting function of each ISF or LSF actually affects the spectrum envelope using the frequency information and the actual spectrum size of the ISF or the LSF can be determined. According to an embodiment of the present invention, additional quantization efficiency can be obtained by combining frequency-specific weight functions that take into account perceptual characteristics of the frequency domain and distribution of formants with a weight function of each size. Also, according to the embodiment of the present invention, since the actual frequency domain size is used, the envelope information of the entire frequency is well reflected, and the weight value of each ISF or LSF coefficient can be derived accurately.
결국, 본 발명의 일실시예에 따르면, LPC 계수를 변환한 ISF 또는 LSF를 벡터 양자화할 때 각 계수의 중요도가 다른 경우 벡터 내에서 어떠한 엔트리가 상대적으로 더 중요한지 여부를 나타내는 가중치 함수를 결정할 수 있다. 그리고, 부호화하려는 프레임의 스펙트럼을 분석하여 에너지가 큰 부분에 더 많은 가중치를 줄 수 있는 가중치 함수를 결정함으로써 부호화의 정확도를 향상시킬 수있다. 스펙트럼의 에너지가 크다는 것은 시간 도메인에서 상관도가 높다는 것을 의미한다.As a result, according to an embodiment of the present invention, when vector quantizing the ISF or LSF transforming the LPC coefficients, it is possible to determine a weight function indicating whether any entries in the vector are relatively more important when the importance of each coefficient is different . By analyzing the spectrum of a frame to be encoded and determining a weighting function capable of giving more weight to a portion having a large energy, the accuracy of encoding can be improved. The large energy of the spectrum means that the correlation is high in the time domain.
도 3은 본 발명의 일실시예에 따른 LPC 계수를 양자화하는 과정을 도시한 도면이다.3 is a diagram illustrating a process of quantizing an LPC coefficient according to an embodiment of the present invention.
도 3을 참고하면, 2가지 형태의 LPC 계수를 양자화하는 과정이 도시된다. 도 3의 <A>는 입력 신호의 변동성이 큰 경우에 적용되고, 도 3의 <B>는 입력 신호의 변동성이 작은 경우에 적용될 수 있다. 입력 신호의 특성에 따라 도 3의 <A>와 <B>는 스위칭되어 적용될 수 있다. 그리고, 도 3의 <C>는 중간 서브 프레임의 LPC 계수를 양자화하는 과정을 나타낸다.Referring to FIG. 3, a process of quantizing two types of LPC coefficients is shown. ≪ A > in Fig. 3 is applied when the variability of the input signal is large, and < B > in Fig. 3 can be applied when the variability of the input signal is small. The < A > and < B > in Fig. 3 can be switched and applied depending on the characteristics of the input signal. ≪ C > in Fig. 3 represents a process of quantizing the LPC coefficients of the intermediate subframe.
LPC 계수 양자화부(301)는 SQ (Scalar Quantization), VQ(Vector Quantization), SVQ(Split-Vector Quantization), MSVQ(Multi-stage Vector Quantization)를 통해 ISF를 양자화할 수 있다. LSF도 동일하게 적용될 수 있다.The LPC
예측부(302)는 AR(Auto Regressive) 예측이나 MA(Moving Average) 예측을 수행할 수 있다. 이 때, 예측 차수는 1이상의 정수를 의미한다.The predicting
하기 수학식 4는 도 3의 <A>를 통해 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수를 의미한다. 그리고, 하기 수학식 5는 도 3의 <B>를 통해 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수를 의미한다. 코드북 인덱스는 에러 함수를 최소화하는 값을 의미한다.Equation (4) represents an error function for searching a codebook index through quantized ISF through < A > in FIG. Equation (5) represents an error function for searching a codebook index through the quantized ISF through < B > in FIG. The codebook index means a value minimizing the error function.
또한, 하기 수학식 6은 도 3의 <C>에서 ITU-T G.718에서 사용되는 중간 서브프레임의 양자화를 통해 도출된 에러 함수를 의미한다. 수학식 6을 참고하면, 현재 프레임의 프레임 엔드에 대해 양자화된 ISF값()과 이전 프레임의 프레임 엔드에 대해 양자화된 ISF값()을 이용하여 중간 서브 프레임의 양자화 결과에 대한 에러를 최소화하는 interpolation weight set의 인덱스가 도출될 수 있다. Equation (6) denotes an error function derived through quantization of intermediate subframes used in ITU-T G.718 in < C > in FIG. Referring to Equation (6), the quantized ISF value for the frame end of the current frame ) And a quantized ISF value for the frame end of the previous frame ( ) Can be used to derive an index of the interpolation weight set that minimizes the error for the quantization result of the intermediate subframe.
여기서, w(n)는 가중치 함수를 의미하고, z(n)은 도 3에서 ISF(n)에서 mean 값을 제거한 벡터이다. c(n)은 코드북을 나타낸다. p는 ISF 계수의 차수를 의미하며 NB(NarrowBand)에서는 보통 10, WB(WideBand)에서는 보통 16~20을 사용한다. Here, w (n) denotes a weight function, and z (n) is a vector obtained by removing the mean value from ISF (n) in FIG. c (n) denotes a codebook. p is the order of the ISF coefficients, and is usually 10 for NB (NarrowBand) and 16 ~ 20 for WB (WideBand).
본 발명의 일실시예에 따르면, 부호화 장치는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 해당하는 스펙트럼 크기(Spectrum magnitude)를 이용한 크기별 가중치 함수와 입력 신호의 지각적인 특성 및 포먼트 분포를 고려한 주파수별 가중치 함수를 조합하여 최적의 가중치 함수를 결정할 수 있다. According to one embodiment of the present invention, the encoding apparatus calculates a weight function by size using a spectrum magnitude corresponding to the frequency of an ISF coefficient or an LSF coefficient transformed from an LPC coefficient, a perceptual characteristic and a formant distribution of an input signal The optimum weight function can be determined by combining the frequency-dependent weighting functions considered.
도 4는 본 발명의 일실시예에 따라 도 2의 가중치 함수 결정부가 가중치 함수를 결정하는 과정을 도시한 도면이다.FIG. 4 illustrates a process of determining a weight function according to an exemplary embodiment of the present invention. Referring to FIG.
도 4를 참고하면, 스펙트럼 분석부(102)의 세부 구성이 도시된다. 스펙트럼 분석부(102)는 보간부(401) 및 크기 계산부(402)를 포함할 수 있다.Referring to FIG. 4, the detailed configuration of the
보간부(401)는 스펙트럼 분석부(102)의 수행 결과인 현재 프레임의 프레임 엔드에 대한 스펙트럼 크기와 이전 프레임의 프레임 엔드에 대한 스펙트럼 크기를 보간하여 중간 서브 프레임의 보간된 스펙트럼 크기를 도출할 수 있다. 이 때, 중간 서브 프레임의 보간된 스펙트럼 크기는 선형 보간 또는 비선형 보간을 통해 도출될 수 있다.The
크기 계산부(402)는 중간 서브 프레임의 보간된 스펙트럼 크기를 이용하여 주파수 스펙트럼 빈(bin)의 크기를 계산할 수 있다. 주파수 스펙트럼 빈의 개수는 가중치 함수 결정부(207)가 ISF 계수 또는 LSF 계수를 정규화하기 위해 설정한 범위에 대응하는 주파수 스펙트럼 빈의 개수와 동일하게 결정될 수 있다. 그러면, 크기 계산부(402)를 통해 도출된 스펙트럼 분석 정보인 주파수 스펙트럼 빈의 크기는 가중치 함수 결정부(207)가 크기별 가중치 함수를 결정할 때 활용될 수 있다.The
이 후, 가중치 함수 결정부(207)는 중간 서브 프레임의 LPC 계수가 변환된 ISF 또는 LSF를 정규화할 수 있다. 본 과정에서 ISF 계수의 마지막 계수는 반영 계수(reflection coefficient)이므로 동일한 weight가 적용될 수 있다. LSF는 이러한 방식이 적용되지 않는다. p차수의 ISF 중에서 실제로 본 과정이 적용되는 범위는 0~(p-2)까지 이다. 보통 0~(p-2)까지의 ISF는 0~π에 존재한다. 가중치 함수 결정부(207)는 스펙트럼 분석 정보를 이용하기 위해서 크기 계산부(402)를 통해 도출된 주파수 스펙트럼 빈의 개수와 동일한 개수(K)로 정규화를 수행할 수 있다.Thereafter, the weight
그런 후, 가중치 함수 결정부(207)는 크기 계산부(402)를 통해 전달된 스펙트럼 분석 정보를 이용하여 중간 서브 프레임에 대해 ISF 계수 또는 LSF 계수가 스펙트럼 포락선에 영향을 미치는 크기별 가중치 함수(W1(n))를 결정할 수 있다. 일례로, 가중치 함수 결정부(207)는 ISF 계수 또는 LSF 계수의 주파수 정보와 입력 신호의 실제 스펙트럼 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다. 이 때, 크기별 가중치 함수는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수를 위해 결정될 수 있다. 그리고, 가중치 함수 결정부(207)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 주파수 스펙트럼 빈의 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다.Then, using the spectrum analysis information transmitted through the
또는, 가중치 함수 결정부(207)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 스펙트럼 빈의 주변에 위치한 적어도 하나의 주변 스펙트럼 빈의 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(207)는 스펙트럼 빈 및 적어도 하나의 주변 스펙트럼 빈의 대표값을 추출하여 스펙트럼 포락선과 관련된 크기별 가중치 함수를 결정할 수 있다. 이 때, 대표값의 예는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 상기 스펙트럼 빈에 대한 적어도 하나의 주변 스펙트럼 빈들의 최대값, 평균값 또는 중간값일 수 있다.Alternatively, the weight
일례로, 가중치 함수 결정부(207)는 ISF 계수 또는 LSF 계수의 주파수 정보를 이용하여 주파수별 가중치 함수(W2(n))를 결정할 수 있다. 구체적으로, 가중치 함수 결정부(207)는 입력 신호의 지각적인 특성 및 포먼트 분포를 이용하여 주파수별 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(207)는 바크 스케일(bark scale)에 따라 입력 신호의 지각적인 특성을 추출할 수 있다. 그리고, 가중치 함수 결정부(207)는 포먼트의 분포 중 첫번째 포먼트에 기초하여 주파수별 가중치 함수를 결정할 수 있다.For example, the weight
일례로, 주파수별 가중치 함수의 경우, 초저주파 및 고주파에서 상대적으로 낮은 가중치를 나타내고, 저주파에서 일정 주파수 구간 내(first formant에 해당하는 구간)에서 동일한 크기의 가중치를 나타낼 수 있다. 그런 후, 가중치 함수 결정부(207)는 크기별 가중치 함수와 주파수별 가중치 함수를 조합하여 최종적인 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(207)는 크기별 가중치 함수와 주파수별 가중치 함수를 곱하거나 또는 더하여 최종적인 가중치 함수를 결정할 수 있다.For example, a frequency weighting function may represent a relatively low weight at a very low frequency and a high frequency, and may represent a weight at a low frequency at a certain frequency interval (a section corresponding to a first formant). Then, the weight
또 다른 일례로, 가중치 함수 결정부(207)는 입력 신호의 부호화 모드 및 주파수 대역 정보를 고려하여 크기별 가중치 함수와 주파수별 가중치 함수를 결정할 수 있다. 이에 대해서는 도 5에서 구체적으로 설명하기로 한다.As another example, the weight
도 5는 본 발명의 일실시예에 따른 부호화 모드, 입력 신호의 대역폭 정보를 이용하여 가중치 함수를 결정하는 과정을 도시한 도면이다.5 is a diagram illustrating a process of determining a weight function using an encoding mode and an input signal bandwidth information according to an embodiment of the present invention.
가중치 함수 결정부(207)는 입력 신호의 대역폭를 확인할 수 있다(S501). 그러면, 가중치 함수 결정부(207)는 입력 신호의 대역폭이 광대역(WideBand: WB)에 속하는지 여부를 판단할 수 있다(S502). 이 때, 입력 신호의 대역폭이 광대역이 아닌 경우, 가중치 함수 결정부(270)는 입력 신호의 대역폭이 협대역(NarrowBand: NB)에 속하는 지 여부를 판단할 수 있다. 만약, 입력 신호의 대역폭이 협대역에 속하지 않는 경우, 가중치 함수 결정부(207)는 가중치 함수를 결정하지 않는다. 그리고, 입력 신호의 대역폭이 협대역에 속하는 경우, 가중치 함수 결정부(207)는 단계(S503)에서 단계(S510)까지의 과정을 통해 대역폭에 기초하여 해당 서브 블록(중간 서브 프레임)을 처리할 수 있다.The weight
그리고, 입력 신호의 대역폭이 광대역인 경우, 가중치 함수 결정부(207)는 입력 신호의 부호화 모드를 확인할 수 있다(S503). 그런 다음, 가중치 함수 결정부(207)는 입력 신호의 부호화 모드가 무성음 모드(Unvoiced)인지 여부를 판단할 수 있다(S504). 입력 신호의 부호화 모드가 무성음 모드인 경우, 가중치 함수 결정부(207)는 무성음 모드에 대해 크기별 가중치 함수를 결정하고(S505), 무성음 모드에 대해 주파수별 가중치 함수를 결정하여(S506), 크기별 가중치 함수와 주파수별 가중치 함수를 조합할 수 있다(S507).When the bandwidth of the input signal is wide, the weight
반대로, 입력 신호의 부호화 모드가 무성음 모드가 아닌 경우, 가중치 함수 결정부(207)는 유성음 모드에 대해 크기별 가중치 함수를 결정하고(S508), 유성음 모드에 대해 주파수별 가중치 함수를 결정하여(S509), 크기별 가중치 함수와 주파수별 가중치 함수를 조합할 수 있다(S510). 만약, 입력 신호의 부호화 모드가 Generic Mode 또는 Transition Mode인 경우, 가중치 함수 결정부(207)는 유성음 모드와 동일한 과정을 통해 가중치 함수를 결정할 수 있다.On the contrary, when the coding mode of the input signal is not the unvoiced sound mode, the weighting
일례로, 입력 신호를 FFT 방식에 따라 주파수 변환하였을 때, FFT 계수의 스펙트럼 크기를 이용한 크기별 가중치 함수는 수학식 7에 따라 결정될 수 있다.For example, when the input signal is frequency-converted according to the FFT method, the weight function according to the size using the spectrum size of the FFT coefficient may be determined according to Equation (7).
도 6은 본 발명의 일실시예에 따라 LPC 계수를 변환한 ISF를 도시한 도면이다.FIG. 6 is a diagram illustrating an ISF obtained by transforming an LPC coefficient according to an embodiment of the present invention. Referring to FIG.
구체적으로, 도 6은 입력 신호를 FFT를 통해 주파수 도메인으로 변환했을 때의 스펙트럼 결과, 그리고 스펙트럼에서 도출된 LPC 계수 및 LPC 계수를 변환한 ISF를 도시하고 있다. 입력 신호에 FFT를 적용한 결과가 256개의 샘플인 경우, 16차 선형 예측을 수행하면 16개의 LPC 계수가 도출되고, 16개의 LPC 계수는 16개의 ISF 계수로 변환될 수 있다.Specifically, FIG. 6 shows a spectrum result obtained when the input signal is converted into the frequency domain through the FFT, and the ISF obtained by converting the LPC coefficient and the LPC coefficient derived from the spectrum. When the result of applying the FFT to the input signal is 256 samples, 16 LPC coefficients can be derived and 16 LPC coefficients can be converted into 16 ISF coefficients by performing the 16th-order linear prediction.
도 7은 본 발명의 일실시예에 따라 부호화 모드에 따른 가중치 함수를 도시한 도면이다.7 is a diagram illustrating a weight function according to an encoding mode according to an embodiment of the present invention.
구체적으로, 도 7은 도 5에서 부호화 모드에 따라 결정된 주파수별 가중치 함수를 나타낸다. 그래프(701)는 유성음 모드에서의 주파수별 가중치 함수를 나타낸다. 그리고, 그래프(702)는 무성음 모드에서의 주파수별 가중치 함수를 나타낸다. 일례로, 그래프(701)는 하기 수학식 8에 따라 결정되고, 그래프(702)는 하기 수학식 9에 따라 결정될 수 있다. 수학식 8 및 수학식 9에서의 상수는 입력 신호의 특성에 따라 변경될 수 있다.Specifically, FIG. 7 shows a frequency-specific weight function determined according to the encoding mode in FIG. The
크기별 가중치 함수와 주파수별 가중치 함수를 조합하여 최종적으로 도출되는 가중치 함수는 하기 수학식 10에 따라 결정될 수 있다.The weight function finally obtained by combining the weighting function for each size and the frequency-based weighting function can be determined according to Equation (10).
도 8은 본 발명의 다른 일실시예에 따라 도 2의 가중치 함수 결정부가 가중치 함수를 결정하는 과정을 도시한 도면이다.FIG. 8 is a diagram illustrating a process of determining a weight function according to another embodiment of the present invention.
도 8을 참고하면, 스펙트럼 분석부(102)의 세부 구성이 도시된다. 스펙트럼 분석부(102)는 주파수 맵핑부(401) 및 크기 계산부(402)를 포함할 수 있다.Referring to FIG. 8, the detailed configuration of the
주파수 맵핑부(401)는 중간 서브 프레임의 LPC 계수를 주파수 도메인 신호로 매핑시킬 수 있다. 일례로, 주파수 맵핑부(401)는 중간 서브 프레임의 LPC 계수를 FFT(Fast Fourier Transform), 또는 MDCT(Modified Discrete Cosine Transform) 등을 통해 주파수 변환하여 중간 서브 프레임에 대한 LPC 스펙트럼 정보를 결정할 수 있다. 이 때, 주파수 맵핑부(401)가 256-point 대신 64-point의 FFT를 이용하면, 매우 적은 복잡도로 주파수 변환될 수 있다. 주파수 맵핑부(401)는 LPC 스펙트럼 정보를 이용하여 중간 서브 프레임에 대한 주파수 스펙트럼 크기를 결정할 수 있다.The
크기 계산부(402)는 중간 서브 프레임의 주파수 스펙트럼 크기를 이용하여 주파수 스펙트럼 빈(bin)의 크기를 계산할 수 있다. 주파수 스펙트럼 빈의 개수는 가중치 함수 결정부(207)가 ISF 계수 또는 LSF 계수를 정규화하기 위해 설정한 범위에 대응하는 주파수 스펙트럼 빈의 개수와 동일하게 결정될 수 있다. 그러면, 크기 계산부(402)를 통해 도출된 스펙트럼 분석 정보인 주파수 스펙트럼 빈의 크기는 가중치 함수 결정부(207)가 크기별 가중치 함수를 결정할 때 활용될 수 있다.The
이 후, 가중치 함수 결정부(207)가 가중치 함수를 결정하는 과정은 도 5에서 이미 구체적으로 설명하였는 바, 도 8에서는 이에 대한 설명을 생략하기로 한다.The process of determining the weight function by the weight
도 9는 본 발명의 일실시예에 따라 중간 서브 프레임의 LPC 부호화 방식을 설명하기 위한 도면이다.FIG. 9 is a diagram for explaining an LPC coding method of an intermediate subframe according to an embodiment of the present invention. Referring to FIG.
CELP 부호화 기술은 입력 신호에 대한 LPC 계수와 여기 신호를 필요로 한다. 입력 신호를 부호화할 때, LPC 계수가 양자화될 수 있다. 그러나, LPC 계수를 그 자체로 양자화하는 것은 다이내믹 레인지가 넓고 안정도 확인이 어려운 문제점이 있기 때문에, 다이내믹 레이지가 좁고 안정도 확인이 쉬운 LSF(또는 LSP)나 ISF(ISP)로 변환되어 부호화될 수 있다. The CELP coding technique requires an LPC coefficient and an excitation signal for the input signal. When coding the input signal, the LPC coefficients can be quantized. However, quantization of the LPC coefficients by itself can convert the LSF (or LSP) or the ISF (ISP), which has a small dynamic range and a low stability, into an ISF (ISP) and can be encoded since there is a problem that the dynamic range is wide and stability is difficult to confirm.
이 때, ISF 계수나 LSF 계수로 변환된 LPC 계수는 보통 양자화의 효율을 위해 벡터 양자화된다. 이 과정에서 모든 LPC 계수를 동일한 중요도로 하여 양자화하는 경우 최종 합성된 입력 신호의 품질의 열화가 발생할 수 있다. 즉, 모든 LPC 계수는 중요도가 다르므로, 중요한 LPC 계수의 에러가 작아야 최종 합성된 입력 신호의 품질이 향상될 수 있다. LPC 계수의 중요도를 고려하지 않고, 동일하게 중요도를 적용하여 양자화하는 경우 입력 신호의 품질은 떨어질 수 밖에 없다. 이러한 중요도를 결정하기 위한 가중치 함수가 요구된다. At this time, the LPC coefficients converted into the ISF coefficients or the LSF coefficients are usually vector quantized for the efficiency of the quantization. In this process, if all LPC coefficients are quantized with the same importance, the quality of the final synthesized input signal may deteriorate. That is, since all the LPC coefficients have different significance, the error of the important LPC coefficients must be small so that the quality of the final synthesized input signal can be improved. The quality of the input signal is inevitably lowered when the quantization is performed by applying the same importance without considering the importance of the LPC coefficients. A weighting function is needed to determine this importance.
일반적으로 통신용 음성 부호화기는 5ms의 서브 프레임과 20ms의 프레임으로 구성된다. GSM 및 3GPP의 음성 부호화기인 AMR과 AMR-WB는 5ms의 서브 프레임이4개가 포함된 20ms의 프레임으로 구성된다. 도 9에서 볼 수 있듯이, LPC 계수의 양자화는 이전 프레임과 현재 프레임을 구성하는 서브 프레임 중 마지막 프레임인 네번째 서브 프레임(프레임 엔드)를 중심으로 한번씩 수행된다. 현재 프레임의 첫번째, 두번째 및 세번째 서브 프레임을 위한 LPC 계수는 이전 프레임의 프레임 엔드와 현재 프레임의 프레임 엔드에 대한 양자화된 LPC 계수를 보간함으로써 결정될 수 있다.Generally, the speech coder for communication is composed of a sub-frame of 5 ms and a frame of 20 ms. AMR and AMR-WB, which are GSM and 3GPP voice coders, are composed of 20 ms frames including 4 sub-frames of 5 ms. As shown in FIG. 9, quantization of LPC coefficients is performed once around the fourth subframe (frame end), which is the last frame among the subframes constituting the previous frame and the current frame. The LPC coefficients for the first, second and third subframes of the current frame may be determined by interpolating the quantized LPC coefficients for the frame end of the previous frame and the frame end of the current frame.
본 발명의 일실시예에 따르면, 음질 향상을 위해 두번째 서브 프레임에서 선형예측 분석을 수행하여 도출된 LPC 계수를 부호화할 수 있다. 이 때, 가중치 함수 결정부(207)는 이전 프레임의 프레임 엔드에 대한 LPC 계수와 현재 프레임의 프레임 엔드에 대한 LPC 계수를 이용하여 중간 서브 프레임인 현재 프레임의 두번째 서브 프레임에 대해 최적의 interpolation weight를 closed-loop으로 탐색할 수 있다. 이 후, 16차 LPC 계수에 대해 가장 weighted distortion을 최소화 시키는 코드북 인덱스가 도출되어 전송될 수 있다. According to an embodiment of the present invention, the LPC coefficients derived by performing the linear prediction analysis in the second subframe may be encoded to improve sound quality. At this time, the weight
weighted distortion을 구하기 위해서는 16차 LPC 계수에 대한 가중치 함수가필요하다. 이 때, 사용되는 가중치 함수는 수학식 11과 같다. 수학식 11에 따르면, ISF 계수의 간격을 분석하여 ISF 계수의 간격이 좁은 곳에 더 많은 가중치가 적용된다.To obtain the weighted distortion, we need a weight function for the 16th order LPC coefficients. In this case, the weight function used is expressed by Equation (11). According to Equation (11), the interval of the ISF coefficients is analyzed, and more weight is applied where the interval of the ISF coefficients is narrow.
그리고, 수학식 12와 같이 추가적으로 저주파수 강조(low frequency emphasis)가적용될 수 있다. 이 때, low frequency emphasis는 1차 함수로 이루어진 수식이다. Further, low frequency emphasis may be applied as in Equation (12). In this case, the low frequency emphasis is a linear function.
본 발명에 의하면, ISF 계수나 LSF 계수의 간격만을 이용하여 가중치 함수가 도출되므로, 매우 단순한 방식으로 인해 복잡도가 낮다. 일반적으로, ISF 계수의 간격이 좁은 곳에 스펙트럼 에너지가 높아 중요한 성분일 가능성이 많지만, 실제로 스펙트럼 분석이 수행되면 이와 같은 결과가 정확히 매칭되지 않는 경우가 빈번하게 발생한다.According to the present invention, since the weight function is derived using only the interval of the ISF coefficient and the LSF coefficient, the complexity is low due to a very simple method. In general, where the interval of the ISF coefficients is high, the spectral energy is high and is likely to be an important component. However, when the spectrum analysis is actually performed, the result often does not exactly match.
따라서, 본 발명의 일실시예에 따르면, 비슷한 복잡도에서 우수한 성능을 갖는 양자화 기술이 제안된다. 제안한 첫번째 방식은 이전 프레임과 현재 프레임의 정보를 보간하여 양자화하는 기술이다. 그리고, 두번째 방식은 LPC 계수의 주파수 맵핑을 통해 스펙트럼 정보를 결정하고, 스펙트럼 정보를 통해 LPC 계수의 양자화를 위한 최적의 가중치 함수를 결정하는 기술이다.Thus, according to one embodiment of the present invention, a quantization technique with good performance at similar complexity is proposed. The proposed method is a technique of interpolating and quantizing the information of the previous frame and the current frame. The second scheme is a technique for determining spectral information through frequency mapping of LPC coefficients and determining an optimal weight function for quantizing LPC coefficients through spectral information.
또한 본 발명의 일실시예에 따른 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.A method according to an embodiment of the present invention also includes a computer readable medium including program instructions for performing various computer implemented operations. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The media may be program instructions that are specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. The medium may be a transmission medium for transmitting a signal specifying a program command, a data structure, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 일실시예는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be construed as limiting the scope of the invention as defined by the appended claims. Various modifications and variations are possible in light of the above teachings. Accordingly, it is to be understood that one embodiment of the present invention should be understood only by the appended claims, and all equivalent or equivalent variations thereof are included in the scope of the present invention.
100: 오디오 신호 부호화 장치 101: 전처리부
102: 스펙트럼 분석부 103: 선형 예측 계수 추출부
104: 부호화 모드 선택부 105: 선형 예측 계수 양자화부
106: 부호화부 107: 에러 복원부
108: 비트스트림 생성부100: audio signal encoding apparatus 101: preprocessing unit
102: spectrum analyzing unit 103: linear prediction coefficient extracting unit
104: encoding mode selection unit 105: linear prediction coefficient quantization unit
106: encoding unit 107: error recovery unit
108:
Claims (13)
상기 LSF 계수를 상기 프레임-엔드 서브프레임의 스펙트럼 빈들의 개수로 정규화하는 단계;
상기 정규화된 LSF 계수의 주파수에 대응하는 스펙트럼 빈의 크기에 기초하여 상기 프레임-엔드 서브프레임의 제1 가중치 함수를 결정하는 단계;
상기 정규화된 LSF 계수의 주파수정보에 기초하여 상기 프레임-엔드 서브프레임의 제2 가중치 함수로부터 결정하는 단계; 및
상기 제1 가중치 함수와 상기 제2 가중치 함수를 조합하여 상기 프레임-엔드 서브프레임의 제3 가중치 함수를 생성하는 단계를 포함하고,
상기 제1 가중치 함수를 결정하는 단계는 상기 정규화된 LSF 계수의 주파수에 대응하는 현재 스펙트럼 빈의 크기와 인접하는 적어도 하나의 스펙트럼 빈의 크기 중 최대값에 근거하여 상기 제1 가중치 함수를 결정하는 방법.Obtaining a Line Spectral Frequency (LSF) coefficient of the frame-end subframe from a Linear Predictive Coding (LPC) coefficient of the frame-end subframe;
Normalizing the LSF coefficients by the number of spectral bins of the frame-end subframe;
Determining a first weight function of the frame-end subframe based on a size of a spectrum bin corresponding to a frequency of the normalized LSF coefficient;
Determining from a second weight function of the frame-end subframe based on the frequency information of the normalized LSF coefficient; And
Generating a third weight function of the frame-end subframe by combining the first weight function and the second weight function,
Wherein the determining of the first weight function comprises determining the first weight function based on a magnitude of a current spectral bin corresponding to a frequency of the normalized LSF coefficient and a maximum of a size of at least one spectrum bin adjacent .
상기 프로세서는
프레임-엔드 서브프레임의 선형 예측(Linear Predictive Coding: LPC) 계수로부터 상기 프레임-엔드 서브프레임의 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수를 획득하고,
상기 LSF 계수를 상기 프레임-엔드 서브프레임의 스펙트럼 빈들의 개수로 정규화하고,
상기 정규화된 LSF 계수의 주파수에 대응하는 스펙트럼 빈의 크기에 기초하여 상기 프레임-엔드 서브프레임의 제1 가중치 함수를 결정하고,
상기 정규화된 LSF 계수의 주파수정보에 기초하여 상기 프레임-엔드 서브프레임의 제2 가중치 함수로부터 결정하고,
상기 제1 가중치 함수와 상기 제2 가중치 함수를 조합하여 상기 프레임-엔드 서브프레임의 제3 가중치 함수를 생성하고,
상기 프레임-엔드 서브프레임을 양자화하기 위하여 상기 제3 가중치 함수를 이용하고,
상기 프로세서는 상기 정규화된 LSF 계수의 주파수에 대응하는 현재 스펙트럼 빈의 크기와 인접하는 적어도 하나의 스펙트럼 빈의 크기 중 최대값에 근거하여 상기 제1 가중치 함수를 결정하는 장치.Comprising at least one processor,
The processor
Obtaining a Line Spectral Frequency (LSF) coefficient of the frame-end subframe from a linear predictive coding (LPC) coefficient of a frame-end subframe,
Normalizing the LSF coefficients by the number of spectral bins of the frame-end subframe,
Determining a first weight function of the frame-end subframe based on a size of a spectrum bin corresponding to a frequency of the normalized LSF coefficient,
Determining from the second weight function of the frame-end subframe based on the frequency information of the normalized LSF coefficient,
Generating a third weight function of the frame-end subframe by combining the first weight function and the second weight function,
Using the third weighting function to quantize the frame-end subframe,
Wherein the processor determines the first weight function based on a magnitude of a current spectral bin corresponding to a frequency of the normalized LSF coefficient and a magnitude of at least one spectral bin adjacent to the frequency of the normalized LSF coefficient.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180052804A KR101997897B1 (en) | 2018-05-08 | 2018-05-08 | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180052804A KR101997897B1 (en) | 2018-05-08 | 2018-05-08 | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170072722A Division KR101857799B1 (en) | 2017-06-09 | 2017-06-09 | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180052583A KR20180052583A (en) | 2018-05-18 |
KR101997897B1 true KR101997897B1 (en) | 2019-07-08 |
Family
ID=62453983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180052804A KR101997897B1 (en) | 2018-05-08 | 2018-05-08 | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101997897B1 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100474969B1 (en) * | 2002-06-04 | 2005-03-10 | 에스엘투 주식회사 | Vector quantization method of line spectral coefficients for coding voice singals and method for calculating masking critical valule therefor |
-
2018
- 2018-05-08 KR KR1020180052804A patent/KR101997897B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20180052583A (en) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101747917B1 (en) | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization | |
KR102461280B1 (en) | Apparatus and method for determining weighting function for lpc coefficients quantization | |
US10395665B2 (en) | Apparatus and method determining weighting function for linear prediction coding coefficients quantization | |
KR101761820B1 (en) | Apparatus and method for determining weighting function for lpc coefficients quantization | |
KR101857799B1 (en) | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization | |
KR20140088879A (en) | Method and device for quantizing voice signals in a band-selective manner | |
KR101997897B1 (en) | Apparatus and method for determining weighting function having low complexity for lpc coefficients quantization | |
KR101867596B1 (en) | Apparatus and method for determining weighting function for lpc coefficients quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |