KR100668300B1 - Bitrate scalable speech coding and decoding apparatus and method thereof - Google Patents
Bitrate scalable speech coding and decoding apparatus and method thereof Download PDFInfo
- Publication number
- KR100668300B1 KR100668300B1 KR1020040040478A KR20040040478A KR100668300B1 KR 100668300 B1 KR100668300 B1 KR 100668300B1 KR 1020040040478 A KR1020040040478 A KR 1020040040478A KR 20040040478 A KR20040040478 A KR 20040040478A KR 100668300 B1 KR100668300 B1 KR 100668300B1
- Authority
- KR
- South Korea
- Prior art keywords
- fixed codebook
- signal
- sound quality
- base layer
- gain value
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Abstract
본 발명은 SNR 비트율 확장 음성 부호화 및 복호화 장치와 그 방법에 관한 것으로, 본 발명에 따른 부호화 장치는, 기본 계층, 음질 향상 계층 및 다중화기를 포함하고, 기본 계층은 선형 예측 부호화에 의해 입력 음성신호를 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 필터링된 음성신호에 대응되는 여기 신호를 생성하고, 음질 향상 계층은 기본 계층에서의 고정 코드북 탐색에 따라 생성되는 매개 변수를 이용하여 고정 코드북을 탐색하거나 기본 계층의 고정 코드북 탐색 대상 신호에서 기본 계층의 고정 코드북의 기여도와 음질 향상 계층에서 이전의 고정 코드북을 합성 필터링 한 신호를 제거한 신호를 음질 향상 계층의 대상 신호로 하여 고정 코드북을 탐색하고, 다중화기는 기본 계층에서 생성되는 신호와 적어도 하나의 음질 향상 계층에서 생성되는 신호를 다중화함으로써, 본 발명에 따른 부호화 장치는 기존의 표준화된 음성 코덱과 호환이 가능하고, 연산량을 줄일 수 있으며, 보다 좋은 음질을 제공할 수 있다. The present invention relates to an SNR bit rate extended speech encoding and decoding apparatus and a method thereof, wherein the encoding apparatus includes a base layer, a sound quality enhancement layer, and a multiplexer, and the base layer includes an input speech signal by linear predictive encoding. Filter, generate an excitation signal corresponding to the speech signal filtered by the fixed codebook search and the adaptive codebook search, and the sound quality enhancement layer searches for the fixed codebook using the parameters generated according to the fixed codebook search in the base layer; Fixed codebook search of base layer The fixed codebook is searched by using the signal that removes the contribution of the fixed codebook of the base layer from the target signal and the signal obtained by synthesizing the previous fixed codebook in the sound quality enhancement layer as the target signal of the sound quality enhancement layer. Enhances the signal generated by the base layer and at least one sound quality By multiplexing the signal generated in the layer, the encoding apparatus according to the present invention is compatible with the existing standardized speech codec, can reduce the amount of calculation, and can provide better sound quality.
Description
도 1은 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 부호화 장치의 블록도이다. 1 is a block diagram of a bit rate extended speech encoding apparatus according to an exemplary embodiment of the present invention.
도 2는 도 1에 도시된 기본 계층 고정 코드북 탐색부에 의해 탐색된 펄스의 위치와 음질 향상 계층 고정 코드북 탐색부에 의해 탐색된 펄스의 위치의 예시 도이다. FIG. 2 is an exemplary diagram of positions of pulses searched by the base layer fixed codebook search unit shown in FIG. 1 and positions of pulses searched by the sound quality enhancement layer fixed codebook search unit.
도 3은 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 복호화 장치의 블록도이다. 3 is a block diagram of a bit rate extended speech decoding apparatus according to an exemplary embodiment of the present invention.
도 4는 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 부호화 방법의 동작 흐름도이다.4 is an operation flowchart of a bit rate extended speech encoding method according to an embodiment of the present invention.
도 5는 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 복호화 방법의 동작 흐름도이다. 5 is a flowchart illustrating an operation of a bit rate extended speech decoding method according to an exemplary embodiment of the present invention.
도 6은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 부호화 장치의 블록도이다. 6 is a block diagram of a bit rate extended speech encoding apparatus according to another exemplary embodiment of the present invention.
도 7은 도 6에 도시된 음질 향상 계층의 이득 값 차 양자화기의 바람직한 실시 예를 나타낸 블록도이다.FIG. 7 is a block diagram illustrating an exemplary embodiment of a gain value difference quantizer of the sound quality enhancement layer illustrated in FIG. 6.
도 8은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 복호화 장치의 블록도이다. 8 is a block diagram of a bit rate extended speech decoding apparatus according to another exemplary embodiment of the present invention.
도 9는 도 8의 비트율 확장 음성 복호화 장치에서 기본 계층 고정 코드북 탐색에 의해 탐색된 펄스의 위치와 음질 향상 계층 고정 코드북 탐색에 의해 탐색된 펄스의 위치 예시 도이다. 9 is a diagram illustrating a position of a pulse searched by a base layer fixed codebook search and a position of a pulse searched by a sound quality enhancement layer fixed codebook search in the bit rate extension speech decoding apparatus of FIG. 8.
도 10은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 부호화 방법의 동작 흐름도이다.10 is a flowchart illustrating an operation of a bit rate extended speech encoding method according to another exemplary embodiment of the present invention.
도 11는 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 복호화 방법의 동작 흐름도이다. 11 is an operation flowchart of a bit rate extended speech decoding method according to another preferred embodiment of the present invention.
본 발명은 켈프(Code Excited Linear Prediction, 이하 CELP라고 약함) 알고리즘을 사용하는 음성 코덱(codec)에 관한 것으로서, 특히, 음질을 향상시키기 위하여 SNR(Signal to Noise Ratio) 비트율을 확장하는 음성 부호화 및 복호화 장치와 그 방법에 관한 것이다.The present invention relates to a speech codec (codec) using a Kelp (Code Excited Linear Prediction, hereinafter referred to as CELP) algorithm, and in particular, speech coding and decoding for extending the SNR (Signal to Noise Ratio) bit rate to improve sound quality. It relates to an apparatus and a method thereof.
CELP 구조를 갖는 음성 코덱은 현재 이동 통신 시스템에서 가장 널리 사용되는 것으로, 선형 예측 부호화(Linear Prediction coding, 이하 LPC라고 약함)를 기본으로 한다. 이러한 CELP 구조를 갖는 음성 코덱은 서비스의 종류에 따라 요구되는 전송률 및 대역폭이 다르다. The speech codec having the CELP structure is the most widely used in the current mobile communication system, and is based on linear prediction coding (hereinafter, referred to as LPC). The voice codec having the CELP structure has a different data rate and bandwidth depending on the type of service.
그러나, 일반적인 음성 코덱은 전송률 및 대역폭이 부호화 장치에서 설정되므로 복호화장치에서 전송률 및 대역폭을 선택할 수 없다. 또한, 네트워크 상에서 하나의 송신단에서 여러 수신단으로 패킷 정보를 전송하는 멀티 캐스팅(multicasting)이 수행될 때, 송신단의 음성 코덱이 고정된 비트율을 가지면, 각기 다른 비트율을 요구하는 수신단으로 전송되는 패킷 정보의 질이 저하될 수 있다. However, in the general voice codec, since the bit rate and bandwidth are set in the encoding device, the bit rate and bandwidth cannot be selected in the decoding device. In addition, when multicasting is performed to transmit packet information from one transmitter to multiple receivers on the network, if the voice codec of the transmitter has a fixed bit rate, the packet information transmitted to the receivers requiring different bit rates may be used. The quality may deteriorate.
이를 개선하기 위하여 비트율 확장 음성 부호화 방식을 채택한 음성 코덱이 제안되었다. 이러한 음성 코덱은 기본 코덱(base codec)의 정보뿐만 아니라 복원할 신호를 더 정확하게 할 정보가 추가되도록 비트 스트림(bit stream)을 구성한다. In order to improve this, a speech codec employing a bit rate extended speech coding scheme has been proposed. This voice codec constitutes a bit stream so that not only the information of the base codec but also the information to more accurately correct the signal to be restored are added.
기존의 비트율 확장 음성 부호화 방식은 크게 SNR(Signal to Noise Ratio, 이하 SNR이라 약함) 비트율 확장방법과 대역폭 확장방법으로 분류할 수 있다. Conventional bit rate extension speech coding schemes can be broadly classified into signal to noise ratio (SNR) bit rate extension methods and bandwidth extension methods.
SNR 비트율 확장 방법에 의한 음성 부호화는 계층적(hierarchical) 코딩방식으로 음성신호를 부호화하고 복호화 한다. 즉, 음성신호를 기본 계층(base layer)과 음질 향상 계층(speech enhancement layer)으로 나누어 음성신호를 부호화한다. 기본 계층은 최소한의 음질을 복원할 수 있는 정보만을 전송한다. 음질 향상 계층에서는 음질을 향상시킬 수 있는 추가 정보를 전송한다. Speech encoding by the SNR bit rate extension method encodes and decodes a speech signal using a hierarchical coding scheme. That is, the speech signal is encoded by dividing the speech signal into a base layer and a speech enhancement layer. The base layer transmits only information that can restore the minimum sound quality. The sound quality enhancement layer transmits additional information to improve sound quality.
그러나, 기존에 제안된 SNR 비트율 확장 음성 부호화 장치는 기본 계층과 음질 향상 계층을 독립적으로 부호화하도록 구성되어 있다. 따라서 고정 코드북을 탐색할 때 요구되는 대상 신호(또는 타겟 벡터)와 임펄스 응답과의 상관도와 에너지를 검출하기 위한 연산이 기본 계층과 음질 향상 계층에서 각각 수행되므로 고정 코드북 탐색을 위한 매개 변수를 구하기 위해 많은 연산량이 요구된다. However, the proposed SNR bit rate extended speech encoding apparatus is configured to independently encode the base layer and the sound quality enhancement layer. Therefore, since the calculation of correlation and energy between the target signal (or target vector) and the impulse response required when searching the fixed codebook is performed in the base layer and the sound quality enhancement layer, the parameters for the fixed codebook search are obtained. A lot of computation is required.
그리고, 기존에 제안된 SNR 비트율 확장 음성 부호화장치는 상기 음질 향상 계층을 추가로 운영하기 위하여 기존의 표준화된 CELP 음성 부호화기의 구조를 변경하여 기존의 표준화된 CELP 음성 부호화기와 호환되지 않는 단점을 갖고 있다. In addition, the proposed SNR bit rate extended speech coder has a disadvantage in that it is not compatible with the existing standardized CELP speech coder by changing the structure of the existing standardized CELP speech coder to further operate the sound quality enhancement layer. .
본 발명이 이루고자 하는 기술적 과제는 기존의 표준화된 음성 코덱의 고정 코드북과 다층 구조를 이루는 고정 코드북을 포함하여 기존의 표준화된 음성 코덱과 호환성을 갖는 SNR 비트율을 확장하는 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다. The present invention provides a speech encoding and decoding apparatus and method for extending an SNR bit rate compatible with existing standardized speech codecs, including a fixed codebook of a conventional standardized speech codec and a fixed codebook having a multi-layered structure. To provide.
본 발명이 이루고자 하는 다른 기술적 과제는 고정 코드북 탐색을 위한 매개 변수를 구하는 연산량이 감소된 SNR 비트율 확장 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다. Another object of the present invention is to provide an SNR bit rate extended speech encoding and decoding apparatus and method for reducing the amount of computation for obtaining parameters for fixed codebook search.
본 발명이 이루고자 하는 또 다른 기술적 과제는 기본 계층에서 탐색된 고정 코드북의 기여도와 음질 향상 계층의 합성된 여기 신호(excitation signal)가 제거된 대상신호를 이용하여 음질 향상 계층의 고정 코드북을 탐색하는 SNR 비트율 확장 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다.Another technical problem to be solved by the present invention is SNR for searching a fixed codebook of a sound quality enhancement layer by using a target signal from which contribution of the fixed codebook found in the base layer and a synthesized excitation signal of the sound quality enhancement layer are removed. Disclosed are a bit rate extended speech encoding and decoding apparatus and a method thereof.
본 발명이 이루고자 하는 또 다른 기술적 과제는 기본 계층에서 탐색된 펄스의 위치와 음질 향상 계층에서 탐색된 펄스의 위치가 중복되는 것을 허용함으로써, 대수 코드북의 한계를 극복할 수 있는 SNR 비트율 확장 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다. Another technical problem to be solved by the present invention is to allow overlapping of the position of the pulse searched in the base layer and the position of the pulse searched in the sound quality enhancement layer, thereby overcoming the limitations of the algebraic codebook. The present invention provides a decoding apparatus and a method thereof.
본 발명이 이루고자 하는 또 다른 기술적 과제는 음질 향상 계층에서의 고정 코드북의 이득값에 대한 양자화 비트를 줄일 수 있는 SNR 비트율 확장 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다. Another object of the present invention is to provide an apparatus and method for SNR bit rate extension speech encoding and decoding capable of reducing quantization bits for gain values of fixed codebooks in a sound quality enhancement layer.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 선형 예측 코딩을 사용하여 입력 음성신호를 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 필터링된 음성신호의 여기 신호를 생성하는 기본 계층; 및 상기 기본 계층에서의 고정 코드북 탐색에 의해 얻어지는 매개 변수를 이용하여 고정 코드북을 탐색하는 음질 향상 계층을 적어도 하나 포함하고, 상기 기본 계층에서 생성되는 신호와 상기 음질 향상 계층에서 생성되는 신호를 다중화하고, 상기 다중화된 신호를 출력하는 다중화기를 포함하는 음성신호 부호화 장치를 제공한다. In order to achieve the above technical problem, the present invention provides a communication system comprising: a base layer for filtering an input speech signal using linear predictive coding and generating an excitation signal of the filtered speech signal by fixed codebook searching and adaptive codebook searching; And at least one sound quality enhancement layer for searching a fixed codebook using a parameter obtained by the fixed codebook search in the base layer, and multiplexing a signal generated in the base layer and a signal generated in the sound quality enhancement layer. And a multiplexer for outputting the multiplexed signal.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 입력되는 음성신호를 선형 예측 부호화 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 필터링된 음성 신호에 대응되는 여기 신호를 생성하는 기본 계층; 및 상기 기본 계층에서의 고정 코드북 탐색에 따라 생성되는 매개 변수를 이용하여 고정 코드북을 탐색하는 고정 코드북 탐색부, 상기 기본 계층의 상기 고정 코드북 탐색에 의해 생성된 제 1 고정 코드북 이득값과 상기 고정 코드북 탐색부로부터 출력되는 제 2 고정 코드북 이득값간의 차를 검출하고, 검출된 차를 양자화 하는 이득값 차 양자화기를 포함하는 음질 향상 계층을 복수개 구비하고, 상기 기본 계층에서 생성되는 신호와 상기 음질 향상 계층에서 생성되는 신호를 다중화하는 다중화기를 포함하는 음성신호 부호화 장치를 제공한다. According to an aspect of the present invention, there is provided an apparatus including: a base layer configured to linearly predictively encode an input speech signal and generate an excitation signal corresponding to the filtered speech signal by fixed codebook searching and adaptive codebook searching; And a fixed codebook search unit for searching a fixed codebook using a parameter generated according to the fixed codebook search in the base layer, a first fixed codebook gain value generated by the fixed codebook search in the base layer, and the fixed codebook. A plurality of sound quality enhancement layers including a gain difference quantizer for detecting a difference between the second fixed codebook gain values output from the searcher and quantizing the detected difference, and a signal generated in the base layer and the sound quality enhancement layer Provided is a speech signal encoding apparatus including a multiplexer for multiplexing a signal generated by a.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 기본 계층과 적어도 하나의 음질 향상 계층으로 나뉘어 부호화된 음성신호를 디코딩하기 위한 음성 신호 복호화 장치에 있어서, 부호화된 음성신호중에서 기본 계층에서의 부호화 정보를 디코드 하기 위한 제 1 복호화 유니트; 상기 음성 신호 복호화 장치의 동작 환경에 따라 상기 부호화된 음성신호중에서 음질 향상 계층에서의 부호화 정보를 복원하는 제 2 복호화 유니트; 상기 음성 신호 복호화 장치의 동작 환경에 따라 상기 제 1 복호화 유니트에서 복원된 신호와 상기 제 2 복호화 유니트에서 복원된 신호를 연산하는 연산 유니트; 상기 제 1 복호화 유니트에서 출력되는 선형 예측 부호화 계수를 이용하여 상기 연산 유니트에서 출력되는 신호를 합성하여 음성신호를 복원하는 음성신호 복원 유니트를 포함하는 음성 신호 복호화 장치를 제공한다.In order to achieve the above technical problem, the present invention provides a speech signal decoding apparatus for decoding a speech signal encoded by being divided into a base layer and at least one sound quality enhancement layer, and decodes the encoding information of the encoded speech signal in the base layer. A first decoding unit for performing; A second decoding unit for restoring encoding information in a sound quality enhancement layer among the encoded speech signals according to an operating environment of the speech signal decoding apparatus; A calculation unit configured to calculate a signal restored in the first decoding unit and a signal restored in the second decoding unit according to an operating environment of the speech signal decoding apparatus; Provided is a speech signal decoding apparatus comprising a speech signal recovery unit for recovering a speech signal by synthesizing a signal output from the calculation unit using the linear prediction coding coefficients output from the first decoding unit.
상기 제 1 복호화 유니트는, 상기 기본 계층에서의 부호화 정보에 포함되어 있는 선형 예측 부호화 계수 양자화 정보를 디코드 하는 선형 예측 부호화 계수 복호화부; 상기 기본 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 인덱스를 디코드 하는 제 1 고정 코드북 복호화부; 상기 기본 계층에서의 부호화 정보에 포함되어 있는 적응 코드북 인덱스를 디코드 하는 적응 코드북 복호화부; 상기 기본 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 이득값과 적응 코드북 이득값을 각각 디코드하는 이득값 복호화부를 포함하는 것이 바람직하다. The first decoding unit includes: a linear prediction coding coefficient decoder for decoding linear prediction coding coefficient quantization information included in the encoding information in the base layer; A first fixed codebook decoder which decodes a fixed codebook index included in the encoding information in the base layer; An adaptive codebook decoder which decodes an adaptive codebook index included in the encoding information in the base layer; Preferably, a gain value decoding unit for decoding the fixed codebook gain value and the adaptive codebook gain value included in the encoding information in the base layer, respectively.
상기 제 2 복호화 유니트는, 상기 음성 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 이득값간의 차의 양자화 정보를 디코드 하는 이득값 차 복 호화부; 상기 음질 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 인덱스를 디코드 하는 제 2 고정 코드북 복호화부를 포함하는 것이 바람직하다. The second decoding unit includes: a gain value difference decoder which decodes quantization information of a difference between fixed codebook gain values included in encoded information in the speech enhancement layer; Preferably, a second fixed codebook decoder for decoding the fixed codebook index included in the encoding information in the sound quality enhancement layer is included.
상기 제 2 복호화 유니트는, 상기 음질 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 로그스케일 이득값간의 차의 양자화 정보를 디코드 하는 이득값 차 복호화부; 상기 음질 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 인덱스를 디코드 하는 제 2 고정 코드북 복호화부를 포함하는 것이 바람직하다. The second decoding unit includes: a gain value difference decoding unit for decoding quantization information of the difference between the fixed codebook logscale gain values included in the encoding information in the sound quality enhancement layer; Preferably, a second fixed codebook decoder for decoding the fixed codebook index included in the encoding information in the sound quality enhancement layer is included.
상기 제 2 복호화 유니트는, 상기 음성 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 로그스케일 이득값간의 차의 양자화 정보를 디코드 하는 이득값 차 복호화부; 상기 음질 향상 계층에서의 부호화 정보에 포함되어 있는 고정 코드북 인덱스를 디코드 하는 고정 코드북 복호화부를 포함하는 것이 바람직하다. The second decoding unit includes: a gain value difference decoding unit for decoding the quantization information of the difference between the fixed codebook logscale gain values included in the encoding information in the speech enhancement layer; Preferably, the fixed codebook decoder includes a fixed codebook index included in the encoded information in the sound quality enhancement layer.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 입력된 음성신호의 선형 예측 부호화 계수를 추출하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 입력된 음성신호에 대응하는 여기 신호를 생성하는 기본 계층 처리 단계; 상기 기본 계층 처리 단계에서 상기 고정 코드북 탐색에 따라 생성된 매개 변수를 이용하여 고정 코드북을 탐색하는 음질 향상 계층 처리 단계; 상기 기본 계층 처리 단계와 상기 음질 향상 계층 처리 단계에 의해 생성되는 신호를 다중화하는 단계를 포함하는 음성 신호 부호화 방법을 제공한다. According to an aspect of the present invention, there is provided a basic layer processing step of extracting a linear predictive coding coefficient of an input speech signal and generating an excitation signal corresponding to the input speech signal by a fixed codebook search and an adaptive codebook search. ; A sound quality enhancement layer processing step of searching for a fixed codebook using a parameter generated according to the fixed codebook search in the base layer processing step; It provides a speech signal encoding method comprising the step of multiplexing the signal generated by the base layer processing step and the sound quality enhancement layer processing step.
상기 음질 향상 계층 처리 단계는 복수 단계로 수행되는 것이 바람직하다. The sound quality enhancement layer processing step is preferably performed in a plurality of steps.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 기본 계층과 적어도 하나 의 음질 향상 계층으로 부호화된 음성 신호를 복호화하기 위한 음성 신호 복호화 방법에 있어서, 상기 부호화된 음성신호를 복호화하는 단계; 상기 복호화 단계에서 복호화된 기본 계층에 대한 코드북과 음질 향상 계층에 대한 코드북을 상기 음성 신호 복호화의 동작 조건에 따라 선택적으로 전송하는 단계; 상기 선택적으로 전송되는 코드북과 상기 복호화 단계에서 복호화된 선형 예측 계수를 합성하여 복원된 음성신호를 생성하는 단계를 포함하는 음성 신호 복호화 방법을 제공한다. According to an aspect of the present invention, there is provided a speech signal decoding method for decoding a speech signal encoded by a base layer and at least one sound quality enhancement layer, the method comprising: decoding the encoded speech signal; Selectively transmitting the codebook for the base layer decoded in the decoding step and the codebook for the sound quality enhancement layer according to the operating condition of the speech signal decoding; And generating a reconstructed speech signal by combining the selectively transmitted codebook and the linear prediction coefficients decoded in the decoding step.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 선형 예측 부호화를 사용하여 입력 음성신호를 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 필터링된 음성신호의 여기 신호를 생성하는 기본 계층; 상기 기본 계층의 고정 코드북 탐색 대상 신호에서 상기 기본 계층의 고정 코드북의 기여도를 제거한 신호를 대상 신호로 하여 고정 코드북을 탐색하는 음질 향상 계층을 적어도 하나 포함하고, 상기 기본 계층에서 생성되는 신호와 상기 음질 향상 계층에서 생성되는 신호를 다중화하고, 상기 다중화된 신호를 출력하는 다중화기를 포함하는 음성신호 부호화 장치를 제공한다. In order to achieve the above technical problem, the present invention includes a base layer for filtering an input speech signal using linear predictive coding, and generating an excitation signal of the filtered speech signal by fixed codebook search and adaptive codebook search; And a sound quality enhancement layer for searching for a fixed codebook by using a signal from which the contribution of the fixed codebook of the base layer is removed from the fixed codebook search target signal of the base layer, and the signal generated in the base layer and the sound quality. The present invention provides a speech signal encoding apparatus including a multiplexer for multiplexing a signal generated in an enhancement layer and outputting the multiplexed signal.
상기 기본 계층의 고정 코드북 기여도 y2(n)은 상기 기본 계층의 고정 코드북의 양자화 이득값이 승산된 고정 코드북 cG와 합성 필터의 임펄스 응답 h(n)을 이용한 하기 식에 기초하여 계산되는 것이 바람직하다. The fixed codebook contribution y 2 (n) of the base layer is calculated based on the following equation using the impulse response h (n) of the synthesis filter and the fixed codebook c G multiplied by the quantization gain value of the fixed codebook of the base layer. desirable.
상기 음질 향상 계층은 상기 선형 예측 부호화 계수를 이용하여 음질 향상 계층에서 생성된 고정 코드북 신호를 합성한 신호를 상기 기본 계층의 대상 신호로부터 더 제거하는 것이 바람직하다. The sound quality enhancement layer may further remove a signal obtained by synthesizing the fixed codebook signal generated in the sound quality enhancement layer by using the linear prediction coding coefficients from the target signal of the base layer.
상기 음질 향상 계층의 고정 코드북 탐색 시, 상기 기본 계층의 고정 코드북 탐색에 의해 얻어진 제 1 이득값의 로그 스케일 값과 상기 음질 향상 계층에서의 고정 코드북 탐색에 의해 얻어진 제 2 이득값의 로그 스케일 값간의 차를 양자화한 결과를 이용하여 음질 향상 계층의 양자화된 이득값을 구하고 양자화된 이득값을 상기 음질 향상 계층에서 고정 코드북 탐색에 의해 얻어진 고정 코드북 벡터에 승산하는 기능을 더 포함하는 것이 바람직하다. In the fixed codebook search of the sound quality enhancement layer, between the log scale value of the first gain value obtained by the fixed codebook search of the base layer and the log scale value of the second gain value obtained by the fixed codebook search in the sound quality enhancement layer. It is preferable to further include a function of obtaining a quantized gain value of the sound quality enhancement layer by using the result of quantizing the difference and multiplying the quantized gain value by the fixed codebook vector obtained by the fixed codebook search in the sound quality enhancement layer.
상기 음질 향상 계층은, 상기 대상신호를 인지 가중 필터링한 후, 상기 고정 코드북 탐색을 수행하는 것이 바람직하다. The sound quality enhancement layer may perform the fixed codebook search after the cognitive weighting filtering of the target signal.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 입력되는 음성신호를 선형 예측 부호화 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 필터링 된 음성 신호에 대응되는 여기 신호를 생성하는 기본 계층; 상기 기본 계층의 고정 코드북 탐색 대상 신호에서 기본 계층의 고정 코드북 기여도를 제거한 신호를 음질 향상 계층의 고정 코드북 탐색 대상 신호로 하여, 고정 코드북을 탐색하는 탐색부, 상기 기본 계층의 상기 고정 코드북 탐색에 의해 생성된 제 1 고정 코드북의 로그 스케일 이득값과 상기 고정 코드북 탐색부로부터 출력되는 제 2 고정 코드북의 로그 스케일 이득값간의 차를 검출하고, 검출된 차를 양자화 하는 로그 스케일 이득값 차 양자화기를 포함하는 음질 향상 계층을 복수개 구비하고, 상기 기본 계층에서 생성되는 신호와 상기 음질 향상 계층에서 생성되는 신호를 다중화 하는 다중화기를 포함하고, 상기 음질 향상 계층은 상기 음질 향상 계층에서 선형 예측 부호화 계수를 이용하여 고정 코드북을 합성한 신호를 상기 음질 향상 계층의 고정 코드북 탐색 대상 신호로부터 더 제거하는 것을 특징으로 하는 음성신호 부호화 장치를 제공한다. According to an aspect of the present invention, there is provided an apparatus, including: a base layer configured to linearly predictively code an input speech signal and generate an excitation signal corresponding to the filtered speech signal by fixed codebook searching and adaptive codebook searching; A searcher for searching for a fixed codebook by using a signal from which the fixed codebook contribution of the base layer is removed from the fixed codebook search target signal of the base layer as a fixed codebook search target signal of a sound quality enhancement layer, by the fixed codebook search of the base layer And a log scale gain value difference quantizer for detecting a difference between the generated log scale gain value of the first fixed codebook and the log scale gain value of the second fixed codebook output from the fixed codebook search unit, and quantizing the detected difference. And a multiplexer for multiplexing a signal generated in the base layer and a signal generated in the sound quality enhancement layer, wherein the sound quality enhancement layer is fixed using a linear prediction coding coefficient in the sound quality enhancement layer. Codebook synthesized signal of the sound quality enhancement layer And it provides an audio signal encoding apparatus according to claim 1, further removed from the constant codebook search target signal.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 입력된 음성신호의 선형 예측 계수를 추출하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 입력된 음성신호에 대응하는 여기 신호를 생성하는 기본 계층 처리 단계; 상기 기본 계층의 고정 코드북 탐색 대상 신호에서 기본 계층의 고정 코드북 기여도를 제거한 신호를 음질 향상 계층의 고정 코드북 탐색 대상 신호로 하여, 고정 코드북을 탐색하는 음질 향상 계층 처리 단계; 상기 기본 계층 처리 단계와 상기 음질 향상 계층 처리 단계에 의해 생성되는 신호를 다중화하는 단계를 포함하는 음성 신호 부호화 방법을 제공한다. According to an aspect of the present invention, there is provided a method, comprising: a base layer processing step of extracting a linear prediction coefficient of an input speech signal and generating an excitation signal corresponding to the input speech signal by a fixed codebook search and an adaptive codebook search; A sound quality enhancement layer processing step of searching for a fixed codebook by using a signal from which the fixed codebook contribution of the base layer is removed from the fixed codebook search target signal of the base layer as a fixed codebook search target signal of a sound quality enhancement layer; It provides a speech signal encoding method comprising the step of multiplexing the signal generated by the base layer processing step and the sound quality enhancement layer processing step.
이하 본 발명의 실시 예에 따른 비트율 확장 음성 부호화 및 복호화 장치와 그 방법을 살펴보면 다음과 같다. Hereinafter, a bit rate extended speech encoding and decoding apparatus and a method thereof according to an embodiment of the present invention will be described.
도 1은 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 부호화 장치의 기능 블록도이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 부호화 장치는 기본 계층(100)과 음질 향상 계층(130)을 포함하는 다층 고정 코드북 구조를 갖는다. 1 is a functional block diagram of a bit rate extended speech encoding apparatus according to an embodiment of the present invention. Referring to FIG. 1, a speech encoding apparatus according to an embodiment of the present invention has a multi-layer fixed codebook structure including a base layer 100 and a sound quality enhancement layer 130.
기본 계층(100)에서는 최소한의 음질을 복원할 수 있는 부호화 정보가 생성된다. 기본 계층(100)은 기존의 표준화된 CELP 음성 부호화기의 구성과 유사하다. 따라서, 기본 계층(100)은 입력 음성 신호를 선형 예측 부호화에 의해 필터링하여 입력 음성신호에 대응되는 여기 신호(excitation signal)를 생성한다. In the base layer 100, encoding information for restoring the minimum sound quality is generated. The base layer 100 is similar to the configuration of the existing standardized CELP speech coder. Accordingly, the base layer 100 filters the input speech signal by linear predictive coding to generate an excitation signal corresponding to the input speech signal.
기본 계층(100)은 전처리 유니트(102), LPC 계수 추출 및 벡터 양자화기(104), 합성 필터(106), 감산기(108), 인지 가중 필터(perceptual weighting filter)(110), 피치(pitch) 분석부(112), 피치 기여도(contribution) 제거부(115), 고정 코드북 탐색부(117), 고정 코드북(119), 제 1 승산기(121), 가산기(123), 적응 코드북(124), 제 2 승산기(126), 이득값 양자화기(129)로 구성된다. The base layer 100 includes a
전처리 유니트(102)는 라인(101)을 통해 입력되는 음성 신호에서 DC성분을 제거한다. 즉, 전처리 유니트(102)는 하이패스 필터를 사용하여 입력 음성 신호를 필터링하여 입력 음성 신호의 저주파 대역의 노이즈 성분을 제거한다. 사용된 하이패스 필터 Hh1(n)은 수학식 1과 같은 전달 함수를 갖는다.The
전처리 유니트(102)로부터 출력되는 신호는 라인(103)을 통해 LPC 계수 추출 및 벡터 양자화기(104)로 전송된다. The signal output from the
LPC 계수 추출 및 벡터 양자화기(104)는 상기 전처리 유니트(102)로부터 출력되는 신호의 LPC 계수를 추출한다. 추출된 LPC 계수는 LPC 계수 추출 및 벡터 양자화기(104)에 의해 벡터 양자화 된다. LPC 계수의 벡터 양자화 정보는 라인(105) 을 통해 합성 필터(106)와 다중화기(140)로 전송된다.The LPC coefficient extraction and
합성 필터(synthesis filter)(106)는 상기 LPC 계수의 벡터 양자화 정보를 이용하여 라인(128)을 통해 입력되는 여기 신호(excitation signal)에 대응되는 합성된 신호를 출력한다. 상기 합성된 신호는 라인(107)을 통해 감산기(108)로 출력된다. A
감산기(108)는 라인(103)을 통해 입력되는 전처리 유니트(102)로부터 출력되는 신호에서 라인(107)을 통해 입력되는 합성된 신호를 감산하여 차 신호를 생성한다. 상기 차 신호는 라인(109)을 통해 인지 가중 필터(110)로 전송된다.The
인지 가중 필터(110)는 인체 청각 구조의 마스킹(masking) 효과를 이용하기 위하여 양자화 잡음이 마스킹 임계치이하가 되도록 한다. 따라서 인지 가중 필터(110)는 상기 차 신호의 양자화 잡음이 최소화되도록 가중치를 포함하는 신호를 피치 분석부(112)로 출력한다. The
피치(pitch) 분석부(112)는 인지 가중 필터(110)로부터 출력되는 신호에 대해 개회로(open-loop) 피치와 폐회로(close-loop) 피치를 탐색한다. 즉, 피치 분석부(112)는 인지 가중 필터(110)로부터 출력되는 신호를 복수개의 서브프레임(subframe)으로 나누고, 상기 각 서브 프레임의 피치를 분석하여 적응 코드북의 인덱스와 이득값을 출력한다. 상기 적응 코드북의 인덱스는 라인(113)을 통해 피치 기여도 제거부(115)와 적응 코드북(124)으로 전송되면서 라인(114)을 통해 다중화기(140)로 전송된다. 또한, 상기 적응 코드북의 이득값은 이득값 양자화기(129)로 제공된다. The
피치 기여도 제거부(115)는 상기 적응 코드북의 인덱스를 토대로 인지 가중 필터(110)의 출력 신호로부터 고정 코드북 탐색을 위해 필요한 대상 신호(또는 타겟 벡터)를 검출한다. 그리고 피치 기여도 제거부(115)는 라인(111)에서 피치 기여도 y1(n)을 감산하여 고정 코드북 탐색 대상 신호를 라인(116)을 통해 기본 계층(100)의 고정 코드북 탐색부(117)와 음질 향상 계층(130)의 고정 코드북 탐색부(131)로 출력한다. 피치 기여도 y1(n)은 수학식 2에 의하여 구해진다. The
수학식 2에서 ACG(n)은 적응 코드북 이득값이 승산된 값이다. In Equation 2, AC G (n) is a value multiplied by an adaptive codebook gain value.
고정 코드북 탐색부(117)는 라인(111)을 통해 입력된 대상 신호 x'(n)을 사용하여 대상신호와 임펄스 응답 h(n)과의 상관도 d(n)을 구한다.The fixed
예를 들어 부프레임의 크기가 40샘플이고 각 계층의 펄스 수가 4개라고 가정하면, 상기 상관도 d(n)은 수학식 3과 같이 정의될 수 있다. For example, assuming that the size of the subframe is 40 samples and the number of pulses in each layer is four, the correlation d (n) may be defined as shown in Equation 3 below.
수학식 3에서 h(i-n)은 임펄스 응답이고, x'(n)은 대상 신호이다. In Equation 3, h (i-n) is an impulse response, and x '(n) is a target signal.
상기 임펄스 응답 h(n)과 상관도 d(n)은 라인(118')을 통하여 음질향상 계층(130)의 고정 코드북 탐색부(131)로 제공된다.The impulse response h (n) and the correlation d (n) are provided to the fixed
상기 고정 코드북 탐색부(117)는 상기 임펄스 응답 h(n)과 상기 상관도 d(n)을 토대로 표 1의 예와 같이 구성된 대수 코드북(algebraic codebook) 형태의 고정 코드북을 탐색한다. The fixed
표 1을 참고하면, 고정 코드북 탐색부(117)에서 고정 코드북 벡터는 4개의 위치에서만 그 펄스의 크기가 0이 아니다. 따라서 상기 펄스의 부호 s와 상관도 d(n)를 이용하여 각 펄스의 상관도 d(n)의 크기의 합인 상관도 C는 수학식 2와 같이 정의될 수 있다. 고정 코드북 탐색부(117)는 수학식 4에 의해 상관도 C를 검출한다. Referring to Table 1, in the fixed
수학식 4에서 mi는 i번째 펄스의 위치를 나타내고, si는 i번째 펄스의 부호를 나타낸다. 고정 코드북 검출부(117)는 합성 필터(106)의 임펄스 응답 h(n)의 에너지 E를 수학식 5에 의해 검출한다. In Equation 4, m i represents the position of the i-th pulse, s i represents the sign of the i-th pulse. The fixed
수학식 5에서 ??(mi, mj)는 i번째 펄스의 위치와 j번째 펄스의 위치에 대한 임펄스 응답신호 h(n)간의 상관도이고, si는 i번째 펄스의 부호이고, sj는 j번째 펄스의 부호이다. ?? (m i , m j ) in Equation 5 is a correlation between the position of the i-th pulse and the impulse response signal h (n) with respect to the position of the j-th pulse, s i is the sign of the i-th pulse, and s j is the sign of the j th pulse.
상기 고정 코드북 탐색부(117)는 상기 상관도 C와 임펄스 응답 h(n)의 에너지 E를 저장한다. 상관도 C는 부호 sign[d(i)]와 그 절대값으로 나뉘어 저장된다. sign[d(i)]는 d(i)의 부호이다. 상기 에너지 E는 수학식 6와 같은 형태로 저장된다. The fixed
에너지 E에 대한 수학식 5은 수학식 7와 같이 재 정의될 수 있다. Equation 5 for energy E may be redefined as in Equation 7.
고정 코드북 탐색부(117)는 상기 검출된 상관도 C와 에너지 E를 라인(118")을 통해 음질 향상 계층(130)의 고정 코드북 탐색부(131)로 제공하면서, 검출된 상관도 C와 에너지 E를 이용하여 대수 코드북으로 구성된 고정 코드북을 탐색한다. 상기 고정 코드북 탐색에 의해 고정 코드북 인덱스와 이득 값이 얻어지면, 고정 코드북 탐색부(117)는 상기 고정 코드북 인덱스를 고정 코드북(119)과 다중화기(140)로 전송하고, 상기 이득 값을 이득값 양자화기(129)로 전송한다. The fixed
고정 코드북(119)은 라인(118)을 통해 입력된 인덱스를 토대로 기본 계층(100)의 고정 코드북 벡터를 출력한다. 고정 코드북(119)에서 출력되는 고정 코드북 벡터는 라인(120)을 통해 제 1 승산기(121)로 제공된다.The fixed
제 1 승산기(121)는 이득값 양자화기(129)에서 제공되는 상기 고정 코드북의 이득 값에 대한 양자화 이득 값 Gc를 상기 펄스 위치와 부호 정보에 승산하고 그 결과를 라인(122)을 통해 출력한다. 라인(122)을 통해 출력되는 신호는 고정 코드북의 벡터이다. 상기 양자화 이득값 Gc는 이득값 양자화기(129)로부터 제공된다. The
라인(113)을 통해 적응 코드북 인덱스가 인가되면, 적응 코드북(124)은 상기 적응 코드북 인덱스에 대응되는 펄스의 위치 정보와 부호 정보를 출력한다. 라인(125)을 통해 출력되는 적응 코드북 벡터는 제 2 승산기(126)로 제공된다. When the adaptive codebook index is applied through the
제 2 승산기(126)는 적응 코드북의 이득값에 대한 양자화된 이득값 Gp를 상기 라인(125)을 통해 전송되는 적응 코드북 벡터에 승산하고, 그 결과를 라인(127)을 통해 출력한다. 상기 라인(127)을 통해 출력되는 신호는 이득값 Gp가 승산된 적응 코드북의 벡터이다. 상기 양자화된 이득값 Gp는 이득값 양자화기(129)로부터 제공된다. The
가산기(123)는 라인(122)을 통해 입력되는 이득값 Gc가 승산된 고정 코드북 벡터와 라인(127)을 통해 입력되는 이득값 Gp가 승산된 적응 코드북 벡터를 가산하여 여기 신호를 얻는다. 상기 여기 신호는 라인(128)을 통해 합성 필터(106)로 출력된다. The
이득값 양자화기(129)는 고정 코드북 탐색부(117)로부터 출력되는 고정 코드북의 이득값과 피치 분석부(112)로부터 출력되는 적응 코드북의 이득값을 각각 양자화한다. 상기 고정 코드북의 이득값을 양자화한 이득값 Gc은 제 1 승산기(121)로 출력되고, 적응 코드북의 이득값을 양자화한 이득값 Gp는 제 2 승산기(126)로 출력된다. 상기 양자화한 이득값 Gc는 음질 향상 계층(130)에 포함되어 있는 이득값 차 양자화기(134)로도 제공된다. The
음질 향상 계층(130)은 복원되는 음질을 향상시키기 위하여 기본 계층(100)에서 제공되는 비트이외에 추가적인 비트를 더 제공하기 위한 것이다. 예를 들어 기본 계층(100)이 8kbps의 비트율을 제공할 때, 음질 향상 계층(130)이 4kbps의 추가 비트율을 제공할 수 있다. 도 1은 설명의 편의를 위하여 하나의 음성 향상 계층(130)이 기본 계층(100)에 연결된 구성을 도시하였으나, 복수개의 음성 향상 계층이 기본 계층(100)에 연결될 수 있다. The sound quality enhancement layer 130 is to provide additional bits in addition to the bits provided in the base layer 100 in order to improve the restored sound quality. For example, when the base layer 100 provides a bit rate of 8 kbps, the sound quality enhancement layer 130 may provide an additional bit rate of 4 kbps. 1 illustrates a configuration in which one voice enhancement layer 130 is connected to the base layer 100 for convenience of description, but a plurality of voice enhancement layers may be connected to the base layer 100.
음질 향상 계층(130)은 고정 코드북 탐색부(131)와 이득값 차 양자화기(134)로 구성된다. 고정 코드북 탐색부(131)는 라인(118')을 통해 제공되는 임펄스 응답 신호 h(n), 대상 신호와 임펄스 응답신호 h(n)의 상관도인 d(n), 펄스의 부호와 상기 상관도인 d(n)을 이용하여 검출된 d(n)의 크기 정보에 해당되는 상관도 C 및 임펄스 응답 신호 h(n)의 에너지 E를 이용하여 대수 코드북으로 구성된 고정 코드북을 탐색한다. The sound quality enhancement layer 130 includes a fixed
이와 같이 고정 코드북 탐색부(131)는 고정 코드북 탐색부(117)에서 탐색된 대상 신호와 동일한 대상 신호에 대한 고정 코드북 탐색을 수행한다. 고정 코드북 탐색부(131)는 대수 코드북을 사용한다. 고정 코드북 탐색부(131)는 대상 신호(타겟 벡터)의 MSE(Mean Square Error)를 최소화하고, 수학식 6을 최대화하는 벡터 ck를 찾는다. 찾아진 벡터 ck가 고정 코드북 벡터가 된다.As described above, the fixed
수학식 8에서 Φ는 임펄스 응답 h(n)간의 상관도를 나타낸다. 상기 d(n)과 Φ는 기본 계층(100)에서 제공하는 값을 이용한다. 상기 Φ은 고정 코드북 탐색부(117)로부터 제공된다. 따라서, 고정 코드북 탐색부(131)는 고정 코드북 탐색 시 필요한 연산량을 줄일 수 있다. In Equation 8 Φ represents the correlation between the impulse response h (n). The d (n) and Φ use values provided by the base layer 100. Φ is provided from the fixed
기본 계층(100)의 고정 코드북 벡터의 차수가 40이고, 기본 계층(100)과 음질 향상 계층(130)에서 크기가 0이 아닌 펄스를 각각 4개 찾는다고 가정하면, 기본 계층(100)의 고정 코드북(117)에서 먼저 4개의 펄스를 찾고 음질 향상 계층(130)의 고정 코드북 탐색부(131)에서 4개의 펄스를 찾기 때문에, 고정 코드북 탐색부(131) 는 기본 계층(100)에서 찾은 4개의 펄스의 영향도 고려한다. 따라서, 고정 코드북 탐색부(131)에서 얻어지는 상관도 C'는 수학식 9와 같이 정의될 수 있고, 에너지 E'는 수학식 10과 같이 정의될 수 있다. Assuming that the degree of the fixed codebook vector of the base layer 100 is 40 and that the base layer 100 and the sound quality enhancement layer 130 find four non-zero pulses, respectively, the base layer 100 is fixed. Since the
수학식 4에 정의된 상관도 C값을 이용하여 상기 수학식 9는 수학식 11와 같이 재 정의될 수 있다. Equation 9 may be redefined as in Equation 11 using the correlation C value defined in Equation 4.
고정 코드북 탐색부(131)는 탐색 과정의 복잡도를 줄이기 위하여 에너지 E 을 수학식 12과 같이 재 정의된 연산에 의해 검출할 수 있다. The fixed
수학식 12는 수학식 7에 정의되어 있는 에너지 E를 이용하면, 수학식 13과 같이 재 정의될 수 있다. Equation 12 may be redefined as in Equation 13 using the energy E defined in Equation 7.
상관도 C'와 에너지 E'는 음질 향상 계층(130)에서의 고정 코드북 탐색 이전에 저장되어 고정 코드북 탐색 과정을 간소화 할 수 있다. The correlation C 'and the energy E' may be stored before the fixed codebook search in the sound quality enhancement layer 130 to simplify the fixed codebook search process.
상술한 상관도 C', 에너지 E'를 이용하여 음질 향상 계층(130)의 펄스의 부호 정보와 위치 정보를 얻기 위한 고정 코드북 탐색부(131)의 과정은 기본 계층(100)의 고정 코드북 탐색부(117)에서 수행되는 방식과 동일하게 이루어진다. 이 때, 기본 계층(100)에서 탐색된 펄스의 위치 정보와 음질 향상 계층에서 탐색된 펄스의 위치 정보는 동일할 수 있다.Of the fixed
도 2는 도 1의 비트율 확장 음성 부호화 장치에 있어서 고정 코드북 탐색부(117)에 의해 탐색된 펄스의 위치와 고정 코드북 탐색부(131)에 의해 탐색된 펄스의 위치를 설명하기 위한 도면이다. FIG. 2 is a diagram for describing a position of a pulse searched by the fixed
도 2를 참조하면, 고정 코드북 탐색(201)에서 탐색된 펄스의 위치는 음질 향상 계층 고정 코드북 탐색(202)에서 탐색된 펄스의 위치와 같을 수 있다. 따라서, 최종 고정 코드북의 펄스의 크기는 기본 계층(100)과 음질 향상 계층(130)의 고정 코드북 펄스의 크기를 포함한 다중 크기를 갖는다. 따라서, 대수 코드북의 펄스의 크기는 +1 또는 -1만 갖지 않는다. Referring to FIG. 2, the position of the pulse searched in the fixed
고정 코드북 탐색부(131)는 탐색 결과에 따라 얻어진 고정 코드북 벡터는 다중화기(140)로 제공하고, 고정 코드북의 이득값을 이득값 차 양자화기(134)로 제공한다. 상기 음질 향상 계층(130)에서의 상기 고정 코드북 인덱스는 펄스 부호 정보와 펄스의 위치 정보로 구성 될 수 있다.The fixed
이와 같이 음질 향상 계층(130)에서 탐색된 고정 코드북 인덱스는 다음 프레임을 위하여 저장되지 않아 기본 계층(100)의 동작에 영향을 주지 않는다. As such, the fixed codebook index found in the sound quality enhancement layer 130 is not stored for the next frame and thus does not affect the operation of the base layer 100.
이득값 차 양자화기(134)는 고정 코드북 탐색부(131)에서 구한 고정 코드북의 이득값(132)과 기본 계층(100)에서 양자화된 고정 코드북의 이득값(Gc)간의 차를 구하고, 상기 차를 양자화 한다. 이에 따라 이득값 차 양자화 정보(Gdiff)가 이득값 차 양자화기(134)로부터 라인(135)을 통해 다중화기(140)로 전송되므로, 음질 향상 계층(130)은 고정 코드북의 이득값에 대한 양자화 비트를 줄일 수 있다. The
다중화기(140)는 기본 계층(100)으로부터 제공되는 LPC 계수 양자화 정보, 고정 코드북 인덱스, 적응 코드북 인덱스, 이득값 양자화 정보와 음질 향상 계층(130)으로부터 제공되는 음질 향상 계층의 고정 코드북 인덱스, 이득값 차 양자화 정보를 비트 스트림으로 출력한다. The
기본 계층(100)과 음질 향상 계층(130)의 비트 스트림은 구분하여 전송한다.즉, 도 1에 도시된 바와 같이 음질 향상 계층(130)의 비트 스트림은 기본 계층(100)의 비트 스트림 뒤에 전송된다. 이에 따라 상기 비트 스트림은 네트워크 트래픽 상태에 따라 복호화 장치에 필요한 비트율로 쉽게 분리될 수 있다. 예를 들어 복호화 장치측의 채널 특성이 열악하여 기본 계층의 비트 스트림만 수신할 수 있는 경우에, 상기 복호화 장치는 도 1의 비트율 확장 음성 부호화 장치가 송출하는 비트 스트림에서 기본 계층의 비트 스트림만 수신할 수 있다. The bit streams of the base layer 100 and the sound quality enhancement layer 130 are separately transmitted. That is, as shown in FIG. 1, the bit streams of the sound quality enhancement layer 130 are transmitted after the bit streams of the base layer 100. do. Accordingly, the bit stream can be easily separated at the bit rate required for the decoding apparatus according to the network traffic conditions. For example, when the channel characteristic of the decoding apparatus is poor and only the bit stream of the base layer can be received, the decoding apparatus receives only the bit stream of the base layer from the bit stream transmitted by the bit rate extension speech encoding apparatus of FIG. 1. can do.
도 3은 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 복호화 장치의 블록도이다. 3 is a block diagram of a bit rate extended speech decoding apparatus according to an exemplary embodiment of the present invention.
도 3을 참조하면, 상기 비트율 확장 음성 복호화 장치는 역다중화기(301), LPC 계수 복호화부(302), 이득값 복호화부(303), 제 1 고정 코드북 복호화부(304), 적응 코드북 복호화부(305), 이득값 차 복호화부(306), 제 2 고정 코드북 복호화부(307), 제 1 가산기(308), 제 2 가산기(309), 제 1 선택 스위치(310), 제 2 선택 스위치(311), 제 1 승산기(312), 제 2 승산기(313), 제 3 가산기(314), 합성 필터(315), 및 후처리부(316)로 구성된다. Referring to FIG. 3, the apparatus for decoding a bit rate extension speech includes a
상기 비트율 확장 음성 복호화 장치는 비트율 확장 음성 부호화장치로부터 전송되는 비트 스트림을 선택적으로 수신할 수 있다. 즉, 비트 스트림에서 기본 계층에 대한 비트 스트림만 수신하면, 기본 계층의 음질을 복원할 수 있고, 기본 계층 및 음질 향상 계층에 대한 비트 스트림을 모두 수신하면, 좀더 향상된 음질을 제공할 수 있다. The bit rate extended speech decoding apparatus may selectively receive a bit stream transmitted from the bit rate extended speech encoding apparatus. That is, if only the bit stream for the base layer is received in the bit stream, the sound quality of the base layer can be restored, and if both the bit streams for the base layer and the sound quality enhancement layer are received, a more improved sound quality can be provided.
역다중화기(301)는 수신되는 비트 스트림을 각 모듈의 정보로 역다중화하여 출력한다. 즉, 역다중화기(301)는 LPC 계수 양자화 정보를 LPC 계수 복호화부(302)로, 이득값 양자화 정보는 이득값 복호화부(303)로, 이득값 차 양자화 정보는 이득값 차 복호화부(306)로, 음질 향상 계층의 고정 코드북 인덱스는 제 2 고정 코드북 복호화부(307)로, 고정 코드북 인덱스는 제 1 고정 코드북 복호화부(304)로, 적응 코드북 인덱스는 적응 코드북 복호화부(305)로 각각 제공한다. The
LPC 계수 복호화부(302)의 구조는 부호화 장치측의 LPC 계수 추출 및 벡터 양자화기(104)에 의해 결정되고, 입력되는 LPC 계수 양자화 정보로부터 LPC 계수를 복원한다. 복원된 LPC 계수는 합성 필터(315)와 후처리부(316)로 제공된다. The structure of the
이득값 복호화부(303)의 구조는 부호화 장치측의 이득값 양자화기(129)에 의해 결정된다. 이득값 복호화부(303)는 입력되는 이득값 양자화 정보를 디코딩한다. 상기 이득값 양자화 정보는 적응 코드북 이득값과 고정 코드북 이득값을 포함한다. 따라서, 이득값 복호화부(303)로부터 기본 계층(100)에서의 적응 코드북 이득값 gp와 고정 코드북 이득값 gc가 각각 출력된다. The structure of the
제 1 고정 코드북 복호화부(304)는 입력되는 기본 계층(100)의 고정 코드북 인덱스를 디코딩하여 기본 계층(100)의 고정 코드북을 출력한다. 고정 코드북 복호 방식은 부호화장치의 고정 코드북 탐색부(117)에서의 탐색방식에 의해 결정된다. 적응 코드북 복호화부(305)는 입력되는 적응 코드북 인덱스를 디코딩하여 기본 계층(100)의 적응 코드북을 출력한다. The first fixed
상술한 LPC 계수 복호화부(302), 이득값 복호화부(303), 제 1 고정 코드북 복호화부(304), 및 적응 코드북 복호화부(305)는 역다중화기(301)로부터 전송되는 기본 계층(100)에서의 부호화 정보를 디코딩하는 제 1 복호화 유니트로 정의될 수 있다. The
이득값 차 복호화부(306)와 제 2 고정 코드북 복호화부(307)의 동작은 네트워크 트랙픽 상태나 수신 단말의 처리 용량에 의존한다. The operation of the gain
만약 이득값 차 복호화부(306)와 제 2 고정 코드북 복호화부(307)가 동작되는 것으로 결정되면, 이득값 차 복호화부(306)는 입력되는 이득값 차 양자화 정보를 디코딩한다. 제 2 고정 코드북 복호화부(307)는 입력되는 음질 향상 계층의 고정 코드북 인덱스를 디코딩한다. 이득값 차 복호화 방식은 부호화 장치측의 이득값 차 양자화기(134)에 의해 결정된다. 제 2 고정 코드북 복호화부(307)에서의 디코딩 방식은 부호화장치측의 제 2 고정 코드북 탐색부(131)에 의해 결정된다. If it is determined that the gain
이득값 차 복호화부(306)와 제 2 고정 코드북 복호화부(307)는 역다중화기(301)로부터 전송되는 음질 향상 계층(130)에서의 부호화 정보를 디코딩하는 제 2 복호화 유니트로 간주될 수 있다. The gain
제 1 가산기(308)는 이득값 복호화부(303)로부터 출력되는 디코딩된 고정 코 드북의 이득값 gc와 이득값 차 복호화부(306)로부터 출력되는 디코딩된 이득값 차 gdiff를 가산한다. 제 1 가산기(308)의 출력은 복호화시 음질 향상 계층의 이득값이다. The
제 2 가산기(309)는 제 2 고정 코드북 복호화부(307)에서 디코딩된 음질 향상 계층(130)의 고정 코드북과 제 1 고정 코드북 복호화부(304)에서 디코딩된 기본 계층(100)의 고정 코드북을 가산한다. 따라서, 제 2 가산기(309)로부터 출력되는 신호는 수학식 13와 같이 정의할 수 있다. The second adder 309 selects the fixed codebook of the sound quality enhancement layer 130 decoded by the second fixed
수학식 14에서 c(n)은 기본 계층에서의 고정 코드북이고, c'(n)은 음질 향상 계층에서의 고정 코드북이다. In Equation 14, c (n) is a fixed codebook in the base layer, and c '(n) is a fixed codebook in the sound quality enhancement layer.
이에 따라 복호화 장치에서의 고정 코드북 펄스는 기본 계층과 음질 향상 계층의 대수 코드북을 누적시켜 다중 크기를 갖는 대수 코드북 펄스 구조를 갖는다. 상기 대수 코드북을 누적시키는 것은 모든 펄스의 크기가 같은 크기를 갖는 기존의 고정 코드북 구조에서 발생되는 단점을 보완하기 위한 것이다. 따라서 누적시킨 대수 코드북의 펄스 부호는 대상 신호에 적합한 부호를 갖는다. Accordingly, the fixed codebook pulse in the decoding apparatus has an algebraic codebook pulse structure having multiple magnitudes by accumulating algebraic codebooks of the base layer and the sound quality enhancement layer. Accumulating the algebraic codebooks is to compensate for the disadvantages of the existing fixed codebook structure in which all pulses have the same magnitude. Therefore, the accumulated pulse code of the algebraic codebook has a code suitable for the target signal.
제 1 선택 스위치(310)는 이득값 복호화부(303)에서 디코딩된 고정 코드북 이득값 gc와 제 1 가산기(308)에서 출력되는 신호를 선택적으로 전송한다. 즉, 복호화 장치가 기본 계층으로 동작하면, 제 1 선택 스위치(310)는 이득값 복호화부(303)로부터 출력되는 고정 코드북 이득값 gc를 전송하고, 해당되는 복호화 장치가 음질 향상 계층으로 동작하면, 제 1 선택 스위치(310)는 가산기(308)로부터 출력되는 이득값을 전송한다. The
제 2 선택 스위치(311)는 제 2 가산기(309)로부터 출력되는 신호와 제 1 고정 코드북 복호화부(304)에서 출력되는 기본 계층(100)에서의 고정 코드북을 선택적으로 전송한다. 즉, 상기 복호화 장치가 음질 향상 계층에서 동작되지 않을 경우에, 제 2 선택 스위치(311)는 제 1 고정 코드북 복호화부(304)에서 출력되는 신호를 전송하고, 상기 복호화 장치가 음질향상 계층에서 동작할 경우에, 제 2 선택 스위치(311)는 제 2 가산기(309)로부터 출력되는 신호를 전송한다. The
제 1 승산기(312)는 제 2 선택 스위치(311)로부터 출력되는 고정 코드북에 제 1 선택 스위치(310)에서 출력되는 이득값을 승산하여 출력한다. The
제 2 승산기(313)는 적응 코드북 복호화부(305)로부터 출력되는 디코딩된 적응 코드북에 이득값 복호화부(303)로부터 출력되는 적응 코드북의 이득값 gp를 승산하여 출력한다. The
제 3 가산기(314)는 제 1 승산기(312)로부터 출력되는 고정 코드북에 대한 정보와 제 2 승산기(313)로부터 출력되는 적응 코드북에 대한 정보를 가산하여 복원된 여기 신호를 발생한다. The
상술한 제 1 가산기(308), 제 2 가산기(309), 제 3 가산기(314), 제 1 승산기(312), 제 2 승산기(313), 제 1 선택 스위치(310) 및 제 2 선택 스위치(311)는 상술한 제 1 복호화 유니트와 제 2 복호화 유니트에서 각각 디코딩된 신호를 상기 복호화 장치의 동작환경에 따라 연산하는 연산 유니트로 정의될 수 있다. The
합성 필터(315)는 LPC 계수 복호화부(302)로부터 제공되는 복원된 LPC 계수를 이용하여 가산기(314)로부터 제공되는 여기 신호를 합성하여 음성신호를 복원한다. The
후처리부(316)는 합성 필터(315)로부터 전송되는 음성신호의 음질을 향상시키는 역할을 한다. 즉, 후처리부(316)는 음성 신호의 음질을 향상시키기 위하여, LPC 계수 복호화부(302)로부터 제공되는 LPC 계수를 이용하여 합성 필터(315)로부터 출력되는 신호를 필터링 하기 위한 하이패스 필터(High Pass Filtering)를 사용한다. The
상술한 합성 필터(315)와 후처리부(316)는 상기 연산 유니트로부터 출력되는 신호를 LPC 계수 복호화부(302)로부터 출력되는 LPC 계수와 합성하여 음성신호를 복원하는 복원 유니트로 정의될 수 있다. The
도 4는 본 발명의 일 실시 예에 따른 비트율 확장 음성 부호화 방법의 동작 흐름도이다.4 is a flowchart illustrating an operation of a bit rate extended speech encoding method according to an embodiment of the present invention.
제 401 단계에서 음성신호 부호화 장치는 도 1의 전처리 유니트(102)와 같이 입력된 음성 신호를 전처리한다. 제 402 단계에서 음성신호 부호화 장치는 전처리된 음성 신호에서 LPC 계수를 추출하고, 추출된 LPC 계수의 양자화 정보를 생성한다.In
제 403 단계에서 음성 신호 부호화 장치는 생성된 LPC 계수의 양자화 정보를 이용하여 여기 신호를 도 1의 합성 필터(106)에서와 같이 합성한다. 제 404 단계에서 음성신호 부호화 장치는 상기 전처리된 신호에서 상기 합성된 신호를 감산하여 LPC 잔차 신호를 검출한다. 제 405 단계에서 음성 신호 부호화 장치는 검출된 LPC 잔차 신호를 도 1의 인지 가중 필터(110)에서와 같이 필터링하여 인지 가중된 신호를 출력한다. In
제 406 단계에서 음성 신호 부호화 장치는 인지 가중된 신호의 피치를 도 1의 피치 분석부(112)와 같이 분석하여 적응 코드북의 인덱스와 이득값을 얻는다. 그리고 도 1의 피치 기여도 제거부(115)와 같이 적응 코드북의 인덱스를 토대로 인지 가중된 신호에서 피치 기여도를 제거하여 고정 코드북 탐색을 위해 필요한 대상 신호를 검출한다. In
제 407 단계에서 음성 신호 부호화 장치는 도 1의 제 1 고정 코드북 탐색부(117)에서와 같이 기본 계층 고정 코드북을 탐색하여 고정 코드북 이득값과 고정 코드북 인덱스를 생성한다. 제 408 단계에서 음성 신호 부호화 장치는 도 1의 이득값 양자화기(129)에서와 같이 상기 검출된 고정 코드북 이득값과 상기 검출된 적응 코드북 이득값을 양자화 한다. In
제 409 단계에서 음성 신호 부호화 장치는 기본 계층에서의 상관도들 C 및 d(n), 에너지 E와 같은 매개 변수를 이용하여 음질 향상 계층 고정 코드북을 탐색한다. 음질 향상 계층 고정 코드북 탐색에 의해 음질 향상 계층 고정 코드북의 이득값과 음질 향상 계층 고정 코드북의 인덱스가 각각 생성된다. In
제 410 단계에서 음성 신호 부호화 장치는 기본 계층 고정 코드북의 이득값 과 음질 향상 계층의 고정 코드북의 이득값 간의 차를 양자화 한다. 상술한 음질 향상 계층에서의 고정 코드북 탐색 및 이득값 양자화 과정은 도 1에서 설명한 바와 같이 복수 개로 나누어 수행될 수 있다. 음질 향상 계층의 처리가 복수개로 나누어 수행되면, 그만큼 복원되는 음성 신호의 질이 향상될 수 있다. In
제 411 단계에서 음성 신호 부호화 장치는 상술한 단계들을 통해 얻은 LPC 계수 양자화 정보, 기본 계층의 고정 코드북 인덱스, 기본 계층의 적응 코드북 인덱스, 기본 계층의 고정 코드북의 이득값, 기본 계층의 적응 코드북의 이득값, 음질 향상 계층의 고정 코드북 인덱스 및 상기 이득값 차 양자화 정보를 비트 스트림 형태로 다중화하여 음성신호 복호화 장치측으로 송출한다. In
도 5는 본 발명의 바람직한 일 실시 예에 따른 비트율 확장 음성 복호화 방법의 동작 흐름도이다. 5 is a flowchart illustrating an operation of a bit rate extended speech decoding method according to an exemplary embodiment of the present invention.
제 501 단계에서 음성 신호 복호화 장치는 도 3의 역다중화기(301)와 같이 수신되는 비트 스트림을 각 구성의 정보로 역다중화한다. In
제 502 단계에서 음성 신호 복호화 장치는 상기 역다중화된 신호를 디코딩한다. 즉, 도 3의 LPC 계수 복호화부(302), 이득값 복호화부(303), 제 1 고정 코드북 복호화부(304), 적응 코드북 복호화부(305), 이득값 차 복호화부(306), 제 2 고정 코드북 복호화부(307)와 같이 상기 역다중화 된 신호를 디코딩한다. In
제 503 단계에서 음성 신호 복호화 장치는 음질 향상 계층 고정 코드북 이득값을 소정 연산처리에 의해 복원한다. 상기 음성 신호 복호화 장치는 복호화된 고정 코드북 이득값과 음질 향상 계층의 고정 코드북 이득값의 양자화 정보로 수신된 이득값 차를 가산하여 음질 향상 계층의 고정 코드북 이득값을 복원한다.In
제 504 단계에서 음성 신호 복호화 장치는 음성신호 복호화 장치의 동작 조건에 따라 음질 향상 계층의 고정 코드북과 기본 계층의 고정 코드북을 선택적으로 전송하고, 이득값도 선택적으로 전송된다. 즉, 음성 신호 복호화 장치가 음질 향상 계층에서 동작되면, 복원된 음질 향상 계층의 고정 코드북의 이득값이 승산된 음질 향상 계층의 고정 코드북을 전송시킨다. 반면에 음성 신호 부호화 장치가 음질 향상 계층에서 동작되지 않으면, 복호화된 기본 계층의 고정 코드북에 기본 계층의 고정 코드북의 이득값을 승산한 고정 코드북을 전송시킨다. In
제 505 단계에서 음성 신호 복호화 장치는 제 502 단계에서 복호화된 LPC 계수를 이용하여 제 504 단계에서 선택적으로 전송된 고정 코드북을 합성한다. In
제 506 단계에서 음성 신호 복호화 장치는 후처리부(316)와 같이 후처리하여 복원된 음성 신호를 생성한다.In operation 506, the voice signal decoding apparatus post-processes the
도 6은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 부호화 장치의 기능 블록도이다. 도 6을 참조하면, 상기 비트율 확장 음성 부호화 장치는 기본 계층(600)과 음질 향상 계층(630)을 포함하는 다층 고정 코드북 구조를 갖는다.6 is a functional block diagram of a bit rate extended speech encoding apparatus according to another exemplary embodiment of the present invention. Referring to FIG. 6, the apparatus for encoding a bit rate extension speech codec has a multilayer fixed codebook structure including a base layer 600 and a sound quality enhancement layer 630.
기본 계층(600)에서는 최소한의 음질을 복원할 수 있는 부호화 정보가 생성된다. 기본 계층(600)은 기존의 표준화된 CELP 음성 부호화기의 구성과 유사하다. 따라서, 기본 계층(600)은 입력 음성 신호를 선형 예측 부호화에 의해 필터링하고 상기 필터링된 음성 신호에 대응되는 여기 신호(excitation signal)를 생성한다. 여기 신호는 고정 코드북 탐색과 적응 코드북 탐색에 의해 생성된다.In the base layer 600, encoding information for restoring the minimum sound quality is generated. The base layer 600 is similar to the configuration of the existing standardized CELP speech coder. Accordingly, the base layer 600 filters the input speech signal by linear predictive coding and generates an excitation signal corresponding to the filtered speech signal. The excitation signal is generated by fixed codebook search and adaptive codebook search.
기본 계층(600)은 전처리 유니트(602), LPC 계수 추출 및 벡터 양자화기(604), 합성 필터(606), 감산기(608), 인지 가중 필터(perceptual weighting filter)(610), 피치(pitch) 분석부(612), 피치 기여도(contribution) 제거부(615), 고정 코드북 탐색부(617), 고정 코드북(619), 제 1 승산기(621), 가산기(623), 적응 코드북(624), 제 2 승산기(626), 이득값 양자화기(629)로 구성된다. Base layer 600 includes preprocessing
전처리 유니트(602)는 라인(601)을 통해 입력되는 음성 신호에서 DC성분을 제거한다. 즉, 전처리 유니트(602)는 하이패스 필터를 사용하여 입력 음성 신호를 필터링하여 입력 음성 신호의 저주파 대역의 노이즈 성분을 제거한다. 사용된 하이패스 필터는 본 발명의 일 실시 예에서 기본 계층(100)의 전처리 유니트(102)의 하이패스 필터와 동일하다. 전처리 유니트(602)로부터 출력되는 신호는 라인(603)을 통해 LPC 계수 추출 및 벡터 양자화기(604)로 전송된다. The
LPC 계수 추출 및 벡터 양자화기(604)는 상기 전처리 유니트(602)로부터 출력되는 신호의 LPC 계수를 추출한다. 추출된 LPC 계수는 LPC 계수 추출 및 벡터 양자화기(604)에 의해 벡터 양자화 된다. LPC 계수의 벡터 양자화 정보는 라인(605)을 통해 합성 필터(606)와 다중화기(650)로 전송된다. The LPC coefficient extraction and
합성 필터(synthesis filter)(606)는 상기 LPC 계수의 벡터 양자화 정보를 이용하여 라인(628)을 통해 입력되는 여기 신호(excitation signal)에 대응되는 합성된 신호를 출력한다. 상기 합성된 신호는 라인(607)을 통해 감산기(608)로 출력된다.A
감산기(608)는 라인(603)을 통해 입력되는 전처리 유니트(602)로부터 출력되는 신호에서 라인(607)을 통해 입력되는 합성된 신호를 감산하여 LPC 잔차 신호를 생성한다. 상기 LPC 잔차 신호는 라인(609)을 통해 인지 가중 필터(610)로 전송된다.The
인지 가중 필터(610)는 인체 청각 구조의 마스킹(masking) 효과를 이용하기 위하여 양자화 잡음이 마스킹 임계치이하가 되도록 한다. 따라서 인지 가중 필터(610)는 상기 LPC 잔차 신호의 양자화 잡음이 최소화되도록 가중치를 포함하는 신호를 피치 분석부(612)로 출력한다. The
피치(pitch) 분석부(612)는 인지 가중 필터(610)로부터 출력되는 신호에 대해 개회로(open-loop) 피치와 폐회로(close-loop) 피치를 탐색한다. 즉, 피치 분석부(612)는 인지 가중 필터(610)로부터 출력되는 신호를 복수개의 피치 서브프레임(subframe)으로 나누고, 상기 표준화된 CLEP 음성 부호화장치에서와 같이 각 서브 프레임의 피치를 분석하여 적응 코드북의 인덱스와 이득값을 출력한다. The
상기 적응 코드북의 인덱스는 라인(613)을 통해 피치 기여도 제거부(615)와 적응 코드북(624)으로 전송되면서 라인(614)을 통해 다중화기(650)로 전송된다. 또한, 상기 적응 코드북의 이득값은 이득값 양자화기(629)로 제공된다. The index of the adaptive codebook is transmitted to the
피치 기여도 제거부(615)는 상기 적응 코드북의 인덱스를 토대로 인지 가중 필터(610)의 출력 신호로부터 고정 코드북 탐색을 위해 필요한 대상 신호를 출력한다. 그리고 피치 기여도 제거부(615)는 라인(611)에서 피치 기여도 y1(n)을 감산하 여 고정 코드북 탐색 대상 신호를 라인(616)을 통해 기본 계층(600)의 고정 코드북 탐색부(617)로 출력한다. 피치 기여도 y1(n)은 수학식 2에 의하여 구해진다. The
고정 코드북 탐색부(617)은 라인(611)을 통해 입력된 대상 신호 x'(n)을 사용하여 대상 신호와 임펄스 응답 h(n)과의 상관도 d(n)을 구한다. The fixed
예를 들어 부프레임의 크기가 40샘플이고 각 계층의 펄스 수가 4개라고 가정하면, 상기 상관도 d(n)은 수학식 1과 같이 정의될 수 있다. For example, assuming that the size of the subframe is 40 samples and the number of pulses in each layer is 4, the correlation d (n) may be defined as in Equation 1.
상기 고정 코드북 탐색부(617)는 상기 임펄스 응답 h(n)과 상기 상관도 d(n)을 토대로 상기 표 1의 예와 같이 구성된 대수 코드북(algebraic codebook) 형태의 고정 코드북을 탐색한다. 표 1을 참고하면, 고정 코드북 탐색부(617)에서 고정 코드북 벡터는 4개의 위치에서만 그 펄스의 크기가 0이 아니다. 따라서 상기 펄스의 부호 s와 상관도 d(n)을 이용한 상관도 d(n)의 크기에 대응되는 상관도 C는 수학식 2와 같이 정의될 수 있다. 고정 코드북 탐색부(617)는 수학식 2에 의해 상관도 C를 검출한다. 고정 코드북 검출부(617)는 임펄스 응답 에너지 E를 수학식 3에 의해 검출한다. The fixed
상기 고정 코드북 탐색부(617)는 상기 상관도 C와 에너지 E를 저장한다. 상관도 C는 부호 sign[d(i)]와 그 절대값으로 나뉘어 저장된다. sign[d(i)]는 d(i)의 부호이다. 상기 에너지 E는 수학식 4와 같은 형태로 저장된다. 에너지 E에 대한 수학식 3은 수학식 5와 같이 재 정의될 수 있다. The fixed
상기 탐색에 의해 고정 코드북 인덱스와 이득값이 얻어지면, 고정 코드북 탐 색부(617)는 상기 고정 코드북 인덱스를 고정 코드북(619)과 다중화기(650)로 전송하고, 상기 이득값을 이득값 양자화기(629)로 전송한다. When the fixed codebook index and the gain value are obtained by the search, the fixed
고정 코드북(619)은 라인(618)을 통해 입력된 인덱스를 토대로 기본 계층(600)의 고정 코드북 벡터를 출력한다. 고정 코드북 벡터는 펄스 위치 정보(m)와 부호 정보(s)를 바탕으로 구성된다. 고정 코드북(619)에서 출력되는 고정 코드북 벡터는 라인(620)을 통해 제 1 승산기(621)로 제공된다.The fixed
제 1 승산기(621)는 이득값 양자화기(629)에서 제공되는 상기 고정 코드북의 이득값에 대한 양자화 이득값 Gc를 상기 고정 코드북 벡터에 승산하고 그 결과를 라인(622)을 통해 출력한다. 라인(622)을 통해 출력되는 신호는 기본 계층(600)의 고정 코드북 벡터에 양자화 이득값 Gc를 승산한 고정 코드북 cG(n)으로 정의할 수 있다. 상기 양자화 이득값 Gc는 이득값 양자화기(629)로부터 제공된다. The
라인(613)을 통해 적응 코드북 인덱스가 인가되면, 적응 코드북(624)은 상기 적응 코드북 인덱스에 대응되는 적응 코드북 벡터를 출력한다. 라인(625)을 통해 상기 적응 코드북 벡터는 제 2 승산기(626)로 제공된다. When an adaptive codebook index is applied through
제 2 승산기(626)는 적응 코드북의 이득값에 대한 양자화된 이득값 Gp를 상기 라인(625)을 통해 전송되는 적응 코드북 벡터에 승산하고, 그 결과를 라인(627)을 통해 출력한다. 상기 양자화된 이득값 Gp는 이득값 양자화기(629)로부터 제공된다. The
가산기(623)는 라인(622)을 통해 입력되는 고정 코드북 벡터와 라인(627)을 통해 입력되는 적응 코드북 벡터를 가산하여 여기 신호를 얻는다. 상기 여기 신호는 라인(628)을 통해 합성 필터(606)로 출력된다. The
이득값 양자화기(629)는 고정 코드북 탐색부(617)로부터 출력되는 고정 코드북의 이득값과 피치 분석부(612)로부터 출력되는 적응 코드북의 이득값을 각각 양자화한다. 상기 고정 코드북의 이득값을 양자화한 이득값 Gc은 제 1 승산기(621)로 출력되고, 적응 코드북의 이득값을 양자화한 이득값 Gp는 제 2 승산기(626)로 출력된다. 상기 양자화한 이득값 Gc는 음질 향상 계층(630)에 포함되어 있는 이득값 차 양자화기(643)로도 제공된다. The
음질 향상 계층(630)은 도 1의 음질 향상 계층(130)과 같이 복원되는 음질을 향상시키기 위하여 기본 계층(600)에서 제공되는 비트이외에 추가적인 비트를 더 제공하기 위한 것이다. 도 6은 설명의 편의를 위하여 하나의 음성 향상 계층(630)이 기본 계층(600)에 연결된 구성을 도시하였으나, 복수개의 음성 향상 계층이 기본 계층(600)에 연결될 수 있다. The sound quality enhancement layer 630 is to provide additional bits in addition to the bits provided in the base layer 600 to improve sound quality restored as in the sound quality enhancement layer 130 of FIG. 1. 6 illustrates a configuration in which one voice enhancement layer 630 is connected to the base layer 600 for convenience of description, but a plurality of voice enhancement layers may be connected to the base layer 600.
음질 향상 계층(630)은 고정 코드북 기여도 계산부(631), 제 3 가산기(633), 합성 필터(634), 인지 가중 필터(637), 고정 코드북 탐색부(639), 고정 코드북(641), 이득값 차 양자화기(643), 및 제 3 승산기(644)로 구성된다. The sound quality enhancement layer 630 includes a fixed
기본 계층(600)의 제 1 승산기(621)로부터 고정 코드북의 벡터에 양자화 이득값 Gc가 승산된 고정 코드북 cG(n)이 수신되면, 고정 코드북 기여도 계산부(631) 는 수학식 15에 의해 고정 코드북 기여도 y2(n)을 계산한다. When the fixed codebook c G (n) obtained by multiplying the vector of the fixed codebook by the quantization gain value G c from the
수학식 15에서 N은 부프레임의 크기를 구성하는 샘플수에 따라 결정된다. 따라서, 피치 기여도 제거부(615)에서 설명한 바와 같이 부프레임의 크기가 40샘플인 경우에 N은 40이다. h(n)은 합성 필터의 임펄스 응답이다. 고정 코드북 기여도 계산부(631)에서 계산된 고정 코드북 기여도는 라인(632)을 통해 제 3 가산기(633)로 제공된다.In Equation 15, N is determined according to the number of samples constituting the size of the subframe. Therefore, as described in the pitch
제 3 가산기(633)는 라인(616)을 통해 제공되는 기본 계층(600)의 고정 코드북 탐색을 위해 요구되는 대상 신호에서 라인(632)을 통해 제공되는 고정 코드북 기여도와 라인(635)을 통해 합성 필터(634)로부터 제공되는 합성 신호를 제거한 신호를 출력한다. The
합성 필터(634)는 라인(647)을 통해 고정 코드북의 벡터에 양자화된 음질 향상 계층(630)의 양자화된 고정 코드북 이득값가 승산된 고정 코드북이 입력되면, LPC 계수 추출 및 벡터 양자화기(604)에서 추출된 양자화된 LPC 계수를 사용하여 상기 입력되는 고정 코드북 신호를 합성한 신호를 출력한다.
인지 가중 필터(637)는 라인(636)을 통해 입력되는 신호를 인지 가중 필터(610)와 같이 인지 가중 필터링하여 음질 향상 계층(630)에서 고정 코드북 탐색을 위해 요구되는 대상 신호를 출력한다. 대상신호는 라인(638)을 통해 고정 코 드북 탐색부(639)로 전송된다. The
고정 코드북 탐색부(639)는 기본 계층(600)의 고정 코드북 탐색부(617)와 같이 입력되는 대상 신호를 토대로 고정 코드북을 탐색하여 고정 코드북의 인덱스와 이득값을 얻는다. 얻어진 고정 코드북의 인덱스는 라인(640)을 통해 다중화기(650)로 전송되면서 고정 코드북(641)으로 전송된다. 상기 고정 코드북의 이득값 GCE는 라인(642)을 통해 이득값 차 양자화기(643)로 전송된다. The fixed
고정 코드북(641)은 입력된 고정 코드북 인덱스를 토대로 음질 향상 계층(630)의 고정 코드북 벡터를 출력한다. 고정 코드북 벡터는 펄스의 위치 정보(m)와 부호 정보(s)를 사용하여 구성할 수 있다. 고정 코드북(641)에서 출력되는 고정 코드북 벡터는 제 3 승산기(644)로 제공된다. 기본 계층(600)의 고정 코드북(619)에서 출력되는 고정 코드북 벡터의 펄스의 위치와 음질 향상 계층(630)의 고정 코드북(641)에서 출력되는 고정 코드북 벡터의 펄스의 위치는 동일할 수 있다. The fixed
이득값 차 양자화기(643)는 기본 계층(600)의 이득값 양자화기(629)로부터 출력되는 고정 코드북의 이득값을 양자화한 이득값 GC와 음질 향상 계층(630)의 고정 코드북 탐색부(639)로부터 출력되는 고정 코드북의 양자화되지 않은 이득 값 GCE간의 로그 스케일 차 값을 이용하여 음질 향상 계층(630)의 고정 코드북 이득값 GCE를 양자화하며, 양자화된 이득값를 출력한다. The
도 7은 이득값 차 양자화기(643)의 바람직한 실시 예를 나타낸 블록도이다. 이득값 양자화기(643)는 제 1 로그 스케일 변환부(702), 제 2 로그 스케일 변환부(706), 제 4 및 제 5 승산기(708, 711) 및 제 4 가산기(704)를 포함한다. 7 is a block diagram illustrating a preferred embodiment of a
기본 계층(600)의 이득값 양자화기(629)에 의해 제공되는 양자화된 고정 코드북 이득값(GC)이 라인(701)을 통해 입력되면, 제 1 로그 스케일 변환부(702)는 고정 코드북 이득값(Gc)에 대응되는 로그 스케일 변환된 고정 코드북 이득 값을 라인(703)을 통해 출력한다. When the quantized fixed codebook gain value G C provided by the
음질 향상 계층(630)의 고정 코드북 탐색부(639)로부터 출력되는 양자화 되지 않은 이득 값(GCE)이 라인(705)을 통해 입력되면, 제 2 로드 스케일 변환부(706)에 의하여 로그 스케일 변환된 고정 코드북 이득 값을 라인(707)을 통해 출력한다.When the non-quantized gain value G CE output from the fixed
제 4 승산기(708)는 라인(707)을 통해 입력되는 고정 코드북 이득값에 이득값 차 조정값를 승산하고, 승산된 결과를 라인(708)을 통해 출력한다. The
제 4 가산기(704)는 라인(703)을 통해 입력되는 고정 코드북 이득 값과 라인(708)을 통해 입력되는 고정 코드북 이득 값을 간의 차이값을 라인(710)을 통해 출력한다. The fourth adder 704 outputs a difference value between the fixed codebook gain value input through the
제 5 승산기(711)는 입력되는 이득값 차에 스케일 확장 요소(10)를 승산하여 로그 스케일 이득 값 차(GDIFF)(712)를 생성한다. The
상술한 이득값 차 양자화(643)의 동작 과정은 수학식 16과 같이 정의할 수 있다. The above-described operation of
수학식 16에서 Gc는 이득값 양자화기(629)에 의하여 양자화된 고정 코드북의 이득값이고, GCE는 고정 코드북 탐색부(639)로부터 출력되는 양자화되지 않은 이득값이다. 또한, 이득값 차 조정 값 는 로그 스케일 이득값간 차이값의 동적 범위가 최소가 되도록 하는 조정 값이다. 이득값 차 조정 값은 음성 부호화기의 종류에 따라 어떠한 값이 될 수도 있으며 실 예로 0.987이 사용된다. In Equation 16, G c is a gain value of the fixed codebook quantized by the
수학식 16와 같은 과정을 거쳐 생성된 로그 스케일 이득값 차(712)는 아날로그 신호이므로 3비트 스칼라 양자화기에 의하여 양자화된다. 3비트 스칼라 양자화기에 의해 양자화 된 결과를 이용하여 양자화된 음질 향상 계층(630)의 고정 코드북 이득값 를 출력한다. 상기 양자화된 이득값 는 라인(645)을 통해 제 3 승산기(644)로 출력되면서 라인(646)을 통해 다중화기(650)로 출력된다. The log
제 3 승산기(644)는 고정 코드북(641)으로부터 제공되는 고정 코드북 벡터에 이득값 차 양자화기(643)로부터 제공되는 양자화된 음질 향상 계층(6300의 고정 코드북 이득값 를 승산하고, 승산 결과를 라인(647)을 합성 필터(634)로 제공한다. The
다중화기(650)는 기본 계층(600)으로부터 제공되는 LPC 계수 양자화 정보, 고정 코드북 인덱스, 적응 코드북 인덱스, 이득값 양자화 정보와 음질 향상 계층(630)으로부터 제공되는 음질 향상 계층의 고정 코드북 인덱스, 이득값 차 양자화 정보를 비트 스트림으로 출력한다. The
기본 계층(600)과 음질 향상 계층(630)의 비트 스트림은 구분하여 전송된다. 즉, 도 6에 도시된 바와 같이 음질 향상 계층(630)의 비트 스트림은 기본 계층(600)의 비트 스트림 뒤에 전송된다. 이에 따라 상기 비트 스트림은 네트워크 트래픽 상태에 따라 복호화 장치에 필요한 비트율로 쉽게 분리될 수 있다. 예를 들어 복호화 장치측의 채널 특성이 열악하여 기본 계층의 비트 스트림만 수신할 수 있는 경우에, 상기 복호화 장치는 도 6의 비트율 확장 음성 부호화 장치가 송출하는 비트 스트림에서 기본 계층의 비트 스트림만 수신할 수 있다.The bit streams of the base layer 600 and the sound quality enhancement layer 630 are transmitted separately. That is, as shown in FIG. 6, the bit stream of the sound quality enhancement layer 630 is transmitted after the bit stream of the base layer 600. Accordingly, the bit stream can be easily separated at the bit rate required for the decoding apparatus according to the network traffic conditions. For example, when the channel characteristic of the decoding apparatus is poor and only the bit stream of the base layer can be received, the decoding apparatus receives only the bit stream of the base layer from the bit stream transmitted by the bit rate extension speech encoding apparatus of FIG. 6. can do.
도 8은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 복호화 장치의 블록도이다. 도 8을 참조하면, 상기 비트율 확장 음성 복호화 장치는 역다중화기(802), LPC 계수 복호화부(803), 이득값 복호화부(804), 제 1 고정 코드북 복호화부(805), 적응 코드북 복호화부(806), 이득값 차 복호화부(807), 제 2 고정 코드북 복호화부(808), 승산기들(809, 810, 813), 가산기들(811, 814), 선택 스위치(812), 합성 필터(815), 및 후처리부(816)를 포함한다. 8 is a block diagram of a bit rate extended speech decoding apparatus according to another exemplary embodiment of the present invention. Referring to FIG. 8, the apparatus for decoding a bit rate extension speech includes a
상기 비트율 확장 음성 복호화 장치는 비트율 확장 음성 부호화장치로부터 전송되는 비트 스트림을 선택적으로 수신할 수 있다. 즉, 비트 스트림에서 기본 계층에 대한 비트 스트림만 수신하면, 기본 계층의 음질을 복원할 수 있고, 기본 계층 및 음질 향상 계층에 대한 비트 스트림을 모두 수신하면, 좀더 향상된 음질을 제공할 수 있다. The bit rate extended speech decoding apparatus may selectively receive a bit stream transmitted from the bit rate extended speech encoding apparatus. That is, if only the bit stream for the base layer is received in the bit stream, the sound quality of the base layer can be restored, and if both the bit streams for the base layer and the sound quality enhancement layer are received, a more improved sound quality can be provided.
역다중화기(802)는 수신되는 비트 스트림(801)을 각 구성 요소(element)의 정보로 역다중화하여 출력한다. 즉, 역다중화기(802)는 LPC 계수 양자화 정보를 LPC 계수 복호화부(803)로, 이득값 양자화 정보는 이득값 복호화부(804)로, 이득값 차 양자화 정보는 이득값 차 복호화부(807)로, 음질 향상 계층(630)의 고정 코드북 인덱스는 제 2 고정 코드북 복호화부(808), 기본 계층(600)의 고정 코드북 인덱스는 제 1 고정 코드북 복호화부(805)로, 적응 코드북 인덱스는 적응 코드북 복호화부(806)로 각각 제공한다. The
LPC 계수 복호화부(803)의 구조는 부호화 장치측의 LPC 계수 추출 및 벡터 양자화기(604)에 의해 결정되고, 입력되는 LPC 계수 양자화 정보로부터 LPC 계수를 복원한다. 복원된 LPC 계수는 합성 필터(815)와 후처리부(816)로 제공된다. The structure of the
이득값 복호화부(804)의 구조는 부호화 장치측의 이득값 양자화기(629)에 의해 결정된다. 이득값 복호화부(804)는 입력되는 이득값 양자화 정보를 디코딩한다. 상기 이득값 양자화 정보는 적응 코드북 이득값과 고정 코드북 이득값을 포함한다. 따라서, 이득값 복호화부(804)로부터 기본 계층(600)에서의 적응 코드북 이득값 GP와 고정 코드북 이득값 GC가 각각 출력된다. The structure of the
제 1 고정 코드북 복호화부(805)는 입력되는 제 1 고정 코드북 인덱스를 디코딩하여 제 1 고정 코드북을 출력한다. 고정 코드북 복호 방식은 부호화장치의 고정 코드북 탐색부(617)에서의 탐색방식에 의해 결정된다. The first fixed
적응 코드북 복호화부(806)는 입력되는 적응 코드북 인덱스를 디코딩하여 적응 코드북을 출력한다. The
상술한 LPC 계수 복호화부(803), 이득값 복호화부(804), 고정 코드북 복호화 부(805), 및 적응 코드북 복호화부(806)는 역다중화기(802)로부터 전송되는 기본 계층(600)에서의 부호화 정보를 디코딩하는 복호화 유니트로 정의될 수 있다. The
이득값 차 복호화부(807)와 제 2 고정 코드북 복호화부(808)의 동작은 네트워크 트랙픽 상태나 수신 단말의 처리 용량에 의존한다. The operation of the gain
만약 이득값 차 복호화부(807)와 제 2 고정 코드북 복호화부(808)가 동작되는 것으로 결정되면, 이득값 차 복호화부(807)는 입력되는 이득값 차 양자화 정보를 디코딩한다. 제 2 고정 코드북 복호화부(808)는 입력되는 제 2 고정 코드북 인덱스를 디코딩한다. 이득값 차 복호화 방식은 부호화 장치측의 이득값 차 양자화기(643)에 의해 결정된다. If it is determined that the gain
제 2 고정 코드북 복호화부(808)에서의 디코딩 방식은 부호화장치측의 제 2 고정 코드북 탐색부(631)에 의해 결정된다. 이득값 차 복호화부(807)와 제 2 고정 코드북 복호화부(808)는 역다중화기(902)로부터 전송되는 음질 향상 계층(630)에서의 부호화 정보를 디코딩하는 복호화 유니트로 간주될 수 있다. The decoding method of the second fixed
승산기(809)는 이득값 복호화부(804)에 의하여 복원된 기본 계층(600)의 고정 코드북 이득값 Gc을 제 1 고정 코드북 복호화부(805)에 의하여 출력된 기본 계층의 고정 코드북에 승산하여 기본 계층의 고정 코드북 벡터를 출력한다.The
승산기(810)는 이득값 차 복호화부(807)에 의하여 복원된 음질 향상 계층(630)에서의 고정 코드북 이득값 를 제 2 고정 코드북 복호화부(808)에 의하여 출력된 음질 향상 계층의 고정 코드북에 승산하여 음질 향상 계층의 고정 코드북 벡터를 출력한다.The
가산기(811)는 승산기(809)로부터 출력되는 기본 계층의 고정 코드북 벡터와 승산기(810)로부터 출력되는 음질 향상 계층의 고정 코드북 벡터를 가산한다. 이에 따라 복호화 장치에서의 고정 코드북 펄스는 기본 계층과 음질 향상 계층의 대수 코드북을 누적시켜 다중 크기를 갖는 대수 코드북 펄스 구조를 갖는다. 상기 대수 코드북을 누적시키는 것은 고정 코드북의 모든 펄스의 크기가 같은 크기를 갖는 기존의 고정 코드북 구조에서 발생되는 단점을 보완하기 위한 것이다. The
선택 스위치(812)는 가산기(811)로부터 출력되는 신호와 승산기(809)로부터 출력되는 기본 계층의 고정 코드북 벡터를 선택적으로 전송한다. 즉, 상기 복호화 장치가 음질 향상 계층에서 동작되지 않을 경우에, 선택 스위치(812)는 승산기(809)로부터 출력되는 기본 계층의 고정 코드북 벡터를 선택하여 전송한다. 상기 부호화 장치가 음질향상 계층에서 동작할 경우에, 선택 스위치(812)는 가산기(811)로부터 출력되는 신호를 전송한다. The
승산기(813)는 적응 코드북 복호화부(806)로부터 출력되는 디코딩된 적응 코드북에 이득값 복호화부(804)로부터 출력되는 적응 코드북의 이득값 Gp를 승산하여 적응 코드북 벡터를 출력한다. The
가산기(814)는 선택 스위치(812)에 의해 선택된 고정 코드북 벡터와 승산기(813)로부터 출력되는 적응 코드북 벡터를 가산하여 복원된 여기 신호를 발생한다. The
상술한 승산기(810), 가산기(811) 및 선택 스위치(812)는 상술한 기본 계층 의 부호화 정보를 복호화하는 유니트와 음질 향상 계층의 부호화 정보를 복호화하는 유니트에서 각각 디코딩된 신호를 상기 복호화 장치의 동작환경에 따라 연산하는 연산 유니트로 정의될 수 있다. The
합성 필터(815)는 LPC 계수 복호화부(803)로부터 제공되는 복원된 LPC를 이용하여 가산기(814)로부터 제공되는 여기 신호를 합성하여 음성신호를 복원한다. The
후처리부(816)는 합성 필터(815)로부터 전송되는 음성신호를 복원한다. 즉, 후처리부(816)는 음성 신호를 복원하기 위하여, LPC 계수 복호화부(803)로부터 제공되는 LPC를 이용하여 합성 필터(815)로부터 출력되는 신호를 필터링 하기 위한 하이패스 필터(High Pass Filtering)를 사용한다. The
상술한 합성 필터(815)와 후처리부(816)는 상기 연산 유니트로부터 출력되는 신호를 LPC 계수 복호화부(803)로부터 출력되는 LPC와 합성하여 음성신호를 복원하는 복원 유니트로 정의될 수 있다. The
도 9는 도 6의 음성 신호 부호화 장치에서 기본 계층의 고정 코드북 탐색(901)에 의해 탐색된 펄스의 위치와 음질 향상 계층의 고정 코드북 탐색(905)에 의해 탐색된 펄스의 위치에 기초한 고정 코드북 벡터를 이용하여 도 8의 음성 신호 복호화 장치에서 복원되는 펄스의 크기를 설명하기 위한 도면이다. 9 is a fixed codebook vector based on the position of the pulse searched by the fixed
도 9를 참조하면, 제 1 고정 코드북 복호화부(805)에서 제공되는 고정 코드북 벡터(902)에 이득값 복호화부(804)에서 제공되는 고정 코드북 이득값(Gc)이 승산기(809)에 의하여 승산되어 이득값이 승산된 기본 계층 고정 코드북 벡터(904)가 생성된다. 9, a fixed codebook gain value G c provided by the gain
제 2 고정 코드북 복호화부(808)에서 제공되는 고정 코드북 벡터(906)에 이득값 차 복호화부(807)에서 제공되는 이득값(GCE)이 승산기(810)에 의하여 승산되어 이득값이 승산된 음질 향상 계층 고정 코드북 벡터(908)가 생성된다. 가산기(811)는 음질 향상 계층 고정 코드북 벡터(908)와 기본 계층 고정 코드북 벡터(904)를 가산한 고정 코드북 벡터(910)를 생성한다. The gain value G CE provided by the gain
도 9에서 생성되는 펄스의 구조를 토대로 알 수 있는 바와 같이 기본 계층 고정 코드북 벡터(904)와 음질 향상 계층 고정 코드북 벡터(908)는 가산기(811)로 입력되어 두 벡터가 가산된 최종 음질 향상 계층 고정 코드북(910)을 생성한다. 최종 음질 향상 계층 고정 코드북(910)은 이득 값이 다른 두 개의 고정 코드북 벡터가 더해져 구성되었기 때문에 다중 크기를 갖는 고정 코드북을 형성할 수 있어 보다 좋은 음질을 제공할 수 있다. As can be seen based on the structure of the pulse generated in FIG. 9, the base layer fixed
도 10은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 부호화 방법의 동작 흐름도이다.10 is a flowchart illustrating an operation of a bit rate extended speech encoding method according to another exemplary embodiment of the present invention.
제 1001 단계에서 음성신호 부호화 장치는 도 6의 전처리 유니트(602)와 같이 입력된 음성 신호를 전 처리한다. 제 1002 단계에서 음성신호 부호화 장치는 전처리 된 음성 신호에서 LPC 계수를 추출하고, 추출된 LPC 계수의 양자화 정보를 생성한다.In
제 1003 단계에서 음성신호 부호화 장치는 상기 전 처리된 신호에서 합성 필 터(606)를 거쳐 LPC 계수의 잔 차 신호(residual signal)를 검출한다. 제 1004 단계에서 음성 신호 부호화 장치는 검출된 잔차 신호를 도 6의 인지 가중 필터(610)에서와 같이 필터링하여 인지 가중된 신호를 출력한다. In
제 1005 단계에서 음성 신호 부호화 장치는 인지 가중된 신호의 피치를 도 6의 피치 분석부(612)와 같이 분석하고, 분석된 결과를 이용하여 상기 인지 가중된 신호에서 피치 기여도를 도 6의 피치 기여도 제거부(615)와 같이 제거하여 적응 코드북 이득값과 적응 코드북 인덱스를 생성한다. In
제 1006 단계에서 음성 신호 부호화 장치는 도 6의 기본 계층(600)의 고정 코드북 탐색부(617)에서와 같이 기본 계층 고정 코드북을 탐색하여 고정 코드북 이득값과 고정 코드북 인덱스를 생성한다. In
제 1007 단계에서 음성 신호 부호화 장치는 도 6의 이득값 양자화기(629)에서와 같이 상기 검출된 고정 코드북 이득값과 상기 검출된 적응 코드북 이득값을 양자화 한다. In
제 1008 단계에서 음성 신호 부호화 장치는 벡터 양자화된 LPC계수를 이용하여 기본 계층(600)에서 생성된 고정 코드북 벡터와 적응 코드북 벡터의 여기 신호(excitation signal)를 도 6의 합성 필터(606)에서와 같이 합성한다.In
제 1009 단계에서 음성 신호 부호화 장치는 기본 계층(600)에서의 고정 코드북 탐색을 위한 대상 신호의 영향과 음질 향상 계층(630)의 이전의 LPC 합성 신호를 제거함으로써 도 6의 고정 코드북 탐색부(639)에서와 같은 고정 코드북 탐색을 위한 대상 신호를 생성한다. 즉, 기본 계층(600)에서 검출된 대상 신호에서 기본 계층의 고정 코드북 기여도와 음질 향상 계층(630)에서 검출된 이전의 LPC 합성 신호를 제거한 신호를 음질 향상 계층에서의 대상 신호로 한다. In
제 1010 단계에서 음성 신호 부호화 장치는 제 1009 단계에서 검출된 대상 신호를 이용하여 음질 향상 계층(630)의 고정 코드북 탐색을 수행하여 음질 향상 계층의 고정 코드북 이득값과 음질 향상 계층의 고정 코드북 인덱스를 각각 생성한다. In
제 1011 단계에서 음성 신호 부호화 장치는 기본 계층의 양자화 된 고정 코드북의 이득값과 음질 향상 계층의 양자화 되지 않은 고정 코드북 이득값 간의 로그 스케일 차(log scale difference)를 양자화 한다. 상술한 음질 향상 계층에서의 고정 코드북 탐색 및 이득값 양자화 과정은 복수개의 음질 향상 계층이 구비됨에 따라 복수 회 수행될 수 있다. 음질 향상 계층 처리가 복수 회 수행되면, 그만큼 복원되는 음성 신호의 질이 향상될 수 있다.In
제 1012 단계에서 음성 신호 부호화 장치는 음질 향상 계층에서 생성된 고정 코드북 벡터(또는 여기 신호)를 도 6의 합성 필터(634)에 통과시켜 합성된 신호를 출력한다.In
제 1013 단계에서 음성 신호 부호화 장치는 상술한 단계들을 통해 얻은 선형 예측 계수 양자화 정보, 기본 계층의 고정 코드북 인덱스, 기본 계층의 적응 코드북 인덱스, 기본 계층의 고정 코드북의 이득값, 기본 계층의 적응 코드북의 이득값, 음질 향상 계층의 고정 코드북 인덱스 및 상기 이득값 차 양자화 정보를 비트 스트림 형태로 다중화하여 음성신호 복호화 장치측으로 송출한다. In
도 11은 본 발명의 바람직한 다른 실시 예에 따른 비트율 확장 음성 복호화 방법의 동작 흐름도이다. 11 is a flowchart illustrating an operation of a bit rate extended speech decoding method according to another exemplary embodiment of the present invention.
제 1101 단계에서 음성 신호 복호화 장치는 도 8의 역다중화기(802)와 같이 수신되는 비트 스트림을 각 구성의 정보로 역다중화한다. In
제 1102 단계에서 음성 신호 복호화 장치는 상기 역다중화된 신호를 디코딩한다. 즉, 도 8의 LPC 계수 복호화부(803), 이득값 복호화부(804), 제 1 고정 코드북 복호화부(805), 적응 코드북 복호화부(806), 이득값 차 복호화부(807), 제 2 고정 코드북 복호화부(808)와 같이 상기 역다중화 된 신호를 디코딩한다. In
제 1103 단계에서 음성 신호 복호화 장치는 음성신호 복호화 장치의 동작 조건에 따라 음질 향상 계층의 고정 코드북과 기본 계층의 고정 코드북을 선택적으로 전송하고, 이득값도 선택적으로 전송된다. 즉, 음성 신호 복호화 장치가 음질 향상 계층에서 동작되면, 복원된 음질 향상 계층의 고정 코드북의 이득값이 승산된 음질 향상 계층의 고정 코드북과 기본 계층의 고정 코드북에 기본 계층의 고정 코드북의 이득값이 승산된 고정 코드북을 가산하여 전송시킨다. 반면에 음성 신호 부호화 장치가 음질 향상 계층에서 동작되지 않으면, 복호화된 기본 계층의 고정 코드북에 기본 계층의 고정 코드북의 이득값을 승산한 고정 코드북을 전송시킨다. In
제 1104 단계에서 음성 신호 복호화 장치는 제 1102 단계에서 복호화된 LPC 계수를 이용하여 제 1103 단계에서 선택적으로 전송된 코드북을 합성한다. In
제 1105 단계에서 음성 신호 복호화 장치는 후처리 유니트(816)와 같이 후처리하여 복원된 음성 신호를 생성한다.In
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.
상술한 본 발명에 따르면, 상술한 본 발명에 따르면, 기존의 표준화된 CLEP 음성 부호화 구조를 변경하지 않고 비트율을 확장할 수 있는 구조를 제시함에 따라 기존의 표준화된 CLEP 음성 부호화 장치를 구비한 시스템과 호환이 가능하다. According to the present invention described above, according to the present invention described above, by presenting a structure capable of extending the bit rate without changing the existing standardized CLEP speech coding structure and the system having a conventional standardized CLEP speech coding apparatus and Compatible
또한, 상술한 본원 발명의 일 실시 예에 따르면, 기본 계층의 고정 코드북 탐색 대상 신호와 음질 향상 계층의 고정 코드북 탐색 대상 신호를 같게 함으로써, 음질 향상 계층에서 탐색된 코드북은 다음 프레임을 위해 저장되지 않아 기본 계층의 동작에 영향을 주지 않는다. In addition, according to the embodiment of the present invention described above, by fixing the fixed codebook search target signal of the base layer and the fixed codebook search target signal of the sound quality enhancement layer, the codebook searched in the sound quality enhancement layer is not stored for the next frame. It does not affect the behavior of the base layer.
그리고, 음질 향상 계층의 고정 코드북 탐색시 기본 계층의 고정 코드북 탐색 시 구한 매개 변수 값을 사용함으로써 음질 향상 계층이 고정 코드북 탐색에 요구되는 연산량을 줄일 수 있다. When the fixed codebook search of the sound quality enhancement layer is used, the parameter value obtained when the fixed codebook search of the base layer is used may reduce the amount of computation required for the fixed codebook search.
또한, 상술한 본원 발명의 다른 실시 예에 따르면, 음질 향상 계층의 고정 코드북 탐색을 위해 요구되는 대상 신호는 기본 계층의 고정 코드북 대상신호에서 기본 계층의 고정 코드북 기여도와 음질 향상 계층의 합성 필터를 통해 제공되는 이전의 음질 향상 계층의 고정 코드북의 합성 신호를 제거하여 줌으로써, 음질 향상 계층 전용의 대상 신호를 이용한 고정 코드북 탐색이 수행됨에 따라 좀더 정확한 고정 코드북 탐색을 기대할 수 있다. In addition, according to another embodiment of the present invention, the target signal required for the fixed codebook search of the sound quality enhancement layer is a fixed codebook target signal of the base layer through the fixed codebook contribution of the base layer and the synthesis filter of the sound quality enhancement layer By removing the synthesized signal of the fixed codebook of the previous sound quality enhancement layer provided, a more accurate fixed codebook search can be expected as the fixed codebook search using the target signal dedicated to the sound quality enhancement layer is performed.
더욱이, 음질 향상 계층에서 탐색된 펄스의 위치와 기본 계층에서 탐색된 펄스의 위치가 같게 될 수 있어, 대수 코드북의 각 펄스의 크기가 동일한 크기를 갖는 한계점을 극복하고 최종 고정 코드북의 펄스가 다중 크기를 가지므로 복원되는 음성신호의 음질을 개선할 수 있다. Moreover, the position of the searched pulse in the sound quality enhancement layer and the position of the searched pulse in the base layer can be the same, overcoming the limitation that the magnitude of each pulse in the algebraic codebook has the same magnitude, and the pulses of the final fixed codebook are Since it can improve the sound quality of the restored voice signal.
그리고, 음질 향상 계층의 이득값은 기본 계층의 양자화된 이득값과 음질 향상 계층의 이득값간의 차를 양자화하여 상대적으로 동적 범위가 작은 이득값 차를 양자화한 값을 전송함으로써, 음질 향상 계층에서 이득값 양자화에 필요한 비트를 절약할 수 있다. The gain value of the sound quality enhancement layer quantizes a difference between the quantized gain value of the base layer and the gain value of the sound quality enhancement layer, and transmits a quantized value of a gain difference having a relatively small dynamic range, thereby obtaining a gain in the sound quality enhancement layer. The bits required for value quantization can be saved.
Claims (34)
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE602004004950T DE602004004950T2 (en) | 2003-07-09 | 2004-07-02 | Apparatus and method for bit-rate scalable speech coding and decoding |
EP04254017A EP1496500B1 (en) | 2003-07-09 | 2004-07-02 | Bitrate scalable speech coding and decoding apparatus and method |
JP2004203105A JP4583093B2 (en) | 2003-07-09 | 2004-07-09 | Bit rate extended speech encoding and decoding apparatus and method |
US10/886,662 US7702504B2 (en) | 2003-07-09 | 2004-07-09 | Bitrate scalable speech coding and decoding apparatus and method |
JP2010137612A JP5313967B2 (en) | 2003-07-09 | 2010-06-16 | Bit rate extended speech encoding and decoding apparatus and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030046324 | 2003-07-09 | ||
KR20030046324 | 2003-07-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050007117A KR20050007117A (en) | 2005-01-17 |
KR100668300B1 true KR100668300B1 (en) | 2007-01-12 |
Family
ID=37220842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040040478A KR100668300B1 (en) | 2003-07-09 | 2004-06-03 | Bitrate scalable speech coding and decoding apparatus and method thereof |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5313967B2 (en) |
KR (1) | KR100668300B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117793A1 (en) * | 2015-01-23 | 2016-07-28 | 삼성전자 주식회사 | Speech enhancement method and system |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101542069B1 (en) | 2006-05-25 | 2015-08-06 | 삼성전자주식회사 | / Method and apparatus for searching fixed codebook and method and apparatus encoding/decoding speech signal using method and apparatus for searching fixed codebook |
KR101449431B1 (en) * | 2007-10-09 | 2014-10-14 | 삼성전자주식회사 | Method and apparatus for encoding scalable wideband audio signal |
WO2013062370A1 (en) * | 2011-10-28 | 2013-05-02 | 한국전자통신연구원 | Signal codec device and method in communication system |
KR102138320B1 (en) | 2011-10-28 | 2020-08-11 | 한국전자통신연구원 | Apparatus and method for codec signal in a communication system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736495A (en) * | 1993-07-22 | 1995-02-07 | Matsushita Electric Ind Co Ltd | Variable rate voice coding device |
EP0772186A2 (en) * | 1995-10-26 | 1997-05-07 | Sony Corporation | Speech encoding method and apparatus |
KR20000029745A (en) * | 1996-07-31 | 2000-05-25 | 러셀 비. 밀러 | Method and apparatus for searching an excitation codebook in a code excited linear prediction coder |
KR20010073378A (en) * | 2000-01-14 | 2001-08-01 | 대표이사 서승모 | speech quality enhancement method of vocoder using formant postfiltering adopting multi-order LPC coefficient |
KR20040104750A (en) * | 2002-05-22 | 2004-12-10 | 닛본 덴끼 가부시끼가이샤 | Method and device for code conversion between audio encoding/decoding methods and storage medium thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
JP4290917B2 (en) * | 2002-02-08 | 2009-07-08 | 株式会社エヌ・ティ・ティ・ドコモ | Decoding device, encoding device, decoding method, and encoding method |
EP1618557B1 (en) * | 2003-05-01 | 2007-07-25 | Nokia Corporation | Method and device for gain quantization in variable bit rate wideband speech coding |
-
2004
- 2004-06-03 KR KR1020040040478A patent/KR100668300B1/en active IP Right Grant
-
2010
- 2010-06-16 JP JP2010137612A patent/JP5313967B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736495A (en) * | 1993-07-22 | 1995-02-07 | Matsushita Electric Ind Co Ltd | Variable rate voice coding device |
EP0772186A2 (en) * | 1995-10-26 | 1997-05-07 | Sony Corporation | Speech encoding method and apparatus |
KR20000029745A (en) * | 1996-07-31 | 2000-05-25 | 러셀 비. 밀러 | Method and apparatus for searching an excitation codebook in a code excited linear prediction coder |
KR20010073378A (en) * | 2000-01-14 | 2001-08-01 | 대표이사 서승모 | speech quality enhancement method of vocoder using formant postfiltering adopting multi-order LPC coefficient |
KR20040104750A (en) * | 2002-05-22 | 2004-12-10 | 닛본 덴끼 가부시끼가이샤 | Method and device for code conversion between audio encoding/decoding methods and storage medium thereof |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117793A1 (en) * | 2015-01-23 | 2016-07-28 | 삼성전자 주식회사 | Speech enhancement method and system |
US10431240B2 (en) | 2015-01-23 | 2019-10-01 | Samsung Electronics Co., Ltd | Speech enhancement method and system |
Also Published As
Publication number | Publication date |
---|---|
JP5313967B2 (en) | 2013-10-09 |
KR20050007117A (en) | 2005-01-17 |
JP2011008250A (en) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4583093B2 (en) | Bit rate extended speech encoding and decoding apparatus and method | |
KR100707174B1 (en) | High band Speech coding and decoding apparatus in the wide-band speech coding/decoding system, and method thereof | |
EP1222659B1 (en) | Lpc-harmonic vocoder with superframe structure | |
US7596492B2 (en) | Apparatus and method for concealing highband error in split-band wideband voice codec and decoding | |
US7299174B2 (en) | Speech coding apparatus including enhancement layer performing long term prediction | |
EP2313887B1 (en) | Variable bit rate lpc filter quantizing and inverse quantizing device and method | |
EP0898267B1 (en) | Speech coding system | |
EP1768105B1 (en) | Speech coding | |
KR100798668B1 (en) | Method and apparatus for coding of unvoiced speech | |
KR100813259B1 (en) | Method and apparatus for encoding/decoding input signal | |
KR20090083069A (en) | Method and apparatus for encoding audio signal, and method and apparatus for decoding audio signal | |
WO2012070370A1 (en) | Audio encoding device, method and program, and audio decoding device, method and program | |
JPWO2009116280A1 (en) | Stereo signal encoding apparatus, stereo signal decoding apparatus, and methods thereof | |
KR20130047643A (en) | Apparatus and method for codec signal in a communication system | |
JP5313967B2 (en) | Bit rate extended speech encoding and decoding apparatus and method | |
Koishida et al. | A 16-kbit/s bandwidth scalable audio coder based on the G. 729 standard | |
EP2490216B1 (en) | Layered speech coding | |
KR100651712B1 (en) | Wideband speech coder and method thereof, and Wideband speech decoder and method thereof | |
JPH09319398A (en) | Signal encoder | |
WO2002071394A1 (en) | Sound encoding apparatus and method, and sound decoding apparatus and method | |
KR20060124568A (en) | Apparatus and method for coding and decoding residual signal | |
WO2009015944A1 (en) | A low-delay audio coder | |
US6801887B1 (en) | Speech coding exploiting the power ratio of different speech signal components | |
JP6713424B2 (en) | Audio decoding device, audio decoding method, program, and recording medium | |
JP2004348120A (en) | Voice encoding device and voice decoding device, and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
AMND | Amendment | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121210 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20131217 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20141224 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20151217 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20161219 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20171219 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20181220 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20191217 Year of fee payment: 14 |