KR20080034817A - Apparatus and method for encoding and decoding signal - Google Patents
Apparatus and method for encoding and decoding signal Download PDFInfo
- Publication number
- KR20080034817A KR20080034817A KR1020070104670A KR20070104670A KR20080034817A KR 20080034817 A KR20080034817 A KR 20080034817A KR 1020070104670 A KR1020070104670 A KR 1020070104670A KR 20070104670 A KR20070104670 A KR 20070104670A KR 20080034817 A KR20080034817 A KR 20080034817A
- Authority
- KR
- South Korea
- Prior art keywords
- frequency band
- signal
- high frequency
- band signal
- low frequency
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Abstract
Description
도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 나타내는 블록도이다.1 is a block diagram showing a schematic configuration of an encoding apparatus according to the present invention.
도 2는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.2 is a block diagram showing an embodiment of a configuration of an encoding apparatus according to the present invention.
도 3은 도 2에 도시된 음성 부호화기의 구성에 대한 제1 실시예를 나타내는 블록도이다.FIG. 3 is a block diagram illustrating a first embodiment of the configuration of the speech coder illustrated in FIG. 2.
도 4는 도 2에 도시된 음성 부호화기의 구성에 대한 제2 실시예를 나타내는 블록도이다.FIG. 4 is a block diagram illustrating a second embodiment of the configuration of the speech encoder illustrated in FIG. 2.
도 5는 도 2에 도시된 음성 부호화기의 구성에 대한 제3 실시예를 나타내는 블록도이다.FIG. 5 is a block diagram illustrating a third embodiment of the configuration of the speech encoder illustrated in FIG. 2.
도 6은 도 2에 도시된 오디오 부호화기의 구성에 대한 제1 실시예를 나타내는 블록도이다.FIG. 6 is a block diagram illustrating a first embodiment of the configuration of the audio encoder illustrated in FIG. 2.
도 7은 도 2에 도시된 오디오 부호화기의 구성에 대한 제2 실시예를 나타내는 블록도이다.FIG. 7 is a block diagram illustrating a second embodiment of the configuration of the audio encoder illustrated in FIG. 2.
도 8은 도 2에 도시된 대역확장 부호화기의 구성에 대한 일실시예를 나타내 는 블록도이다.FIG. 8 is a block diagram illustrating an embodiment of a configuration of a band extension encoder illustrated in FIG. 2.
도 9는 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.9 is a block diagram illustrating an embodiment of a configuration of a decoding apparatus according to the present invention.
본 발명은 신호의 부호화/복호화 장치 및 방법에 관한 것으로, 더욱 상세하게는 신호의 특성에 따라 최적의 비트율로 부호화/복호화할 수 있도록 하는 효율적인 부호화/복호화 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for encoding / decoding a signal, and more particularly, to an efficient encoding / decoding apparatus and method for encoding / decoding at an optimal bit rate according to characteristics of a signal.
종래의 오디오 부호화기는 48kbps 이상의 높은 비트율에서는 고음질의 오디오 신호를 제공하지만 음성 신호의 처리에는 비효율적이며, 종래의 음성 부호화기는 12kbps 이하의 낮은 비트율에서 음성 신호를 효과적으로 부호화할 수 있지만 다양한 오디오 신호를 부호화하기에 부족하다.Conventional audio coders provide high quality audio signals at high bit rates above 48 kbps, but are inefficient for processing speech signals. Conventional speech coders can efficiently encode speech signals at low bit rates below 12 kbps, but encode various audio signals. Lack in.
본 발명이 이루고자 하는 기술적 과제는, 음성 신호, 오디오 신호 등과 같이 서로 다른 특성을 가지는 신호들을 최적의 비트율로 부호화할 수 있도록 하는 부호화/복호화 장치 및 방법을 제공하는데 있다.An object of the present invention is to provide an encoding / decoding apparatus and method for encoding signals having different characteristics, such as voice signals and audio signals, at an optimal bit rate.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 방법은, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 단계; 상기 부호화된 저주파 대역 신호를 제1 복호화 방식을 이용하여 복호화하는 단계; 상기 부호화된 중고주파 대역 신호를 제2 복호화 방식을 이용하여 복호화하는 단계; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 단계; 및 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a decoding method comprising: extracting an encoded high frequency band signal and band extension information; Decoding the encoded low frequency band signal using a first decoding method; Decoding the encoded high frequency band signal using a second decoding method; Restoring a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And synthesizing the decoded low frequency band signal and the high frequency band signal and the reconstructed high frequency band signal.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 방법은, 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 단계; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 단계; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 단계; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 단계; 및 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an encoding method, comprising: dividing an input signal into a low frequency band, a medium frequency band, and a high frequency band; Encoding the low frequency band signal using a first encoding scheme performed on a time domain; Encoding the high frequency band signal using a second coding scheme performed on a frequency domain; Generating band extension information for reconstructing the signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And generating a bitstream including the encoded low frequency band signal and the high frequency band signal and the band extension information.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 장치는, 입력되는 비트스트림으로부터 부호화된 저주파 대역 신호, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 비트언팩킹부; 시간 도메인 상에서 수행되는 제1 복호화 방식을 이용하여 상기 부호화된 저주파 대역 신호를 복호화하는 제1 복호화부; 주파수 도메인 상에서 수행되는 제2 복호화 방식을 이용하여 상기 부호화된 중 고주파 대역 신호를 복호화하는 제2 복호화부; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 대역확장복호화부; 및 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 합성부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a decoding apparatus comprising: a bit unpacking unit configured to extract an encoded low frequency band signal, an encoded medium frequency band signal, and band extension information from an input bitstream; A first decoder which decodes the encoded low frequency band signal using a first decoding method performed in a time domain; A second decoder which decodes the encoded mid-frequency band signal using a second decoding method performed on a frequency domain; A band extension decoding unit which restores a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And a synthesizer for synthesizing the decoded low frequency band signal and the high frequency band signal and the restored high frequency band signal.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 장치는, 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 신호분할부; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 제1 부호화부; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 제2 부호화부; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 대역확장부호화부; 및 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an encoding apparatus, including: a signal splitter configured to divide an input signal into a low frequency band, a medium frequency band, and a high frequency band; A first encoder which encodes the low frequency band signal using a first encoding scheme performed in a time domain; A second encoder which encodes the high-frequency band signal using a second encoding scheme performed on a frequency domain; A band extension encoder for generating band extension information for restoring a signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And a bit packing unit generating a bitstream including the encoded low frequency band signal, the high frequency band signal, and the band extension information.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 본 발명에 따른 부호화/복호화 장치 및 방법에 관해 상세히 설명한다. Hereinafter, a coding / decoding apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 블록도로 도시한 것으로, 도시된 부호화 장치는 신호분할부(100), 부호화기(110) 및 비트팩킹부(120)를 포함하여 이루어진다.1 is a block diagram illustrating a schematic configuration of an encoding apparatus according to the present invention. The illustrated encoding apparatus includes a
도 1을 참조하면, 신호분할부(100)는 부호화하고자하는 입력 신호를 복수의 신호들로 분할한다. 신호분할부(100)는 밴드 패스 필터(band pass filter)를 사용하여 입력되는 신호를 복수의 주파수 대역, 예를 들어 저주파 대역, 중고주파 대역 및 고주파 대역 신호로 분할할 수 있다. 상기 분할되는 주파수 대역들의 대역폭은 서로 동일하거나 상이할 수 있다. Referring to FIG. 1, the signal splitter 100 splits an input signal to be encoded into a plurality of signals. The
신호분할부(100)는 분할되는 복수의 신호들, 예를 들어 복수의 주파수 대역신호들 간의 간섭이 최소화될 수 있도록, 입력되는 신호를 분할하는 것이 바람직하다.The signal splitter 100 preferably divides an input signal so that interference between a plurality of divided signals, for example, a plurality of frequency band signals, can be minimized.
부호화기(110)는 복수의 부호화부들(111, 112, 113)을 포함하여, 상기 분할된 신호들 각각에 대해 가장 효율적으로 부호화할 수 있는 구조를 가지는 부호화부를 이용하여 부호화를 수행한다. 상기 신호를 가장 효율적으로 부호화할 수 있는 부호화부는 복수의 부호화부들(111, 112, 113) 중 상기 신호를 부호화 시 압축 효율이 가장 높은 부호화부를 의미할 수 있다.The
부호화기(110)는 상기 분할된 신호들의 개수만큼 부호화부를 포함할 수 있으며, 상기 분할된 신호들의 특성에 따라 상기 분할된 신호들과 복수의 부호화부들(111, 112, 113)을 일대일 대응시켜 부호화를 수행할 수 있다.The
예를 들어, 신호분할부(100)가 입력 신호를 복수의 주파수 대역으로 분할하는 경우, 상기 주파수 대역들의 특성에 따라 각각의 주파수 대역과 상기 대역을 부호화할 부호화부가 대응되어 있을 수 있다. 또한, 비트율 감소를 위해, 분할된 주파수 대역들 중 저주파 대역들에 대해서는 각각 서로 다른 부호화부를 적용하고, 고주파 대역에 대해서는 밴드 확장(bandwidth extension) 방식을 이용하는 부호화 부를 이용하여 부호화를 수행할 수 있다.For example, when the signal splitter 100 divides an input signal into a plurality of frequency bands, the frequency band and the encoder to encode the band may correspond to each other according to the characteristics of the frequency bands. In addition, in order to reduce the bit rate, encoding may be performed by applying different encoders to the low frequency bands of the divided frequency bands and using an encoder using a bandwidth extension method to the high frequency bands.
상기 분할된 신호들에 대해 부호화를 수행할 부호화부들은 상기 각 신호의 특성에 따라 미리 결정되어 있거나, 부호화 과정 중 상기 분할된 신호들의 특성을 파악하여 상기 각각의 신호를 가장 효율적으로 부호화할 부호화부를 결정하도록 할 수 있다.Encoding units for encoding the divided signals are predetermined according to the characteristics of the respective signals, or encoding units for encoding the respective signals most efficiently by grasping the characteristics of the divided signals during the encoding process. You can decide.
비트팩킹부(120)는 상기 부호화된 복수의 신호들을 이용하여 비트스트림을 생성한다.The
상기 분할된 복수의 신호들에 대한 정보, 예를 들어 분할된 신호의 개수, 분할된 주파수 대역 정보 등의 분할 정보는 전송되는 비트스트림에 포함될 수 있으며, 복호화 장치에서는 상기 분할 정보를 이용하여 복호화된 복수의 신호들을 합성하여 원 신호를 복원할 수 있다.Information about the plurality of divided signals, for example, divided information such as the number of divided signals and divided frequency band information may be included in a transmitted bitstream, and the decoding apparatus decodes the divided information using the divided information. A plurality of signals may be synthesized to recover the original signal.
도 2는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 부호화 장치는 밴드패스필터(200), 음성부호화기(210), 오디오부호화기(220), 대역확장부호화기(230) 및 비트팩킹부(240)를 포함하여 이루어진다. 도 2에 도시된 부호화 장치의 동작 중 도 1을 참조하여 설명한 동작과 동일한 것에 대해서는 이하 설명을 생략하기로 한다.FIG. 2 is a block diagram illustrating an embodiment of a configuration of an encoding apparatus according to the present invention. The encoding apparatus illustrated in FIG. 2 includes a
밴드패스필터(200) 부호화하고자하는 입력 신호에 대해 밴드 패스 필터링을 수행하여, 저주파 대역, 중고주파 대역 및 고주파 대역 신호로 분할한다. 예를 들어, 상기 저주파 대역은 1kHz 이하의 대역이고, 상기 중고주파 대역은 1kHz에서 8kHz까지의 대역이며, 상기 고주파 대역은 8kHz 이상의 대역일 수 있다.The
일반적으로, 시간 축 상에서 급격하게 변화하는(transient) 신호의 경우, 상기 신호 중 심리 음향학적으로 가장 중요한 부분, 즉 가장 많은 정보를 가지는 부분이 저주파 대역이다. In general, in the case of a signal that is rapidly changing on the time axis, the most psychologically important part of the signal, that is, the part having the most information is the low frequency band.
따라서 도 2에 도시된 바와 같이 저주파 대역 신호는 시간 도메인 상에서 부호화를 수행하는 음성부호화기(210)를 이용해 부호화하는 것이 바람직하다.Accordingly, as shown in FIG. 2, the low frequency band signal is preferably encoded using the
또한, 중고주파 대역은 심리 음향학적으로 현장감(presence)과 선명도(brightness attributes)의 지각에 중요한 영향을 미치는 대역이며, 시간 축 상에서 연속적인(continuous) 특성을 가지는 신호의 하모닉(harmonic) 성분을 정확히 표현하는 것이 필요한 대역이다.In addition, the mid-frequency band is a psychoacoustic band that has an important influence on the perception of presence and brightness attributes, and accurately identifies the harmonic component of a signal having continuous characteristics on the time axis. It is a necessary band to express.
따라서 도 2에 도시된 바와 같이 중고주파 대역 신호는 도메인 변환을 통해 주파수 도메인에서 부호화를 수행하는 오디오부호화기(220)를 이용해 부호화하는 것이 바람직하다.Therefore, as shown in FIG. 2, the high frequency band signal is preferably encoded by using an
일반적으로, 고주파 대역은 심리 음향학적으로 신호의 음질에 미치는 영향이 상기 저주파 대역 또는 중고주파 대역 신호보다 상대적으로 적다. 따라서 비트율을 감소시키기 위해, 상기 고주파 대역 신호는 대역확장부호화기(230)를 이용하여 부호화하는 것이 바람직하다.In general, the high frequency band has a psychoacoustic effect on the sound quality of the signal is relatively less than the low frequency band or the high frequency band signal. Therefore, in order to reduce the bit rate, it is preferable to encode the high frequency band signal using the
대역확장부호화기(230)는 저주파 대역 및 중고주파 대역 신호로부터 상기 고주파 대역 신호를 복원하기 위해 필요한 대역 확장 정보를 생성한다.The
비트팩킹부(240)는 음성부호화기(210)에서 부호화된 저주파 대역 신호, 오디오부호화기(220)에서 부호화된 중고주파 대역 신호 및 대역확장부호화기(230)에서 생성된 대역 확장 정보를 이용하여 비트스트림을 생성한다.The
음성부호화기(210), 오디오부호화기(220) 및 대역확장부호화기(230)의 구성에 대한 구체적인 실시예들에 대해서는 이하 도 3 내지 도 8을 참조하여 설명하기로 한다.Detailed embodiments of the
도 3은 도 2에 도시된 음성 부호화기(210)의 구성에 대한 제1 실시예를 블록도로 도시한 것으로, 도시된 음성 부호화기는 선형예측분석부(211), 계수양자화부(212), 선형예측역필터링부(213) 및 잔차신호양자화부(214)를 포함하여 이루어진다.3 is a block diagram illustrating a first embodiment of the configuration of the
음성 신호는 인간의 발성 기구를 참고하여 모델링(modeling)될 수 있다. 즉, 성대의 진동은 임의의 주파수로 진동하는 발진기로 치환할 수 있으며, 후두에서 입에 이르는 부분은 성대의 진동으로 생기는 음의 스펙트럼에 변화를 가하는 부분이므로 상기 발진기에서 출력된 신호를 변화시키는 필터로 치환할 수 있다. 그에 따라, 상기 발진기의 주파수와 필터의 특성을 나타내는 계수를 결정함으로써 음성 신호를 부호화할 수 있다.The speech signal may be modeled with reference to a human speech instrument. That is, the vibration of the vocal cords can be replaced by an oscillator oscillating at an arbitrary frequency, and the part of the larynx to the mouth changes the sound spectrum generated by the vibration of the vocal cords, thereby changing the signal output from the oscillator. It can be substituted with. Accordingly, the audio signal can be encoded by determining the frequency of the oscillator and the coefficients representing the characteristics of the filter.
또한, 인간의 발성은 크게 주기적인 특성을 가지는 유성음과 주기성이 없는 잡음적인 특성을 가지는 무성음으로 나눌 수 있으므로, 상기 발진기는 주기 신호 발진기와 잡음 신호 발진기의 조합으로 생각할 수 있다.In addition, since human speech can be largely divided into voiced sound having periodic characteristics and unvoiced sound having noise characteristics without periodicity, the oscillator can be considered as a combination of a periodic signal oscillator and a noise signal oscillator.
따라서, 음성 신호는 주파수 공간 상에서의 특성을 나타내는 계수, 주기 성분인 피치(pitch)에 관한 정보 및 잡음 성분에 관한 정보로 부호화될 수 있다.Therefore, the speech signal can be encoded into coefficients representing characteristics in the frequency space, information on pitch, which is a periodic component, and information on noise components.
선형예측분석부(211)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구한다. 상기 구해진 선형 예측 계수는 상기 입력 신호의 스펙트럼 포락선(spectral envelop), 즉 주파수 공간 상에서의 신호 특성을 표현할 수 있다. 따라서 상기 선형 예측 계수에 의해 상기 음성 신호의 치환된 성분 중 필터의 특성을 표현할 수 있다.The
다음의 수학식 1과 같이 현재 신호 X(n)을 과거 입력 신호들의 선형 조합으로 표현될 수 있다.As shown in
상기 수학식 1에서 p는 선형 예측 차수이고, a1 내지 ap는 선형 예측 계수이며, e(n)은 선형 예측의 오차를 나타내는 잔차 신호이다. 상기 선형 예측 계수는 프레임 전체에 걸쳐 상기 잔차 신호 e(n)이 최소가 되도록 프레임 단위로 결정된다.In
계수양자화부(212)는 상기 구해진 선형 예측 계수를 양자화한다. 예를 들어, 계수양자화부(212)는 상기 선형 예측 계수를 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환한 후 양자화하여, 양자화 테이블의 인덱스 형태로 부호화할 수 있다.The
선형예측역필터링부(213)는 다음의 수학식 2와 같이 계산하여 부호화하고자하는 음성 신호에 대해 상기 구해진 선형 예측 계수에 의한 선형 예측 역필터링을 수행한다.The linear predictive
상기 수학식 2에서 X(n)은 입력 신호이며, p는 선형 예측 차수이고, a1 내지 ap는 상기 구해진 선형 예측 계수이며, e(n)은 선형 예측 역필터링의 출력인 예측 잔차 신호이다.In Equation 2, X (n) is an input signal, p is a linear prediction order, a 1 to a p are the obtained linear prediction coefficients, and e (n) is a prediction residual signal which is an output of linear prediction inverse filtering. .
상기와 같이 구해진 예측 잔차 신호 e(n)은 부호화하고자하는 입력 신호에서 선형 예측 계수에 의한 스펙트럼 특성이 제거된 것이므로, 상기 음성 신호의 치환된 성분 중 발진기의 주파수에 관한 정보를 표현할 수 있다.Since the predicted residual signal e (n) obtained as described above is obtained by removing the spectral characteristics due to the linear prediction coefficients from the input signal to be encoded, information about the frequency of the oscillator among the substituted components of the speech signal may be expressed.
잔차신호양자화부(214)는 상기 구해진 예측 잔차 신호 e(n)에 대해 양자화를 수행한다.The residual
음성부호화기(210)는 음성 신호를 상기와 같은 방법으로 구해진 양자화된 선형 예측 계수 및 예측 잔차 신호로 부호화할 수 있다.The
도 4는 도 2에 도시된 음성 부호화기의 구성에 대한 제2 실시예를 블록도로 도시한 것으로, 도시된 음성 부호화기는 피치검출부(300) 및 선형예측분석부(310)를 포함하여 이루어질 수 있다.FIG. 4 is a block diagram illustrating a second embodiment of the configuration of the speech coder illustrated in FIG. 2. The illustrated speech coder may include a
도 4를 참조하면, 피치검출부(300)는 부호화하고자하는 신호의 피치를 검출한다. 음성 신호의 경우에는 하나의 피치만을 포함하나, 오디오 신호의 경우에는 2 이상의 피치를 포함할 수 있다.Referring to FIG. 4, the
도 4에 도시된 바와 같이, 피치검출부(300)는 다음의 수학식 3으로 표현될 수 있다.As shown in FIG. 4, the
상기 수학식 3에서, T는 피치의 주기를 나타내며, gp는 상기 피치의 게인(gain)을 나타낸다.In Equation 3, T denotes a period of a pitch, and g p denotes a gain of the pitch.
피치검출부(300)는 입력 신호의 피치의 주기 및 게인을 프레임 단위로 검출함으로써 입력 신호의 주기적인 성분을 부호화할 수 있다. 본 발명에 따른 부호화 장치는 음성 신호뿐 아니라 오디오 신호에도 적용 가능하기 위해, 프레임 단위로 2 이상의 피치 주기 및 게인을 검출하는 것이 바람직하다.The
상기한 바와 같이, 선형예측분석부(310)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구한다. 선형예측분석부(310)는 비대칭 윈도우(window)를 이용해 구한 자기 상관 계수를 사용하여 입력되는 신호에 대해 프레임 단위로 선형 예측 분석을 수행할 수 있다. 자기 상관 계수를 구함에 있어, 선형예측분석부(200)는 예견 구간, 예를 들어 상기 비대칭 윈도우가 30ms의 길이를 가지는 경우 5ms의 길이를 가지는 예견 구간을 두어 선형 예측 분석을 수행할 수 있다. 상기 자기 상관 계수는 Levinson-Durbin 알고리듬을 이용하여 선형 예측 계수로 변환된다.As described above, the
상기한 바와 같이, 상기 구해진 선형 예측 계수는 양자화에 적합한 파라미터 인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화되어, 양자화 테이블의 인덱스 형태로 부호화될 수 있다.As described above, the obtained linear prediction coefficient may be transformed into a Log Area Ratio (LAR) or a Line Spectrum Pair (LSP), which is a parameter suitable for quantization, and then quantized and encoded in an index form of a quantization table.
입력된 여기 신호와 상기 검출된 피치에 의해 표현되는 주기적인 음원 신호에 대해, 상기 구해진 선형 예측 계수를 이용해 LPC 합성 필터링을 수행하면 합성된 신호를 얻을 수 있다.For the periodic sound source signal represented by the input excitation signal and the detected pitch, LPC synthesis filtering may be performed using the obtained linear prediction coefficients to obtain a synthesized signal.
상기 여기 신호는 입력 신호의 잡음 성분을 나타내는 것으로, 상기 합성 신호와 원본 신호인 상기 입력 신호 사이의 오차가 최소화되도록 결정된 것이다.The excitation signal represents a noise component of an input signal and is determined to minimize an error between the synthesized signal and the input signal that is an original signal.
도 4에 도시된 바와 같이, 여기 신호에는 게인(gc)이 곱해지는데, 상기 여기 신호의 게인(gc) 및 상기 피치의 게인(gp)을 제어함에 따라 주기성이 강한 신호에서 주기성이 없는 잡음 신호까지 다양한 신호의 생성이 가능하다. 상기 게인(gc, gp)은 양자화되어 양자화 테이블의 인덱스 형태로 부호화될 수 있다.As shown in Figure 4, this signal has the gain (g c) is multiplied makin, there is no periodicity in a strong periodic signal as the control gain (g c) and the gain (g p) of the pitch of the excitation signal It is possible to generate various signals up to noise signals. The gains g c and g p may be quantized and encoded in an index form of a quantization table.
도 5는 도 2에 도시된 음성 부호화기의 구성에 대한 제3 실시예를 블록도로 도시한 것이다.FIG. 5 is a block diagram illustrating a third embodiment of the configuration of the speech encoder illustrated in FIG. 2.
선형예측부(400)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구하고, 양자화부(410)는 상기 구해진 선형 예측 계수를 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화한다.The
피치추정부(420)는 상기 입력 신호의 피치 주기를 추정한다. 적응코드북(430)는 과거의 입력 신호 중 주기적인 성분인 음원 신호들을 코드북의 형태로 저장한다. 잡음생성부(440)는 비주기적인 잡음 신호를 생성하며, 상기 잡음 신호들을 코드북의 형태로 저장하고 있을 수도 있다.
가산부(450)는 피치추정부(420)에서 추정된 피치 주기에 따라 적응코드북(430)으로부터 추출된 주기적인 음원 신호와 잡음생성부(440)로부터 출력된 잡음 신호 각각에 게인(gp, gc)을 곱한 후 가산하여 잔차 신호를 생성한다. 일반적으로 잔차 신호는 선형 예측 계수를 이용해 입력 신호에 대해 선형 예측 역필터링을 수행하여 얻어지는 신호를 의미하는데, 가산부(450)로부터 출력되는 상기 잔차 신호는 정확하게는 잔차 신호에 가까운 신호이다.The
합성필터(460)는 가산부(450)로부터 출력된 잔차 신호에 대해 상기 양자화된 선형 예측 계수에 의한 합성 필터링을 수행하여 합성 신호를 생성한다.The
오차계산부(470)는 원본 신호인 입력 신호와 상기 합성 신호 사이의 오차를 계산하고, 청각가중치필터(480)는 상기 계산된 오차에 대하여 청각적인 가중치를 준다.The
오차최소화부(490)는 상기 청각적인 특성을 고려한 오차를 최소로 하는 피치의 주기(Ti), 게인(gpi, gci), 잡음 신호를 결정한다. 여기 신호는 오차를 최소로 하기 위해 결정된 상기 잡음 신호를 의미한다. The
도 2 내지 도 5를 참조하여 설명한 음성부호화기는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예에 불과하며, 도 2에 도시된 음성부호화기(210)는 시간 도메인 상에서 부호화를 수행하는 여러 음성 부호화 방식들이 사용될 수 있다.The voice encoder described with reference to FIGS. 2 to 5 is only one embodiment of the configuration of the encoding apparatus according to the present invention, and the
도 6은 도 2에 도시된 오디오 부호화기(220)의 구성에 대한 제1 실시예를 블록도로 도시한 것으로, 도시된 오디오 부호화기는 도메인변환부(221), 심리음향모델링부(222) 및 양자화부(223)를 포함하여 이루어진다.FIG. 6 is a block diagram illustrating a first embodiment of the configuration of the
도메인변환부(221)는 필터 뱅크를 이용해 입력 신호를 주파수 도메인으로 변환한다. 예를 들어, 도메인변환부(221)는 상기 입력 신호에 대해 코사인 변환, 예를 들어 MDCT(Modified Discrete Transform)를 수행할 수 있다.The
심리음향모델링부(222)는 상기 입력 신호의 마스킹 임계치 또는 신호 대 마스크 비(SMR, Signal-to-Mask Ratio)를 계산한다. 양자화부(223)는 상기 도메인변환부(400)로부터 출력되는 MDCT 계수들에 대해 상기 마스킹 임계치를 이용하여 양자화를 수행한다. 또한, 양자화부(223)는 주어진 비트율 내에서 양자화된 신호의 가청 왜곡을 최소화하기 위하여 상기 신호 대 마스크 비(SMR)를 사용할 수 있다.The
도 7은 도 2에 도시된 오디오 부호화기의 구성에 대한 제2 실시예를 블록도로 도시한 것으로, 도시된 오디오 부호화기는 전처리부(500), 도메인변환부(510), 벡터양자화부(520), 도메인역변환부(530) 및 게인최적화/양자화부(540)를 포함하여 이루어진다.FIG. 7 is a block diagram illustrating a second embodiment of the configuration of the audio encoder illustrated in FIG. 2. The illustrated audio encoder includes a
전처리부(500)는 입력 신호에 대해 필터링 및 윈도우잉(windowing)을 수행하여 상기 입력 신호를 부호화에 효율적인 신호로 변환한다.The
도메인변환부(510)는 상기 전처리가 수행된 입력 신호에 대해 주파수 도메인 변환, 예를 들어 FFT(Fast Fourier Transform)을 하고, 벡터양자화부(520)는 벡터 양자화를 수행하여 코드북 인덱스(codebook index), 코드 벡터 인덱스(code vector index), 보로노이 확장 인덱스(Voronoi extention index)를 출력한다.The
최초 스펙트럼 피크(first spectral peak) 이전의 저에너지 블럭(low energy block)의 부호화를 개선하기 위해, 상기 벡터양자화 전후에 스펙트럼 프리엠퍼시스(pre-emphasis) 및 디엠퍼스트(de-emphasis)를 수행할 수 있다.In order to improve the encoding of low energy blocks before the first spectral peak, spectral pre-emphasis and de-emphasis may be performed before and after the vector quantization. have.
도메인역변환부(530)는 벡터양자화부(520)의 출력 신호에 대해 도메인변환부(510)에서 수행된 변환의 역변환, 예를 들어 inverse FFT를 수행한다.The domain
게인최적화/양자화부(540)는 상기 도메인 변환 이전 신호와 상기 도메인 역변환 이후 신호의 게인 차이를 계산하여 최적 게인 인덱스를 출력한다.The gain optimization /
벡터양자화부(520)로부터 출력되는 인덱스들과 게인최적화/양자화부(540)로부터 출력되는 최적 게인 인덱스가 신호를 복원하기 위한 데이터로서 비트스트림에 포함될 수 있다.The indices output from the
도 6 내지 도 7을 참조하여 설명한 오디오 부호화기는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예에 불과하며, 도 2에 도시된 오디오부호화기(220)는 AAC(Advanced Audio Coding) 또는 TCX(Transform Coded Excitation) 등과 같은도메인 변환을 이용하여 부호화를 수행하는 여러 부호화 방식들이 사용될 수 있다.The audio coder described with reference to FIGS. 6 to 7 is only an embodiment of a configuration of an encoding apparatus according to the present invention, and the
도 8은 도 2에 도시된 대역확장 부호화기(230)의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 대역 확장 부호화기는 선형예측역필터링부(231), 고주파신호합성부(232), 게인벡터계산부(233), 선형예측분석부(234), 예측게인벡터계산부(235) 및 게인보정정보생성부(236)를 포함하여 이루어진다.FIG. 8 is a block diagram illustrating an embodiment of the configuration of the
선형예측역필터링부(231)는 저주파/중고주파 대역 신호에 대해 상기 수학식 2와 같은 선형예측역필터링을 수행하여 잔차 신호를 구한다. 고주파신호합성부(232)는 상기 구해진 잔차 신호에 대해 고주파 합성 필터링을 수행하여 합성 고주파 대역 신호를 생성한다. 상기 합성 고주파 대역 신호가 다운-샘플링(down-sampling)된 상태인 경우, 이후 업-샘플링(up-sampling)된 후 고주파 대역 신호로 복원될 수 있다.The linear prediction
게인벡터계산부(233)는 실제 고주파 대역 신호와 상기 합성 고주파 대역 신호에 대해 인지 필터링(perceptual filtering)을 수행한 후 두 신호 사이의 게인에 대한 정보를 가지는 게인 벡터를 계산한다.The
선형예측분석부(234)는 상기 저주파/중고주파 대역 신호 및 고주파 대역 신호에 대해 선형 예측 분석을 수행하고 , 예측게인벡터계산부(235)는 상기 두 신호 사이의 게인에 대한 정보를 가지는 예측 게인 벡터를 계산한다.The
보정정보생성부(236)는 게인벡터계산부(233)에서 계산된 게인 벡터와 예측게인벡터계산부(235)에서 계산된 예측 게인 벡터 사이의 차를 계산하여 고주파 대역 신호의 게인을 보정하기 위한 보정 정보를 생성한다. The
본 발명에 따른 복호화 장치는 상기 도 1 내지 도 8을 참조하여 설명한 부호화 장치의 부호화 과정의 역 과정을 수행함에 의해, 입력되는 비트스트림으로부터 신호를 복원할 수 있다.The decoding apparatus according to the present invention may reconstruct a signal from an input bitstream by performing an inverse process of the encoding process of the encoding apparatus described with reference to FIGS. 1 to 8.
도 9는 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 복호화 장치는 비트언팩킹부(600), 음성복호화기(610), 오디오복호화기(620), 대역확장복호화기(630) 및 신호합성부(640)를 포함하여 이루어진 다.9 is a block diagram illustrating an embodiment of a configuration of a decoding apparatus according to the present invention. The decoding apparatus illustrated in FIG. 9 includes a
비트언팩킹부(600)는 입력되는 비트스트림으로부터 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 고주파 대역 신호를 복원하기 위한 대역 확장 정보를 추출한다.The
음성복호화기(610)는 상기 부호화된 저주파 대역 신호에 대해 시간 도메인 상에서 수행되는 음성 복호화 방식을 이용하여 복호화를 수행한다.The
오디오복호화기(620) 상기 부호화된 중고주파 대역 신호에 대해 주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 복호화를 수행한다.The
음성복호화기(610)와 오디오복호화기(620)가 각각 수행하는 복호화 방식은 도 3 내지 도 7을 참조하여 설명한 음성 또는 오디오 부호화 방식의 역 과정을 수행할 수 있다.The decoding schemes performed by the
예를 들어, 음성복호화기(610)는 상기 비트스트림으로부터 추출된 선형 예측 계수를 이용해 선형 예측 합성 필터링을 수행하여 신호를 복원할 수 있다. 좀 더 구체적으로, 상기 비트스트림으로부터 추출된 부호화된 저주파 대역 신호는 복원될 신호의 피치 정보 및 여기 신호 정보를 포함하고, 음성복호화부(610)는 상기 피치 정보 및 여기 신호 정보를 이용하여 잔차 신호를 복원하고, 상기 복원된 잔차 신호에 대해 상기 추출된 선형 예측 계수에 따른 선형 예측 합성 필터링을 수행하여 신호를 복원한다.For example, the
또한, 오디오복호화기(620)는 비트스트림으로부터 추출된 스케일팩터를 이용해 상기 부호화 데이터를 역양자화하는 단계를 수행함으로써 신호를 복원할 수 있 다. 상기 비트스트림으로부터 추출된 부호화된 중고주파 대역 신호는 허프만 코드북 인덱스 또는 상기 스케일팩터에 의해 정규화된 MDCT 계수를 포함할 수 있으며, 오디오복호화기(620)는 상기 허프만 코드북 인덱스를 이용해 무손실복호화를 수행하거나, 상기 정규화된 MDCT 계수를 상기 스케일팩터를 이용해 역양자화할 수 있다. 상기 역양자화된 계수들은 신호의 재생을 위해 시간 도메인 상으로 도메인 변환된다.In addition, the
대역확장복호화기(630)는 상기 복원된 저주파/중고주파 대역 신호 및 상기 추출된 대역 확장 정보를 이용하여 고주파 대역 신호를 생성한다. 대역확장복호화기(630)는 도 8을 참조하여 설명한 대역확장부호화기의 동작의 역 과정을 수행함으로써 상기 고주파 대역 신호를 생성할 수 있다.The
상술한 본 발명에 따른 부호화/복호화 장치는 DAB(Digital Audio Broadcasting), DMB(Digital Multimedia Broadcasting)과 같은 멀티미디어 방송 송/수신 장치에 구비되어, 오디오 신호 또는 음성 신호 등을 부호화/복호화 하는데 사용될 수 있다. 또한 상기 멀티미디어 방송 송/수신 장치는 이동통신 단말기를 포함할 수 있다.The encoding / decoding apparatus according to the present invention described above is provided in a multimedia broadcasting transmission / reception apparatus such as digital audio broadcasting (DAB) or digital multimedia broadcasting (DMB), and may be used to encode / decode audio signals or audio signals. . In addition, the multimedia broadcasting transmission / reception apparatus may include a mobile communication terminal.
상술한 본 발명에 따른 부호화/복호화 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 상기한 본 발명에 따른 데이터 구조를 가지는 멀티 미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 사용자 추적 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. 또한, 상술한 부호화 방법에 의해 생성된 비트스트림은 상기 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.The encoding / decoding method according to the present invention described above may be stored in a computer-readable recording medium that is produced as a program for execution on a computer, and multimedia data having a data structure according to the present invention may also be read by a computer. Can be stored in a recording medium. The computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. In addition, functional programs, codes, and code segments for implementing the user tracking method can be easily inferred by programmers in the art to which the present invention belongs. In addition, the bitstream generated by the above-described encoding method may be stored in the computer-readable recording medium or transmitted using a wired / wireless communication network.
상술한 본 발명에 따른 복호화 장치는 이동 통신 단말기, PMP(Portable Multimedia Player)와 같은 멀티미디어 플레이어, PDA(Personal Digital Assistants) 등의 재생 장치에 구비될 수 있다. 또한, 상술한 복호화 장치는 하드웨어적으로 구현되어 재생 장치 등에 포함되거나, 상술한 바와 같이 소프트웨어적으로 재생 장치에 구현될 수도 있다.The decoding apparatus according to the present invention described above may be provided in a mobile communication terminal, a multimedia player such as a portable multimedia player (PMP), and a playback device such as a personal digital assistant (PDA). In addition, the above-described decoding apparatus may be implemented in hardware and included in a reproduction apparatus or the like, or as described above, may be implemented in a reproduction apparatus in software.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.While the above has been shown and described with respect to preferred embodiments of the present invention, the present invention is not limited to the specific embodiments described above, it is usually in the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.
상기한 바와 같은 본 발명에 따른 부호화/복호화 방법 및 장치에 의하면, 부호화하고자하는 신호를 복수의 주파수 대역으로 분할하여 저주파 대역 신호들은 각 주파수 대역의 특성에 따라 서로 다른 부호화 방식을 이용해 부호화하고, 고주파 대역 신호는 대역 확장 부호화 방식을 이용해 부호화함으로써, 다양한 특성을 가지는 신호들을 적은 비트율로 부호화 및 복호화할 수 있다.According to the encoding / decoding method and apparatus according to the present invention as described above, the signals to be encoded are divided into a plurality of frequency bands, and low-frequency band signals are encoded using different coding schemes according to characteristics of each frequency band, The band signal can be encoded and decoded by using a band extension coding method, at low bit rates, signals having various characteristics.
Claims (17)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82979406A | 2006-10-17 | 2006-10-17 | |
US60/829,794 | 2006-10-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080034817A true KR20080034817A (en) | 2008-04-22 |
Family
ID=39574066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070104670A KR20080034817A (en) | 2006-10-17 | 2007-10-17 | Apparatus and method for encoding and decoding signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080034817A (en) |
-
2007
- 2007-10-17 KR KR1020070104670A patent/KR20080034817A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101373004B1 (en) | Apparatus and method for encoding and decoding high frequency signal | |
US9728196B2 (en) | Method and apparatus to encode and decode an audio/speech signal | |
EP3039676B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
KR100958144B1 (en) | Audio Compression | |
RU2667382C2 (en) | Improvement of classification between time-domain coding and frequency-domain coding | |
RU2485606C2 (en) | Low bitrate audio encoding/decoding scheme using cascaded switches | |
KR101425944B1 (en) | Improved coding/decoding of digital audio signal | |
TWI576832B (en) | Apparatus and method for generating bandwidth extended signal | |
US20060122828A1 (en) | Highband speech coding apparatus and method for wideband speech coding system | |
JP2009530685A (en) | Speech post-processing using MDCT coefficients | |
RU2636685C2 (en) | Decision on presence/absence of vocalization for speech processing | |
JP2020204784A (en) | Method and apparatus for encoding signal and method and apparatus for decoding signal | |
KR20130047608A (en) | Apparatus and method for codec signal in a communication system | |
US9390722B2 (en) | Method and device for quantizing voice signals in a band-selective manner | |
EP1872364A1 (en) | Source coding and/or decoding | |
JP2004302259A (en) | Hierarchical encoding method and hierarchical decoding method for sound signal | |
JP5451603B2 (en) | Digital audio signal encoding | |
KR20080034819A (en) | Apparatus and method for encoding and decoding signal | |
KR20080092823A (en) | Apparatus and method for encoding and decoding signal | |
KR20080034817A (en) | Apparatus and method for encoding and decoding signal | |
KR20130007521A (en) | Method and apparatus for encoding audio signal, and method and apparatus for decoding audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |