KR20080034817A - Apparatus and method for encoding and decoding signal - Google Patents

Apparatus and method for encoding and decoding signal Download PDF

Info

Publication number
KR20080034817A
KR20080034817A KR1020070104670A KR20070104670A KR20080034817A KR 20080034817 A KR20080034817 A KR 20080034817A KR 1020070104670 A KR1020070104670 A KR 1020070104670A KR 20070104670 A KR20070104670 A KR 20070104670A KR 20080034817 A KR20080034817 A KR 20080034817A
Authority
KR
South Korea
Prior art keywords
frequency band
signal
high frequency
band signal
low frequency
Prior art date
Application number
KR1020070104670A
Other languages
Korean (ko)
Inventor
이현국
방희석
김동수
임재현
윤성용
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20080034817A publication Critical patent/KR20080034817A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Abstract

An apparatus and a method for encoding and decoding signals are provided to encode and decode the signals with different characteristics by encoding low frequency band signals through different encoding methods and encoding high frequency band signals through band expansion encoding methods. An apparatus for encoding and decoding signals comprises a bit unpacking part, first and second decoding parts(111,112), a band expansion decoding part and a mixing part. The bit unpacking part withdraws low frequency band signals, middle/high frequency band signals, and band expansion information. The first decoding part decodes the encoded low frequency band signal using a first decoding method. The second decoding part decodes the encoded middle/high frequency band signal using a second decoding method. The band expansion decoding part recovers the high frequency band signals from the decoded low frequency and middle/high frequency band signals. A signal dividing part(100) divides the inputted signals into low, middle/high and high frequency bands.

Description

부호화/복호화 장치 및 방법{Apparatus and method for encoding and decoding signal}Apparatus and method for encoding and decoding signal

도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 나타내는 블록도이다.1 is a block diagram showing a schematic configuration of an encoding apparatus according to the present invention.

도 2는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.2 is a block diagram showing an embodiment of a configuration of an encoding apparatus according to the present invention.

도 3은 도 2에 도시된 음성 부호화기의 구성에 대한 제1 실시예를 나타내는 블록도이다.FIG. 3 is a block diagram illustrating a first embodiment of the configuration of the speech coder illustrated in FIG. 2.

도 4는 도 2에 도시된 음성 부호화기의 구성에 대한 제2 실시예를 나타내는 블록도이다.FIG. 4 is a block diagram illustrating a second embodiment of the configuration of the speech encoder illustrated in FIG. 2.

도 5는 도 2에 도시된 음성 부호화기의 구성에 대한 제3 실시예를 나타내는 블록도이다.FIG. 5 is a block diagram illustrating a third embodiment of the configuration of the speech encoder illustrated in FIG. 2.

도 6은 도 2에 도시된 오디오 부호화기의 구성에 대한 제1 실시예를 나타내는 블록도이다.FIG. 6 is a block diagram illustrating a first embodiment of the configuration of the audio encoder illustrated in FIG. 2.

도 7은 도 2에 도시된 오디오 부호화기의 구성에 대한 제2 실시예를 나타내는 블록도이다.FIG. 7 is a block diagram illustrating a second embodiment of the configuration of the audio encoder illustrated in FIG. 2.

도 8은 도 2에 도시된 대역확장 부호화기의 구성에 대한 일실시예를 나타내 는 블록도이다.FIG. 8 is a block diagram illustrating an embodiment of a configuration of a band extension encoder illustrated in FIG. 2.

도 9는 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.9 is a block diagram illustrating an embodiment of a configuration of a decoding apparatus according to the present invention.

본 발명은 신호의 부호화/복호화 장치 및 방법에 관한 것으로, 더욱 상세하게는 신호의 특성에 따라 최적의 비트율로 부호화/복호화할 수 있도록 하는 효율적인 부호화/복호화 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for encoding / decoding a signal, and more particularly, to an efficient encoding / decoding apparatus and method for encoding / decoding at an optimal bit rate according to characteristics of a signal.

종래의 오디오 부호화기는 48kbps 이상의 높은 비트율에서는 고음질의 오디오 신호를 제공하지만 음성 신호의 처리에는 비효율적이며, 종래의 음성 부호화기는 12kbps 이하의 낮은 비트율에서 음성 신호를 효과적으로 부호화할 수 있지만 다양한 오디오 신호를 부호화하기에 부족하다.Conventional audio coders provide high quality audio signals at high bit rates above 48 kbps, but are inefficient for processing speech signals. Conventional speech coders can efficiently encode speech signals at low bit rates below 12 kbps, but encode various audio signals. Lack in.

본 발명이 이루고자 하는 기술적 과제는, 음성 신호, 오디오 신호 등과 같이 서로 다른 특성을 가지는 신호들을 최적의 비트율로 부호화할 수 있도록 하는 부호화/복호화 장치 및 방법을 제공하는데 있다.An object of the present invention is to provide an encoding / decoding apparatus and method for encoding signals having different characteristics, such as voice signals and audio signals, at an optimal bit rate.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 방법은, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 단계; 상기 부호화된 저주파 대역 신호를 제1 복호화 방식을 이용하여 복호화하는 단계; 상기 부호화된 중고주파 대역 신호를 제2 복호화 방식을 이용하여 복호화하는 단계; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 단계; 및 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a decoding method comprising: extracting an encoded high frequency band signal and band extension information; Decoding the encoded low frequency band signal using a first decoding method; Decoding the encoded high frequency band signal using a second decoding method; Restoring a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And synthesizing the decoded low frequency band signal and the high frequency band signal and the reconstructed high frequency band signal.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 방법은, 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 단계; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 단계; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 단계; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 단계; 및 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an encoding method, comprising: dividing an input signal into a low frequency band, a medium frequency band, and a high frequency band; Encoding the low frequency band signal using a first encoding scheme performed on a time domain; Encoding the high frequency band signal using a second coding scheme performed on a frequency domain; Generating band extension information for reconstructing the signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And generating a bitstream including the encoded low frequency band signal and the high frequency band signal and the band extension information.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 장치는, 입력되는 비트스트림으로부터 부호화된 저주파 대역 신호, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 비트언팩킹부; 시간 도메인 상에서 수행되는 제1 복호화 방식을 이용하여 상기 부호화된 저주파 대역 신호를 복호화하는 제1 복호화부; 주파수 도메인 상에서 수행되는 제2 복호화 방식을 이용하여 상기 부호화된 중 고주파 대역 신호를 복호화하는 제2 복호화부; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 대역확장복호화부; 및 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 합성부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a decoding apparatus comprising: a bit unpacking unit configured to extract an encoded low frequency band signal, an encoded medium frequency band signal, and band extension information from an input bitstream; A first decoder which decodes the encoded low frequency band signal using a first decoding method performed in a time domain; A second decoder which decodes the encoded mid-frequency band signal using a second decoding method performed on a frequency domain; A band extension decoding unit which restores a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And a synthesizer for synthesizing the decoded low frequency band signal and the high frequency band signal and the restored high frequency band signal.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 장치는, 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 신호분할부; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 제1 부호화부; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 제2 부호화부; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 대역확장부호화부; 및 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an encoding apparatus, including: a signal splitter configured to divide an input signal into a low frequency band, a medium frequency band, and a high frequency band; A first encoder which encodes the low frequency band signal using a first encoding scheme performed in a time domain; A second encoder which encodes the high-frequency band signal using a second encoding scheme performed on a frequency domain; A band extension encoder for generating band extension information for restoring a signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And a bit packing unit generating a bitstream including the encoded low frequency band signal, the high frequency band signal, and the band extension information.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 본 발명에 따른 부호화/복호화 장치 및 방법에 관해 상세히 설명한다. Hereinafter, a coding / decoding apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 블록도로 도시한 것으로, 도시된 부호화 장치는 신호분할부(100), 부호화기(110) 및 비트팩킹부(120)를 포함하여 이루어진다.1 is a block diagram illustrating a schematic configuration of an encoding apparatus according to the present invention. The illustrated encoding apparatus includes a signal splitter 100, an encoder 110, and a bit packing unit 120.

도 1을 참조하면, 신호분할부(100)는 부호화하고자하는 입력 신호를 복수의 신호들로 분할한다. 신호분할부(100)는 밴드 패스 필터(band pass filter)를 사용하여 입력되는 신호를 복수의 주파수 대역, 예를 들어 저주파 대역, 중고주파 대역 및 고주파 대역 신호로 분할할 수 있다. 상기 분할되는 주파수 대역들의 대역폭은 서로 동일하거나 상이할 수 있다. Referring to FIG. 1, the signal splitter 100 splits an input signal to be encoded into a plurality of signals. The signal splitter 100 may divide a signal input using a band pass filter into a plurality of frequency bands, for example, a low frequency band, a medium frequency band, and a high frequency band signal. The bandwidths of the divided frequency bands may be the same or different from each other.

신호분할부(100)는 분할되는 복수의 신호들, 예를 들어 복수의 주파수 대역신호들 간의 간섭이 최소화될 수 있도록, 입력되는 신호를 분할하는 것이 바람직하다.The signal splitter 100 preferably divides an input signal so that interference between a plurality of divided signals, for example, a plurality of frequency band signals, can be minimized.

부호화기(110)는 복수의 부호화부들(111, 112, 113)을 포함하여, 상기 분할된 신호들 각각에 대해 가장 효율적으로 부호화할 수 있는 구조를 가지는 부호화부를 이용하여 부호화를 수행한다. 상기 신호를 가장 효율적으로 부호화할 수 있는 부호화부는 복수의 부호화부들(111, 112, 113) 중 상기 신호를 부호화 시 압축 효율이 가장 높은 부호화부를 의미할 수 있다.The encoder 110 includes a plurality of encoders 111, 112, and 113 to perform encoding using an encoder having a structure capable of encoding the divided signals most efficiently. The encoder which can encode the signal most efficiently may mean an encoder having the highest compression efficiency when encoding the signal among the plurality of encoders 111, 112, and 113.

부호화기(110)는 상기 분할된 신호들의 개수만큼 부호화부를 포함할 수 있으며, 상기 분할된 신호들의 특성에 따라 상기 분할된 신호들과 복수의 부호화부들(111, 112, 113)을 일대일 대응시켜 부호화를 수행할 수 있다.The encoder 110 may include an encoder as many as the number of the divided signals, and encodes the encoded signals by one-to-one correspondence with the divided signals and the plurality of encoders 111, 112, and 113 according to the characteristics of the divided signals. Can be done.

예를 들어, 신호분할부(100)가 입력 신호를 복수의 주파수 대역으로 분할하는 경우, 상기 주파수 대역들의 특성에 따라 각각의 주파수 대역과 상기 대역을 부호화할 부호화부가 대응되어 있을 수 있다. 또한, 비트율 감소를 위해, 분할된 주파수 대역들 중 저주파 대역들에 대해서는 각각 서로 다른 부호화부를 적용하고, 고주파 대역에 대해서는 밴드 확장(bandwidth extension) 방식을 이용하는 부호화 부를 이용하여 부호화를 수행할 수 있다.For example, when the signal splitter 100 divides an input signal into a plurality of frequency bands, the frequency band and the encoder to encode the band may correspond to each other according to the characteristics of the frequency bands. In addition, in order to reduce the bit rate, encoding may be performed by applying different encoders to the low frequency bands of the divided frequency bands and using an encoder using a bandwidth extension method to the high frequency bands.

상기 분할된 신호들에 대해 부호화를 수행할 부호화부들은 상기 각 신호의 특성에 따라 미리 결정되어 있거나, 부호화 과정 중 상기 분할된 신호들의 특성을 파악하여 상기 각각의 신호를 가장 효율적으로 부호화할 부호화부를 결정하도록 할 수 있다.Encoding units for encoding the divided signals are predetermined according to the characteristics of the respective signals, or encoding units for encoding the respective signals most efficiently by grasping the characteristics of the divided signals during the encoding process. You can decide.

비트팩킹부(120)는 상기 부호화된 복수의 신호들을 이용하여 비트스트림을 생성한다.The bit packing unit 120 generates a bitstream using the plurality of encoded signals.

상기 분할된 복수의 신호들에 대한 정보, 예를 들어 분할된 신호의 개수, 분할된 주파수 대역 정보 등의 분할 정보는 전송되는 비트스트림에 포함될 수 있으며, 복호화 장치에서는 상기 분할 정보를 이용하여 복호화된 복수의 신호들을 합성하여 원 신호를 복원할 수 있다.Information about the plurality of divided signals, for example, divided information such as the number of divided signals and divided frequency band information may be included in a transmitted bitstream, and the decoding apparatus decodes the divided information using the divided information. A plurality of signals may be synthesized to recover the original signal.

도 2는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 부호화 장치는 밴드패스필터(200), 음성부호화기(210), 오디오부호화기(220), 대역확장부호화기(230) 및 비트팩킹부(240)를 포함하여 이루어진다. 도 2에 도시된 부호화 장치의 동작 중 도 1을 참조하여 설명한 동작과 동일한 것에 대해서는 이하 설명을 생략하기로 한다.FIG. 2 is a block diagram illustrating an embodiment of a configuration of an encoding apparatus according to the present invention. The encoding apparatus illustrated in FIG. 2 includes a bandpass filter 200, a speech encoder 210, an audio encoder 220, and a bandwidth extension encoder. And a bit packing unit 240. A description of the same operations as those described with reference to FIG. 1 among operations of the encoding apparatus illustrated in FIG. 2 will be omitted.

밴드패스필터(200) 부호화하고자하는 입력 신호에 대해 밴드 패스 필터링을 수행하여, 저주파 대역, 중고주파 대역 및 고주파 대역 신호로 분할한다. 예를 들어, 상기 저주파 대역은 1kHz 이하의 대역이고, 상기 중고주파 대역은 1kHz에서 8kHz까지의 대역이며, 상기 고주파 대역은 8kHz 이상의 대역일 수 있다.The band pass filter 200 performs band pass filtering on the input signal to be encoded, and divides it into a low frequency band, a medium frequency band, and a high frequency band signal. For example, the low frequency band may be a band of 1 kHz or less, the medium frequency band may be a band of 1 kHz to 8 kHz, and the high frequency band may be a band of 8 kHz or more.

일반적으로, 시간 축 상에서 급격하게 변화하는(transient) 신호의 경우, 상기 신호 중 심리 음향학적으로 가장 중요한 부분, 즉 가장 많은 정보를 가지는 부분이 저주파 대역이다. In general, in the case of a signal that is rapidly changing on the time axis, the most psychologically important part of the signal, that is, the part having the most information is the low frequency band.

따라서 도 2에 도시된 바와 같이 저주파 대역 신호는 시간 도메인 상에서 부호화를 수행하는 음성부호화기(210)를 이용해 부호화하는 것이 바람직하다.Accordingly, as shown in FIG. 2, the low frequency band signal is preferably encoded using the speech encoder 210 which performs encoding in the time domain.

또한, 중고주파 대역은 심리 음향학적으로 현장감(presence)과 선명도(brightness attributes)의 지각에 중요한 영향을 미치는 대역이며, 시간 축 상에서 연속적인(continuous) 특성을 가지는 신호의 하모닉(harmonic) 성분을 정확히 표현하는 것이 필요한 대역이다.In addition, the mid-frequency band is a psychoacoustic band that has an important influence on the perception of presence and brightness attributes, and accurately identifies the harmonic component of a signal having continuous characteristics on the time axis. It is a necessary band to express.

따라서 도 2에 도시된 바와 같이 중고주파 대역 신호는 도메인 변환을 통해 주파수 도메인에서 부호화를 수행하는 오디오부호화기(220)를 이용해 부호화하는 것이 바람직하다.Therefore, as shown in FIG. 2, the high frequency band signal is preferably encoded by using an audio encoder 220 which performs encoding in the frequency domain through domain transformation.

일반적으로, 고주파 대역은 심리 음향학적으로 신호의 음질에 미치는 영향이 상기 저주파 대역 또는 중고주파 대역 신호보다 상대적으로 적다. 따라서 비트율을 감소시키기 위해, 상기 고주파 대역 신호는 대역확장부호화기(230)를 이용하여 부호화하는 것이 바람직하다.In general, the high frequency band has a psychoacoustic effect on the sound quality of the signal is relatively less than the low frequency band or the high frequency band signal. Therefore, in order to reduce the bit rate, it is preferable to encode the high frequency band signal using the band extension encoder 230.

대역확장부호화기(230)는 저주파 대역 및 중고주파 대역 신호로부터 상기 고주파 대역 신호를 복원하기 위해 필요한 대역 확장 정보를 생성한다.The band extension encoder 230 generates band extension information necessary to recover the high frequency band signal from the low frequency band and the high frequency band signal.

비트팩킹부(240)는 음성부호화기(210)에서 부호화된 저주파 대역 신호, 오디오부호화기(220)에서 부호화된 중고주파 대역 신호 및 대역확장부호화기(230)에서 생성된 대역 확장 정보를 이용하여 비트스트림을 생성한다.The bit packing unit 240 uses the low frequency band signal encoded by the speech encoder 210, the high frequency band signal encoded by the audio encoder 220, and the band extension information generated by the band extension encoder 230. Create

음성부호화기(210), 오디오부호화기(220) 및 대역확장부호화기(230)의 구성에 대한 구체적인 실시예들에 대해서는 이하 도 3 내지 도 8을 참조하여 설명하기로 한다.Detailed embodiments of the voice encoder 210, the audio encoder 220, and the band encoder 230 will be described with reference to FIGS. 3 to 8.

도 3은 도 2에 도시된 음성 부호화기(210)의 구성에 대한 제1 실시예를 블록도로 도시한 것으로, 도시된 음성 부호화기는 선형예측분석부(211), 계수양자화부(212), 선형예측역필터링부(213) 및 잔차신호양자화부(214)를 포함하여 이루어진다.3 is a block diagram illustrating a first embodiment of the configuration of the speech coder 210 illustrated in FIG. 2. The illustrated speech coder includes a linear prediction analyzer 211, a coefficient quantizer 212, and a linear prediction. The inverse filtering unit 213 and the residual signal quantization unit 214 are included.

음성 신호는 인간의 발성 기구를 참고하여 모델링(modeling)될 수 있다. 즉, 성대의 진동은 임의의 주파수로 진동하는 발진기로 치환할 수 있으며, 후두에서 입에 이르는 부분은 성대의 진동으로 생기는 음의 스펙트럼에 변화를 가하는 부분이므로 상기 발진기에서 출력된 신호를 변화시키는 필터로 치환할 수 있다. 그에 따라, 상기 발진기의 주파수와 필터의 특성을 나타내는 계수를 결정함으로써 음성 신호를 부호화할 수 있다.The speech signal may be modeled with reference to a human speech instrument. That is, the vibration of the vocal cords can be replaced by an oscillator oscillating at an arbitrary frequency, and the part of the larynx to the mouth changes the sound spectrum generated by the vibration of the vocal cords, thereby changing the signal output from the oscillator. It can be substituted with. Accordingly, the audio signal can be encoded by determining the frequency of the oscillator and the coefficients representing the characteristics of the filter.

또한, 인간의 발성은 크게 주기적인 특성을 가지는 유성음과 주기성이 없는 잡음적인 특성을 가지는 무성음으로 나눌 수 있으므로, 상기 발진기는 주기 신호 발진기와 잡음 신호 발진기의 조합으로 생각할 수 있다.In addition, since human speech can be largely divided into voiced sound having periodic characteristics and unvoiced sound having noise characteristics without periodicity, the oscillator can be considered as a combination of a periodic signal oscillator and a noise signal oscillator.

따라서, 음성 신호는 주파수 공간 상에서의 특성을 나타내는 계수, 주기 성분인 피치(pitch)에 관한 정보 및 잡음 성분에 관한 정보로 부호화될 수 있다.Therefore, the speech signal can be encoded into coefficients representing characteristics in the frequency space, information on pitch, which is a periodic component, and information on noise components.

선형예측분석부(211)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구한다. 상기 구해진 선형 예측 계수는 상기 입력 신호의 스펙트럼 포락선(spectral envelop), 즉 주파수 공간 상에서의 신호 특성을 표현할 수 있다. 따라서 상기 선형 예측 계수에 의해 상기 음성 신호의 치환된 성분 중 필터의 특성을 표현할 수 있다.The linear prediction analyzer 211 obtains linear prediction coefficients by performing linear prediction analysis on the input signal. The obtained linear prediction coefficient may represent a spectral envelope of the input signal, that is, a signal characteristic in frequency space. Therefore, the linear prediction coefficients can express the characteristics of the filter among the substituted components of the speech signal.

다음의 수학식 1과 같이 현재 신호 X(n)을 과거 입력 신호들의 선형 조합으로 표현될 수 있다.As shown in Equation 1 below, the current signal X (n) may be expressed as a linear combination of past input signals.

Figure 112007074372509-PAT00001
Figure 112007074372509-PAT00001

상기 수학식 1에서 p는 선형 예측 차수이고, a1 내지 ap는 선형 예측 계수이며, e(n)은 선형 예측의 오차를 나타내는 잔차 신호이다. 상기 선형 예측 계수는 프레임 전체에 걸쳐 상기 잔차 신호 e(n)이 최소가 되도록 프레임 단위로 결정된다.In Equation 1, p is a linear prediction order, a 1 to a p are linear prediction coefficients, and e (n) is a residual signal representing an error of linear prediction. The linear prediction coefficients are determined in units of frames such that the residual signal e (n) is minimized throughout the frame.

계수양자화부(212)는 상기 구해진 선형 예측 계수를 양자화한다. 예를 들어, 계수양자화부(212)는 상기 선형 예측 계수를 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환한 후 양자화하여, 양자화 테이블의 인덱스 형태로 부호화할 수 있다.The coefficient quantization unit 212 quantizes the obtained linear prediction coefficients. For example, the coefficient quantization unit 212 may convert the linear prediction coefficients into a LAR (Log Area Ratio) or LSP (Line Spectrum Pair), which is a parameter suitable for quantization, and then quantize them, and encode the linear prediction coefficients in an index form of a quantization table. have.

선형예측역필터링부(213)는 다음의 수학식 2와 같이 계산하여 부호화하고자하는 음성 신호에 대해 상기 구해진 선형 예측 계수에 의한 선형 예측 역필터링을 수행한다.The linear predictive inverse filtering unit 213 performs linear prediction inverse filtering based on the obtained linear prediction coefficients for the speech signal to be calculated and encoded as in Equation 2 below.

Figure 112007074372509-PAT00002
Figure 112007074372509-PAT00002

상기 수학식 2에서 X(n)은 입력 신호이며, p는 선형 예측 차수이고, a1 내지 ap는 상기 구해진 선형 예측 계수이며, e(n)은 선형 예측 역필터링의 출력인 예측 잔차 신호이다.In Equation 2, X (n) is an input signal, p is a linear prediction order, a 1 to a p are the obtained linear prediction coefficients, and e (n) is a prediction residual signal which is an output of linear prediction inverse filtering. .

상기와 같이 구해진 예측 잔차 신호 e(n)은 부호화하고자하는 입력 신호에서 선형 예측 계수에 의한 스펙트럼 특성이 제거된 것이므로, 상기 음성 신호의 치환된 성분 중 발진기의 주파수에 관한 정보를 표현할 수 있다.Since the predicted residual signal e (n) obtained as described above is obtained by removing the spectral characteristics due to the linear prediction coefficients from the input signal to be encoded, information about the frequency of the oscillator among the substituted components of the speech signal may be expressed.

잔차신호양자화부(214)는 상기 구해진 예측 잔차 신호 e(n)에 대해 양자화를 수행한다.The residual signal quantization unit 214 performs quantization on the obtained prediction residual signal e (n).

음성부호화기(210)는 음성 신호를 상기와 같은 방법으로 구해진 양자화된 선형 예측 계수 및 예측 잔차 신호로 부호화할 수 있다.The speech encoder 210 may encode the speech signal into quantized linear prediction coefficients and a prediction residual signal obtained by the above method.

도 4는 도 2에 도시된 음성 부호화기의 구성에 대한 제2 실시예를 블록도로 도시한 것으로, 도시된 음성 부호화기는 피치검출부(300) 및 선형예측분석부(310)를 포함하여 이루어질 수 있다.FIG. 4 is a block diagram illustrating a second embodiment of the configuration of the speech coder illustrated in FIG. 2. The illustrated speech coder may include a pitch detector 300 and a linear predictive analyzer 310.

도 4를 참조하면, 피치검출부(300)는 부호화하고자하는 신호의 피치를 검출한다. 음성 신호의 경우에는 하나의 피치만을 포함하나, 오디오 신호의 경우에는 2 이상의 피치를 포함할 수 있다.Referring to FIG. 4, the pitch detector 300 detects a pitch of a signal to be encoded. In the case of an audio signal, only one pitch may be included, but in the case of an audio signal, two or more pitches may be included.

도 4에 도시된 바와 같이, 피치검출부(300)는 다음의 수학식 3으로 표현될 수 있다.As shown in FIG. 4, the pitch detector 300 may be represented by Equation 3 below.

Figure 112007074372509-PAT00003
Figure 112007074372509-PAT00003

상기 수학식 3에서, T는 피치의 주기를 나타내며, gp는 상기 피치의 게인(gain)을 나타낸다.In Equation 3, T denotes a period of a pitch, and g p denotes a gain of the pitch.

피치검출부(300)는 입력 신호의 피치의 주기 및 게인을 프레임 단위로 검출함으로써 입력 신호의 주기적인 성분을 부호화할 수 있다. 본 발명에 따른 부호화 장치는 음성 신호뿐 아니라 오디오 신호에도 적용 가능하기 위해, 프레임 단위로 2 이상의 피치 주기 및 게인을 검출하는 것이 바람직하다.The pitch detector 300 may encode a periodic component of the input signal by detecting a period and a gain of the pitch of the input signal in units of frames. In order to be applicable to not only an audio signal but also an audio signal, the encoding apparatus of the present invention preferably detects two or more pitch periods and gains in units of frames.

상기한 바와 같이, 선형예측분석부(310)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구한다. 선형예측분석부(310)는 비대칭 윈도우(window)를 이용해 구한 자기 상관 계수를 사용하여 입력되는 신호에 대해 프레임 단위로 선형 예측 분석을 수행할 수 있다. 자기 상관 계수를 구함에 있어, 선형예측분석부(200)는 예견 구간, 예를 들어 상기 비대칭 윈도우가 30ms의 길이를 가지는 경우 5ms의 길이를 가지는 예견 구간을 두어 선형 예측 분석을 수행할 수 있다. 상기 자기 상관 계수는 Levinson-Durbin 알고리듬을 이용하여 선형 예측 계수로 변환된다.As described above, the linear prediction analyzer 310 performs a linear prediction analysis on the input signal to obtain a linear prediction coefficient. The linear prediction analyzer 310 may perform linear prediction analysis on a frame-by-frame basis for the input signal using the autocorrelation coefficient obtained by using an asymmetric window. In obtaining the autocorrelation coefficient, the linear predictive analysis unit 200 may perform a predictive interval, for example, when the asymmetric window has a length of 30 ms, a linear predictive analysis may be performed with a predictive interval having a length of 5 ms. The autocorrelation coefficients are converted to linear prediction coefficients using the Levinson-Durbin algorithm.

상기한 바와 같이, 상기 구해진 선형 예측 계수는 양자화에 적합한 파라미터 인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화되어, 양자화 테이블의 인덱스 형태로 부호화될 수 있다.As described above, the obtained linear prediction coefficient may be transformed into a Log Area Ratio (LAR) or a Line Spectrum Pair (LSP), which is a parameter suitable for quantization, and then quantized and encoded in an index form of a quantization table.

입력된 여기 신호와 상기 검출된 피치에 의해 표현되는 주기적인 음원 신호에 대해, 상기 구해진 선형 예측 계수를 이용해 LPC 합성 필터링을 수행하면 합성된 신호를 얻을 수 있다.For the periodic sound source signal represented by the input excitation signal and the detected pitch, LPC synthesis filtering may be performed using the obtained linear prediction coefficients to obtain a synthesized signal.

상기 여기 신호는 입력 신호의 잡음 성분을 나타내는 것으로, 상기 합성 신호와 원본 신호인 상기 입력 신호 사이의 오차가 최소화되도록 결정된 것이다.The excitation signal represents a noise component of an input signal and is determined to minimize an error between the synthesized signal and the input signal that is an original signal.

도 4에 도시된 바와 같이, 여기 신호에는 게인(gc)이 곱해지는데, 상기 여기 신호의 게인(gc) 및 상기 피치의 게인(gp)을 제어함에 따라 주기성이 강한 신호에서 주기성이 없는 잡음 신호까지 다양한 신호의 생성이 가능하다. 상기 게인(gc, gp)은 양자화되어 양자화 테이블의 인덱스 형태로 부호화될 수 있다.As shown in Figure 4, this signal has the gain (g c) is multiplied makin, there is no periodicity in a strong periodic signal as the control gain (g c) and the gain (g p) of the pitch of the excitation signal It is possible to generate various signals up to noise signals. The gains g c and g p may be quantized and encoded in an index form of a quantization table.

도 5는 도 2에 도시된 음성 부호화기의 구성에 대한 제3 실시예를 블록도로 도시한 것이다.FIG. 5 is a block diagram illustrating a third embodiment of the configuration of the speech encoder illustrated in FIG. 2.

선형예측부(400)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구하고, 양자화부(410)는 상기 구해진 선형 예측 계수를 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화한다.The linear prediction unit 400 performs a linear prediction analysis on the input signal to obtain a linear prediction coefficient, and the quantization unit 410 performs a log area ratio (LAR) or LSP (Line) which is a parameter suitable for quantization of the obtained linear prediction coefficient. Spectrum Pair) and then quantize.

피치추정부(420)는 상기 입력 신호의 피치 주기를 추정한다. 적응코드북(430)는 과거의 입력 신호 중 주기적인 성분인 음원 신호들을 코드북의 형태로 저장한다. 잡음생성부(440)는 비주기적인 잡음 신호를 생성하며, 상기 잡음 신호들을 코드북의 형태로 저장하고 있을 수도 있다.Pitch estimator 420 estimates the pitch period of the input signal. The adaptive codebook 430 stores sound source signals that are periodic components among the input signals of the past in the form of a codebook. The noise generator 440 generates the aperiodic noise signal, and may store the noise signals in the form of a codebook.

가산부(450)는 피치추정부(420)에서 추정된 피치 주기에 따라 적응코드북(430)으로부터 추출된 주기적인 음원 신호와 잡음생성부(440)로부터 출력된 잡음 신호 각각에 게인(gp, gc)을 곱한 후 가산하여 잔차 신호를 생성한다. 일반적으로 잔차 신호는 선형 예측 계수를 이용해 입력 신호에 대해 선형 예측 역필터링을 수행하여 얻어지는 신호를 의미하는데, 가산부(450)로부터 출력되는 상기 잔차 신호는 정확하게는 잔차 신호에 가까운 신호이다.The adder 450 gains gain gp , at each of the periodic sound source signal extracted from the adaptive codebook 430 and the noise signal output from the noise generator 440 according to the pitch period estimated by the pitch estimation unit 420. It added after multiplied by g c) to generate a residual signal. In general, the residual signal refers to a signal obtained by performing linear prediction inverse filtering on an input signal using a linear prediction coefficient, and the residual signal output from the adder 450 is exactly a signal close to the residual signal.

합성필터(460)는 가산부(450)로부터 출력된 잔차 신호에 대해 상기 양자화된 선형 예측 계수에 의한 합성 필터링을 수행하여 합성 신호를 생성한다.The synthesis filter 460 generates a synthesis signal by performing synthesis filtering based on the quantized linear prediction coefficients on the residual signal output from the adder 450.

오차계산부(470)는 원본 신호인 입력 신호와 상기 합성 신호 사이의 오차를 계산하고, 청각가중치필터(480)는 상기 계산된 오차에 대하여 청각적인 가중치를 준다.The error calculator 470 calculates an error between the input signal, which is the original signal, and the synthesized signal, and the auditory weight filter 480 gives an acoustic weight to the calculated error.

오차최소화부(490)는 상기 청각적인 특성을 고려한 오차를 최소로 하는 피치의 주기(Ti), 게인(gpi, gci), 잡음 신호를 결정한다. 여기 신호는 오차를 최소로 하기 위해 결정된 상기 잡음 신호를 의미한다. The error minimizing unit 490 determines a pitch period T i , a gain g pi , g ci , and a noise signal to minimize the error in consideration of the auditory characteristic. The excitation signal refers to the noise signal determined to minimize the error.

도 2 내지 도 5를 참조하여 설명한 음성부호화기는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예에 불과하며, 도 2에 도시된 음성부호화기(210)는 시간 도메인 상에서 부호화를 수행하는 여러 음성 부호화 방식들이 사용될 수 있다.The voice encoder described with reference to FIGS. 2 to 5 is only one embodiment of the configuration of the encoding apparatus according to the present invention, and the voice encoder 210 illustrated in FIG. 2 performs various speech encodings for encoding in the time domain. Ways can be used.

도 6은 도 2에 도시된 오디오 부호화기(220)의 구성에 대한 제1 실시예를 블록도로 도시한 것으로, 도시된 오디오 부호화기는 도메인변환부(221), 심리음향모델링부(222) 및 양자화부(223)를 포함하여 이루어진다.FIG. 6 is a block diagram illustrating a first embodiment of the configuration of the audio encoder 220 illustrated in FIG. 2. The illustrated audio encoder includes a domain converter 221, a psychoacoustic modeling unit 222, and a quantization unit. 223.

도메인변환부(221)는 필터 뱅크를 이용해 입력 신호를 주파수 도메인으로 변환한다. 예를 들어, 도메인변환부(221)는 상기 입력 신호에 대해 코사인 변환, 예를 들어 MDCT(Modified Discrete Transform)를 수행할 수 있다.The domain converter 221 converts an input signal into a frequency domain using a filter bank. For example, the domain transform unit 221 may perform a cosine transform, for example, a modified disc transform (MDCT) on the input signal.

심리음향모델링부(222)는 상기 입력 신호의 마스킹 임계치 또는 신호 대 마스크 비(SMR, Signal-to-Mask Ratio)를 계산한다. 양자화부(223)는 상기 도메인변환부(400)로부터 출력되는 MDCT 계수들에 대해 상기 마스킹 임계치를 이용하여 양자화를 수행한다. 또한, 양자화부(223)는 주어진 비트율 내에서 양자화된 신호의 가청 왜곡을 최소화하기 위하여 상기 신호 대 마스크 비(SMR)를 사용할 수 있다.The psychoacoustic modeling unit 222 calculates a masking threshold of the input signal or a signal-to-mask ratio (SMR). The quantizer 223 performs quantization on the MDCT coefficients output from the domain transform unit 400 using the masking threshold. In addition, the quantization unit 223 may use the signal-to-mask ratio SMR to minimize audible distortion of the quantized signal within a given bit rate.

도 7은 도 2에 도시된 오디오 부호화기의 구성에 대한 제2 실시예를 블록도로 도시한 것으로, 도시된 오디오 부호화기는 전처리부(500), 도메인변환부(510), 벡터양자화부(520), 도메인역변환부(530) 및 게인최적화/양자화부(540)를 포함하여 이루어진다.FIG. 7 is a block diagram illustrating a second embodiment of the configuration of the audio encoder illustrated in FIG. 2. The illustrated audio encoder includes a preprocessor 500, a domain converter 510, a vector quantizer 520, Domain inverse transform unit 530 and gain optimization / quantization unit 540.

전처리부(500)는 입력 신호에 대해 필터링 및 윈도우잉(windowing)을 수행하여 상기 입력 신호를 부호화에 효율적인 신호로 변환한다.The preprocessor 500 performs filtering and windowing on the input signal to convert the input signal into a signal efficient for encoding.

도메인변환부(510)는 상기 전처리가 수행된 입력 신호에 대해 주파수 도메인 변환, 예를 들어 FFT(Fast Fourier Transform)을 하고, 벡터양자화부(520)는 벡터 양자화를 수행하여 코드북 인덱스(codebook index), 코드 벡터 인덱스(code vector index), 보로노이 확장 인덱스(Voronoi extention index)를 출력한다.The domain transform unit 510 performs a frequency domain transform, for example, a Fast Fourier Transform (FFT), on the input signal on which the preprocessing has been performed, and the vector quantizer 520 performs vector quantization to perform a codebook index. Outputs the code vector index and the Voronoi extention index.

최초 스펙트럼 피크(first spectral peak) 이전의 저에너지 블럭(low energy block)의 부호화를 개선하기 위해, 상기 벡터양자화 전후에 스펙트럼 프리엠퍼시스(pre-emphasis) 및 디엠퍼스트(de-emphasis)를 수행할 수 있다.In order to improve the encoding of low energy blocks before the first spectral peak, spectral pre-emphasis and de-emphasis may be performed before and after the vector quantization. have.

도메인역변환부(530)는 벡터양자화부(520)의 출력 신호에 대해 도메인변환부(510)에서 수행된 변환의 역변환, 예를 들어 inverse FFT를 수행한다.The domain inverse transformer 530 performs an inverse transform, for example, an inverse FFT, on the output signal of the vector quantizer 520.

게인최적화/양자화부(540)는 상기 도메인 변환 이전 신호와 상기 도메인 역변환 이후 신호의 게인 차이를 계산하여 최적 게인 인덱스를 출력한다.The gain optimization / quantization unit 540 calculates a gain difference between the signal before the domain transform and the signal after the domain inverse transform, and outputs an optimum gain index.

벡터양자화부(520)로부터 출력되는 인덱스들과 게인최적화/양자화부(540)로부터 출력되는 최적 게인 인덱스가 신호를 복원하기 위한 데이터로서 비트스트림에 포함될 수 있다.The indices output from the vector quantizer 520 and the optimum gain indices output from the gain optimizer / quantizer 540 may be included in the bitstream as data for restoring a signal.

도 6 내지 도 7을 참조하여 설명한 오디오 부호화기는 본 발명에 따른 부호화 장치의 구성에 대한 일실시예에 불과하며, 도 2에 도시된 오디오부호화기(220)는 AAC(Advanced Audio Coding) 또는 TCX(Transform Coded Excitation) 등과 같은도메인 변환을 이용하여 부호화를 수행하는 여러 부호화 방식들이 사용될 수 있다.The audio coder described with reference to FIGS. 6 to 7 is only an embodiment of a configuration of an encoding apparatus according to the present invention, and the audio coder 220 illustrated in FIG. 2 is an AAC (Advanced Audio Coding) or a TCX (Transform). Various coding schemes that perform encoding using domain transformation such as Coded Excitation may be used.

도 8은 도 2에 도시된 대역확장 부호화기(230)의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 대역 확장 부호화기는 선형예측역필터링부(231), 고주파신호합성부(232), 게인벡터계산부(233), 선형예측분석부(234), 예측게인벡터계산부(235) 및 게인보정정보생성부(236)를 포함하여 이루어진다.FIG. 8 is a block diagram illustrating an embodiment of the configuration of the extended coder 230 shown in FIG. 2. The extended band coder includes a linear predictive inverse filtering unit 231 and a high frequency signal synthesis unit 232. , A gain vector calculator 233, a linear predictive analyzer 234, a predictive gain vector calculator 235, and a gain correction information generator 236.

선형예측역필터링부(231)는 저주파/중고주파 대역 신호에 대해 상기 수학식 2와 같은 선형예측역필터링을 수행하여 잔차 신호를 구한다. 고주파신호합성부(232)는 상기 구해진 잔차 신호에 대해 고주파 합성 필터링을 수행하여 합성 고주파 대역 신호를 생성한다. 상기 합성 고주파 대역 신호가 다운-샘플링(down-sampling)된 상태인 경우, 이후 업-샘플링(up-sampling)된 후 고주파 대역 신호로 복원될 수 있다.The linear prediction band filtering unit 231 performs a linear prediction band filtering as shown in Equation 2 on the low frequency / medium frequency band signal to obtain a residual signal. The high frequency signal synthesis unit 232 generates a synthesized high frequency band signal by performing high frequency synthesis filtering on the obtained residual signal. When the synthesized high frequency band signal is in a down-sampling state, the synthesized high frequency band signal may be restored after being up-sampled.

게인벡터계산부(233)는 실제 고주파 대역 신호와 상기 합성 고주파 대역 신호에 대해 인지 필터링(perceptual filtering)을 수행한 후 두 신호 사이의 게인에 대한 정보를 가지는 게인 벡터를 계산한다.The gain vector calculator 233 calculates a gain vector having information on gain between the two signals after performing perceptual filtering on the actual high frequency band signal and the synthesized high frequency band signal.

선형예측분석부(234)는 상기 저주파/중고주파 대역 신호 및 고주파 대역 신호에 대해 선형 예측 분석을 수행하고 , 예측게인벡터계산부(235)는 상기 두 신호 사이의 게인에 대한 정보를 가지는 예측 게인 벡터를 계산한다.The linear prediction analyzer 234 performs linear prediction analysis on the low / medium frequency band signal and the high frequency band signal, and the predictive gain vector calculator 235 predicts the gain having information about the gain between the two signals. Calculate the vector

보정정보생성부(236)는 게인벡터계산부(233)에서 계산된 게인 벡터와 예측게인벡터계산부(235)에서 계산된 예측 게인 벡터 사이의 차를 계산하여 고주파 대역 신호의 게인을 보정하기 위한 보정 정보를 생성한다. The correction information generator 236 calculates a difference between the gain vector calculated by the gain vector calculator 233 and the predicted gain vector calculated by the predicted gain vector calculator 235 to correct the gain of the high frequency band signal. Generate calibration information.

본 발명에 따른 복호화 장치는 상기 도 1 내지 도 8을 참조하여 설명한 부호화 장치의 부호화 과정의 역 과정을 수행함에 의해, 입력되는 비트스트림으로부터 신호를 복원할 수 있다.The decoding apparatus according to the present invention may reconstruct a signal from an input bitstream by performing an inverse process of the encoding process of the encoding apparatus described with reference to FIGS. 1 to 8.

도 9는 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 복호화 장치는 비트언팩킹부(600), 음성복호화기(610), 오디오복호화기(620), 대역확장복호화기(630) 및 신호합성부(640)를 포함하여 이루어진 다.9 is a block diagram illustrating an embodiment of a configuration of a decoding apparatus according to the present invention. The decoding apparatus illustrated in FIG. 9 includes a bit unpacking unit 600, a voice decoder 610, an audio decoder 620, A bandwidth extension decoder 630 and a signal synthesizer 640 are included.

비트언팩킹부(600)는 입력되는 비트스트림으로부터 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 고주파 대역 신호를 복원하기 위한 대역 확장 정보를 추출한다.The bit unpacking unit 600 extracts band extension information for reconstructing the encoded low frequency band signal, the high frequency band signal, and the high frequency band signal from the input bitstream.

음성복호화기(610)는 상기 부호화된 저주파 대역 신호에 대해 시간 도메인 상에서 수행되는 음성 복호화 방식을 이용하여 복호화를 수행한다.The speech decoder 610 decodes the encoded low frequency band signal using a speech decoding scheme performed in the time domain.

오디오복호화기(620) 상기 부호화된 중고주파 대역 신호에 대해 주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 복호화를 수행한다.The audio decoder 620 performs decoding using the audio decoding scheme performed on the encoded high frequency band signal in the frequency domain.

음성복호화기(610)와 오디오복호화기(620)가 각각 수행하는 복호화 방식은 도 3 내지 도 7을 참조하여 설명한 음성 또는 오디오 부호화 방식의 역 과정을 수행할 수 있다.The decoding schemes performed by the speech decoder 610 and the audio decoder 620 may perform an inverse process of the speech or audio encoding scheme described with reference to FIGS. 3 to 7.

예를 들어, 음성복호화기(610)는 상기 비트스트림으로부터 추출된 선형 예측 계수를 이용해 선형 예측 합성 필터링을 수행하여 신호를 복원할 수 있다. 좀 더 구체적으로, 상기 비트스트림으로부터 추출된 부호화된 저주파 대역 신호는 복원될 신호의 피치 정보 및 여기 신호 정보를 포함하고, 음성복호화부(610)는 상기 피치 정보 및 여기 신호 정보를 이용하여 잔차 신호를 복원하고, 상기 복원된 잔차 신호에 대해 상기 추출된 선형 예측 계수에 따른 선형 예측 합성 필터링을 수행하여 신호를 복원한다.For example, the speech decoder 610 may reconstruct a signal by performing linear prediction synthesis filtering using the linear prediction coefficients extracted from the bitstream. More specifically, the encoded low frequency band signal extracted from the bitstream includes pitch information and excitation signal information of a signal to be restored, and the speech decoding unit 610 uses the pitch information and the excitation signal information to generate a residual signal. The signal is reconstructed by performing linear prediction synthesis filtering based on the extracted linear prediction coefficients on the reconstructed residual signal.

또한, 오디오복호화기(620)는 비트스트림으로부터 추출된 스케일팩터를 이용해 상기 부호화 데이터를 역양자화하는 단계를 수행함으로써 신호를 복원할 수 있 다. 상기 비트스트림으로부터 추출된 부호화된 중고주파 대역 신호는 허프만 코드북 인덱스 또는 상기 스케일팩터에 의해 정규화된 MDCT 계수를 포함할 수 있으며, 오디오복호화기(620)는 상기 허프만 코드북 인덱스를 이용해 무손실복호화를 수행하거나, 상기 정규화된 MDCT 계수를 상기 스케일팩터를 이용해 역양자화할 수 있다. 상기 역양자화된 계수들은 신호의 재생을 위해 시간 도메인 상으로 도메인 변환된다.In addition, the audio decoder 620 may restore the signal by performing inverse quantization of the encoded data using the scale factor extracted from the bitstream. The encoded high frequency band signal extracted from the bitstream may include a Huffman codebook index or an MDCT coefficient normalized by the scale factor, and the audio decoder 620 performs lossless decoding using the Huffman codebook index. The normalized MDCT coefficients may be inversely quantized using the scale factor. The dequantized coefficients are domain transformed onto the time domain for reproduction of the signal.

대역확장복호화기(630)는 상기 복원된 저주파/중고주파 대역 신호 및 상기 추출된 대역 확장 정보를 이용하여 고주파 대역 신호를 생성한다. 대역확장복호화기(630)는 도 8을 참조하여 설명한 대역확장부호화기의 동작의 역 과정을 수행함으로써 상기 고주파 대역 신호를 생성할 수 있다.The band extension decoder 630 generates a high frequency band signal using the reconstructed low frequency / medium frequency band signal and the extracted band extension information. The bandwidth extension decoder 630 may generate the high frequency band signal by performing an inverse process of the operation of the bandwidth extension encoder described with reference to FIG. 8.

상술한 본 발명에 따른 부호화/복호화 장치는 DAB(Digital Audio Broadcasting), DMB(Digital Multimedia Broadcasting)과 같은 멀티미디어 방송 송/수신 장치에 구비되어, 오디오 신호 또는 음성 신호 등을 부호화/복호화 하는데 사용될 수 있다. 또한 상기 멀티미디어 방송 송/수신 장치는 이동통신 단말기를 포함할 수 있다.The encoding / decoding apparatus according to the present invention described above is provided in a multimedia broadcasting transmission / reception apparatus such as digital audio broadcasting (DAB) or digital multimedia broadcasting (DMB), and may be used to encode / decode audio signals or audio signals. . In addition, the multimedia broadcasting transmission / reception apparatus may include a mobile communication terminal.

상술한 본 발명에 따른 부호화/복호화 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 상기한 본 발명에 따른 데이터 구조를 가지는 멀티 미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 사용자 추적 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. 또한, 상술한 부호화 방법에 의해 생성된 비트스트림은 상기 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.The encoding / decoding method according to the present invention described above may be stored in a computer-readable recording medium that is produced as a program for execution on a computer, and multimedia data having a data structure according to the present invention may also be read by a computer. Can be stored in a recording medium. The computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. In addition, functional programs, codes, and code segments for implementing the user tracking method can be easily inferred by programmers in the art to which the present invention belongs. In addition, the bitstream generated by the above-described encoding method may be stored in the computer-readable recording medium or transmitted using a wired / wireless communication network.

상술한 본 발명에 따른 복호화 장치는 이동 통신 단말기, PMP(Portable Multimedia Player)와 같은 멀티미디어 플레이어, PDA(Personal Digital Assistants) 등의 재생 장치에 구비될 수 있다. 또한, 상술한 복호화 장치는 하드웨어적으로 구현되어 재생 장치 등에 포함되거나, 상술한 바와 같이 소프트웨어적으로 재생 장치에 구현될 수도 있다.The decoding apparatus according to the present invention described above may be provided in a mobile communication terminal, a multimedia player such as a portable multimedia player (PMP), and a playback device such as a personal digital assistant (PDA). In addition, the above-described decoding apparatus may be implemented in hardware and included in a reproduction apparatus or the like, or as described above, may be implemented in a reproduction apparatus in software.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.While the above has been shown and described with respect to preferred embodiments of the present invention, the present invention is not limited to the specific embodiments described above, it is usually in the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.

상기한 바와 같은 본 발명에 따른 부호화/복호화 방법 및 장치에 의하면, 부호화하고자하는 신호를 복수의 주파수 대역으로 분할하여 저주파 대역 신호들은 각 주파수 대역의 특성에 따라 서로 다른 부호화 방식을 이용해 부호화하고, 고주파 대역 신호는 대역 확장 부호화 방식을 이용해 부호화함으로써, 다양한 특성을 가지는 신호들을 적은 비트율로 부호화 및 복호화할 수 있다.According to the encoding / decoding method and apparatus according to the present invention as described above, the signals to be encoded are divided into a plurality of frequency bands, and low-frequency band signals are encoded using different coding schemes according to characteristics of each frequency band, The band signal can be encoded and decoded by using a band extension coding method, at low bit rates, signals having various characteristics.

Claims (17)

입력되는 비트스트림으로부터 부호화된 저주파 대역 신호, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 단계;Extracting the encoded low frequency band signal, the encoded medium frequency band signal, and band extension information from the input bitstream; 상기 부호화된 저주파 대역 신호를 제1 복호화 방식을 이용하여 복호화하는 단계;Decoding the encoded low frequency band signal using a first decoding method; 상기 부호화된 중고주파 대역 신호를 제2 복호화 방식을 이용하여 복호화하는 단계;Decoding the encoded high frequency band signal using a second decoding method; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 단계; 및Restoring a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.And synthesizing the decoded low frequency band signal and the high frequency band signal and the reconstructed high frequency band signal. 제1항에 있어서,The method of claim 1, 상기 제1 복호화 방식은 시간 도메인 상에서 수행되는 것을 특징으로 하는 복호화 방법.The first decoding method is performed in the time domain. 제1항에 있어서,The method of claim 1, 상기 제1 복호화 방식은 상기 비트스트림으로부터 추출된 선형 예측 계수를 이용하는 것을 특징으로 하는 복호화 방법.And the first decoding method uses linear prediction coefficients extracted from the bitstream. 제1항에 있어서,The method of claim 1, 상기 제2 복호화 방식은 주파수 도메인 상에서 수행되는 것을 특징으로 하는 복호화 방법.The second decoding method is performed in the frequency domain. 제1항에 있어서, 상기 대역 확장 정보는The method of claim 1, wherein the band extension information is 상기 고주파 대역 신호의 스펙트럼 포락선(spectral envelope)에 관한 정보인 것을 특징으로 하는 복호화 방법.And information on a spectral envelope of the high frequency band signal. 제5항에 있어서,The method of claim 5, 상기 스펙트럼 포락선에 관한 정보는 선형 예측 분석에 의해 구해진 것을 특징으로 하는 복호화 방법.The information on the spectral envelope is obtained by linear prediction analysis. 제7항에 있어서, 상기 대역 확장 정보는The method of claim 7, wherein the band extension information is 상기 저주파 및 중고주파 대역 신호와 상기 고주파 대역 신호 사이의 게인에 대한 정보를 포함하는 것을 특징으로 하는 복호화 방법.And information about a gain between the low frequency and high frequency band signals and the high frequency band signal. 제7항에 있어서, 상기 대역 확장 정보는The method of claim 7, wherein the band extension information is 상기 게인을 보정하기 위한 정보를 포함하는 것을 특징으로 하는 복호화 방법.And information for correcting the gain. 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 단계;Dividing an input signal into a low frequency band, a medium frequency band, and a high frequency band; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 단계;Encoding the low frequency band signal using a first encoding scheme performed on a time domain; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 단계;Encoding the high frequency band signal using a second coding scheme performed on a frequency domain; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 단계; 및Generating band extension information for reconstructing the signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.And generating a bitstream including the encoded low frequency band signal and the high frequency band signal and the band extension information. 제9항에 있어서,The method of claim 9, 상기 제1 부호화 방식은 선형 예측 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.The first encoding method comprises the step of performing a linear prediction analysis. 제9항에 있어서, 상기 대역 확장 정보는The method of claim 9, wherein the band extension information is 상기 고주파 대역 신호의 스펙트럼 포락선(spectral envelope)에 관한 정보 및 상기 저주파 및 중고주파 대역 신호와 상기 고주파 대역 신호 사이의 게인에 대 한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 부호화 방법.And at least one of information on a spectral envelope of the high frequency band signal and information on a gain between the low frequency and high frequency band signals and the high frequency band signal. 입력되는 비트스트림으로부터 부호화된 저주파 대역 신호, 부호화된 중고주파 대역 신호 및 대역 확장 정보를 추출하는 비트언팩킹부;A bit unpacking unit which extracts an encoded low frequency band signal, an encoded medium frequency band signal, and band extension information from an input bitstream; 시간 도메인 상에서 수행되는 제1 복호화 방식을 이용하여 상기 부호화된 저주파 대역 신호를 복호화하는 제1 복호화부;A first decoder which decodes the encoded low frequency band signal using a first decoding method performed in a time domain; 주파수 도메인 상에서 수행되는 제2 복호화 방식을 이용하여 상기 부호화된 중고주파 대역 신호를 복호화하는 제2 복호화부;A second decoder which decodes the encoded high frequency band signal using a second decoding method performed in a frequency domain; 상기 추출된 대역 확장 정보를 이용하여, 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호로부터 고주파 대역 신호를 복원하는 대역확장복호화부; 및A band extension decoding unit which restores a high frequency band signal from the decoded low frequency band signal and the high frequency band signal by using the extracted band extension information; And 상기 복호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 복원된 고주파 대역 신호를 합성하는 합성부를 포함하는 것을 특징으로 하는 복호화 장치.And a synthesizer for synthesizing the decoded low frequency band signal and the high frequency band signal and the restored high frequency band signal. 제12항에 있어서, 상기 제1 복호화부는The method of claim 12, wherein the first decoding unit 상기 비트스트림으로부터 추출된 선형 예측 계수를 이용하여 상기 저주파 대역 신호를 복호화하는 것을 특징으로 하는 복호화 장치.And decoding the low frequency band signal using the linear prediction coefficients extracted from the bitstream. 제12항에 있어서, 상기 대역 확장 정보는The method of claim 12, wherein the band extension information is 상기 고주파 대역 신호의 스펙트럼 포락선(spectral envelope)에 관한 정보 및 상기 저주파 및 중고주파 대역 신호와 상기 고주파 대역 신호 사이의 게인에 대 한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 복호화 장치.And at least one of information on a spectral envelope of the high frequency band signal and information on a gain between the low frequency and high frequency band signals and the high frequency band signal. 입력되는 신호를 저주파 대역, 중고주파 대역 및 고주파 대역으로 분할하는 신호분할부;A signal splitter for dividing an input signal into a low frequency band, a medium frequency band, and a high frequency band; 시간 도메인 상에서 수행되는 제1 부호화 방식을 이용하여 상기 저주파 대역 신호를 부호화하는 제1 부호화부;A first encoder which encodes the low frequency band signal using a first encoding scheme performed in a time domain; 주파수 도메인 상에서 수행되는 제2 부호화 방식을 이용하여 상기 중고주파 대역 신호를 부호화하는 제2 부호화부;A second encoder which encodes the high-frequency band signal using a second encoding scheme performed on a frequency domain; 상기 저주파 대역 신호 및 중고주파 대역 신호를 이용하여 상기 고주파 대역의 신호를 복원하기 위한 대역 확장 정보를 생성하는 대역확장부호화부; 및A band extension encoder for generating band extension information for restoring a signal of the high frequency band by using the low frequency band signal and the high frequency band signal; And 상기 부호화된 저주파 대역 신호 및 중고주파 대역 신호와 상기 대역 확장 정보를 포함하는 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 하는 부호화 장치.And a bit packing unit configured to generate a bitstream including the encoded low frequency band signal, the high frequency band signal, and the band extension information. 제1항 내지 제11항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method according to any one of claims 1 to 11. 제12항 내지 제15항 중 어느 한 항에 기재된 장치를 포함하는 것을 특징으로 하는 멀티 미디어 방송 장치.A multimedia broadcasting apparatus comprising the apparatus according to any one of claims 12 to 15.
KR1020070104670A 2006-10-17 2007-10-17 Apparatus and method for encoding and decoding signal KR20080034817A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US82979406A 2006-10-17 2006-10-17
US60/829,794 2006-10-17

Publications (1)

Publication Number Publication Date
KR20080034817A true KR20080034817A (en) 2008-04-22

Family

ID=39574066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070104670A KR20080034817A (en) 2006-10-17 2007-10-17 Apparatus and method for encoding and decoding signal

Country Status (1)

Country Link
KR (1) KR20080034817A (en)

Similar Documents

Publication Publication Date Title
KR101373004B1 (en) Apparatus and method for encoding and decoding high frequency signal
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
KR100958144B1 (en) Audio Compression
RU2667382C2 (en) Improvement of classification between time-domain coding and frequency-domain coding
RU2485606C2 (en) Low bitrate audio encoding/decoding scheme using cascaded switches
KR101425944B1 (en) Improved coding/decoding of digital audio signal
TWI576832B (en) Apparatus and method for generating bandwidth extended signal
US20060122828A1 (en) Highband speech coding apparatus and method for wideband speech coding system
JP2009530685A (en) Speech post-processing using MDCT coefficients
RU2636685C2 (en) Decision on presence/absence of vocalization for speech processing
JP2020204784A (en) Method and apparatus for encoding signal and method and apparatus for decoding signal
KR20130047608A (en) Apparatus and method for codec signal in a communication system
US9390722B2 (en) Method and device for quantizing voice signals in a band-selective manner
EP1872364A1 (en) Source coding and/or decoding
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP5451603B2 (en) Digital audio signal encoding
KR20080034819A (en) Apparatus and method for encoding and decoding signal
KR20080092823A (en) Apparatus and method for encoding and decoding signal
KR20080034817A (en) Apparatus and method for encoding and decoding signal
KR20130007521A (en) Method and apparatus for encoding audio signal, and method and apparatus for decoding audio signal

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination