KR20150011783A - Decoding method for multi-channel audio signal using reverberation signal and decoder - Google Patents

Decoding method for multi-channel audio signal using reverberation signal and decoder Download PDF

Info

Publication number
KR20150011783A
KR20150011783A KR1020140093288A KR20140093288A KR20150011783A KR 20150011783 A KR20150011783 A KR 20150011783A KR 1020140093288 A KR1020140093288 A KR 1020140093288A KR 20140093288 A KR20140093288 A KR 20140093288A KR 20150011783 A KR20150011783 A KR 20150011783A
Authority
KR
South Korea
Prior art keywords
audio signal
input audio
frequency band
core
band
Prior art date
Application number
KR1020140093288A
Other languages
Korean (ko)
Inventor
백승권
성종모
이태진
강경옥
서정일
김진웅
장대영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to PCT/KR2014/006705 priority Critical patent/WO2015012594A1/en
Publication of KR20150011783A publication Critical patent/KR20150011783A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

In the present invention, disclosed are a decoding method for a multi-channel audio signal using reverberation signal and a decoder. The decoding method according to one embodiment of the present invention maintains the quality of the multi-channel audio signal by applying a different reverberation signal as an element unit for the multi-channel audio signal. The decoder includes a core band decoding unit, a frequency band extending unit which extends a frequency band using a core band, and a stereo up-mixing unit.

Description

잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더 {DECODING METHOD FOR MULTI-CHANNEL AUDIO SIGNAL USING REVERBERATION SIGNAL AND DECODER}TECHNICAL FIELD [0001] The present invention relates to a decoding method and a decoder for a multi-channel audio signal using a reverberation signal,

이하의 실시예들은, 다채널 오디오 신호의 디코딩 방법 및 디코더에 관한 것으로, 보다 구체적으로는 채널마다 서로 다른 잔향 신호를 적용하여 다채널 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.The following embodiments are directed to a method and a decoder for decoding a multi-channel audio signal, and more particularly, to a method and apparatus for decoding a multi-channel audio signal by applying different reverberation signals for each channel.

다채널 오디오 신호를 디코딩하는 과정은 인코더에서 생성한 다양한 부가 정보를 이용하여 진행된다. 그리고, 다채널 오디오 신호가 N개 채널의 오디오 신호로 구성되는 경우, 인코더에서 M개 채널의 오디오 신호로 압축할 수 있다. 그러면, 디코더에서 M개 채널의 오디오 신호로부터 N개 채널의 오디오 신호를 복원할 수 있다.The process of decoding the multi-channel audio signal proceeds using various additional information generated by the encoder. If the multi-channel audio signal is composed of N audio signals, the encoder can compress the audio signals into M channel audio signals. Then, the decoder can restore the N channel audio signals from the M channel audio signals.

이 때, 다채널 오디오 신호를 위한 디코더는 M개 채널의 오디오 신호에 잔향 성분을 적용하여 N개 채널의 오디오 신호를 복원할 수 있다. 이 때, M개 채널의 오디오 신호에 동일한 잔향 성분을 적용하면 복원되는 N개 채널의 오디오 신호의 음장감은 열화될 수 있다.At this time, a decoder for a multi-channel audio signal can restore N-channel audio signals by applying reverberation components to M channel audio signals. At this time, if the same reverberation component is applied to the audio signals of M channels, the sound field of the restored N channels of audio signals may deteriorate.

무엇보다, 다채널 오디오 신호의 경우 압축 효율보다 음질이 중요하게 고려되기 때문에, 복수의 채널들 간의 차이를 고려하여 다채널 오디오 신호를 복원함으로써 원래 인코딩되기 전의 오디오 신호에 비해 음질의 열화를 줄일 수 있는 방안이 요구된다.In particular, since the quality of a multi-channel audio signal is considered more important than the compression efficiency, a multi-channel audio signal is reconstructed considering differences among a plurality of channels, thereby reducing deterioration of sound quality There is a demand.

이하의 실시예들은, 다채널 오디오 신호를 복원할 때 채널마다 서로 다른 잔향 신호를 생성하여 적용함으로써 다채널 오디오 신호의 음장감을 유지할 수 있는 방법 및 장치를 제공한다.The following embodiments provide a method and apparatus for maintaining a sound field of a multi-channel audio signal by generating and applying different reverberation signals for each channel when restoring a multi-channel audio signal.

본 발명의 일실시예에 따른 디코더가 수행하는 디코딩 방법은 M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 단계; 상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계; 및 상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 단계를 포함할 수 있다.A decoding method performed by a decoder according to an embodiment of the present invention includes: decoding an input audio signal of M channels of a core band; Expanding a frequency band using a core band of the decoded input audio signal; And upmixing the input audio signal based on the input audio signal of which the frequency band is expanded and the different reverberation signal for each of the M channels, thereby generating N output audio signals.

상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계는, 상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다.The step of extending the frequency band using the core band of the decoded input audio signal may expand the frequency band of the input audio signal by copying the core band into the high frequency band.

상기 잔향 신호는, 상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가질 수 있다.The reverberation signal may have non-coherence with respect to the input audio signal in a direction orthogonal to the input audio signal.

상기 M개 채널의 코어 대역의 입력 오디오 신호는, MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함할 수 있다.The M-channel core band input audio signal may include an M-channel core band input audio signal, which is processed in the MPS 2-1-2 mode and is divided into elements corresponding to a channel pair element.

상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The generating of the N output audio signals may generate different reverberation signals for each element based on filter coefficients that are determined differently for a plurality of elements that distinguish input audio signals of the M channel core bands .

상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고, 상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가질 수 있다.The element is divided into M channels and is a reference for grouping subbands for assigning filter coefficients, and the filter coefficient may have different values for each grouped subband for each element.

상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, 상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The generating of the output audio signals of the N channels may include sequentially selecting a filter coefficient set according to the element corresponding to the input audio channel and performing an all pass filter according to the selected filter coefficient set So that different reverberation signals can be generated for each element.

상기 코어 대역은, 인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응할 수 있다.The core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.

상기 입력 오디오 신호를 디코딩하는 단계는, 상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩할 수 있다.The decoding of the input audio signal may decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a speech characteristic for each frame.

상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, MPS 2-1-2 모드에 따라 M개 채널의 코어 대역의 입력 오디오 신호를 업믹싱함으로써 N개 채널의 출력 오디오 신호를 생성할 수 있다.The generating of the N output audio signals may produce N output audio signals by upmixing the input audio signals of the M channels in the MPS 2-1-2 mode.

본 발명의 일실시예에 따른 디코더는 M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 코어 대역 디코딩부; 상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 주파수 대역 확장부; 및 상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 스테레오 업믹싱부를 포함할 수 있다.A decoder according to an embodiment of the present invention includes: a core band decoding unit decoding an input audio signal of M channels of a core band; A frequency band extension unit for expanding a frequency band using the core band of the decoded input audio signal; And a stereo upmixing unit for upmixing the input audio signal based on the input audio signal of which the frequency band is extended and the different reverberation signal for each of the M channels, thereby generating N output audio signals.

상기 주파수 대역 확장부는, 상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다.The frequency band extension unit may expand the frequency band of the input audio signal by copying the core band into a high frequency band.

상기 잔향 신호는, 상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가질 수 있다.The reverberation signal may have non-coherence with respect to the input audio signal in a direction orthogonal to the input audio signal.

상기 M개 채널의 코어 대역의 입력 오디오 신호는, MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함할 수 있다.The M-channel core band input audio signal may include an M-channel core band input audio signal, which is processed in the MPS 2-1-2 mode and is divided into elements corresponding to a channel pair element.

상기 스테레오 업믹싱부는, M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The stereo upmixing unit may generate different reverberation signals for each element based on a filter coefficient determined differently for a plurality of elements that distinguish input audio signals of M channels of the core band.

상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고, 상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가질 수 있다.The element is divided into M channels and is a reference for grouping subbands for assigning filter coefficients, and the filter coefficient may have different values for each grouped subband for each element.

상기 스테레오 업믹싱부는, 상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The stereo upmixing unit sequentially selects filter coefficient sets according to elements corresponding to the input audio channel and performs an all pass filter according to the selected filter coefficient set to generate different reverberation signals for each element Can be generated.

상기 코어 대역은, 인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응할 수 있다.The core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.

상기 코어 대역 디코딩부는, 상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩할 수 있다.The core band decoding unit may decode an input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.

상기 스테레오 업믹싱부는, MPS 2-1-2 모드에 따라 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. The stereo upmixing unit may upmix a mono input audio signal according to the MPS 2-1-2 mode to generate an output audio signal in a stereo form.

본 발명의 일실시예에 의하면, 다채널 오디오 신호를 복원할 때 채널마다 서로 다른 잔향 신호를 생성하여 적용함으로써 다채널 오디오 신호의 음장감을 유지할 수 있다.According to an embodiment of the present invention, when restoring a multi-channel audio signal, a different reverberation signal is generated and applied to each channel, so that the sound field of a multi-channel audio signal can be maintained.

도 1은 일실시예에 따라 1개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.
도 2는 일실시예에 따라 N개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.
도 3은 일실시예에 따라 1개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.
도 4는 일실시예에 따라 N개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.
도 5는 일실시예에 따라 엘리먼트 단위로 잔향 신호를 생성하는 과정을 도시한 도면이다.
도 6은 일실시예에 따라 비트스트림을 처리하는 과정을 도시한 도면이다.
1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.
2 is a diagram illustrating a detailed configuration of a decoder for decoding N input audio signals according to an embodiment.
3 is a diagram for explaining the operation of a stereo upmixing unit for processing an input audio signal of one channel according to an embodiment.
4 is a view for explaining the operation of a stereo upmixing unit for processing N input audio signals according to an embodiment.
FIG. 5 is a diagram illustrating a process of generating a reverberation signal on an element-by-element basis according to an embodiment.
6 is a diagram illustrating a process of processing a bitstream according to an embodiment.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 일실시예에 따라 1개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.

도 1을 참고하면, 디코더(100)는 코어 대역 디코딩부(101), 주파수 대역 확장부(102) 및 스테레오 업믹싱부(103)를 포함할 수 있다. 일례로, 디코더(100)는 USAC(Unified Speech Audio Codec)에 기초한 디코더로서 8kbps ~ 192kbps 범위의 비트레이트를 가지는 오디오 신호를 처리할 수 있다. Referring to FIG. 1, the decoder 100 may include a core band decoding unit 101, a frequency band extending unit 102, and a stereo upmixing unit 103. For example, the decoder 100 is a USAC (Unified Speech Audio Codec) -based decoder capable of processing an audio signal having a bit rate ranging from 8 kbps to 192 kbps.

코어 대역 디코딩부(101)는 비트스트림에 포함된 입력 오디오 신호의 비트레이트에 대응하여 디코딩할 수 있다. 특히, 코어 대역 디코딩부(101)는 인코더에서 인코딩 대상이 되는 저주파수 대역에 해당하는 코어 대역의 입력 오디오 신호를 디코딩할 수 있다. 다시 말해서, 코어 대역은 입력 오디오 신호의 전체 주파수 대역에서 인코딩에 사용된 주파수 대역이며, 디코더에서 주파수 대역이 확장됨에 따라 생성되는 고주파수 대역을 제외한 나머지 저주파수 대역을 의미한다.The core band decoding unit 101 can decode the audio signal corresponding to the bit rate of the input audio signal included in the bitstream. In particular, the core band decoding unit 101 may decode an input audio signal of a core band corresponding to a low frequency band to be encoded by the encoder. In other words, the core band is a frequency band used for encoding in the entire frequency band of the input audio signal, and means a remaining low frequency band except for the high frequency band generated as the frequency band is expanded in the decoder.

코어 대역 디코딩부(101)는 입력 오디오 신호의 프레임별로 오디오 특성을 가지는지 또는 음성 특성을 가지는 지 여부에 따라 서로 다른 디코딩 방식을 이용할 수 있다. 예를 들어, 입력 오디오 신호가 오디오 특성을 가지는 경우, 코어 대역 디코딩부(101)는 입력 오디오 신호의 코어 대역에 대해 MDCT(Modified Discrete Cosine Transform) 방식에 기초하여 디코딩할 수 있다. 그리고, 입력 오디오 신호가 음성 특성을 가지는 경우, 코어 대역 디코딩부(101)는 입력 오디오 신호의 코어 대역에 대해 ACELP(Algebraic code-excited linear prediction) 방식에 기초하여 디코딩할 수 있다. 이러한 디코딩 과정은 프레임 단위로 수행되기 때문에, 프레임 단위 간에 서로 다른 특성을 가지는 경우, 코어 대역 디코딩부(101)는 프레임 간에 디코딩 과정을 스위칭하여 처리할 수 있다.The core band decoding unit 101 may use different decoding schemes depending on whether the input audio signal has audio or frame characteristics for each frame. For example, when the input audio signal has audio characteristics, the core band decoding unit 101 may decode the core band of the input audio signal based on a Modified Discrete Cosine Transform (MDCT) scheme. If the input audio signal has audio characteristics, the core band decoding unit 101 may decode the core band of the input audio signal based on an Algebraic code-excited linear prediction (ACELP) scheme. Since the decoding process is performed on a frame-by-frame basis, the core-band decoding unit 101 can switch the decoding process between frames when the frame-by-frame decoding unit 101 has different characteristics.

주파수 대역 확장부(102)는 디코딩된 코어 대역의 입력 오디오 신호에 대해 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다. 즉, 주파수 대역 확장부(102)는 SBR(Spectral Band Replication)의 파라미터 정보를 이용하여 주파수 대역을 확장할 수 있다. 구체적으로, 코어 대역 디코딩부(101)의 출력 결과는 코어 대역인 저주파수 대역만 복원된 결과이므로, 입력 오디오 신호의 전체 주파수 대역을 복원하기 위해 코어 대역을 복사함으로써 고주파수 대역을 복원할 수 있다. 그러면, 입력 오디오 신호의 주파수 대역은 코어 대역에서 전체 주파수 대역으로 확장될 수 있다.The frequency band extension unit 102 may expand the frequency band of the input audio signal by copying the core band into the high frequency band for the decoded core band input audio signal. That is, the frequency band extending unit 102 may extend the frequency band using parameter information of SBR (Spectral Band Replication). Specifically, since the output result of the core band decoding unit 101 is a result of restoring only the low frequency band which is the core band, the high frequency band can be restored by copying the core band to recover the entire frequency band of the input audio signal. Then, the frequency band of the input audio signal can be extended from the core band to the entire frequency band.

스테레오 업믹싱부(103)는 주파수 대역이 확장된 입력 오디오 신호를 업믹싱하여 2개 채널에 대응하는 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 스테레오 업믹싱부(103)는 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 이 때, 스테레오 업믹싱부(103)는 QMF 도메인에서 동작할 수 있다. 여기서, 주파수 대역이 확장된 입력 오디오 신호는 다운믹스 신호로서 스테레오 업믹싱부(103)에 입력될 수 있다. 그러면, 도 1과 같이 L(left) 채널과 R(Right) 채널에 대응하는 출력 오디오 신호가 생성될 수 있다. The stereo upmixing unit 103 may upmix an input audio signal having an expanded frequency band to generate an output audio signal in a stereo form corresponding to two channels. The stereo upmixing unit 103 may upmix a mono input audio signal to generate a stereo output audio signal. At this time, the stereo upmixing unit 103 may operate in the QMF domain. Here, the input audio signal having the extended frequency band may be input to the stereo upmixing unit 103 as a downmix signal. 1, an output audio signal corresponding to the L (left) channel and the R (right) channel can be generated.

스테레오 업믹싱부(103)의 동작은 MPS(MPEG Surround) 2-1-2 모드에 따라 수행될 수 있다. 여기서, MPS 2-1-2 모드는 인코더에서 스테레오 형태의 오디오 신호가 다운믹싱되어 모노 형태의 오디오 신호로 출력되고, 디코더에서 모노 형태의 오디오 신호가 업믹싱되어 스테레오 형태의 오디오 신호로 복원된다는 것을 의미한다. MPS 2-1-2 모드에 따라 동작하기 위해서, 업믹싱을 위한 MPS 정보가 필요할 수 있다.The operation of the stereo upmixing unit 103 may be performed according to an MPS (MPEG Surround) 2-1-2 mode. In the MPS 2-1-2 mode, the stereo audio signal is downmixed by the encoder and output as a mono audio signal, and the mono audio signal is upmixed by the decoder to restore the stereo audio signal it means. MPS 2-1-2 To operate according to the mode, MPS information for upmixing may be required.

도 1은 본 발명의 다채널 오디오 신호를 처리하기 위한 디코더에 포함된 복수의 디코딩 단위 중 하나의 디코딩 단위를 설명한 것이다. 도 1에서 주파수 대역 확장부(102)와 스테레오 업믹싱부(103)의 위치는 서로 교체될 수 있다. 다시 말해서, 도 1과 같이 주파수 대역 확장부(102)의 출력 결과가 스테레오 업믹싱부(103)에 입력되거나 또는 도 1과 달리 스테레오 업믹싱부(103)의 출력 결과가 주파수 대역 확장부(102)에 입력될 수 있다.BRIEF DESCRIPTION OF DRAWINGS FIG. 1 is a block diagram illustrating a decoding unit of a decoding unit included in a decoder for processing a multi-channel audio signal according to the present invention. In FIG. 1, the positions of the frequency band extending unit 102 and the stereo upmixing unit 103 may be interchanged. 1, when the output of the frequency band extending unit 102 is input to the stereo upmixing unit 103 or the output of the stereo upmixing unit 103 is output to the frequency band extending unit 102 As shown in FIG.

하나의 디코더 단위에 의해 2개 채널의 출력 오디오 신호가 생성될 수 있다. 도 2에서는 디코더에 포함된 전체 디코딩 단위들의 동작에 대해 구체적으로 설명하기로 한다. 만약, 최종적으로 복원되어야 할 다채널 오디오 신호의 채널 개수가 N개이면, 디코더의 개수는 총 N/2개가 필요하며, 이는 입력 오디오 채널의 채널 수인 M과 동일하다.Two channel output audio signals can be generated by one decoder unit. The operation of all decoding units included in the decoder will be described in detail with reference to FIG. If the number of channels of the multi-channel audio signal to be restored is N, the total number of decoders is N / 2, which is equal to M, which is the number of channels of the input audio channel.

도 2는 일실시예에 따라 M개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.2 is a diagram illustrating a detailed configuration of a decoder for decoding M channels of input audio signals according to an embodiment.

도 2를 참고하면, 디코더(200)는 M개 채널의 입력 오디오 신호를 처리하기 위해 M개의 코어 대역 디코딩부(201), 주파수 대역 확장부(202) 및 스테레오 업믹싱부(203)를 포함할 수 있다. 그리고, 앞서 설명하였듯이, 1개의 코어 대역 디코딩부(201), 주파수 대역 확장부(202) 및 스테레오 업믹싱부(203)가 하나의 디코딩 단위를 구성한다. 즉, 디코더(200)는 M개의 디코딩 단위로 구성되며, 이에 따라 N개(2M개)의 출력 오디오 신호가 생성될 수 있다.2, the decoder 200 includes M core band decoding units 201, a frequency band extending unit 202, and a stereo upmixing unit 203 for processing M input audio signals . As described above, one core band decoding unit 201, the frequency band extending unit 202, and the stereo upmixing unit 203 constitute one decoding unit. That is, the decoder 200 is composed of M decoding units, so that N (2M) output audio signals can be generated.

각각의 디코딩 단위가 수행하는 디코딩 과정은 도 1에서 설명한 것과 동일하다. 도 2에서, M개의 주파수 대역 확장부(202)로부터 도출된 다운믹스 신호 DMX 신호는 d0(n)부터 dM-1(n)이 될 수 있다.The decoding process performed by each decoding unit is the same as that described in FIG. 2, the downmix signal DMX signals derived from the M frequency band extensions 202 may be from d 0 (n) to d M -1 (n).

도 2를 참고하면, 각각의 다운믹스 신호인 DMX 신호는 스테레오 업믹싱부(203)에 의해 스테레오 형태의 출력 오디오 신호로 업믹싱될 수 있다. 구체적으로, 다운믹스 신호 d0(n)는 스테레오 업믹싱부(203)에 의해 스테레오 형태의 출력 오디오 신호인 y0(n)과 y1(n)으로 업믹싱될 수 있다.Referring to FIG. 2, the DMX signals, which are the respective downmix signals, can be upmixed by the stereo upmixing unit 203 to an output audio signal in a stereo form. Specifically, the downmix signal d 0 (n) may be upmixed by stereo upmixing unit 203 to stereo audio output signals y 0 (n) and y 1 (n).

도 3은 일실시예에 따라 1개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.3 is a diagram for explaining the operation of a stereo upmixing unit for processing an input audio signal of one channel according to an embodiment.

도 3을 참고하면, 스테레오 업믹싱부(300)는 비상관부(301)와 업믹싱 수행부(302)를 포함할 수 있다.Referring to FIG. 3, the stereo upmixing unit 300 may include an emitter unit 301 and an upmixing unit 302.

비상관부(301)는 주파수 대역이 확장된 다운믹스 신호(DMX)와 비상관성을 가지는 Wet 신호를 생성할 수 있다. 여기서, Wet 신호는 다운믹스 신호와 직교 관계에 있다. 업믹싱 수행부(302)는 다운믹스 신호와 Wet 신호를 이용하여 업믹싱함으로써 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 이 때, 다운믹스 신호와 wet 신호는 업믹싱 매트릭스에 적용될 수 있다. 출력 오디오 신호는 L채널 오디오 신호와 R채널 오디오 신호를 포함할 수 있다.The jumper unit 301 can generate a Wet signal having a non-inductivity with the downmix signal DMX having an expanded frequency band. Here, the Wet signal is orthogonal to the downmix signal. The upmixing unit 302 may generate an output audio signal in a stereo form by upmixing using a downmix signal and a wet signal. At this time, the downmix signal and the wet signal can be applied to the upmixing matrix. The output audio signal may include an L channel audio signal and an R channel audio signal.

여기서, 다운믹스 신호는 입력 오디오 신호의 주요 특성(primary attribute)을 가지고, wet 신호는 입력 오디오 신호의 잔향 특성(reverberation attribute)을 가질 수 있다. 이하에서, wet 신호는 잔향 신호라고 정의한다.Here, the downmix signal may have a primary attribute of the input audio signal, and the wet signal may have a reverberation attribute of the input audio signal. Hereinafter, the wet signal is defined as a reverberation signal.

도 3에서 업믹싱 매트릭스를 구성하는 계수는 인코더에서 전송된 부가 정보에 의해 계산될 수 있다. 도 3의 경우, 스테레오 업믹싱부(300)는 MPS 2-1-2 모드에 따라 업믹싱을 수행할 수 있다. 일례로, 스테레오 업믹싱부(300)는 하기 수학식 1에 따라 업믹싱을 수행할 수 있다.In Fig. 3, the coefficients constituting the upmixing matrix can be calculated by the additional information transmitted from the encoder. 3, the stereo upmixing unit 300 may perform the upmixing according to the MPS 2-1-2 mode. For example, the stereo upmixing unit 300 may perform upmixing according to Equation (1).

Figure pat00001
Figure pat00001

HLL과 HLR은 L채널의 출력 오디오 신호를 생성하기 위해 다운믹스 신호와 잔향 신호의 비율을 조정하는 계수를 의미한다. 그리고, HRL과 HRR은 R채널의 출력 오디오 신호를 생성하기 위해 다운믹스 신호와 잔향 신호의 비율을 조정하는 계수를 의미한다.H LL and H LR are coefficients for adjusting the ratio of the downmix signal and the reverberation signal to generate the output audio signal of the L channel. H RL and H RR are coefficients for adjusting the ratio of the downmix signal and the reverberation signal to generate the output audio signal of the R channel.

도 4는 일실시예에 따라 N개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.4 is a view for explaining the operation of a stereo upmixing unit for processing N input audio signals according to an embodiment.

본 발명의 일실시예에 의하면, 도 2와 같은 USAC 방식으로 구현되는 디코더를 이용하여 다채널 오디오 신호를 디코딩할 수 있다. 특히, 다채널 오디오 신호가 낮은 비트레이트를 가지는 경우에 보다 효과적으로 디코딩할 수 있다.According to an embodiment of the present invention, a multi-channel audio signal can be decoded using a decoder implemented in the USAC scheme as shown in FIG. In particular, when a multi-channel audio signal has a low bit rate, decoding can be performed more effectively.

USAC 방식으로 구현되는 디코더는 모노 형태의 입력 오디오 신호나 스테레오 형태의 입력 오디오 신호를 처리할 수 있다. 그래서, 복수의 채널로 구성되는 다채널 오디오 신호는 모노 또는 스테레오에 대응하는 엘리먼트로 나누어 디코딩될 필요가 있다.The decoder implemented in the USAC scheme can process a mono input audio signal or a stereo input audio signal. Thus, a multi-channel audio signal composed of a plurality of channels needs to be decoded by dividing it into elements corresponding to mono or stereo.

예를 들어, 5.1 채널의 입력 오디오 신호를 처리하기 위해서는 다음과 같은 엘리먼트가 포함된 비트스트림이 필요하다.For example, in order to process a 5.1-channel input audio signal, a bitstream including the following elements is required.

UsacSingleChannelElement( ) : mono channel codingUsacSingleChannelElement (): mono channel coding

UsacChannelPairElement( ) : stereo channel codingUsacChannelPairElement (): stereo channel coding

UsacChannelPairElement( ) : stereo channel codingUsacChannelPairElement (): stereo channel coding

UsacLfeElement( ) : Lfe(Low Frequency Effect) channel codingUsacLfeElement (): Low Frequency Effect (Lfe) channel coding

즉, 5.1 채널의 입력 오디오 신호를 복수의 엘리먼트로 구분하여 본 발명에서 설명되는 디코더가 입력 오디오 신호를 디코딩할 수 있다. 여기서, UsacChannelPairElement( )와 같은 엘리먼트에 대응하는 입력 오디오 신호는 스테레오 형태의 코딩 방식에 따라 처리될 수 있으므로, 도 1 내지 도 3에서 설명하는 스테레오 업믹싱부에 의해 처리될 수 있다. That is, a 5.1-channel input audio signal is divided into a plurality of elements so that a decoder described in the present invention can decode an input audio signal. Here, the input audio signal corresponding to the element such as UsacChannelPairElement () can be processed in accordance with the stereo type coding scheme, and thus can be processed by the stereo upmixing unit described in Figs.

만약, 10개의 다채널 오디오 신호를 UsacChannelPairElement()로 구분하여 낮은 비트율로 디코딩하는 경우, 다채널 오디오 신호는 다음과 같은 엘리먼트로 구분될 수 있다. UsacChannelPairElement( )는 2개 채널의 출력 오디오 신호를 생성하기 위해 1개 채널의 입력 오디오 신호를 스테레오 형태로 업믹싱한다는 것을 의미한다.If multi-channel audio signals are decoded at a low bit rate by dividing 10 multi-channel audio signals by UsacChannelPairElement (), the multi-channel audio signal can be divided into the following elements. UsacChannelPairElement () means upmixing the input audio signal of one channel to the stereo form to generate the output audio signal of two channels.

UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode

UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode

UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode

UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode

UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode

이 경우, 각 엘리먼트에 대응하는 입력 오디오 신호를 업믹싱하는 경우, 도 4와 같이 엘리먼트에 따라 구분되는 스테레오 업믹싱부(400)를 이용할 수 있다. 그리고, 엘리먼트마다 동일한 업믹싱 수행부(402)가 적용될 수 있다. 하지만, 엘리먼트마다 서로 다른 비상관부(401)가 적용될 수 있다. 즉, 스테레오 업믹싱부(400)는 엘리먼트마다 서로 다른 잔향 신호를 이용하여 업믹싱함으로써 다채널 오디오 신호를 구성하는 채널 간의 차이를 유지하여 다채널 오디오 신호의 음질을 유지할 수 있다.In this case, when the input audio signal corresponding to each element is upmixed, the stereo upmixing unit 400 classified according to the element as shown in FIG. 4 can be used. The same upmixing unit 402 may be applied to each element. However, different emergency parts 401 may be applied to each element. That is, the stereo upmixing unit 400 maintains the sound quality of the multi-channel audio signal by maintaining the difference between the channels constituting the multi-channel audio signal by upmixing using different reverberation signals for each element.

도 4를 참고하면, 주파수 대역이 확장된 다운믹스 신호는 각각 d0(n)에서 dM-1(n)를 포함할 수 있다. 그러면, 복수의 엘리먼트들 마다 할당된 서로 다른 비상관부(401)에 의해 M개의 잔향 신호가 생성될 수 있다. 여기서, 엘리먼트는 K로 구분될 수 있다. 도 4의 경우, K=0에서 K=M-1까지의 엘리먼트로 구분되는 입력 오디오 신호를 업믹싱하여 처리할 수 있다.Referring to FIG. 4, the downmix signals having the extended frequency bands may include d M-1 (n) at d 0 (n), respectively. Then, M reverberation signals can be generated by different emanating sections 401 assigned to each of a plurality of elements. Here, the element can be divided into K. In the case of FIG. 4, an input audio signal classified into elements of K = 0 to K = M-1 can be upmixed and processed.

예를 들어, 비상관부(401) D0는 다운믹스 신호 d0(n)를 이용하여 잔향 신호인 wet0(n)를 생성할 수 있다. 마찬가지로 비상관부(401) D1은 다운믹스 신호 d1(n)을 이용하여 잔향 신호인 wet1(n)을 생성할 수 있다. 비상관부(401)인 D0 내지 DM-1은 잔향 신호를 생성하는 필터 특성이 서로 다를 수 있다. 그렇기 때문에, 다운믹스 신호 d0(n)부터 dM-1(n)로부터 M개의 잔향 신호 wet0(n)에서 wetM-1(n)이 생성될 수 있다. 이와 같이, 엘리먼트마다 서로 다른 잔향 신호가 생성되므로, 입력 오디오 신호로부터 업믹싱에 의해 생성되는 출력 오디오 신호도 서로 다른 잔향 효과를 가지며, 이에 따라 채널간 음향 특성을 효과적으로 반영한 출력 오디오 신호가 생성될 수 있다.For example, the jerk 401 D0 may generate the reverberation signal wet 0 (n) using the downmix signal d 0 (n). Similarly, it is possible to generate the emergency tube (401) D wet 1 1 is a reverberation signal using the downmix signal d 1 (n) (n) . D 0 to D M-1 in the non - channel portion 401 may have different filter characteristics for generating a reverberation signal. Therefore, wet M-1 (n) can be generated from the downmix signals d 0 (n) to d M-1 (n) in M reverberation signals wet 0 (n). Since the different reverberation signals are generated for each element, the output audio signals generated by the upmixing from the input audio signals have different reverberation effects. Thus, an output audio signal that effectively reflects the interchannel acoustic characteristics can be generated have.

앞서 설명하였듯이, 입력 오디오 신호에 할당되는 엘리먼트는 인덱스 k가 할당될 수 있다. 각각의 비상관부(401)에 의해 잔향 신호가 생성되는 과정은 수학식 2에 의해 수행될 수 있다.As described above, the element assigned to the input audio signal can be assigned an index k. The process of generating the reverberation signal by each of the escape portions 401 can be performed by Equation (2).

Figure pat00002
Figure pat00002

수학식 2는 All-Pass Filter를 적용하는 기본적인 수식을 의미한다. 여기서, 필터 계수는

Figure pat00003
Figure pat00004
이다. 인덱스 k는 QMF(Quadrature Mirror Filter) 밴드에 대한 그룹핑 인덱스를 의미한다. 서브밴드는 0≤Subband≤70 범위에서 정의될 수 있다. 그리고, 인덱스 k에 의해 그룹핑된 서브밴드별로 필터 계수가 할당될 수 있다. 서브밴드의 수는 Hybrid QMF 밴드를 포함하여 총 71개가 될 수 있다. 보통 4개의 그룹으로 필터계수가 정의되므로, 인덱스 k는 0≤k≤3의 값을 가질 수 있다. 예를 들어, 인덱스 k=0이면, 0~7의 서브밴드, 인덱스 k=1이면 8~20의 서브밴드, 인덱스 k=2이면, 21~29의 서브밴드, 인덱스 k=3이면, 30~70의 서브밴드가 대응될 수 있다.Equation (2) represents a basic equation for applying the all-pass filter. Here, the filter coefficient is
Figure pat00003
Wow
Figure pat00004
to be. The index k means a grouping index for a QMF (Quadrature Mirror Filter) band. The subbands may be defined in the range 0? Subband? 70. A filter coefficient may be assigned for each subband grouped by the index k. The total number of subbands can be 71, including the hybrid QMF band. Since filter coefficients are usually defined in four groups, the index k may have a value of 0? K? 3. For example, if index k = 0, subbands 0 to 7, index k = 1, subbands 8 to 20, index k = 2, subbands 21 to 29, index k = 3, 70 < / RTI >

즉,

Figure pat00005
Figure pat00006
는 그룹핑된 서브 밴드별로, 및 엘리먼트별로 다르게 결정될 수 있다. 도 4와 같이, 복수의 스테레오 업믹싱부(400)가 M개 채널의 입력 오디오 신호를 업믹싱하는 경우,
Figure pat00007
Figure pat00008
는 그룹핑된 서브 밴드별로, 및 엘리먼트별로 다르게 결정될 수 있다. 수학식 2에서 DelayK는 각 서브밴드 그룹별로 적용되는 서로 다른 지연시간으로, 각 서브밴드별로 일정한 지연시간이 적용된 이후에 필터링이 수행될 수 있다.In other words,
Figure pat00005
Wow
Figure pat00006
May be determined differently for each grouped subband, and for each element. As shown in FIG. 4, when a plurality of stereo upmixers 400 upmix M input audio signals,
Figure pat00007
Wow
Figure pat00008
May be determined differently for each grouped subband, and for each element. In Equation (2), Delay K is different delay time applied to each subband group, and filtering can be performed after a predetermined delay time is applied to each subband.

Figure pat00009
Figure pat00010
는 All-Pass Filter의 계수이나 이를 하나의 반사 계수(reflection coefficient)로 표현될 수 있다. 구체적으로,
Figure pat00011
Figure pat00012
는 하나의
Figure pat00013
로 표현될 수 있다.
Figure pat00009
Wow
Figure pat00010
Can be expressed as a coefficient of the All-Pass Filter or a reflection coefficient thereof. Specifically,
Figure pat00011
Wow
Figure pat00012
Is one
Figure pat00013
. ≪ / RTI >

하나의 엘리먼트에 대해 스테레오 업믹싱을 수행하는 경우,

Figure pat00014
는 수학식 3과 같다. When performing stereo upmixing on one element,
Figure pat00014
Is expressed by Equation (3).

Figure pat00015
Figure pat00015

수학식 3에서 설명되는

Figure pat00016
로부터
Figure pat00017
Figure pat00018
가 추출될 수 있다.(3)
Figure pat00016
from
Figure pat00017
Wow
Figure pat00018
Can be extracted.

도 5는 일실시예에 따라 엘리먼트 단위로 잔향 신호를 생성하는 과정을 도시한 도면이다.FIG. 5 is a diagram illustrating a process of generating a reverberation signal on an element-by-element basis according to an embodiment.

도 4에서 도시된 바와 같이, 입력 오디오 신호가 M개 채널에 대응하여 엘리먼트가 M개인 경우 도 5와 같이 엘리먼트 단위로 잔향 신호가 생성될 수 있다.As shown in FIG. 4, when the input audio signal corresponds to M channels and the element has M, a reverberation signal may be generated in units of elements as shown in FIG.

도 5에서 스위칭되기 전에 표시된 element는 스테레오 업믹싱부에 입력되는 다운믹스 신호가 몇번째 엘리먼트를 나타내는지를 의미하는 인덱스이다. 그러면, 다운믹스 신호에 할당된 인덱스 element에 따라 스위칭되어, 필터 계수 선택부(501)에서 필터 계수의 셋트가 선택될 수 있다. 필터링부(502)는 선택된 필터 계수의 셋트로부터 변환된 와 을 이용하여 All Pass Filtering을 수행할 수 있다. 여기서, All Pass Filtering은 앞서 설명한 수학식 2를 수행하는 것을 의미한다.In FIG. 5, the element displayed before switching is an index indicating the number of elements of the downmix signal input to the stereo upmixing unit. Then, it is switched according to the index element assigned to the downmix signal so that a set of filter coefficients can be selected in the filter coefficient selector 501. The filtering unit 502 may perform All Pass Filtering using the transformed values from the set of selected filter coefficients. Here, All Pass Filtering means performing Equation (2) described above.

도 6은 일실시예에 따라 비트스트림을 처리하는 과정을 도시한 도면이다.6 is a diagram illustrating a process of processing a bitstream according to an embodiment.

디코더는 비트스트림으로부터 처리하고자 하는 엘리먼트의 개수를 판단할 수 있다. 엘리먼트는 입력 오디오 신호를 구분하는 단위를 의미한다. 이 때, 단계(601)에서, 디코더는 엘리먼트가 1개인지 또는 복수인지 여부를 판단할 수 있다. 만약, 엘리먼트가 1개인 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다.The decoder can determine the number of elements to be processed from the bitstream. Element means a unit for distinguishing input audio signals. At this time, in step 601, the decoder can determine whether the element is one or more. If there is one element, the decoder can process the input audio signal according to method 2.

반대로, 엘리먼트가 복수인 경우, 단계(602)에서, 디코더는 복수의 엘리먼트 중에 channel pair element가 복수인지 여부를 판단할 수 있다. channel pair element가 복수가 아닌 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다.Conversely, if there are a plurality of elements, in step 602, the decoder may determine whether there are a plurality of channel pair elements among the plurality of elements. If the channel pair element is not plural, the decoder can process the input audio signal according to method 2.

한편, channel pair element가 복수인 경우, 단계(603)에서, 디코더는 MPS 2-1-2 모드로 처리되는 channel pair element가 복수인지 여부를 판단할 수 있다. 여기서, MPS 2-1-2 모드인지 여부를 판단하는 과정은 비트스트림에 포함된 신택스(syntax)에 기초할 수 있다. 일례로, 신택스에서 stereoConfigIndex==1인 경우 디코더는 MPS 2-1-2 모드에 따라 동작하는 스테레오 업믹싱부를 통해 입력 오디오 신호를 업믹싱할 수 있다. On the other hand, if there are a plurality of channel pair elements, in step 603, the decoder can determine whether there are plural channel pair elements processed in the MPS 2-1-2 mode. Here, the process of determining whether the mode is the MPS 2-1-2 mode may be based on a syntax included in the bitstream. For example, if the stereoConfigIndex == 1 in the syntax, the decoder can upmix the input audio signal through a stereo upmixing unit operating according to the MPS 2-1-2 mode.

만약, MPS 2-1-2 모드로 처리되는 channel pair element가 복수가 아닌 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다. 그리고, MPS 2-1-2 모드로 처리되는 channel pair element가 복수인 경우, 디코더는 방법 1에 따라 입력 오디오 신호를 처리할 수 있다.If the number of channel pair elements processed in the MPS 2-1-2 mode is not plural, the decoder can process the input audio signal according to method 2. If there are a plurality of channel pair elements processed in the MPS 2-1-2 mode, the decoder can process the input audio signal according to the method 1.

여기서, 방법 1은 도 5에 설명되는 과정에 따라 필터 계수를 추출하는 과정을 의미한다. 이 때, 도 5에서 엘리먼트가 M개라는 것을 가정한다. 이것은 비트스트림에 포함된 전체 입력 오디오 신호에서 MPS 2-1-2 모드로 처리되는 channel pair element에 대응하는 입력 오디오 신호가 M개라는 것을 의미한다.Here, method 1 means a process of extracting filter coefficients according to the procedure described in FIG. At this time, it is assumed that the number of elements is M in Fig. This means that there are M input audio signals corresponding to the channel pair element processed in the MPS 2-1-2 mode from the entire input audio signal included in the bitstream.

그리고, 도 6에서 방법 2는 본 발명에서 설명하는 디코딩 방식이 아닌 다른 방식으로 입력 오디오 신호를 처리한다는 것을 의미한다.In FIG. 6, method 2 means processing the input audio signal in a manner other than the decoding method described in the present invention.

도 6은 이하의 신택스에 의해 구현될 수 있다. 여기서, numElements는 엘리먼트의 개수를 의미하고, elementLength는 수학식 3의 LEN에 대응한다. 그리고, USAC CPE는 도 6의 Channel Pair Element에 대응한다.
6 can be implemented by the following syntax. Here, numElements means the number of elements, and elementLength corresponds to the LEN in Equation (3). The USAC CPE corresponds to the Channel Pair Element in Fig.

Figure pat00019
Figure pat00019

한편, 엘리먼트가 USAC CPE인 경우, 디코더는 이하의 신택스에 의해 구체적으로 동작할 수 있다.On the other hand, when the element is a USAC CPE, the decoder can operate concretely by the following syntax.

Figure pat00020
Figure pat00020

여기서, stereoConfigIndex는 MPS 2-1-2 모드로 동작할 지 여부를 나타낸다. 만약, stereoConfigIndex==1이면, 디코더에 포함된 스테레오 업믹싱부는 MPS 2-1-2 모드에 따라 입력 오디오 신호를 업믹싱할 수 있다.Here, stereoConfigIndex indicates whether or not to operate in the MPS 2-1-2 mode. If stereoConfigIndex == 1, the stereo upmixing unit included in the decoder can upmix the input audio signal according to the MPS 2-1-2 mode.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced. Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100: 디코더
101: 코어 대역 디코딩부
102: 주파수 대역 확장부
103: 스테레오 업믹싱부
100: decoder
101: core band decoding unit
102: Frequency band extension unit
103: stereo upmixing unit

Claims (20)

디코더가 수행하는 디코딩 방법에 있어서,
M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 단계;
상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계;
상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 단계
를 포함하는 디코딩 방법.
In a decoding method performed by a decoder,
Decoding an input audio signal of M channels of a core band;
Expanding a frequency band using a core band of the decoded input audio signal;
Generating up to N output audio signals by upmixing the input audio signals based on the input audio signals having the frequency bands expanded and the different reverberation signals for each of the M channels,
/ RTI >
제1항에 있어서,
상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계는,
상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장하는 디코딩 방법.
The method according to claim 1,
Wherein the step of expanding the frequency band using the core band of the decoded input audio signal comprises:
Wherein the frequency band of the input audio signal is expanded by copying the core band into a high frequency band.
제1항에 있어서,
상기 잔향 신호는,
상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가지는 디코딩 방법.
The method according to claim 1,
The reverberation signal,
Wherein the input audio signal has an inertia orthogonal to the input audio signal.
제1항에 있어서,
상기 M개 채널의 코어 대역의 입력 오디오 신호는,
MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함하는 디코딩 방법.
The method according to claim 1,
Wherein the input audio signal of the M-channel core bands includes:
Wherein the input audio signal is processed in an MPS 2-1-2 mode and comprises M channel core band input audio signals separated by elements corresponding to a channel pair element.
제1항에 있어서,
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,
M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코딩 방법.
The method according to claim 1,
Wherein the generating of the N output audio signals comprises:
Wherein a different reverberation signal is generated for each element based on a filter coefficient differently determined for each of a plurality of elements for discriminating an input audio signal of M channels of a core band.
제5항에 있어서,
상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고,
상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가지는 디코딩 방법.
6. The method of claim 5,
The element is divided into the M channels and serves as a reference for grouping subbands for assigning filter coefficients,
Wherein the filter coefficient has a different value for each grouped subband for each element.
제1항에 있어서,
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,
상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코딩 방법.
The method according to claim 1,
Wherein the generating of the N output audio signals comprises:
Selecting a set of filter coefficients sequentially according to an element corresponding to the input audio channel and performing an all pass filter according to the selected filter coefficient set to generate different reverberation signals for each element.
제1항에 있어서,
상기 코어 대역은,
인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응하는 디코딩 방법.
The method according to claim 1,
The core-
Wherein the encoder corresponds to a low frequency band in which the frequency band is not extended.
제1항에 있어서,
상기 입력 오디오 신호를 디코딩하는 단계는,
상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩하는 디코딩 방법.
The method according to claim 1,
Wherein the step of decoding the input audio signal comprises:
Wherein the input audio signal is decoded by determining whether the input audio signal of the core band is an audio characteristic or a speech characteristic for each frame.
제1항에 있어서,
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,
MPS 2-1-2 모드에 따라 M개 채널의 코어 대역의 입력 오디오 신호를 업믹싱함으로써 N개 채널의 출력 오디오 신호를 생성하는 디코딩 방법.
The method according to claim 1,
Wherein the generating of the N output audio signals comprises:
Wherein the output audio signal of N channels is generated by upmixing the input audio signal of M channels of the core band according to the MPS 2-1-2 mode.
M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 코어 대역 디코딩부;
상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 주파수 대역 확장부; 및
상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 스테레오 업믹싱부
를 포함하는 디코더.
A core band decoding unit decoding an input audio signal of M channels of a core band;
A frequency band extension unit for expanding a frequency band using the core band of the decoded input audio signal; And
A stereo upmixing unit for upmixing the input audio signal based on an input audio signal having the frequency band expanded and a different reverberation signal for each of M channels to generate N output audio signals,
/ RTI >
제11항에 있어서,
상기 주파수 대역 확장부는,
상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장하는 디코더.
12. The method of claim 11,
Wherein the frequency band extension unit comprises:
And to expand the frequency band of the input audio signal by copying the core band into a high frequency band.
제11항에 있어서,
상기 잔향 신호는,
상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가지는 디코더.
12. The method of claim 11,
The reverberation signal,
Wherein the input audio signal has non-inversely orthogonal relation to the input audio signal.
제11항에 있어서,
상기 M개 채널의 코어 대역의 입력 오디오 신호는,
MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함하는 디코더.
12. The method of claim 11,
Wherein the input audio signal of the M-channel core bands includes:
A decoder comprising an input audio signal of M channels of the core band processed in the MPS 2-1-2 mode and separated by an element corresponding to a channel pair element.
제11항에 있어서,
상기 스테레오 업믹싱부는,
M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코더.
12. The method of claim 11,
Wherein the stereo upmixing unit comprises:
And generates a different reverberation signal for each element based on a filter coefficient differently determined for each of a plurality of elements for discriminating input audio signals of M channels of the core band.
제15항에 있어서,
상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고,
상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가지는 디코더.
16. The method of claim 15,
The element is divided into the M channels and serves as a reference for grouping subbands for assigning filter coefficients,
Wherein the filter coefficient has different values for each grouped subband for each element.
제11항에 있어서,
상기 스테레오 업믹싱부는,
상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코더.
12. The method of claim 11,
Wherein the stereo upmixing unit comprises:
A filter coefficient set is sequentially selected in accordance with an element corresponding to the input audio channel and an all pass filter is performed according to the selected filter coefficient set to generate different reverberation signals for each element.
제11항에 있어서,
상기 코어 대역은,
인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응하는 디코더.
12. The method of claim 11,
The core-
A decoder corresponding to a low frequency band in which the frequency band is not extended in the encoder.
제11항에 있어서,
상기 코어 대역 디코딩부는,
상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩하는 디코더.
12. The method of claim 11,
Wherein the core-
And decodes the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a speech characteristic for each frame.
제11항에 있어서,
상기 스테레오 업믹싱부는,
MPS 2-1-2 모드에 따라 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성하는 디코더.
12. The method of claim 11,
Wherein the stereo upmixing unit comprises:
MPS 2-1-2 A decoder that upmixes a mono input audio signal according to the mode and generates an output audio signal in stereo form.
KR1020140093288A 2013-07-23 2014-07-23 Decoding method for multi-channel audio signal using reverberation signal and decoder KR20150011783A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/006705 WO2015012594A1 (en) 2013-07-23 2014-07-23 Method and decoder for decoding multi-channel audio signal by using reverberation signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20130086674 2013-07-23
KR1020130086674 2013-07-23

Publications (1)

Publication Number Publication Date
KR20150011783A true KR20150011783A (en) 2015-02-02

Family

ID=52488086

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140093288A KR20150011783A (en) 2013-07-23 2014-07-23 Decoding method for multi-channel audio signal using reverberation signal and decoder

Country Status (1)

Country Link
KR (1) KR20150011783A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016204580A1 (en) * 2015-06-17 2016-12-22 삼성전자 주식회사 Method and device for processing internal channels for low complexity format conversion

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016204580A1 (en) * 2015-06-17 2016-12-22 삼성전자 주식회사 Method and device for processing internal channels for low complexity format conversion
US10504528B2 (en) 2015-06-17 2019-12-10 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion

Similar Documents

Publication Publication Date Title
CA2576739C (en) Multichannel decorrelation in spatial audio coding
KR100888474B1 (en) Apparatus and method for encoding/decoding multichannel audio signal
CN101410889B (en) Controlling spatial audio coding parameters as a function of auditory events
JP5818913B2 (en) Encoding and decoding slot positions of events in speech signal frames
RU2666230C2 (en) Audio decoder, audio encoder, encoded presentation based at least four channel audio signals provision method, at least four channel audio signals based encoded representation provision method and using the range extension computer software
JP6133422B2 (en) Generalized spatial audio object coding parametric concept decoder and method for downmix / upmix multichannel applications
US11056122B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
KR101763129B1 (en) Audio encoder and decoder
JP2007531916A (en) Method, device, encoder device, decoder device, and audio system
US8447618B2 (en) Method and apparatus for encoding and decoding residual signal
KR20240050483A (en) Method and device for processing internal channels for low complexity format conversion
EP3023984A1 (en) Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal
KR20150011783A (en) Decoding method for multi-channel audio signal using reverberation signal and decoder
JP6179122B2 (en) Audio encoding apparatus, audio encoding method, and audio encoding program
RU2380767C2 (en) Method and device for audio signal decoding
KR101709690B1 (en) Method for decoding multichannel signal
TW202332291A (en) Methods and devices for coding or decoding of scene-based immersive audio content
KR101613979B1 (en) Method for decoding multichannel signal
RU2575393C2 (en) Encoding and decoding of slot positions with events in audio signal frame
WO2015012594A1 (en) Method and decoder for decoding multi-channel audio signal by using reverberation signal
KR20160081844A (en) Encoding method and encoder for multi-channel audio signal, and decoding method and decoder for multi-channel audio signal

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment