WO2015012594A1 - Method and decoder for decoding multi-channel audio signal by using reverberation signal - Google Patents

Method and decoder for decoding multi-channel audio signal by using reverberation signal Download PDF

Info

Publication number
WO2015012594A1
WO2015012594A1 PCT/KR2014/006705 KR2014006705W WO2015012594A1 WO 2015012594 A1 WO2015012594 A1 WO 2015012594A1 KR 2014006705 W KR2014006705 W KR 2014006705W WO 2015012594 A1 WO2015012594 A1 WO 2015012594A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
input audio
channels
frequency band
decoding
Prior art date
Application number
PCT/KR2014/006705
Other languages
French (fr)
Korean (ko)
Inventor
백승권
성종모
이태진
강경옥
서정일
김진웅
장대영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority claimed from KR1020140093288A external-priority patent/KR20150011783A/en
Publication of WO2015012594A1 publication Critical patent/WO2015012594A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Definitions

  • the following embodiments relate to a method and a decoder for decoding a multichannel audio signal, and more particularly, to a method and an apparatus for decoding a multichannel audio signal by applying different reverberation signals for each channel.
  • the decoding of the multichannel audio signal is performed using various additional information generated by the encoder.
  • the encoder may compress the M channels into audio signals of M channels.
  • the decoder can then recover the N channel audio signal from the M channel audio signal.
  • the decoder for the multi-channel audio signal may restore the N-channel audio signal by applying a reverberation component to the M-channel audio signal.
  • the same reverberation component is applied to the audio signals of the M channels, the sound field feeling of the audio signals of the N channels restored may be degraded.
  • the following embodiments provide a method and apparatus for maintaining a sound field of a multichannel audio signal by generating and applying different reverberation signals for each channel when reconstructing the multichannel audio signal.
  • a decoding method performed by a decoder includes decoding an input audio signal of a core band of M channels; Extending a frequency band using a core band of the decoded input audio signal; And generating an output audio signal of N channels by upmixing the input audio signal based on the input audio signal having the extended frequency band and the reverberation signal different for each M channel.
  • the frequency band of the input audio signal may be extended by copying the core band to a high frequency band.
  • the reverberation signal may have uncorrelation as orthogonal to the input audio signal.
  • the input audio signal of the core band of the M channels may be processed in the MPS 2-1-2 mode and include an input audio signal of the core band of the M channels divided into elements corresponding to channel pair elements.
  • the generating of the N-channel output audio signal may generate a different reverberation signal for each element based on filter coefficients differently determined for a plurality of elements for dividing the input audio signal of the core band of M channels. .
  • the element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients, and the filter coefficients may have different values for each element and for each grouped subband.
  • the generating of the N audio channels may include sequentially selecting a filter coefficient set according to an element corresponding to the input audio channel, and performing an all pass filter according to the selected filter coefficient set.
  • different reverberation signals can be generated for each element.
  • the core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.
  • the decoding of the input audio signal may decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
  • the generating of the N channel output audio signal may generate the N channel output audio signal by upmixing the M channel core audio signal according to the MPS 2-1-2 mode.
  • a decoder includes a core band decoding unit for decoding an input audio signal of a core band of M channels; A frequency band extension unit for extending a frequency band by using a core band of the decoded input audio signal; And a stereo upmixing unit configured to generate the N-channel output audio signal by upmixing the input audio signal based on the input audio signal having the extended frequency band and the reverberation signal different for each of the M channels.
  • the frequency band extension unit may expand the frequency band of the input audio signal by copying the core band to a high frequency band.
  • the reverberation signal may have uncorrelation as orthogonal to the input audio signal.
  • the input audio signal of the core band of the M channels may be processed in the MPS 2-1-2 mode and include an input audio signal of the core band of the M channels divided into elements corresponding to channel pair elements.
  • the stereo upmixing unit may generate different reverberation signals for each element based on filter coefficients that are differently determined for each of the plurality of elements for dividing the input audio signal of the core band of M channels.
  • the element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients, and the filter coefficients may have different values for each element and for each grouped subband.
  • the stereo upmixing unit sequentially selects filter coefficient sets according to elements corresponding to the input audio channel and performs an all pass filter according to the selected filter coefficient set to generate different reverberation signals for each element. Can be generated.
  • the core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.
  • the core band decoding unit may decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
  • the stereo upmixer may generate a stereo output audio signal by upmixing an input audio signal in a mono form according to the MPS 2-1-2 mode.
  • a different reverberation signal is generated and applied to each channel to maintain a sound field of the multichannel audio signal.
  • 1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.
  • FIG. 2 illustrates a detailed configuration of a decoder for decoding an input audio signal of N channels according to an embodiment.
  • FIG. 3 is a diagram for describing an operation of a stereo upmixing unit for processing an input audio signal of one channel according to an exemplary embodiment.
  • FIG. 4 is a diagram for describing an operation of a stereo upmixing unit for processing input audio signals of N channels according to an embodiment.
  • FIG. 5 illustrates a process of generating a reverberation signal in element units according to an exemplary embodiment.
  • FIG. 6 illustrates a process of processing a bitstream according to an embodiment.
  • 1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.
  • the decoder 100 may include a core band decoding unit 101, a frequency band expansion unit 102, and a stereo upmixing unit 103.
  • the decoder 100 may process an audio signal having a bit rate in the range of 8 kbps to 192 kbps as a decoder based on a Unified Speech Audio Codec (USAC).
  • USAC Unified Speech Audio Codec
  • the core band decoding unit 101 may decode the bit rate of the input audio signal included in the bitstream.
  • the core band decoding unit 101 may decode the input audio signal of the core band corresponding to the low frequency band to be encoded in the encoder.
  • the core band is a frequency band used for encoding in the entire frequency band of the input audio signal, and means a low frequency band other than the high frequency band generated as the frequency band is expanded in the decoder.
  • the core band decoding unit 101 may use different decoding schemes according to whether each frame of the input audio signal has an audio characteristic or a voice characteristic. For example, when the input audio signal has an audio characteristic, the core band decoding unit 101 may decode the core band of the input audio signal based on a Modified Discrete Cosine Transform (MDCT) scheme. When the input audio signal has a voice characteristic, the core band decoding unit 101 may decode a core band of the input audio signal based on an ACELP (Algebraic code-excited linear prediction) scheme. Since the decoding process is performed in units of frames, when the frame units have different characteristics, the core band decoding unit 101 may switch and process the decoding processes between frames.
  • MDCT Modified Discrete Cosine Transform
  • the frequency band extension unit 102 may extend the frequency band of the input audio signal by copying the core band to the high frequency band with respect to the input audio signal of the decoded core band. That is, the frequency band extension unit 102 may expand the frequency band by using parameter information of SBR (Spectral Band Replication). Specifically, since the output result of the core band decoding unit 101 is a result of restoring only the low frequency band which is the core band, the high frequency band may be restored by copying the core band to restore the entire frequency band of the input audio signal. Then, the frequency band of the input audio signal can be extended from the core band to the entire frequency band.
  • SBR Specific Band Replication
  • the stereo upmixing unit 103 may upmix the input audio signal having the extended frequency band to generate a stereo audio output audio signal corresponding to two channels.
  • the stereo upmixing unit 103 may generate a stereo output audio signal by upmixing an input audio signal in a mono form.
  • the stereo upmixing unit 103 may operate in the QMF domain.
  • the input audio signal having the extended frequency band may be input to the stereo upmixing unit 103 as a downmix signal. Then, as illustrated in FIG. 1, an output audio signal corresponding to an L (left) channel and an R (right) channel may be generated.
  • the operation of the stereo upmixing unit 103 may be performed according to the MPS (MPEG Surround) 2-1-2 mode.
  • MPS MPEG Surround
  • the stereo audio signal is downmixed by the encoder and output as a mono audio signal, and the mono audio signal is upmixed by the decoder and restored to the stereo audio signal. it means.
  • MPS information for upmixing may be needed.
  • FIG. 1 illustrates one decoding unit of a plurality of decoding units included in a decoder for processing a multichannel audio signal of the present invention.
  • the positions of the frequency band extension unit 102 and the stereo upmixing unit 103 may be interchanged.
  • the output result of the frequency band extension unit 102 is input to the stereo upmixing unit 103, or unlike the output result of the stereo upmixing unit 103 as shown in FIG. 1, the frequency band extension unit 102 is output. ) Can be entered.
  • the output audio signal of two channels may be generated by one decoder unit.
  • N the number of channels of the multi-channel audio signal to be finally restored
  • M the number of channels of the input audio channel.
  • FIG. 2 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of M channels according to an embodiment.
  • the decoder 200 may include M core band decoding units 201, a frequency band extension unit 202, and a stereo upmixing unit 203 to process M channel input audio signals. Can be. As described above, one core band decoding unit 201, the frequency band extension unit 202, and the stereo upmixing unit 203 constitute one decoding unit. That is, the decoder 200 is composed of M decoding units, and thus N (2M) output audio signals may be generated.
  • each decoding unit The decoding process performed by each decoding unit is the same as that described with reference to FIG. 1.
  • the downmix signal DMX signal derived from the M frequency band extension units 202 may be d 0 (n) to d M-1 (n).
  • each downmix signal DMX signal may be upmixed by the stereo upmixing unit 203 into a stereo audio output audio signal.
  • the downmix signal d 0 (n) may be upmixed by the stereo upmixing unit 203 into y 0 (n) and y 1 (n), which are stereo output audio signals.
  • FIG. 3 is a diagram for describing an operation of a stereo upmixing unit for processing an input audio signal of one channel according to an exemplary embodiment.
  • the stereo upmixing unit 300 may include an uncorrelated unit 301 and an upmixing unit 302.
  • the decorrelator 301 may generate a wet signal having uncorrelation with the downmix signal DMX having an extended frequency band.
  • the Wet signal is orthogonal to the downmix signal.
  • the upmixing unit 302 may generate a stereo audio output audio signal by upmixing the downmix signal and the wet signal.
  • the downmix signal and the wet signal may be applied to the upmixing matrix.
  • the output audio signal may include an L channel audio signal and an R channel audio signal.
  • the downmix signal may have a primary attribute of the input audio signal
  • the wet signal may have a reverberation attribute of the input audio signal.
  • the wet signal is defined as a reverberation signal.
  • coefficients constituting the upmixing matrix may be calculated by additional information transmitted from the encoder.
  • the stereo upmixing unit 300 may perform upmixing according to the MPS 2-1-2 mode.
  • the stereo upmixing unit 300 may perform upmixing according to Equation 1 below.
  • H LL and H LR are coefficients for adjusting the ratio of the downmix signal and the reverberation signal to generate the output audio signal of the L channel.
  • H H RL and RR refers to the down-mix signal and the coefficient for adjusting the ratio of the reverberation signal to produce an output audio signal of the R channel.
  • FIG. 4 is a diagram for describing an operation of a stereo upmixing unit for processing input audio signals of N channels according to an embodiment.
  • a multi-channel audio signal may be decoded using a decoder implemented in the USAC method as shown in FIG. 2.
  • the multi-channel audio signal can be decoded more effectively when it has a low bit rate.
  • the decoder implemented in the USAC method can process a mono input audio signal or a stereo input audio signal.
  • a multichannel audio signal composed of a plurality of channels needs to be decoded by dividing into elements corresponding to mono or stereo.
  • bitstream including the following elements is required.
  • the decoder described in the present invention can decode the input audio signal by dividing the 5.1-channel input audio signal into a plurality of elements.
  • the input audio signal corresponding to an element such as UsacChannelPairElement () may be processed according to a stereo coding scheme, and thus may be processed by the stereo upmixing unit described with reference to FIGS. 1 to 3.
  • UsacChannelPairElement means to upmix the input audio signal of one channel in stereo form to produce the output audio signal of two channels.
  • a stereo upmixing unit 400 classified according to an element may be used as shown in FIG. 4.
  • the same upmixing unit 402 may be applied to each element.
  • different decorating units 401 may be applied to each element. That is, the stereo upmixing unit 400 may maintain the sound quality of the multichannel audio signal by maintaining the difference between the channels constituting the multichannel audio signal by upmixing using different reverberation signals for each element.
  • the uncorrelated unit 401 D 0 may generate wet 0 (n) that is a reverberation signal using the downmix signal d 0 (n).
  • the uncorrelated unit 401 D 1 may generate wet 1 (n), which is a reverberation signal, using the downmix signal d 1 (n).
  • the non-correlated units 401 to D 0 to D M-1 may have different filter characteristics for generating a reverberation signal.
  • wet M-1 (n) may be generated in the M reverberation signals wet 0 (n) from the downmix signals d 0 (n) to d M-1 (n).
  • the output audio signal generated by upmixing from the input audio signal also has different reverberation effects, and thus an output audio signal effectively reflecting the acoustic characteristics between channels can be generated. have.
  • the element allocated to the input audio signal may be assigned an index k.
  • the process of generating the reverberation signal by each uncorrelated unit 401 may be performed by Equation 2.
  • Equation 2 refers to a basic formula to apply the All-Pass Filter. Where the filter coefficient is
  • Index k means the grouping index for the Quadrature Mirror Filter (QMF) band.
  • Subbands may be defined in the range of 0 ⁇ Subband ⁇ 70.
  • FIG. 5 illustrates a process of generating a reverberation signal in element units according to an exemplary embodiment.
  • a reverberation signal may be generated in element units as shown in FIG. 5.
  • the element displayed before switching in FIG. 5 is an index indicating the number of elements of the downmix signal input to the stereo upmixing unit. Then, the filter coefficient selector 501 may select a set of filter coefficients by switching according to the index element assigned to the downmix signal. The filtering unit 502 is converted from the set of the selected filter coefficients Wow All pass filtering can be performed using.
  • All Pass Filtering means to perform Equation 2 described above.
  • FIG. 6 illustrates a process of processing a bitstream according to an embodiment.
  • the decoder may determine the number of elements to be processed from the bitstream.
  • the element refers to a unit for distinguishing an input audio signal.
  • the decoder may determine whether there is one element or a plurality of elements. If there is only one element, the decoder may process the input audio signal according to the method 2.
  • the decoder may determine whether there are a plurality of channel pair elements among the plurality of elements. If the channel pair elements are not plural, the decoder may process the input audio signal according to the method 2.
  • the decoder may determine whether there are a plurality of channel pair elements processed in the MPS 2-1-2 mode.
  • the decoder may process the input audio signal according to the method 2. If there are a plurality of channel pair elements processed in the MPS 2-1-2 mode, the decoder may process the input audio signal according to the first method.
  • method 1 means a process of extracting filter coefficients according to the process described with reference to FIG. 5.
  • M elements it is assumed that there are M elements in FIG. 5. This means that there are M input audio signals corresponding to the channel pair elements processed in the MPS 2-1-2 mode in all the input audio signals included in the bitstream.
  • method 2 means that the input audio signal is processed in a manner other than the decoding method described in the present invention.
  • numElements means the number of elements
  • elementLength corresponds to LEN of Equation 3.
  • the USAC CPE corresponds to the channel pair element of FIG. 6.
  • the decoder can operate specifically by the following syntax.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may be, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

A method and a decoder for decoding a multi-channel audio signal by using a reverberation signal are disclosed. The decoding method, according to one embodiment, enables the quality of a multi-channel audio signal to be maintained by applying different reverberation signals in element units for the multi-channel audio signal.

Description

잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더 Method and decoder for decoding multichannel audio signals using reverberation signals
이하의 실시예들은, 다채널 오디오 신호의 디코딩 방법 및 디코더에 관한 것으로, 보다 구체적으로는 채널마다 서로 다른 잔향 신호를 적용하여 다채널 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.The following embodiments relate to a method and a decoder for decoding a multichannel audio signal, and more particularly, to a method and an apparatus for decoding a multichannel audio signal by applying different reverberation signals for each channel.
다채널 오디오 신호를 디코딩하는 과정은 인코더에서 생성한 다양한 부가 정보를 이용하여 진행된다. 그리고, 다채널 오디오 신호가 N개 채널의 오디오 신호로 구성되는 경우, 인코더에서 M개 채널의 오디오 신호로 압축할 수 있다. 그러면, 디코더에서 M개 채널의 오디오 신호로부터 N개 채널의 오디오 신호를 복원할 수 있다.The decoding of the multichannel audio signal is performed using various additional information generated by the encoder. When the multi-channel audio signal is composed of N channels of audio signals, the encoder may compress the M channels into audio signals of M channels. The decoder can then recover the N channel audio signal from the M channel audio signal.
이 때, 다채널 오디오 신호를 위한 디코더는 M개 채널의 오디오 신호에 잔향 성분을 적용하여 N개 채널의 오디오 신호를 복원할 수 있다. 이 때, M개 채널의 오디오 신호에 동일한 잔향 성분을 적용하면 복원되는 N개 채널의 오디오 신호의 음장감은 열화될 수 있다.In this case, the decoder for the multi-channel audio signal may restore the N-channel audio signal by applying a reverberation component to the M-channel audio signal. At this time, if the same reverberation component is applied to the audio signals of the M channels, the sound field feeling of the audio signals of the N channels restored may be degraded.
무엇보다, 다채널 오디오 신호의 경우 압축 효율보다 음질이 중요하게 고려되기 때문에, 복수의 채널들 간의 차이를 고려하여 다채널 오디오 신호를 복원함으로써 원래 인코딩되기 전의 오디오 신호에 비해 음질의 열화를 줄일 수 있는 방안이 요구된다.First of all, in the case of a multichannel audio signal, sound quality is considered more important than compression efficiency, so that the deterioration of sound quality can be reduced compared to the audio signal before the original encoding by reconstructing the multichannel audio signal in consideration of the difference between a plurality of channels. A solution is required.
이하의 실시예들은, 다채널 오디오 신호를 복원할 때 채널마다 서로 다른 잔향 신호를 생성하여 적용함으로써 다채널 오디오 신호의 음장감을 유지할 수 있는 방법 및 장치를 제공한다.The following embodiments provide a method and apparatus for maintaining a sound field of a multichannel audio signal by generating and applying different reverberation signals for each channel when reconstructing the multichannel audio signal.
본 발명의 일실시예에 따른 디코더가 수행하는 디코딩 방법은 M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 단계; 상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계; 및 상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 단계를 포함할 수 있다.A decoding method performed by a decoder according to an embodiment of the present invention includes decoding an input audio signal of a core band of M channels; Extending a frequency band using a core band of the decoded input audio signal; And generating an output audio signal of N channels by upmixing the input audio signal based on the input audio signal having the extended frequency band and the reverberation signal different for each M channel.
상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계는, 상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다.In the extending of the frequency band by using the core band of the decoded input audio signal, the frequency band of the input audio signal may be extended by copying the core band to a high frequency band.
상기 잔향 신호는, 상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가질 수 있다.The reverberation signal may have uncorrelation as orthogonal to the input audio signal.
상기 M개 채널의 코어 대역의 입력 오디오 신호는, MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함할 수 있다.The input audio signal of the core band of the M channels may be processed in the MPS 2-1-2 mode and include an input audio signal of the core band of the M channels divided into elements corresponding to channel pair elements.
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The generating of the N-channel output audio signal may generate a different reverberation signal for each element based on filter coefficients differently determined for a plurality of elements for dividing the input audio signal of the core band of M channels. .
상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고, 상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가질 수 있다.The element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients, and the filter coefficients may have different values for each element and for each grouped subband.
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, 상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The generating of the N audio channels may include sequentially selecting a filter coefficient set according to an element corresponding to the input audio channel, and performing an all pass filter according to the selected filter coefficient set. Thus, different reverberation signals can be generated for each element.
상기 코어 대역은, 인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응할 수 있다.The core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.
상기 입력 오디오 신호를 디코딩하는 단계는, 상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩할 수 있다.The decoding of the input audio signal may decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
상기 N개 채널의 출력 오디오 신호를 생성하는 단계는, MPS 2-1-2 모드에 따라 M개 채널의 코어 대역의 입력 오디오 신호를 업믹싱함으로써 N개 채널의 출력 오디오 신호를 생성할 수 있다.The generating of the N channel output audio signal may generate the N channel output audio signal by upmixing the M channel core audio signal according to the MPS 2-1-2 mode.
본 발명의 일실시예에 따른 디코더는 M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 코어 대역 디코딩부; 상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 주파수 대역 확장부; 및 상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 스테레오 업믹싱부를 포함할 수 있다.A decoder according to an embodiment of the present invention includes a core band decoding unit for decoding an input audio signal of a core band of M channels; A frequency band extension unit for extending a frequency band by using a core band of the decoded input audio signal; And a stereo upmixing unit configured to generate the N-channel output audio signal by upmixing the input audio signal based on the input audio signal having the extended frequency band and the reverberation signal different for each of the M channels.
상기 주파수 대역 확장부는, 상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다.The frequency band extension unit may expand the frequency band of the input audio signal by copying the core band to a high frequency band.
상기 잔향 신호는, 상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가질 수 있다.The reverberation signal may have uncorrelation as orthogonal to the input audio signal.
상기 M개 채널의 코어 대역의 입력 오디오 신호는, MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함할 수 있다.The input audio signal of the core band of the M channels may be processed in the MPS 2-1-2 mode and include an input audio signal of the core band of the M channels divided into elements corresponding to channel pair elements.
상기 스테레오 업믹싱부는, M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The stereo upmixing unit may generate different reverberation signals for each element based on filter coefficients that are differently determined for each of the plurality of elements for dividing the input audio signal of the core band of M channels.
상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고, 상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가질 수 있다.The element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients, and the filter coefficients may have different values for each element and for each grouped subband.
상기 스테레오 업믹싱부는, 상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성할 수 있다.The stereo upmixing unit sequentially selects filter coefficient sets according to elements corresponding to the input audio channel and performs an all pass filter according to the selected filter coefficient set to generate different reverberation signals for each element. Can be generated.
상기 코어 대역은, 인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응할 수 있다.The core band may correspond to a low frequency band in which the frequency band is not extended in the encoder.
상기 코어 대역 디코딩부는, 상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩할 수 있다.The core band decoding unit may decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
상기 스테레오 업믹싱부는, MPS 2-1-2 모드에 따라 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. The stereo upmixer may generate a stereo output audio signal by upmixing an input audio signal in a mono form according to the MPS 2-1-2 mode.
본 발명의 일실시예에 의하면, 다채널 오디오 신호를 복원할 때 채널마다 서로 다른 잔향 신호를 생성하여 적용함으로써 다채널 오디오 신호의 음장감을 유지할 수 있다.According to an embodiment of the present invention, when reconstructing a multichannel audio signal, a different reverberation signal is generated and applied to each channel to maintain a sound field of the multichannel audio signal.
도 1은 일실시예에 따라 1개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.
도 2는 일실시예에 따라 N개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.2 illustrates a detailed configuration of a decoder for decoding an input audio signal of N channels according to an embodiment.
도 3은 일실시예에 따라 1개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.3 is a diagram for describing an operation of a stereo upmixing unit for processing an input audio signal of one channel according to an exemplary embodiment.
도 4는 일실시예에 따라 N개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.FIG. 4 is a diagram for describing an operation of a stereo upmixing unit for processing input audio signals of N channels according to an embodiment.
도 5는 일실시예에 따라 엘리먼트 단위로 잔향 신호를 생성하는 과정을 도시한 도면이다.5 illustrates a process of generating a reverberation signal in element units according to an exemplary embodiment.
도 6은 일실시예에 따라 비트스트림을 처리하는 과정을 도시한 도면이다.6 illustrates a process of processing a bitstream according to an embodiment.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일실시예에 따라 1개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.1 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of one channel according to an embodiment.
도 1을 참고하면, 디코더(100)는 코어 대역 디코딩부(101), 주파수 대역 확장부(102) 및 스테레오 업믹싱부(103)를 포함할 수 있다. 일례로, 디코더(100)는 USAC(Unified Speech Audio Codec)에 기초한 디코더로서 8kbps ~ 192kbps 범위의 비트레이트를 가지는 오디오 신호를 처리할 수 있다. Referring to FIG. 1, the decoder 100 may include a core band decoding unit 101, a frequency band expansion unit 102, and a stereo upmixing unit 103. For example, the decoder 100 may process an audio signal having a bit rate in the range of 8 kbps to 192 kbps as a decoder based on a Unified Speech Audio Codec (USAC).
코어 대역 디코딩부(101)는 비트스트림에 포함된 입력 오디오 신호의 비트레이트에 대응하여 디코딩할 수 있다. 특히, 코어 대역 디코딩부(101)는 인코더에서 인코딩 대상이 되는 저주파수 대역에 해당하는 코어 대역의 입력 오디오 신호를 디코딩할 수 있다. 다시 말해서, 코어 대역은 입력 오디오 신호의 전체 주파수 대역에서 인코딩에 사용된 주파수 대역이며, 디코더에서 주파수 대역이 확장됨에 따라 생성되는 고주파수 대역을 제외한 나머지 저주파수 대역을 의미한다.The core band decoding unit 101 may decode the bit rate of the input audio signal included in the bitstream. In particular, the core band decoding unit 101 may decode the input audio signal of the core band corresponding to the low frequency band to be encoded in the encoder. In other words, the core band is a frequency band used for encoding in the entire frequency band of the input audio signal, and means a low frequency band other than the high frequency band generated as the frequency band is expanded in the decoder.
코어 대역 디코딩부(101)는 입력 오디오 신호의 프레임별로 오디오 특성을 가지는지 또는 음성 특성을 가지는 지 여부에 따라 서로 다른 디코딩 방식을 이용할 수 있다. 예를 들어, 입력 오디오 신호가 오디오 특성을 가지는 경우, 코어 대역 디코딩부(101)는 입력 오디오 신호의 코어 대역에 대해 MDCT(Modified Discrete Cosine Transform) 방식에 기초하여 디코딩할 수 있다. 그리고, 입력 오디오 신호가 음성 특성을 가지는 경우, 코어 대역 디코딩부(101)는 입력 오디오 신호의 코어 대역에 대해 ACELP(Algebraic code-excited linear prediction) 방식에 기초하여 디코딩할 수 있다. 이러한 디코딩 과정은 프레임 단위로 수행되기 때문에, 프레임 단위 간에 서로 다른 특성을 가지는 경우, 코어 대역 디코딩부(101)는 프레임 간에 디코딩 과정을 스위칭하여 처리할 수 있다.The core band decoding unit 101 may use different decoding schemes according to whether each frame of the input audio signal has an audio characteristic or a voice characteristic. For example, when the input audio signal has an audio characteristic, the core band decoding unit 101 may decode the core band of the input audio signal based on a Modified Discrete Cosine Transform (MDCT) scheme. When the input audio signal has a voice characteristic, the core band decoding unit 101 may decode a core band of the input audio signal based on an ACELP (Algebraic code-excited linear prediction) scheme. Since the decoding process is performed in units of frames, when the frame units have different characteristics, the core band decoding unit 101 may switch and process the decoding processes between frames.
주파수 대역 확장부(102)는 디코딩된 코어 대역의 입력 오디오 신호에 대해 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장할 수 있다. 즉, 주파수 대역 확장부(102)는 SBR(Spectral Band Replication)의 파라미터 정보를 이용하여 주파수 대역을 확장할 수 있다. 구체적으로, 코어 대역 디코딩부(101)의 출력 결과는 코어 대역인 저주파수 대역만 복원된 결과이므로, 입력 오디오 신호의 전체 주파수 대역을 복원하기 위해 코어 대역을 복사함으로써 고주파수 대역을 복원할 수 있다. 그러면, 입력 오디오 신호의 주파수 대역은 코어 대역에서 전체 주파수 대역으로 확장될 수 있다.The frequency band extension unit 102 may extend the frequency band of the input audio signal by copying the core band to the high frequency band with respect to the input audio signal of the decoded core band. That is, the frequency band extension unit 102 may expand the frequency band by using parameter information of SBR (Spectral Band Replication). Specifically, since the output result of the core band decoding unit 101 is a result of restoring only the low frequency band which is the core band, the high frequency band may be restored by copying the core band to restore the entire frequency band of the input audio signal. Then, the frequency band of the input audio signal can be extended from the core band to the entire frequency band.
스테레오 업믹싱부(103)는 주파수 대역이 확장된 입력 오디오 신호를 업믹싱하여 2개 채널에 대응하는 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 스테레오 업믹싱부(103)는 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 이 때, 스테레오 업믹싱부(103)는 QMF 도메인에서 동작할 수 있다. 여기서, 주파수 대역이 확장된 입력 오디오 신호는 다운믹스 신호로서 스테레오 업믹싱부(103)에 입력될 수 있다. 그러면, 도 1과 같이 L(left) 채널과 R(Right) 채널에 대응하는 출력 오디오 신호가 생성될 수 있다. The stereo upmixing unit 103 may upmix the input audio signal having the extended frequency band to generate a stereo audio output audio signal corresponding to two channels. The stereo upmixing unit 103 may generate a stereo output audio signal by upmixing an input audio signal in a mono form. In this case, the stereo upmixing unit 103 may operate in the QMF domain. Here, the input audio signal having the extended frequency band may be input to the stereo upmixing unit 103 as a downmix signal. Then, as illustrated in FIG. 1, an output audio signal corresponding to an L (left) channel and an R (right) channel may be generated.
스테레오 업믹싱부(103)의 동작은 MPS(MPEG Surround) 2-1-2 모드에 따라 수행될 수 있다. 여기서, MPS 2-1-2 모드는 인코더에서 스테레오 형태의 오디오 신호가 다운믹싱되어 모노 형태의 오디오 신호로 출력되고, 디코더에서 모노 형태의 오디오 신호가 업믹싱되어 스테레오 형태의 오디오 신호로 복원된다는 것을 의미한다. MPS 2-1-2 모드에 따라 동작하기 위해서, 업믹싱을 위한 MPS 정보가 필요할 수 있다.The operation of the stereo upmixing unit 103 may be performed according to the MPS (MPEG Surround) 2-1-2 mode. Here, in the MPS 2-1-2 mode, the stereo audio signal is downmixed by the encoder and output as a mono audio signal, and the mono audio signal is upmixed by the decoder and restored to the stereo audio signal. it means. In order to operate in the MPS 2-1-2 mode, MPS information for upmixing may be needed.
도 1은 본 발명의 다채널 오디오 신호를 처리하기 위한 디코더에 포함된 복수의 디코딩 단위 중 하나의 디코딩 단위를 설명한 것이다. 도 1에서 주파수 대역 확장부(102)와 스테레오 업믹싱부(103)의 위치는 서로 교체될 수 있다. 다시 말해서, 도 1과 같이 주파수 대역 확장부(102)의 출력 결과가 스테레오 업믹싱부(103)에 입력되거나 또는 도 1과 달리 스테레오 업믹싱부(103)의 출력 결과가 주파수 대역 확장부(102)에 입력될 수 있다.1 illustrates one decoding unit of a plurality of decoding units included in a decoder for processing a multichannel audio signal of the present invention. In FIG. 1, the positions of the frequency band extension unit 102 and the stereo upmixing unit 103 may be interchanged. In other words, as shown in FIG. 1, the output result of the frequency band extension unit 102 is input to the stereo upmixing unit 103, or unlike the output result of the stereo upmixing unit 103 as shown in FIG. 1, the frequency band extension unit 102 is output. ) Can be entered.
하나의 디코더 단위에 의해 2개 채널의 출력 오디오 신호가 생성될 수 있다. 도 2에서는 디코더에 포함된 전체 디코딩 단위들의 동작에 대해 구체적으로 설명하기로 한다. 만약, 최종적으로 복원되어야 할 다채널 오디오 신호의 채널 개수가 N개이면, 디코더의 개수는 총 N/2개가 필요하며, 이는 입력 오디오 채널의 채널 수인 M과 동일하다.The output audio signal of two channels may be generated by one decoder unit. In FIG. 2, an operation of all decoding units included in the decoder will be described in detail. If the number of channels of the multi-channel audio signal to be finally restored is N, the number of decoders needs to be N / 2 in total, which is equal to M, which is the number of channels of the input audio channel.
도 2는 일실시예에 따라 M개 채널의 입력 오디오 신호를 디코딩하는 디코더의 세부 구성을 도시한 도면이다.2 is a diagram illustrating a detailed configuration of a decoder for decoding an input audio signal of M channels according to an embodiment.
도 2를 참고하면, 디코더(200)는 M개 채널의 입력 오디오 신호를 처리하기 위해 M개의 코어 대역 디코딩부(201), 주파수 대역 확장부(202) 및 스테레오 업믹싱부(203)를 포함할 수 있다. 그리고, 앞서 설명하였듯이, 1개의 코어 대역 디코딩부(201), 주파수 대역 확장부(202) 및 스테레오 업믹싱부(203)가 하나의 디코딩 단위를 구성한다. 즉, 디코더(200)는 M개의 디코딩 단위로 구성되며, 이에 따라 N개(2M개)의 출력 오디오 신호가 생성될 수 있다.Referring to FIG. 2, the decoder 200 may include M core band decoding units 201, a frequency band extension unit 202, and a stereo upmixing unit 203 to process M channel input audio signals. Can be. As described above, one core band decoding unit 201, the frequency band extension unit 202, and the stereo upmixing unit 203 constitute one decoding unit. That is, the decoder 200 is composed of M decoding units, and thus N (2M) output audio signals may be generated.
각각의 디코딩 단위가 수행하는 디코딩 과정은 도 1에서 설명한 것과 동일하다. 도 2에서, M개의 주파수 대역 확장부(202)로부터 도출된 다운믹스 신호 DMX 신호는 d0(n)부터 dM-1(n)이 될 수 있다.The decoding process performed by each decoding unit is the same as that described with reference to FIG. 1. In FIG. 2, the downmix signal DMX signal derived from the M frequency band extension units 202 may be d 0 (n) to d M-1 (n).
도 2를 참고하면, 각각의 다운믹스 신호인 DMX 신호는 스테레오 업믹싱부(203)에 의해 스테레오 형태의 출력 오디오 신호로 업믹싱될 수 있다. 구체적으로, 다운믹스 신호 d0(n)는 스테레오 업믹싱부(203)에 의해 스테레오 형태의 출력 오디오 신호인 y0(n)과 y1(n)으로 업믹싱될 수 있다.Referring to FIG. 2, each downmix signal DMX signal may be upmixed by the stereo upmixing unit 203 into a stereo audio output audio signal. In detail, the downmix signal d 0 (n) may be upmixed by the stereo upmixing unit 203 into y 0 (n) and y 1 (n), which are stereo output audio signals.
도 3은 일실시예에 따라 1개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.3 is a diagram for describing an operation of a stereo upmixing unit for processing an input audio signal of one channel according to an exemplary embodiment.
도 3을 참고하면, 스테레오 업믹싱부(300)는 비상관부(301)와 업믹싱 수행부(302)를 포함할 수 있다.Referring to FIG. 3, the stereo upmixing unit 300 may include an uncorrelated unit 301 and an upmixing unit 302.
비상관부(301)는 주파수 대역이 확장된 다운믹스 신호(DMX)와 비상관성을 가지는 Wet 신호를 생성할 수 있다. 여기서, Wet 신호는 다운믹스 신호와 직교 관계에 있다. 업믹싱 수행부(302)는 다운믹스 신호와 Wet 신호를 이용하여 업믹싱함으로써 스테레오 형태의 출력 오디오 신호를 생성할 수 있다. 이 때, 다운믹스 신호와 wet 신호는 업믹싱 매트릭스에 적용될 수 있다. 출력 오디오 신호는 L채널 오디오 신호와 R채널 오디오 신호를 포함할 수 있다.The decorrelator 301 may generate a wet signal having uncorrelation with the downmix signal DMX having an extended frequency band. Here, the Wet signal is orthogonal to the downmix signal. The upmixing unit 302 may generate a stereo audio output audio signal by upmixing the downmix signal and the wet signal. In this case, the downmix signal and the wet signal may be applied to the upmixing matrix. The output audio signal may include an L channel audio signal and an R channel audio signal.
여기서, 다운믹스 신호는 입력 오디오 신호의 주요 특성(primary attribute)을 가지고, wet 신호는 입력 오디오 신호의 잔향 특성(reverberation attribute)을 가질 수 있다. 이하에서, wet 신호는 잔향 신호라고 정의한다.Here, the downmix signal may have a primary attribute of the input audio signal, and the wet signal may have a reverberation attribute of the input audio signal. Hereinafter, the wet signal is defined as a reverberation signal.
도 3에서 업믹싱 매트릭스를 구성하는 계수는 인코더에서 전송된 부가 정보에 의해 계산될 수 있다. 도 3의 경우, 스테레오 업믹싱부(300)는 MPS 2-1-2 모드에 따라 업믹싱을 수행할 수 있다. 일례로, 스테레오 업믹싱부(300)는 하기 수학식 1에 따라 업믹싱을 수행할 수 있다.In FIG. 3, coefficients constituting the upmixing matrix may be calculated by additional information transmitted from the encoder. In the case of FIG. 3, the stereo upmixing unit 300 may perform upmixing according to the MPS 2-1-2 mode. For example, the stereo upmixing unit 300 may perform upmixing according to Equation 1 below.
Figure PCTKR2014006705-appb-I000001
Figure PCTKR2014006705-appb-I000001
HLL과 HLR은 L채널의 출력 오디오 신호를 생성하기 위해 다운믹스 신호와 잔향 신호의 비율을 조정하는 계수를 의미한다. 그리고, HRL과 HRR은 R채널의 출력 오디오 신호를 생성하기 위해 다운믹스 신호와 잔향 신호의 비율을 조정하는 계수를 의미한다.H LL and H LR are coefficients for adjusting the ratio of the downmix signal and the reverberation signal to generate the output audio signal of the L channel. And, H H RL and RR refers to the down-mix signal and the coefficient for adjusting the ratio of the reverberation signal to produce an output audio signal of the R channel.
도 4는 일실시예에 따라 N개 채널의 입력 오디오 신호를 처리하는 스테레오 업믹싱부의 동작을 설명하기 위한 도면이다.FIG. 4 is a diagram for describing an operation of a stereo upmixing unit for processing input audio signals of N channels according to an embodiment.
본 발명의 일실시예에 의하면, 도 2와 같은 USAC 방식으로 구현되는 디코더를 이용하여 다채널 오디오 신호를 디코딩할 수 있다. 특히, 다채널 오디오 신호가 낮은 비트레이트를 가지는 경우에 보다 효과적으로 디코딩할 수 있다.According to an embodiment of the present invention, a multi-channel audio signal may be decoded using a decoder implemented in the USAC method as shown in FIG. 2. In particular, the multi-channel audio signal can be decoded more effectively when it has a low bit rate.
USAC 방식으로 구현되는 디코더는 모노 형태의 입력 오디오 신호나 스테레오 형태의 입력 오디오 신호를 처리할 수 있다. 그래서, 복수의 채널로 구성되는 다채널 오디오 신호는 모노 또는 스테레오에 대응하는 엘리먼트로 나누어 디코딩될 필요가 있다.The decoder implemented in the USAC method can process a mono input audio signal or a stereo input audio signal. Thus, a multichannel audio signal composed of a plurality of channels needs to be decoded by dividing into elements corresponding to mono or stereo.
예를 들어, 5.1 채널의 입력 오디오 신호를 처리하기 위해서는 다음과 같은 엘리먼트가 포함된 비트스트림이 필요하다.For example, in order to process an input audio signal of 5.1 channels, a bitstream including the following elements is required.
UsacSingleChannelElement( ) : mono channel codingUsacSingleChannelElement (): mono channel coding
UsacChannelPairElement( ) : stereo channel codingUsacChannelPairElement (): stereo channel coding
UsacChannelPairElement( ) : stereo channel codingUsacChannelPairElement (): stereo channel coding
UsacLfeElement( ) : Lfe(Low Frequency Effect) channel codingUsacLfeElement (): Lfe (Low Frequency Effect) channel coding
즉, 5.1 채널의 입력 오디오 신호를 복수의 엘리먼트로 구분하여 본 발명에서 설명되는 디코더가 입력 오디오 신호를 디코딩할 수 있다. 여기서, UsacChannelPairElement( )와 같은 엘리먼트에 대응하는 입력 오디오 신호는 스테레오 형태의 코딩 방식에 따라 처리될 수 있으므로, 도 1 내지 도 3에서 설명하는 스테레오 업믹싱부에 의해 처리될 수 있다. That is, the decoder described in the present invention can decode the input audio signal by dividing the 5.1-channel input audio signal into a plurality of elements. Here, the input audio signal corresponding to an element such as UsacChannelPairElement () may be processed according to a stereo coding scheme, and thus may be processed by the stereo upmixing unit described with reference to FIGS. 1 to 3.
만약, 10개의 다채널 오디오 신호를 UsacChannelPairElement()로 구분하여 낮은 비트율로 디코딩하는 경우, 다채널 오디오 신호는 다음과 같은 엘리먼트로 구분될 수 있다. UsacChannelPairElement( )는 2개 채널의 출력 오디오 신호를 생성하기 위해 1개 채널의 입력 오디오 신호를 스테레오 형태로 업믹싱한다는 것을 의미한다.If 10 multichannel audio signals are divided into UsacChannelPairElement () and decoded at a low bit rate, the multichannel audio signals may be divided into the following elements. UsacChannelPairElement () means to upmix the input audio signal of one channel in stereo form to produce the output audio signal of two channels.
UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode
UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode
UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode
UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode
UsacChannelPairElement( ) : stereo channel coding by MPS 2-1-2 modeUsacChannelPairElement (): stereo channel coding by MPS 2-1-2 mode
이 경우, 각 엘리먼트에 대응하는 입력 오디오 신호를 업믹싱하는 경우, 도 4와 같이 엘리먼트에 따라 구분되는 스테레오 업믹싱부(400)를 이용할 수 있다. 그리고, 엘리먼트마다 동일한 업믹싱 수행부(402)가 적용될 수 있다. 하지만, 엘리먼트마다 서로 다른 비상관부(401)가 적용될 수 있다. 즉, 스테레오 업믹싱부(400)는 엘리먼트마다 서로 다른 잔향 신호를 이용하여 업믹싱함으로써 다채널 오디오 신호를 구성하는 채널 간의 차이를 유지하여 다채널 오디오 신호의 음질을 유지할 수 있다.In this case, when upmixing an input audio signal corresponding to each element, a stereo upmixing unit 400 classified according to an element may be used as shown in FIG. 4. In addition, the same upmixing unit 402 may be applied to each element. However, different decorating units 401 may be applied to each element. That is, the stereo upmixing unit 400 may maintain the sound quality of the multichannel audio signal by maintaining the difference between the channels constituting the multichannel audio signal by upmixing using different reverberation signals for each element.
도 4를 참고하면, 주파수 대역이 확장된 다운믹스 신호는 각각 d0(n)에서 dM-1(n)를 포함할 수 있다. 그러면, 복수의 엘리먼트들 마다 할당된 서로 다른 비상관부(401)에 의해 M개의 잔향 신호가 생성될 수 있다. 여기서, 엘리먼트는 K로 구분될 수 있다. 도 4의 경우, K=0에서 K=M-1까지의 엘리먼트로 구분되는 입력 오디오 신호를 업믹싱하여 처리할 수 있다.Referring to FIG. 4, the downmix signal having the extended frequency band may include d M-1 (n) to d 0 (n), respectively. Then, M reverberation signals may be generated by different uncorrelated units 401 allocated to the plurality of elements. Here, the element may be classified as K. In the case of FIG. 4, an input audio signal divided into elements from K = 0 to K = M-1 may be upmixed and processed.
예를 들어, 비상관부(401) D0는 다운믹스 신호 d0(n)를 이용하여 잔향 신호인 wet0(n)를 생성할 수 있다. 마찬가지로 비상관부(401) D1은 다운믹스 신호 d1(n)을 이용하여 잔향 신호인 wet1(n)을 생성할 수 있다. 비상관부(401)인 D0 내지 DM-1은 잔향 신호를 생성하는 필터 특성이 서로 다를 수 있다. 그렇기 때문에, 다운믹스 신호 d0(n)부터 dM-1(n)로부터 M개의 잔향 신호 wet0(n)에서 wetM-1(n)이 생성될 수 있다. 이와 같이, 엘리먼트마다 서로 다른 잔향 신호가 생성되므로, 입력 오디오 신호로부터 업믹싱에 의해 생성되는 출력 오디오 신호도 서로 다른 잔향 효과를 가지며, 이에 따라 채널간 음향 특성을 효과적으로 반영한 출력 오디오 신호가 생성될 수 있다.For example, the uncorrelated unit 401 D 0 may generate wet 0 (n) that is a reverberation signal using the downmix signal d 0 (n). Similarly, the uncorrelated unit 401 D 1 may generate wet 1 (n), which is a reverberation signal, using the downmix signal d 1 (n). The non-correlated units 401 to D 0 to D M-1 may have different filter characteristics for generating a reverberation signal. As such, wet M-1 (n) may be generated in the M reverberation signals wet 0 (n) from the downmix signals d 0 (n) to d M-1 (n). As such, since different reverberation signals are generated for each element, the output audio signal generated by upmixing from the input audio signal also has different reverberation effects, and thus an output audio signal effectively reflecting the acoustic characteristics between channels can be generated. have.
앞서 설명하였듯이, 입력 오디오 신호에 할당되는 엘리먼트는 인덱스 k가 할당될 수 있다. 각각의 비상관부(401)에 의해 잔향 신호가 생성되는 과정은 수학식 2에 의해 수행될 수 있다.As described above, the element allocated to the input audio signal may be assigned an index k. The process of generating the reverberation signal by each uncorrelated unit 401 may be performed by Equation 2.
Figure PCTKR2014006705-appb-I000002
Figure PCTKR2014006705-appb-I000002
수학식 2는 All-Pass Filter를 적용하는 기본적인 수식을 의미한다. 여기서, 필터 계수는 Equation 2 refers to a basic formula to apply the All-Pass Filter. Where the filter coefficient is
Figure PCTKR2014006705-appb-I000003
Figure PCTKR2014006705-appb-I000004
이다. 인덱스 k는 QMF(Quadrature Mirror Filter) 밴드에 대한 그룹핑 인덱스를 의미한다. 서브밴드는 0≤Subband≤70 범위에서 정의될 수 있다. 그리고, 인덱스 k에 의해 그룹핑된 서브밴드별로 필터 계수가 할당될 수 있다. 서브밴드의 수는 Hybrid QMF 밴드를 포함하여 총 71개가 될 수 있다. 보통 4개의 그룹으로 필터계수가 정의되므로, 인덱스 k는 0≤k≤3의 값을 가질 수 있다. 예를 들어, 인덱스 k=0이면, 0~7의 서브밴드, 인덱스 k=1이면 8~20의 서브밴드, 인덱스 k=2이면, 21~29의 서브밴드, 인덱스 k=3이면, 30~70의 서브밴드가 대응될 수 있다.
Figure PCTKR2014006705-appb-I000003
Wow
Figure PCTKR2014006705-appb-I000004
to be. Index k means the grouping index for the Quadrature Mirror Filter (QMF) band. Subbands may be defined in the range of 0≤Subband≤70. Filter coefficients may be allocated to each subband grouped by index k. The number of subbands can be a total of 71 including the Hybrid QMF band. Since the filter coefficients are usually defined in four groups, the index k may have a value of 0 ≦ k ≦ 3. For example, if index k = 0, subbands 0-7, index k = 1 subbands 8-20, index k = 2, 21-29 subbands, and index k = 3, 30- 70 subbands may correspond.
즉,
Figure PCTKR2014006705-appb-I000005
Figure PCTKR2014006705-appb-I000006
는 그룹핑된 서브 밴드별로, 및 엘리먼트별로 다르게 결정될 수 있다. 도 4와 같이, 복수의 스테레오 업믹싱부(400)가 M개 채널의 입력 오디오 신호를 업믹싱하는 경우,
Figure PCTKR2014006705-appb-I000007
Figure PCTKR2014006705-appb-I000008
는 그룹핑된 서브 밴드별로, 및 엘리먼트별로 다르게 결정될 수 있다. 수학식 2에서 DelayK는 각 서브밴드 그룹별로 적용되는 서로 다른 지연시간으로, 각 서브밴드별로 일정한 지연시간이 적용된 이후에 필터링이 수행될 수 있다.
In other words,
Figure PCTKR2014006705-appb-I000005
Wow
Figure PCTKR2014006705-appb-I000006
May be determined for each grouped subband and for each element. As shown in FIG. 4, when the plurality of stereo upmixing units 400 upmixes the input audio signals of M channels,
Figure PCTKR2014006705-appb-I000007
Wow
Figure PCTKR2014006705-appb-I000008
May be determined for each grouped subband and for each element. In Equation 2, Delay K is a different delay time applied to each subband group, and filtering may be performed after a predetermined delay time is applied to each subband.
Figure PCTKR2014006705-appb-I000009
Figure PCTKR2014006705-appb-I000010
는 All-Pass Filter의 계수이나 이를 하나의 반사 계수(reflection coefficient)로 표현될 수 있다. 구체적으로,
Figure PCTKR2014006705-appb-I000011
Figure PCTKR2014006705-appb-I000012
는 하나의
Figure PCTKR2014006705-appb-I000013
로 표현될 수 있다.
Figure PCTKR2014006705-appb-I000009
Wow
Figure PCTKR2014006705-appb-I000010
May be expressed as the coefficient of the All-Pass Filter or as one reflection coefficient. Specifically,
Figure PCTKR2014006705-appb-I000011
Wow
Figure PCTKR2014006705-appb-I000012
Is one
Figure PCTKR2014006705-appb-I000013
It can be expressed as.
하나의 엘리먼트에 대해 스테레오 업믹싱을 수행하는 경우,
Figure PCTKR2014006705-appb-I000014
는 수학식 3과 같다.
If you are doing stereo upmixing on one element,
Figure PCTKR2014006705-appb-I000014
Is the same as Equation 3.
Figure PCTKR2014006705-appb-I000015
Figure PCTKR2014006705-appb-I000015
수학식 3에서 설명되는
Figure PCTKR2014006705-appb-I000016
로부터
Figure PCTKR2014006705-appb-I000017
Figure PCTKR2014006705-appb-I000018
가 추출될 수 있다.
Explained in Equation 3
Figure PCTKR2014006705-appb-I000016
from
Figure PCTKR2014006705-appb-I000017
Wow
Figure PCTKR2014006705-appb-I000018
Can be extracted.
도 5는 일실시예에 따라 엘리먼트 단위로 잔향 신호를 생성하는 과정을 도시한 도면이다.5 illustrates a process of generating a reverberation signal in element units according to an exemplary embodiment.
도 4에서 도시된 바와 같이, 입력 오디오 신호가 M개 채널에 대응하여 엘리먼트가 M개인 경우 도 5와 같이 엘리먼트 단위로 잔향 신호가 생성될 수 있다.As shown in FIG. 4, when the input audio signal corresponds to M channels and there are M elements, a reverberation signal may be generated in element units as shown in FIG. 5.
도 5에서 스위칭되기 전에 표시된 element는 스테레오 업믹싱부에 입력되는 다운믹스 신호가 몇번째 엘리먼트를 나타내는지를 의미하는 인덱스이다. 그러면, 다운믹스 신호에 할당된 인덱스 element에 따라 스위칭되어, 필터 계수 선택부(501)에서 필터 계수의 셋트가 선택될 수 있다. 필터링부(502)는 선택된 필터 계수의 셋트로부터 변환된
Figure PCTKR2014006705-appb-I000019
Figure PCTKR2014006705-appb-I000020
을 이용하여 All Pass Filtering을 수행할 수 있다. 여기서, All Pass Filtering은 앞서 설명한 수학식 2를 수행하는 것을 의미한다.
The element displayed before switching in FIG. 5 is an index indicating the number of elements of the downmix signal input to the stereo upmixing unit. Then, the filter coefficient selector 501 may select a set of filter coefficients by switching according to the index element assigned to the downmix signal. The filtering unit 502 is converted from the set of the selected filter coefficients
Figure PCTKR2014006705-appb-I000019
Wow
Figure PCTKR2014006705-appb-I000020
All pass filtering can be performed using. Here, All Pass Filtering means to perform Equation 2 described above.
도 6은 일실시예에 따라 비트스트림을 처리하는 과정을 도시한 도면이다.6 illustrates a process of processing a bitstream according to an embodiment.
디코더는 비트스트림으로부터 처리하고자 하는 엘리먼트의 개수를 판단할 수 있다. 엘리먼트는 입력 오디오 신호를 구분하는 단위를 의미한다. 이 때, 단계(601)에서, 디코더는 엘리먼트가 1개인지 또는 복수인지 여부를 판단할 수 있다. 만약, 엘리먼트가 1개인 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다.The decoder may determine the number of elements to be processed from the bitstream. The element refers to a unit for distinguishing an input audio signal. At this time, in step 601, the decoder may determine whether there is one element or a plurality of elements. If there is only one element, the decoder may process the input audio signal according to the method 2.
반대로, 엘리먼트가 복수인 경우, 단계(602)에서, 디코더는 복수의 엘리먼트 중에 channel pair element가 복수인지 여부를 판단할 수 있다. channel pair element가 복수가 아닌 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다.Conversely, if there are a plurality of elements, in step 602, the decoder may determine whether there are a plurality of channel pair elements among the plurality of elements. If the channel pair elements are not plural, the decoder may process the input audio signal according to the method 2.
한편, channel pair element가 복수인 경우, 단계(603)에서, 디코더는 MPS 2-1-2 모드로 처리되는 channel pair element가 복수인지 여부를 판단할 수 있다. 여기서, MPS 2-1-2 모드인지 여부를 판단하는 과정은 비트스트림에 포함된 신택스(syntax)에 기초할 수 있다. 일례로, 신택스에서 stereoConfigIndex==1인 경우 디코더는 MPS 2-1-2 모드에 따라 동작하는 스테레오 업믹싱부를 통해 입력 오디오 신호를 업믹싱할 수 있다. On the other hand, if there are a plurality of channel pair elements, in step 603, the decoder may determine whether there are a plurality of channel pair elements processed in the MPS 2-1-2 mode. Here, the process of determining whether it is in the MPS 2-1-2 mode may be based on syntax included in the bitstream. For example, when stereoConfigIndex == 1 in the syntax, the decoder may upmix the input audio signal through the stereo upmixer operating according to the MPS 2-1-2 mode.
만약, MPS 2-1-2 모드로 처리되는 channel pair element가 복수가 아닌 경우, 디코더는 방법 2에 따라 입력 오디오 신호를 처리할 수 있다. 그리고, MPS 2-1-2 모드로 처리되는 channel pair element가 복수인 경우, 디코더는 방법 1에 따라 입력 오디오 신호를 처리할 수 있다.If there are not a plurality of channel pair elements processed in the MPS 2-1-2 mode, the decoder may process the input audio signal according to the method 2. If there are a plurality of channel pair elements processed in the MPS 2-1-2 mode, the decoder may process the input audio signal according to the first method.
여기서, 방법 1은 도 5에 설명되는 과정에 따라 필터 계수를 추출하는 과정을 의미한다. 이 때, 도 5에서 엘리먼트가 M개라는 것을 가정한다. 이것은 비트스트림에 포함된 전체 입력 오디오 신호에서 MPS 2-1-2 모드로 처리되는 channel pair element에 대응하는 입력 오디오 신호가 M개라는 것을 의미한다.Here, method 1 means a process of extracting filter coefficients according to the process described with reference to FIG. 5. In this case, it is assumed that there are M elements in FIG. 5. This means that there are M input audio signals corresponding to the channel pair elements processed in the MPS 2-1-2 mode in all the input audio signals included in the bitstream.
그리고, 도 6에서 방법 2는 본 발명에서 설명하는 디코딩 방식이 아닌 다른 방식으로 입력 오디오 신호를 처리한다는 것을 의미한다.In addition, in FIG. 6, method 2 means that the input audio signal is processed in a manner other than the decoding method described in the present invention.
도 6은 이하의 신택스에 의해 구현될 수 있다. 여기서, numElements는 엘리먼트의 개수를 의미하고, elementLength는 수학식 3의 LEN에 대응한다. 그리고, USAC CPE는 도 6의 Channel Pair Element에 대응한다.6 may be implemented by the following syntax. Here, numElements means the number of elements, and elementLength corresponds to LEN of Equation 3. The USAC CPE corresponds to the channel pair element of FIG. 6.
Figure PCTKR2014006705-appb-I000021
Figure PCTKR2014006705-appb-I000021
한편, 엘리먼트가 USAC CPE인 경우, 디코더는 이하의 신택스에 의해 구체적으로 동작할 수 있다.On the other hand, if the element is a USAC CPE, the decoder can operate specifically by the following syntax.
Figure PCTKR2014006705-appb-I000022
Figure PCTKR2014006705-appb-I000022
여기서, stereoConfigIndex는 MPS 2-1-2 모드로 동작할 지 여부를 나타낸다. 만약, stereoConfigIndex==1이면, 디코더에 포함된 스테레오 업믹싱부는 MPS 2-1-2 모드에 따라 입력 오디오 신호를 업믹싱할 수 있다.Here, stereoConfigIndex indicates whether to operate in the MPS 2-1-2 mode. If stereoConfigIndex == 1, the stereo upmixing unit included in the decoder may upmix the input audio signal according to the MPS 2-1-2 mode.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments may be, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved. Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (20)

  1. 디코더가 수행하는 디코딩 방법에 있어서,In the decoding method performed by the decoder,
    M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 단계;Decoding an input audio signal of a core band of M channels;
    상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계;Extending a frequency band using a core band of the decoded input audio signal;
    상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 단계Generating N output audio signals by upmixing the input audio signal based on the input audio signal having the extended frequency band and the reverberation signal different for each M channel.
    를 포함하는 디코딩 방법.Decoding method comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 단계는,Extending a frequency band by using a core band of the decoded input audio signal,
    상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장하는 디코딩 방법.And decoding a frequency band of an input audio signal by copying the core band to a high frequency band.
  3. 제1항에 있어서,The method of claim 1,
    상기 잔향 신호는,The reverberation signal is,
    상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가지는 디코딩 방법.And a decoupling as orthogonal to each other with the input audio signal.
  4. 제1항에 있어서,The method of claim 1,
    상기 M개 채널의 코어 대역의 입력 오디오 신호는,The input audio signal of the core band of the M channels,
    MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함하는 디코딩 방법.A decoding method comprising an input audio signal of a core band of M channels processed in MPS 2-1-2 mode and divided into elements corresponding to channel pair elements.
  5. 제1항에 있어서,The method of claim 1,
    상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,Generating the output audio signal of the N channels,
    M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코딩 방법.A decoding method of generating different reverberation signals for each element based on filter coefficients that are differently determined for a plurality of elements for dividing the input audio signal of the core band of M channels.
  6. 제5항에 있어서,The method of claim 5,
    상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고,The element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients.
    상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가지는 디코딩 방법.And the filter coefficients have different values for each element and for each grouped subband.
  7. 제1항에 있어서,The method of claim 1,
    상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,Generating the output audio signal of the N channels,
    상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코딩 방법.And a filter coefficient set is sequentially selected according to an element corresponding to the input audio channel, and a different reverberation signal is generated for each element by performing an all pass filter according to the selected filter coefficient set.
  8. 제1항에 있어서,The method of claim 1,
    상기 코어 대역은,The core band,
    인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응하는 디코딩 방법.A decoding method corresponding to a low frequency band in which the frequency band is not extended in the encoder.
  9. 제1항에 있어서,The method of claim 1,
    상기 입력 오디오 신호를 디코딩하는 단계는,Decoding the input audio signal,
    상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩하는 디코딩 방법.And decoding the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
  10. 제1항에 있어서,The method of claim 1,
    상기 N개 채널의 출력 오디오 신호를 생성하는 단계는,Generating the output audio signal of the N channels,
    MPS 2-1-2 모드에 따라 M개 채널의 코어 대역의 입력 오디오 신호를 업믹싱함으로써 N개 채널의 출력 오디오 신호를 생성하는 디코딩 방법.A decoding method of generating an output audio signal of N channels by upmixing an input audio signal of M channel core bands according to the MPS 2-1-2 mode.
  11. M개 채널의 코어 대역의 입력 오디오 신호를 디코딩하는 코어 대역 디코딩부;A core band decoding unit for decoding an input audio signal of a core band of M channels;
    상기 디코딩된 입력 오디오 신호의 코어 대역을 이용하여 주파수 대역을 확장하는 주파수 대역 확장부; 및A frequency band extension unit for extending a frequency band by using a core band of the decoded input audio signal; And
    상기 주파수 대역이 확장된 입력 오디오 신호 및 M개 채널마다 서로 다른 잔향 신호에 기초하여 상기 입력 오디오 신호를 업믹싱함으로써, N개 채널의 출력 오디오 신호를 생성하는 스테레오 업믹싱부Stereo upmixing unit for generating an output audio signal of N channels by upmixing the input audio signal based on the input audio signal having the extended frequency band and different reverberation signals for every M channels.
    를 포함하는 디코더.Decoder comprising a.
  12. 제11항에 있어서,The method of claim 11,
    상기 주파수 대역 확장부는,The frequency band extension unit,
    상기 코어 대역을 고주파수 대역으로 복사함으로써 입력 오디오 신호의 주파수 대역을 확장하는 디코더.A decoder that extends the frequency band of the input audio signal by copying the core band into a high frequency band.
  13. 제11항에 있어서,The method of claim 11,
    상기 잔향 신호는,The reverberation signal is,
    상기 입력 오디오 신호와 서로 직교 관계로서 비상관성을 가지는 디코더.And a decoder having uncorrelation as orthogonal to the input audio signal.
  14. 제11항에 있어서,The method of claim 11,
    상기 M개 채널의 코어 대역의 입력 오디오 신호는,The input audio signal of the core band of the M channels,
    MPS 2-1-2 모드로 처리되고, channel pair element에 대응하는 엘리먼트로 구분되는 M개 채널의 코어 대역의 입력 오디오 신호를 포함하는 디코더.A decoder comprising an input audio signal of a core band of M channels processed in MPS 2-1-2 mode and divided into elements corresponding to channel pair elements.
  15. 제11항에 있어서,The method of claim 11,
    상기 스테레오 업믹싱부는,The stereo upmixing unit,
    M개 채널의 코어 대역의 입력 오디오 신호를 구분하는 복수의 엘리먼트별로 다르게 결정되는 필터 계수에 기초하여 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코더.A decoder for generating different reverberation signals for each element based on filter coefficients differently determined for a plurality of elements for dividing the input audio signal of the core band of M channels.
  16. 제15항에 있어서,The method of claim 15,
    상기 엘리먼트는, 상기 M개의 채널마다 구분되며, 필터 계수를 할당하기 위한 서브밴드를 그룹핑하는 기준이 되고,The element is divided for each of the M channels and serves as a criterion for grouping subbands for allocating filter coefficients.
    상기 필터 계수는, 엘리먼트별로, 그룹핑된 서브밴드별로 서로 다른 값을 가지는 디코더.The filter coefficients have a different value for each subband grouped for each element.
  17. 제11항에 있어서,The method of claim 11,
    상기 스테레오 업믹싱부는,The stereo upmixing unit,
    상기 입력 오디오 채널에 대응하는 엘리먼트에 따라 순차적으로 필터 계수 셋트를 선택하고, 상기 선택한 필터 계수 셋트에 따라 전역 통과 필터(All Pass Filter)를 수행함으로써 엘리먼트별로 서로 다른 잔향 신호를 생성하는 디코더.And a filter coefficient set is sequentially selected according to an element corresponding to the input audio channel, and a different reverberation signal is generated for each element by performing an all pass filter according to the selected filter coefficient set.
  18. 제11항에 있어서,The method of claim 11,
    상기 코어 대역은,The core band,
    인코더에서 주파수 대역이 확장되지 않은 저주파수 대역에 대응하는 디코더.A decoder corresponding to a low frequency band in which the frequency band is not extended in the encoder.
  19. 제11항에 있어서,The method of claim 11,
    상기 코어 대역 디코딩부는,The core band decoding unit,
    상기 코어 대역의 입력 오디오 신호를 프레임마다 오디오 특성 또는 음성 특성인지를 판단함으로써 입력 오디오 신호를 디코딩하는 디코더.And a decoder to decode the input audio signal by determining whether the input audio signal of the core band is an audio characteristic or a voice characteristic for each frame.
  20. 제11항에 있어서,The method of claim 11,
    상기 스테레오 업믹싱부는,The stereo upmixing unit,
    MPS 2-1-2 모드에 따라 모노 형태의 입력 오디오 신호를 업믹싱하여 스테레오 형태의 출력 오디오 신호를 생성하는 디코더.A decoder for upmixing an input audio signal in mono form according to MPS 2-1-2 mode to produce a stereo output audio signal.
PCT/KR2014/006705 2013-07-23 2014-07-23 Method and decoder for decoding multi-channel audio signal by using reverberation signal WO2015012594A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2013-0086674 2013-07-23
KR20130086674 2013-07-23
KR1020140093288A KR20150011783A (en) 2013-07-23 2014-07-23 Decoding method for multi-channel audio signal using reverberation signal and decoder
KR10-2014-0093288 2014-07-23

Publications (1)

Publication Number Publication Date
WO2015012594A1 true WO2015012594A1 (en) 2015-01-29

Family

ID=52393548

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/006705 WO2015012594A1 (en) 2013-07-23 2014-07-23 Method and decoder for decoding multi-channel audio signal by using reverberation signal

Country Status (1)

Country Link
WO (1) WO2015012594A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043800A (en) * 2002-06-05 2005-05-11 소닉 포커스, 인크. Acoustical virtual reality engine and advanced techniques for enhancing delivered sound
KR20070030796A (en) * 2004-07-02 2007-03-16 마쯔시다덴기산교 가부시키가이샤 Audio signal decoding device and audio signal encoding device
KR20090009842A (en) * 2006-09-29 2009-01-23 엘지전자 주식회사 Methods and apparatuses for encoding and decoding object-based audio signals
KR20110103094A (en) * 2010-03-12 2011-09-20 한국전자통신연구원 Method for decoding multi-channel audio signals and multi-channel audio codec
WO2012033950A1 (en) * 2010-09-08 2012-03-15 Dts, Inc. Spatial audio encoding and reproduction of diffuse sound

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043800A (en) * 2002-06-05 2005-05-11 소닉 포커스, 인크. Acoustical virtual reality engine and advanced techniques for enhancing delivered sound
KR20070030796A (en) * 2004-07-02 2007-03-16 마쯔시다덴기산교 가부시키가이샤 Audio signal decoding device and audio signal encoding device
KR20090009842A (en) * 2006-09-29 2009-01-23 엘지전자 주식회사 Methods and apparatuses for encoding and decoding object-based audio signals
KR20110103094A (en) * 2010-03-12 2011-09-20 한국전자통신연구원 Method for decoding multi-channel audio signals and multi-channel audio codec
WO2012033950A1 (en) * 2010-09-08 2012-03-15 Dts, Inc. Spatial audio encoding and reproduction of diffuse sound

Similar Documents

Publication Publication Date Title
JP5081838B2 (en) Audio encoding and decoding
RU2643644C2 (en) Coding and decoding of audio signals
AU2010303039B2 (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
CA2636494C (en) Method and apparatus for processing a media signal
WO2011049416A2 (en) Apparatus and method encoding/decoding with phase information and residual information
TWI406267B (en) An audio decoder, method for decoding a multi-audio-object signal, and program with a program code for executing method thereof.
TWI483244B (en) Apparatus and method for encoding/decoding signal
WO2011021845A2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
US11056122B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
BRPI0923174B1 (en) METHOD AND REVERBERATOR TO APPLY REVERBERATION TO AN AUDIO INPUT SIGNAL WITH DOWNMIXING OF CHANNELS
TW201316327A (en) Method for reshaping the temporal envelope of synthesized output audio signal to approximate more closely the temporal envelope of input audio signal
BR112020017338A2 (en) methods and devices for encoding and / or decoding immersive audio signals
BR112016001246B1 (en) RENDER-CONTROLLED SPACE UPMIX
WO2012050382A2 (en) Method and apparatus for downmixing multi-channel audio signals
KR20080086552A (en) Method and apparatus for decoding an audio signal
KR102144332B1 (en) Method and apparatus for processing multi-channel audio signal
WO2014021586A1 (en) Method and device for processing audio signal
EP3023984A1 (en) Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal
WO2015012594A1 (en) Method and decoder for decoding multi-channel audio signal by using reverberation signal
CN108028988B (en) Apparatus and method for processing internal channel of low complexity format conversion
WO2011122731A1 (en) Method and apparatus for down-mixing multi-channel audio
US11328734B2 (en) Encoding method and encoder for multi-channel audio signal, and decoding method and decoder for multi-channel audio signal
KR20150011783A (en) Decoding method for multi-channel audio signal using reverberation signal and decoder
US20230335142A1 (en) Processing parametrically coded audio
WO2012177067A2 (en) Method and apparatus for processing an audio signal, and terminal employing the apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14828845

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14828845

Country of ref document: EP

Kind code of ref document: A1