WO2014168439A1 - 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법 - Google Patents

다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법 Download PDF

Info

Publication number
WO2014168439A1
WO2014168439A1 PCT/KR2014/003126 KR2014003126W WO2014168439A1 WO 2014168439 A1 WO2014168439 A1 WO 2014168439A1 KR 2014003126 W KR2014003126 W KR 2014003126W WO 2014168439 A1 WO2014168439 A1 WO 2014168439A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
unit
upmixing
channel signal
Prior art date
Application number
PCT/KR2014/003126
Other languages
English (en)
French (fr)
Inventor
백승권
이태진
성종모
서정일
강경옥
장대영
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR20130105727A external-priority patent/KR20140122990A/ko
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/783,767 priority Critical patent/US9679571B2/en
Priority claimed from KR20140042972A external-priority patent/KR20140123015A/ko
Publication of WO2014168439A1 publication Critical patent/WO2014168439A1/ko
Priority to US15/620,119 priority patent/US10102863B2/en
Priority to US16/126,964 priority patent/US11037578B2/en
Priority to US16/786,817 priority patent/US11056122B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the following embodiments relate to an encoder and an encoding method for a multichannel signal, a decoder and a decoding method for a multichannel signal, and more particularly, to a codec for efficiently processing a multichannel signal composed of a plurality of channel signals. .
  • MPEG Surround is an audio codec for coding multi-channel signals such as 5.1 channel and 7.1 channel. It refers to an encoding and decoding technology capable of compressing and transmitting a multi-channel signal with a high compression rate. MPS has the limitation of backward compatibility in encoding and decoding process. Therefore, the bitstream compressed through the MPS and then transmitted to the decoder must satisfy the constraint that the audio stream can be reproduced in a mono or stereo manner even if the previous audio codec is used.
  • the bitstream transmitted to the decoder must include an encoded mono signal or a stereo signal.
  • the decoder may further receive additional information such that a mono signal or a stereo signal transmitted through the bitstream may be upmixed.
  • the decoder may recover the multichannel signal from the mono signal or the stereo signal using the additional information.
  • the audio compressed by the MPS type represents a mono or stereo type, and according to backward compatibility, the audio can be played by a general audio codec instead of the MPS decoder.
  • ultra-high quality audio it is more important to faithfully express the sound quality and sound field of the original audio than backward compatibility.
  • 22.2 channels of audio are intended for ultra-high quality audio sound field reproduction.
  • the decoder can express the sound quality and sound field effects of the original audio in the decoder.
  • a coding technique for multichannel signals is required.
  • MPS is basically an audio coding technology that handles 5.1 channels of audio while providing backwards compatibility. Therefore, MPS should be expressed as a mono signal or a stereo signal after downmixing a multichannel signal.
  • the additional information obtained in the analysis process is a spatial cue, and the decoder may restore the original multichannel signal by upmixing a mono signal or a stereo signal using the spatial cue.
  • the decoder generates a decorrelated audio signal to reproduce the sound field represented by the original multichannel signal when performing upmixing.
  • the decoder can then reproduce the sound field effect of the multichannel signal using the uncorrelated signal.
  • An uncorrelated signal is necessary to reproduce the width or depth of the sound field of the original multichannel signal.
  • An uncorrelated signal may be generated by applying a filtering operation to a downmix signal in mono or stereo form transmitted from an encoder.
  • Equation 1 represents an upmixing matrix
  • the upmixing matrix may be generated based on the spatial cues transmitted from the encoder.
  • the input of the upmixing matrix is a mono downmix signal made from the multichannel signals ⁇ L, R, Ls, Rs, C ⁇ . And uncorrelated to the downmix signal It includes signals. That is, the original multichannel signal ⁇ Lsynth, Rsynth, LSsynth, RSsynth ⁇ is a downmixing signal of the upmixing matrix of Equation 1 And uncorrelated signals Can be restored by applying to.
  • a problem may occur when the sound field effect of the original multichannel signal is reproduced through the MPS.
  • the decoder uses an uncorrelated signal to reproduce the sound field effect of the multichannel signal.
  • uncorrelated signals are artificially mono downmixed signals. Since the higher the dependency on the uncorrelated signal for the sound field effect of the multichannel signal, the sound quality of the multichannel signal to be restored may be degraded.
  • a plurality of uncorrelated signals should be used.
  • the downmix signal transmitted from the encoder is mono
  • a plurality of uncorrelated signals may be used to express the sound field of the original multichannel signal from the downmix signal.
  • the encoder may send a residual signal to the decoder, thereby replacing the residual signal with an uncorrelated signal.
  • transmitting the residual signal is inefficient in terms of compression efficiency compared to transmitting the original channel signal.
  • the present invention considers the basic concept of MPS, but provides a coding scheme that uses a minimum of uncorrelated signals to recover high quality multichannel signals.
  • the present invention provides a coding scheme capable of efficiently processing four channel signals.
  • a first channel signal is generated by downmixing four channel signals using a first downmixer and a second downmixer using a two-to-one (TTO) method. Outputting a second channel signal; Outputting a third channel signal by downmixing the first channel signal and the second channel signal using a third downmixing unit of a TTO method; And generating a bitstream by encoding the third channel signal.
  • TTO two-to-one
  • the outputting of the first channel signal and the second channel signal in the multi-channel signal encoding method may include: a first downmixing unit having a TTO scheme in which pairs of channel signals constituting the four channel signals are arranged in parallel; The first and second channel signals may be output by downmixing using the second downmixer.
  • the generating of the bitstream in the multi-channel signal encoding method may include: extracting a core band corresponding to a low frequency band by removing a high frequency band of the third channel signal; And encoding a core band of the third channel signal.
  • a method of encoding a multichannel signal comprising: generating a first channel signal by downmixing two channel signals using a first downmixing unit of a two-to-one (TTO) method; Generating a second channel signal by downmixing two channel signals using a second downmixing unit of a TTO method; And stereo encoding the first channel signal and the second channel signal.
  • TTO two-to-one
  • one channel signal of two channel signals downmixed by the first downmixer and one channel signal of two channel signals downmixed by the second downmixer are swapped. It may be a channel signal.
  • any one of the first channel signal and the second channel signal may be a swapped channel signal.
  • one channel signal of two channel signals downmixed by the first downmixer is generated in a first stereo SBR unit, and the other channel signal is generated in a second stereo SBR unit.
  • One channel signal of the two channel signals downmixed by the second downmixer may be generated in the first stereo SBR unit, and the other channel signal may be generated in the second stereo SBR unit.
  • a method of decoding a multichannel signal includes the steps of: decoding a bitstream to extract a first channel signal; Outputting a second channel signal and a third channel signal by upmixing the first channel signal using a one-to-two (OTT) first upmixing unit; Outputting two channel signals by upmixing the second channel signal using an OTT-type second upmixing unit; And outputting two channel signals by upmixing the third channel signal by using an OTT-type third upmixing unit.
  • OTT one-to-two
  • outputting two channel signals by upmixing the second channel signal may include: upmixing the second channel signal using an uncorrelated signal corresponding to the second channel signal;
  • the outputting of the two channel signals by upmixing the third channel signal may include upmixing the third channel signal using an uncorrelated signal corresponding to the third channel signal.
  • the second upmixing unit of the OTT method and the third upmixing unit of the OTT method may be arranged in parallel to independently perform upmixing.
  • decoding the bitstream and extracting a first channel signal may include: restoring a first channel signal of a core band corresponding to a low frequency band by decoding the bitstream; And extending the core band of the first channel signal to restore the high frequency band of the first channel signal.
  • a method of decoding a multichannel signal comprising: restoring a mono signal by decoding a bitstream; Outputting a stereo signal by upmixing a mono signal in an OTT manner; And outputting four channel signals by upmixing the first channel signal and the second channel signal constituting the stereo signal in parallel OTT schemes, respectively.
  • the outputting of the four channel signals in the decoding method of the multi-channel signal may include upmixing using the first channel signal and the uncorrelated signal corresponding to the first channel signal in an OTT method, and the second channel.
  • Four channel signals may be output by upmixing by using an OTT method using a signal and an uncorrelated signal corresponding to the second channel signal.
  • a method of decoding a multichannel signal including: outputting a first downmix signal and a second downmix signal by decoding a channel pair element using a stereo decoding unit; Outputting a first upmix signal and a second upmix signal by upmixing the first downmix signal using the first upmixing unit; And outputting the third upmix signal and the fourth upmix signal by upmixing the swapped second downmix signal using the second upmixing unit.
  • the decoding method of the multichannel signal may include recovering a high frequency band of the first upmix signal and the swapped third upmix signal using a first band extension; And restoring a high frequency band of the swapped second upmix signal and the fourth upmix signal using the second band extension.
  • a method of decoding a multichannel signal comprising: outputting a first downmix signal and a second downmix signal by decoding a first channel pair element using a first stereo decoder; Outputting a first residual signal and a second residual signal by decoding the second channel pair element using a second stereo decoding unit; Outputting the first upmix signal and the second upmix signal by upmixing the first downmix signal and the swapped first residual signal using the first upmixing unit; And outputting the third upmix signal and the fourth upmix signal by upmixing the swapped second downmix signal and the second residual signal using the second upmixing unit.
  • An encoder of a multi-channel signal includes a first downmixing unit for downmixing a pair of two channel signals among four channel signals by a TTO method and outputting a first channel signal; A second downmixing unit which downmixes the remaining two channel signals among the four channel signals by a TTO method and outputs a second channel signal; A third downmixing unit downmixing the first channel signal and the second channel signal by a TTO method to output a third channel signal; And an encoder configured to encode the third channel signal to generate a bitstream.
  • a decoder of a multichannel signal includes a decoding unit for decoding a bitstream and extracting a first channel signal; A first upmixing unit outputting a second channel signal and a third channel signal by upmixing the first channel signal in a one-to-two (OTT) manner; A second upmixing unit which outputs two channel signals by upmixing the second channel signal by an OTT method; And a third upmixing unit configured to output two channel signals by upmixing the third channel signal in an OTT manner.
  • OTT one-to-two
  • Decoder of a multi-channel signal includes a decoding unit for decoding a bitstream to restore a mono signal; A first upmixing unit outputting a stereo signal by upmixing a mono signal in an OTT manner; And a second upmixing unit configured to output two channel signals by upmixing the first channel signal constituting the stereo signal. And a third upmixing unit configured to output two channel signals by upmixing the second channel signal constituting the stereo signal, wherein the second upmixing unit and the third upmixing unit are arranged in parallel to the OTT scheme.
  • Four channel signals may be output by upmixing the first channel signal and the second channel signal.
  • a decoder of a multichannel signal includes a stereo decoding unit for outputting a first downmix signal and a second downmix signal by decoding a channel pair element; A first upmixing unit outputting the first upmix signal and the second upmix signal by upmixing the first downmix signal; And a second upmixing unit which outputs the third upmix signal and the fourth upmix signal by upmixing the swapped second downmix signal.
  • four channel signals can be efficiently processed.
  • FIG. 1 is a diagram illustrating a 3D audio encoder according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
  • FIG. 3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
  • FIG. 4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
  • FIG. 12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
  • FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
  • FIG. 14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
  • FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
  • FIG. 16 illustrates an example in which a USAC 3D encoder of the 3D audio encoder of FIG. 1 operates according to a QCE mode, according to an embodiment.
  • FIG. 17 illustrates a USAC 3D encoder of the 3D audio encoder of FIG. 1 operating in QCE mode using two CPEs according to an embodiment.
  • FIG. 18 illustrates a USAC 3D decoder of the 3D audio decoder of FIG. 1 operating in QCE mode using two CPEs, according to an embodiment.
  • FIG. 19 is a diagram schematically illustrating FIG. 18 according to an embodiment.
  • FIG. 20 is a diagram illustrating a modification of a partial configuration of FIG. 19 according to an embodiment.
  • the mono signal means one channel signal
  • the stereo signal means two channel signals.
  • the stereo signal may consist of two mono signals.
  • the N channel signals mean that the number of channels is larger than that of the M channel signals.
  • FIG. 1 is a diagram illustrating a 3D audio encoder according to an exemplary embodiment.
  • the 3D audio encoder may generate an audio bitstream by processing a plurality of channels and a plurality of objects.
  • the pre-renderer / mixer 101 may pre-render the plurality of objects according to the layout of the plurality of channels and then deliver the plurality of objects to the Unified Speech Audio Coding (USAC) 3D encoder 104.
  • USAC Unified Speech Audio Coding
  • the pre-renderer / mixer 101 may render the plurality of input objects by matching the plurality of channels.
  • the pre-renderer / mixer 101 may determine weights of objects for each channel using object metadata (OAM).
  • OAM object metadata
  • the pre-renderer / mixer 101 may downmix the input plurality of objects to the USAC 3D encoder 104.
  • the pre-renderer / mixer 101 may deliver the plurality of input objects to the spatial audio object coding (SAOC) 3D encoder 103.
  • SAOC spatial audio object coding
  • OAM encoder 102 may encode and pass object metadata to USAC 3D encoder 104.
  • the SAOC 3D encoder 103 may render a plurality of input objects to generate a number of SAOC transport channels smaller than the number of objects and spatial parameters (OLD, IOC, DMG, etc.) that are additional information.
  • the USAC 3D encoder 104 describes how to map input objects and channels to USAC channel elements, USAC Channel Pair Element (CPEs), Single Pair Element (SPEs), and Low Frequency Enhancement (LFEs). Mapping information may be generated.
  • CPEs USAC Channel Pair Element
  • SPEs Single Pair Element
  • LFEs Low Frequency Enhancement
  • the USAC 3D encoder 104 generates a bitstream after encoding at least one of a plurality of channels, premixed and downmixed objects according to the channel layout, compressed object metadata, SAOC side information, and SAOC transport channels. can do.
  • FIG. 2 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
  • the 3D audio decoder may receive a bitstream generated by the USAC 3D encoder 104 included in the 3D audio encoder.
  • the USAC 3D decoder 201 included in the 3D audio decoder may extract a plurality of channels, pre-ordered objects, downmixed objects, compressed object metadata, SAOC side information, and SAOC transport channels from the bitstream. .
  • the object renderer 202 may render the downmixed object according to the playback format using the object metadata. Each object may then be rendered to an output channel in playback format in accordance with the object metadata.
  • the OAM decoder 203 may recover the compressed object metadata.
  • the SAOC 3D decoder 204 may generate a rendered object using the SAOC transport channel, SAOC side information, and object metadata. At this time, the SAOC 3D decoder 204 may increase the number of objects by upmixing the objects corresponding to the SAOC transport channels.
  • the mixer 205 mixes a plurality of channels delivered from the USAC 3D decoder 201, pre-rendered objects, objects rendered by the object renderer 202, and objects rendered by the SAOC 3D decoder 204. To output a plurality of channel signals. The mixer 205 may then pass the output channel signals to the binaural renderer 206 and the format converter 207.
  • the output channel signal can be directly fed to the loudspeaker and reproduced.
  • the output channel signal may be rendered as a headphone signal by the binaural renderer 206.
  • the format converter 207 may render the channel signal according to the channel layout of the loudspeaker. That is, the format converter 207 may convert the format of the channel signal into the format of the loudspeaker.
  • FIG. 3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
  • the USAC 3D encoder may include both a first encoder 301 and a second encoder 302.
  • the USAC 3D encoder may include a second encoding unit 302.
  • the USAC 3D decoder may include a first decoding unit 303 and a second decoding unit 304.
  • the USAC 3D decoder may include a first decoding unit 303.
  • N channel signals may be input to the first encoder 301. Thereafter, the first encoding unit 301 may downmix the N channel signals and output M channel signals. At this time, N may have a value larger than M. For example, when N is even, M may be N / 2. And when N is odd, M may be (N-1) / 2 + 1. In summary, it can be expressed as Equation 2.
  • the second encoder 302 may generate a bitstream by encoding M channel signals.
  • the second encoder 302 may encode M channel signals, and a general audio coder may be used.
  • the second encoder 302 may encode and transmit 24 channel signals.
  • the first and second encoding units 301 and 302 may be used to encode N channel signals. Many bits are required, and sound quality degradation may also occur.
  • the first decoder 303 may output M channel signals by decoding the bitstream generated by the second encoder 302. Then, the second decoding unit 304 may output the N channel signals by upmixing the M channel signals.
  • the second decoding unit 302 may generate a bitstream by decoding the M channel signals.
  • the second decoding unit 304 may decode M channel signals, and a general audio coder may be utilized.
  • the second decoder 304 is a USAC coder that is an extended HE-AAC
  • the second decoder 302 may decode 24 channel signals.
  • FIG. 4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • the first encoding unit 301 may include a plurality of downmixing units 401.
  • the N channel signals input to the first encoding unit 301 may be configured in pairs of two and then input to the downmixing unit 401.
  • the downmixing unit 401 may have a two-to-two structure.
  • the downmixing unit 401 extracts a channel cue, channel level difference (CLD), inter channel correlation / coherence (ICC), inter channel phase difference (IPD), or overall phase difference (OPD), which are spatial cues, from the inputted two channel signals.
  • the two channel signals can be downmixed into one channel signal and output.
  • the plurality of downmixing units 401 included in the first encoding unit 301 may represent a parallel structure. For example, when N channel signals are input to the first encoding unit 301 and N is an even number, N / 2 number of downmixing units 401 of the TTO structure included in the first encoding unit 301 may be selected. It may be necessary.
  • FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • the first encoding unit 301 may include a plurality of downmixing units 501.
  • the first encoding unit 301 may include (N-1) / 2 downmixing units 501.
  • the first encoder 301 may include a delay unit 502 to process the other one channel signal.
  • the N channel signals input to the first encoding unit 301 may be configured in pairs of two and then input to the downmixing unit 501.
  • the downmixing unit 501 may exhibit a TTO structure.
  • the downmixing unit 501 may extract the spatial cues CLD, ICC, IPD, or OPD from the input two channel signals, downmix the two channel signals into one channel signal, and output the same.
  • the delay value applied to the delay unit 502 may be the same as the delay value applied to the downmixer 501. If M channel signals that are output signals of the first encoding unit 301 are PCM signals, the delay value may be determined according to Equation 3 below.
  • Enc_Delay represents a delay value applied to the downmixing unit 501 and the delay unit 502.
  • Delay1 QMF Analysis
  • Delay2 Hybrid QMF Analysis
  • 64 the reason why 64 is applied is that Hybrid QMF analysis is performed after QMF analysis is performed for 64 bands.
  • the delay value may be determined according to Equation 4.
  • FIG. 6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • N channel signals are composed of N 'channel signals and K channel signals.
  • N ′ channel signals are input to the first encoding unit 301 and no K channel signals are input to the first encoding unit 301.
  • M applied to M channel signals input to the second encoding unit 301 may be determined by Equation 5.
  • FIG. 6 illustrates a structure of the first encoding unit 301 when N 'is an even number
  • FIG. 7 illustrates a structure of the first encoding unit 301 when N' is an odd number.
  • N' channel signals may be input to the plurality of downmixing units 601 and K channel signals may be input to the plurality of delay units 602.
  • the N 'channel signals may be input to the downmixing unit 601 representing the N' / 2 TTO structures, and the K channel signals may include K delay units 602.
  • N ′ channel signals may be input to the plurality of downmixing units 701 and one delay unit 702.
  • the K channel signals may be input to the plurality of delay units 702.
  • the N 'channel signals may be input to the downmixing unit 701 and the one delay unit 702 representing the N' / 2 TTO structures.
  • the K channel signals may be input to the K delay units 702.
  • FIG. 8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may upmix M channel signals transmitted from the first decoding unit 303 and output N channel signals.
  • the second decoding unit 304 may upmix M channel signals using the spatial cues transmitted from the second encoding unit 301 of FIG. 3.
  • the second decoding unit 304 may include a plurality of decorrelating units 801 and upmixing units 802.
  • the second decoding unit 304 may include a plurality of uncorrelated units 801, an upmixing unit 802, and a delay unit 803. That is, when N is an even number in the N channel signals, the delay unit 803 may be unnecessary unlike in FIG. 8.
  • the delay value of the delay part 803 may be different from the delay value applied in the encoder. 8 illustrates a case in which the output of the second decoding unit 304 is N channel signals, and N is odd.
  • the delay value of the delay unit 803 may be determined according to Equation 6 below.
  • Dec_Delay represents the delay value of the delay unit 803.
  • Delay1 represents a delay value generated according to QMF analysis
  • Delay2 represents a delay value generated from hybrid QMF analysis
  • Delay3 represents a delay value generated from QMF synthesis.
  • Delay 4 represents a delay value generated when the uncorrelated filter is applied in the uncorrelated unit 801.
  • the delay value of the delay unit 803 may be determined according to Equation 7 below.
  • each of the plurality of uncorrelated units 801 may generate an uncorrelated signal from the M channel signals input to the second decoding unit 304.
  • the uncorrelated signal generated in each of the plurality of uncorrelated units 801 may be input to the upmixing unit 802.
  • the plurality of uncorrelated units 801 may generate an uncorrelated signal using M channel signals. That is, when M channel signals transmitted from an encoder are used to generate an uncorrelated signal, sound quality degradation may not occur when reproducing a sound field of a multi-channel signal.
  • the M channel signals input to the second decoding unit 304 are It can be defined as.
  • M uncorrelated signals generated by using M channel signals It can be defined as.
  • the N channel signals output through the second decoding unit 304 are It can be defined as.
  • the second decoding unit 304 may output N channel signals according to Equation 8 below.
  • M (n) means a matrix for performing upmixing on M channel signals at n sample times.
  • M (n) may be defined by the following equation (9).
  • Equation (9) Is a 2x2 zero matrix, May be defined as Equation 10 below as a 2 ⁇ 2 matrix.
  • the spatial cues actually transmitted from the encoder can be determined for each b index, which is a frame unit, and is applied on a sample basis. May be determined by interpolation between frames adjacent to each other.
  • Equation 11 May be determined by Equation 11 according to the MPS method.
  • Equation 11 Can be derived from the CLD. And, Wow Can be derived from CLD and ICC. Equation 11 may be derived according to the processing method of the spatial queue defined in the MPS.
  • Equation (8) Denotes an operator for interlacing each element of the vectors to create a new vector column.
  • equation (8) May be determined according to Equation 12 below.
  • Equation 8 may be represented by Equation 13 below.
  • Equation 13 ⁇ is used to clearly indicate the processing of the input signal and the output signal.
  • the M channel signals and the uncorrelated signals may be paired with each other to be inputs of Equation 13, which is an upmixing matrix. That is, according to Equation 13, distortion of sound quality in the upmixing process may be minimized by applying an uncorrelated signal to each M channel signal, and a sound field effect may be generated as close to the original signal as possible.
  • Equation 13 described above may also be represented by Equation 14 below.
  • FIG. 9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may decode M channel signals transmitted from the first decoding unit 303 and output N channel signals.
  • the second decoding unit 304 may also process the result reflected by the encoder.
  • the second decoding unit 304 may include a plurality of delay units 903. Can be.
  • the second decoding unit 304 may have a structure as shown in FIG. 9. If N 'is an even number for M channel signals satisfying Equation 5, one delay unit 903 located below the upmixing unit 902 in the second decoding unit 304 of FIG. 9 is excluded. Can be.
  • FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may decode M channel signals transmitted from the first decoding unit 303 and output N channel signals.
  • the upmixing unit 1002 may include a plurality of signal processing units 1003 representing a one-to-two (OTT) structure.
  • each of the plurality of signal processing units 1003 may generate two channel signals by using one channel signal among the M channel signals and the uncorrelated signal generated by the uncorrelated unit 1001.
  • the plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate N-1 channel signals.
  • the delay unit 1004 may be excluded from the second decoding unit 304. Then, the plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate N channel signals.
  • the signal processor 1003 may upmix according to Equation 14.
  • the upmixing process performed by all the signal processing units 1003 may be represented by one upmixing matrix as shown in Equation 13.
  • FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
  • the first encoding unit 301 may include a plurality of downmixing units 1101 and a plurality of delay units 1102 having a TTO structure.
  • the second encoding unit 302 may include a plurality of USAC encoders 1103.
  • the first decoding unit 303 may include a plurality of USAC decoders 1106, and the second decoding unit 304 may include a plurality of upmixing units 304 and a plurality of delay units 1108 having an OTT structure. It may include.
  • the first encoding unit 301 may output M channel signals using N channel signals.
  • the M channel signals may be input to the second encoding unit 302.
  • pairs of channel signals passed through the downmixing unit 1101 of the TTO structure among the M channel signals may be encoded in a stereo form by the USAC encoder 1103 included in the second encoding unit 302.
  • the channel signal passed through the delay unit 1102 without passing through the downmixing unit 1101 of the TTO structure may be encoded in the mono form or the stereo form by the USAC encoder 1103.
  • one channel signal passed through the delay unit 1102 of the M channel signals may be encoded in a mono form in the USAC encoder 1103.
  • the two channel signals, which have passed through the two delay units 1102 of the M channel signals, may be encoded in a stereo form by the USAC encoder 1103.
  • the M channel signals may be encoded by the second encoding unit 302 to generate a plurality of bitstreams.
  • the plurality of bitstreams may be reformatted into one bitstream through the multiplexer 1104.
  • the bitstream generated by the multiplexer 1104 is transferred to the demultiplexer 1104, and the demultiplexer 1105 corresponds to a plurality of bitstreams corresponding to the USAC decoder 303 included in the first decoder 303. It can demultiplex into bitstreams of.
  • the plurality of demultiplexed bitstreams may be input to the USAC decoder 1106 included in the first decoding unit 303, respectively.
  • the USAC decoder 303 may decode according to a method encoded by the USAC encoder 1103 included in the second encoding unit 302. Then, the first decoding unit 303 may output M channel signals from the plurality of bitstreams.
  • the second decoding unit 304 may output N channel signals using M channel signals.
  • the second decoding unit 304 may upmix a portion of the M channel signals input using the upmixing unit 1107 having the OTT structure.
  • one channel signal of the M channel signals may be input to the upmixing unit 1107, and the upmixing unit 1107 may generate two channel signals using one channel signal and an uncorrelated signal.
  • the upmixing unit 1107 may generate two channel signals by using Equation 14.
  • Equation 13 is obtained only by performing M upmixing according to Equation 14, M in Equation 13 may be equal to the number of upmixing units 1107 included in the second decoding unit 304. Can be.
  • the K channel signals processed by the delay unit 1102 instead of the downmixing unit 1101 of the TTO structure in the first encoding unit 301 are OTT structures in the second decoding unit 304. It may be processed by the delay unit 1108 rather than the upmix unit 1107.
  • FIG. 12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
  • N channel signals may be input in pairs to the downmixing unit 1201 included in the first encoding unit 301.
  • the downmixing unit 1201 has a TTO structure and may downmix two channel signals to output one channel signal.
  • the first encoding unit 301 may output M channel signals from the N channel signals by using the plurality of downmixing units 1201 arranged in parallel.
  • the stereotype USAC encoder 1202 included in the second encoder 302 may generate a bitstream by encoding two channel signals output from the two downmixers 1201.
  • the USAC decoder 1203 of the stereo type included in the first decoding unit 303 may output two channel signals constituting M channel signals from the bitstream.
  • the output two channel signals may be input to two upmixing units 1204 each representing an OTT structure included in the second decoding unit 304. Then, the upmixing unit 1204 may output two channel signals constituting N channel signals using one channel signal and an uncorrelated signal.
  • FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
  • the USAC encoder 1302 included in the second encoding unit 302 may include a downmixing unit 1303 having a TTO structure, a Spectral Band Replication (SBR) unit 1304, and a core encoding unit 1305. have.
  • SBR Spectral Band Replication
  • the downmixing unit 1301 of the TTO structure included in the first encoding unit 301 may downmix two channel signals among the N channel signals and output one channel signal constituting M channel signals. .
  • two channel signals output from the two downmixing units 1301 included in the first encoding unit 301 may be input to the downmixing unit 1303 of the TTO structure included in the USAC encoder 1302. .
  • the downmixing unit 1303 may downmix the input two channel signals to generate a mono signal that is one channel signal.
  • the SBR unit 1304 may extract only the low frequency band excluding the high frequency band from the mono signal. Then, the core encoding unit 1305 may generate a bitstream by encoding the mono signal of the low frequency band corresponding to the core band.
  • a TTO type downmixing process may be continuously performed to generate a bitstream from N channel signals.
  • the downmixing unit 1301 of the TTO structure may downmix two channel signals in stereo form among N channel signals.
  • the channel signals output from each of the two downmixing units 1301 may be input to the downmixing unit 1303 having the TTO structure as part of the M channel signals. That is, four channel signals among the N channel signals may be continuously output as one channel signal through TTO-type downmixing.
  • the bitstream generated by the second encoder 302 may be input to the USAC decoder 1306 of the first decoder 302.
  • the USAC decoder 1306 included in the second encoding unit 302 may include a core decoding unit 1307, an SBR unit 1308, and an upmixing unit 1309 having an OTT structure.
  • the core decoding unit 1307 may output a mono signal of the core band corresponding to the low frequency band using the bitstream. Then, the SBR unit 1308 may restore the high frequency band by copying the low frequency band of the mono signal.
  • the upmixing unit 1309 may generate a stereo signal constituting M channel signals by upmixing the mono signal output from the SBR unit 1308.
  • the upmixer 1310 of the OTT structure included in the second decoder 304 may generate a stereo signal by upmixing a mono signal included in the stereo signal generated by the first decoder 302. .
  • an OTT-type upmixing process may be continuously performed to generate N channel signals from a bitstream.
  • the upmixing unit 1309 of the OTT structure may generate a stereo signal by upmixing a mono signal.
  • the two mono signals constituting the stereo signal as the output signal of the upmixing unit 1309 may be input to the upmixing unit 1310 having the OTT structure.
  • the upmixing unit 1301 of the OTT structure may output a stereo signal by upmixing the input mono signal. That is, four channel signals may be generated by continuously mixing mono signals in an OTT form.
  • FIG. 14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
  • the first encoding unit and the second encoding unit of FIG. 11 may be combined to be implemented as one encoding unit 1401 as illustrated in FIG. 14.
  • the first decoding unit and the second decoding unit of FIG. 11 are combined to show a result implemented by one decoding unit 1402 as shown in FIG. 14.
  • the encoding unit 1401 of FIG. 14 further includes a TTO structure downmixing unit 1404 in a USAC encoder including a TTO structure downmixing unit 1405, an SBR unit 1406, and a core encoding unit 1407.
  • An encoding unit 1403 may be included.
  • the encoding unit 1401 may include a plurality of encoding units 1403 arranged in a parallel structure.
  • the encoding unit 1403 may correspond to a USAC encoder including a downmixing unit 1404 having a TTO structure.
  • the encoder 1403 may generate a mono signal by successively applying the TTO-type downmixing to four of the N channel signals.
  • the decoding unit 1402 of FIG. 14 includes an OTT structure upmixing unit 1404 to a USAC decoder including a core decoding unit 1411, an SBR unit 1412, and an OTT structure upmixing unit 1413. It may include a decoding unit 1410 further comprising. In this case, the decoding unit 1402 may include a plurality of decoding units 1410 arranged in a parallel structure. Alternatively, the decoding unit 1410 may correspond to a USAC decoder including an upmixing unit 1404 having an OTT structure.
  • the decoding unit 1410 may generate four channel signals among the N channel signals by continuously applying OTT-type upmixing to the mono signal.
  • FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
  • the encoding unit 1501 may correspond to the encoding unit 1403 of FIG. 14.
  • the encoding unit 1501 may correspond to the modified USAC encoder. That is, the modified USAC encoder further includes the TTO structure downmixing unit 1503 in the original USAC encoder including the TTO structure downmixing unit 1504, the SBR unit 1505, and the core encoding unit 1506. Can be implemented.
  • the decoding unit 1502 may correspond to the decoding unit 1410 of FIG. 14.
  • the decoding unit 1502 may correspond to the modified USAC decoder. That is, the modified USAC decoder further includes an OTT structure upmixing unit 1510 in the original USAC decoder including a core decoding unit 1507, an SBR unit 1508, and an OTT structure upmixing unit 1509. Can be implemented.
  • FIG. 16 illustrates an example in which a USAC 3D encoder of the 3D audio encoder of FIG. 1 operates according to a QCE mode, according to an embodiment.
  • the quadruple channel element (QCE) mode may refer to an operation mode in which the USAC 3D encoder generates two channel prediction elements (CPEs) using four channel signals.
  • a flag called qceIndex allows the USAC 3D encoder to determine whether to operate in QCE mode.
  • the MPS 2-1-2 unit 1601 which is MPEG Surround based on a stereo tool, may combine a left upper channel and a left lower channel constituting a vertical channel pair. .
  • the MPS 2-1-2 unit 1601 may generate a downmix L by downmixing the left upper channel and the left lower channel. If the Unified Stereo unit 1601 is used instead of the MPS 2-1-2 1601, the Unified Stereo unit 1601 may downmix the Left Upper Channel and the Left Lower Channel to generate Downmix L and Residual L. Can
  • the MPS 2-1-2 unit 1602 may combine the right upper channel and the right lower channel constituting the vertical channel pair.
  • the MPS 2-1-2 unit 1602 may generate a downmix R by downmixing the right upper channel and the right lower channel. If the Unified Stereo unit 1602 is used instead of the MPS 2-1-2 unit 1602, the Unified Stereo unit 1602 downmixes the Right Upper Channel and Right Lower Channel to generate Downmix R and Residual R. can do
  • the Joint Stereo Encoding unit 1605 may combine Downmix L and Downmix R using the probability of Complex Stereo Prediction.
  • the Joint Stereo Encoding unit 1606 may combine Residual L and Residual R using the probability of Complex Stereo Prediction.
  • the stereo SBR unit 1603 may apply the SBR to the left upper channel and the right upper channel constituting the horizontal channel pair.
  • the Stereo SBR unit 1604 may apply the SBR to the Left Lower Channel and the Right Lower Channel constituting the horizontal channel pair.
  • the USAC 3D encoder of FIG. 16 may encode four channel signals, Left Upper Channel, Right Upper Channel, Left Lower Channel, and Right Lower Channel, through the QCE mode. Specifically, the USAC 3D encoder of FIG. 16 swaps the second channel of the first element and the first channel of the second element before or after applying the Stereo SBR portion 1603 or the Stereo SBR portion 1605. (swapping) can be encoded according to the QCE mode.
  • the USAC 3D encoder of FIG. 16 may be used before or after applying the MPS 2-1-2 unit 1601 and the Joint Stereo Encoding unit 1605 or the MPS 2-1-2 unit 1602 and the Joint Stereo Encoding unit ( Before or after applying 1605, the second channel of the first element and the first channel of the second element may be swapped to encode according to the QCE mode.
  • FIG. 17 illustrates a USAC 3D encoder of the 3D audio encoder of FIG. 1 operating in QCE mode using two CPEs according to an embodiment.
  • FIG. 17 is a diagram illustrating matters described with reference to FIG. 16. It is assumed that channel signals Ch_in_L_1, Ch_in_L_2, Ch_in_R_1 and Ch_in_R_2 are input to the USAC 3D encoder. Referring to FIG. 17, the channel signal Ch_in_L_2 may be swapped and input to the Stereo SBR unit 1702, and the channel signal Ch_in_R_1 may be swapped and input to the Stereo SBR unit 1701.
  • the Stereo SBR unit 1701 may output sbr_out_L_1 and sbr_out_R_1, and the Stereo SBR unit 1702 may output sbr_out_L_2 and sbr_out_R_2.
  • the Stereo SBR unit 1701 may transfer the SBR Payload to the Bitstream Encoding unit 1707, and the Stereo SBR unit 1702 may transfer the SBR Payload to the Bitstream Encoding unit 1708.
  • the sbr_out_L_2 output from the stereo SBR unit 1702 may be swapped and input to the MPS 2-1-2 unit 1703.
  • sbr_out_L_1 output from the Stereo SBR unit 1701 may be input to the MPS 2-1-2 unit 1703.
  • sbr_out_R_1 output from the Stereo SBR unit 1701 may be swapped and input to the MPS 2-1-2 unit 1704.
  • sbr_out_R_2 output from the Stereo SBR unit 1702 may be input to the MPS 2-1-2 unit 1704.
  • the MPS 2-1-2 unit 1703 may deliver the MPS Payload to the Bitstream Encoding unit 1707
  • the MPS 2-1-2 unit 1704 may deliver the MPS Payload to the Bitstream Encoding unit 1708.
  • the MPS 2-1-2 unit 1703 may be replaced by the Unified Stereo unit 1703
  • the MPS 2-1-2 unit 1704 may be replaced by the Unified Stereo unit 1704.
  • the mps_dmx_L output from the MPS 2-1-2 unit 1703 may be input to the joint stereo encoding unit 1705.
  • mps_dmx_L output from the Unified Stereo unit 1703 is input to the Joint Stereo Encoding unit 1705, and mps_res_L is swapped out. It may be input to the joint stereo encoding unit 1706.
  • mps_dmx_R output from the MPS 2-1-2 unit 1704 may be swapped and input to the joint stereo encoding unit 1705.
  • the MPS 2-1-2 unit 1703 is replaced with the Unified Stereo unit 1703
  • the mps_dmx_R output from the Unified Stereo unit 1703 is swapped and input to the Joint Stereo Encoding unit 1705
  • mps_res_R is It may be input to the joint stereo encoding unit 1706.
  • the joint stereo encoding unit 1705 may transmit the CplxPred Payload to the bitstream encoding unit 1707
  • the joint stereo encoding unit 1706 may transmit the CplxPred payload to the Bitstream Encoding unit 1708.
  • the MPS 2-1-2 unit 1703 and the MPS 2-1-2 unit 1704 may output a mono signal by downmixing a stereo signal through a two-to-one structure.
  • the bitstream encoding unit 1707 may generate a bitstream corresponding to the CPE1 by encoding the stereo signal output from the joint stereo encoding unit 1705.
  • the bitstream encoding unit 1708 may generate a bitstream corresponding to CPE2 by encoding the stereo signal output from the joint stereo encoding unit 1706.
  • FIG. 18 illustrates a USAC 3D decoder of the 3D audio decoder of FIG. 1 operating in QCE mode using two CPEs, according to an embodiment.
  • the channel signals represented in FIG. 18 may be defined as shown in Table 1.
  • bitstream corresponding to CPE1 generated in FIG. 17 is input to the Bitstream Decoding unit 1801, and the bitstream corresponding to CPE2 is input to the Bitstream Decoding unit 1802.
  • the Quadruple Channel Element (QCE) mode may refer to an operation mode in which the USAC 3D decoder generates four channel signals using two consecutive Channel Prediction Elements (CPEs). Specifically, the QCE mode enables the USAC 3D decoder to more effectively jointly code four channel signals that are horizontally or vertically distributed.
  • CPEs Channel Prediction Elements
  • the QCE is composed of two consecutive channel pair elements (CPEs), and can be generated by combining joint stereo coding horizontally and vertically combining MPEG surround based stereo tools.
  • the QCE may be generated by swapping a channel signal between tools included in the USAC 3D decoder.
  • the USAC 3D decoder may determine whether to operate in the QCE mode through the qceIndex flag included in UsacChannelPairElementConfig ().
  • the USAC 3D decoder may operate differently.
  • the Bitstream Decoding unit 1801 transfers the CplxPred Payload included in the bitstream to the Joint Stereo Decoding unit 1803, transfers the SBR Payload to the MPS 2-1-2 unit 1805, and transfers the SBR payload to the Stereo SBR. May be passed to section 1807.
  • the bitstream decoding unit 1801 may extract a stereo signal from the bitstream and transfer the extracted stereo signal to the joint stereo decoding unit 1803.
  • the Bitstream Decoding unit 1802 transfers the CplxPred Payload included in the bitstream to the Joint Stereo Decoding unit 1804, transfers the SBR Payload to the MPS 2-1-2 unit 1806, and transfers the SBR payload to the Stereo SBR. May be passed to section 1808.
  • the bitstream decoding unit 1802 may extract a stereo signal from the bitstream.
  • the joint stereo decoding unit 1803 may generate cplx_out_dmx_L and cplx_out_dmx_R using a stereo signal.
  • the joint stereo decoding unit 1804 may generate cplx_out_res_L and cplx_out_res_R using a stereo signal.
  • the joint stereo decoding unit 1803 and the joint stereo decoding unit 1804 can decode according to joint stereo in the MDCT domain using the probability of Complex Stereo Prediction.
  • Complex Stereo Prediction is a tool for efficiently coding two channel signal pairs with levels or phase differences.
  • the left channel and the right channel may be reconstructed according to the matrix shown in Equation 15 below.
  • a means a complex-valued parameter
  • Is the downmixed channel signal Means the MDST corresponding to the MDCT of the.
  • res means the residual signal derived through Complex Stereo Prediction.
  • the cplx_out_dmx_L generated from the joint stereo decoding unit 1803 may be input to the MPS 2-1-2 unit 1805.
  • the cplx_out_dmx_R generated from the joint stereo decoding unit 1803 may be swapped and input to the MPS 2-1-2 unit 1806.
  • MPS 2-1-2 section 1805 and MPS 2-1-2 section 1806 relate to stereo-based MPEG Surround, which uses a mono signal and a non-correlated signal instead of a residual signal to stereo in the QMF domain. Can output a signal.
  • the Unified Stereo unit 1805 and the Unified Stereo unit 1806 may output a stereo signal in the QMF domain by using a mono signal and a residual signal in stereo-based MPEG Surround.
  • the MPS 2-1-2 unit 1805 and the MPS 2-1-2 unit 1806 may output a stereo signal composed of two channel signals by upmixing a mono signal through a one-to-two (OTT) structure. Can be.
  • OTT one-to-two
  • cplx_out_dmx_L generated from the Joint Stereo Decoding unit 1803 is input to the Unified Stereo unit 1805, and the Joint Stereo Decoding unit
  • the cplx_out_res_L generated from 1804 may be swapped and input to the Unified Stereo unit 1805.
  • cplx_out_dmx_R generated from the Joint Stereo Decoding section 1803 is swapped and input to the Unified Stereo section 1806.
  • the cplx_out_res_R generated from the joint stereo decoding unit 1804 may be input to the unified stereo unit 1806.
  • the joint stereo decoding unit 1803 and the joint stereo decoding unit 1804 may output a downmix signal of a core band corresponding to a low frequency band through core decoding.
  • cplx_out_dmx_R corresponding to the second channel of the first element and cplx_out_res_L corresponding to the first channel of the second element may be swapped before decoding according to the MPEG Surround scheme.
  • the mps_out_L_1 output from the MPS 2-1-2 unit 1805 or the Unified Stereo unit 1805 is input to the Stereo SBR unit 1807, and the MPS 2-1-2 unit 1806 or the Unified Stereo unit 1806. Mps_out_R_1 outputted from) may be swapped and input to the Stereo SBR unit 1807.
  • mps_out_L_2 output from the MPS 2-1-2 unit 1805 or the Unified Stereo unit 1805 is swapped and input to the Stereo SBR unit 1808, and the MPS 2-1-2 unit 1806 or the Unified Stereo unit
  • the mps_out_R_2 output at 1806 may be input to the Stereo SBR unit 1808.
  • the Stereo SBR 1807 may output sbr_out_L_1 and sbr_out_R_1 using mps_out_L_1 and mps_out_R_1.
  • the stereo SBR 1808 may output sbr_out_L_2 and sbr_out_R_2 using mps_out_L_2 and mps_out_R_2.
  • sbr_out_R_1 and mps_out_L_2 may be swapped and input to another component.
  • FIG. 19 is a diagram schematically illustrating FIG. 18 according to an embodiment.
  • FIG. 18 when the stereo decoding unit 1804 does not generate cplx_out_res_L and cplx_out_res_R, and the stereo SBR unit 1807 and the stereo SBR unit 1808 are not used, FIG. 18 may be simplified as shown in FIG. 19.
  • MPS 2-1-2 unit 1703 when the stereo decoding unit 1804 does not generate cplx_out_res_L and cplx_out_res_R, MPS 2-1-2 unit 1703 rather than the Unified Stereo unit 1703 and the Unified Stereo unit 1704 in FIG. 17, which is a USAC 3D encoder. And MPS 2-1-2 part 1704 are used.
  • the Stereo SBR unit 1807 and the Stereo SBR unit 1808 may be enabled or disabled according to the decoding mode.
  • the bitstream decoding unit 1901 may generate a stereo signal from the bitstream.
  • the joint stereo decoding unit 1902 may output cplx_out_dmx_L and cplx_out_dmx_R using a stereo signal.
  • cplx_out_dmx_L may be input to the MPS 2-1-2 unit 1903, and cplx_out_dmx_R may be swapped and input to the MPS 2-1-2 unit 1904.
  • the MPS 2-1-2 unit 1903 may upmix cplx_out_dmx_L to generate mps_out_L_1 and mps_out_L_2, which are stereo signals.
  • the MPS 2-1-2 unit 1903 may upmix cplx_out_dmx_R to generate the stereo signals mps_out_R_1 and mps_out_R_2.
  • FIG. 20 is a diagram illustrating a modification of a partial configuration of FIG. 19 according to an embodiment.
  • FIG. 20 illustrates that, unlike FIG. 19, the joint stereo decoding unit 1902 is replaced with the MPS 2-1-2 unit 2002.
  • the USAC 3D decoder may operate as shown in FIG. 19.
  • the USAC 3D decoder may operate as shown in FIG. 20.
  • the MPS 2-1-2 part 2002, the MPS 2-1-2 part 2003, and the MPS 2-1-2 part 2004 have a one-to-two structure.
  • the input mono signal may be upmixed to output a stereo signal consisting of two channel signals.
  • the operation of the MPS 2-1-2 unit 2002 and the MPS 2-1-2 unit 2003 may be performed by continuously performing OTT-type upmixing processes as shown in FIGS. 14 and 15. May correspond to that being performed.
  • the operations of the MPS 2-1-2 unit 2002 and the MPS 2-1-2 unit 2004 may correspond to the successive OTT-type upmixing processes.
  • the USAC 3D decoder of FIG. 18 operating in the QPE mode is shown in FIGS. 13 to 15. As described, the same result as that of continuously performing the OTT-type upmixing process can be obtained. In other words, the USAC 3D decoder of FIG. 18 operating in the QPE mode applies four channel signals (mps_out_L_1, mps_out_L_2, mps_out_R_1, and mps_out_R_2) can be generated.
  • a first channel signal is generated by downmixing four channel signals using a first downmixer and a second downmixer using a two-to-one (TTO) method. Outputting a second channel signal; Outputting a third channel signal by downmixing the first channel signal and the second channel signal using a third downmixing unit of a TTO method; And generating a bitstream by encoding the third channel signal.
  • TTO two-to-one
  • the outputting of the first channel signal and the second channel signal in the multi-channel signal encoding method may include: a first downmixing unit having a TTO scheme in which pairs of channel signals constituting the four channel signals are arranged in parallel; The first and second channel signals may be output by downmixing using the second downmixer.
  • the generating of the bitstream in the multi-channel signal encoding method may include: extracting a core band corresponding to a low frequency band by removing a high frequency band of the third channel signal; And encoding a core band of the third channel signal.
  • a method of encoding a multichannel signal comprising: generating a first channel signal by downmixing two channel signals using a first downmixing unit of a two-to-one (TTO) method; Generating a second channel signal by downmixing two channel signals using a second downmixing unit of a TTO method; And stereo encoding the first channel signal and the second channel signal.
  • TTO two-to-one
  • one channel signal of two channel signals downmixed by the first downmixer and one channel signal of two channel signals downmixed by the second downmixer are swapped. It may be a channel signal.
  • any one of the first channel signal and the second channel signal may be a swapped channel signal.
  • one channel signal of two channel signals downmixed by the first downmixer is generated in a first stereo SBR unit, and the other channel signal is generated in a second stereo SBR unit.
  • One channel signal of the two channel signals downmixed by the second downmixer may be generated in the first stereo SBR unit, and the other channel signal may be generated in the second stereo SBR unit.
  • a method of decoding a multichannel signal includes the steps of: decoding a bitstream to extract a first channel signal; Outputting a second channel signal and a third channel signal by upmixing the first channel signal using a one-to-two (OTT) first upmixing unit; Outputting two channel signals by upmixing the second channel signal using an OTT-type second upmixing unit; And outputting two channel signals by upmixing the third channel signal by using an OTT-type third upmixing unit.
  • OTT one-to-two
  • outputting two channel signals by upmixing the second channel signal may include: upmixing the second channel signal using an uncorrelated signal corresponding to the second channel signal;
  • the outputting of the two channel signals by upmixing the third channel signal may include upmixing the third channel signal using an uncorrelated signal corresponding to the third channel signal.
  • the second upmixing unit of the OTT method and the third upmixing unit of the OTT method may be arranged in parallel to independently perform upmixing.
  • decoding the bitstream and extracting a first channel signal may include: restoring a first channel signal of a core band corresponding to a low frequency band by decoding the bitstream; And extending the core band of the first channel signal to restore the high frequency band of the first channel signal.
  • a method of decoding a multichannel signal comprising: restoring a mono signal by decoding a bitstream; Outputting a stereo signal by upmixing a mono signal in an OTT manner; And outputting four channel signals by upmixing the first channel signal and the second channel signal constituting the stereo signal in parallel OTT schemes, respectively.
  • the outputting of the four channel signals in the decoding method of the multi-channel signal may include upmixing using the first channel signal and the uncorrelated signal corresponding to the first channel signal in an OTT method, and the second channel.
  • Four channel signals may be output by upmixing by using an OTT method using a signal and an uncorrelated signal corresponding to the second channel signal.
  • a method of decoding a multichannel signal including: outputting a first downmix signal and a second downmix signal by decoding a channel pair element using a stereo decoding unit; Outputting a first upmix signal and a second upmix signal by upmixing the first downmix signal using the first upmixing unit; And outputting the third upmix signal and the fourth upmix signal by upmixing the swapped second downmix signal using the second upmixing unit.
  • the decoding method of the multichannel signal may include recovering a high frequency band of the first upmix signal and the swapped third upmix signal using a first band extension; And restoring a high frequency band of the swapped second upmix signal and the fourth upmix signal using the second band extension.
  • a method of decoding a multichannel signal comprising: outputting a first downmix signal and a second downmix signal by decoding a first channel pair element using a first stereo decoder; Outputting a first residual signal and a second residual signal by decoding the second channel pair element using a second stereo decoding unit; Outputting the first upmix signal and the second upmix signal by upmixing the first downmix signal and the swapped first residual signal using the first upmixing unit; And outputting the third upmix signal and the fourth upmix signal by upmixing the swapped second downmix signal and the second residual signal using the second upmixing unit.
  • An encoder of a multi-channel signal includes a first downmixing unit for downmixing a pair of two channel signals among four channel signals by a TTO method and outputting a first channel signal; A second downmixing unit which downmixes the remaining two channel signals among the four channel signals by a TTO method and outputs a second channel signal; A third downmixing unit downmixing the first channel signal and the second channel signal by a TTO method to output a third channel signal; And an encoder configured to encode the third channel signal to generate a bitstream.
  • a decoder of a multichannel signal includes a decoding unit for decoding a bitstream and extracting a first channel signal; A first upmixing unit outputting a second channel signal and a third channel signal by upmixing the first channel signal in a one-to-two (OTT) manner; A second upmixing unit which outputs two channel signals by upmixing the second channel signal by an OTT method; And a third upmixing unit configured to output two channel signals by upmixing the third channel signal in an OTT manner.
  • OTT one-to-two
  • Decoder of a multi-channel signal includes a decoding unit for decoding a bitstream to restore a mono signal; A first upmixing unit outputting a stereo signal by upmixing a mono signal in an OTT manner; And a second upmixing unit configured to output two channel signals by upmixing the first channel signal constituting the stereo signal. And a third upmixing unit configured to output two channel signals by upmixing the second channel signal constituting the stereo signal, wherein the second upmixing unit and the third upmixing unit are arranged in parallel to the OTT scheme.
  • Four channel signals may be output by upmixing the first channel signal and the second channel signal.
  • a decoder of a multi-channel signal includes a stereo decoding unit for outputting a first downmix signal and a second downmix signal by decoding a channel pair element; A first upmixing unit outputting the first upmix signal and the second upmix signal by upmixing the first downmix signal; And a second upmixing unit outputting the third upmixed signal and the fourth upmixed signal by upmixing the swapped second downmixing signal.
  • one embodiment of the present invention may include the following configuration.
  • a method of encoding a multichannel signal comprising: generating M channel signals and additional information by encoding N channel signals; And encoding the M channel signals to output a bitstream.
  • M when N is an even number, M may be N / 2.
  • encoding the N channel signals to generate M channel signals and additional information comprises: grouping N channel signals into two channel signals; And downmixing the grouped two channel signals into one channel signal to output the M channel signals.
  • the additional information may include a spatial cue generated by downmixing N channel signals.
  • the M when N is odd, the M may be (N-1) / 2 + 1.
  • encoding the N channel signals to generate M channel signals and additional information comprises: grouping N channel signals into two channel signals; Downmixing the grouped two channel signals into one channel signal and outputting a channel signal of (N-1) / 2 channels; And delaying an ungrouped channel signal among the N channel signals.
  • a method of encoding a multichannel signal comprising: delaying an ungrouped channel signal;
  • the ungrouped channel signals may be delayed in consideration of the delay time generated when outputting the channel signals of (N-1) / 2 channels by downmixing the grouped two channel signals into one channel signal.
  • the M when N is N '+ K and N' is even, the M may be N '/ 2 + K.
  • a method of encoding a multichannel signal comprising: grouping N 'channel signals into two channel signals; Downmixing the grouped two channel signals to output a channel signal of an N ′ / 2 channel; Delaying the ungrouped K channel signals.
  • M when N is N '+ K and N' is odd, M may be (N'-1) / 2 + 1 + K.
  • a method of encoding a multichannel signal comprising: grouping N 'channel signals into two channel signals; Downmixing the grouped two channel signals to output a channel signal of (N′-1) / 2 channels; Delaying the ungrouped channel signals and the K channel signals.
  • a method of decoding a multichannel signal includes: decoding M channel signals and additional information in a bitstream; The method may include outputting N channel signals using the M channel signals and additional information.
  • N when N is an even number, N may be M * 2.
  • outputting the N channel signals comprises: generating M uncorrelated signals using the M channel signals; And upmixing the additional information, the M channel signals, and the M uncorrelated signals to output N channel signals.
  • the N when N is odd, the N may be (M-1) * 2 + 1.
  • the outputting of the N channel signals may include: delaying one channel signal of the M channel signals; Generating (M-1) uncorrelated signals using the non-delayed (M-1) channel signals of the M channel signals; And upmixing the (M-1) channel signals and the (M-1) uncorrelated signals as additional information to output (M-1) * 2 channel signals.
  • the decoded M channel signals may be grouped into K channel signals and the remaining channel signals.
  • a method of encoding a multichannel signal includes a first encoder that generates M channel signals and additional information by encoding N channel signals, and a bitstream by encoding the M channel signals. It may include a second encoding unit for outputting.
  • a decoder of a multi-channel signal includes: a first decoder configured to decode M channel signals and additional information in a bitstream; And a second decoding unit configured to output N channel signals using the M channel signals and additional information.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may be, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법이 개시된다. 연속적으로 다운믹스 또는 업믹싱을 통해 다채널 신호를 효율적으로 처리할 수 있다.

Description

다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
이하의 실시예들은 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법에 관한 것으로, 구체적으로는 복수의 채널 신호로 구성된 다채널 신호를 효율적으로 처리하기 위한 코덱에 관한 것이다.
MPEG Surround(MPS)는 5.1 채널, 7.1채널 등 다채널 신호를 코딩하기 위한 오디오 코덱으로, 높은 압축률로서 다채널 신호를 압축하여 전송할 수 있는 인코딩 및 디코딩 기술을 의미한다. MPS는 인코딩 및 디코딩 과정에서 하위 호환이라는 제약 사항을 가진다. 그래서, MPS를 통해 압축된 후 디코더로 전송되는 비트스트림은 이전의 오디오 코덱을 이용하더라도 모노 또는 스테레오 방식으로 재생이 가능하여야 하는 제약 사항을 만족하여야 한다.
따라서, 다채널 신호를 구성하는 입력 채널의 수가 증가하더라도, 디코더로 전송되는 비트스트림은 인코딩된 모노 신호 또는 스테레오 신호를 포함하여야 한다. 그리고, 디코더는 비트스트림을 통해 전송된 모노 신호 또는 스테레오 신호가 업믹싱될 수 있도록 부가 정보를 추가로 수신할 수 있다. 디코더는 부가 정보를 이용하여 모노 신호 또는 스테레오 신호로부터 다채널 신호를 복원할 수 있다.
결국, MPS 방식으로 압축된 오디오는 모노 또는 스테레오 방식을 나타내므로 하위 호환성에 따라 MPS 디코더가 아닌 일반 오디오 코덱으로도 재생이 가능하였다.
최근 들어, AV 장치에서 초고품질의 오디오를 처리할 것이 요구되고 있다. 그래서, 초고품질의 오디오를 압축하여 전송하는 새로운 기술이 요구되고 있다. 초고품질의 오디오는 하위 호환성 보다는 원래 오디오가 가지는 음질 및 음장을 충실히 표현하는 것이 보다 중요한 요구 사항이 되고 있다. 예를 들어, 22.2 채널의 오디오는 초고품질의 오디오 음장 재현을 위한 것으로, MPS와 같이 하위 호환성을 제공하면서 압축 및 전송되기 보다는, 원래 오디오가 가지고 있는 음질 및 음장 효과를 디코더에서도 그대로 표현할 수 있는 고품질의 다채널 신호의 코딩 기술이 필요하다.
MPS는 기본적으로 5.1 채널의 오디오를 처리하면서도 하위 호환성을 제공하는 오디오 코딩 기술이다. 따라서, MPS는 다채널 신호를 다운믹싱한 후 이를 분석하여 모노 신호 또는 스테레오 신호로 표현되어야 한다. 분석 과정에서 획득되는 부가 정보는 공간큐(spatial cue)이며, 디코더는 공간큐를 이용하여 모노 신호 또는 스테레오 신호를 업믹싱하여 원래의 다채널 신호를 복원할 수 있다.
이 때, 디코더는 업믹싱을 수행할 때 원래의 다채널 신호가 표현했던 음장을 재현하기 위하여 비상관성 신호 (decorrelated audio signal)를 생성한다. 그러면, 디코더는 비상관성 신호를 이용하여 다채널 신호의 음장 효과를 재현할 수 있다. 비상관성 신호는 원래의 다채널 신호가 가지는 음장의 넓이(width) 혹은 깊이(depth)를 재현하기 위해 필요하다. 비상관성 신호는 인코더로부터 전송된 모노 또는 스테레오 형태의 다운믹싱 신호에 필터링(filtering)연산을 적용함으로써 생성될 수 있다.
이하에서는, 디코더가 MPS 업믹싱을 이용하여 5.1 채널의 오디오를 복원하는 과정을 나타낸다. 이하의 수학식 1은 업믹싱 매트릭스를 나타낸다.
Figure PCTKR2014003126-appb-I000001
상기 수학식 1에서, 업믹싱 매트릭스는 인코더로부터 전송된 공간큐에 기초하여 생성될 수 있다. 업믹싱 매트릭스의 입력은 다채널 신호인 {L, R, Ls, Rs, C}로부터 만들어진 모노 형태의 다운믹싱 신호
Figure PCTKR2014003126-appb-I000002
및 다운믹싱 신호에 대해 비상관성을 가지는
Figure PCTKR2014003126-appb-I000003
신호들을 포함한다. 즉, 원래의 다채널 신호 {Lsynth, Rsynth, LSsynth, RSsynth}는 수학식 1의 업믹싱 매트릭스를 다운믹싱 신호
Figure PCTKR2014003126-appb-I000004
와 비상관성 신호
Figure PCTKR2014003126-appb-I000005
에 적용함으로써 복원될 수 있다.
여기서, MPS를 통해 원래의 다채널 신호의 음장 효과를 재현하는 경우 문제가 발생할 수 있다. 구체적으로, 앞서 설명하였듯이, 디코더는 다채널 신호의 음장 효과를 재현하기 위해 비상관성 신호를 이용한다. 하지만, 비상관성 신호는 인위적으로 모노 형태의 다운믹싱 신호
Figure PCTKR2014003126-appb-I000006
로부터 생성되기 때문에, 다채널 신호의 음장 효과를 위해서 비상관성 신호에 대한 의존도가 높아질수록 복원되는 다채널 신호의 음질은 열화될 수 있다.
특히, MPS 방식에 따라 다채널 신호를 복원하는 경우, 복수의 비상관성 신호가 이용되어야 한다. 인코더로부터 전송된 다운믹싱 신호가 모노 형태인 경우, 다운믹싱 신호로부터 원래의 다채널 신호가 가지는 음장을 표현하기 위해서는 복수의 비상관성 신호가 이용될 수 밖에 없다. 그래서, 모노 형태의 다운믹싱을 통해 원래의 다채널 신호를 복원하는 경우, 압축 효율 및 일정 수준 이상의 음장 재현은 가능하지만 음질의 열화는 발생되는 문제가 발생될 수 있다.
결론적으로, 기존의 MPS 방식을 이용하면 초고품질의 다채널 신호를 복원하는 할 때 한계가 존재한다. 이러한 한계를 극복하기 위해 인코더에서 잔차 신호를 디코더에 전송함으로써, 잔차 신호를 비상관성 신호를 대체할 수도 있다. 그러나, 잔차 신호를 전송하는 것은 원래의 채널 신호를 전송하는 것과 비교하여 압축 효율 측면에서 비효율적이다.
본 발명은 MPS의 기본 개념을 고려하되 고품질의 다채널 신호를 복원하기 위해 최소한의 비상관성 신호를 이용하는 코딩 방식을 제공한다.
본 발명은 4개의 채널 신호를 효율적으로 처리할 수 있는 코딩 방식을 제공한다.
본 발명의 일실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부 및 제2 다운믹싱부를 이용하여 4개의 채널 신호를 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 단계; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식의 제3 다운믹싱부를 이용하여 다운믹싱함으로써 제3 채널 신호를 출력하는 단계; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에서 상기 제1 채널 신호와 제2 채널 신호를 출력하는 단계는, 상기 4개의 채널 신호를 구성하는 채널 신호의 쌍을 병렬적으로 배치된 TTO 방식의 제1 다운믹싱부와 제2 다운믹싱부를 이용하여 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력할 수 있다.
상기 다채널 신호의 인코딩 방법에서 상기 비트스트림을 생성하는 단계는, 상기 제3 채널 신호의 고주파수 대역을 제거하여 저주파수 대역에 대응하는 코어 대역을 추출하는 단계; 및 상기 제3 채널 신호의 코어 대역을 인코딩하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제1 채널 신호를 생성하는 단계; TTO 방식의 제2 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제2 채널 신호를 생성하는 단계; 및 상기 제1 채널 신호와 제2 채널 신호를 스테레오 인코딩하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호와 상기 제2 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호는 스와핑된 채널 신호일 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 채널 신호 및 제2 채널 신호 중 어느 하나는, 스와핑된 채널 신호일 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되며, 상기 제2 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성될 수 있다.
본 발명의 일실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계; OTT(One-To-Two) 방식의 제1 업믹싱부를 이용하여 상기 제1 채널 신호를 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 단계; OTT 방식의 제2 업믹싱부를 이용하여 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계; 및 OTT 방식의 제3 업믹싱부를 이용하여 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제2 채널 신호를 업믹싱하고, 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제3 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제3 채널 신호를 업믹싱할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 OTT 방식의 제2 업믹싱부와 상기 OTT 방식의 제3 업믹싱부는, 병렬적으로 배치되어 독립적으로 업믹싱을 수행할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계는, 상기 비트스트림을 디코딩하여 저주파수 대역에 대응하는 코어 대역의 제1 채널 신호를 복원하는 단계; 및 상기 제1 채널 신호의 코어 대역을 확장하여 제1 채널 신호의 고주파수 대역을 복원할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 모노 신호를 복원하는 단계; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 단계; 및 상기 스테레오 신호를 구성하는 제1 채널 신호와 제2 채널 신호를 각각 병렬적인 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 4개의 채널 신호를 출력하는 단계는, 상기 제1 채널 신호 및 상기 제1 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱하고, 상기 제2 채널 신호 및 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 스테레오 디코딩부를 이용하여 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법은 제1 대역 확장부를 이용하여 제1 업믹스 신호 및 스와핑된 제3 업믹스 신호의 고주파수 대역을 복원하는 단계; 및 제2 대역 확장부를 이용하여 스와핑된 제2 업믹스 신호 및 제4 업믹스 신호의 고주파수 대역을 복원하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 제1 스테레오 디코딩부를 이용하여 제1 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제2 스테레오 디코딩부를 이용하여 제2 채널 쌍 요소를 디코딩함으로써 제1 잔차 신호와 제2 잔차 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호 및 스와핑된 제1 잔차 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호와 제2 잔차 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 다채널 신호의 인코더는 4개의 채널 신호 중 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제1 채널 신호를 출력하는 제1 다운믹싱부; 상기 4개의 채널 신호 중 나머지 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제2 채널 신호를 출력하는 제2 다운믹싱부; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식으로 다운믹싱하여 제3 채널 신호를 출력하는 제3 다운믹싱부; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 인코딩부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 디코딩부; 상기 제1 채널 신호를 OTT(One-To-Two) 방식으로 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 제1 업믹싱부; 상기 제2 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 제3 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 모노 신호를 복원하는 디코딩부; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 제1 업믹싱부; 및 상기 스테레오 신호를 구성하는 제1 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 스테레오 신호를 구성하는 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함하고, 상기 제2 업믹싱부와 제3 업믹싱부는, 병렬적으로 배치되어 OTT 방식으로 제1 채널 신호와 제2 채널 신호를 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 스테레오 디코딩부; 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부를 포함할 수 있다.
본 발명의 일실시예에 의하면, MPS의 기본 개념을 고려하되 고품질의 다채널 신호를 복원하기 위해 최소한의 비상관성 신호를 이용하는 코딩 방식을 제공할 수 있다.
본 발명의 일실시예에 의하면, 4개의 채널 신호를 효율적으로 처리할 수 있다.
도 1은 일실시예에 따른 3D 오디오 인코더를 도시한 도면이다.
도 2는 일실시예에 따른 3D 오디오 디코더를 도시한 도면이다.
도 3은 일실시예에 따른 USAC 3D 인코더와 USAC 3D 디코더를 도시한 도면이다.
도 4는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제1 도면이다.
도 5는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제2 도면이다.
도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다.
도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.
도 8은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제1 도면이다.
도 9는 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제2 도면이다.
도 10은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제3 도면이다.
도 11은 일실시예에 따른 도 3을 구현한 예시를 도시한 도면이다.
도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.
도 13은 일실시예에 따른 도 12의 제2 인코딩부와 제1 디코딩부의 세부 구성을 도시한 도면이다.
도 14는 일실시예에 따른 도 11의 제1 인코딩부와 제2 인코딩부를 결합하고, 제1 디코딩부와 제2 디코딩부를 결합한 결과를 도시한 도면이다.
도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.
도 16은 일실시예에 따른 도 1의 3D 오디오 인코더의 USAC 3D 인코더가 QCE 모드에 따라 동작하는 예시를 도시한 도면이다.
도 17은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 인코더의 USAC 3D 인코더를 도시한 도면이다.
도 18은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 디코더의 USAC 3D 디코더를 도시한 도면이다.
도 19는 일실시예에 따른 도 18을 간략하게 표현한 도면이다.
도 20은 일실시예에 따른 도 19의 일부 구성을 수정한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
이하에서, 모노 신호는 1개의 채널 신호를 의미하고, 스테레오 신호는 2개의 채널 신호를 의미한다. 그러면, 스테레오 신호는 2개의 모노 신호로 구성될 수 있다. 또한, N개의 채널 신호는 M개의 채널 신호보다 채널 개수가 많은 것을 의미한다.
도 1은 일실시예에 따른 3D 오디오 인코더를 도시한 도면이다.
도 1을 참고하면, 3D 오디오 인코더는 복수의 채널들(channels)과 복수의 객체들(objects)을 처리하여 오디오 비트스트림을 생성할 수 있다. 3D 오디오 인코더에서 프리 렌더러(prerenderer)/믹서(mixer)(101)는 복수의 객체들을 복수의 채널들의 레이아웃에 따라 프리 렌더링한 후 USAC(Unified Speech Audio Coding) 3D 인코더(104)에 전달할 수 있다.
즉, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 복수의 채널들에 매칭시킴으로써 렌더링할 수 있다. 이 때, 프리 렌더러/믹서(101)는 객체 메타데이터(OAM: associated object metadata)를 이용하여 각각의 채널에 대한 객체들의 가중치를 결정할 수 있다. 또한, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 다운믹싱하여 USAC 3D 인코더(104)에 전달할 수 있다. 그리고, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 SAOC (Spatial Audio Object Coding) 3D 인코더(103)에 전달할 수 있다.
OAM 인코더(102)는 객체 메타데이터를 인코딩한 후 USAC 3D 인코더(104)에 전달할 수 있다.
SAOC 3D 인코더(103)는 입력된 복수의 객체들을 렌더링하여 복수의 객체들의 개수보다 작은 개수의 SAOC 전송 채널과 부가 정보인 공간 파라미터(OLD, IOC, DMG 등)를 생성할 수 있다.
USAC 3D 인코더(104)는 입력된 객체들과 채널들을 USAC 채널 요소(channel element)인 CPEs(USAC Channel Pair Element), SPEs(Single Pair Element) 및 LFEs(Low Frequency Enhancement)로 어떻게 매핑할 것인지를 설명하는 매핑 정보를 생성할 수 있다.
USAC 3D 인코더(104)는 복수의 채널들, 채널 레이아웃에 따라 프리렌더링된 객체와 다운믹싱된 객체, 압축된 객체 메타데이터, SAOC 부가 정보 및 SAOC 전송 채널 중 적어도 하나를 인코딩한 후 비트스트림을 생성할 수 있다.
이하의 실시예들에 대해서는 USAC 3D 인코더(104)에 기초하여 설명하기로 한다.
도 2는 일실시예에 따른 3D 오디오 디코더를 도시한 도면이다.
3D 오디오 디코더는 3D 오디오 인코더에 포함된 USAC 3D 인코더(104)가 생성한 비트스트림을 수신할 수 있다. 3D 오디오 디코더에 포함된 USAC 3D 디코더(201)는 비트스트림으로부터 복수의 채널들, 프리엔더링된 객체, 다운믹싱된 객체, 압축된 객체 메타데이터, SAOC 부가 정보, SAOC 전송 채널을 추출할 수 있다.
객체 렌더러(202)는 객체 메타데이터를 이용하여 다운믹싱된 객체를 재생 포맷에 따라 렌더링할 수 있다. 그러면, 각각의 객체는 객체 메타데이터에 따라 재생 포맷인 출력 채널에 렌더링될 수 있다.
OAM 디코더(203)는 압축된 객체 메타데이터를 복원할 수 있다.
SAOC 3D 디코더(204)는 SAOC 전송 채널, SAOC 부가 정보 및 객체 메타데이터를 이용하여 렌더링된 객체를 생성할 수 있다. 이 때, SAOC 3D 디코더(204)는 SAOC 전송 채널에 대응하는 객체를 업믹싱하여 객체의 개수를 증가시킬 수 있다.
믹서(205)는 USAC 3D 디코더(201)에서 전달된 복수의 채널들, 프리 렌더링된 객체들, 객체 렌더러(202)에 의해 렌더링된 객체들, SAOC 3D 디코더(204)에 의해 렌더링된 객체를 믹싱하여 복수의 채널 신호들을 출력할 수 있다. 그런 후, 믹서(205)는 출력된 채널 신호들을 바이노럴 렌더러(206)와 포맷 변환기(207)에 전달할 수 있다.
출력된 채널 신호는 직접적으로 라우드스피커에 피딩되어 재생될 수 있다. 이 경우, 채널 신호의 채널 개수와 라우드스피커가 지원하는 채널 개수가 동일하여야 한다. 그리고, 출력된 채널 신호는 바이노럴 렌더러(206)에 의해 헤드폰 신호로 렌더링될 수 있다. 또한, 출력된 채널 신호의 채널 개수와 라우드스피커가 지원하는 채널 개수가 다른 경우, 포맷 변환기(207)는 라우드스피커의 채널 레이아웃에 따라 채널 신호를 렌더링할 수 있다. 즉, 포맷 변환기(207)는 채널 신호의 포맷을 라우드스피커의 포맷으로 변환할 수 있다.
이하의 실시예들에 대해서는 USAC 3D 디코더(201)에 기초하여 설명하기로 한다.
도 3은 일실시예에 따른 USAC 3D 인코더와 USAC 3D 디코더를 도시한 도면이다.
도 3을 참고하면, USAC 3D 인코더는 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 포함할 수 있다. 또는, USAC 3D 인코더는 제2 인코딩부(302)를 포함할 수 있다. 유사하게, USAC 3D 디코더는 제1 디코딩부(303)와 제2 디코딩부(304)를 포함할 수 있다. 또는, USAC 3D 디코더는 제1 디코딩부(303)를 포함할 수 있다.
제1 인코딩부(301)에 N개의 채널 신호가 입력될 수 있다. 그런 후, 제1 인코딩부(301)는 N개의 채널 신호에 대해 다운믹싱하여 M개의 채널 신호를 출력할 수 있다. 이 때, N은 M보다 큰 값을 가질 수 있다. 일례로, N이 짝수인 경우, M은 N/2일 수 있다. 그리고, N이 홀수인 경우, M은 (N-1)/2+1일 수 있다. 이를 정리하면, 수학식 2과 같이 표현될 수 있다.
Figure PCTKR2014003126-appb-I000007
제2 인코딩부(302)는 M개의 채널 신호를 인코딩하여 비트스트림을 생성할 수 있다. 일례로, 제2 인코딩부(302)는 M개의 채널 신호를 인코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 인코딩부(302)가 Extended HE-AAC인 USAC 코더인 경우, 제2 인코딩부(302)는 24개의 채널 신호를 인코딩하여 전송할 수 있다.
다만, 제2 인코딩부(302)를 이용하여 N개의 채널 신호를 인코딩하는 경우, 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 이용하여 N개의 채널 신호를 인코딩하는 것보다 상대적으로 많은 비트가 요구되며, 음질 열화도 발생될 수 있다.
한편, 제1 디코딩부(303)는 제2 인코딩부(302)가 생성한 비트스트림을 디코딩하여 M개의 채널 신호를 출력할 수 있다. 그러면, 제2 디코딩부(304)는 M개의 채널 신호를 업믹싱하여 N개의 채널 신호의 출력할 수 있다. 제2 디코딩부(302)는 M개의 채널 신호를 디코딩하여 비트스트림을 생성할 수 있다. 일례로, 제2 디코딩부(304)는 M개의 채널 신호를 디코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 디코딩부(304)가 Extended HE-AAC인 USAC 코더인 경우, 제2 디코딩부(302)는 24개의 채널 신호를 디코딩할 수 있다.
도 4는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제1 도면이다.
제1 인코딩부(301)는 복수의 다운믹싱부(401)를 포함할 수 있다. 이 때, 제1 인코딩부(301)에 입력된 N개의 채널 신호들은 2개씩 짝으로 구성된 후 다운믹싱부(401)에 입력될 수 있다. 그래서, 다운믹싱부(401)는 TTO(Two-To-Two) 구조를 나타낼 수 있다. 다운믹싱부(401)는 입력된 2개의 채널 신호로부터 공간큐인 CLD(Channel Level Difference), ICC(Inter Channel Correlation/Coherence), IPD(Inter Channel Phase Difference) 또는 OPD(Overall Phase Difference)를 추출하고, 2개의 채널 신호를 1개의 채널 신호로 다운믹싱하여 출력할 수 있다.
제1 인코딩부(301)에 포함된 복수의 다운믹싱부(401)는 병렬 구조를 나타낼 수 있다. 예를 들어, 제1 인코딩부(301)에 N개의 채널 신호가 입력되고, N이 짝수인 경우, 제1 인코딩부(301)에 포함되는 TTO 구조의 다운믹싱부(401)는 N/2개가 필요할 수 있다.
도 5는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제2 도면이다.
앞서 설명한 도 4는 제1 인코딩부(301)에 N개의 채널 신호가 입력되고, N이 짝수인 경우에 제1 인코딩부(301)의 세부 구성을 나타낸다. 그리고, 도 5는 제1 인코딩부(301)에 N개의 채널 신호가 입력되고 N이 홀수인 경우에, 제1 인코딩부(301)의 세부 구성을 나타낸다.
도 5를 참고하면, 제1 인코딩부(301)는 복수의 다운믹싱부(501)를 포함할 수 있다. 이 때, 제1 인코딩부(301)는 (N-1)/2개의 다운믹싱부(501)를 포함할 수 있다. 그리고, 나머지 1개의 채널 신호를 처리하기 위해, 제1 인코딩부(301)는 지연부(502)를 포함할 수 있다.
이 때, 제1 인코딩부(301)에 입력된 N개의 채널 신호들은 2개씩 짝으로 구성된 후 다운믹싱부(501)에 입력될 수 있다. 그래서, 다운믹싱부(501)는 TTO 구조를 나타낼 수 있다. 다운믹싱부(501)는 입력된 2개의 채널 신호로부터 공간큐인 CLD, ICC, IPD 또는 OPD를 추출하고, 2개의 채널 신호를 1개의 채널 신호로 다운믹싱하여 출력할 수 있다.
그리고, 지연부(502)에 적용되는 지연값은 다운믹싱부(501)에 적용되는 지연값과 동일할 수 있다. 만약, 제1 인코딩부(301)의 출력 신호인 M개의 채널 신호가 PCM 신호인 경우, 지연값은 다음 수학식 3에 따라 결정될 수 있다.
Figure PCTKR2014003126-appb-I000008
여기서, Enc_Delay는 다운믹싱부(501)와 지연부(502)에 적용되는 지연값을 나타낸다. 그리고, Delay1(QMF Analysis)는 MPS의 64 밴드에 대해 QMF 분석시에 발생하는 지연값을 나타내며, 288일 수 있다. 그리고, Delay2(Hybrid QMF Analysis)은 13 탭(tap)의 필터를 사용하는 Hybrid QMF 분석시에 발생하는 지연값을 나타내며, 6*64=384일 수 있다. 여기서, 64가 적용되는 이유는 64 밴드에 대해 QMF 분석이 수행되고 난 후에 Hybrid QMF 분석이 수행되기 때문이다.
만약, 제1 인코딩부(301)의 출력 신호인 M개의 채널 신호가 QMF 신호인 경우, 지연값은 수학식 4에 따라 결정될 수 있다.
Figure PCTKR2014003126-appb-I000009
도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다. 그리고, 도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.
만약, N개의 채널 신호가 N'개의 채널 신호와 K개의 채널 신호로 구성된다고 가정한다. 이 때, N'개의 채널 신호는 제1 인코딩부(301)에 입력되고, K개의 채널 신호는 제1 인코딩부(301)에 입력되지 않는다고 가정한다.
이 경우 수학식 5에 의해 제2 인코딩부(301)에 입력되는 M개의 채널 신호에 적용되는 M이 결정될 수 있다.
Figure PCTKR2014003126-appb-I000010
이 때, 도 6은 N'가 짝수인 경우에 제1 인코딩부(301)의 구조를 나타내고, 도 7은 N'가 홀수인 경우에 제1 인코딩부(301)의 구조를 나타낸다.
도 6에 의하면, N'가 짝수인 경우, N'개의 채널 신호는 복수의 다운믹싱부(601)에 입력되고, K개의 채널 신호는 복수의 지연부(602)에 입력될 수 있다. 여기서, N'개의 채널 신호는 N'/2개의 TTO 구조를 나타내는 다운믹싱부(601)에 입력되고, K개의 채널 신호는 K개의 지연부(602)를 포함할 수 있다.
그리고, 도 7에 의하면, N'가 홀수인 경우, N'개의 채널 신호는 복수의 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K개의 채널 신호는 복수의 지연부(702)에 입력될 수 있다. 여기서, N'개의 채널 신호는 N'/2개의 TTO 구조를 나타내는 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K개의 채널 신호는 K개의 지연부(702)에 입력될 수 있다.
도 8은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제1 도면이다.
도 8을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 업믹싱하여 N개의 채널 신호를 출력할 수 있다. 이 때, 제2 디코딩부(304)는 도 3의 제2 인코딩부(301)로부터 전송된 공간큐를 이용하여 M개의 채널 신호를 업믹싱할 수 있다.
일례로, N개의 채널 신호에서 N이 짝수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801)와 업믹싱부(802)를 포함할 수 있다. 그리고, N개의 채널 신호에서 N이 홀수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801), 업믹싱부(802) 및 지연부(803)를 포함할 수 있다. 즉, N개의 채널 신호에서 N이 짝수인 경우, 도 8에서 도시된 바와 달리 지연부(803)가 불필요할 수 있다.
이 때, 비상관부(801)에서 비상관성 신호를 생성하는 과정에서 추가적인 지연이 발생할 수 있기 때문에, 지연부(803)의 지연값은 인코더에서 적용된 지연값과 다를 수 있다. 도 8은 제2 디코딩부(304)의 출력이 N개의 채널 신호이고, N이 홀수인 경우를 나타낸다.
제2 디코딩부(304)에서 출력된 N개의 채널 신호가 PCM 신호인 경우, 지연부(803)의 지연값은 하기 수학식 6에 따라 결정될 수 있다.
Figure PCTKR2014003126-appb-I000011
Figure PCTKR2014003126-appb-I000012
여기서, Dec_Delay는 지연부(803)의 지연값을 나타낸다. 그리고, Delay1은 QMF 분석에 따라 발생되는 지연값, Delay2는 하이브리드 QMF 분석에 따라 발생되는 지연값, Delay3은 QMF 합성에 따라 발생되는 지연값을 나타낸다. 그리고, Delay4는 비상관부(801)에서 비상관성 필터를 적용함에 따라 발생되는 지연값을 나타낸다.
그리고, 제2 디코딩부(304)에서 출력된 N개의 채널 신호가 QMF 신호인 경우, 지연부(803)의 지연값은 하기 수학식 7에 따라 결정될 수 있다.
Figure PCTKR2014003126-appb-I000013
먼저 복수의 비상관부(801)들 각각은 제2 디코딩부(304)에 입력된 M개의 채널 신호로부터 비상관성 신호를 생성할 수 있다. 복수의 비상관부(801)들 각각에서 생성된 비상관성 신호는 업믹싱부(802)에 입력될 수 있다.
이 때, MPS에서 비상관성 신호를 생성하는 것과 달리, 복수의 비상관부(801)는 M개의 채널 신호를 이용하여 비상관성 신호를 생성할 수 있다. 즉, 인코더에서 전달된 M개의 채널 신호를 비상관성 신호를 생성할 때 이용하는 경우, 다채널 신호의 음장을 재현할 때 음질 열화가 발생되지 않을 수 있다.
이하에서는, 제2 디코딩부(304)에 포함된 업믹싱부(802)의 동작에 대해 설명하기로 한다. 제2 디코딩부(304)에 입력되는 M개의 채널 신호는
Figure PCTKR2014003126-appb-I000014
로 정의될 수 있다. 그리고, M개의 채널 신호를 이용하여 생성되는 M개의 비상관성 신호는
Figure PCTKR2014003126-appb-I000015
로 정의될 수 있다. 또한, 제2 디코딩부(304)를 통해 출력되는 N개의 채널 신호는
Figure PCTKR2014003126-appb-I000016
로 정의될 수 있다.
그러면, 제2 디코딩부(304)는 하기 수학식 8에 따라 N개의 채널 신호를 출력할 수 있다.
Figure PCTKR2014003126-appb-I000017
여기서, M(n)은 n개의 샘플 시간에서 M개의 채널 신호에 대해 업믹싱을 수행하기 위한 행렬을 의미한다. 이 때, M(n)은 하기 수학식 9로 정의될 수 있다.
Figure PCTKR2014003126-appb-I000018
수학식 9에서
Figure PCTKR2014003126-appb-I000019
은 2x2 영행렬이며,
Figure PCTKR2014003126-appb-I000020
는 2x2 행렬로서 하기 수학식 10과 같이 정의될 수 있다.
Figure PCTKR2014003126-appb-I000021
여기서,
Figure PCTKR2014003126-appb-I000022
의 구성요소인
Figure PCTKR2014003126-appb-I000023
은 인코더로부터 전송된 공간큐로부터 도출될 수 있다. 인코더로부터 실제로 전송되는 공간큐는 프레임 단위인 b 인덱스마다 결정될 수 있으며, 샘플 단위로 적용되는
Figure PCTKR2014003126-appb-I000024
은 서로 이웃한 프레임간의 보간(interpolation)에 의해 결정될 수 있다.
Figure PCTKR2014003126-appb-I000025
은 MPS 방법에 따라 하기 수학식 11에 의해 결정될 수 있다.
Figure PCTKR2014003126-appb-I000026
수학식 11에서,
Figure PCTKR2014003126-appb-I000027
은 CLD로부터 도출될 수 있다. 그리고,
Figure PCTKR2014003126-appb-I000028
Figure PCTKR2014003126-appb-I000029
는 CLD와 ICC로부터 도출될 수 있다. 수학식 11은 MPS에 정의된 공간큐의 처리 방식에 따라 도출될 수 있다.
그리고 수학식 8에서, 연산자
Figure PCTKR2014003126-appb-I000030
는 벡터들의 각 요소들을 인터레이스(interlace)하여 새로운 백터 열을 생성하기 위한 연산자를 나타낸다. 수학식 8에서
Figure PCTKR2014003126-appb-I000031
은 하기 수학식 12에 따라 결정될 수 있다.
Figure PCTKR2014003126-appb-I000032
이러한 과정을 통해 수학식 8은 하기 수학식 13로 표현될 수 있다.
Figure PCTKR2014003126-appb-I000033
수학식 13에서, 입력 신호와 출력 신호의 처리 과정을 분명하게 나타내기 위해 { }가 사용되었다. 수학식 12에 의해서 M개의 채널 신호와 비상관성 신호는 서로 짝을 이루어서, 업믹싱 행렬인 수학식 13의 입력이 될 수 있다. 즉, 수학식 13에 의하면, M개의 채널 신호마다 비상관성 신호를 적용함으로써 업믹싱 과정에서의 음질의 왜곡이 최소화될 수 있고, 음장 효과도 최대한 원래 신호에 가깝게 생성될 수 있다.
위에서 설명한 수학식 13는 하기 수학식 14으로도 표현될 수 있다.
Figure PCTKR2014003126-appb-I000034
도 9는 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제2 도면이다.
도 9를 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 디코딩하여 N개의 채널 신호를 출력할 수 있다. 인코더에 입력된 N개의 채널 신호가 N'개의 채널 신호와 K개의 채널 신호로 구성되는 경우, 제2 디코딩부(304)도 인코더에서 처리한 결과를 반영하여 처리할 수 있다.
예를 들어서, 제2 디코딩부(304)에 입력되는 M개의 채널 신호가 수학식 5를 만족한다고 가정하면, 도 9와 같이 제2 디코딩부(304)는 복수의 지연부(903)들을 포함할 수 있다.
이 때, 수학식 5를 만족하는 M개의 채널 신호에 대해 N'가 홀수인 경우, 제2 디코딩부(304)는 도 9와 같은 구조를 가질 수 있다. 만약, 수학식 5를 만족하는 M개의 채널 신호에 대해 N'가 짝수인 경우, 도 9의 제2 디코딩부(304)에서 업믹싱부(902) 아래에 위치한 1개의 지연부(903)가 제외될 수 있다.
도 10은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제3 도면이다.
도 10을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 디코딩하여 N개의 채널 신호를 출력할 수 있다. 이 때, 도 10에 도시된 제2 디코딩부(304)에서 업믹싱부(1002)는 OTT(One-To-Two) 구조를 나타내는 복수의 신호 처리부(1003)들을 포함할 수 있다.
이 때, 복수의 신호 처리부(1003)들 각각은 M개의 채널 신호들 중 하나의 채널 신호와 비상관부(1001)에서 생성한 비상관성 신호를 이용하여 2개의 채널 신호를 생성할 수 있다. 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N-1개의 채널 신호를 생성할 수 있다.
만약에, N이 짝수인 경우, 제2 디코딩부(304)에서 지연부(1004)는 제외될 수 있다. 그러면, 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N개의 채널 신호를 생성할 수 있다.
신호 처리부(1003)는 수학식 14에 따라 업믹싱할 수 있다. 그리고, 모든 신호 처리부(1003)에서 수행되는 업믹싱 과정은 수학식 13와 같은 하나의 업믹싱 행렬로 표현될 수 있다.
도 11은 일실시예에 따른 도 3을 구현한 예시를 도시한 도면이다.
도 11을 참고하면, 제1 인코딩부(301)는 TTO 구조의 복수의 다운믹싱부(1101)와 복수의 지연부(1102)를 포함할 수 있다. 그리고, 제2 인코딩부(302)는 복수의 USAC 인코더(1103)들을 포함할 수 있다. 한편, 제1 디코딩부(303)는 복수의 USAC 디코더(1106)를 포함할 수 있고, 제2 디코딩부(304)는 OTT 구조의 복수의 업믹싱부(304)와 복수의 지연부(1108)를 포함할 수 있다.
도 11을 참고하면, 제1 인코딩부(301)는 N개의 채널 신호를 이용하여 M개의 채널 신호를 출력할 수 있다. 이 때, M개의 채널 신호는 제2 인코딩부(302)에 입력될 수 있다. 이 때, M개의 채널 신호들 중에서 TTO 구조의 다운믹싱부(1101)를 거친 채널 신호의 쌍들은 제2 인코딩부(302)에 포함된 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다.
그리고, M개의 채널 신호들 중에서 TTO 구조의 다운믹싱부(1101)를 거치지 않고 지연부(1102)를 거친 채널 신호는 USAC 인코더(1103)에서 모노 형태 또는 스테레오 형태로 인코딩될 수 있다. 다시 말해서, M개의 채널 신호들 중 지연부(1102)를 거친 1개의 채널 신호는 USAC 인코더(1103)에서 모노 형태로 인코딩될 수 있다. 그리고, M개의 채널 신호들 중 2개의 지연부(1102)를 거친 2개의 채널 신호는 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다.
M개의 채널 신호는 제2 인코딩부(302)에서 인코딩되어 복수의 비트스트림들로 생성될 수 있다. 그리고, 복수의 비트스트림들은 다중화부(1104)를 통해 하나의 비트스트림으로 재포맷될 수 있다.
다중화부(1104)에서 생성된 비트스트림은 역다중화부(1104)에 전달되며, 역다중화부(1105)는 비트스트림을 제1 디코딩부(303)에 포함된 USAC 디코더(303)에 대응되는 복수의 비트스트림들로 역다중화할 수 있다.
역다중화된 복수의 비트스트림들은 제1 디코딩부(303)에 포함된 USAC 디코더(1106)에 각각 입력될 수 있다. 그리고, USAC 디코더(303)는 제2 인코딩부(302)에 포함된 USAC 인코더(1103)가 인코딩한 방식에 따라 디코딩할 수 있다. 그러면, 제1 디코딩부(303)는 복수의 비트스트림으로부터 M개의 채널 신호를 출력할 수 있다.
이후, 제2 디코딩부(304)는 M개의 채널 신호를 이용하여 N개의 채널 신호를 출력할 수 있다. 이 때, 제2 디코딩부(304)는 OTT 구조의 업믹싱부(1107)를 이용하여 입력된 M개의 채널 신호의 일부를 업믹싱할 수 있다. 구체적으로, M개의 채널 신호 중 하나의 채널 신호는 업믹싱부(1107)에 입력되고, 업믹싱부(1107)는 하나의 채널 신호와 비상관성 신호를 이용하여 2개의 채널 신호를 생성할 수 있다. 일례로, 업믹싱부(1107)는 수학식 14를 이용하여 2개의 채널 신호를 생성할 수 있다.
한편, 복수의 업믹싱부(1107)들 각각이 수학식 14에 대응하는 업믹싱 행렬을 이용하여 M번만큼 업믹싱을 수행함으로써, 제2 디코딩부(304)는 M개의 채널 신호를 생성할 수 있다. 그래서, 수학식 13는 수학식 14에 따른 업믹싱을 M번만큼 수행하여야 도출되는 것이므로, 수학식 13의 M은 제2 디코딩부(304)에 포함된 업믹싱부(1107)의 개수와 동일할 수 있다.
그리고, N개의 채널 신호들 중 제1 인코딩부(301)에서 TTO 구조의 다운믹싱부(1101)가 아닌 지연부(1102)에서 처리된 K개의 채널 신호들은 제2 디코딩부(304)에서 OTT 구조의 업믹싱부(1107)가 아닌 지연부(1108)에서 처리될 수 있다.
도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.
도 12를 참고하면, N개의 채널 신호는 2개씩 쌍을 이루어 제1 인코딩부(301)에 포함된 다운믹싱부(1201)에 입력될 수 있다. 다운믹싱부(1201)는 TTO 구조를 가지며, 2개의 채널 신호를 다운믹싱하여 1개의 채널 신호를 출력할 수 있다. 제1 인코딩부(301)는 병렬적으로 배치된 복수의 다운믹싱부(1201)를 이용하여 N개의 채널 신호로부터 M개의 채널 신호를 출력할 수 있다.
그러면, 제2 인코딩부(302)에 포함된 스테레오 타입의 USAC 인코더(1202)는 2개의 다운믹싱부(1201)에서 출력된 2개의 채널 신호를 인코딩하여 비트스트림을 생성할 수 있다.
그리고, 제1 디코딩부(303)에 포함된 스테레오 타입의 USAC 디코더(1203)는 비트스트림으로부터 M개의 채널 신호를 구성하는 2개의 채널 신호들을 출력할 수 있다. 출력된 2개의 채널 신호들은 각각 제2 디코딩부(304)에 포함된 OTT 구조를 나타내는 2개의 업믹싱부(1204)에 입력될 수 있다. 그러면, 업믹싱부(1204)는 1개의 채널 신호와 비상관성 신호를 이용하여 N개의 채널 신호를 구성하는 2개의 채널 신호들을 출력할 수 있다.
도 13은 일실시예에 따른 도 12의 제2 인코딩부와 제1 디코딩부의 세부 구성을 도시한 도면이다.
도 13에서 제2 인코딩부(302)에 포함된 USAC 인코더(1302)는 TTO 구조의 다운믹싱부(1303), SBR(Spectral Band Replication)부(1304) 및 코어 인코딩부(1305)를 포함할 수 있다.
제1 인코딩부(301)에 포함된 TTO 구조의 다운믹싱부(1301)는 N개의 채널 신호들 중 2개의 채널 신호들을 다운믹싱하여 M개의 채널 신호를 구성하는 1개의 채널 신호를 출력할 수 있다.
그러면, 제1 인코딩부(301)에 포함된 2개의 다운믹싱부(1301)에서 출력되는 2개의 채널 신호들은 USAC 인코더(1302)에 포함된 TTO 구조의 다운믹싱부(1303)에 입력될 수 있다. 다운믹싱부(1303)는 입력된 2개의 채널 신호들을 다운믹싱하여 1개의 채널 신호인 모노 신호를 생성할 수 있다.
다운믹싱부(1303)에서 생성된 모노 신호의 고주파수 대역에 대한 파라미터 인코딩을 위해 SBR부(1304)는 모노 신호에서 고주파수 대역을 제외하고 저주파수 대역만 추출할 수 있다. 그러면, 코어 인코딩부(1305)는 코어 대역에 해당하는 저주파수 대역의 모노 신호를 인코딩하여 비트스트림을 생성할 수 있다.
결론적으로, 본 발명의 일실시예에 의하면, N개의 채널 신호로부터 비트스트림을 생성하기 위해 TTO 형태의 다운믹싱 과정이 연속적으로 수행될 수 있다. 다시 말해서, TTO 구조의 다운믹싱부(1301)는 N개의 채널 신호들 중 스테레오 형태의 2개의 채널 신호를 다운믹싱할 수 있다. 그리고, 2개의 다운믹싱부(1301) 각각에서 출력된 채널 신호는 M개의 채널 신호의 일부로서, TTO 구조의 다운믹싱부(1303)에 입력될 수 있다. 즉, N개의 채널 신호들 중 4개의 채널 신호는 연속적으로 TTO 형태의 다운믹싱을 통해 1개의 채널 신호로 출력될 수 있다.
그리고, 제2 인코딩부(302)에서 생성된 비트스트림은 제1 디코딩부(302)의 USAC 디코더(1306)에 입력될 수 있다. 도 13에서 제2 인코딩부(302)에 포함된 USAC 디코더(1306)는 코어 디코딩부(1307), SBR부(1308), OTT 구조의 업믹싱부(1309)를 포함할 수 있다.
코어 디코딩부(1307)는 비트스트림을 이용하여 저주파수 대역에 대응하는 코어 대역의 모노 신호를 출력할 수 있다. 그러면, SBR부(1308)는 모노 신호의 저주파수 대역을 복사하여 고주파수 대역을 복원할 수 있다. 업믹싱부(1309)는 SBR부(1308)에서 출력된 모노 신호를 업믹싱하여 M개의 채널 신호를 구성하는 스테레오 신호를 생성할 수 있다.
그러면, 제2 디코딩부(304)에 포함된 OTT 구조의 업믹싱부(1310)는 제1 디코딩부(302)에서 생성한 스테레오 신호에 포함된 모노 신호를 업믹싱하여 스테레오 신호를 생성할 수 있다.
결론적으로, 본 발명의 일실시예에 의하면, 비트스트림으로부터 N개의 채널 신호를 생성하기 위해 OTT 형태의 업믹싱 과정이 연속적으로 수행될 수 있다. 다시 말해서, OTT 구조의 업믹싱부(1309)는 모노 신호를 업믹싱하여 스테레오 신호를 생성할 수 있다. 그리고, 업믹싱부(1309)의 출력 신호인 스테레오 신호를 구성하는 2개의 모노 신호는 OTT 구조의 업믹싱부(1310)에 입력될 수 있다. OTT 구조의 업믹싱부(1301)는 입력된 모노 신호를 업믹싱하여 스테레오 신호를 출력할 수 있다. 즉, 모노 신호를 연속적으로 OTT 형태의 업믹싱을 통해 4개의 채널 신호를 생성할 수 있다.
도 14는 일실시예에 따른 도 11의 제1 인코딩부와 제2 인코딩부를 결합하고, 제1 디코딩부와 제2 디코딩부를 결합한 결과를 도시한 도면이다.
도 11의 제1 인코딩부와 제2 인코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 인코딩부(1401)로 구현될 수 있다. 그리고, 도 11의 제1 디코딩부와 제2 디코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 디코딩부(1402)로 구현된 결과를 나타낸다.
도 14의 인코딩부(1401)는 TTO 구조의 다운믹싱부(1405), SBR부(1406) 및 코어 인코딩부(1407)를 포함하는 USAC 인코더에 TTO 구조의 다운믹싱부(1404)를 추가로 포함하는 인코딩부(1403)를 포함할 수 있다. 이 때, 인코딩부(1401)는 병렬 구조로 배치된 복수의 인코딩부(1403)를 포함할 수 있다. 또는, 인코딩부(1403)는 TTO 구조의 다운믹싱부(1404)를 포함하는 USAC 인코더에 대응될 수 있다.
즉, 본 발명의 일실시예에 따르면, 인코딩부(1403)는 N개의 채널 신호들 중 4개의 채널 신호에 TTO 형태의 다운믹싱을 연속적으로 적용함으로써 모노 신호를 생성할 수 있다.
동일한 방식으로, 도 14의 디코딩부(1402)는 코어 디코딩부(1411), SBR부(1412) 및 OTT 구조의 업믹싱부(1413)를 포함하는 USAC 디코더에 OTT 구조의 업믹싱부(1404)를 추가로 포함하는 디코딩부(1410)를 포함할 수 있다. 이 때, 디코딩부(1402)는 병렬 구조로 배치된 복수의 디코딩부(1410)를 포함할 수 있다. 또는, 디코딩부(1410)는 OTT 구조의 업믹싱부(1404)를 포함하는 USAC 디코더에 대응될 수 있다.
즉, 본 발명의 일실시예에 따르면, 디코딩부(1410)는 모노 신호에 OTT 형태의 업믹싱을 연속적으로 적용함으로써 N개의 채널 신호들 중 4개의 채널 신호를 생성할 수 있다.
도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.
도 15에서 인코딩부(1501)는 도 14의 인코딩부(1403)에 대응될 수 있다. 여기서, 인코딩부(1501)는 수정된 USAC 인코더에 대응될 수 있다. 즉, 수정된 USAC 인코더는 TTO 구조의 다운믹싱부(1504), SBR부(1505) 및 코어 인코딩부(1506)를 포함하는 원래의 USAC 인코더에 TTO 구조의 다운믹싱부(1503)를 추가적으로 포함함으로써 구현될 수 있다.
그리고, 도 15에서 디코딩부(1502)는 도 14의 디코딩부(1410)에 대응될 수 있다. 여기서, 디코딩부(1502)는 수정된 USAC 디코더에 대응될 수 있다. 즉, 수정된 USAC 디코더는 코어 디코딩부(1507), SBR부(1508) 및 OTT 구조의 업믹싱부(1509)를 포함하는 원래의 USAC 디코더에 OTT 구조의 업믹싱부(1510)를 추가적으로 포함함으로써 구현될 수 있다.
도 16은 일실시예에 따른 도 1의 3D 오디오 인코더의 USAC 3D 인코더가 QCE 모드에 따라 동작하는 예시를 도시한 도면이다.
QCE(Quadruple Channel Element) 모드는 USAC 3D 인코더가 4개의 채널 신호를 이용하여 2개의 CPE(Channel Prediction Element)를 생성하도록 하는 동작 모드를 의미할 수 있다. qceIndex라는 플래그를 통해 USAC 3D 인코더는 QCE 모드로 동작할 지 여부를 판단할 수 있다.
도 16을 참고하면, 스테레오 툴(tool)에 기초한 MPEG Surround인 MPS 2-1-2부(1601)은 수직 채널 쌍(Vertical Channel Pair)을 구성하는 Left Upper Channel과 Left Lower Channel을 결합할 수 있다. 구체적으로, MPS 2-1-2부(1601)은 Left Upper Channel과 Left Lower Channel을 다운믹싱하여 Downmix L을 생성할 수 있다. 만약에, MPS 2-1-2(1601)대신 Unified Stereo부(1601)가 사용되는 경우, Unified Stereo부(1601)는 Left Upper Channel과 Left Lower Channel을 다운믹싱하여 Downmix L 및 Residual L을 생성할 수 있다
동일하게, MPS 2-1-2부(1602)은 수직 채널 쌍을 구성하는 Right Upper Channel과 Right Lower Channel을 결합할 수 있다. 구체적으로, MPS 2-1-2부(1602)은 Right Upper Channel과 Right Lower Channel을 다운믹싱하여 Downmix R을 생성할 수 있다. 만약에, MPS 2-1-2부(1602)대신 Unified Stereo부(1602)가 사용되는 경우, Unified Stereo부(1602)는 Right Upper Channel과 Right Lower Channel을 다운믹싱하여 Downmix R 및 Residual R을 생성할 수 있다
그러면, Joint Stereo Encoding부(1605)는 Complex Stereo Prediction의 확률을 이용하여 Downmix L과 Downmix R을 결합할 수 있다. 동일한 방식으로, Joint Stereo Encoding부(1606)는 Complex Stereo Prediction의 확률을 이용하여 Residual L과 Residual R을 결합할 수 있다.
Stereo SBR부(1603)는 수평 채널 쌍(horizontal channel pair)을 구성하는 Left Upper Channel과 Right Upper Channel에 SBR을 적용할 수 있다. 마찬가지로, Stereo SBR부(1604)는 수평 채널 쌍을 구성하는 Left Lower Channel과 Right Lower Channel에 SBR을 적용할 수 있다.
도 16의 USAC 3D 인코더는 4개의 채널 신호인 Left Upper Channel, Right Upper Channel, Left Lower Channel 및 Right Lower Channel를 QCE 모드를 통해 인코딩할 수 있다. 구체적으로, 도 16의 USAC 3D 인코더는 Stereo SBR부(1603) 또는 Stereo SBR부(1605)를 적용하기 이전이나 이후에 제1 요소(element)의 제2 채널과 제2 요소의 제1 채널을 스와핑(swapping)함으로써 QCE 모드에 따라 인코딩할 수 있다.
또는, 도 16의 USAC 3D 인코더는 MPS 2-1-2부(1601)와 Joint Stereo Encoding부(1605)를 적용하기 이전이나 이후 또는 MPS 2-1-2부(1602)와 Joint Stereo Encoding부(1605)를 적용하기 이전이나 이후에 제1 요소(element)의 제2 채널과 제2 요소의 제1 채널을 스와핑(swapping)함으로써 QCE 모드에 따라 인코딩할 수 있다.
도 17은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 인코더의 USAC 3D 인코더를 도시한 도면이다.
도 17은 도 16에서 설명한 사항을 도식화한 것이다. USAC 3D 인코더에 채널 신호 Ch_in_L_1, Ch_in_L_2, Ch_in_R_1 및 Ch_in_R_2가 입력된다고 가정한다. 도 17을 참고하면, 채널 신호 Ch_in_L_2는 스와핑되어 Stereo SBR부(1702)에 입력되고, 채널 신호 Ch_in_R_1는 스와핑되어 Stereo SBR부(1701)에 입력될 수 있다.
그러면, Stereo SBR부(1701)는 sbr_out_L_1와 sbr_out_R_1를 출력하고, Stereo SBR부(1702)는 sbr_out_L_2와 sbr_out_R_2를 출력할 수 있다. 그러면서, Stereo SBR부(1701)는 SBR Payload를 Bitstream Encoding부(1707)에 전달하고, Stereo SBR부(1702)는 SBR Payload를 Bitstream Encoding부(1708)에 전달할 수 있다.
그리고, Stereo SBR부(1702)에서 출력된 sbr_out_L_2는 스와핑되어 MPS 2-1-2부(1703)에 입력될 수 있다. 또한, Stereo SBR부(1701)에서 출력된 sbr_out_L_1는 MPS 2-1-2부(1703)에 입력될 수 있다. 한편, Stereo SBR부(1701)에서 출력된 sbr_out_R_1는 스와핑되어 MPS 2-1-2부(1704)에 입력될 수 있다. 또한, Stereo SBR부(1702)에서 출력된 sbr_out_R_2는 MPS 2-1-2부(1704)에 입력될 수 있다. 그리고, MPS 2-1-2부(1703)는 MPS Payload를 Bitstream Encoding부(1707)에 전달하고, MPS 2-1-2부(1704)는 MPS Payload를 Bitstream Encoding부(1708)에 전달할 수 있다. 도 17에서 MPS 2-1-2부(1703)는 Unified Stereo부(1703)로 대체되고, MPS 2-1-2부(1704)는 Unified Stereo부(1704)로 대체될 수 있다.
그리고, MPS 2-1-2부(1703)에서 출력된 mps_dmx_L은 Joint Stereo Encoding부(1705)에 입력될 수 있다. 한편, MPS 2-1-2부(1703)가 Unified Stereo부(1703)로 대체된 경우, Unified Stereo부(1703)에서 출력된 mps_dmx_L은 Joint Stereo Encoding부(1705)에 입력되고, mps_res_L은 스와핑되어 Joint Stereo Encoding부(1706)에 입력될 수 있다.
또한, MPS 2-1-2부(1704)에서 출력된 mps_dmx_R은 스와핑되어 Joint Stereo Encoding부(1705)에 입력될 수 있다. 한편, MPS 2-1-2부(1703)가 Unified Stereo부(1703)로 대체된 경우, Unified Stereo부(1703)에서 출력된 mps_dmx_R은 스와핑되어 Joint Stereo Encoding부(1705)에 입력되고, mps_res_R은 Joint Stereo Encoding부(1706)에 입력될 수 있다. 그리고, Joint Stereo Encoding부(1705)는 CplxPred Payload를 Bitstream Encoding부(1707)에 전달하고, Joint Stereo Encoding부(1706)는 CplxPred Payload를 Bitstream Encoding부(1708)에 전달할 수 있다.
MPS 2-1-2부(1703)와 MPS 2-1-2부(1704)는 TTO(Two-To-One) 구조를 통해 스테레오 신호를 다운믹싱하여 모노 신호를 출력할 수 있다.
Bitstream Encoding부(1707)는 Joint Stereo Encoding부(1705)에서 출력된 스테레오 신호를 인코딩하여 CPE1에 대응하는 비트스트림을 생성할 수 있다. 마찬가지로, Bitstream Encoding부(1708)는 Joint Stereo Encoding부(1706)에서 출력된 스테레오 신호를 인코딩하여 CPE2에 대응하는 비트스트림을 생성할 수 있다.
도 18은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 디코더의 USAC 3D 디코더를 도시한 도면이다.
도 18에서 표현되고 있는 채널 신호들은 표 1과 같이 정의될 수 있다.
Figure PCTKR2014003126-appb-I000035
Figure PCTKR2014003126-appb-I000036
도 17에서 생성된 CPE1에 대응하는 비트스트림은 Bitstream Decoding부(1801)에 입력되고, CPE2에 대응하는 비트스트림은 Bitstream Decoding부(1802)에 입력된다고 가정한다.
QCE(Quadruple Channel Element) 모드는 USAC 3D 디코더가 2개의 연속적인 CPE(Channel Prediction Element)를 이용하여 4개의 채널 신호를 생성하도록 하는 동작 모드를 의미할 수 있다. 구체적으로, QCE 모드는 USAC 3D 디코더가 수평적으로(horizontally) 또는 수직적으로(vertically) 배분된 4개의 채널 신호를 보다 효율적으로 Joint Coding할 수 있도록 한다.
일례로, QCE는 2개의 연속적인 CPE(Channel Pair Element)로 구성되며, 수평적으로 Joint Stereo Coding를 결합하고, 수직적으로 MPEG Surround 기반의 스테레오 툴을 결합함으로써 생성될 수 있다. 그리고, QCE는 USAC 3D 디코더에 포함된 툴(Tool)들 간에 채널 신호를 스와핑함으로써 생성될 수 있다.
USAC 3D 디코더는 UsacChannelPairElementConfig()에 포함된 qceIndex라는 플래그를 통해 QCE 모드로 동작할 지 여부를 판단할 수 있다.
표 2에 표시된 qceIndex에 따라 USAC 3D 디코더가 다르게 동작할 수 있다.
Figure PCTKR2014003126-appb-I000037
그러면, Bitstream Decoding부(1801)는 비트스트림에 포함된 CplxPred Payload를 Joint Stereo Decoding부(1803)에 전달하고, SBR Payload를 MPS 2-1-2부(1805)에 전달하며, SBR payload를 Stereo SBR부(1807)에 전달할 수 있다. 그리고, Bitstream Decoding부(1801)는 비트스트림으로부터 스테레오 신호를 추출하여 Joint Stereo Decoding부(1803)에 전달할 수 있다.
마찬가지로, Bitstream Decoding부(1802)는 비트스트림에 포함된 CplxPred Payload를 Joint Stereo Decoding부(1804)에 전달하고, SBR Payload를 MPS 2-1-2부(1806)에 전달하며, SBR payload를 Stereo SBR부(1808)에 전달할 수 있다. 그리고, Bitstream Decoding부(1802)는 비트스트림으로부터 스테레오 신호를 추출할 수 있다.
Joint Stereo Decoding부(1803)는 스테레오 신호를 이용하여 cplx_out_dmx_L과 cplx_out_dmx_R을 생성할 수 있다. 그리고, Joint Stereo Decoding부(1804)는 스테레오 신호를 이용하여 cplx_out_res_L과 cplx_out_res_R을 생성할 수 있다.
Joint Stereo Decoding부(1803)와 Joint Stereo Decoding부(1804)는 Complex Stereo Prediction의 확률을 이용하여 MDCT 도메인에서 Joint Stereo에 따라 디코딩할 수 있다. Complex Stereo Prediction은 레벨 또는 위상 차이를 가지는 2개의 채널 신호 쌍을 효율적으로 코딩하기 위한 툴이다. 왼쪽 채널과 오른쪽 채널은 하기 수학식 15에 도시된 행렬에 따라 재구성될 수 있다.
Figure PCTKR2014003126-appb-I000038
여기서, a는 복소화(complex-valued)된 파라미터를 의미하고,
Figure PCTKR2014003126-appb-I000039
는 다운믹싱된 채널 신호인
Figure PCTKR2014003126-appb-I000040
의 MDCT에 대응하는 MDST를 의미한다. res는 Complex Stereo Prediction을 통해 도출된 잔차 신호를 의미한다.
Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_L은 MPS 2-1-2부(1805)에 입력될 수 있다. 그리고, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_R은 스와핑되어 MPS 2-1-2부(1806)에 입력될 수 있다.
MPS 2-1-2부(1805)와 MPS 2-1-2부(1806)는 스테레오 기반의 MPEG Surround에 관한 것으로, 잔차 신호를 이용하지 않고 모노 신호와 비상관성 신호를 이용하여 QMF 도메인에서 스테레오 신호를 출력할 수 있다. Unified Stereo부(1805)와 Unified Stereo부(1806)는 스테레오 기반의 MPEG Surround에 모노 신호와 잔차 신호를 이용하여 QMF 도메인에서 스테레오 신호를 출력할 수 있다.
MPS 2-1-2부(1805)와 MPS 2-1-2부(1806)는 OTT(One-To-Two) 구조를 통해 모노 신호를 업믹싱하여 2개의 채널 신호로 구성된 스테레오 신호를 출력할 수 있다.
한편, MPS 2-1-2부(1805)가 Unified Stereo부(1805)로 대체되는 경우, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_L은 Unified Stereo부(1805)에 입력되고, Joint Stereo Decoding부(1804)로부터 생성된 cplx_out_res_L은 스와핑되어 Unified Stereo부(1805)에 입력될 수 있다.
동일한 방식으로, 한편, MPS 2-1-2부(1806)가 Unified Stereo부(1806)로 대체되는 경우, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_R은 스와핑되어 Unified Stereo부(1806)에 입력되고, Joint Stereo Decoding부(1804)로부터 생성된 cplx_out_res_R은 Unified Stereo부(1806)에 입력될 수 있다. Joint Stereo Decoding부(1803)와 Joint Stereo Decoding부(1804)는 코어 디코딩을 통해 저주파수 대역에 대응하는 코어 대역의 다운믹싱 신호를 출력할 수 있다.
즉, MPEG Surround 방식에 따라 디코딩되기 전에 제1 요소의 제2 채널에 대응하는 cplx_out_dmx_R과 제2 요소의 제1 채널에 대응하는 cplx_out_res_L은 스와핑될 수 있다.
그리고, MPS 2-1-2부(1805) 또는 Unified Stereo부(1805)에서 출력된 mps_out_L_1은 Stereo SBR부(1807)에 입력되고, MPS 2-1-2부(1806) 또는 Unified Stereo부(1806)에서 출력된 mps_out_R_1은 스와핑되어 Stereo SBR부(1807)에 입력될 수 있다. 마찬가지로, MPS 2-1-2부(1805) 또는 Unified Stereo부(1805)에서 출력된 mps_out_L_2은 스와핑되어 Stereo SBR부(1808)에 입력되고, MPS 2-1-2부(1806) 또는 Unified Stereo부(1806)에서 출력된 mps_out_R_2는 Stereo SBR부(1808)에 입력될 수 있다.
그런 후에, Stereo SBR(1807)은 mps_out_L_1과 mps_out_R_1을 이용하여 sbr_out_L_1과 sbr_out_R_1을 출력할 수 있다. 그리고, Stereo SBR(1808)은 mps_out_L_2과 mps_out_R_2을 이용하여 sbr_out_L_2과 sbr_out_R_2을 출력할 수 있다. 여기서, sbr_out_R_1과 mps_out_L_2는 스와핑되어 다른 구성 요소에 입력될 수 있다.
도 19는 일실시예에 따른 도 18을 간략하게 표현한 도면이다.
도 18에서 Stereo Decoding부(1804)가 cplx_out_res_L과 cplx_out_res_R을 생성하지 않고, Stereo SBR부(1807)와 Stereo SBR부(1808)가 사용되지 않는 경우, 도 18은 도 19와 같이 간략화될 수 있다. 여기서, Stereo Decoding부(1804)가 cplx_out_res_L과 cplx_out_res_R을 생성하지 않는 경우는 USAC 3D 인코더인 도 17에서 Unified Stereo부(1703)와 Unified Stereo부(1704)가 아닌 MPS 2-1-2부(1703)와 MPS 2-1-2부(1704)가 사용된 것을 의미한다. 그리고, 도 18에서 Stereo SBR부(1807)와 Stereo SBR부(1808)는 디코딩 모드에 따라 enable 또는 disable될 수 있다.
그러면, Bitstream Decoding부(1901)는 비트스트림으로부터 스테레오 신호를 생성할 수 있다. Joint Stereo Decoding부(1902)는 스테레오 신호를 이용하여 cplx_out_dmx_L과 cplx_out_dmx_R를 출력할 수 있다. 그러면, cplx_out_dmx_L은 MPS 2-1-2부(1903)에 입력되고, cplx_out_dmx_R는 스와핑되어 MPS 2-1-2부(1904)에 입력될 수 있다. MPS 2-1-2부(1903)는 cplx_out_dmx_L를 업믹싱하여 스테레오 신호인 mps_out_L_1과 mps_out_L_2를 생성할 수 있다. 한편, MPS 2-1-2부(1903)는 cplx_out_dmx_R을 업믹싱하여 스테레오 신호인 mps_out_R_1과 mps_out_R_2를 생성할 수 있다.
도 20은 일실시예에 따른 도 19의 일부 구성을 수정한 도면이다.
도 20은 도 19와 달리 Joint Stereo Decoding부(1902)가 MPS 2-1-2부(2002)로 대체된 것을 도시한다. 실제로 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 높은 경우, USAC 3D 디코더는 도 19와 같이 동작할 수 있다. 하지만, 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 낮은 경우, USAC 3D 디코더는 도 20과 같이 동작할 수 있다.
도 18에서 설명한 바와 같이, MPS 2-1-2부(2002), MPS 2-1-2부(2003) 및 MPS 2-1-2부(2004)는 OTT(One-To-Two) 구조로서 입력된 모노 신호를 업믹싱하여 2개의 채널 신호로 구성된 스테레오 신호를 출력할 수 있다.
그러면, 도 20의 경우, MPS 2-1-2부(2002) 및 MPS 2-1-2부(2003)의 동작은 도 14 및 도 15에서 도시된 바와 같이 OTT 형태의 업믹싱 과정이 연속적으로 수행되는 것에 대응될 수 있다. 마찬가지로, MPS 2-1-2부(2002) 및 MPS 2-1-2부(2004)의 동작도 OTT 형태의 업믹싱 과정이 연속적으로 수행되는 것에 대응될 수 있다.
결론적으로, 도 18에서 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 낮고 잔차 신호가 생성되지 않으며, Stereo SBR이 Disable되는 경우, QPE 모드로 동작하는 도 18의 USAC 3D 디코더는 도 13 내지 도 15에서 설명된 바와 같이 OTT 형태의 업믹싱 과정을 연속적으로 수행하는 것과 동일한 결과를 도출할 수 있다. 다시 말해서, QPE 모드로 동작하는 도 18의 USAC 3D 디코더는 모노 신호에 OTT 형태의 업믹싱을 연속적으로 적용함으로써 최종적으로 생성하고자 하는 N개의 채널 신호들 중 4개의 채널 신호(mps_out_L_1, mps_out_L_2, mps_out_R_1 및 mps_out_R_2)를 생성할 수 있다.
본 발명의 일실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부 및 제2 다운믹싱부를 이용하여 4개의 채널 신호를 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 단계; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식의 제3 다운믹싱부를 이용하여 다운믹싱함으로써 제3 채널 신호를 출력하는 단계; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에서 상기 제1 채널 신호와 제2 채널 신호를 출력하는 단계는, 상기 4개의 채널 신호를 구성하는 채널 신호의 쌍을 병렬적으로 배치된 TTO 방식의 제1 다운믹싱부와 제2 다운믹싱부를 이용하여 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력할 수 있다.
상기 다채널 신호의 인코딩 방법에서 상기 비트스트림을 생성하는 단계는, 상기 제3 채널 신호의 고주파수 대역을 제거하여 저주파수 대역에 대응하는 코어 대역을 추출하는 단계; 및 상기 제3 채널 신호의 코어 대역을 인코딩하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제1 채널 신호를 생성하는 단계; TTO 방식의 제2 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제2 채널 신호를 생성하는 단계; 및 상기 제1 채널 신호와 제2 채널 신호를 스테레오 인코딩하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호와 상기 제2 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호는 스와핑된 채널 신호일 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 채널 신호 및 제2 채널 신호 중 어느 하나는, 스와핑된 채널 신호일 수 있다.
상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되며, 상기 제2 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성될 수 있다.
본 발명의 일실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계; OTT(One-To-Two) 방식의 제1 업믹싱부를 이용하여 상기 제1 채널 신호를 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 단계; OTT 방식의 제2 업믹싱부를 이용하여 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계; 및 OTT 방식의 제3 업믹싱부를 이용하여 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제2 채널 신호를 업믹싱하고, 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제3 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제3 채널 신호를 업믹싱할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 OTT 방식의 제2 업믹싱부와 상기 OTT 방식의 제3 업믹싱부는, 병렬적으로 배치되어 독립적으로 업믹싱을 수행할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계는, 상기 비트스트림을 디코딩하여 저주파수 대역에 대응하는 코어 대역의 제1 채널 신호를 복원하는 단계; 및 상기 제1 채널 신호의 코어 대역을 확장하여 제1 채널 신호의 고주파수 대역을 복원할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 모노 신호를 복원하는 단계; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 단계; 및 상기 스테레오 신호를 구성하는 제1 채널 신호와 제2 채널 신호를 각각 병렬적인 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에서 상기 4개의 채널 신호를 출력하는 단계는, 상기 제1 채널 신호 및 상기 제1 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱하고, 상기 제2 채널 신호 및 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 스테레오 디코딩부를 이용하여 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법은 제1 대역 확장부를 이용하여 제1 업믹스 신호 및 스와핑된 제3 업믹스 신호의 고주파수 대역을 복원하는 단계; 및 제2 대역 확장부를 이용하여 스와핑된 제2 업믹스 신호 및 제4 업믹스 신호의 고주파수 대역을 복원하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 제1 스테레오 디코딩부를 이용하여 제1 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제2 스테레오 디코딩부를 이용하여 제2 채널 쌍 요소를 디코딩함으로써 제1 잔차 신호와 제2 잔차 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호 및 스와핑된 제1 잔차 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호와 제2 잔차 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 다채널 신호의 인코더는 4개의 채널 신호 중 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제1 채널 신호를 출력하는 제1 다운믹싱부; 상기 4개의 채널 신호 중 나머지 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제2 채널 신호를 출력하는 제2 다운믹싱부; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식으로 다운믹싱하여 제3 채널 신호를 출력하는 제3 다운믹싱부; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 인코딩부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 디코딩부; 상기 제1 채널 신호를 OTT(One-To-Two) 방식으로 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 제1 업믹싱부; 상기 제2 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 제3 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 모노 신호를 복원하는 디코딩부; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 제1 업믹싱부; 및 상기 스테레오 신호를 구성하는 제1 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 스테레오 신호를 구성하는 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함하고, 상기 제2 업믹싱부와 제3 업믹싱부는, 병렬적으로 배치되어 OTT 방식으로 제1 채널 신호와 제2 채널 신호를 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.
본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 채널 쌍 요소를 디코딩함으로써 제1 다운믹싱 신호와 제2 다운믹싱 신호를 출력하는 스테레오 디코딩부; 제1 다운믹싱 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및 스와핑된 제2 다운믹싱 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부를 포함할 수 있다.
그리고, 본 발명의 일실시예들은 다음과 같은 구성을 포함할 수 있다.
일실시예에 따른 다채널 신호의 인코딩 방법은 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계; 및 상기 M 개의 채널 신호를 인코딩하여 비트스트림을 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 짝수인 경우, 상기 M은 N/2일 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계는, N 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 및 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 상기 M 개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 부가 정보는, N개의 채널 신호를 다운믹싱함으로써 생성되는 공간큐를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 홀수인 경우, 상기 M은 (N-1)/2+1일 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계는, N 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 (N-1)/2 채널의 채널 신호를 출력하는 단계; 및 N 개의 채널 신호 중 그룹화되지 않은 채널 신호를 지연시키는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 그룹화되지 않은 채널 신호를 지연시키는 단계는; 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 (N-1)/2 채널의 채널 신호를 출력할 때 발생된 지연 시간을 고려하여 그룹화되지 않은 채널 신호를 지연시킬 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 N'+K이고 N'이 짝수인 경우, 상기 M은 N'/2+K일 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, N' 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 다운믹싱하여 N'/2 채널의 채널 신호를 출력하는 단계; 그룹화되지 않은 K 개의 채널 신호를 지연시키는 단계를 포함할 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 N'+K이고 N'이 홀수인 경우, 상기 M은 M은 (N'-1)/2+1+K일 수 있다.
상기 다채널 신호의 인코딩 방법에 있어서, N' 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 다운믹싱하여 (N'-1)/2 채널의 채널 신호를 출력하는 단계; 그룹화되지 않은 채널 신호와 K 개의 채널 신호를 지연시키는 단계를 포함할 수 있다.
일실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림에서 M 개의 채널 신호와 부가 정보를 디코딩하는 단계; 상기 M 개의 채널 신호와 부가 정보를 이용하여 N 개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에 있어서, 상기 N이 짝수인 경우, 상기 N은 M*2일 수 있다.
상기 다채널 신호의 디코딩 방법에 있어서, 상기 N개의 채널 신호를 출력하는 단계는 상기 M 개의 채널 신호를 이용하여 M 개의 비상관성 신호를 생성하는 단계; 및 상기 부가 정보, M 개의 채널 신호 및 상기 M 개의 비상관성 신호를 업믹싱하여 N 개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 다채널 신호의 디코딩 방법에 있어서, 상기 N이 홀수인 경우, 상기 N은 (M-1)*2+1일 수 있다.
상기 N개의 채널 신호를 출력하는 단계는, 상기 M 개의 채널 신호 중 1개의 채널 신호를 지연시키는 단계; 상기 M 개의 채널 신호 중 지연되지 않은 (M-1) 개의 채널 신호를 이용하여 (M-1) 개의 비상관성 신호를 생성하는 단계; 및 부가 정보로 상기 (M-1) 개의 채널 신호와 상기 (M-1) 개의 비상관성 신호를 업믹싱하여 (M-1)*2 개의 채널 신호를 출력하는 단계를 포함할 수 있다.
상기 M 개의 채널 신호와 부가 정보를 디코딩하는 단계는, 상기 N이 N'+K인 경우, 디코딩한 M 개의 채널 신호를 K 개의 채널 신호들과 나머지 채널 신호들로 그룹화할 수 있다.
일실시예에 따른 다채널 신호의 인코더는 다채널 신호의 인코딩 방법은 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 제1 인코딩부 및 상기 M 개의 채널 신호를 인코딩하여 비트스트림을 출력하는 제2 인코딩부를 포함할 수 있다.
일실시예에 따른 다채널 신호의 디코더는 비트스트림에서 M 개의 채널 신호와 부가 정보를 디코딩하는 제1 디코딩부; 상기 M 개의 채널 신호와 부가 정보를 이용하여 N 개의 채널 신호를 출력하는 제2 디코딩부를 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. TTO(Two-To-One) 방식의 제1 다운믹싱부 및 제2 다운믹싱부를 이용하여 4개의 채널 신호를 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 단계;
    상기 제1 채널 신호와 제2 채널 신호를 TTO 방식의 제3 다운믹싱부를 이용하여 다운믹싱함으로써 제3 채널 신호를 출력하는 단계; 및
    상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 단계
    를 포함하는 다채널 신호의 인코딩 방법.
  2. 제1항에 있어서,
    상기 제1 채널 신호와 제2 채널 신호를 출력하는 단계는,
    상기 4개의 채널 신호를 구성하는 채널 신호의 쌍을 병렬적으로 배치된 TTO 방식의 제1 다운믹싱부와 제2 다운믹싱부를 이용하여 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 다채널 신호의 인코딩 방법.
  3. 제1항에 있어서,
    상기 비트스트림을 생성하는 단계는,
    상기 제3 채널 신호의 고주파수 대역을 제거하여 저주파수 대역에 대응하는 코어 대역을 추출하는 단계; 및
    상기 제3 채널 신호의 코어 대역을 인코딩하는 단계
    를 포함하는 다채널 신호의 인코딩 방법.
  4. TTO(Two-To-One) 방식의 제1 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제1 채널 신호를 생성하는 단계;
    TTO 방식의 제2 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제2 채널 신호를 생성하는 단계; 및
    상기 제1 채널 신호와 제2 채널 신호를 스테레오 인코딩하는 단계
    를 포함하는 다채널 신호의 인코딩 방법.
  5. 제4항에 있어서,
    상기 제1 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호와 상기 제2 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호는 스와핑된 채널 신호인 다채널 신호의 인코딩 방법.
  6. 제4항에 있어서,
    상기 제1 채널 신호 및 제2 채널 신호 중 어느 하나는, 스와핑된 채널 신호인 다채널 신호의 인코딩 방법.
  7. 제4항에 있어서,
    상기 제1 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되며,
    상기 제2 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되는 다채널 신호의 인코딩 방법.
  8. 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계;
    OTT(One-To-Two) 방식의 제1 업믹싱부를 이용하여 상기 제1 채널 신호를 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 단계;
    OTT 방식의 제2 업믹싱부를 이용하여 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계; 및
    OTT 방식의 제3 업믹싱부를 이용하여 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계
    를 포함하는 다채널 신호의 디코딩 방법.
  9. 제8항에 있어서,
    상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는,
    상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제2 채널 신호를 업믹싱하고,
    상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는,
    상기 제3 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제3 채널 신호를 업믹싱하는 다채널 신호의 디코딩 방법.
  10. 제9항에 있어서,
    상기 OTT 방식의 제2 업믹싱부와 상기 OTT 방식의 제3 업믹싱부는, 병렬적으로 배치되어 독립적으로 업믹싱을 수행하는 다채널 신호의 디코딩 방법.
  11. 제9항에 있어서,
    상기 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계는,
    상기 비트스트림을 디코딩하여 저주파수 대역에 대응하는 코어 대역의 제1 채널 신호를 복원하는 단계; 및
    상기 제1 채널 신호의 코어 대역을 확장하여 제1 채널 신호의 고주파수 대역을 복원하는 단계
    를 포함하는 다채널 신호의 디코딩 방법.
  12. 비트스트림을 디코딩하여 모노 신호를 복원하는 단계;
    모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 단계; 및
    상기 스테레오 신호를 구성하는 제1 채널 신호와 제2 채널 신호를 각각 병렬적인 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 단계
    를 포함하는 다채널 신호의 디코딩 방법.
  13. 제12항에 있어서,
    상기 4개의 채널 신호를 출력하는 단계는,
    상기 제1 채널 신호 및 상기 제1 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱하고, 상기 제2 채널 신호 및 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 다채널 신호의 디코딩 방법.
  14. 스테레오 디코딩부를 이용하여 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계;
    제1 업믹싱부를 이용하여 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계;
    제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계
    를 포함하는 다채널 신호의 디코딩 방법.
  15. 제14항에 있어서,
    제1 대역 확장부를 이용하여 제1 업믹스 신호 및 스와핑된 제3 업믹스 신호의 고주파수 대역을 복원하는 단계; 및
    제2 대역 확장부를 이용하여 스와핑된 제2 업믹스 신호 및 제4 업믹스 신호의 고주파수 대역을 복원하는 단계
    를 더 포함하는 다채널 신호의 디코딩 방법.
  16. 제1 스테레오 디코딩부를 이용하여 제1 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계;
    제2 스테레오 디코딩부를 이용하여 제2 채널 쌍 요소를 디코딩함으로써 제1 잔차 신호와 제2 잔차 신호를 출력하는 단계;
    제1 업믹싱부를 이용하여 제1 다운믹스 신호 및 스와핑된 제1 잔차 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및
    제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호와 제2 잔차 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계
    를 포함하는 다채널 신호의 디코딩 방법.
  17. 4개의 채널 신호 중 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제1 채널 신호를 출력하는 제1 다운믹싱부;
    상기 4개의 채널 신호 중 나머지 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제2 채널 신호를 출력하는 제2 다운믹싱부;
    상기 제1 채널 신호와 제2 채널 신호를 TTO 방식으로 다운믹싱하여 제3 채널 신호를 출력하는 제3 다운믹싱부; 및
    상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 인코딩부
    를 포함하는 다채널 신호의 인코더.
  18. 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 디코딩부;
    상기 제1 채널 신호를 OTT(One-To-Two) 방식으로 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 제1 업믹싱부
    상기 제2 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및
    상기 제3 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부
    를 포함하는 다채널 신호의 디코더.
  19. 비트스트림을 디코딩하여 모노 신호를 복원하는 디코딩부;
    모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 제1 업믹싱부; 및
    상기 스테레오 신호를 구성하는 제1 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부;
    상기 스테레오 신호를 구성하는 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부
    를 포함하고,
    상기 제2 업믹싱부와 제3 업믹싱부는,
    병렬적으로 배치되어 OTT 방식으로 제1 채널 신호와 제2 채널 신호를 업믹싱함으로써 4개의 채널 신호를 출력하는 다채널 신호의 디코더.
  20. 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 스테레오 디코딩부;
    제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및
    스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부
    를 포함하는 다채널 신호의 디코더.
PCT/KR2014/003126 2013-04-10 2014-04-10 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법 WO2014168439A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/783,767 US9679571B2 (en) 2013-04-10 2014-04-10 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
US15/620,119 US10102863B2 (en) 2013-04-10 2017-06-12 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
US16/126,964 US11037578B2 (en) 2013-04-10 2018-09-10 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
US16/786,817 US11056122B2 (en) 2013-04-10 2020-02-10 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
KR10-2013-0039272 2013-04-10
KR20130039272 2013-04-10
KR20130079230 2013-07-05
KR10-2013-0079230 2013-07-05
KR20130105727A KR20140122990A (ko) 2013-04-10 2013-09-03 다채널 오디오 신호 부호화/복호화 장치 및 방법
KR10-2013-0105727 2013-09-03
KR20130122638 2013-10-15
KR10-2013-0122638 2013-10-15
KR10-2014-0042972 2014-04-10
KR20140042972A KR20140123015A (ko) 2013-04-10 2014-04-10 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/783,767 A-371-Of-International US9679571B2 (en) 2013-04-10 2014-04-10 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
US15/620,119 Continuation US10102863B2 (en) 2013-04-10 2017-06-12 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Publications (1)

Publication Number Publication Date
WO2014168439A1 true WO2014168439A1 (ko) 2014-10-16

Family

ID=51689775

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/003126 WO2014168439A1 (ko) 2013-04-10 2014-04-10 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법

Country Status (1)

Country Link
WO (1) WO2014168439A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014295360B2 (en) * 2013-07-22 2017-10-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10529342B2 (en) 2014-12-31 2020-01-07 Electronics And Telecommunications Research Institute Method for encoding multi-channel audio signal and encoding device for performing encoding method, and method for decoding multi-channel audio signal and decoding device for performing decoding method
US11328734B2 (en) 2014-12-31 2022-05-10 Electronics And Telecommunications Research Institute Encoding method and encoder for multi-channel audio signal, and decoding method and decoder for multi-channel audio signal

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236583A1 (en) * 2002-06-24 2003-12-25 Frank Baumgarte Hybrid multi-channel/cue coding/decoding of audio signals
KR20070091562A (ko) * 2006-03-06 2007-09-11 엘지전자 주식회사 신호 디코딩 방법 및 장치
KR20100095586A (ko) * 2008-01-01 2010-08-31 엘지전자 주식회사 신호 처리 방법 및 장치
KR20110018728A (ko) * 2009-08-18 2011-02-24 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR20130029253A (ko) * 2011-09-14 2013-03-22 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236583A1 (en) * 2002-06-24 2003-12-25 Frank Baumgarte Hybrid multi-channel/cue coding/decoding of audio signals
KR20070091562A (ko) * 2006-03-06 2007-09-11 엘지전자 주식회사 신호 디코딩 방법 및 장치
KR20100095586A (ko) * 2008-01-01 2010-08-31 엘지전자 주식회사 신호 처리 방법 및 장치
KR20110018728A (ko) * 2009-08-18 2011-02-24 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR20130029253A (ko) * 2011-09-14 2013-03-22 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014295360B2 (en) * 2013-07-22 2017-10-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9940938B2 (en) 2013-07-22 2018-04-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9953656B2 (en) 2013-07-22 2018-04-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10147431B2 (en) 2013-07-22 2018-12-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US10741188B2 (en) 2013-07-22 2020-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10770080B2 (en) 2013-07-22 2020-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US11488610B2 (en) 2013-07-22 2022-11-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US11657826B2 (en) 2013-07-22 2023-05-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10529342B2 (en) 2014-12-31 2020-01-07 Electronics And Telecommunications Research Institute Method for encoding multi-channel audio signal and encoding device for performing encoding method, and method for decoding multi-channel audio signal and decoding device for performing decoding method
US11328734B2 (en) 2014-12-31 2022-05-10 Electronics And Telecommunications Research Institute Encoding method and encoder for multi-channel audio signal, and decoding method and decoder for multi-channel audio signal

Similar Documents

Publication Publication Date Title
WO2010107269A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2010087614A2 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2010050740A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2010062123A2 (ko) 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2012044076A2 (ko) 비디오의 부호화 방법 및 장치, 복호화 방법 및 장치
WO2018038554A1 (ko) 이차 변환을 이용한 비디오 신호의 인코딩/디코딩 방법 및 장치
WO2013183977A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2015099424A1 (ko) 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
WO2017014585A1 (ko) 그래프 기반 변환을 이용하여 비디오 신호를 처리하는 방법 및 장치
WO2016204581A1 (ko) 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2017010850A1 (ko) 분리 가능한 그래프 기반 변환을 이용하여 비디오 신호를 처리하는 방법 및 장치
WO2014168439A1 (ko) 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
WO2016032021A1 (ko) 음성 명령 인식을 위한 장치 및 방법
WO2011071325A2 (en) Method and apparatus for encoding and decoding image by using rotational transform
WO2009116815A2 (en) Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
WO2022158912A1 (ko) 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2020032632A1 (ko) 영상의 부호화/복호화 방법 및 이를 위한 장치
WO2015170899A1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
WO2015093742A1 (en) Method and apparatus for encoding/decoding an audio signal
WO2022158943A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2023210978A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2022065933A1 (ko) 오디오의 부호화 장치 및 방법, 및 오디오의 복호화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14782097

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14783767

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14782097

Country of ref document: EP

Kind code of ref document: A1