WO2016003206A1 - Multichannel audio signal processing method and device - Google Patents

Multichannel audio signal processing method and device Download PDF

Info

Publication number
WO2016003206A1
WO2016003206A1 PCT/KR2015/006788 KR2015006788W WO2016003206A1 WO 2016003206 A1 WO2016003206 A1 WO 2016003206A1 KR 2015006788 W KR2015006788 W KR 2015006788W WO 2016003206 A1 WO2016003206 A1 WO 2016003206A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
input
output
matrix
Prior art date
Application number
PCT/KR2015/006788
Other languages
French (fr)
Korean (ko)
Inventor
백승권
서정일
성종모
이태진
장대영
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to CN201911107595.XA priority Critical patent/CN110992964B/en
Priority to DE112015003108.1T priority patent/DE112015003108B4/en
Priority to CN201911107604.5A priority patent/CN110895943B/en
Priority to CN201911108867.8A priority patent/CN110970041B/en
Priority to US15/323,028 priority patent/US9883308B2/en
Priority to CN201580036477.8A priority patent/CN106471575B/en
Priority claimed from KR1020150094195A external-priority patent/KR102144332B1/en
Publication of WO2016003206A1 publication Critical patent/WO2016003206A1/en
Priority to US15/870,700 priority patent/US10264381B2/en
Priority to US16/357,180 priority patent/US10645515B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to a method and apparatus for processing a multichannel audio signal, and more particularly, to a method and apparatus for processing a multichannel audio signal more efficiently for an N-N / 2-N structure.
  • MPEG Surround is an audio codec for coding multi-channel signals such as 5.1 channel and 7.1 channel. It refers to an encoding and decoding technology capable of compressing and transmitting a multi-channel signal with a high compression rate. MPS has the limitation of backward compatibility in encoding and decoding process. Therefore, the bitstream compressed through the MPS and then transmitted to the decoder must satisfy the constraint that the audio stream can be reproduced in a mono or stereo manner even if the previous audio codec is used.
  • the bitstream transmitted to the decoder must include an encoded mono signal or a stereo signal.
  • the decoder may further receive additional information such that a mono signal or a stereo signal transmitted through the bitstream may be upmixed.
  • the decoder may recover the multichannel signal from the mono signal or the stereo signal using the additional information.
  • the present invention provides a method and apparatus for processing a multichannel audio signal via an N-N / 2-N structure.
  • Multi-channel audio signal processing method comprises the steps of identifying the downmix signal and the residual signal of the N / 2 channel generated from the input signal of the N channel; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
  • N / 2 decorrelators may correspond to the N / 2 OTT boxes.
  • the index of the decorrelator may be repeatedly reused according to the reference value.
  • the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
  • the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
  • the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator.
  • a vector corresponding to the signal may be input.
  • the generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal.
  • STP subband domain time processing
  • the generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
  • GES guided envelope shaping
  • the size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
  • a method of processing a multichannel audio signal including: identifying a downmix signal of an N / 2 channel and a residual signal of the N / 2 channel; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal, wherein the N / 2 OTT boxes are not connected to each other;
  • the OTT box which is arranged in parallel without any other and outputs the LFE channel among the N / 2 OTT boxes receives (1) only the downmix signal except the residual signal, and (2) the CLD parameter among the CLD parameter and the ICC parameter. (3) Do not output uncorrelated signal through decorator.
  • An apparatus for processing a multichannel audio signal includes a processor for performing a multichannel audio signal processing method, and the multichannel audio signal processing method includes an N / 2 channel generated from an input signal of N channels. Identifying the downmix signal and the residual signal of the; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
  • N / 2 decorrelators may correspond to the N / 2 OTT boxes.
  • the index of the decorrelator may be repeatedly reused according to the reference value.
  • the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
  • the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
  • the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator.
  • a vector corresponding to the signal may be input.
  • the generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal.
  • STP subband domain time processing
  • the generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
  • GES guided envelope shaping
  • the size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
  • an apparatus for processing a multichannel audio signal includes a processor for performing a method for processing a multichannel audio signal, and the method for processing a multichannel audio signal includes an N / 2 channel downmix signal and an N / Identifying a residual signal of two channels; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal,
  • the N / 2 OTT boxes are arranged in parallel without being connected to each other, and an OTT box that outputs an LFE channel among the N / 2 OTT boxes receives (1) only a downmix signal except a residual signal, (2) It uses CLD parameter among CLD parameter and ICC parameter. (3) Does not output uncorrelated signal through decorator.
  • FIG. 1 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
  • FIG. 2 is a diagram for a domain processed by a 3D audio decoder, according to an exemplary embodiment.
  • FIG. 3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
  • FIG. 4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
  • FIG. 12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
  • FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
  • FIG. 14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
  • FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
  • 16 is a diagram illustrating an audio processing scheme for an N-N / 2-N structure according to an embodiment.
  • 17 is a diagram illustrating an N-N / 2-N structure in a tree form according to an embodiment.
  • FIG. 18 illustrates an encoder and a decoder for an FCE structure according to an embodiment.
  • FIG. 19 illustrates an encoder and a decoder for a TCE structure according to an embodiment.
  • FIG. 20 illustrates an encoder and a decoder for an ECE structure according to an embodiment.
  • 21 illustrates an encoder and a decoder for a SiCE structure according to an embodiment.
  • FIG. 22 illustrates a process of processing an audio signal of 24 channels according to an FCE structure according to an embodiment.
  • FIG. 23 is a diagram illustrating a process of processing an audio signal of 24 channels according to an ECE structure according to an embodiment.
  • 24 is a diagram illustrating a process of processing an audio signal of 14 channels according to an FCE structure according to an embodiment.
  • 25 is a diagram illustrating a process of processing an audio signal of 14 channels according to an ECE structure and a SiCE structure according to an embodiment.
  • FIG. 26 illustrates a process of processing an 11.1 channel audio signal according to a TCE structure according to an embodiment.
  • FIG. 27 illustrates a process of processing an 11.1 channel audio signal according to an FCE structure according to an embodiment.
  • FIG. 28 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to a TCE structure according to an embodiment.
  • 29 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to an FCE structure according to an embodiment.
  • FIG. 1 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
  • a multichannel audio signal may be downmixed at an encoder and a downmix signal may be upmixed at a decoder to restore the multichannel audio signal.
  • the contents of the decoder correspond to FIG. 1.
  • 2 to 29 illustrate a process of processing a multi-channel audio signal, it may correspond to any one component of a bitstream, a USAC 3D decoder, a DRC-1, and a format conversion in FIG. 1.
  • FIG. 2 is a diagram for a domain processed by a 3D audio decoder, according to an exemplary embodiment.
  • the USAC decoder described in FIG. 1 is for coding a core band and processes an audio signal in one of a time domain and a frequency domain.
  • the DRC-1 processes the audio signal in the frequency domain when the audio signal is multiband.
  • Format conversion processes audio signals in the frequency domain.
  • FIG. 3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
  • the USAC 3D encoder may include both a first encoder 301 and a second encoder 302.
  • the USAC 3D encoder may include a second encoding unit 302.
  • the USAC 3D decoder may include a first decoding unit 303 and a second decoding unit 304.
  • the USAC 3D decoder may include a first decoding unit 303.
  • N may have a value larger than M.
  • M when N is even, M may be N / 2.
  • M when N is odd, M may be (N-1) / 2 + 1. In summary, it may be expressed as Equation 1.
  • the second encoder 302 may generate a bitstream by encoding the downmix signal of the M channel.
  • the second encoder 302 may encode the downmix signal of the M channel, and a general audio coder may be utilized.
  • the second encoder 302 may encode and transmit 24 channel signals.
  • the N-channel input signal is encoded using only the second encoding unit 302
  • the N-channel input signal is encoded using both the first encoding unit 301 and the second encoding unit 302. More bits are required, and sound quality degradation can also occur.
  • the first decoder 303 may output a M-channel downmix signal by decoding the bitstream generated by the second encoder 302. Then, the second decoding unit 304 may generate an N-channel output signal by upmixing the M-channel downmix signal. The N-channel output signal may be restored similarly to the N-channel input signal input to the first encoding unit 301.
  • the second decoding unit 304 may decode the downmix signal of the M channel, and a general audio coder may be utilized.
  • a general audio coder may be utilized.
  • the second decoding unit 304 is a USAC coder that is an extended HE-AAC
  • the second decoding unit 302 may decode a 24 channel downmix signal.
  • FIG. 4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • the first encoding unit 301 may include a plurality of downmixing units 401.
  • the N-channel input signals input to the first encoding unit 301 may be configured in pairs of two and then input to the downmixing unit 401.
  • the downmixing unit 401 may represent a two-to-two box.
  • the downmixing unit 401 is a spatial cue (CLD), Inter Channel Correlation / Coherence (ICC), Inter Channel Phase Difference (IPD), Channel Prediction Coefficient (CPC) or OPD, which are spatial cues from the input two input signals.
  • One phase (mono) downmix signal may be generated by extracting (Overall Phase Difference) and downmixing an input signal of two channels (stereo).
  • the plurality of downmixing units 401 included in the first encoding unit 301 may represent a parallel structure. For example, when an input signal of N channels is input to the first encoding unit 301 and N is an even number, the downmixing unit 401 implemented as a TTO box included in the first encoding unit 301 is N / N. Two may be required. In the case of FIG. 4, the first encoding unit 301 may downmix an N-channel input signal through N / 2 TTO boxes to generate a downmix signal of M channels (N / 2 channels).
  • FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 4 illustrates a detailed configuration of the first encoding unit 301 when an input signal of N channels is input to the first encoding unit 301 and N is an even number.
  • 5 illustrates a detailed configuration of the first encoding unit 301 when an input signal of N channels is input to the first encoding unit 301 and N is an odd number.
  • the first encoding unit 301 may include a plurality of downmixing units 501.
  • the first encoding unit 301 may include (N-1) / 2 downmixing units 501.
  • the first encoder 301 may include a delay unit 502 to process the other one channel signal.
  • the N-channel input signals input to the first encoding unit 301 may be configured in pairs of two channels and then input to the downmixing unit 501.
  • the downmixing unit 501 may represent a TTO box.
  • the downmixing unit 501 extracts the spatial cues CLD, ICC, IPD, CPC, or OPD from the input two-channel input signals, downmixes the two-channel (stereo) input signals, and downlinks one channel (mono). You can generate a mix signal.
  • the downmix signal of the M channel output from the first encoder 301 is determined according to the number of downmixers 501 and the number of delay units 502.
  • the delay value applied to the delay unit 502 may be the same as the delay value applied to the downmixer 501. If the downmix signal of the M channel, which is an output signal of the first encoding unit 301, is a PCM signal, the delay value may be determined according to Equation 2 below.
  • Enc_Delay represents a delay value applied to the downmixing unit 501 and the delay unit 502.
  • Delay1 QMF Analysis
  • Delay2 Hybrid QMF Analysis
  • 64 the reason why 64 is applied is that Hybrid QMF analysis is performed after QMF analysis is performed for 64 bands.
  • the delay value may be determined according to Equation (3).
  • FIG. 6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
  • an input signal of the N channel is composed of an input signal of the N 'channel and an input signal of the K channel.
  • an input signal of the N ′ channel is input to the first encoding unit 301, and an input signal of the K channel is not input to the first encoding unit 301.
  • M which is the number of channels corresponding to the downmix signal of the M channel input to the second encoder 301, may be determined by Equation 4.
  • FIG. 6 illustrates a structure of the first encoding unit 301 when N 'is an even number
  • FIG. 7 illustrates a structure of the first encoding unit 301 when N' is an odd number.
  • input signals of the N ′ channel may be input to the plurality of downmixing units 601, and input signals of the K channel may be input to the plurality of delay units 602.
  • the input signal of the N 'channel may be input to the downmixing unit 601 representing N' / 2 TTO boxes, and the input signal of the K channel may be input to the K delay units 602.
  • an input signal of an N ′ channel may be input to the plurality of downmixing units 701 and one delay unit 702.
  • the input signal of the K channel may be input to the plurality of delay units 702.
  • the input signal of the N 'channel may be input to the downmixing unit 701 and one delay unit 702 representing N' / 2 TTO boxes.
  • the input signal of the K channel may be input to the K delay units 702.
  • FIG. 8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may generate an N-channel output signal by upmixing the M-down channel downmix signal transmitted from the first decoding unit 303.
  • the first decoding unit 303 may decode the downmix signal of the M channel included in the bitstream.
  • the second decoding unit 304 may generate the output signal of the N channel by upmixing the downmix signal of the M channel using the spatial cues transmitted from the second encoding unit 301 of FIG. 3.
  • the second decoding unit 304 may include a plurality of decorrelating units 801 and upmixing units 802.
  • the second decoding unit 304 may include a plurality of uncorrelated units 801, an upmixing unit 802, and a delay unit 803. That is, when N is an even number in the output signal of the N channel, the delay unit 803 may be unnecessary, as shown in FIG. 8.
  • the delay value of the delay unit 803 may be different from the delay value applied in the encoder. 8 illustrates a case where N is an odd number in an N-channel output signal derived from the second decoding unit 304.
  • the delay value of the delay unit 803 may be determined according to Equation 5 below.
  • Dec_Delay represents the delay value of the delay unit 803.
  • Delay1 represents a delay value generated according to QMF analysis
  • Delay2 represents a delay value generated from hybrid QMF analysis
  • Delay3 represents a delay value generated from QMF synthesis.
  • Delay 4 represents a delay value generated when the uncorrelated filter is applied in the uncorrelated unit 801.
  • the delay value of the delay unit 803 may be determined according to Equation 6 below.
  • each of the plurality of uncorrelated units 801 may generate an uncorrelated signal of the downmix signal of the M channel input to the second decoder 304.
  • the uncorrelated signal generated in each of the plurality of decorrelators 801 may be input to the upmixing unit 802.
  • the plurality of uncorrelated units 801 may generate an uncorrelated signal using the downmix signal of the M channel. That is, when using an M-channel downmix signal transmitted from an encoder to generate an uncorrelated signal, sound quality degradation may not occur when reproducing a sound field of a multi-channel signal.
  • the M uncorrelated signals generated by using the downmix signal of the M channel are It can be defined as.
  • the output signal of the N channel output through the second decoding unit 304 is It can be defined as.
  • the second decoding unit 304 may generate an output signal of the N channel according to Equation 7 below.
  • M (n) means a matrix for performing upmixing on the downmix signal of M channels at n sample times.
  • M (n) may be defined by the following equation (8).
  • Equation 8 0 is a 2x2 zero matrix. May be defined as Equation 9 as a 2 ⁇ 2 matrix.
  • the spatial cues actually transmitted from the encoder can be determined for each b index, which is a frame unit, and is applied on a sample basis. May be determined by interpolation between frames adjacent to each other.
  • Equation 10 May be determined by Equation 10 according to the MPS method.
  • Equation 10 Can be derived from the CLD. And, Wow Can be derived from CLD and ICC. Equation 10 may be derived according to the processing method of the spatial queue defined in the MPS.
  • Equation 7 Denotes an operator for interlacing each element of the vectors to create a new vector column.
  • equation (7) May be determined according to Equation 11 below.
  • Equation 7 may be represented by Equation 12 below.
  • Equation 12 ⁇ is used to clearly indicate the processing of the input signal and the output signal.
  • the downmix signal of the M channel and the uncorrelated signal may be paired with each other, and may be an input of Equation 12, which is an upmixing matrix. That is, according to Equation 12, by applying an uncorrelated signal to each of the downmix signals of the M channel, the distortion of sound quality during the upmixing process can be minimized, and the sound field effect can be generated as close to the original signal as possible. .
  • Equation 12 described above may also be represented by Equation 13 below.
  • FIG. 9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may decode an M-channel downmix signal transmitted from the first decoding unit 303 to generate an N-channel output signal.
  • the second decoding unit 304 may also process the result reflected by the encoder.
  • the second decoding unit 304 may control the plurality of delay units 903. It may include.
  • the second decoding unit 304 may have a structure as shown in FIG. 9. If N 'is an even number for the downmix signal of the M channel satisfying Equation 4, one delay unit 903 located below the upmixing unit 902 in the second decoding unit 304 of FIG. May be excluded.
  • FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
  • the second decoding unit 304 may generate an N-channel output signal by upmixing an M-channel downmix signal transmitted from the first decoding unit 303.
  • the upmixing unit 1002 may include a plurality of signal processing units 1003 representing a one-to-two box.
  • each of the plurality of signal processing units 1003 generates two channels of output signals using the downmix signal of one channel among the downmix signals of the M channel and the uncorrelated signal generated by the uncorrelated unit 1001. can do.
  • the plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate output signals of the N-1 channel.
  • the delay unit 1004 may be excluded from the second decoding unit 304. Then, the plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate output signals of N channels.
  • the signal processor 1003 may upmix according to Equation 13.
  • the upmixing process performed by all the signal processing units 1003 may be represented by one upmixing matrix as shown in Equation 12.
  • FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
  • the first encoding unit 301 may include a plurality of downmixing units 1101 and a plurality of delay units 1102 of the TTO box.
  • the second encoding unit 302 may include a plurality of USAC encoders 1103.
  • the first decoding unit 303 may include a plurality of USAC decoders 1106, and the second decoding unit 304 may include a plurality of upmixing units 304 and a plurality of delay units 1108 of the OTT box. It may include.
  • the first encoding unit 301 may output a downmix signal of M channels by using an input signal of N channels.
  • the downmix signal of the M channel may be input to the second encoding unit 302.
  • pairs of downmix signals of one channel which are passed through the downmixing unit 1101 of the TTO box, among the downmix signals of the M channel, in a stereo form in the USAC encoder 1103 included in the second encoding unit 302. Can be encoded.
  • the downmix signal which has passed through the delay unit 1102 without passing through the downmixing unit 1101 of the TTO box, may be encoded in the mono form or the stereo form by the USAC encoder 1103.
  • the downmix signal of one channel of the downmix signal of the M channel which has passed through the delay unit 1102 may be encoded in the mono form by the USAC encoder 1103.
  • the downmix signals of two channels which have passed through the two delay units 1102 of the downmix signals of the M channel, may be encoded in a stereo form by the USAC encoder 1103.
  • the M channel signals may be encoded by the second encoding unit 302 to generate a plurality of bitstreams.
  • the plurality of bitstreams may be reformatted into one bitstream through the multiplexer 1104.
  • the bitstream generated by the multiplexer 1104 is transferred to the demultiplexer 1104, and the demultiplexer 1105 corresponds to a plurality of bitstreams corresponding to the USAC decoder 303 included in the first decoder 303. It can demultiplex into bitstreams of.
  • the plurality of demultiplexed bitstreams may be input to the USAC decoder 1106 included in the first decoding unit 303, respectively.
  • the USAC decoder 303 may decode according to a method encoded by the USAC encoder 1103 included in the second encoding unit 302. Then, the first decoding unit 303 may output the downmix signal of the M channel from the plurality of bitstreams.
  • the second decoding unit 304 may generate an output signal of the N channel using the downmix signal of the M channel.
  • the second decoding unit 304 may upmix a portion of the downmix signal of the input M channel using the upmixing unit 1107 of the OTT box.
  • the downmix signal of one channel of the downmix signals of the M channel is input to the upmixing unit 1107, and the upmixing unit 1107 uses a signal uncorrelated with the downmix signal of one channel to 2.
  • the output signal of the channel can be generated.
  • the upmixing unit 1107 may generate two channels of output signals using Equation 13.
  • each of the plurality of upmixing units 1107 performs upmixing M times by using an upmixing matrix corresponding to Equation 13, so that the second decoding unit 304 generates an N-channel output signal.
  • M in Equation 12 may be equal to the number of upmixing units 1107 included in the second decoding unit 304. Can be.
  • the first encoder 301 of the N channel input signals includes the K channel audio signal from the M channel downmix signal through the delay unit 1102 instead of the downmixing unit 1101 of the TTO box.
  • the K-channel audio signal may be processed by the delay unit 1108 instead of the upmixing unit 1107 of the OTT box by the second decoding unit 304.
  • the number of channels of the output signal output through the upmixing unit 1107 may be N-K.
  • FIG. 12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
  • N-channel input signals may be input to the downmixing unit 1201 included in the first encoding unit 301 in pairs of two channels.
  • the downmixer 1201 may be configured as a TTO box, and downmix the two input signals to generate one downmix signal.
  • the first encoding unit 301 may generate an M-channel downmix signal from the N-channel input signals by using the plurality of downmixing units 1201 arranged in parallel.
  • N is an integer greater than M
  • M may be N / 2.
  • the stereotype USAC encoder 1202 included in the second encoder 302 may generate a bitstream by encoding two downmix signals output from the two downmixers 1201. .
  • the USAC decoder 1203 of the stereo type included in the first decoder 303 may restore two downmix signals of one channel from the downmix signal of M channels from the bitstream.
  • Two one-channel downmix signals may be input to two upmixing units 1204 respectively representing OTT boxes included in the second decoding unit 304. Then, the upmixing unit 1204 may generate two channel output signals constituting the N channel output signals using signals uncorrelated with one channel downmix signal.
  • FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
  • the USAC encoder 1302 included in the second encoding unit 302 may include a downmixing unit 1303, a spectral band replication (SBR) unit 1304, and a core encoding unit 1305 of the TTO box. have.
  • SBR spectral band replication
  • the downmixing unit 1301 of the TTO box included in the first encoding unit 301 downmixes two input signals of the N channel input signals to form one downmix signal of the M channel. You can generate a signal.
  • the number of channels of the M channel may be determined according to the number of the downmixing units 1301.
  • the downmixer 1303 may generate a downmix signal of one channel by downmixing a pair of downmix signals of one channel output from the two downmixers 1301.
  • the SBR unit 1304 may extract only the low frequency band excluding the high frequency band from the mono signal. Then, the core encoding unit 1305 may generate a bitstream by encoding the mono signal of the low frequency band corresponding to the core band.
  • a TTO type downmixing process may be continuously performed to generate a bitstream including an M channel downmix signal from an N channel input signal.
  • the downmixing unit 1301 of the TTO box may downmix two channel input signals having a stereo form among the N channel input signals.
  • the result output from each of the two downmixing units 1301 may be input to the downmixing unit 1303 of the TTO box as a part of the downmix signal of the M channel. That is, four of the N-channel input signals may be continuously output as one-channel downmix signals through TTO-type downmixing.
  • the bitstream generated by the second encoder 302 may be input to the USAC decoder 1306 of the first decoder 302.
  • the USAC decoder 1306 included in the second encoding unit 302 may include a core decoding unit 1307, an SBR unit 1308, and an upmixing unit 1309 of an OTT box.
  • the core decoding unit 1307 may output a mono signal of the core band corresponding to the low frequency band using the bitstream. Then, the SBR unit 1308 may restore the high frequency band by copying the low frequency band of the mono signal.
  • the upmixing unit 1309 may generate a stereo signal constituting the downmix signal of the M channel by upmixing the mono signal output from the SBR unit 1308.
  • the upmixing unit 1310 of the OTT box included in the second decoding unit 304 may generate a stereo signal by upmixing the mono signal included in the stereo signal generated by the first decoding unit 302. .
  • an OTT-type upmixing process may be performed in parallel to recover an N-channel output signal from a bitstream.
  • the upmixing unit 1309 of the OTT box may generate a stereo signal by upmixing a mono signal (one channel).
  • the two mono signals constituting the stereo signal as the output signal of the upmixing unit 1309 may be input to the upmixing unit 1310 of the OTT box.
  • the upmixing unit 1301 of the OTT box may output a stereo signal by upmixing the input mono signal. That is, four channels of the output signal can be generated by continuously mixing the mono signal in the OTT form.
  • FIG. 14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
  • the first encoding unit and the second encoding unit of FIG. 11 may be combined to be implemented as one encoding unit 1401 as illustrated in FIG. 14.
  • the first decoding unit and the second decoding unit of FIG. 11 are combined to show a result implemented by one decoding unit 1402 as shown in FIG. 14.
  • the encoding unit 1401 of FIG. 14 further includes a downmixing unit 1404 of the TTO box in a USAC encoder including a downmixing unit 1405, an SBR unit 1406, and a core encoding unit 1407 of the TTO box.
  • An encoding unit 1403 may be included.
  • the encoding unit 1401 may include a plurality of encoding units 1403 arranged in a parallel structure.
  • the encoding unit 1403 may correspond to a USAC encoder including the downmixing unit 1404 of the TTO box.
  • the encoding unit 1403 may generate a mono signal of one channel by continuously applying a TTO-type downmixing to four input signals of N channels.
  • the decoding unit 1402 of FIG. 14 includes an upmixing unit 1404 of an OTT box to a USAC decoder that includes a core decoding unit 1411, an SBR unit 1412, and an upmixing unit 1413 of an OTT box. It may include a decoding unit 1410 further comprising. In this case, the decoding unit 1402 may include a plurality of decoding units 1410 arranged in a parallel structure. Alternatively, the decoding unit 1410 may correspond to a USAC decoder including the upmixing unit 1404 of the OTT box.
  • the decoding unit 1410 may generate an output signal of four channels of the output signals of the N channel by continuously applying the OTT-type upmixing to the mono signal.
  • FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
  • the encoding unit 1501 may correspond to the encoding unit 1403 of FIG. 14.
  • the encoding unit 1501 may correspond to the modified USAC encoder. That is, the modified USAC encoder additionally includes the downmixing unit 1503 of the TTO box in the original USAC encoder including the downmixing unit 1504 of the TTO box, the SBR unit 1505 and the core encoding unit 1506. Can be implemented.
  • the decoding unit 1502 may correspond to the decoding unit 1410 of FIG. 14.
  • the decoding unit 1502 may correspond to the modified USAC decoder. That is, the modified USAC decoder further includes the upmixing unit 1510 of the OTT box in the original USAC decoder including the core decoding unit 1507, the SBR unit 1508, and the upmixing unit 1509 of the OTT box. Can be implemented.
  • 16 is a diagram illustrating an audio processing scheme for an N-N / 2-N structure according to an embodiment.
  • an N-N / 2-N structure in which a structure defined in MPEG SURROUND is changed is illustrated.
  • spatial synthesis may be performed in a decoder as shown in Table 1.
  • Spatial synthesis can transform the input signals from the time domain into a non-uniform subband domain through a hybrid Quadrature Mirror Filter (QMF) analysis bank.
  • QMF Quadrature Mirror Filter
  • irregular corresponds to a hybrid.
  • the decoder then operates in the hybrid subband.
  • the decoder may generate an output signal from the input signals by performing spatial synthesis based on the spatial parameters passed by the encoder.
  • the decoder can then use the hybrid QMF synthesis bank to inverse the output signals from the hybrid subband to the time domain.
  • FIG. 16 illustrates a process of processing a multi-channel audio signal through a mixed matrix of spatial synthesis performed by a decoder.
  • MPEG SURROUND defines a 5-1-5 structure, a 5-2-5 structure, a 7-2-7 structure, and a 7-5-7 structure, but the present invention proposes an N-N / 2-N structure.
  • the decoder may generate the N-channel output signal by upmixing the N / 2 channel downmix signal.
  • the number of N channels in the N-N / 2-N structure of the present invention is not limited. That is, the N-N / 2-N structure may support not only a channel structure supported by the MPS but also a channel structure of a multichannel audio signal not supported by the MPS.
  • NumInCh refers to the number of channels of the downmix signal
  • NumOutCh refers to the number of channels of the output signal.
  • NumInCh is N / 2
  • NumOutCh is N.
  • NumInCh is N / 2
  • X0 to X NumInCh ⁇ 1 represent downmix signals of N / 2 channels.
  • N the number of one-to-two (OTT) boxes is N / 2
  • N the number of channels of the output signal, must be even to process the downmix signal of the N / 2 channel.
  • the input vector X to be multiplied by means a vector including the downmix signal of the N / 2 channel.
  • N / 2 decorrelators may be used to the maximum. However, if N, the channel number of the output signal, exceeds 20, the filters of the decorrelator can be reused.
  • N which is the number of channels of the output signal in the N-N / 2-N structure, needs to be less than twice the limited specific number (ex. N ⁇ 20). If the LFE channel is included in the output signal, the N channel needs to be configured with a smaller number of channels (eg, N ⁇ 24) than more than twice the specific number in consideration of the number of LFE channels.
  • the output result of the decorrelators may be replaced with the residual signal for a specific frequency region depending on the bitstream. If the LFE channel is one of the outputs of the OTT box, no decorrelator is used for the OTT box based on the upmix.
  • the decorrelators labeled M (ex. NumInCh-NumLfe) from 1, the output result (uncorrelated signal) of the decorrelator, and residual signals correspond to different OTT boxes.
  • d 1 ⁇ d M means uncorrelated signal which is the output result of the decorrelator (D 1 ⁇ D M )
  • res 1 ⁇ res M means the residual signal which is the output result of the decorrelator (D 1 ⁇ D M ) do.
  • the decorrelators D1 to DM correspond to different OTT boxes, respectively.
  • vectors and matrices used in the NN / 2-N structure are defined.
  • Input signals to decorators in N-2 / NN structures are vectors Is defined as
  • the vector in equation (14) Of elements in To May be input directly to the matrix M2 without being input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes. so, To May be defined as a direct signal. And vector Of elements in To Signals other than To ) May be input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes.
  • vector Is composed of a direct signal, d 1 to d M which are decorrelated signals output from decorrelators, and res 1 to res M which are residual signals output from decorrelators. vector May be determined by Equation 15 below.
  • Is Means a set of all k satisfying And, Signal Fall decorator When input to, it means the uncorrelated signal output from the decorator.
  • Is the OTT box is OTTx and the residual signal is In the case of means the signal output from the decorator.
  • the subbands of the output signal can be defined dependently for all time slots n and all hybrid subbands k.
  • Output signal Can be determined by Equation 16 through the vector w and the matrix M2 .
  • Equation 17 Denotes a matrix M2 composed of NumOutCh rows and NumInCh-NumLfe columns. Is Can be defined by Equation 17 below.
  • the hybrid synthesis filter bank is a combination of the QMF synthesis bank through the Nyquist synthesis banks, Can be transformed from the hybrid subband domain to the time domain through a hybrid synthesis filterbank.
  • vectors Is the same as described above, but the vector May be divided into two vectors as shown in Equation 19 and Equation 20 below.
  • Is Means a set of all k satisfying Also, decorator Input signal to Is entered, Decorator Means the uncorrelated signal output from.
  • Equation 20 Wow The final output signal is Wow It can be divided into. Includes a direct signal, Includes a diffuse signal. In other words, Is the result derived from the direct signal input directly to the matrix M2 without passing through the decorrelator, Is the result derived from the spread signal output from the decorrelator and input to the matrix M2.
  • a spreading signal is generated through the decorrelator for spatial synthesis.
  • the generated spread signal may be mixed with the direct signal.
  • the temporal envelope of the spread signal does not match the envelope of the direct signal.
  • subband domain time processing is used to shape the envelope of each spreading signal portion of the output signal to match the temporal shape of the downmix signal transmitted from the encoder.
  • processing may be implemented with envelope estimation, such as envelope ratio calculation for direct and spread signals or shaping of the upper spectral portion of the spread signal.
  • the temporal energy envelope of the portion corresponding to the direct signal and the portion corresponding to the spread signal in the output signal generated through upmixing can be estimated.
  • the shaping factor may be calculated as the ratio between the temporal energy envelope for the portion corresponding to the direct signal and the portion corresponding to the spread signal.
  • STP May be signaled as. if, If, the spread signal portion of the output signal generated through upmixing can be processed via STP.
  • the downmix of the spatial upmix is approximated with the transmitted original downmix signal ( approximation).
  • the direct downmix signal for (NumInCh-NumLfe) can be defined by Equation 21 below.
  • the envelopes of the downmix broadband envelopes and the spread signal portion of each upmix channel can be estimated according to Equation 22 using normalized direct energy.
  • Means a bandpass factor Denotes a spectral flattering factor.
  • the scale factor for the NN / 2-N structure Can be defined.
  • the scale factor is then applied to the spread signal portion of the output signal, thereby mapping the temporal envelope of the output signal to substantially the temporal envelope of the downmix signal.
  • the spread signal portion processed by the scale factor in each channel of the output signals of the N channels may be mixed with the direct signal portion.
  • it may be signaled whether the extension signal portion has been processed in the scale factor for each channel of the output signal. ( ) Indicates that the extension signal portion was processed with the scale factor.)
  • GES can recover the broadband envelope of the synthesized output signal.
  • GES includes a modified upmixing process after flattening and reshaping the envelope for the direct signal portion for each channel of the output signal.
  • additional information of a parametric broadband envelope included in the bitstream may be used.
  • the additional information includes the envelope ratio of the envelope of the original input signal and the envelope of the downmix signal.
  • the envelope ratio at the decoder may be applied to the direct signal portion of each time slot included in the frame for each channel of the output signal.
  • the GES does not alter the spread signal portion for each channel of the output signal.
  • the extension signal and the direct signal of the output signal may be respectively synthesized using the post mixing matrix M2 modified in the hybrid subband domain according to Equation (24).
  • Equation 24 the direct signal portion for the output signal y provides the direct signal and the residual signal, and the extension signal portion for the output signal y provides the extension signal. In total, only the direct signal can be processed by the GES.
  • the result of processing the GES may be determined according to Equation 25 below.
  • the GES can extract an envelope for a particular channel of the upmixed output signal from the downmix signal by the downmix signal and decoder that performs spatial synthesis except the LFE channel depending on the tree structure.
  • Output signal in NN / 2-N structure May be defined as shown in Table 3 below.
  • the input signal in the NN / 2-N structure May be defined as shown in Table 4 below.
  • downmix signals in NN / 2-N structures May be defined as shown in Table 5 below.
  • the matrix M1 (defined for all time slots n and all hybrid subbands k) ) And the matrix M2 ( ) Will be described. These matrices are defined for a given parameter time slot and given processing band m based on the parameter time slot and the CLD, ICC and CPC parameters valid for the processing band. And Interpolated version of.
  • Matrix M1 may be expressed as a free matrix.
  • the size of the matrix M1 depends on the number of channels of the downmix signal input to the matrix M1 and the number of decorrelators used in the decoder.
  • the elements of the matrix M1 may be derived from the CLD and / or CPC parameters.
  • M1 may be defined by Equation 26 below.
  • Matrix for Matrix M1 May be defined as follows.
  • OTT box matrix May be defined differently according to the channel structure.
  • all channels of an input signal may be input in pairs by 2 channels to the OTT box. So, for the NN / 2-N structure, the number of OTT boxes is N / 2.
  • the matrix I is a vector containing the input signal It depends on the number of OTT boxes equal to its column size.
  • Lfe upmixes based on OTT boxes are not considered in the NN / 2-N architecture since no decorrelator is needed.
  • matrix All elements of may be either 1 or 0.
  • Equation 28 In the NN / 2-N structure May be defined by Equation 28 below.
  • OTT boxes in the NN / 2-N architecture represent a parallel processing satge, not a cascade. Therefore, all OTT boxes in the NN / 2-N structure are not connected to any other OTT boxes. So, matrix is unit matrix And unit matrix It can be configured as. In this case, the unit matrix May be a unit matrix of size N * N.
  • Calibration factor matrix It can be applied to the downmix signal or an externally supplied downmix signal.
  • Matrix in NN / 2-N structure May be defined by Equation 29 below.
  • Means a unit matrix indicating NumInch * NumInCh size Denotes a zero matrix representing NumInch * NumInCh size.
  • the number of channels of the downmix signal may be more than five.
  • the inverse matrix H is a vector of input signals for all parameter sets and processing bands. It may be a unit matrix having the same size as the number of columns of.
  • matrix M2 Defines how to combine the direct and uncorrelated signals to regenerate the multi-channel output signal. May be defined by Equation 32 below.
  • the element of can be calculated from the equivalent model of the OTT box.
  • the OTT box includes a decorrelator and a mixing section.
  • the mono input signal input to the OTT box is transmitted to the decorrelator and the mixing unit, respectively.
  • the mixing unit may generate a stereo output signal using a mono input signal, an uncorrelated signal output through the decorrelator, and the CLD and ICC parameters.
  • the CLD controls localization in the stereo field
  • the ICC controls the stereo wideness of the output signal.
  • Equation 34 the result output from any OTT box can be defined by Equation 34 below.
  • OTT box Labeling as ( ), Time slot for OTT box And parameter bands Denotes an element of an arbitrary matrix.
  • the post gain matrix may be defined as in Equation 35 below.
  • CLD and ICC may be defined by Equation 37 below.
  • decorrelators may be performed by a reverberation filter in the QMF subband domain.
  • Reverberation filters exhibit different filter characteristics based on which hybrid subband currently corresponds to all hybrid subbands.
  • the reverberation filter is an IIR grating filter.
  • the IIR grating filters have different filter coefficients for different decorrelators to produce mutually uncorrelated orthogonal signals.
  • the uncorrelated process carried out by the decorator is carried out in several processes.
  • the output of matrix M1 Is entered into the set of all-pass uncorrelated filters.
  • the filtered signals can then be energy shaped.
  • energy shaping is shaping the spectral or temporal envelope to match uncorrelated signals more closely to the input signal.
  • the uncorrelated filter consists of a plurality of all-pass (IIR) regions preceded by a fixed frequency-dependent delay.
  • the frequency axis may be divided into different regions so as to correspond to the QMF division frequency.
  • the length of the delay and the length of the filter coefficient vectors are the same.
  • the filter coefficients of the decorrelator with fractional delay due to additional phase rotation depend on the hybrid subband index.
  • the filters of the decorrelators have different filter coefficients to ensure orthogonality between the uncorrelated signals output from the decorrelators.
  • N / 2 decorrelators are required.
  • the number of decorrelators may be limited to ten.
  • the decorators are more than 10 OTT boxes according to 10 basis modulo operations. It can be reused corresponding to the number of.
  • Table 6 shows the index of the uncorrelator in the decoder of the NN / 2-N structure.
  • the N / 2 decorrelators are indexed by 10 units. That is, the 0th decorator and the 10th decorator Have the same index.
  • N-N / 2-N structure For the N-N / 2-N structure, it may be implemented by the syntax of Table 7.
  • bsTreeConfig may be implemented by Table 8.
  • bsNumInCh which is the number of channels of the downmix signal in the N-N / 2-N structure, may be implemented as shown in Table 9 below.
  • the number of LFE channels among the output signals is May be implemented as shown in Table 10 below.
  • the channel order of the output signal may be implemented as shown in Table 11 according to the number of channels of the output signal and the number of LFE channels.
  • the audioChannelLayout shows the layout of the loudspeakers for actual playback.
  • the loudspeaker includes an LFE channel
  • the LFE channels should be processed using one OTT box together with the non-LFE channel and may be located last in the channel list.
  • the LFE channel is located last in the channel lists L, Lv, R, Rv, Ls, Lss, Rs, Rss, C, LFE, Cvr, and LFE2.
  • 17 is a diagram illustrating an N-N / 2-N structure in a tree form according to an embodiment.
  • the N-N / 2-N structure illustrated in FIG. 16 may be represented in a tree form as shown in FIG. 17.
  • all OTT boxes can regenerate two channels of output signals based on CLD, ICC, residual signal and input signal.
  • OTT boxes and their corresponding CLD, ICC, residual and input signals may be numbered in the order in which they appear in the bitstream.
  • the decoder which is a multichannel audio signal processing apparatus, may generate N-channel output signals from N / 2-channel downmix signals using N / 2 OTT boxes.
  • N / 2 OTT boxes are not implemented through a plurality of layers. That is, the OTT boxes may perform upmixing in parallel for each channel of the downmix signal of the N / 2 channel. In other words, one OTT box is not connected to another OTT box.
  • the left figure shows a case where the LFE channel is not included in the N-channel output signal
  • the right figure shows a case where the LFE channel is included in the N-channel output signal.
  • the N / 2 OTT boxes may generate the output signal of the N channel using the residual signal res and the downmix signal M.
  • the OTT box in which the LFE channel is output among the N / 2 OTT boxes may use only the downmix signal except the residual signal.
  • the OTT box in which the LFE channel is not output among the N / 2 OTT boxes upmixes the downmix signal using CLD and ICC, but the LFE channel is The output OTT box can upmix the downmix signal using only the CLD.
  • the OTT box in which the LFE channel is not output among the N / 2 OTT boxes generates an uncorrelated signal through the decorrelator, but the OTT in which the LFE channel is output.
  • the box does not perform uncorrelated processes and therefore does not generate uncorrelated signals.
  • FIG. 18 illustrates an encoder and a decoder for an FCE structure according to an embodiment.
  • a Four Channel Element downmixes an input signal of four channels to generate an output signal of one channel, or upmixes an input signal of one channel to generate an output signal of four channels. Corresponds to the device to create.
  • the FCE encoder 1801 may generate an output signal of one channel from four input signals using two TTO boxes 1803 and 1804 and the USAC encoder 1805.
  • the TTO boxes 1803 and 1804 may each downmix two input signals to generate one down channel signal from four input signals.
  • the USC encoder 1805 may perform encoding in the core band of the downmix signal.
  • the FCE decoder 1802 performs the inverse of the operation performed by the FCE encoder 1801.
  • the FCE decoder 1802 may generate four channels of output signals from one channel of input signals using the USAC decoder 1806 and two OTT boxes 1807 and 1808.
  • OTT boxes 1807 and 1808 may upmix the input signals of one channel, respectively, decoded by USAC decoder 1806 to produce four channels of output signals.
  • USC decoder 1806 may perform encoding in the core band of the FCE downmix signal.
  • the FCE decoder 1802 may perform coding at a low bitrate in order to operate in a parametric mode using spatial cues such as CLD, IPD, and ICC.
  • the parametric type may be changed based on at least one of the operation bit rate and the total number of channels of the input signal, the resolution of the parameter, and the quantization level.
  • the FCE encoder 1801 and the FCE decoder 1802 can be widely used from 128 kbps to 48 kbps.
  • the number of channels (four) of the output signal of the FCE decoder 1802 is the same as the number of channels (four) of the input signal input to the FCE encoder 1801.
  • FIG. 19 illustrates an encoder and a decoder for a TCE structure according to an embodiment.
  • a three channel element corresponds to an apparatus for generating an output signal of one channel from three input signals or generating an output signal of three channels from an input signal of one channel.
  • the TCE encoder 1901 may include one TTO box 1903 and one QMF converter 1904 and one USAC encoder 1905.
  • the QMF converter may include a hybrid analyzer / synthesizer.
  • input signals of two channels may be input to the TTO box 1903, and input signals of one channel may be input to the QMF converter 1904.
  • the TTO box 1903 may downmix the input signals of the two channels to generate the downmix signal of one channel.
  • the QMF converter 1904 may convert an input signal of one channel into a QMF domain.
  • the output result of the TTO box 1903 and the output result of the QMF converter 1904 may be input to the USAC encoder 1905.
  • the USAC encoder 1905 may encode the core bands of the two channel signals input as the output result of the TTO box 1903 and the output result of the QMF converter 1904.
  • the TCE encoder 1901 may be mainly applied when the number of channels of the input signal is 11.1 or 9.0.
  • the TCE decoder 1902 may include one USAC decoder 1906, one OTT box 1907 and one QMF inverse converter 1904. At this time, the input signal of one channel input from the TCE encoder 1901 is decoded through the USAC decoder 1906. In this case, the USAC decoder 1906 may decode the core band from the input signal of one channel.
  • Input signals of two channels output through the USAC decoder 1906 may be input to the OTT box 1907 and the QMF inverse converter 1908 for each channel.
  • QMF inverse transformer 1908 may include a hybrid analyzer / synthesizer.
  • the OTT box 1907 may generate an output signal of two channels by upmixing an input signal of one channel.
  • the QMF inverse converter 1908 may inversely convert the input signal of one of the two channels of the input signal output through the USAC decoder 1906 from the QMF domain to the time domain or frequency domain.
  • the number of channels of three output signals of the TCE decoder 1902 is equal to the number of channels of three input signals input to the TCE encoder 1901.
  • FIG. 20 illustrates an encoder and a decoder for an ECE structure according to an embodiment.
  • an ECE (Eight Channel Element) downmixes an input signal of eight channels to generate an output signal of one channel, or upmixes an input signal of one channel to generate an output signal of eight channels. Corresponds to the device to create.
  • the ECE encoder 2001 may generate an output signal of one channel from eight input signals using six TTO boxes 2003 to 2008 and USAC encoder 2009. First, input signals of eight channels are input as input signals of two channels, respectively, by four TTO boxes 2003 to 2006. Then, each of the four TTO boxes 2003 to 2006 may generate an output signal of one channel by downmixing input signals of two channels. The output results of the four TTO boxes 2003 to 2006 are input to two TTO boxes 2007 and 2008 connected to the four TTO boxes 2003 to 2006.
  • the two TTO boxes 2007 and 2008 may downmix the output signals of two channels among the output signals of the four TTO boxes 2003 to 2006 to generate the output signal of one channel. Then, the output results of the two TTO boxes 2007 and 2008 are input to the USAC encoder 2009 connected to the two TTO boxes 2007 and 2008. The USAC encoder 2009 may encode the input signal of two channels to generate the output signal of one channel.
  • the ECE encoder 2001 may generate an output signal of one channel from an input signal of eight channels using TTO boxes connected in a two-stage tree form.
  • the four TTO boxes 2003 to 2006 and the two TTO boxes 2007 and 2008 may be connected to each other in a cascade to form a tree of two layers.
  • the ECE encoder 2001 may be used in 48kbps mode or 64kbps mode for the case where the channel structure of the input signal is 22.2 or 14.0.
  • the ECE decoder 2002 may generate eight channels of output signals from one channel of input signals using six OTT boxes 2011 to 2016 and USAC decoders 2010.
  • an input signal of one channel generated by the ECE encoder 2001 may be input to the USAC decoder 2010 included in the ECE decoder 2002.
  • the USAC decoder 2010 may then decode the core band of the input signal of one channel to generate an output signal of two channels.
  • the output signals of the two channels output from the USAC decoder 2010 may be input to the OTT box 2011 and the OTT box 2012 for each channel.
  • the OTT box 2011 may generate an output signal of two channels by upmixing an input signal of one channel.
  • the OTT box 2012 may upmix the input signal of one channel to generate an output signal of two channels.
  • output results of the OTT boxes 2011 and 2012 may be input to the OTT boxes 2013 to 2016 connected to the OTT boxes 2011 and 2012, respectively.
  • Each of the OTT boxes 2013 to 2016 may receive upmixed output signals of one channel among the output signals of two channels that are output results of the OTT boxes 2011 and 2012. That is, each of the OTT boxes 2013 to 2016 may generate an output signal of two channels by upmixing an input signal of one channel. Then, the number of channels of the output signal generated from each of the four OTT boxes 2013 to 2016 is nine.
  • the ECE decoder 2002 may generate eight channels of output signals from one channel of input signals using OTT boxes connected in a two-stage tree form.
  • the four OTT boxes 2013 to 2016 and the two OTT boxes 2011 and 2012 may be connected to each other in a cascade to form a tree of two layers.
  • the number of channels of eight output signals of the ECE decoder 2002 is equal to the number of channels of eight input signals input to the ECE encoder 2001.
  • 21 illustrates an encoder and a decoder for a SiCE structure according to an embodiment.
  • a six channel element corresponds to an apparatus for generating one channel output signal from six channel input signals or six channel output signals from one channel input signal. .
  • the SICE encoder 2101 may include four TTO boxes 2103-2106 and one USAC encoder 2107. At this time, input signals of six channels may be input to three TTO boxes 2103 to 2106. Then, each of the three TTO boxes 2103 to 2106 may generate an output signal of one channel by downmixing an input signal of two channels among the input signals of six channels. Two TTO boxes of the three TTO boxes 2103 to 2106 may be connected to the other TTO box. In the case of FIG. 21, the TTO boxes 2103 and 2104 may be connected to the TTO boxes 2106.
  • the output results of the TTO boxes 2103 and 2104 may be input to the TTO box 2106. As shown in FIG. 21, the TTO box 2106 may downmix two input signals to generate one channel of output signal. On the other hand, the output result of the TTO box 2105 is not input to the TTO box 2106. That is, the output result of the TTO box 2105 is input to the USAC encoder 2107 by bypassing the TTO box 2106.
  • the USAC encoder 2107 may generate the output signal of one channel by encoding the core bands of the two channel input signals that are the output results of the TTO box 2105 and the TTO box 2106.
  • the SiCE encoder 2101 can process an input signal having a 14.0 channel structure at 48 kbps and 64 kbps.
  • the SiCE decoder 2102 may include one USAC decoder 2108 and four OTT boxes 2109-2112.
  • the output signal of one channel generated by the SiCE encoder 2101 may be input to the SiCE decoder 2102.
  • the USAC decoder 2108 of the SiCE decoder 2102 may then decode the core band of the input signal of one channel to generate two output signals. Then, the output signal of one of the two channel output signals generated from the USAC decoder 2108 is input to the OTT box 2109, and the output signal of the other one channel bypasses the OTT box 2109. Directly into the OTT box 2112.
  • the OTT box 2109 may then upmix the input signal of one channel delivered from the USAC decoder 2108 to generate two channels of output signal. Then, the output signal of one channel of the two channel output signals generated from the OTT box 2109 is input to the OTT box 2110, and the output signal of the other one channel is input to the OTT box 2111. Can be. Thereafter, the OTT boxes 2110 to 2112 may upmix the input signals of one channel to generate output signals of two channels.
  • the encoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure described above with reference to FIGS. 18 to 21 may generate an output signal of one channel from an N-channel input signal using a plurality of TTO boxes.
  • one TTO box may exist inside the USAC encoder included in the FCE structure, the TCE structure, the ECE structure, and the SiCE encoder.
  • the encoder of the ECE structure and the SiCE structure may be configured of two layers of TTO boxes.
  • the TTO box may be bypassed.
  • the decoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure may generate an N-channel output signal from an input signal of one channel using a plurality of OTT boxes.
  • one OTT box may exist inside the USAC decoder included in the decoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure.
  • the decoder of the ECE structure and the SiCE structure may be configured of two layers of OTT boxes.
  • the number of channels of the input signal is odd, such as the TCE structure and the SiCE structure, there is a case of bypassing the OTT box.
  • FIG. 22 illustrates a process of processing an audio signal of 24 channels according to an FCE structure according to an embodiment.
  • FIG. 22 may operate at 128kbps and 96kbps as a 22.2 channel structure.
  • four channels of 24 input signals may be input to six FCE encoders 2201.
  • the FCE encoder 2201 may generate one channel output signal from four channel input signals.
  • an output signal of one channel output from each of the six FCE encoders 2201 illustrated in FIG. 22 may be output in the form of a bitstream through the bitstream formatter. That is, the bitstream may include six output signals.
  • the bitstream deformatter can then derive six output signals from the bitstream. Six output signals may be input to each of six FCE decoders 2202. Then, as described with reference to FIG. 18, the FCE decoder 2202 may generate four channel output signals from one channel input signal. A total of 24 channels of output signals may be generated through six FCE decoders 2202.
  • FIG. 23 is a diagram illustrating a process of processing an audio signal of 24 channels according to an ECE structure according to an embodiment.
  • FIG. 23 assumes a case where an input signal of 24 channels is input as in the 22.2 channel structure described with reference to FIG. 22. However, it is assumed that the operation mode of FIG. 23 operates at 48 kbps and 64 kbps, which are lower bit rates than FIG. 22.
  • eight channels of input signals of 24 channels may be input to three ECE encoders 2301, respectively. Then, as described with reference to FIG. 20, the ECE encoder 2301 may generate an output signal of one channel from input signals of eight channels. Then, an output signal of one channel output from each of the three ECE encoders 2301 illustrated in FIG. 23 may be output in the form of a bitstream through the bitstream formatter. That is, the bitstream may include three output signals.
  • the bitstream deformatter can then derive three output signals from the bitstream.
  • Three output signals may be input to three ECE decoders 2302, respectively.
  • the ECE decoder 2302 may generate an output signal of eight channels from an input signal of one channel.
  • a total of 24 channels of output signals may be generated through three FCE decoders 2302.
  • 24 is a diagram illustrating a process of processing an audio signal of 14 channels according to an FCE structure according to an embodiment.
  • FIG. 24 illustrates a process of generating four channels of output signals through three FCE encoders 2401 and one CPE encoder 2402 with input signals of fourteen channels. At this time, FIG. 24 shows a case in which operation is performed at a relatively high bit rate such as 128 kbps or 96 kbps.
  • Three FCE encoders 2401 may generate one channel of output signals from four channels of input signals, respectively.
  • one CPE encoder 2402 may generate an output signal of one channel by downmixing an input signal of two channels. Then, the bitstream formatter may generate a bitstream including four output signals from the output results of three FCE encoders 2401 and the output results of one CPE encoder 2402.
  • the bitstream formatter extracts four output signals from the bitstream, and then the three output signals can be delivered to three FCE decoders 2403 and the other one output signal to one CPE decoder 2404. have. Then, each of the three FCE decoders 2403 may generate four channels of output signals from one channel of input signals. In addition, one CPE decoder 2404 may generate two channels of output signals from one channel of input signals. That is, a total of 14 output signals may be generated through three FCE decoders 2403 and one CPE decoder 2404.
  • 25 is a diagram illustrating a process of processing an audio signal of 14 channels according to an ECE structure and a SiCE structure according to an embodiment.
  • the ECE encoder 2501 and the SiCE encoder 2502 process 14 input signals. Unlike FIG. 24, FIG. 25 is applied to a relatively low bit rate (eg 48 kbps, 96 kbps).
  • a relatively low bit rate eg 48 kbps, 96 kbps.
  • the ECE encoder 2501 may generate an output signal of one channel from input signals of eight channels among the input signals of 14 channels.
  • the SiCE encoder 2502 may generate an output signal of one channel from input signals of six channels among the input signals of 14 channels.
  • the bitstream formatter may generate a bitstream using two output signals as an output result of the ECE encoder 2501 and the SiCE encoder 2502.
  • the bitstream deformatter may extract two output signals from the bitstream. Then, two output signals may be input to the ECE decoder 2503 and the SiCE decoder 2504, respectively.
  • the ECE decoder 2503 can generate eight channels of output signals using one channel of input signals
  • the SiCE decoder 2504 can generate six channels of output signals using one channel of input signals. have. That is, a total of 14 output signals may be generated through the ECE decoder 2503 and the SiCE decoder 2504, respectively.
  • FIG. 26 illustrates a process of processing an 11.1 channel audio signal according to a TCE structure according to an embodiment.
  • four CPE encoders 2601 and one TCE encoder 2602 may generate five channels of output signals from 11.1 channels of input signals.
  • an audio signal may be processed at a relatively high bit rate such as 128 kbps and 96 kbps.
  • Each of the four CPE encoders 2601 may generate one channel of output signals from two channels of input signals. Meanwhile, one TCE encoder 2602 may generate one channel output signal from three channel input signals.
  • the output results of the four CPE encoders 2601 and one TCE encoder 2602 may be input to a bitstream formatter and output as a bitstream. That is, the bitstream may include output signals of five channels.
  • bitstream deformatter may extract five channels of output signals from the bitstream.
  • Five output signals may then be input to four CPE decoders 2603 and one TCE decoder 2604.
  • the four CPE decoders 2603 may then generate two channels of output signals from one channel of input signals, respectively.
  • the TCE decoder 2604 may generate three channels of output signals from one channel of input signals.
  • 11 channels of output signals may be output through four CPE decoders 2603 and one TCE decoder 2604.
  • FIG. 27 illustrates a process of processing an 11.1 channel audio signal according to an FCE structure according to an embodiment.
  • FIG. 27 may operate at a relatively low bit rate (eg, 64kbps, 48kbps).
  • three FCE encoders 2701 may generate three channels of output signals from twelve channels of input signals. Specifically, each of the three FCE encoders 2701 may generate an output signal of one channel from input signals of four channels among the input signals of twelve channels. Then, the bitstream formatter may generate a bitstream using three channel output signals output from three FCE encoders 2701.
  • bitstream deformatter may output three channels of output signals from the bitstream. Then, output signals of three channels may be input to three FCE decoders 2702, respectively. Thereafter, the FCE decoder 2702 may generate an output signal of three channels by using an input signal of one channel. Then, output signals of 12 channels may be generated through three FCE decoders 2702.
  • FIG. 28 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to a TCE structure according to an embodiment.
  • FIG. 28 a process of processing input signals of nine channels is illustrated.
  • 28 can process input signals of nine channels at relatively high bitrates (eg, 128 kbps, 96 kbps).
  • nine channels of input signals may be processed based on three CPE encoders 2801 and one TCE encoder 2802.
  • Each of the three CPE encoders 2801 may generate one channel of output signals from two channels of input signals.
  • one TCE encoder 2802 may generate one channel output signal from three channel input signals. Then, a total of four channels of output signals can be input to the bitstream formatter and output as a bitstream.
  • the bitstream deformatter may extract output signals of four channels included in the bitstream. Then, four channels of output signals may be input to three CPE decoders 2803 and one TCE decoder 2804. Each of the three CPE decoders 2803 may generate two channels of output signals from one channel of input signals. Meanwhile, one TCE decoder 2804 may generate three channel output signals from one channel input signal. A total of nine channels of output signals can then be generated.
  • 29 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to an FCE structure according to an embodiment.
  • 29 can process nine channels of input signals at relatively low bitrates (64 kbps, 48 kbps).
  • nine channels of input signals may be processed based on two FCE encoders 2901 and one SCE encoder 2902.
  • Each of the two FCE encoders 2901 may generate one channel of output signal from four channels of input signal.
  • one SCE encoder 2902 may generate an output signal of one channel from an input signal of one channel. Then, a total of three channels of output signals may be input to the bitstream formatter and output in the bitstream.
  • the bitstream deformatter may extract output signals of three channels included in the bitstream. Then, output signals of three channels may be input to two FCE decoders 2903 and one SCE decoder 2904. Each of the two FCE decoders 2903 may generate four channels of output signals from one channel of input signals. Meanwhile, one SCE decoder 2904 may generate one channel output signal from one channel input signal. A total of nine channels of output signals can then be generated.
  • Table 12 shows a configuration of a parameter set according to the number of channels of an input signal when spatial coding is performed.
  • bsFreqRes means the number of analysis bands equal to the number of USAC encoders.
  • the USAC encoder can encode the core band of the input signal.
  • the USAC encoder can control the plurality of encoders according to the number of input signals by using channel-to-object mapping information based on metadata representing relationship information between channel elements (CPEs and SCEs) and objects and rendered channel signals.
  • CPEs and SCEs channel elements
  • Table 13 shows the bit rate and sampling rate used in the USAC encoder. According to the sampling rate of Table 13, encoding parameters of spectral band replication (SBR) may be appropriately adjusted.
  • SBR spectral band replication
  • Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

Disclosed are a multichannel audio signal processing method and a multichannel audio signal processing device. The multichannel audio signal processing method may generate output signals of N channels from down-mixed signals of N/2 channels according to an N-N/2-N structure.

Description

다채널 오디오 신호 처리 방법 및 장치Multichannel audio signal processing method and apparatus
본 발명은 다채널 오디오 신호 처리 방법 및 장치에 관한 것으로, 보다 구체적으로는 N-N/2-N 구조에 대해 다채널 오디오 신호를 보다 효율적으로 처리하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for processing a multichannel audio signal, and more particularly, to a method and apparatus for processing a multichannel audio signal more efficiently for an N-N / 2-N structure.
MPEG Surround(MPS)는 5.1 채널, 7.1채널 등 다채널 신호를 코딩하기 위한 오디오 코덱으로, 높은 압축률로서 다채널 신호를 압축하여 전송할 수 있는 인코딩 및 디코딩 기술을 의미한다. MPS는 인코딩 및 디코딩 과정에서 하위 호환이라는 제약 사항을 가진다. 그래서, MPS를 통해 압축된 후 디코더로 전송되는 비트스트림은 이전의 오디오 코덱을 이용하더라도 모노 또는 스테레오 방식으로 재생이 가능하여야 하는 제약 사항을 만족하여야 한다.MPEG Surround (MPS) is an audio codec for coding multi-channel signals such as 5.1 channel and 7.1 channel. It refers to an encoding and decoding technology capable of compressing and transmitting a multi-channel signal with a high compression rate. MPS has the limitation of backward compatibility in encoding and decoding process. Therefore, the bitstream compressed through the MPS and then transmitted to the decoder must satisfy the constraint that the audio stream can be reproduced in a mono or stereo manner even if the previous audio codec is used.
따라서, 다채널 신호를 구성하는 입력 채널의 수가 증가하더라도, 디코더로 전송되는 비트스트림은 인코딩된 모노 신호 또는 스테레오 신호를 포함하여야 한다. 그리고, 디코더는 비트스트림을 통해 전송된 모노 신호 또는 스테레오 신호가 업믹싱될 수 있도록 부가 정보를 추가로 수신할 수 있다. 디코더는 부가 정보를 이용하여 모노 신호 또는 스테레오 신호로부터 다채널 신호를 복원할 수 있다.Therefore, even if the number of input channels constituting the multichannel signal increases, the bitstream transmitted to the decoder must include an encoded mono signal or a stereo signal. The decoder may further receive additional information such that a mono signal or a stereo signal transmitted through the bitstream may be upmixed. The decoder may recover the multichannel signal from the mono signal or the stereo signal using the additional information.
하지만, 5.1 채널, 7.1 채널 이상의 다채널 오디오 신호의 사용이 요구되면서, 기존의 MPS에서 정의하는 구조로 다채널 오디오 신호를 처리하는 경우 오디오 신호의 품질에 문제가 있었다.However, since the use of multi-channel audio signals over 5.1 and 7.1 channels is required, there is a problem in the quality of audio signals when multi-channel audio signals are processed in a structure defined by the conventional MPS.
본 발명은 N-N/2-N 구조를 통해 다채널 오디오 신호를 처리하는 방법 및 장치를 제공한다.The present invention provides a method and apparatus for processing a multichannel audio signal via an N-N / 2-N structure.
본 발명의 일실시예에 따른 다채널 오디오 신호 처리 방법은 N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.Multi-channel audio signal processing method according to an embodiment of the present invention comprises the steps of identifying the downmix signal and the residual signal of the N / 2 channel generated from the input signal of the N channel; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.When the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators may correspond to the N / 2 OTT boxes.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.If the number of decorrelators exceeds the reference value of the modulo operation, the index of the decorrelator may be repeatedly reused according to the reference value.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.When the LFE channel is included in the output signal of the N channel, the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.When the temporal shaping tool is not used, the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.When a temporal shaping tool is used, the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator. A vector corresponding to the signal may be input.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.The generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal. You can shape
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.The generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.The size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
본 발명의 다른 실시예에 따른 다채널 오디오 신호 처리 방법은 N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고, 상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.In accordance with another aspect of the present invention, there is provided a method of processing a multichannel audio signal, including: identifying a downmix signal of an N / 2 channel and a residual signal of the N / 2 channel; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal, wherein the N / 2 OTT boxes are not connected to each other; The OTT box which is arranged in parallel without any other and outputs the LFE channel among the N / 2 OTT boxes receives (1) only the downmix signal except the residual signal, and (2) the CLD parameter among the CLD parameter and the ICC parameter. (3) Do not output uncorrelated signal through decorator.
본 발명의 일실시예에 따른 다채널 오디오 신호 처리 장치는 다채널 오디오 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 오디오 신호 처리 방법은, N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.An apparatus for processing a multichannel audio signal according to an embodiment of the present invention includes a processor for performing a multichannel audio signal processing method, and the multichannel audio signal processing method includes an N / 2 channel generated from an input signal of N channels. Identifying the downmix signal and the residual signal of the; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.When the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators may correspond to the N / 2 OTT boxes.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.If the number of decorrelators exceeds the reference value of the modulo operation, the index of the decorrelator may be repeatedly reused according to the reference value.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.When the LFE channel is included in the output signal of the N channel, the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.When the temporal shaping tool is not used, the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.When a temporal shaping tool is used, the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator. A vector corresponding to the signal may be input.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.The generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal. You can shape
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.The generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.The size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
본 발명의 다른 실시예에 따른 다채널 오디오 신호 처리 장치는, 다채널 오디오 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 오디오 신호 처리 방법은, N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고,In accordance with another aspect of the present invention, an apparatus for processing a multichannel audio signal includes a processor for performing a method for processing a multichannel audio signal, and the method for processing a multichannel audio signal includes an N / 2 channel downmix signal and an N / Identifying a residual signal of two channels; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal,
상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.The N / 2 OTT boxes are arranged in parallel without being connected to each other, and an OTT box that outputs an LFE channel among the N / 2 OTT boxes receives (1) only a downmix signal except a residual signal, (2) It uses CLD parameter among CLD parameter and ICC parameter. (3) Does not output uncorrelated signal through decorator.
본 발명의 일실시예에 따르면, N-N/2-N 구조에 따라 다채널 오디오 신호를 처리함으로써 MPS에서 정의하는 채널 수보다 많은 채널 수의 오디오 신호를 효율적으로 처리할 수 있다.According to an embodiment of the present invention, by processing a multi-channel audio signal according to the N-N / 2 -N structure, it is possible to efficiently process an audio signal of a greater number of channels than the number of channels defined in the MPS.
도 1은 일실시예에 따른 3D 오디오 디코더를 도시한 도면이다.1 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
도 2는 일실시예에 따른 3D 오디오 디코더에서 처리하는 도메인에 대한 도면이다.2 is a diagram for a domain processed by a 3D audio decoder, according to an exemplary embodiment.
도 3은 일실시예에 따른 USAC 3D 인코더와 USAC 3D 디코더를 도시한 도면이다.3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
도 4는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제1 도면이다.4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
도 5는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제2 도면이다.FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다.6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
도 8은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제1 도면이다.8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 9는 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제2 도면이다.9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 10은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제3 도면이다.FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 11은 일실시예에 따른 도 3을 구현한 예시를 도시한 도면이다.FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
도 13은 일실시예에 따른 도 12의 제2 인코딩부와 제1 디코딩부의 세부 구성을 도시한 도면이다.FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
도 14는 일실시예에 따른 도 11의 제1 인코딩부와 제2 인코딩부를 결합하고, 제1 디코딩부와 제2 디코딩부를 결합한 결과를 도시한 도면이다.14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
도 16은 일실시예에 따른 N-N/2-N 구조에 대한 오디오 처리 방식에 대한 도면이다.16 is a diagram illustrating an audio processing scheme for an N-N / 2-N structure according to an embodiment.
도 17은 일실시예에 따른 N-N/2-N 구조를 트리 형태로 표현한 도면이다.17 is a diagram illustrating an N-N / 2-N structure in a tree form according to an embodiment.
도 18은 일실시예에 따른 FCE 구조에 대한 인코더와 디코더를 도시한 도면이다.18 illustrates an encoder and a decoder for an FCE structure according to an embodiment.
도 19는 일실시예에 따른 TCE 구조에 대한 인코더와 디코더를 도시한 도면이다.19 illustrates an encoder and a decoder for a TCE structure according to an embodiment.
도 20은 일실시예에 따른 ECE 구조에 대한 인코더와 디코더를 도시한 도면이다.20 illustrates an encoder and a decoder for an ECE structure according to an embodiment.
도 21은 일실시예에 따른 SiCE 구조에 대한 인코더와 디코더를 도시한 도면이다.21 illustrates an encoder and a decoder for a SiCE structure according to an embodiment.
도 22는 일실시예에 따른 FCE 구조에 따라 24채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 22 illustrates a process of processing an audio signal of 24 channels according to an FCE structure according to an embodiment.
도 23은 일실시예에 따른 ECE 구조에 따라 24채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 23 is a diagram illustrating a process of processing an audio signal of 24 channels according to an ECE structure according to an embodiment.
도 24는 일실시예에 따른 FCE 구조에 따라 14채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.24 is a diagram illustrating a process of processing an audio signal of 14 channels according to an FCE structure according to an embodiment.
도 25는 일실시예에 따른 ECE 구조와 SiCE 구조에 따라 14채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.25 is a diagram illustrating a process of processing an audio signal of 14 channels according to an ECE structure and a SiCE structure according to an embodiment.
도 26은 일실시예에 따른 TCE 구조에 따라 11.1채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 26 illustrates a process of processing an 11.1 channel audio signal according to a TCE structure according to an embodiment.
도 27은 일실시예에 따른 FCE 구조에 따라 11.1채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.27 illustrates a process of processing an 11.1 channel audio signal according to an FCE structure according to an embodiment.
도 28은 일실시예에 따른 TCE 구조에 따라 9.0채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 28 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to a TCE structure according to an embodiment.
도 29는 일실시예에 따른 FCE 구조에 따라 9.0채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.29 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to an FCE structure according to an embodiment.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일실시예에 따른 3D 오디오 디코더를 도시한 도면이다.1 is a diagram illustrating a 3D audio decoder, according to an exemplary embodiment.
본 발명을 참고하면, 다채널 오디오 신호를 인코더에서 다운믹싱하고, 디코더에서 다운믹스 신호를 업믹싱하여 다채널 오디오 신호를 복원할 수 있다. 이하의 도 2 내지 도 29에서 설명하는 실시예들 중 디코더에 관한 내용이 도 1에 대응한다. 한편, 도 2 내지 도 29는 다채널 오디오 신호를 처리하는 과정을 나타내므로, 도 1에서 비트스트림, USAC 3D 디코더, DRC-1, Format conversion 중 어느 하나의 구성 요소에 대응할 수 있다.Referring to the present invention, a multichannel audio signal may be downmixed at an encoder and a downmix signal may be upmixed at a decoder to restore the multichannel audio signal. In the embodiments described with reference to FIGS. 2 to 29, the contents of the decoder correspond to FIG. 1. 2 to 29 illustrate a process of processing a multi-channel audio signal, it may correspond to any one component of a bitstream, a USAC 3D decoder, a DRC-1, and a format conversion in FIG. 1.
도 2는 일실시예에 따른 3D 오디오 디코더에서 처리하는 도메인에 대한 도면이다.2 is a diagram for a domain processed by a 3D audio decoder, according to an exemplary embodiment.
도 1에서 설명한 USAC 디코더는 코어 대역의 코딩을 위한 것으로 시간 도메인과 주파수 도메인 중 어느 하나의 도메인에서 오디오 신호를 처리한다. 그리고, DRC-1는 오디오 신호가 멀티밴드인 경우 주파수 도메인에서 오디오 신호를 처리한다. 한편, Format conversion는 주파수 도메인에서 오디오 신호를 처리한다.The USAC decoder described in FIG. 1 is for coding a core band and processes an audio signal in one of a time domain and a frequency domain. The DRC-1 processes the audio signal in the frequency domain when the audio signal is multiband. Format conversion, on the other hand, processes audio signals in the frequency domain.
도 3은 일실시예에 따른 USAC 3D 인코더와 USAC 3D 디코더를 도시한 도면이다.3 illustrates a USAC 3D encoder and a USAC 3D decoder, according to an exemplary embodiment.
도 3을 참고하면, USAC 3D 인코더는 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 포함할 수 있다. 또는, USAC 3D 인코더는 제2 인코딩부(302)를 포함할 수 있다. 유사하게, USAC 3D 디코더는 제1 디코딩부(303)와 제2 디코딩부(304)를 포함할 수 있다. 또는, USAC 3D 디코더는 제1 디코딩부(303)를 포함할 수 있다.Referring to FIG. 3, the USAC 3D encoder may include both a first encoder 301 and a second encoder 302. Alternatively, the USAC 3D encoder may include a second encoding unit 302. Similarly, the USAC 3D decoder may include a first decoding unit 303 and a second decoding unit 304. Alternatively, the USAC 3D decoder may include a first decoding unit 303.
제1 인코딩부(301)에 N채널의 입력 신호가 입력된다. 그런 후, 제1 인코딩부(301)는 N채널의 입력 신호에 대해 다운믹싱하여 M채널의 다운믹스 신호를 출력할 수 있다. 이 때, N은 M보다 큰 값을 가질 수 있다. 일례로, N이 짝수인 경우, M은 N/2일 수 있다. 그리고, N이 홀수인 경우, M은 (N-1)/2+1일 수 있다. 이를 정리하면, 수학식 1과 같이 표현될 수 있다.An N-channel input signal is input to the first encoding unit 301. Thereafter, the first encoding unit 301 may downmix the input signal of the N channel to output the downmix signal of the M channel. At this time, N may have a value larger than M. For example, when N is even, M may be N / 2. And when N is odd, M may be (N-1) / 2 + 1. In summary, it may be expressed as Equation 1.
<수학식 1><Equation 1>
Figure PCTKR2015006788-appb-I000001
Figure PCTKR2015006788-appb-I000001
제2 인코딩부(302)는 M채널의 다운믹스 신호를 인코딩하여 비트스트림을 생성할 수 있다. 일례로, 제2 인코딩부(302)는 M채널의 다운믹스 신호를 인코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 인코딩부(302)가 Extended HE-AAC인 USAC 코더인 경우, 제2 인코딩부(302)는 24개의 채널 신호를 인코딩하여 전송할 수 있다. The second encoder 302 may generate a bitstream by encoding the downmix signal of the M channel. For example, the second encoder 302 may encode the downmix signal of the M channel, and a general audio coder may be utilized. For example, when the second encoder 302 is a USAC coder that is an extended HE-AAC, the second encoder 302 may encode and transmit 24 channel signals.
다만, 제2 인코딩부(302)만 이용하여 N채널의 입력 신호를 인코딩하는 경우, 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 이용하여 N채널의 입력 신호를 인코딩하는 것보다 상대적으로 많은 비트가 요구되며, 음질 열화도 발생될 수 있다.However, when the N-channel input signal is encoded using only the second encoding unit 302, the N-channel input signal is encoded using both the first encoding unit 301 and the second encoding unit 302. More bits are required, and sound quality degradation can also occur.
한편, 제1 디코딩부(303)는 제2 인코딩부(302)가 생성한 비트스트림을 디코딩하여 M채널의 다운믹스 신호를 출력할 수 있다. 그러면, 제2 디코딩부(304)는 M채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. N채널의 출력 신호는 제1 인코딩부(301)에 입력된 N채널의 입력 신호와 유사하게 복원될 수 있다. Meanwhile, the first decoder 303 may output a M-channel downmix signal by decoding the bitstream generated by the second encoder 302. Then, the second decoding unit 304 may generate an N-channel output signal by upmixing the M-channel downmix signal. The N-channel output signal may be restored similarly to the N-channel input signal input to the first encoding unit 301.
일례로, 제2 디코딩부(304)는 M채널의 다운믹스 신호를 디코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 디코딩부(304)가 Extended HE-AAC인 USAC 코더인 경우, 제2 디코딩부(302)는 24채널의 다운믹스 신호를 디코딩할 수 있다.For example, the second decoding unit 304 may decode the downmix signal of the M channel, and a general audio coder may be utilized. For example, when the second decoding unit 304 is a USAC coder that is an extended HE-AAC, the second decoding unit 302 may decode a 24 channel downmix signal.
도 4는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제1 도면이다.4 is a first diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
제1 인코딩부(301)는 복수의 다운믹싱부(401)를 포함할 수 있다. 이 때, 제1 인코딩부(301)에 입력된 N채널의 입력 신호들은 2개씩 짝으로 구성된 후 다운믹싱부(401)에 입력될 수 있다. 그래서, 다운믹싱부(401)는 TTO(Two-To-Two) 박스를 나타낼 수 있다. 다운믹싱부(401)는 입력된 2채널의 입력 신호로부터 공간큐인 CLD(Channel Level Difference), ICC(Inter Channel Correlation/Coherence), IPD(Inter Channel Phase Difference), Channel Prediction Coefficient (CPC) 또는 OPD(Overall Phase Difference)를 추출하고, 2채널(스테레오)의 입력 신호를 다운믹싱하여 1채널(모노)의 다운믹스 신호를 생성할 수 있다. The first encoding unit 301 may include a plurality of downmixing units 401. In this case, the N-channel input signals input to the first encoding unit 301 may be configured in pairs of two and then input to the downmixing unit 401. Thus, the downmixing unit 401 may represent a two-to-two box. The downmixing unit 401 is a spatial cue (CLD), Inter Channel Correlation / Coherence (ICC), Inter Channel Phase Difference (IPD), Channel Prediction Coefficient (CPC) or OPD, which are spatial cues from the input two input signals. One phase (mono) downmix signal may be generated by extracting (Overall Phase Difference) and downmixing an input signal of two channels (stereo).
제1 인코딩부(301)에 포함된 복수의 다운믹싱부(401)는 병렬 구조를 나타낼 수 있다. 예를 들어, 제1 인코딩부(301)에 N채널의 입력 신호가 입력되고 N이 짝수인 경우, 제1 인코딩부(301)에 포함되는 TTO 박스로 구현되는 다운믹싱부(401)는 N/2개가 필요할 수 있다. 도 4의 경우, 제1 인코딩부(301)는 N채널의 입력 신호를 N/2개의 TTO 박스를 통해 다운믹스하여 M채널(N/2채널)의 다운믹스 신호를 생성할 수 있다.The plurality of downmixing units 401 included in the first encoding unit 301 may represent a parallel structure. For example, when an input signal of N channels is input to the first encoding unit 301 and N is an even number, the downmixing unit 401 implemented as a TTO box included in the first encoding unit 301 is N / N. Two may be required. In the case of FIG. 4, the first encoding unit 301 may downmix an N-channel input signal through N / 2 TTO boxes to generate a downmix signal of M channels (N / 2 channels).
도 5는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제2 도면이다.FIG. 5 is a second diagram illustrating a detailed configuration of a first encoding unit of FIG. 3 according to an embodiment.
앞서 설명한 도 4는 제1 인코딩부(301)에 N채널의 입력 신호가 입력되고, N이 짝수인 경우에 제1 인코딩부(301)의 세부 구성을 나타낸다. 그리고, 도 5는 제1 인코딩부(301)에 N채널의 입력 신호가 입력되고 N이 홀수인 경우에, 제1 인코딩부(301)의 세부 구성을 나타낸다.4 illustrates a detailed configuration of the first encoding unit 301 when an input signal of N channels is input to the first encoding unit 301 and N is an even number. 5 illustrates a detailed configuration of the first encoding unit 301 when an input signal of N channels is input to the first encoding unit 301 and N is an odd number.
도 5를 참고하면, 제1 인코딩부(301)는 복수의 다운믹싱부(501)를 포함할 수 있다. 이 때, 제1 인코딩부(301)는 (N-1)/2개의 다운믹싱부(501)를 포함할 수 있다. 그리고, 나머지 1개의 채널 신호를 처리하기 위해, 제1 인코딩부(301)는 지연부(502)를 포함할 수 있다. Referring to FIG. 5, the first encoding unit 301 may include a plurality of downmixing units 501. In this case, the first encoding unit 301 may include (N-1) / 2 downmixing units 501. In addition, the first encoder 301 may include a delay unit 502 to process the other one channel signal.
이 때, 제1 인코딩부(301)에 입력된 N채널의 입력 신호들을 2채널씩 짝으로 구성된 후 다운믹싱부(501)에 입력할 수 있다. 그래서, 다운믹싱부(501)는 TTO 박스를 나타낼 수 있다. 다운믹싱부(501)는 입력된 2채널의 입력 신호로부터 공간큐인 CLD, ICC, IPD, CPC 또는 OPD를 추출하고, 2채널(스테레오)의 입력 신호를 다운믹싱하여 1채널(모노)의 다운믹스 신호를 생성할 수 있다. 제1 인코딩부(301)에서 출력되는 M채널의 다운믹스 신호는 다운믹싱부(501)의 개수와 지연부(502)의 개수에 따라 결정된다.In this case, the N-channel input signals input to the first encoding unit 301 may be configured in pairs of two channels and then input to the downmixing unit 501. Thus, the downmixing unit 501 may represent a TTO box. The downmixing unit 501 extracts the spatial cues CLD, ICC, IPD, CPC, or OPD from the input two-channel input signals, downmixes the two-channel (stereo) input signals, and downlinks one channel (mono). You can generate a mix signal. The downmix signal of the M channel output from the first encoder 301 is determined according to the number of downmixers 501 and the number of delay units 502.
그리고, 지연부(502)에 적용되는 지연값은 다운믹싱부(501)에 적용되는 지연값과 동일할 수 있다. 만약, 제1 인코딩부(301)의 출력 신호인 M채널의 다운믹스 신호가 PCM 신호인 경우, 지연값은 다음 수학식 2에 따라 결정될 수 있다.The delay value applied to the delay unit 502 may be the same as the delay value applied to the downmixer 501. If the downmix signal of the M channel, which is an output signal of the first encoding unit 301, is a PCM signal, the delay value may be determined according to Equation 2 below.
<수학식 2><Equation 2>
Figure PCTKR2015006788-appb-I000002
Figure PCTKR2015006788-appb-I000002
여기서, Enc_Delay는 다운믹싱부(501)와 지연부(502)에 적용되는 지연값을 나타낸다. 그리고, Delay1(QMF Analysis)는 MPS의 64 밴드에 대해 QMF 분석시에 발생하는 지연값을 나타내며, 288일 수 있다. 그리고, Delay2(Hybrid QMF Analysis)은 13 탭(tap)의 필터를 사용하는 Hybrid QMF 분석시에 발생하는 지연값을 나타내며, 6*64=384일 수 있다. 여기서, 64가 적용되는 이유는 64 밴드에 대해 QMF 분석이 수행되고 난 후에 Hybrid QMF 분석이 수행되기 때문이다.Here, Enc_Delay represents a delay value applied to the downmixing unit 501 and the delay unit 502. Delay1 (QMF Analysis) represents a delay value generated during QMF analysis for 64 bands of the MPS and may be 288. Delay2 (Hybrid QMF Analysis) represents a delay value generated during Hybrid QMF analysis using a 13-tap filter, and may be 6 * 64 = 384. Here, the reason why 64 is applied is that Hybrid QMF analysis is performed after QMF analysis is performed for 64 bands.
만약, 제1 인코딩부(301)의 출력 신호인 M채널의 다운믹스 신호가 QMF 신호인 경우, 지연값은 수학식 3에 따라 결정될 수 있다.If the downmix signal of the M channel, which is the output signal of the first encoding unit 301, is a QMF signal, the delay value may be determined according to Equation (3).
<수학식 3><Equation 3>
Figure PCTKR2015006788-appb-I000003
Figure PCTKR2015006788-appb-I000003
도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다. 그리고, 도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.6 is a third diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment. FIG. 7 is a fourth diagram illustrating a detailed configuration of the first encoding unit of FIG. 3 according to an embodiment.
만약, N채널의 입력 신호가 N’채널의 입력 신호와 K채널의 입력 신호로 구성된다고 가정한다. 이 때, N’채널의 입력 신호는 제1 인코딩부(301)에 입력되고, K채널의 입력 신호는 제1 인코딩부(301)에 입력되지 않는다고 가정한다.It is assumed that an input signal of the N channel is composed of an input signal of the N 'channel and an input signal of the K channel. In this case, it is assumed that an input signal of the N ′ channel is input to the first encoding unit 301, and an input signal of the K channel is not input to the first encoding unit 301.
이 경우 수학식 4에 의해 제2 인코딩부(301)에 입력되는 M채널의 다운믹스 신호에 대응하는 채널 개수인 M이 결정될 수 있다.In this case, M, which is the number of channels corresponding to the downmix signal of the M channel input to the second encoder 301, may be determined by Equation 4.
<수학식 4><Equation 4>
Figure PCTKR2015006788-appb-I000004
Figure PCTKR2015006788-appb-I000004
이 때, 도 6은 N’가 짝수인 경우에 제1 인코딩부(301)의 구조를 나타내고, 도 7은 N’가 홀수인 경우에 제1 인코딩부(301)의 구조를 나타낸다.6 illustrates a structure of the first encoding unit 301 when N 'is an even number, and FIG. 7 illustrates a structure of the first encoding unit 301 when N' is an odd number.
도 6에 의하면, N’가 짝수인 경우, N’채널의 입력 신호는 복수의 다운믹싱부(601)에 입력되고, K채널의 입력 신호는 복수의 지연부(602)에 입력될 수 있다. 여기서, N’ 채널의 입력 신호는 N’/2개의 TTO 박스를 나타내는 다운믹싱부(601)에 입력되고, K 채널의 입력 신호는 K개의 지연부(602)에 입력될 수 있다.Referring to FIG. 6, when N 'is an even number, input signals of the N ′ channel may be input to the plurality of downmixing units 601, and input signals of the K channel may be input to the plurality of delay units 602. Here, the input signal of the N 'channel may be input to the downmixing unit 601 representing N' / 2 TTO boxes, and the input signal of the K channel may be input to the K delay units 602.
그리고, 도 7에 의하면, N’가 홀수인 경우, N’ 채널의 입력 신호는 복수의 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K 채널의 입력 신호는 복수의 지연부(702)에 입력될 수 있다. 여기서, N’ 채널의 입력 신호는 N’/2개의 TTO 박스를 나타내는 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K 채널의 입력 신호는 K개의 지연부(702)에 입력될 수 있다.In addition, according to FIG. 7, when N ′ is an odd number, an input signal of an N ′ channel may be input to the plurality of downmixing units 701 and one delay unit 702. The input signal of the K channel may be input to the plurality of delay units 702. Here, the input signal of the N 'channel may be input to the downmixing unit 701 and one delay unit 702 representing N' / 2 TTO boxes. The input signal of the K channel may be input to the K delay units 702.
도 8은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제1 도면이다.8 is a first diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 8을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 제1 디코딩부(303)는 비트스트림에 포함된 M채널의 다운믹스 신호를 디코딩할 수 있다. 이 때, 제2 디코딩부(304)는 도 3의 제2 인코딩부(301)로부터 전송된 공간큐를 이용하여 M채널의 다운믹스 신호를 업믹싱함으로써 N채널의 출력 신호를 생성할 수 있다.Referring to FIG. 8, the second decoding unit 304 may generate an N-channel output signal by upmixing the M-down channel downmix signal transmitted from the first decoding unit 303. The first decoding unit 303 may decode the downmix signal of the M channel included in the bitstream. In this case, the second decoding unit 304 may generate the output signal of the N channel by upmixing the downmix signal of the M channel using the spatial cues transmitted from the second encoding unit 301 of FIG. 3.
일례로, N채널의 출력 신호에서 N이 짝수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801)와 업믹싱부(802)를 포함할 수 있다. 그리고, N채널의 출력 신호에서 N이 홀수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801), 업믹싱부(802) 및 지연부(803)를 포함할 수 있다. 즉, N채널의 출력 신호에서 N이 짝수인 경우, 도 8에서 도시된 바와 달리 지연부(803)가 불필요할 수 있다.For example, when N is an even number in the output signal of the N channel, the second decoding unit 304 may include a plurality of decorrelating units 801 and upmixing units 802. When N is an odd number in the N-channel output signal, the second decoding unit 304 may include a plurality of uncorrelated units 801, an upmixing unit 802, and a delay unit 803. That is, when N is an even number in the output signal of the N channel, the delay unit 803 may be unnecessary, as shown in FIG. 8.
이 때, 비상관부(801)에서 비상관된 신호를 생성하는 과정에서 추가적인 지연이 발생할 수 있기 때문에, 지연부(803)의 지연값은 인코더에서 적용된 지연값과 다를 수 있다. 도 8은 제2 디코딩부(304)로부터 도출되는 N채널의 출력 신호에서 N이 홀수인 경우를 나타낸다.In this case, since an additional delay may occur in the process of generating an uncorrelated signal in the uncorrelated unit 801, the delay value of the delay unit 803 may be different from the delay value applied in the encoder. 8 illustrates a case where N is an odd number in an N-channel output signal derived from the second decoding unit 304.
제2 디코딩부(304)에서 출력된 N채널의 출력 신호가 PCM 신호인 경우, 지연부(803)의 지연값은 하기 수학식 5에 따라 결정될 수 있다.When the output signal of the N channel output from the second decoding unit 304 is a PCM signal, the delay value of the delay unit 803 may be determined according to Equation 5 below.
<수학식 5><Equation 5>
Figure PCTKR2015006788-appb-I000005
Figure PCTKR2015006788-appb-I000005
여기서, Dec_Delay는 지연부(803)의 지연값을 나타낸다. 그리고, Delay1은 QMF 분석에 따라 발생되는 지연값, Delay2는 하이브리드 QMF 분석에 따라 발생되는 지연값, Delay3은 QMF 합성에 따라 발생되는 지연값을 나타낸다. 그리고, Delay4는 비상관부(801)에서 비상관성 필터를 적용함에 따라 발생되는 지연값을 나타낸다.Here, Dec_Delay represents the delay value of the delay unit 803. Delay1 represents a delay value generated according to QMF analysis, Delay2 represents a delay value generated from hybrid QMF analysis, and Delay3 represents a delay value generated from QMF synthesis. Delay 4 represents a delay value generated when the uncorrelated filter is applied in the uncorrelated unit 801.
그리고, 제2 디코딩부(304)에서 출력된 N채널의 출력 신호가 QMF 신호인 경우, 지연부(803)의 지연값은 하기 수학식 6에 따라 결정될 수 있다.When the output signal of the N channel output from the second decoding unit 304 is a QMF signal, the delay value of the delay unit 803 may be determined according to Equation 6 below.
<수학식 6><Equation 6>
Figure PCTKR2015006788-appb-I000006
Figure PCTKR2015006788-appb-I000006
먼저 복수의 비상관부(801)들 각각은 제2 디코딩부(304)에 입력된 M채널의 다운믹스 신호는 비상관된 신호를 생성할 수 있다. 복수의 비상관부(801)들 각각에서 생성된 비상관된 신호는 업믹싱부(802)에 입력될 수 있다.First, each of the plurality of uncorrelated units 801 may generate an uncorrelated signal of the downmix signal of the M channel input to the second decoder 304. The uncorrelated signal generated in each of the plurality of decorrelators 801 may be input to the upmixing unit 802.
이 때, MPS에서 비상관된 신호를 생성하는 것과 달리, 복수의 비상관부(801)는 M채널의 다운믹스 신호를 이용하여 비상관된 신호를 생성할 수 있다. 즉, 비상관된 신호를 생성하기 위해, 인코더에서 전달된 M채널의 다운믹스 신호를 이용하는 경우, 다채널 신호의 음장을 재현할 때 음질 열화가 발생되지 않을 수 있다.In this case, unlike generating an uncorrelated signal in the MPS, the plurality of uncorrelated units 801 may generate an uncorrelated signal using the downmix signal of the M channel. That is, when using an M-channel downmix signal transmitted from an encoder to generate an uncorrelated signal, sound quality degradation may not occur when reproducing a sound field of a multi-channel signal.
이하에서는, 제2 디코딩부(304)에 포함된 업믹싱부(802)의 동작에 대해 설명하기로 한다. 제2 디코딩부(304)에 입력되는 M채널의 다운믹스 신호는 m(n)=[m0(n),m1(n),,..,mM-1(n)]T로 정의될 수 있다. 그리고, M채널의 다운믹스 신호를 이용하여 생성되는 M개의 비상관된 신호는
Figure PCTKR2015006788-appb-I000007
로 정의될 수 있다. 또한, 제2 디코딩부(304)를 통해 출력되는 N채널의 출력 신호는
Figure PCTKR2015006788-appb-I000008
로 정의될 수 있다.
Hereinafter, an operation of the upmixing unit 802 included in the second decoding unit 304 will be described. The downmix signal of the M channel input to the second decoding unit 304 is defined as m (n) = [m 0 (n), m 1 (n), .., m M-1 (n)] T. Can be. The M uncorrelated signals generated by using the downmix signal of the M channel are
Figure PCTKR2015006788-appb-I000007
It can be defined as. In addition, the output signal of the N channel output through the second decoding unit 304 is
Figure PCTKR2015006788-appb-I000008
It can be defined as.
그러면, 제2 디코딩부(304)는 하기 수학식 7에 따라 N채널의 출력 신호를 생성할 수 있다.Then, the second decoding unit 304 may generate an output signal of the N channel according to Equation 7 below.
<수학식 7><Equation 7>
Figure PCTKR2015006788-appb-I000009
Figure PCTKR2015006788-appb-I000009
여기서, M(n)은 n개의 샘플 시간에서 M채널의 다운믹스 신호에 대해 업믹싱을 수행하기 위한 행렬을 의미한다. 이 때, M(n)은 하기 수학식 8로 정의될 수 있다.Here, M (n) means a matrix for performing upmixing on the downmix signal of M channels at n sample times. At this time, M (n) may be defined by the following equation (8).
<수학식 8><Equation 8>
Figure PCTKR2015006788-appb-I000010
Figure PCTKR2015006788-appb-I000010
수학식 8에서 0은 2x2 영행렬이며,
Figure PCTKR2015006788-appb-I000011
는 2x2 행렬로서 하기 수학식 9와 같이 정의될 수 있다.
In Equation 8, 0 is a 2x2 zero matrix.
Figure PCTKR2015006788-appb-I000011
May be defined as Equation 9 as a 2 × 2 matrix.
<수학식 9><Equation 9>
Figure PCTKR2015006788-appb-I000012
Figure PCTKR2015006788-appb-I000012
여기서,
Figure PCTKR2015006788-appb-I000013
의 구성요소인
Figure PCTKR2015006788-appb-I000014
은 인코더로부터 전송된 공간큐로부터 도출될 수 있다. 인코더로부터 실제로 전송되는 공간큐는 프레임 단위인 b 인덱스마다 결정될 수 있으며, 샘플 단위로 적용되는
Figure PCTKR2015006788-appb-I000015
은 서로 이웃한 프레임간의 보간(interpolation)에 의해 결정될 수 있다.
here,
Figure PCTKR2015006788-appb-I000013
Is a component of
Figure PCTKR2015006788-appb-I000014
May be derived from the spatial cues sent from the encoder. The spatial cues actually transmitted from the encoder can be determined for each b index, which is a frame unit, and is applied on a sample basis.
Figure PCTKR2015006788-appb-I000015
May be determined by interpolation between frames adjacent to each other.
Figure PCTKR2015006788-appb-I000016
은 MPS 방법에 따라 하기 수학식 10에 의해 결정될 수 있다.
Figure PCTKR2015006788-appb-I000016
May be determined by Equation 10 according to the MPS method.
<수학식 10><Equation 10>
Figure PCTKR2015006788-appb-I000017
Figure PCTKR2015006788-appb-I000017
수학식 10에서,
Figure PCTKR2015006788-appb-I000018
은 CLD로부터 도출될 수 있다. 그리고,
Figure PCTKR2015006788-appb-I000019
Figure PCTKR2015006788-appb-I000020
는 CLD와 ICC로부터 도출될 수 있다. 수학식 10은 MPS에 정의된 공간큐의 처리 방식에 따라 도출될 수 있다.
In Equation 10,
Figure PCTKR2015006788-appb-I000018
Can be derived from the CLD. And,
Figure PCTKR2015006788-appb-I000019
Wow
Figure PCTKR2015006788-appb-I000020
Can be derived from CLD and ICC. Equation 10 may be derived according to the processing method of the spatial queue defined in the MPS.
그리고 수학식 7에서, 연산자
Figure PCTKR2015006788-appb-I000021
는 벡터들의 각 요소들을 인터레이스(interlace)하여 새로운 백터 열을 생성하기 위한 연산자를 나타낸다. 수학식 7에서
Figure PCTKR2015006788-appb-I000022
은 하기 수학식 11에 따라 결정될 수 있다.
And in Equation 7,
Figure PCTKR2015006788-appb-I000021
Denotes an operator for interlacing each element of the vectors to create a new vector column. In equation (7)
Figure PCTKR2015006788-appb-I000022
May be determined according to Equation 11 below.
<수학식 11><Equation 11>
Figure PCTKR2015006788-appb-I000023
Figure PCTKR2015006788-appb-I000023
이러한 과정을 통해 수학식 7은 하기 수학식 12로 표현될 수 있다.Through this process, Equation 7 may be represented by Equation 12 below.
<수학식 12><Equation 12>
Figure PCTKR2015006788-appb-I000024
Figure PCTKR2015006788-appb-I000024
수학식 12에서, 입력 신호와 출력 신호의 처리 과정을 분명하게 나타내기 위해 { }가 사용되었다. 수학식 11에 의해서 M채널의 다운믹스 신호와 비상관된 신호는 서로 짝을 이루어서, 업믹싱 행렬인 수학식 12의 입력이 될 수 있다. 즉, 수학식 12에 의하면, M채널의 다운믹스 신호들 각각마다 비상관된 신호를 적용함으로써 업믹싱 과정에서의 음질의 왜곡이 최소화될 수 있고, 음장 효과도 최대한 원래 신호에 가깝게 생성될 수 있다.In Equation 12, {} is used to clearly indicate the processing of the input signal and the output signal. According to Equation 11, the downmix signal of the M channel and the uncorrelated signal may be paired with each other, and may be an input of Equation 12, which is an upmixing matrix. That is, according to Equation 12, by applying an uncorrelated signal to each of the downmix signals of the M channel, the distortion of sound quality during the upmixing process can be minimized, and the sound field effect can be generated as close to the original signal as possible. .
위에서 설명한 수학식 12는 하기 수학식 13으로도 표현될 수 있다.Equation 12 described above may also be represented by Equation 13 below.
<수학식 13><Equation 13>
Figure PCTKR2015006788-appb-I000025
Figure PCTKR2015006788-appb-I000025
도 9는 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제2 도면이다.9 is a second diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 9를 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M채널의 다운믹스 신호를 디코딩하여 N채널의 출력 신호를 생성할 수 있다. M채널의 다운믹스 신호가 N’/2채널의 오디오 신호와 K채널의 오디오 신호로 구성되는 경우, 제2 디코딩부(304)도 인코더에서 처리한 결과를 반영하여 처리할 수 있다.Referring to FIG. 9, the second decoding unit 304 may decode an M-channel downmix signal transmitted from the first decoding unit 303 to generate an N-channel output signal. When the downmix signal of the M channel is composed of an N '/ 2 channel audio signal and a K channel audio signal, the second decoding unit 304 may also process the result reflected by the encoder.
예를 들어서, 제2 디코딩부(304)에 입력되는 M채널의 다운믹스 신호가 수학식 4를 만족한다고 가정하면, 도 9와 같이 제2 디코딩부(304)는 복수의 지연부(903)들을 포함할 수 있다.For example, assuming that the downmix signal of the M channel input to the second decoding unit 304 satisfies Equation 4, as shown in FIG. 9, the second decoding unit 304 may control the plurality of delay units 903. It may include.
이 때, 수학식 4를 만족하는 M채널의 다운믹스 신호에 N’가 홀수인 경우, 제2 디코딩부(304)는 도 9와 같은 구조를 가질 수 있다. 만약, 수학식 4를 만족하는 M채널의 다운믹스 신호에 대해 N’가 짝수인 경우, 도 9의 제2 디코딩부(304)에서 업믹싱부(902) 아래에 위치한 1개의 지연부(903)가 제외될 수 있다.In this case, when N ′ is an odd number of downmix signals of M channels satisfying Equation 4, the second decoding unit 304 may have a structure as shown in FIG. 9. If N 'is an even number for the downmix signal of the M channel satisfying Equation 4, one delay unit 903 located below the upmixing unit 902 in the second decoding unit 304 of FIG. May be excluded.
도 10은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제3 도면이다.FIG. 10 is a third diagram illustrating a detailed configuration of a second decoding unit of FIG. 3 according to an embodiment.
도 10을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M채널의 다운믹스 신호를 업믹싱함으로써 N채널의 출력 신호를 생성할 수 있다. 이 때, 도 10에 도시된 제2 디코딩부(304)에서 업믹싱부(1002)는 OTT(One-To-Two) 박스를 나타내는 복수의 신호 처리부(1003)들을 포함할 수 있다. Referring to FIG. 10, the second decoding unit 304 may generate an N-channel output signal by upmixing an M-channel downmix signal transmitted from the first decoding unit 303. In this case, in the second decoding unit 304 illustrated in FIG. 10, the upmixing unit 1002 may include a plurality of signal processing units 1003 representing a one-to-two box.
이 때, 복수의 신호 처리부(1003)들 각각은 M채널의 다운믹스 신호들 중 1채널의 다운믹스 신호와 비상관부(1001)에서 생성한 비상관된 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다. 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N-1채널의 출력 신호를 생성할 수 있다.At this time, each of the plurality of signal processing units 1003 generates two channels of output signals using the downmix signal of one channel among the downmix signals of the M channel and the uncorrelated signal generated by the uncorrelated unit 1001. can do. The plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate output signals of the N-1 channel.
만약에, N이 짝수인 경우, 제2 디코딩부(304)에서 지연부(1004)는 제외될 수 있다. 그러면, 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N채널의 출력 신호를 생성할 수 있다.If N is an even number, the delay unit 1004 may be excluded from the second decoding unit 304. Then, the plurality of signal processing units 1003 arranged in parallel in the upmixing unit 1002 may generate output signals of N channels.
신호 처리부(1003)는 수학식 13에 따라 업믹싱할 수 있다. 그리고, 모든 신호 처리부(1003)에서 수행되는 업믹싱 과정은 수학식 12와 같은 하나의 업믹싱 행렬로 표현될 수 있다.The signal processor 1003 may upmix according to Equation 13. The upmixing process performed by all the signal processing units 1003 may be represented by one upmixing matrix as shown in Equation 12.
도 11은 일실시예에 따른 도 3을 구현한 예시를 도시한 도면이다.FIG. 11 is a diagram illustrating an example of implementing FIG. 3 according to an embodiment.
도 11을 참고하면, 제1 인코딩부(301)는 TTO 박스의 복수의 다운믹싱부(1101)와 복수의 지연부(1102)를 포함할 수 있다. 그리고, 제2 인코딩부(302)는 복수의 USAC 인코더(1103)들을 포함할 수 있다. 한편, 제1 디코딩부(303)는 복수의 USAC 디코더(1106)를 포함할 수 있고, 제2 디코딩부(304)는 OTT 박스의 복수의 업믹싱부(304)와 복수의 지연부(1108)를 포함할 수 있다.Referring to FIG. 11, the first encoding unit 301 may include a plurality of downmixing units 1101 and a plurality of delay units 1102 of the TTO box. The second encoding unit 302 may include a plurality of USAC encoders 1103. Meanwhile, the first decoding unit 303 may include a plurality of USAC decoders 1106, and the second decoding unit 304 may include a plurality of upmixing units 304 and a plurality of delay units 1108 of the OTT box. It may include.
도 11을 참고하면, 제1 인코딩부(301)는 N채널의 입력 신호를 이용하여 M채널의 다운믹스 신호를 출력할 수 있다. 이 때, M채널의 다운믹스 신호는 제2 인코딩부(302)에 입력될 수 있다. 이 때, M채널의 다운믹스 신호들 중 TTO 박스의 다운믹싱부(1101)를 거친 1채널의 다운믹스 신호의 쌍들은 제2 인코딩부(302)에 포함된 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다. Referring to FIG. 11, the first encoding unit 301 may output a downmix signal of M channels by using an input signal of N channels. In this case, the downmix signal of the M channel may be input to the second encoding unit 302. At this time, pairs of downmix signals of one channel, which are passed through the downmixing unit 1101 of the TTO box, among the downmix signals of the M channel, in a stereo form in the USAC encoder 1103 included in the second encoding unit 302. Can be encoded.
그리고, M채널의 다운믹스 신호들 중 TTO 박스의 다운믹싱부(1101)를 거치지 않고 지연부(1102)를 거친 다운믹스 신호는 USAC 인코더(1103)에서 모노 형태 또는 스테레오 형태로 인코딩될 수 있다. 다시 말해서, M채널의 다운믹스 신호들 중 지연부(1102)를 거친 1채널의 다운믹스 신호는 USAC 인코더(1103)에서 모노 형태로 인코딩될 수 있다. 그리고, M채널의 다운믹스 신호들 중 2개의 지연부(1102)를 거친 2개의 1채널의 다운믹스 신호는 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다.The downmix signal, which has passed through the delay unit 1102 without passing through the downmixing unit 1101 of the TTO box, may be encoded in the mono form or the stereo form by the USAC encoder 1103. In other words, the downmix signal of one channel of the downmix signal of the M channel, which has passed through the delay unit 1102, may be encoded in the mono form by the USAC encoder 1103. The downmix signals of two channels, which have passed through the two delay units 1102 of the downmix signals of the M channel, may be encoded in a stereo form by the USAC encoder 1103.
M개의 채널 신호는 제2 인코딩부(302)에서 인코딩되어 복수의 비트스트림들로 생성될 수 있다. 그리고, 복수의 비트스트림들은 다중화부(1104)를 통해 하나의 비트스트림으로 재포맷될 수 있다.The M channel signals may be encoded by the second encoding unit 302 to generate a plurality of bitstreams. The plurality of bitstreams may be reformatted into one bitstream through the multiplexer 1104.
다중화부(1104)에서 생성된 비트스트림은 역다중화부(1104)에 전달되며, 역다중화부(1105)는 비트스트림을 제1 디코딩부(303)에 포함된 USAC 디코더(303)에 대응되는 복수의 비트스트림들로 역다중화할 수 있다.The bitstream generated by the multiplexer 1104 is transferred to the demultiplexer 1104, and the demultiplexer 1105 corresponds to a plurality of bitstreams corresponding to the USAC decoder 303 included in the first decoder 303. It can demultiplex into bitstreams of.
역다중화된 복수의 비트스트림들은 제1 디코딩부(303)에 포함된 USAC 디코더(1106)에 각각 입력될 수 있다. 그리고, USAC 디코더(303)는 제2 인코딩부(302)에 포함된 USAC 인코더(1103)가 인코딩한 방식에 따라 디코딩할 수 있다. 그러면, 제1 디코딩부(303)는 복수의 비트스트림으로부터 M채널의 다운믹스 신호를 출력할 수 있다.The plurality of demultiplexed bitstreams may be input to the USAC decoder 1106 included in the first decoding unit 303, respectively. The USAC decoder 303 may decode according to a method encoded by the USAC encoder 1103 included in the second encoding unit 302. Then, the first decoding unit 303 may output the downmix signal of the M channel from the plurality of bitstreams.
이후, 제2 디코딩부(304)는 M채널의 다운믹스 신호를 이용하여 N채널의 출력 신호를 생성할 수 있다. 이 때, 제2 디코딩부(304)는 OTT 박스의 업믹싱부(1107)를 이용하여 입력된 M채널의 다운믹스 신호의 일부를 업믹싱할 수 있다. 구체적으로, M채널의 다운믹스 신호들 중 1채널의 다운믹스 신호는 업믹싱부(1107)에 입력되고, 업믹싱부(1107)는 1채널의 다운믹스 신호와 비상관된 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다. 일례로, 업믹싱부(1107)는 수학식 13을 이용하여 2채널의 출력 신호를 생성할 수 있다.Thereafter, the second decoding unit 304 may generate an output signal of the N channel using the downmix signal of the M channel. In this case, the second decoding unit 304 may upmix a portion of the downmix signal of the input M channel using the upmixing unit 1107 of the OTT box. Specifically, the downmix signal of one channel of the downmix signals of the M channel is input to the upmixing unit 1107, and the upmixing unit 1107 uses a signal uncorrelated with the downmix signal of one channel to 2. The output signal of the channel can be generated. For example, the upmixing unit 1107 may generate two channels of output signals using Equation 13.
한편, 복수의 업믹싱부(1107)들 각각이 수학식 13에 대응하는 업믹싱 행렬을 이용하여 M번만큼 업믹싱을 수행함으로써, 제2 디코딩부(304)는 N채널의 출력 신호를 생성할 수 있다. 그래서, 수학식 12는 수학식 13에 따른 업믹싱을 M번만큼 수행하여야 도출되는 것이므로, 수학식 12의 M은 제2 디코딩부(304)에 포함된 업믹싱부(1107)의 개수와 동일할 수 있다.Meanwhile, each of the plurality of upmixing units 1107 performs upmixing M times by using an upmixing matrix corresponding to Equation 13, so that the second decoding unit 304 generates an N-channel output signal. Can be. Thus, since Equation 12 is derived only by performing M upmixing according to Equation 13, M in Equation 12 may be equal to the number of upmixing units 1107 included in the second decoding unit 304. Can be.
그리고, N채널의 입력 신호들 중 제1 인코딩부(301)에서 TTO 박스의 다운믹싱부(1101)가 아닌 지연부(1102)를 통해 M채널의 다운믹스 신호에서 K채널의 오디오 신호가 포함된 경우, K채널의 오디오 신호는 제2 디코딩부(304)에서 OTT 박스의 업믹싱부(1107)가 아닌 지연부(1108)에서 처리될 수 있다. 이 경우, 업믹싱부(1107)을 통해 출력되는 출력 신호의 채널 개수는 N-K일 수 있다.The first encoder 301 of the N channel input signals includes the K channel audio signal from the M channel downmix signal through the delay unit 1102 instead of the downmixing unit 1101 of the TTO box. In this case, the K-channel audio signal may be processed by the delay unit 1108 instead of the upmixing unit 1107 of the OTT box by the second decoding unit 304. In this case, the number of channels of the output signal output through the upmixing unit 1107 may be N-K.
도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.12 is a diagram schematically illustrating FIG. 11 according to an embodiment.
도 12를 참고하면, N채널의 입력 신호는 2채널씩 쌍을 이루어 제1 인코딩부(301)에 포함된 다운믹싱부(1201)에 입력될 수 있다. 다운믹싱부(1201)는 TTO 박스로 구성될 수 있으며, 2채널의 입력 신호를 다운믹싱하여 1채널의 다운믹스 신호를 생성할 수 있다. 제1 인코딩부(301)는 병렬적으로 배치된 복수의 다운믹싱부(1201)를 이용하여 N채널의 입력 신호로부터 M채널의 다운믹스 신호를 생성할 수 있다. 본 발명의 일실시예에 따르면, N은 M보다 큰 정수로서, M은 N/2가 될 수 있다.Referring to FIG. 12, N-channel input signals may be input to the downmixing unit 1201 included in the first encoding unit 301 in pairs of two channels. The downmixer 1201 may be configured as a TTO box, and downmix the two input signals to generate one downmix signal. The first encoding unit 301 may generate an M-channel downmix signal from the N-channel input signals by using the plurality of downmixing units 1201 arranged in parallel. According to one embodiment of the invention, N is an integer greater than M, M may be N / 2.
그러면, 제2 인코딩부(302)에 포함된 스테레오 타입의 USAC 인코더(1202)는 2개의 다운믹싱부(1201)에서 출력된 2개의 1채널의 다운믹스 신호를 인코딩하여 비트스트림을 생성할 수 있다.Then, the stereotype USAC encoder 1202 included in the second encoder 302 may generate a bitstream by encoding two downmix signals output from the two downmixers 1201. .
그리고, 제1 디코딩부(303)에 포함된 스테레오 타입의 USAC 디코더(1203)는 비트스트림으로부터 M채널의 다운믹스 신호에서 2개의 1채널의 다운믹스 신호를 복원할 수 있다. 2개의 1채널 다운믹스 신호들은 각각 제2 디코딩부(304)에 포함된 OTT 박스를 나타내는 2개의 업믹싱부(1204)에 입력될 수 있다. 그러면, 업믹싱부(1204)는 1채널의 다운믹스 신호와 비상관된 신호를 이용하여 N채널의 출력 신호를 구성하는 2채널의 출력 신호를 생성할 수 있다.The USAC decoder 1203 of the stereo type included in the first decoder 303 may restore two downmix signals of one channel from the downmix signal of M channels from the bitstream. Two one-channel downmix signals may be input to two upmixing units 1204 respectively representing OTT boxes included in the second decoding unit 304. Then, the upmixing unit 1204 may generate two channel output signals constituting the N channel output signals using signals uncorrelated with one channel downmix signal.
도 13은 일실시예에 따른 도 12의 제2 인코딩부와 제1 디코딩부의 세부 구성을 도시한 도면이다.FIG. 13 is a diagram illustrating a detailed configuration of a second encoding unit and a first decoding unit of FIG. 12 according to an embodiment.
도 13에서 제2 인코딩부(302)에 포함된 USAC 인코더(1302)는 TTO 박스의 다운믹싱부(1303), SBR(Spectral Band Replication)부(1304) 및 코어 인코딩부(1305)를 포함할 수 있다.In FIG. 13, the USAC encoder 1302 included in the second encoding unit 302 may include a downmixing unit 1303, a spectral band replication (SBR) unit 1304, and a core encoding unit 1305 of the TTO box. have.
제1 인코딩부(301)에 포함된 TTO 박스의 다운믹싱부(1301)는 N채널의 입력 신호들 중 2채널의 입력 신호를 다운믹싱하여 M채널의 다운믹스 신호를 구성하는 1채널의 다운믹스 신호를 생성할 수 있다. 다운믹싱부(1301)의 개수에 따라 M채널의 채널 개수가 결정될 수 있다.The downmixing unit 1301 of the TTO box included in the first encoding unit 301 downmixes two input signals of the N channel input signals to form one downmix signal of the M channel. You can generate a signal. The number of channels of the M channel may be determined according to the number of the downmixing units 1301.
그러면, 제1 인코딩부(301)에 포함된 2개의 다운믹싱부(1301)에서 출력되는 2개의 1채널의 다운믹스 신호는 USAC 인코더(1302)에 포함된 TTO 박스의 다운믹싱부(1303)에 입력될 수 있다. 다운믹싱부(1303)는 2개의 다운믹싱부(1301)에서 출력된 1채널의 다운믹스 신호의 쌍을 다운믹싱하여 1채널의 다운믹스 신호를 생성할 수 있다.Then, the two downmix signals output from the two downmixing units 1301 included in the first encoding unit 301 are transmitted to the downmixing unit 1303 of the TTO box included in the USAC encoder 1302. Can be entered. The downmixer 1303 may generate a downmix signal of one channel by downmixing a pair of downmix signals of one channel output from the two downmixers 1301.
다운믹싱부(1303)에서 생성된 모노 신호의 고주파수 대역에 대한 파라미터 인코딩을 위해 SBR부(1304)는 모노 신호에서 고주파수 대역을 제외하고 저주파수 대역만 추출할 수 있다. 그러면, 코어 인코딩부(1305)는 코어 대역에 해당하는 저주파수 대역의 모노 신호를 인코딩하여 비트스트림을 생성할 수 있다.In order to encode the high frequency band of the mono signal generated by the downmixing unit 1303, the SBR unit 1304 may extract only the low frequency band excluding the high frequency band from the mono signal. Then, the core encoding unit 1305 may generate a bitstream by encoding the mono signal of the low frequency band corresponding to the core band.
결론적으로, 본 발명의 일실시예에 의하면, N채널의 입력 신호로부터 M채널의 다운믹스 신호를 포함하는 비트스트림을 생성하기 위해 TTO 형태의 다운믹싱 과정이 연속적으로 수행될 수 있다. 다시 말해서, TTO 박스의 다운믹싱부(1301)는 N채널의 입력 신호들 중 스테레오 형태인 2채널의 입력 신호를 다운믹싱할 수 있다. 그리고, 2개의 다운믹싱부(1301) 각각에서 출력된 결과는 M채널의 다운믹스 신호의 일부로서, TTO 박스의 다운믹싱부(1303)에 입력될 수 있다. 즉, N채널의 입력 신호들 중 4채널의 입력 신호는 연속적으로 TTO 형태의 다운믹싱을 통해 1채널의 다운믹스 신호로 출력될 수 있다.In conclusion, according to an embodiment of the present invention, a TTO type downmixing process may be continuously performed to generate a bitstream including an M channel downmix signal from an N channel input signal. In other words, the downmixing unit 1301 of the TTO box may downmix two channel input signals having a stereo form among the N channel input signals. The result output from each of the two downmixing units 1301 may be input to the downmixing unit 1303 of the TTO box as a part of the downmix signal of the M channel. That is, four of the N-channel input signals may be continuously output as one-channel downmix signals through TTO-type downmixing.
그리고, 제2 인코딩부(302)에서 생성된 비트스트림은 제1 디코딩부(302)의 USAC 디코더(1306)에 입력될 수 있다. 도 13에서 제2 인코딩부(302)에 포함된 USAC 디코더(1306)는 코어 디코딩부(1307), SBR부(1308), OTT 박스의 업믹싱부(1309)를 포함할 수 있다.The bitstream generated by the second encoder 302 may be input to the USAC decoder 1306 of the first decoder 302. In FIG. 13, the USAC decoder 1306 included in the second encoding unit 302 may include a core decoding unit 1307, an SBR unit 1308, and an upmixing unit 1309 of an OTT box.
코어 디코딩부(1307)는 비트스트림을 이용하여 저주파수 대역에 대응하는 코어 대역의 모노 신호를 출력할 수 있다. 그러면, SBR부(1308)는 모노 신호의 저주파수 대역을 복사하여 고주파수 대역을 복원할 수 있다. 업믹싱부(1309)는 SBR부(1308)에서 출력된 모노 신호를 업믹싱하여 M채널의 다운믹스 신호를 구성하는 스테레오 신호를 생성할 수 있다.The core decoding unit 1307 may output a mono signal of the core band corresponding to the low frequency band using the bitstream. Then, the SBR unit 1308 may restore the high frequency band by copying the low frequency band of the mono signal. The upmixing unit 1309 may generate a stereo signal constituting the downmix signal of the M channel by upmixing the mono signal output from the SBR unit 1308.
그러면, 제2 디코딩부(304)에 포함된 OTT 박스의 업믹싱부(1310)는 제1 디코딩부(302)에서 생성한 스테레오 신호에 포함된 모노 신호를 업믹싱하여 스테레오 신호를 생성할 수 있다.Then, the upmixing unit 1310 of the OTT box included in the second decoding unit 304 may generate a stereo signal by upmixing the mono signal included in the stereo signal generated by the first decoding unit 302. .
결론적으로, 본 발명의 일실시예에 의하면, 비트스트림으로부터 N채널의 출력 신호를 복원하기 위해 OTT 형태의 업믹싱 과정이 병렬적으로 연속적으로 수행될 수 있다. 다시 말해서, OTT 박스의 업믹싱부(1309)는 모노 신호(1채널)를 업믹싱하여 스테레오 신호를 생성할 수 있다. 그리고, 업믹싱부(1309)의 출력 신호인 스테레오 신호를 구성하는 2개의 모노 신호는 OTT 박스의 업믹싱부(1310)에 입력될 수 있다. OTT 박스의 업믹싱부(1301)는 입력된 모노 신호를 업믹싱하여 스테레오 신호를 출력할 수 있다. 즉, 모노 신호를 연속적으로 OTT 형태의 업믹싱을 통해 4채널의 출력 신호를 생성할 수 있다.In conclusion, according to an embodiment of the present invention, an OTT-type upmixing process may be performed in parallel to recover an N-channel output signal from a bitstream. In other words, the upmixing unit 1309 of the OTT box may generate a stereo signal by upmixing a mono signal (one channel). The two mono signals constituting the stereo signal as the output signal of the upmixing unit 1309 may be input to the upmixing unit 1310 of the OTT box. The upmixing unit 1301 of the OTT box may output a stereo signal by upmixing the input mono signal. That is, four channels of the output signal can be generated by continuously mixing the mono signal in the OTT form.
도 14는 일실시예에 따른 도 11의 제1 인코딩부와 제2 인코딩부를 결합하고, 제1 디코딩부와 제2 디코딩부를 결합한 결과를 도시한 도면이다.14 is a diagram illustrating a result of combining the first encoding unit and the second encoding unit of FIG. 11 and combining the first decoding unit and the second decoding unit, according to an exemplary embodiment.
도 11의 제1 인코딩부와 제2 인코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 인코딩부(1401)로 구현될 수 있다. 그리고, 도 11의 제1 디코딩부와 제2 디코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 디코딩부(1402)로 구현된 결과를 나타낸다.The first encoding unit and the second encoding unit of FIG. 11 may be combined to be implemented as one encoding unit 1401 as illustrated in FIG. 14. In addition, the first decoding unit and the second decoding unit of FIG. 11 are combined to show a result implemented by one decoding unit 1402 as shown in FIG. 14.
도 14의 인코딩부(1401)는 TTO 박스의 다운믹싱부(1405), SBR부(1406) 및 코어 인코딩부(1407)를 포함하는 USAC 인코더에 TTO 박스의 다운믹싱부(1404)를 추가로 포함하는 인코딩부(1403)를 포함할 수 있다. 이 때, 인코딩부(1401)는 병렬 구조로 배치된 복수의 인코딩부(1403)를 포함할 수 있다. 또는, 인코딩부(1403)는 TTO 박스의 다운믹싱부(1404)를 포함하는 USAC 인코더에 대응될 수 있다.The encoding unit 1401 of FIG. 14 further includes a downmixing unit 1404 of the TTO box in a USAC encoder including a downmixing unit 1405, an SBR unit 1406, and a core encoding unit 1407 of the TTO box. An encoding unit 1403 may be included. In this case, the encoding unit 1401 may include a plurality of encoding units 1403 arranged in a parallel structure. Alternatively, the encoding unit 1403 may correspond to a USAC encoder including the downmixing unit 1404 of the TTO box.
즉, 본 발명의 일실시예에 따르면, 인코딩부(1403)는 N채널의 입력 신호들 4채널의 입력 신호에 TTO 형태의 다운믹싱을 연속적으로 적용함으로써 1채널의 모노 신호를 생성할 수 있다.That is, according to an embodiment of the present invention, the encoding unit 1403 may generate a mono signal of one channel by continuously applying a TTO-type downmixing to four input signals of N channels.
동일한 방식으로, 도 14의 디코딩부(1402)는 코어 디코딩부(1411), SBR부(1412) 및 OTT 박스의 업믹싱부(1413)를 포함하는 USAC 디코더에 OTT 박스의 업믹싱부(1404)를 추가로 포함하는 디코딩부(1410)를 포함할 수 있다. 이 때, 디코딩부(1402)는 병렬 구조로 배치된 복수의 디코딩부(1410)를 포함할 수 있다. 또는, 디코딩부(1410)는 OTT 박스의 업믹싱부(1404)를 포함하는 USAC 디코더에 대응될 수 있다.In the same manner, the decoding unit 1402 of FIG. 14 includes an upmixing unit 1404 of an OTT box to a USAC decoder that includes a core decoding unit 1411, an SBR unit 1412, and an upmixing unit 1413 of an OTT box. It may include a decoding unit 1410 further comprising. In this case, the decoding unit 1402 may include a plurality of decoding units 1410 arranged in a parallel structure. Alternatively, the decoding unit 1410 may correspond to a USAC decoder including the upmixing unit 1404 of the OTT box.
즉, 본 발명의 일실시예에 따르면, 디코딩부(1410)는 모노 신호에 OTT 형태의 업믹싱을 연속적으로 적용함으로써 N채널의 출력 신호들 중 4채널의 출력 신호를 생성할 수 있다.That is, according to an embodiment of the present invention, the decoding unit 1410 may generate an output signal of four channels of the output signals of the N channel by continuously applying the OTT-type upmixing to the mono signal.
도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.FIG. 15 is a diagram schematically illustrating FIG. 14 according to an embodiment.
도 15에서 인코딩부(1501)는 도 14의 인코딩부(1403)에 대응될 수 있다. 여기서, 인코딩부(1501)는 수정된 USAC 인코더에 대응될 수 있다. 즉, 수정된 USAC 인코더는 TTO 박스의 다운믹싱부(1504), SBR부(1505) 및 코어 인코딩부(1506)를 포함하는 원래의 USAC 인코더에 TTO 박스의 다운믹싱부(1503)를 추가적으로 포함함으로써 구현될 수 있다.In FIG. 15, the encoding unit 1501 may correspond to the encoding unit 1403 of FIG. 14. Here, the encoding unit 1501 may correspond to the modified USAC encoder. That is, the modified USAC encoder additionally includes the downmixing unit 1503 of the TTO box in the original USAC encoder including the downmixing unit 1504 of the TTO box, the SBR unit 1505 and the core encoding unit 1506. Can be implemented.
그리고, 도 15에서 디코딩부(1502)는 도 14의 디코딩부(1410)에 대응될 수 있다. 여기서, 디코딩부(1502)는 수정된 USAC 디코더에 대응될 수 있다. 즉, 수정된 USAC 디코더는 코어 디코딩부(1507), SBR부(1508) 및 OTT 박스의 업믹싱부(1509)를 포함하는 원래의 USAC 디코더에 OTT 박스의 업믹싱부(1510)를 추가적으로 포함함으로써 구현될 수 있다.In addition, in FIG. 15, the decoding unit 1502 may correspond to the decoding unit 1410 of FIG. 14. Here, the decoding unit 1502 may correspond to the modified USAC decoder. That is, the modified USAC decoder further includes the upmixing unit 1510 of the OTT box in the original USAC decoder including the core decoding unit 1507, the SBR unit 1508, and the upmixing unit 1509 of the OTT box. Can be implemented.
도 16은 일실시예에 따른 N-N/2-N 구조에 대한 오디오 처리 방식에 대한 도면이다.16 is a diagram illustrating an audio processing scheme for an N-N / 2-N structure according to an embodiment.
도 16을 참고하면, MPEG SURROUND에 정의된 구조가 변경된 N-N/2-N 구조를 나타낸다. MPEG SURROUND의 경우, 표 1과 같이 디코더에서 공간적 합성(spatial synthesis)이 수행될 수 있다. 공간적 합성은 입력 신호들을 하이브리드 QMF 분석 뱅크(hybrid QMF(Quadrature Mirror Filter) analysis bank)를 통해 시간 도메인에서 비규칙적인(non-uniform) 서브밴드 도메인으로 변환할 수 있다. 여기서, 비규칙적이라는 의미는 하이브리드에 대응한다.Referring to FIG. 16, an N-N / 2-N structure in which a structure defined in MPEG SURROUND is changed is illustrated. In the case of MPEG SURROUND, spatial synthesis may be performed in a decoder as shown in Table 1. Spatial synthesis can transform the input signals from the time domain into a non-uniform subband domain through a hybrid Quadrature Mirror Filter (QMF) analysis bank. Here, the term irregular corresponds to a hybrid.
그러면, 디코더는 하이브리드 서브밴드에서 동작한다. 디코더는 인코더에서 전달된 공간 파라미터들(spatial parameter)에 기초하여 공간적인 합성을 수행함으로써 입력 신호들로부터 출력 신호를 생성할 수 있다. 그런 후, 디코더는 하이브리드 QMF 합성 뱅크(hybrid QMF synthesis bank)를 이용하여 출력 신호들을 하이브리드 서브밴드에서 시간 도메인으로 역변환할 수 있다.The decoder then operates in the hybrid subband. The decoder may generate an output signal from the input signals by performing spatial synthesis based on the spatial parameters passed by the encoder. The decoder can then use the hybrid QMF synthesis bank to inverse the output signals from the hybrid subband to the time domain.
Figure PCTKR2015006788-appb-I000026
Figure PCTKR2015006788-appb-I000026
도 16은 디코더가 수행하는 공간적인 합성을 혼합된 매트릭스를 통해 다채널 오디오 신호를 처리하는 과정을 설명한다. 기본적으로 MPEG SURROUND는 5-1-5 구조, 5-2-5 구조, 7-2-7 구조, 7-5-7 구조를 정의하고 있지만, 본 발명은 N-N/2-N구조를 제안한다.FIG. 16 illustrates a process of processing a multi-channel audio signal through a mixed matrix of spatial synthesis performed by a decoder. Basically, MPEG SURROUND defines a 5-1-5 structure, a 5-2-5 structure, a 7-2-7 structure, and a 7-5-7 structure, but the present invention proposes an N-N / 2-N structure.
N-N/2-N 구조의 경우, N채널의 입력 신호가 N/2 채널의 다운믹스 신호로 변환된 후, N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호가 생성되는 과정을 나타낸다. 본 발명의 일실시예에 따른 디코더는 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 기본적으로, 본 발명의 N-N/2-N 구조에서 N채널의 개수는 제한이 없다. 즉, N-N/2-N 구조는 MPS에서 지원하는 채널 구조 뿐만 아니라, MPS에서 지원하지 않는 다채널 오디오 신호의 채널 구조까지 지원할 수 있다.In the case of the N-N / 2-N structure, after the input signal of the N channel is converted to the downmix signal of the N / 2 channel, the output signal of the N channel is generated from the downmix signal of the N / 2 channel. The decoder according to an embodiment of the present invention may generate the N-channel output signal by upmixing the N / 2 channel downmix signal. Basically, the number of N channels in the N-N / 2-N structure of the present invention is not limited. That is, the N-N / 2-N structure may support not only a channel structure supported by the MPS but also a channel structure of a multichannel audio signal not supported by the MPS.
도 16에서 NumInCh는 다운믹스 신호의 채널 개수를 의미하고, NumOutCh는 출력 신호의 채널 개수를 의미한다. 즉, NumInCh는 N/2개이고, NumOutCh는 N개이다.In FIG. 16, NumInCh refers to the number of channels of the downmix signal, and NumOutCh refers to the number of channels of the output signal. In other words, NumInCh is N / 2 and NumOutCh is N.
도 16에서 N/2채널의 다운믹스 신호 (X0~XNumInch - 1)와 잔차 신호들이 입력 벡터 X를 구성한다. 도 16에서 NumInCh는 N/2이므로, X0부터 XNumInCh - 1는 N/2 채널의 다운믹스 신호를 의미한다. OTT(One-To-Two) 박스의 개수가 N/2개 이므로, N/2 채널의 다운믹스 신호를 처리하기 위해 출력 신호의 채널 개수인 N은 짝수이어야 한다.In FIG. 16, the N / 2 channel downmix signals (X 0 to X NumInch 1 ) and the residual signals form an input vector X. In FIG. 16, since NumInCh is N / 2, X0 to X NumInCh 1 represent downmix signals of N / 2 channels. Since the number of one-to-two (OTT) boxes is N / 2, N, the number of channels of the output signal, must be even to process the downmix signal of the N / 2 channel.
매트릭스 M1에 대응하는 벡터
Figure PCTKR2015006788-appb-I000027
와 곱해지는 입력 벡터 X는 N/2 채널의 다운믹스 신호를 포함하는 벡터를 의미한다. N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, N/2개의 비상관기(decorrelator)들이 최대로 사용될 수 있다. 그러나, 출력 신호의 채널 개수인 N이 20을 초과하는 경우, 비상관기의 필터들이 재사용될 수 있다.
Vector corresponding to matrix M1
Figure PCTKR2015006788-appb-I000027
The input vector X to be multiplied by means a vector including the downmix signal of the N / 2 channel. When the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators may be used to the maximum. However, if N, the channel number of the output signal, exceeds 20, the filters of the decorrelator can be reused.
비상관기의 출력 신호들의 직교성(orthogonality)을 보장하기 위해 N이 20인 경우 활용가능한 비상관기의 개수가 특정 개수(ex. 10개)로 제한될 필요가 있기 때문에, 몇몇의 비상관기의 인덱스들이 반복될 수 있다. 그래서, 본 발명의 바람직한 실시예에 의하면, N-N/2-N구조에서 출력 신호의 채널 개수인 N은 제한된 특정 개수의 2배(ex. N<20)보다 적을 필요가 있다. 만약, 출력 신호에 LFE 채널이 포함된 경우, N채널은 LFE 채널의 개수를 고려하여 특정 개수의 2배보다 좀더 많은 채널보다 작은 개수의 채널(ex. N<24)로 구성될 필요가 있다.In order to ensure orthogonality of the output signals of the decorrelator, some N decorator indexes are repeated because N is 20, the number of available decorrelators needs to be limited to a certain number (ex. 10). Can be. Therefore, according to a preferred embodiment of the present invention, N, which is the number of channels of the output signal in the N-N / 2-N structure, needs to be less than twice the limited specific number (ex. N <20). If the LFE channel is included in the output signal, the N channel needs to be configured with a smaller number of channels (eg, N <24) than more than twice the specific number in consideration of the number of LFE channels.
그리고, 비상관기들의 출력 결과는 비트스트림에 의존하여 특정 주파수 영역에 대한 잔차 신호로 대체될 수 있다. LFE 채널이 OTT 박스의 출력 중 하나인 경우, 업믹스에 기초한 OTT 박스에 대해 비상관기가 사용되지 않는다.And, the output result of the decorrelators may be replaced with the residual signal for a specific frequency region depending on the bitstream. If the LFE channel is one of the outputs of the OTT box, no decorrelator is used for the OTT box based on the upmix.
도 16에서 1부터 M(ex. NumInCh-NumLfe)로 라벨링된 비상관기들, 비상관기의 출력 결과(비상관된 신호), 잔차 신호들은 서로 다른 OTT 박스들에 대응한다. d1~dM은 비상관기(D1~DM)의 출력 결과인 비상관된 신호를 의미하고, res1~resM은 비상관기(D1~DM)의 출력 결과인 잔차 신호를 의미한다. 그리고, 비상관기 D1~DM은 서로 다른 OTT박스들 각각에 대응한다.In FIG. 16, the decorrelators labeled M (ex. NumInCh-NumLfe) from 1, the output result (uncorrelated signal) of the decorrelator, and residual signals correspond to different OTT boxes. d 1 ~ d M means uncorrelated signal which is the output result of the decorrelator (D 1 ~ D M ), res 1 ~ res M means the residual signal which is the output result of the decorrelator (D 1 ~ D M ) do. The decorrelators D1 to DM correspond to different OTT boxes, respectively.
이하에서는, N-N/2-N 구조에서 사용되는 벡터와 매트릭스에 대해 정의된다. N-2/N-N 구조에서 비상관기들에 입력되는 입력 신호는 벡터
Figure PCTKR2015006788-appb-I000028
로 정의된다.
In the following, vectors and matrices used in the NN / 2-N structure are defined. Input signals to decorators in N-2 / NN structures are vectors
Figure PCTKR2015006788-appb-I000028
Is defined as
벡터
Figure PCTKR2015006788-appb-I000029
는 시간적인 쉐이핑 툴(termporal shaping tool)이 사용되는지 또는 사용되지 않는지에 따라 다르게 결정될 수 있다.
vector
Figure PCTKR2015006788-appb-I000029
Can be determined differently depending on whether a temporal shaping tool is used or not.
(1) 시간적인 쉐이핑 툴(termporal shaping tool)이 사용되지 않는 경우(1) When a term shaping tool is not used
시간적인 쉐이핑 툴이 사용되지 않는 경우, 벡터
Figure PCTKR2015006788-appb-I000030
는 수학식 14에 따라 벡터
Figure PCTKR2015006788-appb-I000031
와 매트릭스 M1에 대응하는
Figure PCTKR2015006788-appb-I000032
에 의해 도출된다. 그리고,
Figure PCTKR2015006788-appb-I000033
은 N번째 행에 1번째 열의 매트릭스를 의미한다.
Vector if no temporal shaping tool is used
Figure PCTKR2015006788-appb-I000030
Is based on Equation 14
Figure PCTKR2015006788-appb-I000031
Corresponding to matrix M1
Figure PCTKR2015006788-appb-I000032
Is derived by. And,
Figure PCTKR2015006788-appb-I000033
Is the matrix of the first column in the Nth row.
<수학식 14><Equation 14>
Figure PCTKR2015006788-appb-I000034
Figure PCTKR2015006788-appb-I000034
이 때, 수학식 14에서 벡터
Figure PCTKR2015006788-appb-I000035
의 엘리먼트 중에서
Figure PCTKR2015006788-appb-I000036
내지
Figure PCTKR2015006788-appb-I000037
는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되지 않고 직접적으로 매트릭스 M2에 입력될 수 있다. 그래서,
Figure PCTKR2015006788-appb-I000038
내지
Figure PCTKR2015006788-appb-I000039
는 다이렉트 신호(direct signal)로 정의될 수 있다. 그리고, 벡터
Figure PCTKR2015006788-appb-I000040
의 엘리먼트 중에서
Figure PCTKR2015006788-appb-I000041
내지
Figure PCTKR2015006788-appb-I000042
를 제외한 나머지 신호들(
Figure PCTKR2015006788-appb-I000043
내지
Figure PCTKR2015006788-appb-I000044
)는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기들에 입력될 수 있다.
At this time, the vector in equation (14)
Figure PCTKR2015006788-appb-I000035
Of elements in
Figure PCTKR2015006788-appb-I000036
To
Figure PCTKR2015006788-appb-I000037
May be input directly to the matrix M2 without being input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes. so,
Figure PCTKR2015006788-appb-I000038
To
Figure PCTKR2015006788-appb-I000039
May be defined as a direct signal. And vector
Figure PCTKR2015006788-appb-I000040
Of elements in
Figure PCTKR2015006788-appb-I000041
To
Figure PCTKR2015006788-appb-I000042
Signals other than
Figure PCTKR2015006788-appb-I000043
To
Figure PCTKR2015006788-appb-I000044
) May be input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes.
벡터
Figure PCTKR2015006788-appb-I000045
는 다이렉트 신호, 비상관기들로부터 출력된 비상관된 신호들(decorrelated signals)인 d1~dM 및 비상관기들로부터 출력된 잔차 신호들인 res1~resM로 구성된다. 벡터
Figure PCTKR2015006788-appb-I000046
는 하기 수학식 15에 의해 결정될 수 있다.
vector
Figure PCTKR2015006788-appb-I000045
Is composed of a direct signal, d 1 to d M which are decorrelated signals output from decorrelators, and res 1 to res M which are residual signals output from decorrelators. vector
Figure PCTKR2015006788-appb-I000046
May be determined by Equation 15 below.
<수학식 15><Equation 15>
Figure PCTKR2015006788-appb-I000047
Figure PCTKR2015006788-appb-I000047
수학식 15에서
Figure PCTKR2015006788-appb-I000048
로 정의되고,
Figure PCTKR2015006788-appb-I000049
Figure PCTKR2015006788-appb-I000050
를 만족하는 모든 k의 집합을 의미한다. 그리고,
Figure PCTKR2015006788-appb-I000051
는 신호
Figure PCTKR2015006788-appb-I000052
가 비상관기
Figure PCTKR2015006788-appb-I000053
에 입력되었을 때, 비상관기로부터 출력되는 비상관된 신호를 의미한다. 특히,
Figure PCTKR2015006788-appb-I000054
는 OTT 박스가 OTTx이고, 잔차 신호가
Figure PCTKR2015006788-appb-I000055
인 경우에 비상관기로부터 출력되는 신호를 의미한다.
In equation (15)
Figure PCTKR2015006788-appb-I000048
Defined as
Figure PCTKR2015006788-appb-I000049
Is
Figure PCTKR2015006788-appb-I000050
Means a set of all k satisfying And,
Figure PCTKR2015006788-appb-I000051
Signal
Figure PCTKR2015006788-appb-I000052
Fall decorator
Figure PCTKR2015006788-appb-I000053
When input to, it means the uncorrelated signal output from the decorator. Especially,
Figure PCTKR2015006788-appb-I000054
Is the OTT box is OTTx and the residual signal is
Figure PCTKR2015006788-appb-I000055
In the case of means the signal output from the decorator.
출력 신호의 서브 밴드는 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 종속적으로 정의될 수 있다. 출력 신호
Figure PCTKR2015006788-appb-I000056
는 벡터 w와 매트릭스 M2를 통해 하기 수학식 16에 의해 결정될 수 있다.
The subbands of the output signal can be defined dependently for all time slots n and all hybrid subbands k. Output signal
Figure PCTKR2015006788-appb-I000056
Can be determined by Equation 16 through the vector w and the matrix M2 .
<수학식 16><Equation 16>
Figure PCTKR2015006788-appb-I000057
Figure PCTKR2015006788-appb-I000057
여기서,
Figure PCTKR2015006788-appb-I000058
는 NumOutCh 행과 NumInCh-NumLfe 열로 구성된 매트릭스 M2를 의미한다.
Figure PCTKR2015006788-appb-I000059
Figure PCTKR2015006788-appb-I000060
에 대해 하기 수학식 17에 의해 정의될 수 있다.
here,
Figure PCTKR2015006788-appb-I000058
Denotes a matrix M2 composed of NumOutCh rows and NumInCh-NumLfe columns.
Figure PCTKR2015006788-appb-I000059
Is
Figure PCTKR2015006788-appb-I000060
Can be defined by Equation 17 below.
<수학식 17><Equation 17>
Figure PCTKR2015006788-appb-I000061
Figure PCTKR2015006788-appb-I000061
여기서,
Figure PCTKR2015006788-appb-I000062
로 정의된다. 그리고,
Figure PCTKR2015006788-appb-I000063
는 하기 수학식 18에 따라 스무딩될 수 있다.
here,
Figure PCTKR2015006788-appb-I000062
Is defined as And,
Figure PCTKR2015006788-appb-I000063
Can be smoothed according to Equation 18 below.
<수학식 18><Equation 18>
Figure PCTKR2015006788-appb-I000064
Figure PCTKR2015006788-appb-I000064
여기서,
Figure PCTKR2015006788-appb-I000065
는 첫번째 행이 하이브리드 밴드 k이고, 두번째 행이 대응하는 프로세싱 밴드인 함수를 의미한다.
Figure PCTKR2015006788-appb-I000066
는 이전 프레임의 마지막 파라미터 셋트에 대응한다.
here,
Figure PCTKR2015006788-appb-I000065
Denotes a function where the first row is hybrid band k and the second row is the corresponding processing band.
Figure PCTKR2015006788-appb-I000066
Corresponds to the last parameter set of the previous frame.
한편,
Figure PCTKR2015006788-appb-I000067
에 의해 하이브리드 합성 필터뱅크를 통해 시간 도메인으로 합성될 수 있는 하이브리드 서브밴드 신호들을 의미한다. 여기서, 하이브리드 합성 필터뱅크는 나이퀴스트 합성 뱅크(Nyquist synthesis banks)를 거쳐 QMF 합성 뱅크(QMF synthesis bank)를 조합한 것으로,
Figure PCTKR2015006788-appb-I000068
는 하이브리드 합성 필터뱅크를 통해 하이브리드 서브밴드 도메인에서 시간 도메인으로 변환될 수 있다.
Meanwhile,
Figure PCTKR2015006788-appb-I000067
By means the hybrid subband signals that can be synthesized in the time domain through the hybrid synthesis filter bank. Here, the hybrid synthesis filter bank is a combination of the QMF synthesis bank through the Nyquist synthesis banks,
Figure PCTKR2015006788-appb-I000068
Can be transformed from the hybrid subband domain to the time domain through a hybrid synthesis filterbank.
(2) 시간적인 쉐이핑 툴이 사용되는 경우(2) when temporal shaping tools are used
만약 시간적인 쉐이핑 툴이 사용되는 경우, 벡터
Figure PCTKR2015006788-appb-I000069
는 앞서 설명한 것과 동일하나, 벡터
Figure PCTKR2015006788-appb-I000070
는 하기 수학식 19, 수학식 20과 같이 2가지의 벡터로 구분될 수 있다.
If temporal shaping tools are used, vectors
Figure PCTKR2015006788-appb-I000069
Is the same as described above, but the vector
Figure PCTKR2015006788-appb-I000070
May be divided into two vectors as shown in Equation 19 and Equation 20 below.
Figure PCTKR2015006788-appb-I000071
Figure PCTKR2015006788-appb-I000071
<수학식 20><Equation 20>
Figure PCTKR2015006788-appb-I000072
Figure PCTKR2015006788-appb-I000072
Figure PCTKR2015006788-appb-I000073
는 비상관기들을 거치지 않고 직접 매트릭스 M2로 입력되는 다이렉트 신호와 비상관기로부터 출력된 잔차 신호들을 의미하고,
Figure PCTKR2015006788-appb-I000074
는 비상관기로부터 출력된 비상관된 신호를 의미한다. 그리고,
Figure PCTKR2015006788-appb-I000075
로 정의되며,
Figure PCTKR2015006788-appb-I000076
Figure PCTKR2015006788-appb-I000077
를 만족하는 모든 k의 집합을 의미한다. 또한, 비상관기
Figure PCTKR2015006788-appb-I000078
에 입력 신호
Figure PCTKR2015006788-appb-I000079
가 입력되는 경우,
Figure PCTKR2015006788-appb-I000080
는 비상관기
Figure PCTKR2015006788-appb-I000081
로부터 출력되는 비상관된 신호를 의미한다.
Figure PCTKR2015006788-appb-I000073
Denotes a direct signal input directly to the matrix M2 and residual signals output from the decorrelator without passing through the decorrelators,
Figure PCTKR2015006788-appb-I000074
Means uncorrelated signal output from the decorrelator. And,
Figure PCTKR2015006788-appb-I000075
Is defined as
Figure PCTKR2015006788-appb-I000076
Is
Figure PCTKR2015006788-appb-I000077
Means a set of all k satisfying Also, decorator
Figure PCTKR2015006788-appb-I000078
Input signal to
Figure PCTKR2015006788-appb-I000079
Is entered,
Figure PCTKR2015006788-appb-I000080
Decorator
Figure PCTKR2015006788-appb-I000081
Means the uncorrelated signal output from.
수학식 19, 수학식 20에 정의된
Figure PCTKR2015006788-appb-I000082
Figure PCTKR2015006788-appb-I000083
로 인해 최종적으로 출력되는 신호는
Figure PCTKR2015006788-appb-I000084
Figure PCTKR2015006788-appb-I000085
로 구분될 수 있다.
Figure PCTKR2015006788-appb-I000086
는 다이렉트 신호(direct signal)를 포함하고,
Figure PCTKR2015006788-appb-I000087
는 확산 신호(diffuse signal)를 포함한다. 즉,
Figure PCTKR2015006788-appb-I000088
는 비상관기를 통과하지 않고 매트릭스 M2에 직접 입력된 다이렉트 신호로부터 도출된 결과이고,
Figure PCTKR2015006788-appb-I000089
는 비상관기에서 출력되어 매트릭스 M2에 입력된 확산 신호로부터 도출된 결과이다.
As defined in Equation 19, Equation 20
Figure PCTKR2015006788-appb-I000082
Wow
Figure PCTKR2015006788-appb-I000083
The final output signal is
Figure PCTKR2015006788-appb-I000084
Wow
Figure PCTKR2015006788-appb-I000085
It can be divided into.
Figure PCTKR2015006788-appb-I000086
Includes a direct signal,
Figure PCTKR2015006788-appb-I000087
Includes a diffuse signal. In other words,
Figure PCTKR2015006788-appb-I000088
Is the result derived from the direct signal input directly to the matrix M2 without passing through the decorrelator,
Figure PCTKR2015006788-appb-I000089
Is the result derived from the spread signal output from the decorrelator and input to the matrix M2.
만약, 서브밴드 도메인 시간 프로세싱(Subband Domain Temporal Processing: STP)가 N-N/2-N 구조에 사용되는 경우, 가이드된 포락선 쉐이핑(Guided Envelope Shaping: GES)이 N-N/2-N 구조에 사용되는 경우로 구분되어
Figure PCTKR2015006788-appb-I000090
Figure PCTKR2015006788-appb-I000091
가 도출된다. 이 때,
Figure PCTKR2015006788-appb-I000092
Figure PCTKR2015006788-appb-I000093
는 데이터스트림 엘리먼트인 bsTempShapeConfig로 식별된다.
If Subband Domain Temporal Processing (STP) is used for the NN / 2-N structure, Guided Envelope Shaping (GES) is used for the NN / 2-N structure. Separately
Figure PCTKR2015006788-appb-I000090
Wow
Figure PCTKR2015006788-appb-I000091
Is derived. At this time,
Figure PCTKR2015006788-appb-I000092
Wow
Figure PCTKR2015006788-appb-I000093
Is identified by the datastream element bsTempShapeConfig.
<STP가 사용되는 경우><When STP is used>
출력 신호의 채널들 간의 비상관 정도를 합성하기 위해, 공간적인 합성을 위한 비상관기를 통해 확산 신호가 생성된다. 이 때, 생성된 확산 신호는 다이렉트 신호와 믹싱될 수 있다. 일반적으로 확산 신호의 시간적인 포락선은 다이렉트 신호의 포락선과 매칭되지 않는다In order to synthesize the degree of decorrelation between the channels of the output signal, a spreading signal is generated through the decorrelator for spatial synthesis. In this case, the generated spread signal may be mixed with the direct signal. In general, the temporal envelope of the spread signal does not match the envelope of the direct signal.
이 때, 서브밴드 도메인 시간 프로세싱은 출력 신호의 각각의 확산 신호 부분의 포락선을 인코더로부터 전송된 다운믹스 신호의 시간적인 모양(termpoal shape)에 매칭되도록 쉐이핑하기 위해 사용된다. 이러한 프로세싱은 다이렉트 신호와 확산 신호에 대해 포락선 비율 계산 또는 확산 신호의 상위 스펙트럼 부분의 쉐이핑과 같은 포락선 추정으로 구현될 수 있다.At this time, subband domain time processing is used to shape the envelope of each spreading signal portion of the output signal to match the temporal shape of the downmix signal transmitted from the encoder. Such processing may be implemented with envelope estimation, such as envelope ratio calculation for direct and spread signals or shaping of the upper spectral portion of the spread signal.
즉, 업믹싱을 통해 생성된 출력 신호에서 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선이 추정될 수 있다. 쉐이핑 펙터는 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선 간의 비율로 계산될 수 있다.That is, the temporal energy envelope of the portion corresponding to the direct signal and the portion corresponding to the spread signal in the output signal generated through upmixing can be estimated. The shaping factor may be calculated as the ratio between the temporal energy envelope for the portion corresponding to the direct signal and the portion corresponding to the spread signal.
STP는
Figure PCTKR2015006788-appb-I000094
로 시그널링될 수 있다. 만약,
Figure PCTKR2015006788-appb-I000095
인 경우, 업믹싱을 통해 생성된 출력 신호의 확산 신호 부분이 STP를 통해 처리될 수 있다.
STP
Figure PCTKR2015006788-appb-I000094
May be signaled as. if,
Figure PCTKR2015006788-appb-I000095
If, the spread signal portion of the output signal generated through upmixing can be processed via STP.
한편, 출력 신호를 생성하기 위한 공간적인 업믹스에 대해 전송된 원본 다운믹스 신호의 지연 정렬(delay alignment)의 필요성을 줄이기 위해, 공간적인 업믹스의 다운믹스는 전송된 원본 다운믹스 신호의 근사값(approximation)으로 계산될 수 있다. On the other hand, in order to reduce the need for delay alignment of the transmitted original downmix signal relative to the spatial upmix for generating the output signal, the downmix of the spatial upmix is approximated with the transmitted original downmix signal ( approximation).
N-N/2-N 구조에 대해, (NumInCh-NumLfe)에 대한 다이렉트 다운믹스 신호는 하기 수학식 21에 의해 정의될 수 있다.For the N-N / 2-N structure, the direct downmix signal for (NumInCh-NumLfe) can be defined by Equation 21 below.
<수학식 21><Equation 21>
Figure PCTKR2015006788-appb-I000096
Figure PCTKR2015006788-appb-I000096
여기서,
Figure PCTKR2015006788-appb-I000097
는 N-N/2-N 구조에 대해 출력 신호의 채널 d에 대응하는 출력 신호의 쌍(pair-wise)을 포함한다.
Figure PCTKR2015006788-appb-I000098
는 N-N/2-N 구조에 대해 하기 표 2와 같이 정의될 수 있다.
here,
Figure PCTKR2015006788-appb-I000097
Includes a pair-wise output signal corresponding to channel d of the output signal for the NN / 2-N structure.
Figure PCTKR2015006788-appb-I000098
May be defined as shown in Table 2 below for the NN / 2-N structure.
Figure PCTKR2015006788-appb-T000001
Figure PCTKR2015006788-appb-T000001
다운믹스의 브로드밴드 포락선들과 각각의 업믹스 채널의 확산 신호 부분에 대한 포락선은 정규화된 다이렉트 에너지를 이용하여 하기 수학식 22에 따라 추정될 수 있다.The envelopes of the downmix broadband envelopes and the spread signal portion of each upmix channel can be estimated according to Equation 22 using normalized direct energy.
<수학식22><Equation 22>
Figure PCTKR2015006788-appb-I000099
여기서,
Figure PCTKR2015006788-appb-I000100
는 밴드패스 팩터(bandpass factor)를 의미하고,
Figure PCTKR2015006788-appb-I000101
는 스펙트럴 플랫터링 팩터(spectral flattering factor)를 의미한다.
Figure PCTKR2015006788-appb-I000099
here,
Figure PCTKR2015006788-appb-I000100
Means a bandpass factor,
Figure PCTKR2015006788-appb-I000101
Denotes a spectral flattering factor.
N-N/2-N 구조에서 NumInCh-NumLfe에 대한 다이렉트 신호가 존재하므로,
Figure PCTKR2015006788-appb-I000102
를 만족하는 다이렉트 신호의 에너지인
Figure PCTKR2015006788-appb-I000103
는 MPEG Surround에서 정의하는 5-1-5 구조와 동일한 방식으로 획득될 수 있다. 최종 포락선 처리에 대한 스케일 팩터는 하기 수학식 23과 같이 정의될 수 있다.
Since there is a direct signal for NumInCh-NumLfe in the NN / 2-N structure,
Figure PCTKR2015006788-appb-I000102
Energy of the direct signal satisfying
Figure PCTKR2015006788-appb-I000103
Can be obtained in the same manner as the 5-1-5 structure defined in MPEG Surround. The scale factor for the final envelope process may be defined as in Equation 23 below.
<수학식 23><Equation 23>
Figure PCTKR2015006788-appb-I000104
Figure PCTKR2015006788-appb-I000104
수학식 23에서 스케일 팩터는 N-N/2-N 구조에 대해
Figure PCTKR2015006788-appb-I000105
인 경우에 정의될 수 있다. 그러면, 출력 신호의 확산 신호 부분에 스케일 팩터가 적용됨으로써 출력 신호의 시간적인 포락선이 실질적으로 다운믹스 신호의 시간적인 포락선에 매핑한다. 그러면, N채널의 출력 신호들의 각각의 채널에서 스케일 펙터로 처리된 확산 신호 부분은 다이렉트 신호 부분과 믹싱될 수 있다. 그러면, 출력 신호의 채널별로 확장 신호 부분이 스케일 팩터로 처리되었는지 여부가 시그널링될 수 있다. (
Figure PCTKR2015006788-appb-I000106
)인 경우, 확장 신호 부분이 스케일 팩터로 처리되었다는 것을 나타냄)
In Equation 23, the scale factor for the NN / 2-N structure
Figure PCTKR2015006788-appb-I000105
Can be defined. The scale factor is then applied to the spread signal portion of the output signal, thereby mapping the temporal envelope of the output signal to substantially the temporal envelope of the downmix signal. Then, the spread signal portion processed by the scale factor in each channel of the output signals of the N channels may be mixed with the direct signal portion. Then, it may be signaled whether the extension signal portion has been processed in the scale factor for each channel of the output signal. (
Figure PCTKR2015006788-appb-I000106
) Indicates that the extension signal portion was processed with the scale factor.)
<GES가 사용되는 경우 ><When GES is used>
앞서 설명한 출력 신호의 확장 신호 부분에 시간적인 쉐이핑을 수행하는 경우, 특징적인 왜곡이 발생될 가능성이 있다. 그래서, 가이드된 포락선 쉐이핑 (Guided Envelope Shaping :GES)은 왜곡 문제를 해결하면서 시간적/공간적인 품질을 향상시킬 수 있다. 디코더에서 출력 신호의 다이렉트 신호 부분과 확장 신호 부분을 개별적으로 처리하는데, GES가 적용되면 업믹싱된 출력 신호의 다이렉트 신호 부분만 변경될 수 있다.When temporal shaping is performed on the extended signal portion of the output signal described above, characteristic distortion may occur. Thus, Guided Envelope Shaping (GES) can improve temporal / spatial quality while solving distortion problems. The decoder processes the direct signal portion and the extension signal portion of the output signal separately, but when GES is applied, only the direct signal portion of the upmixed output signal can be changed.
GES는 합성된 출력 신호의 브로드밴드 포락선을 복원할 수 있다. GES는 출력 신호의 각 채널별로 다이렉트 신호 부분에 대해 포락선을 평편화(flatterning)하고 리쉐이핑(reshaping)하는 과정 이후에 수정된 업믹싱 과정을 포함한다.GES can recover the broadband envelope of the synthesized output signal. GES includes a modified upmixing process after flattening and reshaping the envelope for the direct signal portion for each channel of the output signal.
리쉐이핑에 대해, 비트스트림에 포함된 파라메트릭 브로드밴드 포락선(parametric broadband envelop)의 부가 정보가 사용될 수 있다. 부가 정보는 원본 입력 신호의 포락선과 다운믹스 신호의 포락선에 대한 포락선 비율을 포함한다. 디코더에서 포락선 비율은 출력 신호의 채널별로 프레임에 포함된 각각의 타임 슬롯의 다이렉트 신호 부분에 적용될 수 있다. GES로 인해 출력 신호의 채널별로 확산 신호 부분은 변경(alter)되지 않는다.For reshaping, additional information of a parametric broadband envelope included in the bitstream may be used. The additional information includes the envelope ratio of the envelope of the original input signal and the envelope of the downmix signal. The envelope ratio at the decoder may be applied to the direct signal portion of each time slot included in the frame for each channel of the output signal. The GES does not alter the spread signal portion for each channel of the output signal.
만약,
Figure PCTKR2015006788-appb-I000107
인 경우, GES 과정이 진행될 수 있다. 만약, GES가 사용가능하다면, 출력 신호의 확장 신호와 다이렉트 신호는 하기 수학식 24에 따라 하이브리드 서브밴드 도메인에서 수정된 포스트 믹싱 매트릭스(M2)을 이용하여 각각 합성될 수 있다.
if,
Figure PCTKR2015006788-appb-I000107
If, the GES process may proceed. If GES is available, the extension signal and the direct signal of the output signal may be respectively synthesized using the post mixing matrix M2 modified in the hybrid subband domain according to Equation (24).
Figure PCTKR2015006788-appb-I000108
Figure PCTKR2015006788-appb-I000108
수학식 24에서 출력 신호 y에 대한 다이렉트 신호 부분은 다이렉트 신호와 잔차 신호를 제공하고, 출력 신호 y에 대한 확장 신호 부분은 확장 신호를 제공한다. 전체적으로, GES에 의해 다이렉트 신호만 처리될 수 있다.In Equation 24, the direct signal portion for the output signal y provides the direct signal and the residual signal, and the extension signal portion for the output signal y provides the extension signal. In total, only the direct signal can be processed by the GES.
GES가 처리된 결과는 하기 수학식 25에 따라 결정될 수 있다.The result of processing the GES may be determined according to Equation 25 below.
<수학식 25><Equation 25>
Figure PCTKR2015006788-appb-I000109
Figure PCTKR2015006788-appb-I000109
GES는 트리 구조에 의존하여 LFE 채널을 제외한 공간적인 합성을 수행하는 다운믹스 신호 및 디코더에 의해 다운믹스 신호로부터 업믹싱된 출력 신호의 특정 채널에 대해 포락선을 추출할 수 있다. The GES can extract an envelope for a particular channel of the upmixed output signal from the downmix signal by the downmix signal and decoder that performs spatial synthesis except the LFE channel depending on the tree structure.
N-N/2-N 구조에서 출력 신호
Figure PCTKR2015006788-appb-I000110
는 하기 표 3과 같이 정의될 수 있다.
Output signal in NN / 2-N structure
Figure PCTKR2015006788-appb-I000110
May be defined as shown in Table 3 below.
Figure PCTKR2015006788-appb-T000002
Figure PCTKR2015006788-appb-T000002
그리고, N-N/2-N 구조에서 입력 신호
Figure PCTKR2015006788-appb-I000111
는 하기 표 4와 같이 정의될 수 있다.
And, the input signal in the NN / 2-N structure
Figure PCTKR2015006788-appb-I000111
May be defined as shown in Table 4 below.
Figure PCTKR2015006788-appb-T000003
Figure PCTKR2015006788-appb-T000003
또한, N-N/2-N 구조에서 다운믹스 신호
Figure PCTKR2015006788-appb-I000112
는 하기 표 5와 같이 정의될 수 있다.
Also, downmix signals in NN / 2-N structures
Figure PCTKR2015006788-appb-I000112
May be defined as shown in Table 5 below.
Figure PCTKR2015006788-appb-T000004
Figure PCTKR2015006788-appb-T000004
이하에서는, 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 정의된 매트릭스 M1 (
Figure PCTKR2015006788-appb-I000113
)과 매트릭스 M2(
Figure PCTKR2015006788-appb-I000114
)에 대해 설명하기로 한다. 이들 매트릭스들은 파라미터 타임 슬롯과 프로세싱 밴드에 유효한 CLD, ICC, CPC 파라미터들에 기초하여 주어진 파라미터 타임 슬롯 l과 주어진 프로세싱 밴드 m에 대해 정의된
Figure PCTKR2015006788-appb-I000115
Figure PCTKR2015006788-appb-I000116
의 보간된 버전이다.
In the following, the matrix M1 (defined for all time slots n and all hybrid subbands k)
Figure PCTKR2015006788-appb-I000113
) And the matrix M2 (
Figure PCTKR2015006788-appb-I000114
) Will be described. These matrices are defined for a given parameter time slot and given processing band m based on the parameter time slot and the CLD, ICC and CPC parameters valid for the processing band.
Figure PCTKR2015006788-appb-I000115
And
Figure PCTKR2015006788-appb-I000116
Interpolated version of.
<매트릭스 M1 (Pre-Matrix)의 정의><Definition of Matrix M1 (Pre-Matrix)>
도 16의 N-N/2-N 구조에서 매트릭스 M1에 대응하는
Figure PCTKR2015006788-appb-I000117
는 디코더에서 사용되는 비상관기들에 다운믹스 신호가 어떻게 입력되는지를 설명한다. 매트릭스 M1은 프리 매트릭스로 표현될 수 있다.
Corresponding to matrix M1 in the NN / 2-N structure of FIG. 16.
Figure PCTKR2015006788-appb-I000117
Describes how the downmix signal is input to the decorrelators used in the decoder. Matrix M1 may be expressed as a free matrix.
매트릭스 M1의 크기는 매트릭스 M1에 입력되는 다운믹스 신호의 채널 개수와 디코더에서 사용되는 비상관기의 개수에 의존한다. 반면에 매트릭스 M1의 엘리먼트들은 CLD 및/또는 CPC 파라미터들로부터 도출될 수 있다. M1은 이하 수학식 26에 의해 정의될 수 있다.The size of the matrix M1 depends on the number of channels of the downmix signal input to the matrix M1 and the number of decorrelators used in the decoder. On the other hand, the elements of the matrix M1 may be derived from the CLD and / or CPC parameters. M1 may be defined by Equation 26 below.
<수학식 26><Equation 26>
Figure PCTKR2015006788-appb-I000118
Figure PCTKR2015006788-appb-I000118
이 때,
Figure PCTKR2015006788-appb-I000119
로 정의된다.
At this time,
Figure PCTKR2015006788-appb-I000119
Is defined as
한편,
Figure PCTKR2015006788-appb-I000120
는 하기 수학식 27에 의해 스무딩될 수 있다.
Meanwhile,
Figure PCTKR2015006788-appb-I000120
Can be smoothed by the following equation (27).
Figure PCTKR2015006788-appb-I000121
Figure PCTKR2015006788-appb-I000121
여기서,
Figure PCTKR2015006788-appb-I000122
Figure PCTKR2015006788-appb-I000123
에서 첫번째 행은 하이브리드 서브밴드
Figure PCTKR2015006788-appb-I000124
이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드
Figure PCTKR2015006788-appb-I000125
에 대해 의 복소 컨주게이션(complex conjugation)인
Figure PCTKR2015006788-appb-I000126
이다. 그리고,
Figure PCTKR2015006788-appb-I000127
는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
here,
Figure PCTKR2015006788-appb-I000122
Wow
Figure PCTKR2015006788-appb-I000123
First row in the hybrid subband
Figure PCTKR2015006788-appb-I000124
Where the second row is the processing band and the third row is the specific hybrid subband
Figure PCTKR2015006788-appb-I000125
Is a complex conjugation of
Figure PCTKR2015006788-appb-I000126
to be. And,
Figure PCTKR2015006788-appb-I000127
Means the last parameter set of the previous frame.
매트릭스 M1을 위한 매트릭스
Figure PCTKR2015006788-appb-I000128
은 아래와 같이 정의될 수 있다.
Matrix for Matrix M1
Figure PCTKR2015006788-appb-I000128
May be defined as follows.
(1) 매트릭스 R1(1) matrix R1
매트릭스
Figure PCTKR2015006788-appb-I000129
은 비상관기들에 입력되는 신호의 개수를 제어할 수 있다. 이것은 비상관된 신호를 추가하지 않기 때문에, 오직 CLD와 CPC의 함수로 표현될 수 있다.
matrix
Figure PCTKR2015006788-appb-I000129
May control the number of signals input to the decorrelators. Since it does not add uncorrelated signals, it can only be expressed as a function of CLD and CPC.
매트릭스
Figure PCTKR2015006788-appb-I000130
은 채널 구조에 따라 다르게 정의될 수 있다. N-N/2-N 구조에서, OTT 박스들이 캐스케이드되지 않도록 하기 위해, OTT 박스에 입력 신호의 모든 채널이 2채널씩 쌍이 되어 입력될 수 있다. 그래서, N-N/2-N 구조의 경우, OTT 박스의 개수는 N/2이다.
matrix
Figure PCTKR2015006788-appb-I000130
May be defined differently according to the channel structure. In the NN / 2-N structure, in order to prevent OTT boxes from being cascaded, all channels of an input signal may be input in pairs by 2 channels to the OTT box. So, for the NN / 2-N structure, the number of OTT boxes is N / 2.
이 경우, 매트릭스
Figure PCTKR2015006788-appb-I000131
는 입력 신호를 포함하는 벡터
Figure PCTKR2015006788-appb-I000132
의 열 사이즈(column size)와 동일한 OTT 박스의 개수에 의존한다. 그렇지만, OTT 박스에 기초한 Lfe 업믹스는 비상관기가 필요하지 않기 때문에, N-N/2-N 구조에서는 고려되지 않는다. 매트릭스
Figure PCTKR2015006788-appb-I000133
의 모든 엘리먼트는 1 또는 0 중 어느 하나일 수 있다.
In this case, the matrix
Figure PCTKR2015006788-appb-I000131
Is a vector containing the input signal
Figure PCTKR2015006788-appb-I000132
It depends on the number of OTT boxes equal to its column size. However, Lfe upmixes based on OTT boxes are not considered in the NN / 2-N architecture since no decorrelator is needed. matrix
Figure PCTKR2015006788-appb-I000133
All elements of may be either 1 or 0.
N-N/2-N 구조에서
Figure PCTKR2015006788-appb-I000134
는 하기 수학식 28에 의해 정의될 수 있다.
In the NN / 2-N structure
Figure PCTKR2015006788-appb-I000134
May be defined by Equation 28 below.
<수학식 28><Equation 28>
Figure PCTKR2015006788-appb-I000135
Figure PCTKR2015006788-appb-I000135
N-N/2-N 구조에서 모든 OTT 박스들은 케스케이드가 아닌 병렬적인 프로세싱 스테이지(parallele processing satge)를 표현한다. 그러므로, N-N/2-N 구조에서 모든 OTT 박스들은 어떤 다른 OTT 박스들과 연결되지 않는다. 그래서, 매트릭스 는 단위 매트릭스
Figure PCTKR2015006788-appb-I000136
와 단위 매트릭스
Figure PCTKR2015006788-appb-I000137
로 구성될 수 있다. 이 때, 단위 매트릭스
Figure PCTKR2015006788-appb-I000138
는 N*N 크기의 단위 매트릭스일 수 있다.
All OTT boxes in the NN / 2-N architecture represent a parallel processing satge, not a cascade. Therefore, all OTT boxes in the NN / 2-N structure are not connected to any other OTT boxes. So, matrix is unit matrix
Figure PCTKR2015006788-appb-I000136
And unit matrix
Figure PCTKR2015006788-appb-I000137
It can be configured as. In this case, the unit matrix
Figure PCTKR2015006788-appb-I000138
May be a unit matrix of size N * N.
(2) 매트릭스 G1(2) Matrix G1
MPEG Surround 디코딩 이전에 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호를 핸들링하기 위해, 교정 팩터(correction factors)에 의해 제어된 데이터스트림이 적용될 수 있다. 교정 팩터는 매트릭스
Figure PCTKR2015006788-appb-I000139
에 의해 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호에 적용될 수 있다.
In order to handle downmix signals or externally supplied downmix signals prior to MPEG Surround decoding, a datastream controlled by correction factors may be applied. Calibration factor matrix
Figure PCTKR2015006788-appb-I000139
It can be applied to the downmix signal or an externally supplied downmix signal.
매트릭스
Figure PCTKR2015006788-appb-I000140
는 파라미터가 표현하는 특정 타임/주파수 타일(time frequency tile)에 대한 다운믹스 신호의 레벨이 인코더에서 공간적인 파라미터가 추정될 때 획득되는 다운믹스 신호의 레벨과 동일하도록 보장할 수 있다.
matrix
Figure PCTKR2015006788-appb-I000140
May ensure that the level of the downmix signal for a particular time frequency tile represented by the parameter is the same as the level of the downmix signal obtained when the spatial parameter is estimated at the encoder.
이는 3가지 경우로 구분되며, (i) 외부 다운믹스 보상이 없는 경우(
Figure PCTKR2015006788-appb-I000141
), (ii) 파라미터화된 외부 다운믹스 보상이 있는 경우(
Figure PCTKR2015006788-appb-I000142
) 및 (iii) 외부 다운믹스 보상에 기초한 잔차 코딩을 수행하는 경우(
Figure PCTKR2015006788-appb-I000143
)로 구분될 수 있다. 만약,
Figure PCTKR2015006788-appb-I000144
인 경우, 디코더는 외부 다운믹스 보상에 기초한 잔차 코딩을 지원하지 않는다.
This is divided into three cases: (i) without external downmix compensation (
Figure PCTKR2015006788-appb-I000141
), (ii) with parameterized external downmix compensation (
Figure PCTKR2015006788-appb-I000142
And (iii) perform residual coding based on external downmix compensation (
Figure PCTKR2015006788-appb-I000143
) Can be separated. if,
Figure PCTKR2015006788-appb-I000144
If, the decoder does not support residual coding based on external downmix compensation.
그리고, 만약, N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되지 않는 경우(
Figure PCTKR2015006788-appb-I000145
), N-N/2-N 구조에서 매트릭스
Figure PCTKR2015006788-appb-I000146
는 하기 수학식 29에 의해 정의될 수 있다.
And, if external downmix compensation is not applied in the NN / 2-N structure (
Figure PCTKR2015006788-appb-I000145
), Matrix in NN / 2-N structure
Figure PCTKR2015006788-appb-I000146
May be defined by Equation 29 below.
<수학식 29><Equation 29>
Figure PCTKR2015006788-appb-I000147
Figure PCTKR2015006788-appb-I000147
여기서,
Figure PCTKR2015006788-appb-I000148
는 NumInch* NumInCh사이즈를 나타내는 단위 매트릭스를 의미하고,
Figure PCTKR2015006788-appb-I000149
는 NumInch* NumInCh사이즈를 나타내는 제로 매트릭스를 의미한다.
here,
Figure PCTKR2015006788-appb-I000148
Means a unit matrix indicating NumInch * NumInCh size,
Figure PCTKR2015006788-appb-I000149
Denotes a zero matrix representing NumInch * NumInCh size.
이와 달리, 만약 N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되는 경우(
Figure PCTKR2015006788-appb-I000150
), N-N/2-N 구조에 대해
Figure PCTKR2015006788-appb-I000151
는 하기 수학식 30에 의해 정의될 수 있다.
In contrast, if external downmix compensation is applied in the NN / 2-N structure (
Figure PCTKR2015006788-appb-I000150
), For the NN / 2-N structure
Figure PCTKR2015006788-appb-I000151
May be defined by Equation 30 below.
<수학식 30><Equation 30>
Figure PCTKR2015006788-appb-I000152
Figure PCTKR2015006788-appb-I000152
여기서,
Figure PCTKR2015006788-appb-I000153
로 정의된다.
here,
Figure PCTKR2015006788-appb-I000153
Is defined as
한편, N-N/2-N 구조에서 외부의 다운믹스 보상에 기초한 잔차 코딩(residual coding)이 적용되는 경우(
Figure PCTKR2015006788-appb-I000154
),
Figure PCTKR2015006788-appb-I000155
는 하기 수학식 31에 의해 정의될 수 있다.
On the other hand, when residual coding based on external downmix compensation is applied in the NN / 2-N structure (
Figure PCTKR2015006788-appb-I000154
),
Figure PCTKR2015006788-appb-I000155
May be defined by Equation 31 below.
<수학식 31><Equation 31>
Figure PCTKR2015006788-appb-I000156
Figure PCTKR2015006788-appb-I000156
여기서,
Figure PCTKR2015006788-appb-I000157
로 정의될 수 있다. 그리고,
Figure PCTKR2015006788-appb-I000158
는 업데이트될 수 있다.
here,
Figure PCTKR2015006788-appb-I000157
It can be defined as. And,
Figure PCTKR2015006788-appb-I000158
Can be updated.
(3) 매트릭스 H1(3) matrix H1
N-N/2-N 구조에서, 다운믹스 신호의 채널 개수는 5개보다 많을 수 있다. 그래서, 인버스(inverse) 매트릭스 H는 모든 파라미터 셋트와 프로세싱 밴드에 대해 입력 신호의 벡터
Figure PCTKR2015006788-appb-I000159
의 열의 개수와 동일한 사이즈를 가지는 단위 매트릭스일 수 있다.
In the NN / 2-N structure, the number of channels of the downmix signal may be more than five. Thus, the inverse matrix H is a vector of input signals for all parameter sets and processing bands.
Figure PCTKR2015006788-appb-I000159
It may be a unit matrix having the same size as the number of columns of.
<매트릭스 M2(post-matrix)의 정의><Definition of matrix M2 (post-matrix)>
N-N/2-N 구조에서, 매트릭스 M2인
Figure PCTKR2015006788-appb-I000160
는 다채널의 출력 신호를 재생성하기 위해 다이렉트 신호와 비상관된 신호를 어떻게 조합할 것인지를 정의한다.
Figure PCTKR2015006788-appb-I000161
는 하기 수학식 32에 의해 정의될 수 있다.
In NN / 2-N structure, matrix M2
Figure PCTKR2015006788-appb-I000160
Defines how to combine the direct and uncorrelated signals to regenerate the multi-channel output signal.
Figure PCTKR2015006788-appb-I000161
May be defined by Equation 32 below.
<수학식 32><Equation 32>
Figure PCTKR2015006788-appb-I000162
Figure PCTKR2015006788-appb-I000162
여기서,
Figure PCTKR2015006788-appb-I000163
로 정의된다.
here,
Figure PCTKR2015006788-appb-I000163
Is defined as
한편,
Figure PCTKR2015006788-appb-I000164
는 하기 수학식 33에 의해 스무딩될 수 있다.
Meanwhile,
Figure PCTKR2015006788-appb-I000164
Can be smoothed by the following equation (33).
<수학식 33><Equation 33>
Figure PCTKR2015006788-appb-I000165
Figure PCTKR2015006788-appb-I000165
여기서,
Figure PCTKR2015006788-appb-I000166
Figure PCTKR2015006788-appb-I000167
에서 첫번째 행은 하이브리드 서브밴드
Figure PCTKR2015006788-appb-I000168
이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드
Figure PCTKR2015006788-appb-I000169
에 대해
Figure PCTKR2015006788-appb-I000170
의 복소 컨주게이션(complex conjugation)인
Figure PCTKR2015006788-appb-I000171
이다. 그리고,
Figure PCTKR2015006788-appb-I000172
는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
here,
Figure PCTKR2015006788-appb-I000166
Wow
Figure PCTKR2015006788-appb-I000167
First row in the hybrid subband
Figure PCTKR2015006788-appb-I000168
Where the second row is the processing band and the third row is the specific hybrid subband
Figure PCTKR2015006788-appb-I000169
About
Figure PCTKR2015006788-appb-I000170
Complex conjugation of
Figure PCTKR2015006788-appb-I000171
to be. And,
Figure PCTKR2015006788-appb-I000172
Means the last parameter set of the previous frame.
매트릭스 M2를 위한 매트릭스
Figure PCTKR2015006788-appb-I000173
의 엘리먼트는 OTT 박스의 등가 모델(equivalent model)로부터 계산될 수 있다. OTT 박스는 비상관기와 믹싱부를 포함한다. OTT 박스에 입력되는 모노 형태의 입력 신호는 비상관기와 믹싱부에 각각 전달된다. 믹싱부는 모노 형태의 입력 신호와 비상관기를 통해 출력된 비상관된 신호 및 CLD, ICC 파라미터를 이용하여 스테레오 형태의 출력 신호를 생성할 수 있다. 여기서, CLD는 스테레오 필드에서 로컬라이제이션(localization)을 제어하고, ICC는 출력 신호의 스테레오 폭(wideness)를 제어한다.
Matrix for Matrix M2
Figure PCTKR2015006788-appb-I000173
The element of can be calculated from the equivalent model of the OTT box. The OTT box includes a decorrelator and a mixing section. The mono input signal input to the OTT box is transmitted to the decorrelator and the mixing unit, respectively. The mixing unit may generate a stereo output signal using a mono input signal, an uncorrelated signal output through the decorrelator, and the CLD and ICC parameters. Here, the CLD controls localization in the stereo field, and the ICC controls the stereo wideness of the output signal.
그러면, 임의의 OTT 박스로부터 출력되는 결과는 하기 수학식 34에 의해 정의될 수 있다.Then, the result output from any OTT box can be defined by Equation 34 below.
<수학식 34><Equation 34>
Figure PCTKR2015006788-appb-I000174
Figure PCTKR2015006788-appb-I000174
OTT 박스는
Figure PCTKR2015006788-appb-I000175
로 라벨링(
Figure PCTKR2015006788-appb-I000176
)되고,
Figure PCTKR2015006788-appb-I000177
는 OTT 박스에 대해 타임 슬롯
Figure PCTKR2015006788-appb-I000178
과 파라미터 밴드
Figure PCTKR2015006788-appb-I000179
에서 임의의 매트릭스(Arbitrary matrix)의 엘리먼트를 의미한다.
OTT box
Figure PCTKR2015006788-appb-I000175
Labeling as (
Figure PCTKR2015006788-appb-I000176
),
Figure PCTKR2015006788-appb-I000177
Time slot for OTT box
Figure PCTKR2015006788-appb-I000178
And parameter bands
Figure PCTKR2015006788-appb-I000179
Denotes an element of an arbitrary matrix.
이 때, 포스트 게인 매트릭스는 하기 수학식 35과 같이 정의될 수 있다.In this case, the post gain matrix may be defined as in Equation 35 below.
Figure PCTKR2015006788-appb-I000180
Figure PCTKR2015006788-appb-I000180
여기서,
Figure PCTKR2015006788-appb-I000181
,및
Figure PCTKR2015006788-appb-I000182
,이고,
Figure PCTKR2015006788-appb-I000183
Figure PCTKR2015006788-appb-I000184
로 정의된다.
here,
Figure PCTKR2015006788-appb-I000181
, And
Figure PCTKR2015006788-appb-I000182
,ego,
Figure PCTKR2015006788-appb-I000183
And
Figure PCTKR2015006788-appb-I000184
Is defined as
한편,
Figure PCTKR2015006788-appb-I000185
(
Figure PCTKR2015006788-appb-I000186
for
Figure PCTKR2015006788-appb-I000187
)로 정의될 수 있다.
Meanwhile,
Figure PCTKR2015006788-appb-I000185
(
Figure PCTKR2015006788-appb-I000186
for
Figure PCTKR2015006788-appb-I000187
Can be defined as
그리고,
Figure PCTKR2015006788-appb-I000188
로 정의된다.
And,
Figure PCTKR2015006788-appb-I000188
Is defined as
이 때, N-N/2-N 구조에서,
Figure PCTKR2015006788-appb-I000189
는 하기 수학식 36에 의해 정의될 수 있다.
At this time, in the NN / 2-N structure,
Figure PCTKR2015006788-appb-I000189
May be defined by Equation 36 below.
<수학식 36><Equation 36>
Figure PCTKR2015006788-appb-I000190
Figure PCTKR2015006788-appb-I000190
여기서, CLD와 ICC는 하기 수학식 37에 의해 정의될 수 있다.Here, CLD and ICC may be defined by Equation 37 below.
<수학식 37><Equation 37>
Figure PCTKR2015006788-appb-I000191
Figure PCTKR2015006788-appb-I000191
이 때,
Figure PCTKR2015006788-appb-I000192
로 정의될 수 있다.
At this time,
Figure PCTKR2015006788-appb-I000192
It can be defined as.
<비상관기의 정의><Definition of Emergency Correlator>
N-N/2-N 구조에서, 비상관기들은 QMF 서브밴드 도메인에서 잔향 필터(reverberation filter)에 의해 수행될 수 있다. 잔향 필터는 모든 하이브리드 서브밴드에서 현재 어떤 하이브리드 서브밴드에 해당하는지에 기초하여 서로 다른 필터 특징을 나타낸다.In the N-N / 2-N structure, decorrelators may be performed by a reverberation filter in the QMF subband domain. Reverberation filters exhibit different filter characteristics based on which hybrid subband currently corresponds to all hybrid subbands.
잔향 필터는 IIR 격자 필터이다. 상호적으로 비상관된 직교 신호들을 생성하기 위해 서로 다른 비상관기에 대해 IIR 격자 필터들은 서로 다른 필터 계수를 가진다.The reverberation filter is an IIR grating filter. The IIR grating filters have different filter coefficients for different decorrelators to produce mutually uncorrelated orthogonal signals.
비상관기에 의해 수행되는 비상관 과정은 여러 과정으로 진행된다. 먼저, 매트릭스 M1의 출력인
Figure PCTKR2015006788-appb-I000193
는 전역 통과(all-pass) 비상관 필터의 셋트로 입력된다. 그러면, 필터링된 신호들은 에너지 쉐이핑될 수 있다. 여기서, 에너지 쉐이핑은 비상관된 신호들을 보다 입력 신호에 가깝게 매칭되도록 스펙트럴 또는 시간적인 포락선을 쉐이핑하는 것이다.
The uncorrelated process carried out by the decorator is carried out in several processes. First, the output of matrix M1
Figure PCTKR2015006788-appb-I000193
Is entered into the set of all-pass uncorrelated filters. The filtered signals can then be energy shaped. Here, energy shaping is shaping the spectral or temporal envelope to match uncorrelated signals more closely to the input signal.
임의의 비상관기에 입력되는 입력 신호
Figure PCTKR2015006788-appb-I000194
는 벡터 의 일부분이다. 복수의 비상관기들을 통해 도출된 비상관된 신호들 간의 직교성을 보장하기 위해, 복수의 비상관기들마다 서로 다른 필터 계수를 가진다.
Input signal input to any decorator
Figure PCTKR2015006788-appb-I000194
Vector It is part of. In order to ensure orthogonality between uncorrelated signals derived through the plurality of decorrelators, the plurality of decorrelators have different filter coefficients.
비상관 필터는 고정된 주파수 의존 딜레이(constant frequency-dependent delay)에 의해 선행하는 복수의 전역 통과(All-pass(IIR)) 영역으로 구성된다. 주파수 축은 QMF 분할 주파수에 대응되도록 서로 다른 영역으로 분할될 수 있다. 각 영역마다 딜레이의 길이와 필터 계수 벡터들의 길이는 서로 동일하다. 그리고, 추가적인 위상 회전(additional phase rotation) 때문에 부분적인 딜레이(fractional delay)를 가지는 비상관기의 필터 계수는 하이브리드 서브밴드 인덱스에 의존한다.The uncorrelated filter consists of a plurality of all-pass (IIR) regions preceded by a fixed frequency-dependent delay. The frequency axis may be divided into different regions so as to correspond to the QMF division frequency. In each region, the length of the delay and the length of the filter coefficient vectors are the same. And, the filter coefficients of the decorrelator with fractional delay due to additional phase rotation depend on the hybrid subband index.
앞서 살펴본 바와 같이, 비상관기들로부터 출력된 비상관된 신호들 간의 직교성을 보장하기 위해 비상관기의 필터들은 서로 다른 필터 계수를 가진다. N-N/2-N 구조에서, N/2개의 비상관기들이 요구된다. 이 때, N-N/2-N 구조에서, 비상관기들의 개수는 10개로 제한될 수 있다. Lfe 모드가 존재하지 않는 N-N/2-N 구조에서, OTT 박스의 개수인 N/2가 10을 초과하는 경우, 10 기본 모듈로 연산(basis modulo operation)에 따라 비상관기들은 10을 초과하는 OTT 박스의 개수에 대응하여 재사용될 수 있다.As discussed above, the filters of the decorrelators have different filter coefficients to ensure orthogonality between the uncorrelated signals output from the decorrelators. In the N-N / 2-N structure, N / 2 decorrelators are required. At this time, in the N-N / 2-N structure, the number of decorrelators may be limited to ten. In the NN / 2-N structure where Lfe mode does not exist, when the number of OTT boxes, N / 2, exceeds 10, the decorators are more than 10 OTT boxes according to 10 basis modulo operations. It can be reused corresponding to the number of.
하기 표 6는, N-N/2-N 구조의 디코더에서 비상관기의 인덱스를 나타낸다. 표 6을 참고하면, N/2개의 비상관기들은 10 단위로 인덱스가 반복된다. 즉, 0번째 비상관기와 10번째 비상관기는 로 동일한 인덱스를 가진다.Table 6 below shows the index of the uncorrelator in the decoder of the NN / 2-N structure. Referring to Table 6, the N / 2 decorrelators are indexed by 10 units. That is, the 0th decorator and the 10th decorator Have the same index.
Figure PCTKR2015006788-appb-T000005
Figure PCTKR2015006788-appb-T000005
N-N/2-N 구조의 경우, 하기 표 7의 신택스에 의해 구현될 수 있다.For the N-N / 2-N structure, it may be implemented by the syntax of Table 7.
Figure PCTKR2015006788-appb-I000197
Figure PCTKR2015006788-appb-I000198
Figure PCTKR2015006788-appb-I000199
Figure PCTKR2015006788-appb-I000197
Figure PCTKR2015006788-appb-I000198
Figure PCTKR2015006788-appb-I000199
이 때, bsTreeConfig는 하기 표 8에 의해 구현될 수 있다.At this time, bsTreeConfig may be implemented by Table 8.
Figure PCTKR2015006788-appb-T000006
Figure PCTKR2015006788-appb-T000006
그리고, N-N/2-N 구조에서 다운믹스 신호의 채널 개수인 bsNumInCh는 하기 표 9와 같이 구현될 수 있다.In addition, bsNumInCh, which is the number of channels of the downmix signal in the N-N / 2-N structure, may be implemented as shown in Table 9 below.
Figure PCTKR2015006788-appb-T000007
Figure PCTKR2015006788-appb-T000007
그리고, N-N/2-N 구조에서, 출력 신호들 중 LFE 채널의 개수인
Figure PCTKR2015006788-appb-I000200
는 하기 표 10과 같이 구현될 수 있다.
In the NN / 2-N structure, the number of LFE channels among the output signals is
Figure PCTKR2015006788-appb-I000200
May be implemented as shown in Table 10 below.
Figure PCTKR2015006788-appb-T000008
Figure PCTKR2015006788-appb-T000008
그리고, N-N/2-N 구조에서, 출력 신호의 채널 순서는 출력 신호의 채널 개수 및 LFE 채널의 개수에 따라 표 11과 같이 구현될 수 있다.In the N-N / 2-N structure, the channel order of the output signal may be implemented as shown in Table 11 according to the number of channels of the output signal and the number of LFE channels.
Figure PCTKR2015006788-appb-T000009
Figure PCTKR2015006788-appb-T000009
표 7에서 bsHasSpeakerConfig는 실제로 재생하고자 하는 출력 신호의 레이아웃이 표 11에서 구체화된 채널 순서와 다른 레이아웃인지 여부를 나타내는 플래그이다. 만약, bsHasSpeakerConfig == 1인 경우, 실제 재생할 때의 라우드스피커의 레이아웃인 audioChannelLayout가 렌더링을 위해 사용될 수 있다.In Table 7, bsHasSpeakerConfig is a flag indicating whether the layout of the output signal to be actually reproduced is different from the channel order specified in Table 11. If bsHasSpeakerConfig == 1, audioChannelLayout, which is the layout of the loudspeakers during actual playback, may be used for rendering.
그리고, audioChannelLayout 는 실제 재생할 때의 라우드스피커의 레이아웃을 나타낸다. 만약, 라우드스피커가 LFE 채널을 포함하는 경우, LFE 채널들은 LFE 채널이 아닌 것과 함께 하나의 OTT 박스를 이용하여 처리되어야 하고, 채널 리스트에서 마지막에 위치할 수 있다. 예를 들면, LFE 채널은 채널 리스트인 L,Lv,R,Rv,Ls,Lss,Rs,Rss,C,LFE,Cvr,LFE2에서 맨 마지막에 위치한다.The audioChannelLayout shows the layout of the loudspeakers for actual playback. If the loudspeaker includes an LFE channel, the LFE channels should be processed using one OTT box together with the non-LFE channel and may be located last in the channel list. For example, the LFE channel is located last in the channel lists L, Lv, R, Rv, Ls, Lss, Rs, Rss, C, LFE, Cvr, and LFE2.
도 17은 일실시예에 따른 N-N/2-N 구조를 트리 형태로 표현한 도면이다.17 is a diagram illustrating an N-N / 2-N structure in a tree form according to an embodiment.
도 16에 도시된 N-N/2-N구조는 도 17과 같이 트리 형태로 표현될 수 있다. 도 17에서 모든 OTT 박스들은 CLD, ICC, 잔차 신호 및 입력 신호에 기초하여 2개 채널의 출력 신호를 재생성할 수 있다. OTT 박스와 이에 대응하는 CLD, ICC, 잔차 신호 및 입력 신호는 비트스트림에 나타나는 순서에 따라 번호가 매겨질 수 있다.The N-N / 2-N structure illustrated in FIG. 16 may be represented in a tree form as shown in FIG. 17. In FIG. 17, all OTT boxes can regenerate two channels of output signals based on CLD, ICC, residual signal and input signal. OTT boxes and their corresponding CLD, ICC, residual and input signals may be numbered in the order in which they appear in the bitstream.
도 17에 의하면, 복수의 OTT 박스들은 N/2개가 존재한다. 이 때, 다채널 오디오 신호 처리 장치인 디코더는 N/2개의 OTT 박스를 이용하여 N/2채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성할 수 있다. 여기서, N/2개의 OTT 박스들은 복수의 계층을 통해 구현되지 않는다. 즉, OTT 박스들은 N/2 채널의 다운믹스 신호의 각 채널별로 병렬적으로 업믹싱을 수행할 수 있다. 다시 말해서, 어느 하나의 OTT 박스는 다른 OTT 박스와 연결되지 않는다.According to FIG. 17, there are N / 2 of the plurality of OTT boxes. In this case, the decoder, which is a multichannel audio signal processing apparatus, may generate N-channel output signals from N / 2-channel downmix signals using N / 2 OTT boxes. Here, N / 2 OTT boxes are not implemented through a plurality of layers. That is, the OTT boxes may perform upmixing in parallel for each channel of the downmix signal of the N / 2 channel. In other words, one OTT box is not connected to another OTT box.
한편, 도 17에서 왼쪽 도면은 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우이고, 오른쪽 도면은 N채널의 출력 신호에 LFE 채널이 포함된 경우를 나타낸다.Meanwhile, in FIG. 17, the left figure shows a case where the LFE channel is not included in the N-channel output signal, and the right figure shows a case where the LFE channel is included in the N-channel output signal.
이 때, N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, N/2개의 OTT박스들은 잔차 신호(res)와 다운믹스 신호(M)를 이용하여 N채널의 출력 신호를 생성할 수 있다. 하지만, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되는 OTT 박스는 잔차 신호를 제외한 다운믹스 신호만 이용할 수 있다. In this case, when the LFE channel is not included in the output signal of the N channel, the N / 2 OTT boxes may generate the output signal of the N channel using the residual signal res and the downmix signal M. FIG. However, when the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is output among the N / 2 OTT boxes may use only the downmix signal except the residual signal.
뿐만 아니라, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 CLD와 ICC를 이용하여 다운믹스 신호를 업믹싱하지만, LFE 채널이 출력되는 OTT 박스는 CLD만 이용하여 다운믹스 신호를 업믹싱할 수 있다.In addition, when the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is not output among the N / 2 OTT boxes upmixes the downmix signal using CLD and ICC, but the LFE channel is The output OTT box can upmix the downmix signal using only the CLD.
그리고, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 비상관기를 통해 비상관된 신호를 생성하지만, LFE 채널이 출력되는 OTT 박스는 비상관 과정을 수행하지 않으므로 비상관된 신호를 생성하지 않는다.If the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is not output among the N / 2 OTT boxes generates an uncorrelated signal through the decorrelator, but the OTT in which the LFE channel is output. The box does not perform uncorrelated processes and therefore does not generate uncorrelated signals.
도 18은 일실시예에 따른 FCE 구조에 대한 인코더와 디코더를 도시한 도면이다.18 illustrates an encoder and a decoder for an FCE structure according to an embodiment.
도 18을 참고하면, FCE(Four Channel Element)는 4개 채널의 입력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성하거나 또는 1개 채널의 입력 신호를 업믹싱하여 4개 채널의 출력 신호를 생성하는 장치에 대응한다.Referring to FIG. 18, a Four Channel Element (FCE) downmixes an input signal of four channels to generate an output signal of one channel, or upmixes an input signal of one channel to generate an output signal of four channels. Corresponds to the device to create.
FCE 인코더(1801)는 2개의 TTO 박스(1803, 1804)와 USAC 인코더(1805)를 이용하여 4개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. TTO 박스(1803, 1804)는 각각 2개 채널의 입력 신호를 다운믹싱하여 4개 채널의 입력 신호로부터 1개 채널의 다운믹스 신호를 생성할 수 있다. USC 인코더(1805)는 다운믹스 신호의 코어 대역에서 인코딩을 수행할 수 있다.The FCE encoder 1801 may generate an output signal of one channel from four input signals using two TTO boxes 1803 and 1804 and the USAC encoder 1805. The TTO boxes 1803 and 1804 may each downmix two input signals to generate one down channel signal from four input signals. The USC encoder 1805 may perform encoding in the core band of the downmix signal.
그리고, FCE 디코더(1802)는 FCE 인코더(1801)가 수행하는 동작의 역으로 수행한다. FCE 디코더(1802)는 USAC 디코더(1806)와 2개의 OTT 박스(1807, 1808)를 이용하여 1개 채널의 입력 신호로부터 4개 채널의 출력 신호를 생성할 수 있다. OTT 박스(1807, 1808)는 USAC 디코더(1806)에 의해 디코딩된 1개 채널의 입력 신호를 각각 업믹싱하여 4개 채널의 출력 신호를 생성할 수 있다. USC 디코더(1806)는 FCE 다운믹스 신호의 코어 대역에서 인코딩을 수행할 수 있다.The FCE decoder 1802 performs the inverse of the operation performed by the FCE encoder 1801. The FCE decoder 1802 may generate four channels of output signals from one channel of input signals using the USAC decoder 1806 and two OTT boxes 1807 and 1808. OTT boxes 1807 and 1808 may upmix the input signals of one channel, respectively, decoded by USAC decoder 1806 to produce four channels of output signals. USC decoder 1806 may perform encoding in the core band of the FCE downmix signal.
FCE 디코더(1802)는 CLD, IPD, ICC와 같은 공간 큐(spatial cue)를 이용하여 파라메트릭 모드로 동작하기 위해, 낮은 비트레이트에서 코딩을 수행할 수 있다. 동작 비트레이트와 입력 신호의 전체 채널 개수, 파라미터의 해상도 및 양자화 레벨 중 적어도 하나에 기초하여 파라메트릭 타입이 변경될 수 있다. FCE 인코더(1801)와 FCE 디코더(1802)는 128kbps에서 48kbps까지 광범위하게 사용될 수 있다.The FCE decoder 1802 may perform coding at a low bitrate in order to operate in a parametric mode using spatial cues such as CLD, IPD, and ICC. The parametric type may be changed based on at least one of the operation bit rate and the total number of channels of the input signal, the resolution of the parameter, and the quantization level. The FCE encoder 1801 and the FCE decoder 1802 can be widely used from 128 kbps to 48 kbps.
FCE 디코더(1802)의 출력 신호의 채널 개수(4개)는 FCE 인코더(1801)에 입력된 입력 신호의 채널 개수(4개)와 동일하다.The number of channels (four) of the output signal of the FCE decoder 1802 is the same as the number of channels (four) of the input signal input to the FCE encoder 1801.
도 19는 일실시예에 따른 TCE 구조에 대한 인코더와 디코더를 도시한 도면이다.19 illustrates an encoder and a decoder for a TCE structure according to an embodiment.
도 19을 참고하면, TCE(Three Channel Element)는 3개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성하거나 또는 1개 채널의 입력 신호로부터 3개 채널의 출력 신호를 생성하는 장치에 대응한다.Referring to FIG. 19, a three channel element (TCE) corresponds to an apparatus for generating an output signal of one channel from three input signals or generating an output signal of three channels from an input signal of one channel. .
TCE 인코더(1901)는 1개의 TTO 박스(1903)와 1개의 QMF 변환기(1904) 및 1개의 USAC 인코더(1905)를 포함할 수 있다. 여기서, QMF 변환기는 하이브리드 분석/합성기를 포함할 수 있다. 이 때, 2개 채널의 입력 신호가 TTO 박스(1903)에 입력되고, 1개 채널의 입력 신호가 QMF 변환기(1904)에 입력될 수 있다. TTO 박스(1903)는 2개 채널의 입력 신호를 다운믹싱하여 1개 채널의 다운믹스 신호를 생성할 수 있다. QMF 변환기(1904)는 1개 채널의 입력 신호를 QMF 도메인으로 변환할 수 있다. The TCE encoder 1901 may include one TTO box 1903 and one QMF converter 1904 and one USAC encoder 1905. Here, the QMF converter may include a hybrid analyzer / synthesizer. At this time, input signals of two channels may be input to the TTO box 1903, and input signals of one channel may be input to the QMF converter 1904. The TTO box 1903 may downmix the input signals of the two channels to generate the downmix signal of one channel. The QMF converter 1904 may convert an input signal of one channel into a QMF domain.
TTO 박스(1903)의 출력 결과와 QMF 변환기(1904)의 출력 결과는 USAC 인코더(1905)에 입력될 수 있다. USAC 인코더(1905)는 TTO 박스(1903)의 출력 결과와 QMF 변환기(1904)의 출력 결과로 입력된 2개 채널의 신호의 코어 대역을 인코딩할 수 있다.The output result of the TTO box 1903 and the output result of the QMF converter 1904 may be input to the USAC encoder 1905. The USAC encoder 1905 may encode the core bands of the two channel signals input as the output result of the TTO box 1903 and the output result of the QMF converter 1904.
도 19에 의하면, 입력 신호의 채널 개수가 3개로서 홀수이기 때문에 2개 채널의 입력 신호만 TTO 박스(1903)에 입력되고, 나머지 1개 채널의 입력 신호는 TTO 박스(1903)를 바이패스하여 USAC 인코더(1905)에 입력될 수 있다. 이 때, TTO 박스(1903)는 파라메트릭 모드로 동작하므로, TCE 인코더(1901)는 입력 신호의 채널 개수가 11.1이거나 9.0인 경우에 주로 적용될 수 있다.According to FIG. 19, since the number of channels of the input signal is three and odd, only two input signals of the two channels are input to the TTO box 1903, and the other one of the input signals bypasses the TTO box 1903. May be input to the USAC encoder 1905. In this case, since the TTO box 1903 operates in a parametric mode, the TCE encoder 1901 may be mainly applied when the number of channels of the input signal is 11.1 or 9.0.
TCE 디코더(1902)는 1개의 USAC 디코더(1906), 1개의 OTT 박스(1907)와 1개의 QMF 역변환기(1904)를 포함할 수 있다. 이 때, TCE 인코더(1901)로부터 입력된 1개 채널의 입력 신호는 USAC 디코더(1906)를 통해 디코딩된다. 이 때, USAC 디코더(1906)는 1개 채널의 입력 신호에서 코어 대역에 대해 디코딩할 수 있다.The TCE decoder 1902 may include one USAC decoder 1906, one OTT box 1907 and one QMF inverse converter 1904. At this time, the input signal of one channel input from the TCE encoder 1901 is decoded through the USAC decoder 1906. In this case, the USAC decoder 1906 may decode the core band from the input signal of one channel.
USAC 디코더(1906)를 통해 출력된 2개 채널의 입력 신호는 각각 채널별로 OTT 박스(1907)와 QMF 역변환기(1908)에 입력될 수 있다. QMF 역변환기(1908)는 하이브리드 분석/합성기를 포함할 수 있다. OTT 박스(1907)는 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다. 그리고, QMF 역변환기(1908)는 USAC 디코더(1906)를 통해 출력된 2개 채널의 입력 신호 중 나머지 1개 채널의 입력 신호를 QMF 도메인에서 시간 도메인 또는 주파수 도메인으로 역변환할 수 있다.Input signals of two channels output through the USAC decoder 1906 may be input to the OTT box 1907 and the QMF inverse converter 1908 for each channel. QMF inverse transformer 1908 may include a hybrid analyzer / synthesizer. The OTT box 1907 may generate an output signal of two channels by upmixing an input signal of one channel. In addition, the QMF inverse converter 1908 may inversely convert the input signal of one of the two channels of the input signal output through the USAC decoder 1906 from the QMF domain to the time domain or frequency domain.
TCE 디코더(1902)의 출력 신호의 채널 개수(3개)는 TCE 인코더(1901)에 입력된 입력 신호의 채널 개수(3개)와 동일하다.The number of channels of three output signals of the TCE decoder 1902 is equal to the number of channels of three input signals input to the TCE encoder 1901.
도 20은 일실시예에 따른 ECE 구조에 대한 인코더와 디코더를 도시한 도면이다.20 illustrates an encoder and a decoder for an ECE structure according to an embodiment.
도 20을 참고하면, ECE(Eight Channel Element)는 8개 채널의 입력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성하거나 또는 1개 채널의 입력 신호를 업믹싱하여 8개 채널의 출력 신호를 생성하는 장치에 대응한다.Referring to FIG. 20, an ECE (Eight Channel Element) downmixes an input signal of eight channels to generate an output signal of one channel, or upmixes an input signal of one channel to generate an output signal of eight channels. Corresponds to the device to create.
ECE 인코더(2001)는 6개의 TTO박스(2003~2008)와 USAC 인코더(2009)를 이용하여 8개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 먼저, 8개 채널의 입력 신호는 4개의 TTO 박스(2003~2006)에 의해 각각 2개 채널의 입력 신호로 입력된다. 그러면, 4개의 TTO 박스(2003~2006) 각각은 2개 채널의 입력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성할 수 있다. 4개의 TTO 박스(2003~2006)의 출력 결과는 4개의 TTO 박스(2003~2006)에 연결된 2개의 TTO 박스(2007, 2008)에 입력된다. The ECE encoder 2001 may generate an output signal of one channel from eight input signals using six TTO boxes 2003 to 2008 and USAC encoder 2009. First, input signals of eight channels are input as input signals of two channels, respectively, by four TTO boxes 2003 to 2006. Then, each of the four TTO boxes 2003 to 2006 may generate an output signal of one channel by downmixing input signals of two channels. The output results of the four TTO boxes 2003 to 2006 are input to two TTO boxes 2007 and 2008 connected to the four TTO boxes 2003 to 2006.
2개의 TTO 박스(2007, 2008)는 4개의 TTO 박스(2003~2006)의 출력 신호들 중 각각 2개 채널의 출력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 2개의 TTO 박스(2007, 2008)의 출력 결과는 2개의 TTO 박스(2007, 2008)에 연결된 USAC 인코더(2009)에 입력된다. USAC 인코더(2009)는 2개 채널의 입력 신호를 인코딩하여 1개 채널의 출력 신호를 생성할 수 있다.The two TTO boxes 2007 and 2008 may downmix the output signals of two channels among the output signals of the four TTO boxes 2003 to 2006 to generate the output signal of one channel. Then, the output results of the two TTO boxes 2007 and 2008 are input to the USAC encoder 2009 connected to the two TTO boxes 2007 and 2008. The USAC encoder 2009 may encode the input signal of two channels to generate the output signal of one channel.
결론적으로, ECE 인코더(2001)는 2단계의 트리 형태로 연결된 TTO 박스들을 이용하여 8개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 다시 말해서, 4개의 TTO 박스(2003~2006)와 2개의 TTO 박스(2007, 2008)는 서로 캐스케이드 형태로 연결되어 2개 계층의 트리로 구성될 수 있다. ECE 인코더(2001)는 입력 신호의 채널 구조가 22.2이거나 또는 14.0인 경우에 대해 48kbps 모드, 또는 64kbps 모드에서 사용될 수 있다.In conclusion, the ECE encoder 2001 may generate an output signal of one channel from an input signal of eight channels using TTO boxes connected in a two-stage tree form. In other words, the four TTO boxes 2003 to 2006 and the two TTO boxes 2007 and 2008 may be connected to each other in a cascade to form a tree of two layers. The ECE encoder 2001 may be used in 48kbps mode or 64kbps mode for the case where the channel structure of the input signal is 22.2 or 14.0.
ECE 디코더(2002)는 6개의 OTT박스(2011~2016)와 USAC 디코더(2010)를 이용하여 1개 채널의 입력 신호로부터 8개 채널의 출력 신호를 생성할 수 있다. 먼저, ECE 인코더(2001)에서 생성된 1개 채널의 입력 신호는 ECE 디코더(2002)에 포함된 USAC 디코더(2010)에 입력될 수 있다. 그러면, USAC 디코더(2010)는 1개 채널의 입력 신호의 코어 대역을 디코딩하여 2개 채널의 출력 신호를 생성할 수 있다. USAC 디코더(2010)로부터 출력된 2개 채널의 출력 신호는 각각의 채널별로 OTT 박스(2011)와 OTT 박스(2012)에 입력될 수 있다. OTT 박스(2011)는 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다. 마찬가지로, OTT 박스(2012)는 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다.The ECE decoder 2002 may generate eight channels of output signals from one channel of input signals using six OTT boxes 2011 to 2016 and USAC decoders 2010. First, an input signal of one channel generated by the ECE encoder 2001 may be input to the USAC decoder 2010 included in the ECE decoder 2002. The USAC decoder 2010 may then decode the core band of the input signal of one channel to generate an output signal of two channels. The output signals of the two channels output from the USAC decoder 2010 may be input to the OTT box 2011 and the OTT box 2012 for each channel. The OTT box 2011 may generate an output signal of two channels by upmixing an input signal of one channel. Similarly, the OTT box 2012 may upmix the input signal of one channel to generate an output signal of two channels.
그러면, OTT 박스(2011, 2012)의 출력 결과는 OTT 박스(2011, 2012)와 연결된 OTT 박스 (2013~2016)에 각각 입력될 수 있다. OTT 박스(2013~2016) 각각은 OTT 박스(2011, 2012)의 출력 결과인 2개 채널의 출력 신호들 중 1개 채널의 출력 신호를 입력으로 받아서 업믹싱할 수 있다. 즉, OTT 박스(2013~2016) 각각은 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다. 그러면, 4개의 OTT 박스(2013~2016) 각각으로부터 생성된 출력 신호의 채널 개수는 9개이다.Then, output results of the OTT boxes 2011 and 2012 may be input to the OTT boxes 2013 to 2016 connected to the OTT boxes 2011 and 2012, respectively. Each of the OTT boxes 2013 to 2016 may receive upmixed output signals of one channel among the output signals of two channels that are output results of the OTT boxes 2011 and 2012. That is, each of the OTT boxes 2013 to 2016 may generate an output signal of two channels by upmixing an input signal of one channel. Then, the number of channels of the output signal generated from each of the four OTT boxes 2013 to 2016 is nine.
결론적으로, ECE 디코더(2002)는 2단계의 트리 형태로 연결된 OTT 박스들을 이용하여 1개 채널의 입력 신호로부터 8개 채널의 출력 신호를 생성할 수 있다. 다시 말해서, 4개의 OTT 박스(2013~2016)와 2개의 OTT 박스(2011, 2012)는 서로 캐스케이드 형태로 연결되어 2개 계층의 트리로 구성될 수 있다. In conclusion, the ECE decoder 2002 may generate eight channels of output signals from one channel of input signals using OTT boxes connected in a two-stage tree form. In other words, the four OTT boxes 2013 to 2016 and the two OTT boxes 2011 and 2012 may be connected to each other in a cascade to form a tree of two layers.
ECE 디코더(2002)의 출력 신호의 채널 개수(8개)는 ECE 인코더(2001)에 입력된 입력 신호의 채널 개수(8개)와 동일하다.The number of channels of eight output signals of the ECE decoder 2002 is equal to the number of channels of eight input signals input to the ECE encoder 2001.
도 21은 일실시예에 따른 SiCE 구조에 대한 인코더와 디코더를 도시한 도면이다.21 illustrates an encoder and a decoder for a SiCE structure according to an embodiment.
도 21을 참고하면, SICE(Six Channel Element)는 6개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성하거나 또는 1개 채널의 입력 신호로부터 6개 채널의 출력 신호를 생성하는 장치에 대응한다.Referring to FIG. 21, a six channel element (SICE) corresponds to an apparatus for generating one channel output signal from six channel input signals or six channel output signals from one channel input signal. .
SICE 인코더(2101)는 4개의 TTO 박스(2103~2106) 및 1개의 USAC 인코더(2107)를 포함할 수 있다. 이 때, 6개 채널의 입력 신호가 3개의 TTO 박스(2103~2106)에 입력될 수 있다. 그러면, 3개의 TTO 박스(2103~2106) 각각은 6개 채널의 입력 신호들 중 2개 채널의 입력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성할 수 있다. 3개 TTO 박스(2103~2106)들 중 2개의 TTO 박스가 다른 하나의 TTO 박스와 연결될 수 있다. 도 21의 경우, TTO 박스(2103, 2104)가 TTO 박스(2106)와 연결될 수 있다.The SICE encoder 2101 may include four TTO boxes 2103-2106 and one USAC encoder 2107. At this time, input signals of six channels may be input to three TTO boxes 2103 to 2106. Then, each of the three TTO boxes 2103 to 2106 may generate an output signal of one channel by downmixing an input signal of two channels among the input signals of six channels. Two TTO boxes of the three TTO boxes 2103 to 2106 may be connected to the other TTO box. In the case of FIG. 21, the TTO boxes 2103 and 2104 may be connected to the TTO boxes 2106.
TTO 박스(2103, 2104)의 출력 결과는 TTO 박스(2106)에 입력될 수 있다. 도 21에 도시된 바와 같이, TTO 박스(2106)는 2개 채널의 입력 신호를 다운믹싱하여 1개 채널의 출력 신호를 생성할 수 있다. 한편, TTO 박스(2105)의 출력 결과는 TTO 박스(2106)에 입력되지 않는다. 즉, TTO 박스(2105)의 출력 결과는 TTO 박스(2106)를 바이패스하여 USAC 인코더(2107)에 입력된다.The output results of the TTO boxes 2103 and 2104 may be input to the TTO box 2106. As shown in FIG. 21, the TTO box 2106 may downmix two input signals to generate one channel of output signal. On the other hand, the output result of the TTO box 2105 is not input to the TTO box 2106. That is, the output result of the TTO box 2105 is input to the USAC encoder 2107 by bypassing the TTO box 2106.
USAC 인코더(2107)는 TTO 박스(2105)와 TTO 박스(2106)의 출력 결과인 2개 채널의 입력 신호의 코어 대역을 인코딩하여 1개 채널의 출력 신호를 생성할 수 있다.The USAC encoder 2107 may generate the output signal of one channel by encoding the core bands of the two channel input signals that are the output results of the TTO box 2105 and the TTO box 2106.
SiCE 인코더(2101)는 3개의 TTO 박스(2103~2105)와 1개의 TTO 박스(2106)가 서로 다른 계층을 구성한다. 다만, ECE 인코더(2001)와 달리, SiCE 인코더(2101)는 3개의 TTO 박스(2103~2105)들 중 2개의 TTO 박스(2103~2104)가 1개의 TTO 박스(2106)와 연결되고, 나머지 1개의 TTO 박스(2105)는 TTO 박스(2106)를 바이패스한다. SiCE 인코더(2101)는 48kbps, 64kbps에서 14.0 채널 구조의 입력 신호를 처리할 수 있다.In the SiCE encoder 2101, three TTO boxes 2103 to 2105 and one TTO box 2106 constitute different layers. However, unlike the ECE encoder 2001, in the SiCE encoder 2101, two TTO boxes 2103 to 2104 among three TTO boxes 2103 to 2105 are connected to one TTO box 2106, and the other 1 TTO boxes 2105 bypass TTO box 2106. The SiCE encoder 2101 can process an input signal having a 14.0 channel structure at 48 kbps and 64 kbps.
SiCE 디코더(2102)는 1개의 USAC 디코더(2108), 4개의 OTT 박스(2109~2112)를 포함할 수 있다.The SiCE decoder 2102 may include one USAC decoder 2108 and four OTT boxes 2109-2112.
SiCE 인코더(2101)에서 생성된 1개 채널의 출력 신호는 SiCE 디코더(2102)에 입력될 수 있다. 그러면, SiCE 디코더(2102)의 USAC 디코더(2108)는 1개 채널의 입력 신호의 코어 대역을 디코딩하여 2개 채널의 출력 신호를 생성할 수 있다. 그러면, USAC 디코더(2108)로부터 생성된 2개 채널의 출력 신호들 중 1개 채널의 출력 신호는 OTT 박스(2109)에 입력되고, 나머지 1개 채널의 출력 신호는 OTT 박스(2109)를 바이패스하여 직접 OTT 박스(2112)에 입력된다.The output signal of one channel generated by the SiCE encoder 2101 may be input to the SiCE decoder 2102. The USAC decoder 2108 of the SiCE decoder 2102 may then decode the core band of the input signal of one channel to generate two output signals. Then, the output signal of one of the two channel output signals generated from the USAC decoder 2108 is input to the OTT box 2109, and the output signal of the other one channel bypasses the OTT box 2109. Directly into the OTT box 2112.
그러면, OTT 박스(2109)는 USAC 디코더(2108)로부터 전달된 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다. 그러면, OTT 박스(2109)로부터 생성된 2개 채널의 출력 신호들 중 1개 채널의 출력 신호는 OTT 박스(2110)에 입력되고, 나머지 1개 채널의 출력 신호는 OTT 박스(2111)에 입력될 수 있다. 이 후, OTT 박스(2110~2112)는 1개 채널의 입력 신호를 업믹싱하여 2개 채널의 출력 신호를 생성할 수 있다.The OTT box 2109 may then upmix the input signal of one channel delivered from the USAC decoder 2108 to generate two channels of output signal. Then, the output signal of one channel of the two channel output signals generated from the OTT box 2109 is input to the OTT box 2110, and the output signal of the other one channel is input to the OTT box 2111. Can be. Thereafter, the OTT boxes 2110 to 2112 may upmix the input signals of one channel to generate output signals of two channels.
이상에서 도 18 내지 도 21에서 설명한 FCE 구조, TCE 구조, ECE 구조, SiCE 구조의 인코더는 복수의 TTO 박스들을 이용하여 N채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 이 때, FCE 구조, TCE 구조, ECE 구조, SiCE 구조의 인코더에 포함된 USAC 인코더의 내부에도 TTO 박스가 1개 존재할 수 있다.The encoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure described above with reference to FIGS. 18 to 21 may generate an output signal of one channel from an N-channel input signal using a plurality of TTO boxes. In this case, one TTO box may exist inside the USAC encoder included in the FCE structure, the TCE structure, the ECE structure, and the SiCE encoder.
한편, ECE 구조, SiCE 구조의 인코더는 2개 계층의 TTO 박스로 구성될 수 있다. 또한, TCE 구조, SiCE 구조와 같이 입력 신호의 채널 개수가 홀수인 경우, TTO 박스를 바이패스하는 경우가 존재한다.Meanwhile, the encoder of the ECE structure and the SiCE structure may be configured of two layers of TTO boxes. In addition, when the number of channels of the input signal is odd, such as the TCE structure and the SiCE structure, the TTO box may be bypassed.
그리고, FCE 구조, TCE 구조, ECE 구조, SiCE 구조의 디코더는 복수의 OTT 박스들을 이용하여 1개 채널의 입력 신호로부터 N채널의 출력 신호를 생성할 수 있다. 이 때, FCE 구조, TCE 구조, ECE 구조, SiCE 구조의 디코더에 포함된 USAC 디코더의 내부에도 OTT 박스가 1개 존재할 수 있다.The decoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure may generate an N-channel output signal from an input signal of one channel using a plurality of OTT boxes. At this time, one OTT box may exist inside the USAC decoder included in the decoder of the FCE structure, the TCE structure, the ECE structure, and the SiCE structure.
한편, ECE 구조, SiCE 구조의 디코더는 2개 계층의 OTT 박스로 구성될 수 있다. 또한, TCE 구조, SiCE 구조와 같이 입력 신호의 채널 개수가 홀수인 경우, OTT 박스를 바이패스하는 경우가 존재한다.Meanwhile, the decoder of the ECE structure and the SiCE structure may be configured of two layers of OTT boxes. In addition, when the number of channels of the input signal is odd, such as the TCE structure and the SiCE structure, there is a case of bypassing the OTT box.
도 22는 일실시예에 따른 FCE 구조에 따라 24채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 22 illustrates a process of processing an audio signal of 24 channels according to an FCE structure according to an embodiment.
구체적으로, 도 22의 경우 22.2 채널 구조로서 128kbps와 96kbps에서 동작할 수 있다. 도 22를 참고하면, 24개 채널의 입력 신호가 6개의 FCE 인코더(2201)에 각각 4개 채널씩 입력될 수 있다. 그러면, 도 18에서 설명한 바와 같이, FCE 인코더(2201)는 4개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 도 22에 도시된 6개의 FCE 인코더(2201) 각각으로부터 출력된 1개 채널의 출력 신호를 비트스트림 포맷터를 통해 비트스트림 형태로 출력될 수 있다. 즉, 비트스트림은 6개의 출력 신호를 포함할 수 있다.In detail, FIG. 22 may operate at 128kbps and 96kbps as a 22.2 channel structure. Referring to FIG. 22, four channels of 24 input signals may be input to six FCE encoders 2201. Then, as described with reference to FIG. 18, the FCE encoder 2201 may generate one channel output signal from four channel input signals. Then, an output signal of one channel output from each of the six FCE encoders 2201 illustrated in FIG. 22 may be output in the form of a bitstream through the bitstream formatter. That is, the bitstream may include six output signals.
그런 후, 비트스트림 디포맷터는 비트스트림으로부터 6개의 출력 신호를 도출할 수 있다. 6개의 출력 신호는 6개의 FCE 디코더(2202)에 각각 입력될 수 있다. 그러면, 도 18에서 설명한 바와 같이, FCE 디코더(2202)는 1개 채널의 입력 신호로부터 4개 채널의 출력 신호를 생성할 수 있다. 6개의 FCE 디코더(2202)를 통해 총 24개 채널의 출력 신호가 생성될 수 있다.The bitstream deformatter can then derive six output signals from the bitstream. Six output signals may be input to each of six FCE decoders 2202. Then, as described with reference to FIG. 18, the FCE decoder 2202 may generate four channel output signals from one channel input signal. A total of 24 channels of output signals may be generated through six FCE decoders 2202.
도 23은 일실시예에 따른 ECE 구조에 따라 24채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 23 is a diagram illustrating a process of processing an audio signal of 24 channels according to an ECE structure according to an embodiment.
도 23은 도 22에서 설명한 22.2 채널 구조와 같이 24개 채널의 입력 신호가 입력되는 경우를 가정한다. 하지만, 도 23의 동작 모드는 도 22보다는 좀더 낮은 비트레이트인 48kbps, 64kbps에서 동작하는 것으로 가정한다.FIG. 23 assumes a case where an input signal of 24 channels is input as in the 22.2 channel structure described with reference to FIG. 22. However, it is assumed that the operation mode of FIG. 23 operates at 48 kbps and 64 kbps, which are lower bit rates than FIG. 22.
도 23을 참고하면, 24개 채널의 입력 신호가 3개의 ECE 인코더(2301)에 각각 8개 채널씩 입력될 수 있다. 그러면, 도 20에서 설명한 바와 같이, ECE 인코더(2301)는 8개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 도 23에 도시된 3개의 ECE 인코더(2301) 각각으로부터 출력된 1개 채널의 출력 신호를 비트스트림 포맷터를 통해 비트스트림 형태로 출력될 수 있다. 즉, 비트스트림은 3개의 출력 신호를 포함할 수 있다.Referring to FIG. 23, eight channels of input signals of 24 channels may be input to three ECE encoders 2301, respectively. Then, as described with reference to FIG. 20, the ECE encoder 2301 may generate an output signal of one channel from input signals of eight channels. Then, an output signal of one channel output from each of the three ECE encoders 2301 illustrated in FIG. 23 may be output in the form of a bitstream through the bitstream formatter. That is, the bitstream may include three output signals.
그런 후, 비트스트림 디포맷터는 비트스트림으로부터 3개의 출력 신호를 도출할 수 있다. 3개의 출력 신호는 3개의 ECE 디코더(2302)에 각각 입력될 수 있다. 그러면, 도 20에서 설명한 바와 같이, ECE 디코더(2302)는 1개 채널의 입력 신호로부터 8개 채널의 출력 신호를 생성할 수 있다. 3개의 FCE 디코더(2302)를 통해 총 24개 채널의 출력 신호가 생성될 수 있다.The bitstream deformatter can then derive three output signals from the bitstream. Three output signals may be input to three ECE decoders 2302, respectively. Then, as described with reference to FIG. 20, the ECE decoder 2302 may generate an output signal of eight channels from an input signal of one channel. A total of 24 channels of output signals may be generated through three FCE decoders 2302.
도 24는 일실시예에 따른 FCE 구조에 따라 14채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.24 is a diagram illustrating a process of processing an audio signal of 14 channels according to an FCE structure according to an embodiment.
도 24는 14개 채널의 입력 신호를 3개의 FCE 인코더(2401)와 1개의 CPE 인코더(2402)를 통해 4개 채널의 출력 신호를 생성하는 과정을 나타낸다. 이 때, 도 24는 128kbps, 96kbps와 같이 상대적으로 높은 비트레이트에서 동작하는 경우를 나타낸다.FIG. 24 illustrates a process of generating four channels of output signals through three FCE encoders 2401 and one CPE encoder 2402 with input signals of fourteen channels. At this time, FIG. 24 shows a case in which operation is performed at a relatively high bit rate such as 128 kbps or 96 kbps.
3개의 FCE 인코더(2401)는 각각 4개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그리고, 1개의 CPE 인코더(2402)는 2개 채널의 입력 신호를 다운믹스하여 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 비트스트림 포맷터는 3개의 FCE 인코더(2401)의 출력 결과와 1개의 CPE 인코더(2402)의 출력 결과로부터 4개의 출력 신호를 포함하는 비트스트림을 생성할 수 있다.Three FCE encoders 2401 may generate one channel of output signals from four channels of input signals, respectively. In addition, one CPE encoder 2402 may generate an output signal of one channel by downmixing an input signal of two channels. Then, the bitstream formatter may generate a bitstream including four output signals from the output results of three FCE encoders 2401 and the output results of one CPE encoder 2402.
한편, 비트스트림 디포맷터는 비트스트림으로부터 4개의 출력 신호를 추출한 후, 3개의 출력 신호는 3개의 FCE 디코더(2403)에 전달하고, 나머지 1개의 출력 신호는 1개의 CPE 디코더(2404)에 전달할 수 있다. 그러면, 3개의 FCE 디코더(2403)들 각각은 1개 채널의 입력 신호로부터 4개 채널의 출력 신호를 생성할 수 있다. 그리고, 1개의 CPE 디코더(2404)는 1개 채널의 입력 신호로부터 2개 채널의 출력 신호를 생성할 수 있다. 즉, 3개의 FCE 디코더(2403)과 1개의 CPE 디코더(2404)를 통해 총 14개의 출력 신호가 생성될 수 있다.On the other hand, the bitstream formatter extracts four output signals from the bitstream, and then the three output signals can be delivered to three FCE decoders 2403 and the other one output signal to one CPE decoder 2404. have. Then, each of the three FCE decoders 2403 may generate four channels of output signals from one channel of input signals. In addition, one CPE decoder 2404 may generate two channels of output signals from one channel of input signals. That is, a total of 14 output signals may be generated through three FCE decoders 2403 and one CPE decoder 2404.
도 25는 일실시예에 따른 ECE 구조와 SiCE 구조에 따라 14채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.25 is a diagram illustrating a process of processing an audio signal of 14 channels according to an ECE structure and a SiCE structure according to an embodiment.
도 25를 참고하면, 14개 채널의 입력 신호를 ECE 인코더(2501)와 SiCE 인코더(2502)가 처리하는 것을 나타낸다. 도 25는 도 24와 달리 상대적으로 낮은 비트레이트인 경우(ex. 48kbps, 96kbps)에 적용된다.Referring to FIG. 25, the ECE encoder 2501 and the SiCE encoder 2502 process 14 input signals. Unlike FIG. 24, FIG. 25 is applied to a relatively low bit rate (eg 48 kbps, 96 kbps).
ECE 인코더(2501)는 14개 채널의 입력 신호 중 8개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그리고, SiCE 인코더(2502)는 14개 채널의 입력 신호 중 6개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 비트스트림 포맷터는 ECE 인코더(2501)와 SiCE 인코더(2502)의 출력 결과는 2개의 출력 신호를 이용하여 비트스트림을 생성할 수 있다.The ECE encoder 2501 may generate an output signal of one channel from input signals of eight channels among the input signals of 14 channels. The SiCE encoder 2502 may generate an output signal of one channel from input signals of six channels among the input signals of 14 channels. The bitstream formatter may generate a bitstream using two output signals as an output result of the ECE encoder 2501 and the SiCE encoder 2502.
한편, 비트스트림 디포맷터는 비트스트림으로부터 2개의 출력 신호를 추출할 수 있다. 그러면, 2개의 출력 신호는 각각 ECE 디코더(2503)와 SiCE 디코더(2504)에 입력될 수 있다. ECE 디코더(2503)는 1개 채널의 입력 신호를 이용하여 8개 채널의 출력 신호를 생성하고, SiCE 디코더(2504)는 1개 채널의 입력 신호를 이용하여 6개 채널의 출력 신호를 생성할 수 있다. 즉, 각각 ECE 디코더(2503)와 SiCE 디코더(2504)를 통해 총 14개의 출력 신호가 생성될 수 있다.Meanwhile, the bitstream deformatter may extract two output signals from the bitstream. Then, two output signals may be input to the ECE decoder 2503 and the SiCE decoder 2504, respectively. The ECE decoder 2503 can generate eight channels of output signals using one channel of input signals, and the SiCE decoder 2504 can generate six channels of output signals using one channel of input signals. have. That is, a total of 14 output signals may be generated through the ECE decoder 2503 and the SiCE decoder 2504, respectively.
도 26은 일실시예에 따른 TCE 구조에 따라 11.1채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 26 illustrates a process of processing an 11.1 channel audio signal according to a TCE structure according to an embodiment.
도 26을 참고하면, 4개의 CPE 인코더(2601)와 1개의 TCE 인코더(2602)는 11.1 채널의 입력 신호로부터 5개 채널의 출력 신호를 생성할 수 있다. 도 26의 경우, 128kbps, 96kbps와 같이 상대적으로 높은 비트레이트에서 오디오 신호가 처리될 수 있다.Referring to FIG. 26, four CPE encoders 2601 and one TCE encoder 2602 may generate five channels of output signals from 11.1 channels of input signals. In the case of FIG. 26, an audio signal may be processed at a relatively high bit rate such as 128 kbps and 96 kbps.
4개의 CPE 인코더(2601) 각각은 2개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 한편, 1개의 TCE 인코더(2602)는 3개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 4개의 CPE 인코더(2601)와 1개의 TCE 인코더(2602)의 출력 결과는 비트스트림 포맷터에 입력되어 비트스트림으로 출력될 수 있다. 즉, 비트스트림은 5개 채널의 출력 신호를 포함할 수 있다.Each of the four CPE encoders 2601 may generate one channel of output signals from two channels of input signals. Meanwhile, one TCE encoder 2602 may generate one channel output signal from three channel input signals. The output results of the four CPE encoders 2601 and one TCE encoder 2602 may be input to a bitstream formatter and output as a bitstream. That is, the bitstream may include output signals of five channels.
한편, 비트스트림 디포맷터는 비트스트림으로부터 5개 채널의 출력 신호를 추출할 수 있다. 그러면, 5개의 출력 신호는 4개의 CPE 디코더(2603)와 1개의 TCE 디코더(2604)에 입력될 수 있다. 그러면, 4개의 CPE 디코더(2603)는 각각 1개 채널의 입력 신호로부터 2개 채널의 출력 신호를 생성할 수 있다. 한편, TCE 디코더(2604)는 1개 채널의 입력 신호로부터 3개 채널의 출력 신호를 생성할 수 있다. 그러면 최종적으로, 4개의 CPE 디코더(2603)와 1개의 TCE 디코더(2604)를 통해 11개 채널의 출력 신호가 출력될 수 있다.Meanwhile, the bitstream deformatter may extract five channels of output signals from the bitstream. Five output signals may then be input to four CPE decoders 2603 and one TCE decoder 2604. The four CPE decoders 2603 may then generate two channels of output signals from one channel of input signals, respectively. The TCE decoder 2604 may generate three channels of output signals from one channel of input signals. Finally, 11 channels of output signals may be output through four CPE decoders 2603 and one TCE decoder 2604.
도 27은 일실시예에 따른 FCE 구조에 따라 11.1채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.27 illustrates a process of processing an 11.1 channel audio signal according to an FCE structure according to an embodiment.
도 27은 도 26과 달리 상대적으로 낮은 비트레이트에서 동작할 수 있다(ex. 64kbps, 48kbps). 도 27을 참고하면, 3개의 FCE 인코더(2701)를 통해 12개 채널의 입력 신호로부터 3개 채널의 출력 신호를 생성할 수 있다. 구체적으로, 3개의 FCE 인코더(2701) 각각은 12개 채널의 입력 신호들 중 4개 채널의 입력 신호들로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 비트스트림 포맷터는 3개의 FCE 인코더(2701)로부터 출력된 3개 채널의 출력 신호를 이용하여 비트스트림을 생성할 수 있다.Unlike FIG. 26, FIG. 27 may operate at a relatively low bit rate (eg, 64kbps, 48kbps). Referring to FIG. 27, three FCE encoders 2701 may generate three channels of output signals from twelve channels of input signals. Specifically, each of the three FCE encoders 2701 may generate an output signal of one channel from input signals of four channels among the input signals of twelve channels. Then, the bitstream formatter may generate a bitstream using three channel output signals output from three FCE encoders 2701.
한편, 비트스트림 디포맷터는 비트스트림으로부터 3개 채널의 출력 신호를 출력할 수 있다. 그러면, 3개 채널의 출력 신호는 각각 3개의 FCE 디코더(2702)에 입력될 수 있다. 이 후, FCE 디코더(2702)는 1개 채널의 입력 신호를 이용하여 3개 채널의 출력 신호를 생성할 수 있다. 그러면, 3개의 FCE 디코더(2702)를 통해 12개 채널의 출력 신호가 생성될 수 있다.Meanwhile, the bitstream deformatter may output three channels of output signals from the bitstream. Then, output signals of three channels may be input to three FCE decoders 2702, respectively. Thereafter, the FCE decoder 2702 may generate an output signal of three channels by using an input signal of one channel. Then, output signals of 12 channels may be generated through three FCE decoders 2702.
도 28은 일실시예에 따른 TCE 구조에 따라 9.0채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.FIG. 28 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to a TCE structure according to an embodiment.
도 28을 참고하면, 9개 채널의 입력 신호를 처리하는 과정이 도시된다. 도 28은 상대적으로 높은 비트레이트(ex. 128kbps, 96kbps)에서 9개 채널의 입력 신호를 처리할 수 있다. 이 때, 3개의 CPE 인코더(2801)와 1개의 TCE 인코더(2802)에 기초하여 9개 채널의 입력 신호가 처리될 수 있다. 3개의 CPE 인코더(2801) 각각은 2개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 한편, 1개의 TCE 인코더(2802)는 3개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 총 4개 채널의 출력 신호가 비트스트림 포맷터에 입력되어 비트스트림으로 출력될 수 있다.Referring to FIG. 28, a process of processing input signals of nine channels is illustrated. 28 can process input signals of nine channels at relatively high bitrates (eg, 128 kbps, 96 kbps). At this time, nine channels of input signals may be processed based on three CPE encoders 2801 and one TCE encoder 2802. Each of the three CPE encoders 2801 may generate one channel of output signals from two channels of input signals. Meanwhile, one TCE encoder 2802 may generate one channel output signal from three channel input signals. Then, a total of four channels of output signals can be input to the bitstream formatter and output as a bitstream.
비트스트림 디포맷터는 비트스트림에 포함된 4개 채널의 출력 신호를 추출할 수 있다. 그러면, 4개 채널의 출력 신호는 3개의 CPE 디코더(2803)와 1개의 TCE 디코더(2804)에 입력될 수 있다. 3개의 CPE 디코더(2803) 각각은 1개 채널의 입력 신호로부터 2개 채널의 출력 신호를 생성할 수 있다. 한편, 1개의 TCE 디코더(2804)는 1개 채널의 입력 신호로부터 3개 채널의 출력 신호를 생성할 수 있다. 그러면, 총 9개 채널의 출력 신호가 생성될 수 있다.The bitstream deformatter may extract output signals of four channels included in the bitstream. Then, four channels of output signals may be input to three CPE decoders 2803 and one TCE decoder 2804. Each of the three CPE decoders 2803 may generate two channels of output signals from one channel of input signals. Meanwhile, one TCE decoder 2804 may generate three channel output signals from one channel input signal. A total of nine channels of output signals can then be generated.
도 29는 일실시예에 따른 FCE 구조에 따라 9.0채널의 오디오 신호를 처리하는 과정을 도시한 도면이다.29 is a diagram illustrating a process of processing an audio signal of 9.0 channels according to an FCE structure according to an embodiment.
도 29를 참고하면, 9개 채널의 입력 신호를 처리하는 과정이 도시된다. 도 29는 상대적으로 낮은 비트레이트(64kbps, 48kbps)에서 9개 채널의 입력 신호를 처리할 수 있다. 이 때, 2개의 FCE 인코더(2901)와 1개의 SCE 인코더(2902)에 기초하여 9개 채널의 입력 신호가 처리될 수 있다. 2개의 FCE 인코더(2901) 각각은 4개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 한편, 1개의 SCE 인코더(2902)는 1개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 총 3개 채널의 출력 신호가 비트스트림 포맷터에 입력되어 비트스트림으로 출력될 수 있다.Referring to FIG. 29, a process of processing input signals of nine channels is illustrated. 29 can process nine channels of input signals at relatively low bitrates (64 kbps, 48 kbps). In this case, nine channels of input signals may be processed based on two FCE encoders 2901 and one SCE encoder 2902. Each of the two FCE encoders 2901 may generate one channel of output signal from four channels of input signal. Meanwhile, one SCE encoder 2902 may generate an output signal of one channel from an input signal of one channel. Then, a total of three channels of output signals may be input to the bitstream formatter and output in the bitstream.
비트스트림 디포맷터는 비트스트림에 포함된 3개 채널의 출력 신호를 추출할 수 있다. 그러면, 3개 채널의 출력 신호는 2개의 FCE 디코더(2903)와 1개의 SCE 디코더(2904)에 입력될 수 있다. 2개의 FCE 디코더(2903) 각각은 1개 채널의 입력 신호로부터 4개 채널의 출력 신호를 생성할 수 있다. 한편, 1개의 SCE 디코더(2904)는 1개 채널의 입력 신호로부터 1개 채널의 출력 신호를 생성할 수 있다. 그러면, 총 9개 채널의 출력 신호가 생성될 수 있다.The bitstream deformatter may extract output signals of three channels included in the bitstream. Then, output signals of three channels may be input to two FCE decoders 2903 and one SCE decoder 2904. Each of the two FCE decoders 2903 may generate four channels of output signals from one channel of input signals. Meanwhile, one SCE decoder 2904 may generate one channel output signal from one channel input signal. A total of nine channels of output signals can then be generated.
이하의 표 12 공간적인 코딩(spatial coding)이 수행될 때 입력 신호의 채널 개수에 따른 파라미터 셋트의 구성을 나타낸다. 여기서, bsFreqRes는 USAC 인코더의 개수와 동일한 분석 밴드(analysis 밴드)의 개수를 의미한다.Table 12 below shows a configuration of a parameter set according to the number of channels of an input signal when spatial coding is performed. Here, bsFreqRes means the number of analysis bands equal to the number of USAC encoders.
Figure PCTKR2015006788-appb-T000010
Figure PCTKR2015006788-appb-T000010
USAC 인코더는 입력 신호의 코어 대역을 인코딩할 수 있다. USAC 인코더는 채널 엘리먼트(CPEs, SCEs)와 오브젝트들과 렌더링된 채널 신호들 간의 관계 정보를 나타내는 메타데이터에 기초한 채널과 오브젝트 간 매핑 정보를 이용하여 입력 신호의 개수에 따라 복수의 인코더를 제어할 수 있다. 아래 표 13은 USAC 인코더에서 사용되는 비트레이트와 샘플링 레이트를 나타낸다. 표 13의 샘플링 레이트에 따라 SBR(spectral band replication)의 인코딩 파라미터가 적절하게 조절될 수 있다.The USAC encoder can encode the core band of the input signal. The USAC encoder can control the plurality of encoders according to the number of input signals by using channel-to-object mapping information based on metadata representing relationship information between channel elements (CPEs and SCEs) and objects and rendered channel signals. have. Table 13 below shows the bit rate and sampling rate used in the USAC encoder. According to the sampling rate of Table 13, encoding parameters of spectral band replication (SBR) may be appropriately adjusted.
Figure PCTKR2015006788-appb-T000011
Figure PCTKR2015006788-appb-T000011
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

Claims (20)

  1. N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계;Identifying a downmix signal and a residual signal of the N / 2 channel generated from the N-channel input signal;
    상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계;Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix;
    상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계;Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making;
    상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계;Outputting uncorrelated signals from a first signal through the N / 2 decorrelators;
    상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및Applying the uncorrelated signal and the second signal to a second matrix; And
    상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계Generating an N-channel output signal through the second matrix
    를 포함하는 다채널 오디오 신호 처리 방법.Multi-channel audio signal processing method comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응하는 다채널 오디오 신호 처리 방법.And when the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators corresponding to the N / 2 OTT boxes.
  3. 제1항에 있어서,The method of claim 1,
    상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용되는 다채널 오디오 신호 처리 방법.If the number of the decorrelator exceeds the reference value of the modulo operation, the index of the decorrelator is repeatedly reused according to the reference value.
  4. 제1항에 있어서,The method of claim 1,
    상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고,When the LFE channel is included in the output signal of the N channel, the decorrelator uses the remaining number other than the number of LFE channels in N / 2,
    상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않는 다채널 오디오 신호 처리 방법.The LFE channel, the multi-channel audio signal processing method does not use the decorator of the OTT box.
  5. 제1항에 있어서,The method of claim 1,
    시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는,If no temporal shaping tool is used, the second matrix is
    상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력되는 다채널 오디오 신호 처리 방법.And a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator, is input.
  6. 제1항에 있어서,The method of claim 1,
    시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는,When a temporal shaping tool is used, the second matrix is
    상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력되는 다채널 오디오 신호 처리 방법.And a vector corresponding to a direct signal composed of the second signal and the residual signal derived from the decorrelator, and a vector corresponding to a spread signal composed of the uncorrelated signal derived from the decorrelator.
  7. 제6항에 있어서,The method of claim 6,
    상기 N채널의 출력 신호를 생성하는 단계는,Generating the output signal of the N channel,
    서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑하는 다채널 오디오 신호 처리 방법.When subband domain time processing (STP) is used, a multi-channel audio signal processing method for shaping the temporal envelope of an output signal by applying a scale factor based on a spread signal and a direct signal to the spread signal portion of the output signal.
  8. 제6항에 있어서,The method of claim 6,
    상기 N채널의 출력 신호를 생성하는 단계는,Generating the output signal of the N channel,
    가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑하는 다채널 오디오 신호 처리 방법.When guided envelope shaping (GES) is used, the method of processing multi-channel audio signals by flattening and reshaping the envelope for the direct signal portion for each channel of the output signal of the N channel.
  9. 제1항에 있어서,The method of claim 1,
    상기 제1 매트릭스의 크기는,The size of the first matrix is
    상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고,It is determined according to the number of channels and the number of decorrelators of the downmix signal applying the first matrix,
    상기 제1 매트릭스의 엘리먼트는,The element of the first matrix,
    CLD 파라미터 또는 CPC 파라미터에 의해 결정되는 다채널 오디오 신호 처리 방법.A multichannel audio signal processing method determined by a CLD parameter or a CPC parameter.
  10. N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계;Identifying a downmix signal of the N / 2 channel and a residual signal of the N / 2 channel;
    N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal into the N / 2 OTT boxes to generate an N channel output signal
    를 포함하고,Including,
    상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며,The N / 2 OTT boxes are arranged in parallel without being connected to each other.
    상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는,OTT box for outputting the LFE channel of the N / 2 OTT box,
    (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고,(1) Receive only downmix signal except residual signal,
    (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며,(2) Use the CLD parameter among the CLD parameter and the ICC parameter,
    (3) 비상관기를 통해 비상관된 신호를 출력하지 않는 다채널 오디오 신호 처리 방법.(3) A multi-channel audio signal processing method that does not output uncorrelated signals through decorrelators.
  11. 다채널 오디오 신호 처리 장치에 있어서,In the multi-channel audio signal processing apparatus,
    다채널 오디오 신호 처리 방법을 수행하는 프로세서를 포함하고,A processor for performing a multi-channel audio signal processing method,
    상기 다채널 오디오 신호 처리 방법은,The multi-channel audio signal processing method,
    N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계;Identifying a downmix signal and a residual signal of the N / 2 channel generated from the N-channel input signal;
    상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계;Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix;
    상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계;Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making;
    상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계;Outputting uncorrelated signals from a first signal through the N / 2 decorrelators;
    상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및Applying the uncorrelated signal and the second signal to a second matrix; And
    상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계Generating an N-channel output signal through the second matrix
    를 포함하는 다채널 오디오 신호 처리 장치.Multi-channel audio signal processing apparatus comprising a.
  12. 제11항에 있어서,The method of claim 11,
    상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응하는 다채널 다채널 오디오 신호 처리 장치.The multi-channel multi-channel audio signal processing apparatus corresponding to the N / 2 decorrelator corresponding to the N / 2 OTT boxes, if the LFE channel is not included in the output signal of the N channel.
  13. 제11항에 있어서,The method of claim 11,
    상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용되는 다채널 오디오 신호 처리 장치.And the index of the decorrelator is repeatedly reused according to the reference value when the number of decorrelators exceeds a reference value of a modulo operation.
  14. 제11항에 있어서,The method of claim 11,
    상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고,When the LFE channel is included in the output signal of the N channel, the decorrelator uses the remaining number other than the number of LFE channels in N / 2,
    상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않는 다채널 오디오 신호 처리 장치.The LFE channel is a multi-channel audio signal processing apparatus that does not use the decorrelator of the OTT box.
  15. 제11항에 있어서,The method of claim 11,
    시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는,If no temporal shaping tool is used, the second matrix is
    상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력되는 다채널 오디오 신호 처리 장치.And a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator, is input.
  16. 제11항에 있어서,The method of claim 11,
    시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는,When a temporal shaping tool is used, the second matrix is
    상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력되는 다채널 오디오 신호 처리 장치.And a vector corresponding to a direct signal composed of the second signal and the residual signal derived from the decorrelator, and a vector corresponding to a spread signal composed of the uncorrelated signal derived from the decorrelator.
  17. 제16항에 있어서,The method of claim 16,
    상기 N채널의 출력 신호를 생성하는 단계는,Generating the output signal of the N channel,
    서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑하는 다채널 오디오 신호 처리 장치.A multi-channel audio signal processing apparatus, when subband domain time processing (STP) is used, shaping the temporal envelope of the output signal by applying a scale factor based on the spread signal and the direct signal to the spread signal portion of the output signal.
  18. 제16항에 있어서,The method of claim 16,
    상기 N채널의 출력 신호를 생성하는 단계는,Generating the output signal of the N channel,
    가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑하는 다채널 오디오 신호 처리 장치.When guided envelope shaping (GES) is used, the multi-channel audio signal processing apparatus for flattening and reshaping the envelope for the direct signal portion for each channel of the N-channel output signal.
  19. 제11항에 있어서,The method of claim 11,
    상기 제1 매트릭스의 크기는,The size of the first matrix is
    상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고,It is determined according to the number of channels and the number of decorrelators of the downmix signal applying the first matrix,
    상기 제1 매트릭스의 엘리먼트는,The element of the first matrix,
    CLD 파라미터 또는 CPC 파라미터에 의해 결정되는 다채널 오디오 신호 처리 장치.A multi-channel audio signal processing apparatus determined by a CLD parameter or a CPC parameter.
  20. 다채널 오디오 신호 처리 장치에 있어서,In the multi-channel audio signal processing apparatus,
    다채널 오디오 신호 처리 방법을 수행하는 프로세서를 포함하고,A processor for performing a multi-channel audio signal processing method,
    상기 다채널 오디오 신호 처리 방법은,The multi-channel audio signal processing method,
    N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계;Identifying a downmix signal of the N / 2 channel and a residual signal of the N / 2 channel;
    N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal into the N / 2 OTT boxes to generate an N channel output signal
    를 포함하고,Including,
    상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며,The N / 2 OTT boxes are arranged in parallel without being connected to each other.
    상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는,OTT box for outputting the LFE channel of the N / 2 OTT box,
    (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고,(1) Receive only downmix signal except residual signal,
    (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며,(2) Use the CLD parameter among the CLD parameter and the ICC parameter,
    (3) 비상관기를 통해 비상관된 신호를 출력하지 않는 다채널 오디오 신호 처리 장치.(3) A multi-channel audio signal processing device that does not output uncorrelated signals through decorrelators.
PCT/KR2015/006788 2014-07-01 2015-07-01 Multichannel audio signal processing method and device WO2016003206A1 (en)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201911107595.XA CN110992964B (en) 2014-07-01 2015-07-01 Method and apparatus for processing multi-channel audio signal
DE112015003108.1T DE112015003108B4 (en) 2014-07-01 2015-07-01 Method and device for processing a multi-channel audio signal
CN201911107604.5A CN110895943B (en) 2014-07-01 2015-07-01 Method and apparatus for processing multi-channel audio signal
CN201911108867.8A CN110970041B (en) 2014-07-01 2015-07-01 Method and apparatus for processing multi-channel audio signal
US15/323,028 US9883308B2 (en) 2014-07-01 2015-07-01 Multichannel audio signal processing method and device
CN201580036477.8A CN106471575B (en) 2014-07-01 2015-07-01 Multi-channel audio signal processing method and device
US15/870,700 US10264381B2 (en) 2014-07-01 2018-01-12 Multichannel audio signal processing method and device
US16/357,180 US10645515B2 (en) 2014-07-01 2019-03-18 Multichannel audio signal processing method and device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20140082030 2014-07-01
KR10-2014-0082030 2014-07-01
KR1020150094195A KR102144332B1 (en) 2014-07-01 2015-07-01 Method and apparatus for processing multi-channel audio signal
KR10-2015-0094195 2015-07-01

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/323,028 A-371-Of-International US9883308B2 (en) 2014-07-01 2015-07-01 Multichannel audio signal processing method and device
US15/870,700 Continuation US10264381B2 (en) 2014-07-01 2018-01-12 Multichannel audio signal processing method and device

Publications (1)

Publication Number Publication Date
WO2016003206A1 true WO2016003206A1 (en) 2016-01-07

Family

ID=55019650

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/006788 WO2016003206A1 (en) 2014-07-01 2015-07-01 Multichannel audio signal processing method and device

Country Status (1)

Country Link
WO (1) WO2016003206A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10645515B2 (en) 2014-07-01 2020-05-05 Electronics And Telecommunications Research Institute Multichannel audio signal processing method and device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050195981A1 (en) * 2004-03-04 2005-09-08 Christof Faller Frequency-based coding of channels in parametric multi-channel coding systems
WO2007078254A2 (en) * 2006-01-05 2007-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Personalized decoding of multi-channel surround sound
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
WO2010050740A2 (en) * 2008-10-30 2010-05-06 삼성전자주식회사 Apparatus and method for encoding/decoding multichannel signal
KR20120099191A (en) * 2006-01-11 2012-09-07 삼성전자주식회사 Method of generating a multi-channel signal from down-mixed signal and computer-readable medium thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050195981A1 (en) * 2004-03-04 2005-09-08 Christof Faller Frequency-based coding of channels in parametric multi-channel coding systems
WO2007078254A2 (en) * 2006-01-05 2007-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Personalized decoding of multi-channel surround sound
KR20120099191A (en) * 2006-01-11 2012-09-07 삼성전자주식회사 Method of generating a multi-channel signal from down-mixed signal and computer-readable medium thereof
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
WO2010050740A2 (en) * 2008-10-30 2010-05-06 삼성전자주식회사 Apparatus and method for encoding/decoding multichannel signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10645515B2 (en) 2014-07-01 2020-05-05 Electronics And Telecommunications Research Institute Multichannel audio signal processing method and device

Similar Documents

Publication Publication Date Title
WO2010107269A2 (en) Apparatus and method for encoding/decoding a multichannel signal
WO2016024847A1 (en) Method and device for generating and playing back audio signal
WO2014137159A1 (en) Method and apparatus for applying secondary transforms on enhancement-layer residuals
WO2010087614A2 (en) Method for encoding and decoding an audio signal and apparatus for same
WO2012091464A4 (en) Apparatus and method for encoding/decoding for high-frequency bandwidth extension
WO2012144878A2 (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2015199508A1 (en) Method and device for rendering acoustic signal, and computer-readable recording medium
WO2010147436A2 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
WO2013183977A4 (en) Method and apparatus for concealing frame error and method and apparatus for audio decoding
WO2009157715A2 (en) Codebook design method for multiple input multiple output system and method for using the codebook
WO2012144877A2 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
WO2010062123A2 (en) Unified speech/audio codec (usac) processing windows sequence based mode switching
WO2009131376A2 (en) Multiple antenna communication system including adaptive updating and changing of codebooks
WO2020013514A1 (en) Method and apparatus for processing video signal
WO2016018058A1 (en) Signal encoding method and apparatus and signal decoding method and apparatus
AU2012246798A1 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
WO2016195455A1 (en) Method and device for processing video signal by using graph-based transform
WO2020242260A1 (en) Method and device for machine learning-based image compression using global context
WO2018139884A1 (en) Method for processing vr audio and corresponding equipment
WO2022158943A1 (en) Apparatus and method for processing multichannel audio signal
WO2016204581A1 (en) Method and device for processing internal channels for low complexity format conversion
WO2020032632A1 (en) Image encoding/decoding method and device therefor
EP3868097A1 (en) Artificial intelligence (ai) encoding device and operating method thereof and ai decoding device and operating method thereof
WO2009116815A2 (en) Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
WO2016204579A1 (en) Method and device for processing internal channels for low complexity format conversion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15815538

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15323028

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112015003108

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15815538

Country of ref document: EP

Kind code of ref document: A1