WO2016133366A1 - Multichannel signal processing method, and multichannel signal processing apparatus for performing same - Google Patents

Multichannel signal processing method, and multichannel signal processing apparatus for performing same Download PDF

Info

Publication number
WO2016133366A1
WO2016133366A1 PCT/KR2016/001613 KR2016001613W WO2016133366A1 WO 2016133366 A1 WO2016133366 A1 WO 2016133366A1 KR 2016001613 W KR2016001613 W KR 2016001613W WO 2016133366 A1 WO2016133366 A1 WO 2016133366A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
signal
downmix
output signal
decorrelator
Prior art date
Application number
PCT/KR2016/001613
Other languages
French (fr)
Korean (ko)
Inventor
백승권
서정일
성종모
이태진
장대영
최진수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US15/551,734 priority Critical patent/US10225675B2/en
Priority claimed from KR1020160018462A external-priority patent/KR20160101692A/en
Publication of WO2016133366A1 publication Critical patent/WO2016133366A1/en
Priority to US16/290,469 priority patent/US10638243B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Definitions

  • the present invention relates to a multi-channel signal processing method and a multi-channel signal processing apparatus for performing the method, and more particularly to a method and apparatus that can be compressed without deterioration of sound quality even if the number of channels of the multi-channel signal increases.
  • MPS MPEG Surround
  • MPS is a codec for coding multichannel signals such as 5.1 channel and 7.1 channel.
  • MPS multi-channel signals can be compressed and transmitted at a high compression rate.
  • the encoding / decoding process has a limitation of backward compatibility.
  • the bitstream of the multi-channel signal generated through the MPS is required to be backward compatible to be reproduced in mono or stereo format through the existing codec.
  • the decoder may then recover the multi-channel signal from the bitstream using the additional information received from the encoder. In this case, the decoder may restore the multi-channel signal with additional information for upmixing.
  • the present invention provides a method and apparatus for processing a multichannel signal through an N-N / 2-N structure.
  • Multi-channel signal processing method comprises the steps of identifying the downmix signal of the N / 2 channel derived from the input signal of the N channel; And generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes, wherein the number of the plurality of OTT boxes includes no LFE channel in the output signal.
  • the number of channels of the downmix signal may be equal to N / 2.
  • Each of the plurality of OTT boxes may generate an output signal of two channels using an uncorrelated signal generated from a decorrelator corresponding to each of the plurality of OTT boxes and a downmix signal of one channel. .
  • the decorrelator When the number N of channels of the output signal exceeds a preset channel number M, the decorrelator includes a first decorrelator corresponding to a channel of M or less and a second decorrelator corresponding to more than M channels; The second decorrelator may reuse a filter set of the first decorrelator.
  • An OTT box whose output is an LFE channel among the plurality of OTT boxes may generate two channels of downmix signals without using an uncorrelated signal.
  • Each of the plurality of OTT boxes may generate two channel output signals using the residual signal and one channel downmix signal instead of the uncorrelated signal when the transmitted residual signal exists.
  • the generating of the N-channel output signal may include generating an N-channel output signal using a pre decorrelator matrix M1 and a mix matrix M2.
  • Each of the plurality of OTT boxes may generate an output signal of N channels using a channel level difference (CLD).
  • CLD channel level difference
  • the number N of channels of the output signal may be an even number from 10 to 32.
  • a method of processing a multichannel signal including: decoding a downmix signal of an N / 2 channel encoded according to a first coding scheme; And generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme, wherein the second coding scheme, when the output signal does not include an LFE channel,
  • One number of one-to-two (OTT) boxes equal to N / 2, which is the number of channels of the downmix signal, may be used.
  • the multi-channel signal processing apparatus includes a process for executing a multi-channel signal processing method, wherein the process identifies a downmix signal of the N / 2 channel derived from the input signal of the N channel and And generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes, wherein the number of the plurality of OTT boxes is equal to the downmix when the LFE channel is not present in the output signal. It may be equal to N / 2 which is the number of channels of the signal.
  • Each of the plurality of OTT boxes may generate an output signal of two channels using an uncorrelated signal generated from a decorrelator corresponding to each of the plurality of OTT boxes and a downmix signal of one channel. .
  • the decorrelator When the number N of channels of the output signal exceeds a preset channel number M, the decorrelator includes a first decorrelator corresponding to a channel of M or less and a second decorrelator corresponding to more than M channels; The second decorrelator may reuse a filter set of the first decorrelator.
  • An OTT box whose output is an LFE channel among the plurality of OTT boxes may generate two channels of downmix signals without using an uncorrelated signal.
  • Each of the plurality of OTT boxes may generate two channel output signals using the residual signal and one channel downmix signal instead of the uncorrelated signal when the transmitted residual signal exists.
  • the process may generate an output signal of the N channel using a pre decorrelator matrix M1 and a mix matrix M2.
  • Each of the plurality of OTT boxes may generate an output signal of N channels using a channel level difference (CLD).
  • CLD channel level difference
  • the number N of channels of the output signal may be an even number from 10 to 32.
  • the multi-channel signal processing apparatus includes a process for executing a multi-channel signal processing method, wherein the process decodes the downmix signal of the N / 2 channel encoded according to the first coding scheme and And generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme, wherein the second coding scheme, when the output signal does not include an LFE channel,
  • One number of one-to-two (OTT) boxes equal to the number of channels N / 2 may be used.
  • FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
  • FIG. 2 is a diagram illustrating detailed components of an encoding apparatus according to an embodiment.
  • FIG. 3 is a diagram illustrating detailed components of an encoding apparatus according to another embodiment.
  • FIG. 4 is a diagram for describing an operation of a first encoding unit, according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating detailed components of a decoding apparatus according to an embodiment.
  • FIG. 6 is a diagram illustrating detailed components of a decoding apparatus according to another exemplary embodiment.
  • FIG. 7 is a diagram for describing an operation of a second decoding unit, according to an exemplary embodiment.
  • FIG. 8 is a diagram illustrating a spatial audio processing procedure for an N-N / 2-N structure according to an embodiment.
  • FIG. 9 illustrates a tree structure for performing spatial audio processing for the N-N / 2-N structure according to an embodiment.
  • FIG. 10 illustrates a process of generating an output signal of 24 channels from a 12-channel downmix according to an embodiment.
  • FIG. 11 illustrates an OTT box of the process of FIG. 10, according to an exemplary embodiment.
  • FIG. 12 illustrates a process of FIG. 11 according to an MPS standard according to an embodiment.
  • an N / 2 channel downmix signal is generated from an N channel input signal through an MPS encoder, and an N / 2 output signal is generated using an N / 2 channel downmix signal through an MPS decoder.
  • the N / 2 channel represents more channels than the number of channels defined in the existing MPS standard.
  • the MPS decoder according to an embodiment of the present invention may satisfy the extended MPS standard for the MPEG-H 3D AUDIO standard.
  • the encoding apparatus and the decoding apparatus correspond to the multichannel signal processing apparatus.
  • FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
  • the encoding apparatus 100 may generate an N / 2 channel downmix signal by downmixing an N channel input signal. Then, the decoding apparatus 101 may generate an output signal of the N channel by using the downmix signal of the N / 2 channel.
  • N may be 10 or more.
  • FIG. 2 is a diagram illustrating detailed components of an encoding apparatus according to an embodiment.
  • the encoding apparatus may include a first encoding unit 201, a sampling rate converter 202, and a second encoding unit 203.
  • the first encoding unit 201 is defined as an MPS encoder.
  • the second encoding unit 203 is defined as a USAC (Unified Speech and Audio Codec) encoder. That is, an N / 2 channel downmix signal may be generated by downmixing an input signal of N channels.
  • the sampling rate converter 202 may convert the sampling rate for the downmix signal of the N / 2 channel.
  • the sampling rate converter 202 may downsample the bit rate based on the bitrate allocated to the USAC encoder, which is the second encoder 203. If a sufficiently high bitrate is allocated to the USAC encoder, which is the second encoding unit 203, the sampling rate converter 202 may be bypassed.
  • the second encoding unit 203 may encode the core band of the downmix signal of the N / 2 channel whose sampling rate is converted. Then, the downmix signal of the N / 2 channel encoded through the second encoder 203 may be generated.
  • the encoded downmix signal of the N / 2 channel may be a signal of the M channel (M is equal to or smaller than N / 2).
  • M is equal to or smaller than N / 2.
  • the core band means a low frequency band in which the frequency band is not extended.
  • the number of channels of the downmix signal output through the MPS encoder corresponding to the first encoding unit 201 is limited to one channel, two channels, and 5.1 channels.
  • the first encoding unit 201 may exceed the number of channels of the downmix signal defined in the MPS standard. That is, the first encoding unit 201 may generate an N / 2 channel downmix signal by downmixing an input signal of N channels.
  • the N / 2 channel may be 1, 2, 5.1, or 5.1 or more.
  • FIG. 3 is a diagram illustrating detailed components of an encoding apparatus according to another embodiment.
  • FIG. 3 is the same as the component described in FIG. 2, but shows an embodiment in which the order is changed.
  • FIG. 2 illustrates an embodiment in which a sampling rate converter 202 exists between the first encoder 201 and the second encoder 203.
  • FIG. 3 illustrates an embodiment in which the first encoding unit 302 and the second encoding unit 303 are disposed after the sampling rate converter 301.
  • FIG. 4 is a diagram for describing an operation of a first encoding unit, according to an exemplary embodiment.
  • the first encoding unit 401 may include a plurality of TTO boxes 402.
  • each of the plurality of TTO boxes 402 may downmix two input signals and output one downmix signal. That is, the first encoder 401 may include N / 2 TTO boxes 402 to downmix the input signals of the N channels input as shown in FIG. 4 to generate the downmix signals of the N / 2 channels. Can be.
  • the downmix signal generated by the first encoder 401 may be one channel, two channels, or 5.1 channels.
  • the first encoding unit 401 may generate an N / 2 channel downmix signal from the N channel input signal according to the MPS.
  • the N / 2 channel may be a channel of 5.1 channels or more as well as 1 channel, 2 channels or 5.1 channels.
  • the first encoding unit 401 needs to consider an additional syntax to control the MPS.
  • the first encoding unit 401 may define an additional syntax for controlling the MPS by using a coding mode using an arbitrary tree.
  • FIG. 5 is a diagram illustrating detailed components of a decoding apparatus according to an embodiment.
  • the decoding apparatus may include a first decoding unit 501, a sampling rate converter 502, and a second decoding unit 503.
  • the first decoding unit 501 may reconstruct the downmix signal of the N / 2 channel by decoding the encoded downmix signal of the N / 2 channel.
  • the first decoding unit 501 may be defined as a USAC decoder.
  • the sampling rate converter 502 may convert the sampling rate of the downmix signal of the N / 2 channel. In this case, the sampling rate converter 502 may convert the sampling rate of the audio signal converted by the encoding apparatus to the original sampling rate. In other words, when the sampling rate conversion is performed in FIG. 2 or FIG. 3, the sampling rate conversion unit 502 operates. If the sampling rate conversion is not performed in FIG. 2 or FIG. 3, the sampling rate conversion unit 502 may be bypassed without operation.
  • the second decoding unit 503 may generate an N-channel output signal by upmixing the N / 2 channel downmix signal output from the sampling rate converter 502.
  • the downmix signal input to the conventional MPS decoder is limited to one channel, two channels, and 5.1 channels.
  • the downmix signal input to the second decoding unit 503 may be extended to N / 2 channels as well as 1 channel, 2 channels, and 5.1 channels.
  • the second decoding unit 503 may generate the N-channel output signal by upmixing the N / 2 channel downmix signal.
  • N since the N / 2 channel downmix signal input to the second decoding unit 503 means at least 5.1 channel or more, N may be 10.2 or more channels.
  • FIG. 6 is a diagram illustrating detailed components of a decoding apparatus according to another exemplary embodiment.
  • FIG. 6 may process an audio signal in the order of the first decoding unit 601, the second decoding unit 602, and the sampling rate converter 603.
  • the first decoding unit 601 may restore the downmix signal of the N / 2 channel.
  • the second decoding unit 602 may generate the output signal of the N channel by upmixing the downmix signal of the N / 2 channel.
  • the sampling rate converter 603 may convert the sampling rate of the output signal of the N channel generated through the second decoder 602.
  • FIG. 7 is a diagram for describing an operation of a second decoding unit, according to an exemplary embodiment.
  • the second decoding unit 701 described with reference to FIGS. 5 and 6 may generate an output signal of the N channel by upmixing the downmix signal of the N / 2 channel.
  • the second decoding unit 701 may include a plurality of OTT boxes 702.
  • the OTT box 702 may generate two channels of output signals in stereo form by upmixing one channel of downmix signals.
  • the second decoding unit 701 generates N / 2 OTT boxes 702 in order for the second decoding unit 701 to upmix the N / 2 channel downmix signal to generate the N channel output signal. It may include.
  • the number of channels of the downmix signal input to the second decoding unit 701 and processed may be one channel, two channels, or 5.1 channels.
  • the second decoding unit 701 may generate an output signal of the N channel according to the MPS from the downmix signal of the N / 2 channel.
  • N may be 10.2 or more.
  • the second decoding unit 701 needs to consider additional syntax to control the MPS.
  • the second decoding unit 701 may define an additional syntax for controlling the MPS by using a coding mode using an arbitrary tree.
  • the MPS decoder illustrated in FIGS. 8 to 12 is related to the second decoding unit 503 of FIG. 5 and the second decoding unit 602 of FIG. 6.
  • FIG. 8 illustrates a process of processing a multichannel signal according to an N-N / 2-N configuration.
  • FIG. 8 shows an N-N / 2-N structure in which the structure defined in MPEG SURROUND is changed.
  • MPEG SURROUND spatial synthesis may be performed in a decoder as shown in Table 1. Spatial synthesis can transform the input signals from the time domain into a non-uniform subband domain through a hybrid Quadrature Mirror Filter (QMF) analysis bank.
  • QMF Quadrature Mirror Filter
  • the decoder then operates in the hybrid subband.
  • the decoder may generate an output signal from the input signals by performing spatial synthesis based on the spatial parameters passed by the encoder.
  • the decoder can then use the hybrid QMF synthesis bank to inverse the output signals from the hybrid subband to the time domain.
  • MPEG SURROUND defines a 5-1-5 structure, a 5-2-5 structure, a 7-2-7 structure, and a 7-5-7 structure, but the present invention proposes an N-N / 2-N structure.
  • the decoder may generate the N-channel output signal by upmixing the N / 2 channel downmix signal.
  • the number of N channels in the N-N / 2-N structure of the present invention is not limited. That is, the N-N / 2-N structure may support not only a channel structure supported by the MPS but also a channel structure of a multichannel signal not supported by the MPS.
  • N / 2 means the number of channels of the downmix signal derived through the MPS.
  • NumInCh means the number of channels of the downmix signal
  • NumOutCh means the number of channels of the output signal.
  • NumInCh which is the number of channels of the downmix signal, is N / 2.
  • NumInCh is N / 2 and NumOutCh is N.
  • the downmix signals X 0 to X NumInch ⁇ 1 and the residual signals res of the N / 2 channels form an input vector X.
  • NumInCh is N / 2
  • X 0 to X NumInCh ⁇ 1 represent downmix signals of N / 2 channels.
  • N the number of one-to-two (OTT) boxes is N / 2
  • N the number of channels of the output signal, must be even to process the downmix signal of the N / 2 channel.
  • N may be from 10 to 32.
  • the decorrelators, uncorrelated signals, and residual signals labeled from 1 to M correspond to different OTT boxes.
  • the reconstruction process for the multi-channel signal to which the N-N / 2-N structure is applied can be visualized in a tree structure.
  • the input vector X to be multiplied by means a vector including the downmix signal of the N / 2 channel.
  • the number of decorrelators generating the uncorrelated signal may be N / 2 at the maximum. However, if N, the channel number of the output signal, exceeds 20, the filters of the decorrelator can be reused.
  • N which is the number of channels of the output signal in the N-N / 2-N structure, needs to be less than twice the limited specific number (ex. N ⁇ 20). If the LFE channel is included in the output signal, the N channel needs to be configured with a smaller number of channels (eg, N ⁇ 24) than more than twice the specific number in consideration of the number of LFE channels.
  • the output result of the decorrelators may be replaced with the residual signal for a specific frequency region depending on the bitstream. If the LFE channel is one of the outputs of the OTT box, no decorrelator is used for the OTT box based on the upmix.
  • the decorrelators labeled M (ex. NumInCh-NumLfe) from 1, the output result of the decorrelator (uncorrelated signal), and residual signals correspond to different OTT boxes.
  • d 1 ⁇ d M means uncorrelated signal which is the output result of the decorrelator (D 1 ⁇ D M )
  • res 1 ⁇ res M means the residual signal which is the output result of the decorrelator (D 1 ⁇ D M ) do.
  • the decorrelators D1 to DM correspond to different OTT boxes, respectively.
  • vectors and matrices used in the NN / 2-N structure are defined.
  • Input signals to decorators in N-2 / NN structures are vectors Is defined as
  • Equation 1 Of elements in To May be input directly to the matrix M2 without being input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes. so, To May be defined as a direct signal. And vector Of elements in To Signals other than To ) May be input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes.
  • vector Is composed of a direct signal, d 1 to d M which are decorrelated signals output from decorrelators, and res 1 to res M which are residual signals output from decorrelators. vector May be determined by Equation 2 below.
  • Is Means a set of all k satisfying And, Signal Fall decorator When input to, it means the uncorrelated signal output from the decorator. Especially, Is the OTT box is OTTx and the residual signal is In the case of means the signal output from the decorator.
  • the subbands of the output signal can be defined dependently for all time slots n and all hybrid subbands k.
  • Output signal Can be determined by Equation 3 through the vector w and the matrix M2 .
  • Equation 4 Denotes a matrix M2 composed of NumOutCh rows and NumInCh-NumLfe columns. Is Can be defined by Equation 4 below.
  • the hybrid synthesis filter bank is a combination of the QMF synthesis bank through the Nyquist synthesis banks, Can be transformed from the hybrid subband domain to the time domain through a hybrid synthesis filterbank.
  • vectors Is the same as described above, but the vector May be divided into two vectors as shown in Equations 6 and 7 below.
  • Is Means a set of all k satisfying Also, decorator Input signal to Is entered, Decorator Means the uncorrelated signal output from.
  • a spreading signal is generated through the decorrelator for spatial synthesis.
  • the generated spread signal may be mixed with the direct signal.
  • the temporal envelope of the spread signal does not match the envelope of the direct signal.
  • subband domain time processing is used to shape the envelope of each spreading signal portion of the output signal to match the temporal shape of the downmix signal transmitted from the encoder.
  • processing may be implemented with envelope estimation, such as envelope ratio calculation for direct and spread signals or shaping of the upper spectral portion of the spread signal.
  • the temporal energy envelope of the portion corresponding to the direct signal and the portion corresponding to the spread signal in the output signal generated through upmixing can be estimated.
  • the shaping factor may be calculated as the ratio between the temporal energy envelope for the portion corresponding to the direct signal and the portion corresponding to the spread signal.
  • STP May be signaled as. if, If, the spread signal portion of the output signal generated through upmixing can be processed via STP.
  • the downmix of the spatial upmix is approximated with the transmitted original downmix signal ( approximation).
  • the direct downmix signal for (NumInCh-NumLfe) may be defined by Equation 8 below.
  • the envelopes of the downmix broadband envelopes and the spread signal portion of each upmix channel can be estimated using Equation 9 below using normalized direct energy.
  • Means a bandpass factor Denotes a spectral flattering factor.
  • the scale factor for the NN / 2-N structure Can be defined.
  • the scale factor is then applied to the spread signal portion of the output signal, thereby mapping the temporal envelope of the output signal to substantially the temporal envelope of the downmix signal.
  • the spread signal portion processed by the scale factor in each channel of the output signals of the N channels may be mixed with the direct signal portion.
  • it may be signaled whether the extension signal portion has been processed in the scale factor for each channel of the output signal. ( ) Indicates that the extension signal portion was processed with the scale factor.)
  • GES can recover the broadband envelope of the synthesized output signal.
  • GES includes a modified upmixing process after flattening and reshaping the envelope for the direct signal portion for each channel of the output signal.
  • additional information of a parametric broadband envelope included in the bitstream may be used.
  • the additional information includes the envelope ratio of the envelope of the original input signal and the envelope of the downmix signal.
  • the envelope ratio at the decoder may be applied to the direct signal portion of each time slot included in the frame for each channel of the output signal.
  • the GES does not alter the spread signal portion for each channel of the output signal.
  • the extension signal and the direct signal of the output signal may be respectively synthesized using the post mixing matrix M2 modified in the hybrid subband domain according to Equation 11 below.
  • Equation 11 the direct signal portion for the output signal y provides the direct signal and the residual signal, and the extension signal portion for the output signal y provides the extension signal. In total, only the direct signal can be processed by the GES.
  • the result of processing the GES may be determined according to Equation 12 below.
  • the GES can extract an envelope for a particular channel of the upmixed output signal from the downmix signal by the downmix signal and decoder that performs spatial synthesis except the LFE channel depending on the tree structure.
  • Output signal in NN / 2-N structure May be defined as shown in Table 3 below.
  • the input signal in the NN / 2-N structure May be defined as shown in Table 4 below.
  • downmix signals in NN / 2-N structures May be defined as shown in Table 5 below.
  • the matrix M1 (defined for all time slots n and all hybrid subbands k) ) And the matrix M2 ( ) Will be described. These matrices are defined for a given parameter time slot and given processing band m based on the parameter time slot and the CLD, ICC and CPC parameters valid for the processing band. And Interpolated version of.
  • Matrix M1 may be expressed as a free matrix.
  • the size of the matrix M1 depends on the number of channels of the downmix signal input to the matrix M1 and the number of decorrelators used in the decoder.
  • the elements of the matrix M1 may be derived from the CLD and / or CPC parameters.
  • M1 may be defined by Equation 13 below.
  • Matrix for Matrix M1 May be defined as follows.
  • OTT box matrix May be defined differently according to the channel structure.
  • all channels of an input signal may be input in pairs by 2 channels to the OTT box. So, for the NN / 2-N structure, the number of OTT boxes is N / 2.
  • the matrix I is a vector containing the input signal It depends on the number of OTT boxes equal to its column size.
  • Lfe upmixes based on OTT boxes are not considered in the NN / 2-N architecture since no decorrelator is needed.
  • matrix All elements of may be either 1 or 0.
  • Equation 15 In the NN / 2-N structure May be defined by Equation 15 below.
  • OTT boxes in the NN / 2-N architecture represent a parallel processing satge, not a cascade. Therefore, all OTT boxes in the NN / 2-N structure are not connected to any other OTT boxes. So, matrix is unit matrix And unit matrix It can be configured as. In this case, the unit matrix May be a unit matrix of size N * N.
  • Calibration factor matrix It can be applied to the downmix signal or an externally supplied downmix signal.
  • Matrix in NN / 2-N structure May be defined by Equation 16 below.
  • Means a unit matrix indicating NumInch * NumInCh size Denotes a zero matrix representing NumInch * NumInCh size.
  • the number of channels of the downmix signal may be more than five.
  • the inverse matrix H is a vector of input signals for all parameter sets and processing bands. It may be a unit matrix having the same size as the number of columns of.
  • matrix M2 Defines how to combine the direct and uncorrelated signals to regenerate the multi-channel output signal. May be defined by Equation 19 below.
  • the element of can be calculated from the equivalent model of the OTT box.
  • the OTT box includes a decorrelator and a mixing section.
  • the mono input signal input to the OTT box is transmitted to the decorrelator and the mixing unit, respectively.
  • the mixing unit may generate a stereo output signal using a mono input signal, an uncorrelated signal output through the decorrelator, and the CLD and ICC parameters.
  • the CLD controls localization in the stereo field
  • the ICC controls the stereo wideness of the output signal.
  • Equation 21 the result output from any OTT box can be defined by Equation 21 below.
  • OTT box Labeling as ( ), Time slot for OTT box And parameter bands Denotes an element of an arbitrary matrix.
  • the post gain matrix may be defined as in Equation 22 below.
  • CLD and ICC may be defined by Equation 24 below.
  • decorrelators may be performed by a reverberation filter in the QMF subband domain.
  • Reverberation filters exhibit different filter characteristics based on which hybrid subband currently corresponds to all hybrid subbands.
  • the reverberation filter is an IIR grating filter.
  • the IIR grating filters have different filter coefficients for different decorrelators to produce mutually uncorrelated orthogonal signals.
  • the uncorrelated process carried out by the decorator is carried out in several processes.
  • the output of matrix M1 Is entered into the set of all-pass uncorrelated filters.
  • the filtered signals can then be energy shaped.
  • energy shaping is shaping the spectral or temporal envelope to match uncorrelated signals more closely to the input signal.
  • the uncorrelated filter consists of a plurality of all-pass (IIR) regions preceded by a fixed frequency-dependent delay.
  • the frequency axis may be divided into different regions so as to correspond to the QMF division frequency.
  • the length of the delay and the length of the filter coefficient vectors are the same.
  • the filter coefficients of the decorrelator with fractional delay due to additional phase rotation depend on the hybrid subband index.
  • the filters of the decorrelators have different filter coefficients to ensure orthogonality between the uncorrelated signals output from the decorrelators.
  • N / 2 decorrelators are required.
  • the number of decorrelators may be limited to ten.
  • the decorators are more than 10 OTT boxes according to 10 basis modulo operations. It can be reused corresponding to the number of.
  • the N / 2 decorrelators are indexed by 10 units. That is, the 0th decorator and the 10th decorator Have the same index.
  • the decorrelator may include a first decorrelator corresponding to a channel less than or equal to M and a second decorrelator corresponding to more than M channels. Can be.
  • the second decorrelator may reuse the filter set of the first decorrelator.
  • N-N / 2-N structure For the N-N / 2-N structure, it may be implemented by the syntax of Table 7.
  • bsTreeConfig may be implemented by Table 8.
  • bsTreeConfig may be implemented by Table 8. According to Table 8, when bsTreeConfig is 7, the configuration of the decoding apparatus of the N-N / 2-N structure according to an embodiment of the present invention.
  • the number of OTT boxes numOttBoxes is equal to the number of channels NumInCh of the downmix signal. And the number of TTT boxes is zero.
  • bsNumInCh which is the number of channels of the downmix signal in the N-N / 2-N structure, may be implemented as shown in Table 10 below.
  • NumInCh refers to the number of channels of the downmix signal input to the decoding apparatus of the NN / 2-N structure
  • NumOutCh refers to the number of channels of the output signal to which the downmix signal is upmixed.
  • N LFE which is the number of LFE channels among the output signals may be implemented as shown in Table 11 below.
  • NumLfe means the number of LFE channels (N LFE ) in the NN / 2-N structure.
  • the channel order of the output signal may be implemented as shown in Table 12 according to the number of channels of the output signal and the number of LFE channels.
  • And audioChannelLayout represents the layout of the loudspeaker Loudspeaker at the time of actual reproduction.
  • the channel order of the LFE channel is determined by (i) a condition processed with a channel other than the LFE channel using an OTT box, and (ii) a condition located last in the channel list. Can be determined to satisfy.
  • LFE channels are L, Lv, R, Rv, Ls, Lss It is located last in Rs, Rss, C, LFE, Cvr, and LFE2.
  • FIG. 9 illustrates a tree structure for performing spatial audio processing for the N-N / 2-N structure according to an embodiment.
  • the N-N / 2-N structure shown in FIG. 8 may be represented in a tree form as shown in FIG. 9.
  • all OTT boxes can regenerate two channels of output signals based on CLD, ICC, residual signal and input signal.
  • OTT boxes and their corresponding CLD, ICC, residual and input signals may be numbered in the order in which they appear in the bitstream.
  • the decoder which is a multichannel signal processing apparatus, may generate N-channel output signals from N / 2-channel downmix signals using N / 2 OTT boxes.
  • N / 2 OTT boxes are not implemented through a plurality of layers. That is, the OTT boxes may perform upmixing in parallel for each channel of the downmix signal of the N / 2 channel. In other words, one OTT box is not connected to another OTT box.
  • the left tree structure of FIG. 9 shows an N-N / 2-N tree structure when no LFE channel is applied, and the right tree structure shows an N-N / 2-N tree structure when an LFE channel is applied.
  • All OTT boxes shown in FIG. 9 may remix two channels of output signals by upmixing one channel of downmix signals (M).
  • the N / 2 OTT boxes may generate the output signal of the N channel using the residual signal res and the downmix signal M.
  • the OTT box in which the LFE channel is output among the N / 2 OTT boxes may use only the downmix signal except the residual signal.
  • the OTT box in which the LFE channel is not output among the N / 2 OTT boxes upmixes the downmix signal using CLD and ICC, but the LFE channel is The output OTT box can upmix the downmix signal using only the CLD.
  • the OTT box in which the LFE channel is not output among the N / 2 OTT boxes generates an uncorrelated signal through the decorrelator, but the OTT in which the LFE channel is output.
  • the box does not perform uncorrelated processes and therefore does not generate uncorrelated signals.
  • FIG. 10 illustrates a process of generating an output signal of 24 channels from a 12-channel downmix according to an embodiment.
  • an N / 2 channel downmix signal may be generated from an N channel input signal through MPS encoding.
  • the N-channel output signal may be generated from the downmix signal of the N / 2 channel through MPS decoding.
  • the channels of the downmix signal output through the encoder are 1 channel, 2 channels, and 5.1 channels.
  • the present invention is not limited thereto.
  • additional syntax definition is required to support the number of channels of downmix signals that are not defined in the existing MPS standard.
  • BsTreeConfig defines the decoding process of input and output signals.
  • BsTreeConfig 0 a process of generating a downmix signal of one channel from an input signal of six channels (5.1 channels) and an output signal of six channels (5.1 channels) from a downmix signal of one channel is defined.
  • the decoder needs five OTT boxes, and channel level difference (CLD) may be applied to each OTT box.
  • CLD channel level difference
  • the CLD input to the OTT box may be defined up to defaultCLD [0 ⁇ 5] according to the position of the OTT box, and the CLD corresponding to the OTT box is enabled. That is, if CLD is enabled, CLD may be input to the OTT box.
  • ottModeLfe also means that the LFE channel is output from the OTT box.
  • the present invention can process an input signal having a channel different from the channel defined in the existing MPS standard by using the reserved bit in the MPS standard. For example, when N, the channel number of the input signal, is 24, and the channel number of the downmix signal is 12, it may be defined as shown in Table 13.
  • FIG. 10 shows a decoder implemented according to Table 13. Referring to FIG. 10, a process of generating an output signal of 24 channels including two LFE channels from a 12-channel downmix signal x 0- x 11 is illustrated.
  • 12 channels of downmix signals (x0-x11) and 12 signals of residual signals (res 1 -res 11 ) are input, but will be described below except for the residual signal. do.
  • the decoder of FIG. 10 may input a downmix signal of 12 channels to the decorrelator 1007 to generate an uncorrelated signal.
  • the vector v 1003 of FIG. 10 may be derived by applying the matrix M1 1002 to the vector x 1001.
  • the vector v 1003 may be determined according to Equation 25 below.
  • Equation 25 corresponds to (1).
  • x Mo to x M11 may be mapped to v M0 to v M11 .
  • the uncorrelated signal may be derived equal to the number of downmix signals.
  • the vector w 1004 may be determined according to Equation 26 below.
  • Equation 26 corresponds to Equation 2.
  • the decorrelator 1007 operates when there is no residual signal. That is, if there is no residual signal, an uncorrelated signal may be generated.
  • D () is used when the decorrelator generates an uncorrelated signal.
  • the vector y 1006 may be derived by applying the matrix M2 1005 to the vector w 1004 according to Equation 27.
  • Equation 28 R1 for deriving the matrix M1 1002
  • Equation 29 R2 for deriving the mates M2 1005
  • H LL , H LR , H RL , and H RR in Equation 29 may be derived from CLD and ICC corresponding to each OTT box.
  • the present invention proposes an OTT-based MPS (MPEG Surround) decoder having a parallel structure that generates N-channel output signals from N / 2 channel downmix signals according to newly defined bsTreeConfig information.
  • MPS MPEG Surround
  • FIG. 11 illustrates an OTT box of the process of FIG. 10, according to an exemplary embodiment.
  • each OTT box generates two channels of signals using a downmix signal of one channel and an uncorrelated signal generated through the decorrelator (D).
  • D decorrelator
  • defaultCld [0] to defaultCld [9] corresponding to the CLD, and OttModelfe [0] and OttModelfe [1] corresponding to the LFE channel may be input.
  • the LFE channel may be included in the output signal.
  • OttModelfe [0] and OttModelfe [1] are then enabled.
  • FIG. 12 illustrates a process of FIG. 11 according to an MPS standard according to an embodiment.
  • FIG. 12 a case in which 12 channels of downmix signals M 0 to M 11 are input to each OTT box is illustrated. Then, the output signal y of 24 channels is generated.
  • CLD and ICC are also input to each OTT box.
  • the residual signal is illustrated in FIG. 12 as being input to the OTT box, if there is no residual signal, an uncorrelated signal generated through the decorrelator from the downmix signal may be input to the OTT box instead of the residual signal.
  • Multi-channel audio signal processing method comprises the steps of identifying the downmix signal and the residual signal of the N / 2 channel generated from the input signal of the N channel; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
  • N / 2 decorrelators may correspond to the N / 2 OTT boxes.
  • the index of the decorrelator may be repeatedly reused according to the reference value.
  • the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
  • the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
  • the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator.
  • a vector corresponding to the signal may be input.
  • the generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal.
  • STP subband domain time processing
  • the generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
  • GES guided envelope shaping
  • the size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
  • a method of processing a multichannel audio signal including: identifying a downmix signal of an N / 2 channel and a residual signal of the N / 2 channel; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal, wherein the N / 2 OTT boxes are not connected to each other;
  • the OTT box which is arranged in parallel without any other and outputs the LFE channel among the N / 2 OTT boxes receives (1) only the downmix signal except the residual signal, and (2) the CLD parameter among the CLD parameter and the ICC parameter. (3) Do not output uncorrelated signal through decorator.
  • An apparatus for processing a multichannel signal includes a processor for performing a multichannel signal processing method, and the multichannel signal processing method includes downmixing an N / 2 channel generated from an input signal of N channels. Identifying a signal and a residual signal; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
  • N / 2 decorrelators may correspond to the N / 2 OTT boxes.
  • the index of the decorrelator may be repeatedly reused according to the reference value.
  • the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
  • the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
  • the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator.
  • a vector corresponding to the signal may be input.
  • the generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal.
  • STP subband domain time processing
  • the generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
  • GES guided envelope shaping
  • the size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
  • an apparatus for processing a multichannel signal includes a processor for performing a method for processing a multichannel signal, and the method for processing a multichannel signal includes: an N / 2 channel downmix signal and an N / 2 channel; Identifying a residual signal; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal,
  • the N / 2 OTT boxes are arranged in parallel without being connected to each other, and an OTT box that outputs an LFE channel among the N / 2 OTT boxes receives (1) only a downmix signal except a residual signal, (2) It uses CLD parameter among CLD parameter and ICC parameter. (3) Does not output uncorrelated signal through decorator.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may be, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software boxes to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Disclosed are a multichannel signal encoding method, an encoding apparatus for performing the encoding method, a multichannel signal processing method, and a decoding apparatus for performing a decoding method. The decoding method comprises the steps of: identifying a downmix signal of an N/2 channel which has been derived from an input signal of an N channel; and generating an output signal of the N channel from the downmix signal of the identified N/2 channel by using a plurality of OTT boxes. The number of the plurality of OTT boxes may be the same as N/2 which is the number of channels of the downmix signal, if there is no LFE channel in the output signal.

Description

다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치 Multi-channel signal processing method and multi-channel signal processing device performing the method
본 발명은 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치에 관한 것으로, 보다 구체으로는 다채널 신호의 채널수가 증가하더라도 음질 열화없이 압축할 수 있는 방법 및 장치에 관한 것이다.The present invention relates to a multi-channel signal processing method and a multi-channel signal processing apparatus for performing the method, and more particularly to a method and apparatus that can be compressed without deterioration of sound quality even if the number of channels of the multi-channel signal increases.
MPS(MPEG Surround)는 5.1채널, 7.1채널 등 다채널 신호를 코딩하기 위한 코덱이다. MPS에 의해, 다채널 신호를 높은 압축율로 압축하여 전송이 가능하다.MPS (MPEG Surround) is a codec for coding multichannel signals such as 5.1 channel and 7.1 channel. By MPS, multi-channel signals can be compressed and transmitted at a high compression rate.
다만, 인코딩/디코딩 과정에서 하위 호환이라는 제약 사항을 가진다. 즉, MPS를 통해 생성된 다채널 신호의 비트스트림은 기존의 코덱을 통해 모노나 스테레오 형태로 재생이 가능해야 하는 하위 호환이 요구된다.However, the encoding / decoding process has a limitation of backward compatibility. In other words, the bitstream of the multi-channel signal generated through the MPS is required to be backward compatible to be reproduced in mono or stereo format through the existing codec.
따라서, MPS에 정의된 채널 개수보다 많은 채널을 가지는 다채널 신호가 MPS에 입력되더라도, MPS에서 출력되어 전송되는 신호는 MPS와 동일하게 모노 또는 스테레오로 표현되어야 한다. 그러면, 디코더는 인코더로부터 수신한 부가 정보를 이용하여 비트스트림으로부터 다채널 신호를 복원할 수 있다. 이 때, 디코더는 업믹싱을 위한 부가 정보로 다채널 신호를 복원할 수 있다. Therefore, even if a multi-channel signal having more than the number of channels defined in the MPS is input to the MPS, the signal output and transmitted from the MPS should be expressed in mono or stereo as in the MPS. The decoder may then recover the multi-channel signal from the bitstream using the additional information received from the encoder. In this case, the decoder may restore the multi-channel signal with additional information for upmixing.
다만, 최근에 통신 환경이 개선되면서 전송 대역폭이 증가함에 따라 신호에 할당되는 대역폭도 증가하였다. 그렇기 때문에, 대역폭에 대응되도록 과도하게 압축하기 보다는 원래 다채널 신호가 가지는 음질을 유지하는 방향으로 기술이 발전하고 있다. 그렇다고 하더라도, 매우 많은 수의 채널을 가지는 다채널 신호를 처리하기 위해서는, 여전히 전송할 때 압축이 필요하다.However, as the communication environment improves recently, as the transmission bandwidth increases, the bandwidth allocated to the signal also increases. Therefore, technology is being developed to maintain the sound quality of the original multichannel signal rather than excessively compressing it to correspond to the bandwidth. Even so, in order to process multichannel signals with very large numbers of channels, compression is still required when transmitting.
따라서, MPS 표준에서 정의하는 채널수보다 많은 채널 수를 가지는 입력 신호를 처리하는 경우, 다채널 신호의 품질을 유지하면서 일정 수준 이상의 압축을 통해 데이터량을 줄여서 전송할 수 있는 방법이 요구된다.Therefore, when processing an input signal having a greater number of channels than the number of channels defined in the MPS standard, there is a demand for a method capable of reducing the amount of data through a predetermined level or more while maintaining the quality of a multichannel signal.
본 발명은 N-N/2-N 구조를 통해 다채널 신호를 처리하는 방법 및 장치를 제공한다.The present invention provides a method and apparatus for processing a multichannel signal through an N-N / 2-N structure.
본 발명의 일실시예에 따른 다채널 신호 처리 방법은 N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하는 단계; 및 복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 단계를 포함하고, 상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일할 수 있다.Multi-channel signal processing method according to an embodiment of the present invention comprises the steps of identifying the downmix signal of the N / 2 channel derived from the input signal of the N channel; And generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes, wherein the number of the plurality of OTT boxes includes no LFE channel in the output signal. In this case, the number of channels of the downmix signal may be equal to N / 2.
상기 복수의 OTT 박스들 각각은, 상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate an output signal of two channels using an uncorrelated signal generated from a decorrelator corresponding to each of the plurality of OTT boxes and a downmix signal of one channel. .
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우, 상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고, 상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.When the number N of channels of the output signal exceeds a preset channel number M, the decorrelator includes a first decorrelator corresponding to a channel of M or less and a second decorrelator corresponding to more than M channels; The second decorrelator may reuse a filter set of the first decorrelator.
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성할 수 있다.An OTT box whose output is an LFE channel among the plurality of OTT boxes may generate two channels of downmix signals without using an uncorrelated signal.
상기 복수의 OTT 박스들 각각은, 전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate two channel output signals using the residual signal and one channel downmix signal instead of the uncorrelated signal when the transmitted residual signal exists.
상기 N채널의 출력 신호를 생성하는 단계는, 프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성할 수 있다.The generating of the N-channel output signal may include generating an N-channel output signal using a pre decorrelator matrix M1 and a mix matrix M2.
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate an output signal of N channels using a channel level difference (CLD).
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수일 수 있다.The number N of channels of the output signal may be an even number from 10 to 32.
본 발명의 다른 실시예에 따른 다채널 신호 처리 방법은 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하는 단계; 및 제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하는 단계를 포함하고, 상기 제2 코딩 방식은, 상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용할 수 있다.In accordance with another aspect of the present invention, there is provided a method of processing a multichannel signal, the method including: decoding a downmix signal of an N / 2 channel encoded according to a first coding scheme; And generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme, wherein the second coding scheme, when the output signal does not include an LFE channel, One number of one-to-two (OTT) boxes equal to N / 2, which is the number of channels of the downmix signal, may be used.
본 발명의 일실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 실행하는 프로세스를 포함하고, 상기 프로세스는, N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하고, 복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하며, 상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일할 수 있다.The multi-channel signal processing apparatus according to an embodiment of the present invention includes a process for executing a multi-channel signal processing method, wherein the process identifies a downmix signal of the N / 2 channel derived from the input signal of the N channel and And generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes, wherein the number of the plurality of OTT boxes is equal to the downmix when the LFE channel is not present in the output signal. It may be equal to N / 2 which is the number of channels of the signal.
상기 복수의 OTT 박스들 각각은, 상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate an output signal of two channels using an uncorrelated signal generated from a decorrelator corresponding to each of the plurality of OTT boxes and a downmix signal of one channel. .
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우, 상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고, 상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.When the number N of channels of the output signal exceeds a preset channel number M, the decorrelator includes a first decorrelator corresponding to a channel of M or less and a second decorrelator corresponding to more than M channels; The second decorrelator may reuse a filter set of the first decorrelator.
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성할 수 있다.An OTT box whose output is an LFE channel among the plurality of OTT boxes may generate two channels of downmix signals without using an uncorrelated signal.
상기 복수의 OTT 박스들 각각은, 전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate two channel output signals using the residual signal and one channel downmix signal instead of the uncorrelated signal when the transmitted residual signal exists.
상기 프로세스는, 프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성할 수 있다.The process may generate an output signal of the N channel using a pre decorrelator matrix M1 and a mix matrix M2.
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성할 수 있다.Each of the plurality of OTT boxes may generate an output signal of N channels using a channel level difference (CLD).
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수일 수 있다.The number N of channels of the output signal may be an even number from 10 to 32.
본 발명의 다른 실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 실행하는 프로세스를 포함하고, 상기 프로세스는, 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하고, 제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하며, 상기 제2 코딩 방식은, 상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용할 수 있다.The multi-channel signal processing apparatus according to another embodiment of the present invention includes a process for executing a multi-channel signal processing method, wherein the process decodes the downmix signal of the N / 2 channel encoded according to the first coding scheme and And generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme, wherein the second coding scheme, when the output signal does not include an LFE channel, One number of one-to-two (OTT) boxes equal to the number of channels N / 2 may be used.
본 발명의 일실시예에 따르면, N-N/2-N 구조에 따라 다채널 신호를 처리함으로써 MPS에서 정의하는 채널 수보다 많은 채널 수의 다채널 신호를 효율적으로 처리할 수 있다.According to an embodiment of the present invention, by processing a multi-channel signal according to the N-N / 2-N structure, it is possible to efficiently process a multi-channel signal of a greater number of channels than the number of channels defined in MPS.
도 1은 일실시예에 따른 인코딩 장치와 디코딩 장치를 도시한 도면이다.1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
도 2는 일실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.2 is a diagram illustrating detailed components of an encoding apparatus according to an embodiment.
도 3은 다른 실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.3 is a diagram illustrating detailed components of an encoding apparatus according to another embodiment.
도 4는 일실시예에 따른 제1 인코딩부의 동작을 설명하기 위한 도면이다.4 is a diagram for describing an operation of a first encoding unit, according to an exemplary embodiment.
도 5는 일실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.5 is a diagram illustrating detailed components of a decoding apparatus according to an embodiment.
도 6은 다른 실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.6 is a diagram illustrating detailed components of a decoding apparatus according to another exemplary embodiment.
도 7은 일실시예에 따른 제2 디코딩부의 동작을 설명하기 위한 도면이다.7 is a diagram for describing an operation of a second decoding unit, according to an exemplary embodiment.
도 8은 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리 과정을 도시한 도면이다.8 is a diagram illustrating a spatial audio processing procedure for an N-N / 2-N structure according to an embodiment.
도 9는 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리를 수행하는 트리 구조를 도시한 도면이다.9 illustrates a tree structure for performing spatial audio processing for the N-N / 2-N structure according to an embodiment.
도 10은 일실시예에 따른 12채널의 다운믹스로부터 24채널의 출력 신호를 생성하는 과정을 도시한 도면이다.FIG. 10 illustrates a process of generating an output signal of 24 channels from a 12-channel downmix according to an embodiment.
도 11은 일실시예에 따른 도 10의 과정을 OTT 박스로 표현한 도면이다.FIG. 11 illustrates an OTT box of the process of FIG. 10, according to an exemplary embodiment.
도 12는 일실시예에 따른 도 11의 과정을 MPS 표준에 따라 표현한 도면이다.FIG. 12 illustrates a process of FIG. 11 according to an MPS standard according to an embodiment.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명에 의하면, MPS 인코더를 통해 N채널의 입력 신호로부터 N/2 채널의 다운믹스 신호를 생성하고, MPS 디코더를 통해 N/2 채널의 다운믹스 신호를 이용하여 N채널의 출력 신호를 생성하는 과정을 설명한다. 이 때, N/2 채널은 기존의 MPS 표준에서 정의된 채널수보다 더 많은 채널수를 나타낸다. 일례로, 본 발명의 일실시예에 따른 MPS 디코더는 MPEG-H 3D AUDIO 표준을 위한 확장된 MPS 표준을 만족할 수 있다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. According to the present invention, an N / 2 channel downmix signal is generated from an N channel input signal through an MPS encoder, and an N / 2 output signal is generated using an N / 2 channel downmix signal through an MPS decoder. Explain the process. At this time, the N / 2 channel represents more channels than the number of channels defined in the existing MPS standard. For example, the MPS decoder according to an embodiment of the present invention may satisfy the extended MPS standard for the MPEG-H 3D AUDIO standard.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 발명에서 인코딩 장치와 디코딩 장치는 다채널 신호 처리 장치에 대응한다.In the present invention, the encoding apparatus and the decoding apparatus correspond to the multichannel signal processing apparatus.
도 1은 일실시예에 따른 인코딩 장치와 디코딩 장치를 도시한 도면이다.1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
본 발명의 일실시예에 따른, 인코딩 장치(100)는 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성할 수 있다. 그러면, 디코딩 장치(101)는 N/2채널의 다운믹스 신호를 이용하여 N채널의 출력 신호를 생성할 수 있다. 여기서, N은 10 이상일 수 있다.According to an embodiment of the present invention, the encoding apparatus 100 may generate an N / 2 channel downmix signal by downmixing an N channel input signal. Then, the decoding apparatus 101 may generate an output signal of the N channel by using the downmix signal of the N / 2 channel. Here, N may be 10 or more.
도 2는 일실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.2 is a diagram illustrating detailed components of an encoding apparatus according to an embodiment.
도 2를 참고하면, 인코딩 장치는 제1 인코딩부(201), 샘플링율 변환부(202) 및 제2 인코딩부(203)를 포함할 수 있다. 제1 인코딩부(201)는 MPS 인코더로 정의된다. 그리고, 제2 인코딩부(203)는 USAC(Unified Speech and Audio Codec) 인코더로 정의된다. 즉, N채널의 입력 신호를 다운믹스하여 N/2채널의 다운믹스 신호를 생성할 수 있다. Referring to FIG. 2, the encoding apparatus may include a first encoding unit 201, a sampling rate converter 202, and a second encoding unit 203. The first encoding unit 201 is defined as an MPS encoder. The second encoding unit 203 is defined as a USAC (Unified Speech and Audio Codec) encoder. That is, an N / 2 channel downmix signal may be generated by downmixing an input signal of N channels.
그러면, 샘플링율 변환부(202)는 N/2채널의 다운믹스 신호에 대해 샘플링율을 변환할 수 있다. 샘플링율 변환부(202)는 제2 인코딩부(203)인 USAC 인코더에 할당된 비트레이트에 기초하여 다운샘플링할 수 있다. 만약, 제2 인코딩부(203)인 USAC 인코더에 충분히 높은 비트레이트가 할당된다면, 샘플링율 변환부(202)는 바이패스될 수 있다.Then, the sampling rate converter 202 may convert the sampling rate for the downmix signal of the N / 2 channel. The sampling rate converter 202 may downsample the bit rate based on the bitrate allocated to the USAC encoder, which is the second encoder 203. If a sufficiently high bitrate is allocated to the USAC encoder, which is the second encoding unit 203, the sampling rate converter 202 may be bypassed.
이 후, 제2 인코딩부(203)는 샘플링율이 변환된 N/2채널의 다운믹스 신호의 코어 대역에 대해 인코딩할 수 있다. 그러면, 제2 인코딩부(203)를 통해 인코딩된 N/2채널의 다운믹스 신호가 생성될 수 있다. 인코딩된 N/2채널의 다운믹스 신호는 M채널(M은 N/2보다 같거나 작음)의 신호일 수도 있다. 여기서, USAC 인코더에서 적용되는 SBR(Spectral Band Replication)을 통해 주파수 대역이 확장되는 경우, 코어 대역은 주파수 대역이 확장되지 않은 저주파수 대역을 의미한다.Thereafter, the second encoding unit 203 may encode the core band of the downmix signal of the N / 2 channel whose sampling rate is converted. Then, the downmix signal of the N / 2 channel encoded through the second encoder 203 may be generated. The encoded downmix signal of the N / 2 channel may be a signal of the M channel (M is equal to or smaller than N / 2). Here, when the frequency band is extended through SBR (Spectral Band Replication) applied in the USAC encoder, the core band means a low frequency band in which the frequency band is not extended.
기존의 MPS 표준에 의하면, 제1 인코딩부(201)에 대응하는 MPS 인코더를 통해 출력되는 다운믹스 신호의 채널 수는 1채널, 2채널, 및 5.1 채널로 한정되어 있다. 하지만, 본 발명의 일실시예에 따른 제1 인코딩부(201)는 이와 같은 MPS 표준에서 정의하는 다운믹스 신호의 채널 수를 초과할 수 있다. 즉, 제1 인코딩부(201)는 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성할 수 있다. 여기서, N/2채널의 다운믹스 신호에서, N/2채널은 1, 2, 5.1 또는 5.1 이상이 될 수 있다.According to the existing MPS standard, the number of channels of the downmix signal output through the MPS encoder corresponding to the first encoding unit 201 is limited to one channel, two channels, and 5.1 channels. However, the first encoding unit 201 according to an embodiment of the present invention may exceed the number of channels of the downmix signal defined in the MPS standard. That is, the first encoding unit 201 may generate an N / 2 channel downmix signal by downmixing an input signal of N channels. Here, in the N / 2 channel downmix signal, the N / 2 channel may be 1, 2, 5.1, or 5.1 or more.
도 3은 다른 실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.3 is a diagram illustrating detailed components of an encoding apparatus according to another embodiment.
도 3은 도 2에서 설명하는 구성 요소와 동일하나, 그 순서가 변경된 실시예를 나타낸다. 구체적으로, 도 2는 제1 인코딩부(201)와 제2 인코딩부(203) 사이에 샘플링율 변환부(202)가 존재하는 실시예를 나타낸다. 하지만, 도 3은 샘플링율 변환부(301) 이후에, 제1 인코딩부(302)와 제2 인코딩부(303)가 배치된 실시예를 나타낸다.3 is the same as the component described in FIG. 2, but shows an embodiment in which the order is changed. Specifically, FIG. 2 illustrates an embodiment in which a sampling rate converter 202 exists between the first encoder 201 and the second encoder 203. However, FIG. 3 illustrates an embodiment in which the first encoding unit 302 and the second encoding unit 303 are disposed after the sampling rate converter 301.
도 4는 일실시예에 따른 제1 인코딩부의 동작을 설명하기 위한 도면이다.4 is a diagram for describing an operation of a first encoding unit, according to an exemplary embodiment.
도 4는 N 채널의 입력 신호로부터 N/2채널의 다운믹스 신호를 생성하는 과정을 나타낸다. 도 4를 참고하면, 제1 인코딩부(401)는 복수의 TTO 박스(402)들을 포함할 수 있다. 여기서, 복수의 TTO 박스(402)들 각각은 2채널의 입력 신호를 다운믹싱하여 1채널의 다운믹스 신호를 출력할 수 있다. 즉, 도 4와 같이 입력된 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성하기 위해서, 제1 인코딩부(401)는 N/2개의 TTO 박스(402)를 포함할 수 있다.4 illustrates a process of generating a downmix signal of N / 2 channels from an input signal of N channels. Referring to FIG. 4, the first encoding unit 401 may include a plurality of TTO boxes 402. Here, each of the plurality of TTO boxes 402 may downmix two input signals and output one downmix signal. That is, the first encoder 401 may include N / 2 TTO boxes 402 to downmix the input signals of the N channels input as shown in FIG. 4 to generate the downmix signals of the N / 2 channels. Can be.
제1 인코딩부(401)가 기존의 MPS 표준을 따른다면, 제1 인코딩부(401)에서 생성되는 다운믹스 신호는 1채널, 2채널, 또는 5.1 채널만 가능하다. 하지만, 본 발명의 일실시예에 따르면, 제1 인코딩부(401)는 MPS에 따라 N채널의 입력 신호로부터 N/2채널의 다운믹스 신호를 생성할 수 있다. 여기서, N/2채널은 1채널, 2채널 또는 5.1 채널 뿐만 아니라 5.1 채널 이상의 채널도 가능하다. 이 때, N채널이 MPS에서 정의하는 채널보다 큰 경우, 제1 인코딩부(401)는 MPS를 제어하기 위해 추가적인 구문을 고려할 필요가 있다. 일례로, 제1 인코딩부(401)는 임의적인 트리(arbitrary tree)를 이용한 코딩 모드를 활용하여 MPS를 제어하기 위한 추가적인 구문을 정의할 수 있다.If the first encoder 401 conforms to the existing MPS standard, the downmix signal generated by the first encoder 401 may be one channel, two channels, or 5.1 channels. However, according to an embodiment of the present invention, the first encoding unit 401 may generate an N / 2 channel downmix signal from the N channel input signal according to the MPS. Here, the N / 2 channel may be a channel of 5.1 channels or more as well as 1 channel, 2 channels or 5.1 channels. In this case, when the N channel is larger than the channel defined in the MPS, the first encoding unit 401 needs to consider an additional syntax to control the MPS. For example, the first encoding unit 401 may define an additional syntax for controlling the MPS by using a coding mode using an arbitrary tree.
도 5는 일실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.5 is a diagram illustrating detailed components of a decoding apparatus according to an embodiment.
도 5는 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 과정을 나타낸다. 도 5를 참고하면, 디코딩 장치는 제1 디코딩부(501), 샘플링율 변환부(502), 및 제2 디코딩부(503)를 포함할 수 있다. 제1 디코딩부(501)는 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하여 N/2채널의 다운믹스 신호를 복원할 수 있다. 여기서, 제1 디코딩부(501)는 USAC 디코더로 정의될 수 있다. 5 shows a process of generating an output signal of the N channel from the downmix signal of the N / 2 channel. Referring to FIG. 5, the decoding apparatus may include a first decoding unit 501, a sampling rate converter 502, and a second decoding unit 503. The first decoding unit 501 may reconstruct the downmix signal of the N / 2 channel by decoding the encoded downmix signal of the N / 2 channel. Here, the first decoding unit 501 may be defined as a USAC decoder.
그리고, 샘플링율 변환부(502)는 N/2채널의 다운믹스 신호에 대한 샘플링율을 변환할 수 있다. 이 때, 샘플링율 변환부(502)는 인코딩 장치에서 샘플링율이 변환된 오디오 신호에 대해 원래의 샘플링율로 변환할 수 있다. 다시 말해서, 도 2나 도 3에서 샘플링율 변환이 수행된 경우, 샘플링율 변환부(502)가 동작한다. 만약, 도 2나 도 3에서 샘플링율 변환이 수행되지 않은 경우, 샘플링율 변환부(502)는 동작하지 않고 바이패스될 수 있다.The sampling rate converter 502 may convert the sampling rate of the downmix signal of the N / 2 channel. In this case, the sampling rate converter 502 may convert the sampling rate of the audio signal converted by the encoding apparatus to the original sampling rate. In other words, when the sampling rate conversion is performed in FIG. 2 or FIG. 3, the sampling rate conversion unit 502 operates. If the sampling rate conversion is not performed in FIG. 2 or FIG. 3, the sampling rate conversion unit 502 may be bypassed without operation.
한편, 제2 디코딩부(503)는 샘플링율 변환부(502)에서 출력된 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다.Meanwhile, the second decoding unit 503 may generate an N-channel output signal by upmixing the N / 2 channel downmix signal output from the sampling rate converter 502.
종래의 MPS 디코더에 입력되는 다운믹스 신호는 1채널, 2채널, 및 5.1 채널로 한정되어 있다. 하지만, 본 발명의 일실시예에 따른 제2 디코딩부(503)에 입력되는 다운믹스 신호는 1채널, 2채널, 5.1채널 뿐만 아니라 N/2채널까지 확장될 수 있다. 그러면, 제2 디코딩부(503)는 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 여기서, 제2 디코딩부(503)에 입력되는 N/2채널의 다운믹스 신호는 최소한 5.1 채널 이상을 의미하므로, N은 10.2 채널 이상이 될 수 있다.The downmix signal input to the conventional MPS decoder is limited to one channel, two channels, and 5.1 channels. However, the downmix signal input to the second decoding unit 503 according to an embodiment of the present invention may be extended to N / 2 channels as well as 1 channel, 2 channels, and 5.1 channels. Then, the second decoding unit 503 may generate the N-channel output signal by upmixing the N / 2 channel downmix signal. Here, since the N / 2 channel downmix signal input to the second decoding unit 503 means at least 5.1 channel or more, N may be 10.2 or more channels.
도 6은 다른 실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.6 is a diagram illustrating detailed components of a decoding apparatus according to another exemplary embodiment.
도 6은 도 5와 달리 제1 디코딩부(601), 제2 디코딩부(602) 및 샘플링율 변환부(603)의 순서에 따라 오디오 신호를 처리할 수 있다. 제1 디코딩부(601)는 N/2채널의 다운믹스 신호를 복원할 수 있다. 그러면, 제2 디코딩부(602)는 N/2채널의 다운믹스 신호를 업믹싱함으로써, N채널의 출력 신호를 생성할 수 있다. 이 후, 샘플링율 변환부(603)는 제2 디코딩부(602)를 통해 생성된 N채널의 출력 신호에 대해 샘플링율을 변환할 수 있다.Unlike FIG. 5, FIG. 6 may process an audio signal in the order of the first decoding unit 601, the second decoding unit 602, and the sampling rate converter 603. The first decoding unit 601 may restore the downmix signal of the N / 2 channel. Then, the second decoding unit 602 may generate the output signal of the N channel by upmixing the downmix signal of the N / 2 channel. Thereafter, the sampling rate converter 603 may convert the sampling rate of the output signal of the N channel generated through the second decoder 602.
도 7은 일실시예에 따른 제2 디코딩부의 동작을 설명하기 위한 도면이다.7 is a diagram for describing an operation of a second decoding unit, according to an exemplary embodiment.
도 5 및 도 6에서 설명했던 제2 디코딩부(701)는 N/2채널의 다운믹스 신호를 업믹싱함으로써, N채널의 출력 신호를 생성할 수 있다. 이 때, 제2 디코딩부(701)는 복수의 OTT 박스(702)를 포함할 수 있다. OTT 박스(702)는 1채널의 다운믹스 신호를 업믹싱하여 스테레오 형태의 2채널의 출력 신호를 생성할 수 있다.The second decoding unit 701 described with reference to FIGS. 5 and 6 may generate an output signal of the N channel by upmixing the downmix signal of the N / 2 channel. In this case, the second decoding unit 701 may include a plurality of OTT boxes 702. The OTT box 702 may generate two channels of output signals in stereo form by upmixing one channel of downmix signals.
따라서, 제2 디코딩부(701)가 N/2채널의 다운믹스 신호를 업믹싱함으로써 N채널의 출력 신호를 생성하기 위해서, 제2 디코딩부(701)는 N/2개의 OTT 박스(702)들을 포함할 수 있다.Accordingly, the second decoding unit 701 generates N / 2 OTT boxes 702 in order for the second decoding unit 701 to upmix the N / 2 channel downmix signal to generate the N channel output signal. It may include.
제2 디코딩부(701)가 기존의 MPS 표준을 따른다면, 제2 디코딩부(701)에 입력되어 처리될 수 있는 다운믹스 신호의 채널수는 1채널, 2채널, 또는 5.1채널할 수 있다. 하지만, 본 발명의 일실시예에 따르면, 제2 디코딩부(701)는 N/2채널의 다운믹스 신호로부터 MPS에 따라 N채널의 출력 신호를 생성할 수 있다. 여기서, N은 10.2 이상일 수 있다.If the second decoding unit 701 conforms to the existing MPS standard, the number of channels of the downmix signal input to the second decoding unit 701 and processed may be one channel, two channels, or 5.1 channels. However, according to an embodiment of the present invention, the second decoding unit 701 may generate an output signal of the N channel according to the MPS from the downmix signal of the N / 2 channel. Here, N may be 10.2 or more.
이 때, 제2 디코딩부(701)는 MPS를 제어하기 위해 추가적인 구문을 고려할 필요가 있다. 일례로, 제2 디코딩부(701)는 임의적인 트리(arbitrary tree)를 활용한 코딩 모드를 활용하여 MPS를 제어하기 위한 추가적인 구문을 정의할 수 있다.In this case, the second decoding unit 701 needs to consider additional syntax to control the MPS. For example, the second decoding unit 701 may define an additional syntax for controlling the MPS by using a coding mode using an arbitrary tree.
도 8 내지 도 12에서 설명하는 MPS 디코더는 도 5의 제2 디코딩부(503) 및 도 6의 제2 디코딩부(602)에 관한 것이다.The MPS decoder illustrated in FIGS. 8 to 12 is related to the second decoding unit 503 of FIG. 5 and the second decoding unit 602 of FIG. 6.
도 8은 N-N/2-N 구조(configuration)에 따라 다채널 신호를 처리하는 과정을 도시한다. 8 illustrates a process of processing a multichannel signal according to an N-N / 2-N configuration.
도 8은, MPEG SURROUND에 정의된 구조가 변경된 N-N/2-N 구조를 나타낸다. MPEG SURROUND의 경우, 표 1과 같이 디코더에서 공간적 합성(spatial synthesis)이 수행될 수 있다. 공간적 합성은 입력 신호들을 하이브리드 QMF 분석 뱅크(hybrid QMF(Quadrature Mirror Filter) analysis bank)를 통해 시간 도메인에서 비규칙적인(non-uniform) 서브밴드 도메인으로 변환할 수 있다. 여기서, 비규칙적이라는 의미는 하이브리드에 대응한다.8 shows an N-N / 2-N structure in which the structure defined in MPEG SURROUND is changed. In the case of MPEG SURROUND, spatial synthesis may be performed in a decoder as shown in Table 1. Spatial synthesis can transform the input signals from the time domain into a non-uniform subband domain through a hybrid Quadrature Mirror Filter (QMF) analysis bank. Here, the term irregular corresponds to a hybrid.
그러면, 디코더는 하이브리드 서브밴드에서 동작한다. 디코더는 인코더에서 전달된 공간 파라미터들(spatial parameter)에 기초하여 공간적인 합성을 수행함으로써 입력 신호들로부터 출력 신호를 생성할 수 있다. 그런 후, 디코더는 하이브리드 QMF 합성 뱅크(hybrid QMF synthesis bank)를 이용하여 출력 신호들을 하이브리드 서브밴드에서 시간 도메인으로 역변환할 수 있다.The decoder then operates in the hybrid subband. The decoder may generate an output signal from the input signals by performing spatial synthesis based on the spatial parameters passed by the encoder. The decoder can then use the hybrid QMF synthesis bank to inverse the output signals from the hybrid subband to the time domain.
Figure PCTKR2016001613-appb-I000001
Figure PCTKR2016001613-appb-I000001
도 8은 디코더가 수행하는 공간적인 합성을 혼합된 매트릭스를 통해 다채널 신호를 처리하는 과정을 설명한다. 기본적으로 MPEG SURROUND는 5-1-5 구조, 5-2-5 구조, 7-2-7 구조, 7-5-7 구조를 정의하고 있지만, 본 발명은 N-N/2-N구조를 제안한다.8 illustrates a process of processing a multi-channel signal through a mixed matrix of spatial synthesis performed by a decoder. Basically, MPEG SURROUND defines a 5-1-5 structure, a 5-2-5 structure, a 7-2-7 structure, and a 7-5-7 structure, but the present invention proposes an N-N / 2-N structure.
N-N/2-N 구조의 경우, N채널의 입력 신호가 N/2 채널의 다운믹스 신호로 변환된 후, N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호가 생성되는 과정을 나타낸다. 본 발명의 일실시예에 따른 디코더는 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 기본적으로, 본 발명의 N-N/2-N 구조에서 N채널의 개수는 제한이 없다. 즉, N-N/2-N 구조는 MPS에서 지원하는 채널 구조 뿐만 아니라, MPS에서 지원하지 않는 다채널 신호의 채널 구조까지 지원할 수 있다.In the case of the N-N / 2-N structure, after the input signal of the N channel is converted to the downmix signal of the N / 2 channel, the output signal of the N channel is generated from the downmix signal of the N / 2 channel. The decoder according to an embodiment of the present invention may generate the N-channel output signal by upmixing the N / 2 channel downmix signal. Basically, the number of N channels in the N-N / 2-N structure of the present invention is not limited. That is, the N-N / 2-N structure may support not only a channel structure supported by the MPS but also a channel structure of a multichannel signal not supported by the MPS.
도 8에서 N/2는 MPS를 통해 도출된 다운믹스 신호의 채널 개수를 의미한다. NumInCh는 다운믹스 신호의 채널 개수를 의미하고, NumOutCh는 출력 신호의 채널 개수를 의미한다. 구체적으로, 다운믹스 신호의 채널수인 NumInCh 는 N/2이다. 즉, NumInCh는 N/2개이고, NumOutCh는 N개이다.In FIG. 8, N / 2 means the number of channels of the downmix signal derived through the MPS. NumInCh means the number of channels of the downmix signal, NumOutCh means the number of channels of the output signal. Specifically, NumInCh, which is the number of channels of the downmix signal, is N / 2. In other words, NumInCh is N / 2 and NumOutCh is N.
도 8에서 N/2채널의 다운믹스 신호 (X0~XNumInch - 1)와 잔차 신호(res)들이 입력 벡터 X를 구성한다. 도 8에서 NumInCh는 N/2이므로, X0부터 XNumInCh - 1는 N/2 채널의 다운믹스 신호를 의미한다. OTT(One-To-Two) 박스의 개수가 N/2개 이므로, N/2 채널의 다운믹스 신호를 처리하기 위해 출력 신호의 채널 개수인 N은 짝수이어야 한다. 본 발명의 일실시에에 따르면, N은 10부터 32일 수 있다.In FIG. 8, the downmix signals X 0 to X NumInch 1 and the residual signals res of the N / 2 channels form an input vector X. In FIG. 8, since NumInCh is N / 2, X 0 to X NumInCh 1 represent downmix signals of N / 2 channels. Since the number of one-to-two (OTT) boxes is N / 2, N, the number of channels of the output signal, must be even to process the downmix signal of the N / 2 channel. According to an embodiment of the present invention, N may be from 10 to 32.
도 8에서, 1부터 M(NumInCh-NumLfe)로 라벨링된 디코릴레이터들, 비상관성 신호들, 잔차 신호들은 서로 다른 OTT 박스들에 대응한다. N-N/2-N 구조가 적용되는 다채널 신호를 위한 복원 과정은 트리 구조로 시각화될 수 있다.In FIG. 8, the decorrelators, uncorrelated signals, and residual signals labeled from 1 to M (NumInCh-NumLfe) correspond to different OTT boxes. The reconstruction process for the multi-channel signal to which the N-N / 2-N structure is applied can be visualized in a tree structure.
매트릭스 M1에 대응하는 벡터
Figure PCTKR2016001613-appb-I000002
와 곱해지는 입력 벡터 X는 N/2 채널의 다운믹스 신호를 포함하는 벡터를 의미한다. N채널의 출력 신호에 LFE(Low Frequency Effect) 채널이 N채널의 출력 신호에 포함되지 않는 경우, 비상관성 신호를 생성하는 비상관기(decorrelator)의 개수는 최대로 N/2가 될 수 있다. 그러나, 출력 신호의 채널 개수인 N이 20을 초과하는 경우, 비상관기의 필터들이 재사용될 수 있다.
Vector corresponding to matrix M1
Figure PCTKR2016001613-appb-I000002
The input vector X to be multiplied by means a vector including the downmix signal of the N / 2 channel. When the low frequency effect (LFE) channel is not included in the output signal of the N channel in the output signal of the N channel, the number of decorrelators generating the uncorrelated signal may be N / 2 at the maximum. However, if N, the channel number of the output signal, exceeds 20, the filters of the decorrelator can be reused.
비상관기의 출력 신호들의 직교성(orthogonality)을 보장하기 위해 N이 20인 경우 활용가능한 비상관기의 개수가 특정 개수(ex. 10개)로 제한될 필요가 있기 때문에, 몇몇의 비상관기의 인덱스들이 반복될 수 있다. 그래서, 본 발명의 바람직한 실시예에 의하면, N-N/2-N구조에서 출력 신호의 채널 개수인 N은 제한된 특정 개수의 2배(ex. N<20)보다 적을 필요가 있다. 만약, 출력 신호에 LFE 채널이 포함된 경우, N채널은 LFE 채널의 개수를 고려하여 특정 개수의 2배보다 좀더 많은 채널보다 작은 개수의 채널(ex. N<24)로 구성될 필요가 있다.In order to ensure orthogonality of the output signals of the decorrelator, some N decorator indexes are repeated because N is 20, the number of available decorrelators needs to be limited to a certain number (ex. 10). Can be. Therefore, according to a preferred embodiment of the present invention, N, which is the number of channels of the output signal in the N-N / 2-N structure, needs to be less than twice the limited specific number (ex. N <20). If the LFE channel is included in the output signal, the N channel needs to be configured with a smaller number of channels (eg, N <24) than more than twice the specific number in consideration of the number of LFE channels.
그리고, 비상관기들의 출력 결과는 비트스트림에 의존하여 특정 주파수 영역에 대한 잔차 신호로 대체될 수 있다. LFE 채널이 OTT 박스의 출력 중 하나인 경우, 업믹스에 기초한 OTT 박스에 대해 비상관기가 사용되지 않는다.And, the output result of the decorrelators may be replaced with the residual signal for a specific frequency region depending on the bitstream. If the LFE channel is one of the outputs of the OTT box, no decorrelator is used for the OTT box based on the upmix.
도 8에서 1부터 M(ex. NumInCh-NumLfe)로 라벨링된 비상관기들, 비상관기의 출력 결과(비상관된 신호), 잔차 신호들은 서로 다른 OTT 박스들에 대응한다. d1~dM은 비상관기(D1~DM)의 출력 결과인 비상관된 신호를 의미하고, res1~resM은 비상관기(D1~DM)의 출력 결과인 잔차 신호를 의미한다. 그리고, 비상관기 D1~DM은 서로 다른 OTT박스들 각각에 대응한다.In FIG. 8, the decorrelators labeled M (ex. NumInCh-NumLfe) from 1, the output result of the decorrelator (uncorrelated signal), and residual signals correspond to different OTT boxes. d 1 ~ d M means uncorrelated signal which is the output result of the decorrelator (D 1 ~ D M ), res 1 ~ res M means the residual signal which is the output result of the decorrelator (D 1 ~ D M ) do. The decorrelators D1 to DM correspond to different OTT boxes, respectively.
이하에서는, N-N/2-N 구조에서 사용되는 벡터와 매트릭스에 대해 정의된다. N-2/N-N 구조에서 비상관기들에 입력되는 입력 신호는 벡터
Figure PCTKR2016001613-appb-I000003
로 정의된다.
In the following, vectors and matrices used in the NN / 2-N structure are defined. Input signals to decorators in N-2 / NN structures are vectors
Figure PCTKR2016001613-appb-I000003
Is defined as
벡터
Figure PCTKR2016001613-appb-I000004
는 시간적인 쉐이핑 툴(termporal shaping tool)이 사용되는지 또는 사용되지 않는지에 따라 다르게 결정될 수 있다.
vector
Figure PCTKR2016001613-appb-I000004
Can be determined differently depending on whether a temporal shaping tool is used or not.
(1) 시간적인 쉐이핑 툴(termporal shaping tool)이 사용되지 않는 경우(1) When a term shaping tool is not used
시간적인 쉐이핑 툴이 사용되지 않는 경우, 벡터
Figure PCTKR2016001613-appb-I000005
는 수학식 1에 따라 벡터
Figure PCTKR2016001613-appb-I000006
와 매트릭스 M1에 대응하는
Figure PCTKR2016001613-appb-I000007
에 의해 도출된다. 그리고,
Figure PCTKR2016001613-appb-I000008
은 N번째 행에 1번째 열의 매트릭스를 의미한다.
Vector if no temporal shaping tool is used
Figure PCTKR2016001613-appb-I000005
Is based on Equation 1
Figure PCTKR2016001613-appb-I000006
Corresponding to matrix M1
Figure PCTKR2016001613-appb-I000007
Is derived by. And,
Figure PCTKR2016001613-appb-I000008
Is the matrix of the first column in the Nth row.
Figure PCTKR2016001613-appb-I000009
Figure PCTKR2016001613-appb-I000009
Figure PCTKR2016001613-appb-I000010
Figure PCTKR2016001613-appb-I000010
이 때, 수학식 1에서 벡터
Figure PCTKR2016001613-appb-I000011
의 엘리먼트 중에서
Figure PCTKR2016001613-appb-I000012
내지
Figure PCTKR2016001613-appb-I000013
는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되지 않고 직접적으로 매트릭스 M2에 입력될 수 있다. 그래서,
Figure PCTKR2016001613-appb-I000014
내지
Figure PCTKR2016001613-appb-I000015
는 다이렉트 신호(direct signal)로 정의될 수 있다. 그리고, 벡터
Figure PCTKR2016001613-appb-I000016
의 엘리먼트 중에서
Figure PCTKR2016001613-appb-I000017
내지
Figure PCTKR2016001613-appb-I000018
를 제외한 나머지 신호들(
Figure PCTKR2016001613-appb-I000019
내지
Figure PCTKR2016001613-appb-I000020
)는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기들에 입력될 수 있다.
In this case, the vector in Equation 1
Figure PCTKR2016001613-appb-I000011
Of elements in
Figure PCTKR2016001613-appb-I000012
To
Figure PCTKR2016001613-appb-I000013
May be input directly to the matrix M2 without being input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes. so,
Figure PCTKR2016001613-appb-I000014
To
Figure PCTKR2016001613-appb-I000015
May be defined as a direct signal. And vector
Figure PCTKR2016001613-appb-I000016
Of elements in
Figure PCTKR2016001613-appb-I000017
To
Figure PCTKR2016001613-appb-I000018
Signals other than
Figure PCTKR2016001613-appb-I000019
To
Figure PCTKR2016001613-appb-I000020
) May be input to the N / 2 decorrelators corresponding to the N / 2 OTT boxes.
벡터
Figure PCTKR2016001613-appb-I000021
는 다이렉트 신호, 비상관기들로부터 출력된 비상관된 신호들(decorrelated signals)인 d1~dM 및 비상관기들로부터 출력된 잔차 신호들인 res1~resM로 구성된다. 벡터
Figure PCTKR2016001613-appb-I000022
는 하기 수학식 2에 의해 결정될 수 있다.
vector
Figure PCTKR2016001613-appb-I000021
Is composed of a direct signal, d 1 to d M which are decorrelated signals output from decorrelators, and res 1 to res M which are residual signals output from decorrelators. vector
Figure PCTKR2016001613-appb-I000022
May be determined by Equation 2 below.
Figure PCTKR2016001613-appb-I000023
Figure PCTKR2016001613-appb-I000023
Figure PCTKR2016001613-appb-I000024
Figure PCTKR2016001613-appb-I000024
수학식 2에서
Figure PCTKR2016001613-appb-I000025
로 정의되고,
Figure PCTKR2016001613-appb-I000026
Figure PCTKR2016001613-appb-I000027
를 만족하는 모든 k의 집합을 의미한다. 그리고,
Figure PCTKR2016001613-appb-I000028
는 신호
Figure PCTKR2016001613-appb-I000029
가 비상관기
Figure PCTKR2016001613-appb-I000030
에 입력되었을 때, 비상관기로부터 출력되는 비상관된 신호를 의미한다. 특히,
Figure PCTKR2016001613-appb-I000031
는 OTT 박스가 OTTx이고, 잔차 신호가
Figure PCTKR2016001613-appb-I000032
인 경우에 비상관기로부터 출력되는 신호를 의미한다.
In equation (2)
Figure PCTKR2016001613-appb-I000025
Defined as
Figure PCTKR2016001613-appb-I000026
Is
Figure PCTKR2016001613-appb-I000027
Means a set of all k satisfying And,
Figure PCTKR2016001613-appb-I000028
Signal
Figure PCTKR2016001613-appb-I000029
Fall decorator
Figure PCTKR2016001613-appb-I000030
When input to, it means the uncorrelated signal output from the decorator. Especially,
Figure PCTKR2016001613-appb-I000031
Is the OTT box is OTTx and the residual signal is
Figure PCTKR2016001613-appb-I000032
In the case of means the signal output from the decorator.
출력 신호의 서브 밴드는 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 종속적으로 정의될 수 있다. 출력 신호
Figure PCTKR2016001613-appb-I000033
는 벡터 w와 매트릭스 M2를 통해 하기 수학식 3에 의해 결정될 수 있다.
The subbands of the output signal can be defined dependently for all time slots n and all hybrid subbands k. Output signal
Figure PCTKR2016001613-appb-I000033
Can be determined by Equation 3 through the vector w and the matrix M2 .
Figure PCTKR2016001613-appb-I000034
Figure PCTKR2016001613-appb-I000034
Figure PCTKR2016001613-appb-I000035
Figure PCTKR2016001613-appb-I000035
여기서,
Figure PCTKR2016001613-appb-I000036
는 NumOutCh 행과 NumInCh-NumLfe 열로 구성된 매트릭스 M2를 의미한다.
Figure PCTKR2016001613-appb-I000037
Figure PCTKR2016001613-appb-I000038
에 대해 하기 수학식 4에 의해 정의될 수 있다.
here,
Figure PCTKR2016001613-appb-I000036
Denotes a matrix M2 composed of NumOutCh rows and NumInCh-NumLfe columns.
Figure PCTKR2016001613-appb-I000037
Is
Figure PCTKR2016001613-appb-I000038
Can be defined by Equation 4 below.
Figure PCTKR2016001613-appb-I000040
Figure PCTKR2016001613-appb-I000040
여기서,
Figure PCTKR2016001613-appb-I000041
로 정의된다. 그리고,
Figure PCTKR2016001613-appb-I000042
는 하기 수학식 5에 따라 스무딩될 수 있다.
here,
Figure PCTKR2016001613-appb-I000041
Is defined as And,
Figure PCTKR2016001613-appb-I000042
Can be smoothed according to Equation 5 below.
Figure PCTKR2016001613-appb-I000043
Figure PCTKR2016001613-appb-I000043
Figure PCTKR2016001613-appb-I000044
Figure PCTKR2016001613-appb-I000044
여기서,
Figure PCTKR2016001613-appb-I000045
는 첫번째 행이 하이브리드 밴드 k이고, 두번째 행이 대응하는 프로세싱 밴드인 함수를 의미한다.
Figure PCTKR2016001613-appb-I000046
는 이전 프레임의 마지막 파라미터 셋트에 대응한다.
here,
Figure PCTKR2016001613-appb-I000045
Denotes a function where the first row is hybrid band k and the second row is the corresponding processing band.
Figure PCTKR2016001613-appb-I000046
Corresponds to the last parameter set of the previous frame.
한편,
Figure PCTKR2016001613-appb-I000047
에 의해 하이브리드 합성 필터뱅크를 통해 시간 도메인으로 합성될 수 있는 하이브리드 서브밴드 신호들을 의미한다. 여기서, 하이브리드 합성 필터뱅크는 나이퀴스트 합성 뱅크(Nyquist synthesis banks)를 거쳐 QMF 합성 뱅크(QMF synthesis bank)를 조합한 것으로,
Figure PCTKR2016001613-appb-I000048
는 하이브리드 합성 필터뱅크를 통해 하이브리드 서브밴드 도메인에서 시간 도메인으로 변환될 수 있다.
Meanwhile,
Figure PCTKR2016001613-appb-I000047
By means the hybrid subband signals that can be synthesized in the time domain through the hybrid synthesis filter bank. Here, the hybrid synthesis filter bank is a combination of the QMF synthesis bank through the Nyquist synthesis banks,
Figure PCTKR2016001613-appb-I000048
Can be transformed from the hybrid subband domain to the time domain through a hybrid synthesis filterbank.
(2) 시간적인 쉐이핑 툴이 사용되는 경우(2) when temporal shaping tools are used
만약 시간적인 쉐이핑 툴이 사용되는 경우, 벡터
Figure PCTKR2016001613-appb-I000049
는 앞서 설명한 것과 동일하나, 벡터
Figure PCTKR2016001613-appb-I000050
는 하기 수학식 6, 수학식 7과 같이 2가지의 벡터로 구분될 수 있다.
If temporal shaping tools are used, vectors
Figure PCTKR2016001613-appb-I000049
Is the same as described above, but the vector
Figure PCTKR2016001613-appb-I000050
May be divided into two vectors as shown in Equations 6 and 7 below.
Figure PCTKR2016001613-appb-I000051
Figure PCTKR2016001613-appb-I000051
Figure PCTKR2016001613-appb-I000052
Figure PCTKR2016001613-appb-I000052
Figure PCTKR2016001613-appb-I000053
Figure PCTKR2016001613-appb-I000053
Figure PCTKR2016001613-appb-I000054
Figure PCTKR2016001613-appb-I000054
Figure PCTKR2016001613-appb-I000055
는 비상관기들을 거치지 않고 직접 매트릭스 M2로 입력되는 다이렉트 신호와 비상관기로부터 출력된 잔차 신호들을 의미하고,
Figure PCTKR2016001613-appb-I000056
는 비상관기로부터 출력된 비상관된 신호를 의미한다. 그리고,
Figure PCTKR2016001613-appb-I000057
로 정의되며,
Figure PCTKR2016001613-appb-I000058
Figure PCTKR2016001613-appb-I000059
를 만족하는 모든 k의 집합을 의미한다. 또한, 비상관기
Figure PCTKR2016001613-appb-I000060
에 입력 신호
Figure PCTKR2016001613-appb-I000061
가 입력되는 경우,
Figure PCTKR2016001613-appb-I000062
는 비상관기
Figure PCTKR2016001613-appb-I000063
로부터 출력되는 비상관된 신호를 의미한다.
Figure PCTKR2016001613-appb-I000055
Denotes a direct signal input directly to the matrix M2 and residual signals output from the decorrelator without passing through the decorrelators,
Figure PCTKR2016001613-appb-I000056
Means uncorrelated signal output from the decorrelator. And,
Figure PCTKR2016001613-appb-I000057
Is defined as
Figure PCTKR2016001613-appb-I000058
Is
Figure PCTKR2016001613-appb-I000059
Means a set of all k satisfying Also, decorator
Figure PCTKR2016001613-appb-I000060
Input signal to
Figure PCTKR2016001613-appb-I000061
Is entered,
Figure PCTKR2016001613-appb-I000062
Decorator
Figure PCTKR2016001613-appb-I000063
Means the uncorrelated signal output from.
수학식 6, 수학식 7에 정의된
Figure PCTKR2016001613-appb-I000064
Figure PCTKR2016001613-appb-I000065
로 인해 최종적으로 출력되는 신호는
Figure PCTKR2016001613-appb-I000066
Figure PCTKR2016001613-appb-I000067
로 구분될 수 있다.
Figure PCTKR2016001613-appb-I000068
는 다이렉트 신호(direct signal)를 포함하고,
Figure PCTKR2016001613-appb-I000069
는 확산 신호(diffuse signal)를 포함한다. 즉,
Figure PCTKR2016001613-appb-I000070
는 비상관기를 통과하지 않고 매트릭스 M2에 직접 입력된 다이렉트 신호로부터 도출된 결과이고,
Figure PCTKR2016001613-appb-I000071
는 비상관기에서 출력되어 매트릭스 M2에 입력된 확산 신호로부터 도출된 결과이다.
As defined in Equation 6 and Equation 7.
Figure PCTKR2016001613-appb-I000064
Wow
Figure PCTKR2016001613-appb-I000065
The final output signal is
Figure PCTKR2016001613-appb-I000066
Wow
Figure PCTKR2016001613-appb-I000067
It can be divided into.
Figure PCTKR2016001613-appb-I000068
Includes a direct signal,
Figure PCTKR2016001613-appb-I000069
Includes a diffuse signal. In other words,
Figure PCTKR2016001613-appb-I000070
Is the result derived from the direct signal input directly to the matrix M2 without passing through the decorrelator,
Figure PCTKR2016001613-appb-I000071
Is the result derived from the spread signal output from the decorrelator and input to the matrix M2.
만약, 서브밴드 도메인 시간 프로세싱(Subband Domain Temporal Processing: STP)가 N-N/2-N 구조에 사용되는 경우, 가이드된 포락선 쉐이핑(Guided Envelope Shaping: GES)이 N-N/2-N 구조에 사용되는 경우로 구분되어
Figure PCTKR2016001613-appb-I000072
Figure PCTKR2016001613-appb-I000073
가 도출된다. 이 때,
Figure PCTKR2016001613-appb-I000074
Figure PCTKR2016001613-appb-I000075
는 데이터스트림 엘리먼트인 bsTempShapeConfig로 식별된다.
If Subband Domain Temporal Processing (STP) is used for the NN / 2-N structure, Guided Envelope Shaping (GES) is used for the NN / 2-N structure. Separately
Figure PCTKR2016001613-appb-I000072
Wow
Figure PCTKR2016001613-appb-I000073
Is derived. At this time,
Figure PCTKR2016001613-appb-I000074
Wow
Figure PCTKR2016001613-appb-I000075
Is identified by the datastream element bsTempShapeConfig.
<STP가 사용되는 경우><When STP is used>
출력 신호의 채널들 간의 비상관 정도를 합성하기 위해, 공간적인 합성을 위한 비상관기를 통해 확산 신호가 생성된다. 이 때, 생성된 확산 신호는 다이렉트 신호와 믹싱될 수 있다. 일반적으로 확산 신호의 시간적인 포락선은 다이렉트 신호의 포락선과 매칭되지 않는다In order to synthesize the degree of decorrelation between the channels of the output signal, a spreading signal is generated through the decorrelator for spatial synthesis. In this case, the generated spread signal may be mixed with the direct signal. In general, the temporal envelope of the spread signal does not match the envelope of the direct signal.
이 때, 서브밴드 도메인 시간 프로세싱은 출력 신호의 각각의 확산 신호 부분의 포락선을 인코더로부터 전송된 다운믹스 신호의 시간적인 모양(termpoal shape)에 매칭되도록 쉐이핑하기 위해 사용된다. 이러한 프로세싱은 다이렉트 신호와 확산 신호에 대해 포락선 비율 계산 또는 확산 신호의 상위 스펙트럼 부분의 쉐이핑과 같은 포락선 추정으로 구현될 수 있다.At this time, subband domain time processing is used to shape the envelope of each spreading signal portion of the output signal to match the temporal shape of the downmix signal transmitted from the encoder. Such processing may be implemented with envelope estimation, such as envelope ratio calculation for direct and spread signals or shaping of the upper spectral portion of the spread signal.
즉, 업믹싱을 통해 생성된 출력 신호에서 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선이 추정될 수 있다. 쉐이핑 펙터는 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선 간의 비율로 계산될 수 있다.That is, the temporal energy envelope of the portion corresponding to the direct signal and the portion corresponding to the spread signal in the output signal generated through upmixing can be estimated. The shaping factor may be calculated as the ratio between the temporal energy envelope for the portion corresponding to the direct signal and the portion corresponding to the spread signal.
STP는
Figure PCTKR2016001613-appb-I000076
로 시그널링될 수 있다. 만약,
Figure PCTKR2016001613-appb-I000077
인 경우, 업믹싱을 통해 생성된 출력 신호의 확산 신호 부분이 STP를 통해 처리될 수 있다.
STP
Figure PCTKR2016001613-appb-I000076
May be signaled as. if,
Figure PCTKR2016001613-appb-I000077
If, the spread signal portion of the output signal generated through upmixing can be processed via STP.
한편, 출력 신호를 생성하기 위한 공간적인 업믹스에 대해 전송된 원본 다운믹스 신호의 지연 정렬(delay alignment)의 필요성을 줄이기 위해, 공간적인 업믹스의 다운믹스는 전송된 원본 다운믹스 신호의 근사값(approximation)으로 계산될 수 있다. On the other hand, in order to reduce the need for delay alignment of the transmitted original downmix signal relative to the spatial upmix for generating the output signal, the downmix of the spatial upmix is approximated with the transmitted original downmix signal ( approximation).
N-N/2-N 구조에 대해, (NumInCh-NumLfe)에 대한 다이렉트 다운믹스 신호는 하기 수학식 8에 의해 정의될 수 있다.For the N-N / 2-N structure, the direct downmix signal for (NumInCh-NumLfe) may be defined by Equation 8 below.
Figure PCTKR2016001613-appb-I000078
Figure PCTKR2016001613-appb-I000078
Figure PCTKR2016001613-appb-I000079
Figure PCTKR2016001613-appb-I000079
여기서,
Figure PCTKR2016001613-appb-I000080
는 N-N/2-N 구조에 대해 출력 신호의 채널 d에 대응하는 출력 신호의 쌍(pair-wise)을 포함한다.
Figure PCTKR2016001613-appb-I000081
는 N-N/2-N 구조에 대해 하기 표 2와 같이 정의될 수 있다.
here,
Figure PCTKR2016001613-appb-I000080
Includes a pair-wise output signal corresponding to channel d of the output signal for the NN / 2-N structure.
Figure PCTKR2016001613-appb-I000081
May be defined as shown in Table 2 below for the NN / 2-N structure.
Figure PCTKR2016001613-appb-T000001
Figure PCTKR2016001613-appb-T000001
다운믹스의 브로드밴드 포락선들과 각각의 업믹스 채널의 확산 신호 부분에 대한 포락선은 정규화된 다이렉트 에너지를 이용하여 하기 수학식 9에 따라 추정될 수 있다.The envelopes of the downmix broadband envelopes and the spread signal portion of each upmix channel can be estimated using Equation 9 below using normalized direct energy.
Figure PCTKR2016001613-appb-I000082
Figure PCTKR2016001613-appb-I000082
Figure PCTKR2016001613-appb-I000083
Figure PCTKR2016001613-appb-I000083
여기서,
Figure PCTKR2016001613-appb-I000084
는 밴드패스 팩터(bandpass factor)를 의미하고,
Figure PCTKR2016001613-appb-I000085
는 스펙트럴 플랫터링 팩터(spectral flattering factor)를 의미한다.
here,
Figure PCTKR2016001613-appb-I000084
Means a bandpass factor,
Figure PCTKR2016001613-appb-I000085
Denotes a spectral flattering factor.
N-N/2-N 구조에서 NumInCh-NumLfe에 대한 다이렉트 신호가 존재하므로,
Figure PCTKR2016001613-appb-I000086
를 만족하는 다이렉트 신호의 에너지인
Figure PCTKR2016001613-appb-I000087
는 MPEG Surround에서 정의하는 5-1-5 구조와 동일한 방식으로 획득될 수 있다. 최종 포락선 처리에 대한 스케일 팩터는 하기 수학식 10과 같이 정의될 수 있다.
Since there is a direct signal for NumInCh-NumLfe in the NN / 2-N structure,
Figure PCTKR2016001613-appb-I000086
Energy of the direct signal satisfying
Figure PCTKR2016001613-appb-I000087
Can be obtained in the same manner as the 5-1-5 structure defined in MPEG Surround. The scale factor for the final envelope process may be defined as in Equation 10 below.
Figure PCTKR2016001613-appb-I000088
Figure PCTKR2016001613-appb-I000088
Figure PCTKR2016001613-appb-I000089
Figure PCTKR2016001613-appb-I000089
수학식 10에서 스케일 팩터는 N-N/2-N 구조에 대해
Figure PCTKR2016001613-appb-I000090
인 경우에 정의될 수 있다. 그러면, 출력 신호의 확산 신호 부분에 스케일 팩터가 적용됨으로써 출력 신호의 시간적인 포락선이 실질적으로 다운믹스 신호의 시간적인 포락선에 매핑한다. 그러면, N채널의 출력 신호들의 각각의 채널에서 스케일 펙터로 처리된 확산 신호 부분은 다이렉트 신호 부분과 믹싱될 수 있다. 그러면, 출력 신호의 채널별로 확장 신호 부분이 스케일 팩터로 처리되었는지 여부가 시그널링될 수 있다. (
Figure PCTKR2016001613-appb-I000091
)인 경우, 확장 신호 부분이 스케일 팩터로 처리되었다는 것을 나타냄)
In Equation 10, the scale factor for the NN / 2-N structure
Figure PCTKR2016001613-appb-I000090
Can be defined. The scale factor is then applied to the spread signal portion of the output signal, thereby mapping the temporal envelope of the output signal to substantially the temporal envelope of the downmix signal. Then, the spread signal portion processed by the scale factor in each channel of the output signals of the N channels may be mixed with the direct signal portion. Then, it may be signaled whether the extension signal portion has been processed in the scale factor for each channel of the output signal. (
Figure PCTKR2016001613-appb-I000091
) Indicates that the extension signal portion was processed with the scale factor.)
<GES가 사용되는 경우 ><When GES is used>
앞서 설명한 출력 신호의 확장 신호 부분에 시간적인 쉐이핑을 수행하는 경우, 특징적인 왜곡이 발생될 가능성이 있다. 그래서, 가이드된 포락선 쉐이핑 (Guided Envelope Shaping :GES)은 왜곡 문제를 해결하면서 시간적/공간적인 품질을 향상시킬 수 있다. 디코더에서 출력 신호의 다이렉트 신호 부분과 확장 신호 부분을 개별적으로 처리하는데, GES가 적용되면 업믹싱된 출력 신호의 다이렉트 신호 부분만 변경될 수 있다.When temporal shaping is performed on the extended signal portion of the output signal described above, characteristic distortion may occur. Thus, Guided Envelope Shaping (GES) can improve temporal / spatial quality while solving distortion problems. The decoder processes the direct signal portion and the extension signal portion of the output signal separately, but when GES is applied, only the direct signal portion of the upmixed output signal can be changed.
GES는 합성된 출력 신호의 브로드밴드 포락선을 복원할 수 있다. GES는 출력 신호의 각 채널별로 다이렉트 신호 부분에 대해 포락선을 평편화(flatterning)하고 리쉐이핑(reshaping)하는 과정 이후에 수정된 업믹싱 과정을 포함한다.GES can recover the broadband envelope of the synthesized output signal. GES includes a modified upmixing process after flattening and reshaping the envelope for the direct signal portion for each channel of the output signal.
리쉐이핑에 대해, 비트스트림에 포함된 파라메트릭 브로드밴드 포락선(parametric broadband envelop)의 부가 정보가 사용될 수 있다. 부가 정보는 원본 입력 신호의 포락선과 다운믹스 신호의 포락선에 대한 포락선 비율을 포함한다. 디코더에서 포락선 비율은 출력 신호의 채널별로 프레임에 포함된 각각의 타임 슬롯의 다이렉트 신호 부분에 적용될 수 있다. GES로 인해 출력 신호의 채널별로 확산 신호 부분은 변경(alter)되지 않는다.For reshaping, additional information of a parametric broadband envelope included in the bitstream may be used. The additional information includes the envelope ratio of the envelope of the original input signal and the envelope of the downmix signal. The envelope ratio at the decoder may be applied to the direct signal portion of each time slot included in the frame for each channel of the output signal. The GES does not alter the spread signal portion for each channel of the output signal.
만약,
Figure PCTKR2016001613-appb-I000092
인 경우, GES 과정이 진행될 수 있다. 만약, GES가 사용가능하다면, 출력 신호의 확장 신호와 다이렉트 신호는 하기 수학식 11에 따라 하이브리드 서브밴드 도메인에서 수정된 포스트 믹싱 매트릭스(M2)을 이용하여 각각 합성될 수 있다.
if,
Figure PCTKR2016001613-appb-I000092
If, the GES process may proceed. If GES is available, the extension signal and the direct signal of the output signal may be respectively synthesized using the post mixing matrix M2 modified in the hybrid subband domain according to Equation 11 below.
Figure PCTKR2016001613-appb-I000093
Figure PCTKR2016001613-appb-I000093
Figure PCTKR2016001613-appb-I000094
Figure PCTKR2016001613-appb-I000094
수학식 11에서 출력 신호 y에 대한 다이렉트 신호 부분은 다이렉트 신호와 잔차 신호를 제공하고, 출력 신호 y에 대한 확장 신호 부분은 확장 신호를 제공한다. 전체적으로, GES에 의해 다이렉트 신호만 처리될 수 있다.In Equation 11, the direct signal portion for the output signal y provides the direct signal and the residual signal, and the extension signal portion for the output signal y provides the extension signal. In total, only the direct signal can be processed by the GES.
GES가 처리된 결과는 하기 수학식 12에 따라 결정될 수 있다.The result of processing the GES may be determined according to Equation 12 below.
Figure PCTKR2016001613-appb-I000095
Figure PCTKR2016001613-appb-I000095
Figure PCTKR2016001613-appb-I000096
Figure PCTKR2016001613-appb-I000096
GES는 트리 구조에 의존하여 LFE 채널을 제외한 공간적인 합성을 수행하는 다운믹스 신호 및 디코더에 의해 다운믹스 신호로부터 업믹싱된 출력 신호의 특정 채널에 대해 포락선을 추출할 수 있다. The GES can extract an envelope for a particular channel of the upmixed output signal from the downmix signal by the downmix signal and decoder that performs spatial synthesis except the LFE channel depending on the tree structure.
N-N/2-N 구조에서 출력 신호
Figure PCTKR2016001613-appb-I000097
는 하기 표 3과 같이 정의될 수 있다.
Output signal in NN / 2-N structure
Figure PCTKR2016001613-appb-I000097
May be defined as shown in Table 3 below.
Figure PCTKR2016001613-appb-T000002
Figure PCTKR2016001613-appb-T000002
그리고, N-N/2-N 구조에서 입력 신호
Figure PCTKR2016001613-appb-I000098
는 하기 표 4와 같이 정의될 수 있다.
And, the input signal in the NN / 2-N structure
Figure PCTKR2016001613-appb-I000098
May be defined as shown in Table 4 below.
Figure PCTKR2016001613-appb-T000003
Figure PCTKR2016001613-appb-T000003
또한, N-N/2-N 구조에서 다운믹스 신호
Figure PCTKR2016001613-appb-I000099
는 하기 표 5와 같이 정의될 수 있다.
Also, downmix signals in NN / 2-N structures
Figure PCTKR2016001613-appb-I000099
May be defined as shown in Table 5 below.
Figure PCTKR2016001613-appb-T000004
Figure PCTKR2016001613-appb-T000004
이하에서는, 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 정의된 매트릭스 M1 (
Figure PCTKR2016001613-appb-I000100
)과 매트릭스 M2(
Figure PCTKR2016001613-appb-I000101
)에 대해 설명하기로 한다. 이들 매트릭스들은 파라미터 타임 슬롯과 프로세싱 밴드에 유효한 CLD, ICC, CPC 파라미터들에 기초하여 주어진 파라미터 타임 슬롯 l과 주어진 프로세싱 밴드 m에 대해 정의된
Figure PCTKR2016001613-appb-I000102
Figure PCTKR2016001613-appb-I000103
의 보간된 버전이다.
In the following, the matrix M1 (defined for all time slots n and all hybrid subbands k)
Figure PCTKR2016001613-appb-I000100
) And the matrix M2 (
Figure PCTKR2016001613-appb-I000101
) Will be described. These matrices are defined for a given parameter time slot and given processing band m based on the parameter time slot and the CLD, ICC and CPC parameters valid for the processing band.
Figure PCTKR2016001613-appb-I000102
And
Figure PCTKR2016001613-appb-I000103
Interpolated version of.
<매트릭스 M1 (Pre-Matrix)의 정의><Definition of Matrix M1 (Pre-Matrix)>
도 8의 N-N/2-N 구조에서 매트릭스 M1에 대응하는
Figure PCTKR2016001613-appb-I000104
는 디코더에서 사용되는 비상관기들에 다운믹스 신호가 어떻게 입력되는지를 설명한다. 매트릭스 M1은 프리 매트릭스로 표현될 수 있다.
Corresponding to matrix M1 in the NN / 2-N structure of FIG. 8
Figure PCTKR2016001613-appb-I000104
Describes how the downmix signal is input to the decorrelators used in the decoder. Matrix M1 may be expressed as a free matrix.
매트릭스 M1의 크기는 매트릭스 M1에 입력되는 다운믹스 신호의 채널 개수와 디코더에서 사용되는 비상관기의 개수에 의존한다. 반면에 매트릭스 M1의 엘리먼트들은 CLD 및/또는 CPC 파라미터들로부터 도출될 수 있다. M1은 이하 수학식 13에 의해 정의될 수 있다.The size of the matrix M1 depends on the number of channels of the downmix signal input to the matrix M1 and the number of decorrelators used in the decoder. On the other hand, the elements of the matrix M1 may be derived from the CLD and / or CPC parameters. M1 may be defined by Equation 13 below.
Figure PCTKR2016001613-appb-I000105
Figure PCTKR2016001613-appb-I000105
Figure PCTKR2016001613-appb-I000106
Figure PCTKR2016001613-appb-I000106
이 때,
Figure PCTKR2016001613-appb-I000107
로 정의된다.
At this time,
Figure PCTKR2016001613-appb-I000107
Is defined as
한편,
Figure PCTKR2016001613-appb-I000108
는 하기 수학식 14 의해 스무딩될 수 있다.
Meanwhile,
Figure PCTKR2016001613-appb-I000108
Can be smoothed by the following equation (14).
Figure PCTKR2016001613-appb-I000109
Figure PCTKR2016001613-appb-I000109
Figure PCTKR2016001613-appb-I000110
Figure PCTKR2016001613-appb-I000110
여기서,
Figure PCTKR2016001613-appb-I000111
Figure PCTKR2016001613-appb-I000112
에서 첫번째 행은 하이브리드 서브밴드
Figure PCTKR2016001613-appb-I000113
이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드
Figure PCTKR2016001613-appb-I000114
에 대해 의 복소 컨주게이션(complex conjugation)인
Figure PCTKR2016001613-appb-I000115
이다. 그리고,
Figure PCTKR2016001613-appb-I000116
는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
here,
Figure PCTKR2016001613-appb-I000111
Wow
Figure PCTKR2016001613-appb-I000112
First row in the hybrid subband
Figure PCTKR2016001613-appb-I000113
Where the second row is the processing band and the third row is the specific hybrid subband
Figure PCTKR2016001613-appb-I000114
Is a complex conjugation of
Figure PCTKR2016001613-appb-I000115
to be. And,
Figure PCTKR2016001613-appb-I000116
Means the last parameter set of the previous frame.
매트릭스 M1을 위한 매트릭스
Figure PCTKR2016001613-appb-I000117
은 아래와 같이 정의될 수 있다.
Matrix for Matrix M1
Figure PCTKR2016001613-appb-I000117
May be defined as follows.
(1) 매트릭스 R1(1) matrix R1
매트릭스
Figure PCTKR2016001613-appb-I000118
은 비상관기들에 입력되는 신호의 개수를 제어할 수 있다. 이것은 비상관된 신호를 추가하지 않기 때문에, 오직 CLD와 CPC의 함수로 표현될 수 있다.
matrix
Figure PCTKR2016001613-appb-I000118
May control the number of signals input to the decorrelators. Since it does not add uncorrelated signals, it can only be expressed as a function of CLD and CPC.
매트릭스
Figure PCTKR2016001613-appb-I000119
은 채널 구조에 따라 다르게 정의될 수 있다. N-N/2-N 구조에서, OTT 박스들이 캐스케이드되지 않도록 하기 위해, OTT 박스에 입력 신호의 모든 채널이 2채널씩 쌍이 되어 입력될 수 있다. 그래서, N-N/2-N 구조의 경우, OTT 박스의 개수는 N/2이다.
matrix
Figure PCTKR2016001613-appb-I000119
May be defined differently according to the channel structure. In the NN / 2-N structure, in order to prevent OTT boxes from being cascaded, all channels of an input signal may be input in pairs by 2 channels to the OTT box. So, for the NN / 2-N structure, the number of OTT boxes is N / 2.
이 경우, 매트릭스
Figure PCTKR2016001613-appb-I000120
는 입력 신호를 포함하는 벡터
Figure PCTKR2016001613-appb-I000121
의 열 사이즈(column size)와 동일한 OTT 박스의 개수에 의존한다. 그렇지만, OTT 박스에 기초한 Lfe 업믹스는 비상관기가 필요하지 않기 때문에, N-N/2-N 구조에서는 고려되지 않는다. 매트릭스
Figure PCTKR2016001613-appb-I000122
의 모든 엘리먼트는 1 또는 0 중 어느 하나일 수 있다.
In this case, the matrix
Figure PCTKR2016001613-appb-I000120
Is a vector containing the input signal
Figure PCTKR2016001613-appb-I000121
It depends on the number of OTT boxes equal to its column size. However, Lfe upmixes based on OTT boxes are not considered in the NN / 2-N architecture since no decorrelator is needed. matrix
Figure PCTKR2016001613-appb-I000122
All elements of may be either 1 or 0.
N-N/2-N 구조에서
Figure PCTKR2016001613-appb-I000123
는 하기 수학식 15에 의해 정의될 수 있다.
In the NN / 2-N structure
Figure PCTKR2016001613-appb-I000123
May be defined by Equation 15 below.
Figure PCTKR2016001613-appb-I000124
Figure PCTKR2016001613-appb-I000124
Figure PCTKR2016001613-appb-I000125
Figure PCTKR2016001613-appb-I000125
N-N/2-N 구조에서 모든 OTT 박스들은 케스케이드가 아닌 병렬적인 프로세싱 스테이지(parallele processing satge)를 표현한다. 그러므로, N-N/2-N 구조에서 모든 OTT 박스들은 어떤 다른 OTT 박스들과 연결되지 않는다. 그래서, 매트릭스 는 단위 매트릭스
Figure PCTKR2016001613-appb-I000126
와 단위 매트릭스
Figure PCTKR2016001613-appb-I000127
로 구성될 수 있다. 이 때, 단위 매트릭스
Figure PCTKR2016001613-appb-I000128
는 N*N 크기의 단위 매트릭스일 수 있다.
All OTT boxes in the NN / 2-N architecture represent a parallel processing satge, not a cascade. Therefore, all OTT boxes in the NN / 2-N structure are not connected to any other OTT boxes. So, matrix is unit matrix
Figure PCTKR2016001613-appb-I000126
And unit matrix
Figure PCTKR2016001613-appb-I000127
It can be configured as. In this case, the unit matrix
Figure PCTKR2016001613-appb-I000128
May be a unit matrix of size N * N.
(2) 매트릭스 G1(2) Matrix G1
MPEG Surround 디코딩 이전에 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호를 핸들링하기 위해, 교정 팩터(correction factors)에 의해 제어된 데이터스트림이 적용될 수 있다. 교정 팩터는 매트릭스
Figure PCTKR2016001613-appb-I000129
에 의해 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호에 적용될 수 있다.
In order to handle downmix signals or externally supplied downmix signals prior to MPEG Surround decoding, a datastream controlled by correction factors may be applied. Calibration factor matrix
Figure PCTKR2016001613-appb-I000129
It can be applied to the downmix signal or an externally supplied downmix signal.
매트릭스
Figure PCTKR2016001613-appb-I000130
는 파라미터가 표현하는 특정 타임/주파수 타일(time frequency tile)에 대한 다운믹스 신호의 레벨이 인코더에서 공간적인 파라미터가 추정될 때 획득되는 다운믹스 신호의 레벨과 동일하도록 보장할 수 있다.
matrix
Figure PCTKR2016001613-appb-I000130
May ensure that the level of the downmix signal for a particular time frequency tile represented by the parameter is the same as the level of the downmix signal obtained when the spatial parameter is estimated at the encoder.
이는 3가지 경우로 구분되며, (i) 외부 다운믹스 보상이 없는 경우(
Figure PCTKR2016001613-appb-I000131
), (ii) 파라미터화된 외부 다운믹스 보상이 있는 경우(
Figure PCTKR2016001613-appb-I000132
) 및 (iii) 외부 다운믹스 보상에 기초한 잔차 코딩을 수행하는 경우(
Figure PCTKR2016001613-appb-I000133
)로 구분될 수 있다. 만약,
Figure PCTKR2016001613-appb-I000134
인 경우, 디코더는 외부 다운믹스 보상에 기초한 잔차 코딩을 지원하지 않는다.
This is divided into three cases: (i) without external downmix compensation (
Figure PCTKR2016001613-appb-I000131
), (ii) with parameterized external downmix compensation (
Figure PCTKR2016001613-appb-I000132
And (iii) perform residual coding based on external downmix compensation (
Figure PCTKR2016001613-appb-I000133
) Can be separated. if,
Figure PCTKR2016001613-appb-I000134
If, the decoder does not support residual coding based on external downmix compensation.
그리고, 만약, N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되지 않는 경우(
Figure PCTKR2016001613-appb-I000135
), N-N/2-N 구조에서 매트릭스
Figure PCTKR2016001613-appb-I000136
는 하기 수학식 16에 의해 정의될 수 있다.
And, if external downmix compensation is not applied in the NN / 2-N structure (
Figure PCTKR2016001613-appb-I000135
), Matrix in NN / 2-N structure
Figure PCTKR2016001613-appb-I000136
May be defined by Equation 16 below.
Figure PCTKR2016001613-appb-I000137
Figure PCTKR2016001613-appb-I000137
Figure PCTKR2016001613-appb-I000138
Figure PCTKR2016001613-appb-I000138
여기서,
Figure PCTKR2016001613-appb-I000139
는 NumInch* NumInCh사이즈를 나타내는 단위 매트릭스를 의미하고,
Figure PCTKR2016001613-appb-I000140
는 NumInch* NumInCh사이즈를 나타내는 제로 매트릭스를 의미한다.
here,
Figure PCTKR2016001613-appb-I000139
Means a unit matrix indicating NumInch * NumInCh size,
Figure PCTKR2016001613-appb-I000140
Denotes a zero matrix representing NumInch * NumInCh size.
이와 달리, 만약 N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되는 경우(
Figure PCTKR2016001613-appb-I000141
), N-N/2-N 구조에 대해
Figure PCTKR2016001613-appb-I000142
는 하기 수학식 17에 의해 정의될 수 있다.
In contrast, if external downmix compensation is applied in the NN / 2-N structure (
Figure PCTKR2016001613-appb-I000141
), For the NN / 2-N structure
Figure PCTKR2016001613-appb-I000142
May be defined by Equation 17 below.
Figure PCTKR2016001613-appb-I000143
Figure PCTKR2016001613-appb-I000143
Figure PCTKR2016001613-appb-I000144
Figure PCTKR2016001613-appb-I000144
여기서,
Figure PCTKR2016001613-appb-I000145
로 정의된다.
here,
Figure PCTKR2016001613-appb-I000145
Is defined as
한편, N-N/2-N 구조에서 외부의 다운믹스 보상에 기초한 잔차 코딩(residual coding)이 적용되는 경우(
Figure PCTKR2016001613-appb-I000146
),
Figure PCTKR2016001613-appb-I000147
는 하기 수학식 18에 의해 정의될 수 있다.
On the other hand, when residual coding based on external downmix compensation is applied in the NN / 2-N structure (
Figure PCTKR2016001613-appb-I000146
),
Figure PCTKR2016001613-appb-I000147
May be defined by Equation 18 below.
Figure PCTKR2016001613-appb-I000148
Figure PCTKR2016001613-appb-I000148
Figure PCTKR2016001613-appb-I000149
Figure PCTKR2016001613-appb-I000149
여기서,
Figure PCTKR2016001613-appb-I000150
로 정의될 수 있다. 그리고,
Figure PCTKR2016001613-appb-I000151
는 업데이트될 수 있다.
here,
Figure PCTKR2016001613-appb-I000150
It can be defined as. And,
Figure PCTKR2016001613-appb-I000151
Can be updated.
(3) 매트릭스 H1(3) matrix H1
N-N/2-N 구조에서, 다운믹스 신호의 채널 개수는 5개보다 많을 수 있다. 그래서, 인버스(inverse) 매트릭스 H는 모든 파라미터 셋트와 프로세싱 밴드에 대해 입력 신호의 벡터
Figure PCTKR2016001613-appb-I000152
의 열의 개수와 동일한 사이즈를 가지는 단위 매트릭스일 수 있다.
In the NN / 2-N structure, the number of channels of the downmix signal may be more than five. Thus, the inverse matrix H is a vector of input signals for all parameter sets and processing bands.
Figure PCTKR2016001613-appb-I000152
It may be a unit matrix having the same size as the number of columns of.
<매트릭스 M2(post-matrix)의 정의><Definition of matrix M2 (post-matrix)>
N-N/2-N 구조에서, 매트릭스 M2인
Figure PCTKR2016001613-appb-I000153
는 다채널의 출력 신호를 재생성하기 위해 다이렉트 신호와 비상관된 신호를 어떻게 조합할 것인지를 정의한다.
Figure PCTKR2016001613-appb-I000154
는 하기 수학식 19에 의해 정의될 수 있다.
In NN / 2-N structure, matrix M2
Figure PCTKR2016001613-appb-I000153
Defines how to combine the direct and uncorrelated signals to regenerate the multi-channel output signal.
Figure PCTKR2016001613-appb-I000154
May be defined by Equation 19 below.
Figure PCTKR2016001613-appb-I000155
Figure PCTKR2016001613-appb-I000155
Figure PCTKR2016001613-appb-I000156
Figure PCTKR2016001613-appb-I000156
여기서,
Figure PCTKR2016001613-appb-I000157
로 정의된다.
here,
Figure PCTKR2016001613-appb-I000157
Is defined as
한편,
Figure PCTKR2016001613-appb-I000158
는 하기 수학식 20에 의해 스무딩될 수 있다.
Meanwhile,
Figure PCTKR2016001613-appb-I000158
Can be smoothed by the following equation (20).
Figure PCTKR2016001613-appb-I000159
Figure PCTKR2016001613-appb-I000159
Figure PCTKR2016001613-appb-I000160
Figure PCTKR2016001613-appb-I000160
여기서,
Figure PCTKR2016001613-appb-I000161
Figure PCTKR2016001613-appb-I000162
에서 첫번째 행은 하이브리드 서브밴드
Figure PCTKR2016001613-appb-I000163
이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드
Figure PCTKR2016001613-appb-I000164
에 대해
Figure PCTKR2016001613-appb-I000165
의 복소 컨주게이션(complex conjugation)인
Figure PCTKR2016001613-appb-I000166
이다. 그리고,
Figure PCTKR2016001613-appb-I000167
는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
here,
Figure PCTKR2016001613-appb-I000161
Wow
Figure PCTKR2016001613-appb-I000162
First row in the hybrid subband
Figure PCTKR2016001613-appb-I000163
Where the second row is the processing band and the third row is the specific hybrid subband
Figure PCTKR2016001613-appb-I000164
About
Figure PCTKR2016001613-appb-I000165
Complex conjugation of
Figure PCTKR2016001613-appb-I000166
to be. And,
Figure PCTKR2016001613-appb-I000167
Means the last parameter set of the previous frame.
매트릭스 M2를 위한 매트릭스
Figure PCTKR2016001613-appb-I000168
의 엘리먼트는 OTT 박스의 등가 모델(equivalent model)로부터 계산될 수 있다. OTT 박스는 비상관기와 믹싱부를 포함한다. OTT 박스에 입력되는 모노 형태의 입력 신호는 비상관기와 믹싱부에 각각 전달된다. 믹싱부는 모노 형태의 입력 신호와 비상관기를 통해 출력된 비상관된 신호 및 CLD, ICC 파라미터를 이용하여 스테레오 형태의 출력 신호를 생성할 수 있다. 여기서, CLD는 스테레오 필드에서 로컬라이제이션(localization)을 제어하고, ICC는 출력 신호의 스테레오 폭(wideness)를 제어한다.
Matrix for Matrix M2
Figure PCTKR2016001613-appb-I000168
The element of can be calculated from the equivalent model of the OTT box. The OTT box includes a decorrelator and a mixing section. The mono input signal input to the OTT box is transmitted to the decorrelator and the mixing unit, respectively. The mixing unit may generate a stereo output signal using a mono input signal, an uncorrelated signal output through the decorrelator, and the CLD and ICC parameters. Here, the CLD controls localization in the stereo field, and the ICC controls the stereo wideness of the output signal.
그러면, 임의의 OTT 박스로부터 출력되는 결과는 하기 수학식 21에 의해 정의될 수 있다.Then, the result output from any OTT box can be defined by Equation 21 below.
Figure PCTKR2016001613-appb-I000169
Figure PCTKR2016001613-appb-I000169
Figure PCTKR2016001613-appb-I000170
Figure PCTKR2016001613-appb-I000170
OTT 박스는
Figure PCTKR2016001613-appb-I000171
로 라벨링(
Figure PCTKR2016001613-appb-I000172
)되고,
Figure PCTKR2016001613-appb-I000173
는 OTT 박스에 대해 타임 슬롯
Figure PCTKR2016001613-appb-I000174
과 파라미터 밴드
Figure PCTKR2016001613-appb-I000175
에서 임의의 매트릭스(Arbitrary matrix)의 엘리먼트를 의미한다.
OTT box
Figure PCTKR2016001613-appb-I000171
Labeling as (
Figure PCTKR2016001613-appb-I000172
),
Figure PCTKR2016001613-appb-I000173
Time slot for OTT box
Figure PCTKR2016001613-appb-I000174
And parameter bands
Figure PCTKR2016001613-appb-I000175
Denotes an element of an arbitrary matrix.
이 때, 포스트 게인 매트릭스는 하기 수학식 22와 같이 정의될 수 있다.In this case, the post gain matrix may be defined as in Equation 22 below.
Figure PCTKR2016001613-appb-I000176
Figure PCTKR2016001613-appb-I000176
Figure PCTKR2016001613-appb-I000177
Figure PCTKR2016001613-appb-I000177
여기서,
Figure PCTKR2016001613-appb-I000178
,및
Figure PCTKR2016001613-appb-I000179
,이고,
Figure PCTKR2016001613-appb-I000180
Figure PCTKR2016001613-appb-I000181
로 정의된다.
here,
Figure PCTKR2016001613-appb-I000178
, And
Figure PCTKR2016001613-appb-I000179
,ego,
Figure PCTKR2016001613-appb-I000180
And
Figure PCTKR2016001613-appb-I000181
Is defined as
한편,
Figure PCTKR2016001613-appb-I000182
(
Figure PCTKR2016001613-appb-I000183
for
Figure PCTKR2016001613-appb-I000184
)로 정의될 수 있다.
Meanwhile,
Figure PCTKR2016001613-appb-I000182
(
Figure PCTKR2016001613-appb-I000183
for
Figure PCTKR2016001613-appb-I000184
Can be defined as
그리고,
Figure PCTKR2016001613-appb-I000185
로 정의된다.
And,
Figure PCTKR2016001613-appb-I000185
Is defined as
이 때, N-N/2-N 구조에서,
Figure PCTKR2016001613-appb-I000186
는 하기 수학식 23에 의해 정의될 수 있다.
At this time, in the NN / 2-N structure,
Figure PCTKR2016001613-appb-I000186
May be defined by Equation 23 below.
Figure PCTKR2016001613-appb-I000187
Figure PCTKR2016001613-appb-I000187
Figure PCTKR2016001613-appb-I000188
Figure PCTKR2016001613-appb-I000188
여기서, CLD와 ICC는 하기 수학식 24에 의해 정의될 수 있다.Here, CLD and ICC may be defined by Equation 24 below.
Figure PCTKR2016001613-appb-I000189
Figure PCTKR2016001613-appb-I000189
Figure PCTKR2016001613-appb-I000190
Figure PCTKR2016001613-appb-I000190
이 때,
Figure PCTKR2016001613-appb-I000191
로 정의될 수 있다.
At this time,
Figure PCTKR2016001613-appb-I000191
It can be defined as.
<비상관기의 정의><Definition of Emergency Correlator>
N-N/2-N 구조에서, 비상관기들은 QMF 서브밴드 도메인에서 잔향 필터(reverberation filter)에 의해 수행될 수 있다. 잔향 필터는 모든 하이브리드 서브밴드에서 현재 어떤 하이브리드 서브밴드에 해당하는지에 기초하여 서로 다른 필터 특징을 나타낸다.In the N-N / 2-N structure, decorrelators may be performed by a reverberation filter in the QMF subband domain. Reverberation filters exhibit different filter characteristics based on which hybrid subband currently corresponds to all hybrid subbands.
잔향 필터는 IIR 격자 필터이다. 상호적으로 비상관된 직교 신호들을 생성하기 위해 서로 다른 비상관기에 대해 IIR 격자 필터들은 서로 다른 필터 계수를 가진다.The reverberation filter is an IIR grating filter. The IIR grating filters have different filter coefficients for different decorrelators to produce mutually uncorrelated orthogonal signals.
비상관기에 의해 수행되는 비상관 과정은 여러 과정으로 진행된다. 먼저, 매트릭스 M1의 출력인
Figure PCTKR2016001613-appb-I000192
는 전역 통과(all-pass) 비상관 필터의 셋트로 입력된다. 그러면, 필터링된 신호들은 에너지 쉐이핑될 수 있다. 여기서, 에너지 쉐이핑은 비상관된 신호들을 보다 입력 신호에 가깝게 매칭되도록 스펙트럴 또는 시간적인 포락선을 쉐이핑하는 것이다.
The uncorrelated process carried out by the decorator is carried out in several processes. First, the output of matrix M1
Figure PCTKR2016001613-appb-I000192
Is entered into the set of all-pass uncorrelated filters. The filtered signals can then be energy shaped. Here, energy shaping is shaping the spectral or temporal envelope to match uncorrelated signals more closely to the input signal.
임의의 비상관기에 입력되는 입력 신호
Figure PCTKR2016001613-appb-I000193
는 벡터
Figure PCTKR2016001613-appb-I000194
의 일부분이다. 복수의 비상관기들을 통해 도출된 비상관된 신호들 간의 직교성을 보장하기 위해, 복수의 비상관기들마다 서로 다른 필터 계수를 가진다.
Input signal input to any decorator
Figure PCTKR2016001613-appb-I000193
Vector
Figure PCTKR2016001613-appb-I000194
It is part of. In order to ensure orthogonality between uncorrelated signals derived through the plurality of decorrelators, the plurality of decorrelators have different filter coefficients.
비상관 필터는 고정된 주파수 의존 딜레이(constant frequency-dependent delay)에 의해 선행하는 복수의 전역 통과(All-pass(IIR)) 영역으로 구성된다. 주파수 축은 QMF 분할 주파수에 대응되도록 서로 다른 영역으로 분할될 수 있다. 각 영역마다 딜레이의 길이와 필터 계수 벡터들의 길이는 서로 동일하다. 그리고, 추가적인 위상 회전(additional phase rotation) 때문에 부분적인 딜레이(fractional delay)를 가지는 비상관기의 필터 계수는 하이브리드 서브밴드 인덱스에 의존한다.The uncorrelated filter consists of a plurality of all-pass (IIR) regions preceded by a fixed frequency-dependent delay. The frequency axis may be divided into different regions so as to correspond to the QMF division frequency. In each region, the length of the delay and the length of the filter coefficient vectors are the same. And, the filter coefficients of the decorrelator with fractional delay due to additional phase rotation depend on the hybrid subband index.
앞서 살펴본 바와 같이, 비상관기들로부터 출력된 비상관된 신호들 간의 직교성을 보장하기 위해 비상관기의 필터들은 서로 다른 필터 계수를 가진다. N-N/2-N 구조에서, N/2개의 비상관기들이 요구된다. 이 때, N-N/2-N 구조에서, 비상관기들의 개수는 10개로 제한될 수 있다. Lfe 모드가 존재하지 않는 N-N/2-N 구조에서, OTT 박스의 개수인 N/2가 10을 초과하는 경우, 10 기본 모듈로 연산(basis modulo operation)에 따라 비상관기들은 10을 초과하는 OTT 박스의 개수에 대응하여 재사용될 수 있다.As discussed above, the filters of the decorrelators have different filter coefficients to ensure orthogonality between the uncorrelated signals output from the decorrelators. In the N-N / 2-N structure, N / 2 decorrelators are required. At this time, in the N-N / 2-N structure, the number of decorrelators may be limited to ten. In the NN / 2-N structure where Lfe mode does not exist, when the number of OTT boxes, N / 2, exceeds 10, the decorators are more than 10 OTT boxes according to 10 basis modulo operations. It can be reused corresponding to the number of.
하기 표 6는, N-N/2-N 구조의 디코더에서 비상관기의 인덱스를 나타낸다. 표 6을 참고하면, N/2개의 비상관기들은 10 단위로 인덱스가 반복된다. 즉, 0번째 비상관기와 10번째 비상관기는
Figure PCTKR2016001613-appb-I000195
로 동일한 인덱스를 가진다. 구체적으로, 출력 신호의 채널수인 NDL 미리 설정된 채널수 M을 초과하는 경우, 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함할 수 있다. 그리고, 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.
Table 6 below shows the index of the uncorrelator in the decoder of the NN / 2-N structure. Referring to Table 6, the N / 2 decorrelators are indexed by 10 units. That is, the 0th decorator and the 10th decorator
Figure PCTKR2016001613-appb-I000195
Have the same index. In detail, when the number of channels of the output signal exceeds the NDL preset channel number M, the decorrelator may include a first decorrelator corresponding to a channel less than or equal to M and a second decorrelator corresponding to more than M channels. Can be. In addition, the second decorrelator may reuse the filter set of the first decorrelator.
Figure PCTKR2016001613-appb-T000005
Figure PCTKR2016001613-appb-T000005
N-N/2-N 구조의 경우, 하기 표 7의 신택스에 의해 구현될 수 있다.For the N-N / 2-N structure, it may be implemented by the syntax of Table 7.
Figure PCTKR2016001613-appb-I000196
Figure PCTKR2016001613-appb-I000197
Figure PCTKR2016001613-appb-I000198
Figure PCTKR2016001613-appb-I000196
Figure PCTKR2016001613-appb-I000197
Figure PCTKR2016001613-appb-I000198
이 때, bsTreeConfig는 하기 표 8에 의해 구현될 수 있다. 이 때, bsTreeConfig는 하기 표 8에 의해 구현될 수 있다. 표 8에 의하면, bsTreeConfig가 7인 경우, 본 발명의 일실시예에 따른 N-N/2-N구조의 디코딩 장치의 구성을 나타낸다. OTT 박스들의 수(numOttBoxes)는 다운믹스 신호의 채널 수(NumInCh)과 동일하다. 그리고, TTT 박스들의 수는 0이다.At this time, bsTreeConfig may be implemented by Table 8. At this time, bsTreeConfig may be implemented by Table 8. According to Table 8, when bsTreeConfig is 7, the configuration of the decoding apparatus of the N-N / 2-N structure according to an embodiment of the present invention. The number of OTT boxes numOttBoxes is equal to the number of channels NumInCh of the downmix signal. And the number of TTT boxes is zero.
Figure PCTKR2016001613-appb-T000006
Figure PCTKR2016001613-appb-T000006
이 때, bsTreeConfig가 0,1,2,3,4,5,6인 경우, MPS 표준인 ISO/IEC 20003-1:2007의 Table 40은 표 9로 정의된다.At this time, when bsTreeConfig is 0, 1, 2, 3, 4, 5, 6, Table 40 of the MPS standard ISO / IEC 20003-1: 2007 is defined as Table 9.
Figure PCTKR2016001613-appb-T000007
Figure PCTKR2016001613-appb-T000007
Figure PCTKR2016001613-appb-I000199
Figure PCTKR2016001613-appb-I000199
Figure PCTKR2016001613-appb-I000200
Figure PCTKR2016001613-appb-I000200
Figure PCTKR2016001613-appb-I000201
Figure PCTKR2016001613-appb-I000201
그리고, N-N/2-N 구조에서 다운믹스 신호의 채널 개수인 bsNumInCh는 하기 표 10과 같이 구현될 수 있다.In addition, bsNumInCh, which is the number of channels of the downmix signal in the N-N / 2-N structure, may be implemented as shown in Table 10 below.
Figure PCTKR2016001613-appb-T000008
Figure PCTKR2016001613-appb-T000008
이 때, NumInCh은 N-N/2-N구조의 디코딩 장치에 입력되는 다운믹스 신호의 채널수를 의미하고, NumOutCh은 다운믹스 신호가 업믹싱된 출력 신호의 채널수를 의미한다. 그리고, N-N/2-N 구조에서, 출력 신호들 중 LFE 채널의 개수인 NLFE는 하기 표 11과 같이 구현될 수 있다. NumLfe는 N-N/2-N구조에서 LFE 채널수(NLFE)를 의미한다.In this case, NumInCh refers to the number of channels of the downmix signal input to the decoding apparatus of the NN / 2-N structure, and NumOutCh refers to the number of channels of the output signal to which the downmix signal is upmixed. In the NN / 2-N structure, N LFE which is the number of LFE channels among the output signals may be implemented as shown in Table 11 below. NumLfe means the number of LFE channels (N LFE ) in the NN / 2-N structure.
Figure PCTKR2016001613-appb-T000009
Figure PCTKR2016001613-appb-T000009
그리고, N-N/2-N 구조에서, 출력 신호의 채널 순서는 출력 신호의 채널 개수 및 LFE 채널의 개수에 따라 표 12와 같이 구현될 수 있다.In the N-N / 2-N structure, the channel order of the output signal may be implemented as shown in Table 12 according to the number of channels of the output signal and the number of LFE channels.
Figure PCTKR2016001613-appb-T000010
Figure PCTKR2016001613-appb-T000010
표 7에서 bsHasSpeakerConfig는 실제로 재생하고자 하는 출력 신호의 레이아웃이 표 12에서 구체화된 채널 순서와 다른 레이아웃인지 여부를 나타내는 플래그이다. 만약, bsHasSpeakerConfig == 1인 경우, 실제 재생할 때의 라우드스피커의 레이아웃인 audioChannelLayout가 렌더링을 위해 사용될 수 있다.In Table 7, bsHasSpeakerConfig is a flag indicating whether the layout of the output signal to be actually reproduced is different from the channel order specified in Table 12. If bsHasSpeakerConfig == 1, audioChannelLayout, which is the layout of the loudspeakers during actual playback, may be used for rendering.
그리고, audioChannelLayout 는 실제 재생할 때의 라우드스피커(LoudSpeaker)의 레이아웃을 나타낸다. 만약, 출력 신호가 LFE 채널을 포함하는 경우, LFE 채널의 채널 순서는 (i) OTT 박스를 이용하여 LFE 채널이 아닌 다른 채널과 함께 처리되는 조건과, (ii) 채널 리스트에서 마지막에 위치하는 조건을 만족하도록 결정될 수 있다. (예를 들면, L,Lv,R,Rv,Ls,Lss,Rs,Rss,C,LFE,Cvr,LFE2) 예를 들면, LFE 채널은 채널 리스트인 L,Lv,R,Rv,Ls,Lss,Rs,Rss,C,LFE,Cvr,LFE2에서 맨 마지막에 위치한다.And audioChannelLayout represents the layout of the loudspeaker Loudspeaker at the time of actual reproduction. If the output signal contains an LFE channel, the channel order of the LFE channel is determined by (i) a condition processed with a channel other than the LFE channel using an OTT box, and (ii) a condition located last in the channel list. Can be determined to satisfy. (E.g., L, Lv, R, Rv, Ls, Lss, Rs, Rss, C, LFE, Cvr, LFE2) For example, LFE channels are L, Lv, R, Rv, Ls, Lss It is located last in Rs, Rss, C, LFE, Cvr, and LFE2.
도 9는 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리를 수행하는 트리 구조를 도시한 도면이다.9 illustrates a tree structure for performing spatial audio processing for the N-N / 2-N structure according to an embodiment.
도 8에 도시된 N-N/2-N구조는 도 9와 같이 트리 형태로 표현될 수 있다. 도 9에서 모든 OTT 박스들은 CLD, ICC, 잔차 신호 및 입력 신호에 기초하여 2개 채널의 출력 신호를 재생성할 수 있다. OTT 박스와 이에 대응하는 CLD, ICC, 잔차 신호 및 입력 신호는 비트스트림에 나타나는 순서에 따라 번호가 매겨질 수 있다.The N-N / 2-N structure shown in FIG. 8 may be represented in a tree form as shown in FIG. 9. In FIG. 9 all OTT boxes can regenerate two channels of output signals based on CLD, ICC, residual signal and input signal. OTT boxes and their corresponding CLD, ICC, residual and input signals may be numbered in the order in which they appear in the bitstream.
도 9에 의하면, 복수의 OTT 박스들은 N/2개가 존재한다. 이 때, 다채널 신호 처리 장치인 디코더는 N/2개의 OTT 박스를 이용하여 N/2채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성할 수 있다. 여기서, N/2개의 OTT 박스들은 복수의 계층을 통해 구현되지 않는다. 즉, OTT 박스들은 N/2 채널의 다운믹스 신호의 각 채널별로 병렬적으로 업믹싱을 수행할 수 있다. 다시 말해서, 어느 하나의 OTT 박스는 다른 OTT 박스와 연결되지 않는다.According to FIG. 9, there are N / 2 of the plurality of OTT boxes. In this case, the decoder, which is a multichannel signal processing apparatus, may generate N-channel output signals from N / 2-channel downmix signals using N / 2 OTT boxes. Here, N / 2 OTT boxes are not implemented through a plurality of layers. That is, the OTT boxes may perform upmixing in parallel for each channel of the downmix signal of the N / 2 channel. In other words, one OTT box is not connected to another OTT box.
도 9의 왼쪽 트리 구조는 LFE 채널이 적용되지 않을 때의 N-N/2-N 트리 구조를 나타내고, 오른쪽 트리 구조는 LFE 채널이 적용될 때의 N-N/2-N 트리 구조를 나타낸다. 도 9에 도시된 모든 OTT 박스들은 1채널의 다운믹스 신호(M)를 업믹싱하여 2채널의 출력 신호를 재생성할 수 있다. The left tree structure of FIG. 9 shows an N-N / 2-N tree structure when no LFE channel is applied, and the right tree structure shows an N-N / 2-N tree structure when an LFE channel is applied. All OTT boxes shown in FIG. 9 may remix two channels of output signals by upmixing one channel of downmix signals (M).
이 때, N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, N/2개의 OTT박스들은 잔차 신호(res)와 다운믹스 신호(M)를 이용하여 N채널의 출력 신호를 생성할 수 있다. 하지만, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되는 OTT 박스는 잔차 신호를 제외한 다운믹스 신호만 이용할 수 있다. In this case, when the LFE channel is not included in the output signal of the N channel, the N / 2 OTT boxes may generate the output signal of the N channel using the residual signal res and the downmix signal M. FIG. However, when the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is output among the N / 2 OTT boxes may use only the downmix signal except the residual signal.
뿐만 아니라, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 CLD와 ICC를 이용하여 다운믹스 신호를 업믹싱하지만, LFE 채널이 출력되는 OTT 박스는 CLD만 이용하여 다운믹스 신호를 업믹싱할 수 있다.In addition, when the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is not output among the N / 2 OTT boxes upmixes the downmix signal using CLD and ICC, but the LFE channel is The output OTT box can upmix the downmix signal using only the CLD.
그리고, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 비상관기를 통해 비상관된 신호를 생성하지만, LFE 채널이 출력되는 OTT 박스는 비상관 과정을 수행하지 않으므로 비상관된 신호를 생성하지 않는다.If the LFE channel is included in the output signal of the N channel, the OTT box in which the LFE channel is not output among the N / 2 OTT boxes generates an uncorrelated signal through the decorrelator, but the OTT in which the LFE channel is output. The box does not perform uncorrelated processes and therefore does not generate uncorrelated signals.
도 10은 일실시예에 따른 12채널의 다운믹스로부터 24채널의 출력 신호를 생성하는 과정을 도시한 도면이다.FIG. 10 illustrates a process of generating an output signal of 24 channels from a 12-channel downmix according to an embodiment.
본 발명의 일실시예에 따르면, MPS 인코딩을 통해 N채널의 입력 신호로부터 N/2 채널의 다운믹스 신호가 생성될 수 있다. 그리고, MPS 디코딩을 통해 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호가 생성될 수 있다.According to an embodiment of the present invention, an N / 2 channel downmix signal may be generated from an N channel input signal through MPS encoding. The N-channel output signal may be generated from the downmix signal of the N / 2 channel through MPS decoding.
다만, 기존의 MPS 표준에서 인코더를 통해 출력되는 다운믹스 신호의 채널은 1채널, 2채널, 5.1채널이다. 하지만, 본 발명은 이에 한정되지 않는다. 다만 기존의 MPS 표준에 정의되어 있지 않은 다운믹스 신호의 채널수를 지원하기 위해서는 추가적인 구문정의가 필요하다. However, in the conventional MPS standard, the channels of the downmix signal output through the encoder are 1 channel, 2 channels, and 5.1 channels. However, the present invention is not limited thereto. However, additional syntax definition is required to support the number of channels of downmix signals that are not defined in the existing MPS standard.
MPS 표준에서 입출력 관계는 표 9와 같이 BsTreeConfig을 통해 정의될 수 있다. BsTreeConfig에 따라 입력 신호와 출력 신호의 디코딩 과정이 정의된다.In the MPS standard, input / output relationships can be defined through BsTreeConfig as shown in Table 9. BsTreeConfig defines the decoding process of input and output signals.
BsTreeConfig 0의 경우, 6채널(5.1채널)의 입력 신호로부터 1채널의 다운믹스 신호를 생성하고, 1채널의 다운믹스 신호로부터 6채널(5.1채널)의 출력 신호를 생성하는 과정을 정의한다. 이를 위해, 디코더는 5개의 OTT 박스가 필요하고, 각각의 OTT 박스에 CLD(Channel Level Difference)가 적용될 수 있다.In the case of BsTreeConfig 0, a process of generating a downmix signal of one channel from an input signal of six channels (5.1 channels) and an output signal of six channels (5.1 channels) from a downmix signal of one channel is defined. To this end, the decoder needs five OTT boxes, and channel level difference (CLD) may be applied to each OTT box.
이 때, OTT 박스에 입력되는 CLD는 OTT 박스의 위치에 따라 defaultCLD[0~5]까지 정의될 수 있으며, OTT 박스에 대응하는 CLD가 enable된다. 즉, CLD가 enable되면 OTT 박스에 CLD가 입력될 수 있다. ottModeLfe도 OTT 박스로부터 LFE 채널이 출력되는 지를 의미한다. At this time, the CLD input to the OTT box may be defined up to defaultCLD [0 ~ 5] according to the position of the OTT box, and the CLD corresponding to the OTT box is enabled. That is, if CLD is enabled, CLD may be input to the OTT box. ottModeLfe also means that the LFE channel is output from the OTT box.
현재 MPS 표준에 정의된 표 9에 의하면, 6개의 OTT 박스들에 대응하는 defaultCLD[0~5]만 정의되어 있다. 그래서, 현재 MPS 표준은 입력 신호의 채널이 10을 초과하여 5채널 이상의 다운믹스를 생성하는 경우를 커버하지 못한다. According to Table 9 defined in the current MPS standard, only defaultCLD [0 ~ 5] corresponding to six OTT boxes is defined. Thus, the current MPS standard does not cover the case where the channels of the input signal exceed 10 to produce more than 5 channels of downmix.
이를 위해, 본 발명은 MPS 표준에 reserved bit를 이용하여 기존의 MPS 표준에서 정의한 채널과 다른 채널을 가지는 입력 신호를 처리할 수 있다. 예를 들어, 입력 신호의 채널수인 N이 24이고, 다운믹스 신호의 채널수가 12인 경우, 표 13과 같이 정의될 수 있다.To this end, the present invention can process an input signal having a channel different from the channel defined in the existing MPS standard by using the reserved bit in the MPS standard. For example, when N, the channel number of the input signal, is 24, and the channel number of the downmix signal is 12, it may be defined as shown in Table 13.
Figure PCTKR2016001613-appb-T000011
Figure PCTKR2016001613-appb-T000011
도 10은 표 13에 따라 구현한 디코더를 의미한다. 도 10에 의하면, 12채널의 다운믹스 신호(x0-x11)로부터 2개의 LFE 채널을 포함하는 24채널의 출력 신호를 생성하는 과정이 도시된다.10 shows a decoder implemented according to Table 13. Referring to FIG. 10, a process of generating an output signal of 24 channels including two LFE channels from a 12-channel downmix signal x 0- x 11 is illustrated.
도 10에서 벡터 x(1001)를 참고하면, 12채널의 다운믹스 신호(x0-x11)와 12채널의 잔차 신호(res1-res11)가 입력되었지만, 이하에서는 잔차 신호를 제외하고 설명하기로 한다. 도 10의 디코더는 12채널의 다운믹스 신호를 비상관기(1007)에 입력하여 비상관성 신호를 생성할 수 있다.Referring to the vector x (1001) in FIG. 10, 12 channels of downmix signals (x0-x11) and 12 signals of residual signals (res 1 -res 11 ) are input, but will be described below except for the residual signal. do. The decoder of FIG. 10 may input a downmix signal of 12 channels to the decorrelator 1007 to generate an uncorrelated signal.
도 10의 벡터 v(1003)는 벡터 x(1001)에 매트릭스 M1(1002)가 적용됨으로써 도출될 수 있다. 벡터 v(1003)는 하기 수학식 25에 따라 결정될 수 있다.The vector v 1003 of FIG. 10 may be derived by applying the matrix M1 1002 to the vector x 1001. The vector v 1003 may be determined according to Equation 25 below.
Figure PCTKR2016001613-appb-I000202
Figure PCTKR2016001613-appb-I000202
Figure PCTKR2016001613-appb-I000203
Figure PCTKR2016001613-appb-I000203
수학식 25는 수학식 1에 대응한다. 수학식 25에서 잔차 신호(res)가 존재하지 않는 경우, xMo~xM11은 vM0~vM11에 매핑될 수 있다. 비상관성 신호는 다운믹스 신호의 개수와 동일하게 도출될 수 있다.(25) corresponds to (1). When the residual signal res does not exist in Equation 25, x Mo to x M11 may be mapped to v M0 to v M11 . The uncorrelated signal may be derived equal to the number of downmix signals.
백터w(1004)는 하기 수학식 26에 따라 결정될 수 있다.The vector w 1004 may be determined according to Equation 26 below.
Figure PCTKR2016001613-appb-I000204
Figure PCTKR2016001613-appb-I000204
Figure PCTKR2016001613-appb-I000205
Figure PCTKR2016001613-appb-I000205
수학식 26은 수학식 2에 대응한다. 비상관기(1007)은 잔차 신호가 존재하지 않는 경우에 동작한다. 즉, 잔차 신호가 존재하지 않으면, 비상관성 신호가 생성될 수 있다. D()는 비상관기가 비상관성 신호를 생성할 때 활용된다. 수학식 26에서, 잔차 신호가 존재하면,
Figure PCTKR2016001613-appb-I000206
는 0이고 그렇지 않으면 1이다. 즉,
Figure PCTKR2016001613-appb-I000207
가 1일 때 수학식 15에 따라 비상관성 신호가 생성될 수 있다.
Equation 26 corresponds to Equation 2. The decorrelator 1007 operates when there is no residual signal. That is, if there is no residual signal, an uncorrelated signal may be generated. D () is used when the decorrelator generates an uncorrelated signal. In Equation 26, if a residual signal exists,
Figure PCTKR2016001613-appb-I000206
Is 0 otherwise 1. In other words,
Figure PCTKR2016001613-appb-I000207
When 1 is uncorrelated signal can be generated according to the equation (15).
도 10에서 벡터 y(1006)는 수학식 27에 따라 벡터 w(1004)에 매트릭스 M2(1005)를 적용함으로써 도출될 수 있다. 벡터 y(1006)는 N채널(N=24)의 출력 신호에 대응한다. In FIG. 10, the vector y 1006 may be derived by applying the matrix M2 1005 to the vector w 1004 according to Equation 27. Vector y 1006 corresponds to an output signal of N channels (N = 24).
Figure PCTKR2016001613-appb-I000208
Figure PCTKR2016001613-appb-I000208
Figure PCTKR2016001613-appb-I000209
Figure PCTKR2016001613-appb-I000209
매트릭스 M1(1002)과 매트릭스 M2(1005)를 도출하는 과정은 도 8의 설명을 통해 도출될 수 있다. 매트릭스 M1(1002)을 도출하기 위한 R1은 하기 수학식 28과 같고, 매트스 M2(1005)를 도출하기 위한 R2는 하기 수학식 29와 같다.The process of deriving the matrix M1 1002 and the matrix M2 1005 may be derived through the description of FIG. 8. R1 for deriving the matrix M1 1002 is represented by Equation 28 below, and R2 for deriving the mates M2 1005 is represented by Equation 29 below.
Figure PCTKR2016001613-appb-I000210
Figure PCTKR2016001613-appb-I000210
Figure PCTKR2016001613-appb-I000211
Figure PCTKR2016001613-appb-I000211
Figure PCTKR2016001613-appb-I000212
Figure PCTKR2016001613-appb-I000212
Figure PCTKR2016001613-appb-I000213
Figure PCTKR2016001613-appb-I000213
수학식 29서 HLL, HLR, HRL, HRR은 각 OTT 박스에 대응하는 CLD와 ICC로부터 도출될 수 있다.H LL , H LR , H RL , and H RR in Equation 29 may be derived from CLD and ICC corresponding to each OTT box.
본 발명은 새롭게 정의된 bsTreeConfig 정보에 따라 N/2채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 병렬 구조의 OTT기반의 MPS(MPEG Surround) 디코더를 제안한다. The present invention proposes an OTT-based MPS (MPEG Surround) decoder having a parallel structure that generates N-channel output signals from N / 2 channel downmix signals according to newly defined bsTreeConfig information.
도 11은 일실시예에 따른 도 10의 과정을 OTT 박스로 표현한 도면이다.FIG. 11 illustrates an OTT box of the process of FIG. 10, according to an exemplary embodiment.
도 11에 의하면, 각각의 OTT 박스는 1채널의 다운믹스 신호와 비상관기(D)를 통해 생성된 비상관성 신호를 이용하여 2채널의 신호를 생성한다. OTT 박스에는 CLD에 대응하는 defaultCld[0]~defaultCld[9]와 LFE 채널에 대응하는 OttModelfe[0], OttModelfe[1]이 입력될 수 있다. 예를 들어, 출력 신호이 22.2채널인 경우 출력 신호에 LFE 채널이 포함될 수 있다. 그러면, OttModelfe[0], OttModelfe[1]이 enable된다.Referring to FIG. 11, each OTT box generates two channels of signals using a downmix signal of one channel and an uncorrelated signal generated through the decorrelator (D). In the OTT box, defaultCld [0] to defaultCld [9] corresponding to the CLD, and OttModelfe [0] and OttModelfe [1] corresponding to the LFE channel may be input. For example, when the output signal is 22.2 channels, the LFE channel may be included in the output signal. OttModelfe [0] and OttModelfe [1] are then enabled.
도 12는 일실시예에 따른 도 11의 과정을 MPS 표준에 따라 표현한 도면이다.FIG. 12 illustrates a process of FIG. 11 according to an MPS standard according to an embodiment.
도 12에 의하면, 12채널의 다운믹스 신호(M0-M11)가 각각의 OTT 박스에 입력되는 경우가 도시된다. 그러면, 24채널의 출력 신호(y)가 생성된다. 여기서, CLD와 ICC도 각 OTT 박스에 입력된다. 도 12에서 잔차 신호가 OTT 박스에 입력되는 것으로 도시되었으나, 잔차 신호가 없는 경우 다운믹스 신호로부터 비상관기를 통해 생성된 비상관성 신호가 잔차 신호 대신 OTT 박스에 입력될 수 있다.According to FIG. 12, a case in which 12 channels of downmix signals M 0 to M 11 are input to each OTT box is illustrated. Then, the output signal y of 24 channels is generated. Here, CLD and ICC are also input to each OTT box. Although the residual signal is illustrated in FIG. 12 as being input to the OTT box, if there is no residual signal, an uncorrelated signal generated through the decorrelator from the downmix signal may be input to the OTT box instead of the residual signal.
본 발명의 일실시예에 따른 다채널 오디오 신호 처리 방법은 N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.Multi-channel audio signal processing method according to an embodiment of the present invention comprises the steps of identifying the downmix signal and the residual signal of the N / 2 channel generated from the input signal of the N channel; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.When the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators may correspond to the N / 2 OTT boxes.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.If the number of decorrelators exceeds the reference value of the modulo operation, the index of the decorrelator may be repeatedly reused according to the reference value.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.When the LFE channel is included in the output signal of the N channel, the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.When the temporal shaping tool is not used, the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.When a temporal shaping tool is used, the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator. A vector corresponding to the signal may be input.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.The generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal. You can shape
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.The generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.The size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
본 발명의 다른 실시예에 따른 다채널 오디오 신호 처리 방법은 N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고, 상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.In accordance with another aspect of the present invention, there is provided a method of processing a multichannel audio signal, including: identifying a downmix signal of an N / 2 channel and a residual signal of the N / 2 channel; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal, wherein the N / 2 OTT boxes are not connected to each other; The OTT box which is arranged in parallel without any other and outputs the LFE channel among the N / 2 OTT boxes receives (1) only the downmix signal except the residual signal, and (2) the CLD parameter among the CLD parameter and the ICC parameter. (3) Do not output uncorrelated signal through decorator.
본 발명의 일실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 신호 처리 방법은, N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.An apparatus for processing a multichannel signal according to an embodiment of the present invention includes a processor for performing a multichannel signal processing method, and the multichannel signal processing method includes downmixing an N / 2 channel generated from an input signal of N channels. Identifying a signal and a residual signal; Applying a downmix signal and a residual signal of the N / 2 channel to a first matrix; Outputs a first signal input to the N / 2 decorrelators corresponding to N / 2 OTT boxes and a second signal transmitted to the second matrix without being input to the N / 2 decorrelators through the first matrix Making; Outputting uncorrelated signals from a first signal through the N / 2 decorrelators; Applying the uncorrelated signal and the second signal to a second matrix; And generating an output signal of the N channel through the second matrix.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.When the LFE channel is not included in the output signal of the N channel, N / 2 decorrelators may correspond to the N / 2 OTT boxes.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.If the number of decorrelators exceeds the reference value of the modulo operation, the index of the decorrelator may be repeatedly reused according to the reference value.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.When the LFE channel is included in the output signal of the N channel, the decorrelator may use N / 2, except for the number of LFE channels, and the LFE channel may not use the decorrelator of the OTT box. .
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.When the temporal shaping tool is not used, the second matrix may be input with a vector including the second signal, the uncorrelated signal derived from the decorrelator, and the residual signal derived from the decorrelator. have.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.When a temporal shaping tool is used, the second matrix is a spread comprising a vector corresponding to a direct signal consisting of the second signal and a residual signal derived from the decorrelator and an uncorrelated signal derived from the decorrelator. A vector corresponding to the signal may be input.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.The generating of the N-channel output signal includes, when subband domain time processing (STP) is used, applying a scale factor based on a spread signal and a direct signal to a spread signal portion of the output signal to temporal envelope of the output signal. You can shape
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.The generating of the N-channel output signal may flatten and reshape the envelope of the direct signal portion for each channel of the N-channel output signal when guided envelope shaping (GES) is used.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.The size of the first matrix may be determined according to the number of channels of the downmix signal applying the first matrix and the number of decorrelators, and the elements of the first matrix may be determined by the CLD parameter or the CPC parameter.
본 발명의 다른 실시예에 따른 다채널 신호 처리 장치는, 다채널 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 신호 처리 방법은, N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고,In accordance with another aspect of the present invention, an apparatus for processing a multichannel signal includes a processor for performing a method for processing a multichannel signal, and the method for processing a multichannel signal includes: an N / 2 channel downmix signal and an N / 2 channel; Identifying a residual signal; Inputting an N / 2 channel downmix signal and an N / 2 channel residual signal to the N / 2 OTT boxes to generate an N channel output signal,
상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.The N / 2 OTT boxes are arranged in parallel without being connected to each other, and an OTT box that outputs an LFE channel among the N / 2 OTT boxes receives (1) only a downmix signal except a residual signal, (2) It uses CLD parameter among CLD parameter and ICC parameter. (3) Does not output uncorrelated signal through decorator.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments may be, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 박스로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software boxes to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved. Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (18)

  1. N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하는 단계;Identifying a downmix signal of the N / 2 channel derived from the input signal of the N channel;
    복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 단계Generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes
    를 포함하고,Including,
    상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일한 다채널 신호 처리 방법.And the number of the plurality of OTT boxes is equal to N / 2 which is the number of channels of the downmix signal when there is no LFE channel in the output signal.
  2. 제1항에 있어서,The method of claim 1,
    상기 복수의 OTT 박스들 각각은,Each of the plurality of OTT boxes,
    상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 방법.The multi-channel signal processing method of generating a two-channel output signal using a non-correlation signal and a one-channel downmix signal generated from a decorrelator corresponding to each of the plurality of OTT boxes.
  3. 제2항에 있어서,The method of claim 2,
    상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우,When N, the channel number of the output signal, exceeds the preset channel number M,
    상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고,The decorrelator includes a first decorrelator corresponding to a channel less than or equal to M and a second decorrelator corresponding to a channel greater than or equal to M,
    상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용하는 다채널 신호 처리 방법.And the second decorrelator reuses a filter set of the first decorrelator.
  4. 제2항에 있어서,The method of claim 2,
    상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성하는 다채널 신호 처리 방법.The OTT box of which the output is an LFE channel among the plurality of OTT boxes generates a two-channel downmix signal without using an uncorrelated signal.
  5. 제2항에 있어서,The method of claim 2,
    상기 복수의 OTT 박스들 각각은,Each of the plurality of OTT boxes,
    전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 방법.The multi-channel signal processing method for generating a two-channel output signal using the residual signal and the one-channel downmix signal in place of the uncorrelated signal, if there is a transmitted residual signal.
  6. 제1항에 있어서,The method of claim 1,
    상기 N채널의 출력 신호를 생성하는 단계는,Generating the output signal of the N channel,
    프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성하는 다채널 신호 처리 방법.A multi-channel signal processing method for generating an N-channel output signal using a pre decorrelator matrix M1 and a mix matrix M2.
  7. 제1항에 있어서,The method of claim 1,
    상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성하는 다채널 신호 처리 방법.Each of the plurality of OTT boxes, the multi-channel signal processing method for generating an output signal of the N channel using a channel level difference (CLD).
  8. 제1항에 있어서,The method of claim 1,
    상기 출력 신호의 채널수 N은 10부터 32까지의 짝수인 다채널 신호 처리 방법.The channel number N of the output signal is an even number from 10 to 32 multi-channel signal processing method.
  9. 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하는 단계; 및Decoding the downmix signal of the N / 2 channel encoded according to the first coding scheme; And
    제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하는 단계Generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme
    를 포함하고,Including,
    상기 제2 코딩 방식은,The second coding scheme is
    상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용하는 다채널 신호 처리 방법.When the output signal does not include an LFE channel, the multi-channel signal processing method using the same number of one-to-two (OTT) boxes equal to N / 2 which is the number of channels of the downmix signal.
  10. 다채널 신호 처리 장치에 있어서,In the multi-channel signal processing apparatus,
    다채널 신호 처리 방법을 실행하는 프로세스를 포함하고,A process for executing a multi-channel signal processing method,
    상기 프로세스는,The process is
    N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하고,Identify the downmix signal of the N / 2 channel derived from the input signal of the N channel,
    복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하며,Generating an N-channel output signal from the identified N / 2 channel downmix signal using a plurality of OTT boxes,
    상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일한 다채널 신호 처리 장치.And the number of the plurality of OTT boxes is equal to N / 2 which is the number of channels of the downmix signal when there is no LFE channel in the output signal.
  11. 제10항에 있어서,The method of claim 10,
    상기 복수의 OTT 박스들 각각은,Each of the plurality of OTT boxes,
    상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 장치.And a two-channel output signal using a non-correlation signal generated from a decorrelator corresponding to each of the plurality of OTT boxes and a downmix signal of one channel.
  12. 제11항에 있어서,The method of claim 11,
    상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우,When N, the channel number of the output signal, exceeds the preset channel number M,
    상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고,The decorrelator includes a first decorrelator corresponding to a channel less than or equal to M and a second decorrelator corresponding to a channel greater than or equal to M,
    상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용하는 다채널 신호 처리 장치.And the second decorrelator reuses a filter set of the first decorrelator.
  13. 제11항에 있어서,The method of claim 11,
    상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성하는 다채널 신호 처리 장치.An OTT box whose output is an LFE channel among the plurality of OTT boxes generates a downmix signal of two channels without using an uncorrelated signal.
  14. 제11항에 있어서,The method of claim 11,
    상기 복수의 OTT 박스들 각각은,Each of the plurality of OTT boxes,
    전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 장치.The multi-channel signal processing apparatus for generating a two-channel output signal using the residual signal and the one-channel downmix signal in place of the uncorrelated signal, if there is a transmitted residual signal.
  15. 제10항에 있어서,The method of claim 10,
    상기 프로세스는,The process is
    프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성하는 다채널 신호 처리 장치.A multi-channel signal processing apparatus for generating an output signal of the N channel by using a pre decorrelator matrix M1 and a mix matrix M2.
  16. 제10항에 있어서,The method of claim 10,
    상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성하는 다채널 신호 처리 장치.Each of the plurality of OTT boxes, the multi-channel signal processing device for generating an output signal of the N channel using a channel level difference (CLD).
  17. 제10항에 있어서,The method of claim 10,
    상기 출력 신호의 채널수 N은 10부터 32까지의 짝수인 다채널 신호 처리 장치.And a channel number N of the output signal is an even number ranging from 10 to 32.
  18. 다채널 신호 처리 장치에 있어서,In the multi-channel signal processing apparatus,
    다채널 신호 처리 방법을 실행하는 프로세스를 포함하고,A process for executing a multi-channel signal processing method,
    상기 프로세스는,The process is
    제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하고,Decode the downmix signal of the N / 2 channel encoded according to the first coding scheme,
    제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하며,Generating an output signal of the N channel from the downmix signal of the N / 2 channel according to a second coding scheme,
    상기 제2 코딩 방식은,The second coding scheme is
    상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용하는 다채널 신호 처리 장치.When the output signal does not include an LFE channel, the multi-channel signal processing apparatus using the same number of one-to-two (OTT) boxes equal to N / 2 which is the number of channels of the downmix signal.
PCT/KR2016/001613 2015-02-17 2016-02-17 Multichannel signal processing method, and multichannel signal processing apparatus for performing same WO2016133366A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/551,734 US10225675B2 (en) 2015-02-17 2016-02-17 Multichannel signal processing method, and multichannel signal processing apparatus for performing the method
US16/290,469 US10638243B2 (en) 2015-02-17 2019-03-01 Multichannel signal processing method, and multichannel signal processing apparatus for performing the method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20150024464 2015-02-17
KR10-2015-0024464 2015-02-17
KR1020160018462A KR20160101692A (en) 2015-02-17 2016-02-17 Method for processing multichannel signal and apparatus for performing the method
KR10-2016-0018462 2016-02-17

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/551,734 A-371-Of-International US10225675B2 (en) 2015-02-17 2016-02-17 Multichannel signal processing method, and multichannel signal processing apparatus for performing the method
US16/290,469 Continuation US10638243B2 (en) 2015-02-17 2019-03-01 Multichannel signal processing method, and multichannel signal processing apparatus for performing the method

Publications (1)

Publication Number Publication Date
WO2016133366A1 true WO2016133366A1 (en) 2016-08-25

Family

ID=56689064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/001613 WO2016133366A1 (en) 2015-02-17 2016-02-17 Multichannel signal processing method, and multichannel signal processing apparatus for performing same

Country Status (1)

Country Link
WO (1) WO2016133366A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070094422A (en) * 2006-01-11 2007-09-20 삼성전자주식회사 Method and apparatus for decoding and encoding of multi-channel
US20070233293A1 (en) * 2006-03-29 2007-10-04 Lars Villemoes Reduced Number of Channels Decoding
US20120321090A1 (en) * 2005-11-21 2012-12-20 Samsung Electronics Co., Ltd. System, medium, and method of encoding/decoding multi-channel audio signals
KR20150009474A (en) * 2013-07-15 2015-01-26 한국전자통신연구원 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120321090A1 (en) * 2005-11-21 2012-12-20 Samsung Electronics Co., Ltd. System, medium, and method of encoding/decoding multi-channel audio signals
KR20070094422A (en) * 2006-01-11 2007-09-20 삼성전자주식회사 Method and apparatus for decoding and encoding of multi-channel
US20070233293A1 (en) * 2006-03-29 2007-10-04 Lars Villemoes Reduced Number of Channels Decoding
KR20150009474A (en) * 2013-07-15 2015-01-26 한국전자통신연구원 Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOLBY METADATA GUIDE, 2005, Retrieved from the Internet <URL:http://www.dolby.com/us/en/technologies/dolby-metadata.html> *

Similar Documents

Publication Publication Date Title
WO2010107269A2 (en) Apparatus and method for encoding/decoding a multichannel signal
WO2016024847A1 (en) Method and device for generating and playing back audio signal
WO2015142073A1 (en) Audio signal processing method and apparatus
WO2015099429A1 (en) Audio signal processing method, parameterization device for same, and audio signal processing device
WO2015152665A1 (en) Audio signal processing method and device
WO2010050740A2 (en) Apparatus and method for encoding/decoding multichannel signal
WO2017222140A1 (en) Encoding and decoding methods and devices including cnn-based in-loop filter
WO2014175669A1 (en) Audio signal processing method for sound image localization
WO2010062123A2 (en) Unified speech/audio codec (usac) processing windows sequence based mode switching
WO2015060652A1 (en) Method and apparatus for processing audio signal
WO2015147533A2 (en) Method and apparatus for rendering sound signal and computer-readable recording medium
WO2016089180A1 (en) Audio signal processing apparatus and method for binaural rendering
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2020013514A1 (en) Method and apparatus for processing video signal
WO2016204579A1 (en) Method and device for processing internal channels for low complexity format conversion
WO2021118107A1 (en) Audio output apparatus and method of controlling thereof
WO2020242260A1 (en) Method and device for machine learning-based image compression using global context
WO2016204581A1 (en) Method and device for processing internal channels for low complexity format conversion
EP2392007A2 (en) A method and an apparatus for decoding an audio signal
WO2019031652A1 (en) Three-dimensional audio playing method and playing apparatus
WO2009116815A2 (en) Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
WO2022158913A1 (en) Noise and echo signal integrated cancellation device using deep neural network having parallel structure
WO2010032992A2 (en) Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder
WO2022158943A1 (en) Apparatus and method for processing multichannel audio signal
WO2015093742A1 (en) Method and apparatus for encoding/decoding an audio signal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16752696

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16752696

Country of ref document: EP

Kind code of ref document: A1