KR20130095851A - Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding - Google Patents

Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding Download PDF

Info

Publication number
KR20130095851A
KR20130095851A KR1020137020130A KR20137020130A KR20130095851A KR 20130095851 A KR20130095851 A KR 20130095851A KR 1020137020130 A KR1020137020130 A KR 1020137020130A KR 20137020130 A KR20137020130 A KR 20137020130A KR 20130095851 A KR20130095851 A KR 20130095851A
Authority
KR
South Korea
Prior art keywords
signal
stereo
encoding
encoder
downmix
Prior art date
Application number
KR1020137020130A
Other languages
Korean (ko)
Other versions
KR101433701B1 (en
Inventor
헤이코 푸른하겐
폰투스 칼슨
크리스토퍼 크죌링
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20130095851A publication Critical patent/KR20130095851A/en
Application granted granted Critical
Publication of KR101433701B1 publication Critical patent/KR101433701B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

본 발명은 오디오 인코더 및 디코더 시스템들에 관한 것이다. 인코더 시스템의 실시예는 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위한 다운믹스 스테이지를 포함한다. 또한, 인코더 시스템은 채널간 세기차 및 채널간 교차상관과 같은 파라메트릭 스테레오 파라미터들을 결정하기 위한 파라미터 결정 스테이지를 포함한다. 바람직하게, 파라메트릭 스테레오 파라미터들은 시간-가변 및 주파수-가변적이다. 또한, 인코더 시스템은 변환 스테이지를 포함한다. 변환 스테이지는 다운믹스 신호 및 잔차 신호에 기초하여 변환을 실행함으로써 의사 좌/우 스테레오 신호를 생성한다. 의사 스테레오 신호는 인지 스테레오 인코더에 의해 처리된다. 스테레오 인코딩을 위해서, 좌/우 인코딩 또는 미드/사이드 인코딩은 선택가능하다. 바람직하게, 좌/우 스테레오 인코딩과 미드/사이드 스테레오 인코딩 간에 선택은 시간-가변 및 주파수-가변적이다.The present invention relates to audio encoder and decoder systems. An embodiment of an encoder system includes a downmix stage for generating a downmix signal and a residual signal based on a stereo signal. The encoder system also includes a parameter determination stage for determining parametric stereo parameters, such as inter-channel intensity differences and inter-channel cross-correlation. Preferably, the parametric stereo parameters are time-variable and frequency-variable. The encoder system also includes a conversion stage. The conversion stage generates a pseudo left / right stereo signal by performing a conversion based on the downmix signal and the residual signal. The pseudo-stereo signal is processed by the perceptual stereo encoder. For stereo encoding, left / right encoding or mid / side encoding is selectable. Preferably, the choice between left / right stereo encoding and mid / side stereo encoding is time-variable and frequency-variable.

Description

적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩{ADVANCED STEREO CODING BASED ON A COMBINATION OF ADAPTIVELY SELECTABLE LEFT/RIGHT OR MID/SIDE STEREO CODING AND OF PARAMETRIC STEREO CODING}ADVANCED STEREO CODING BASED ON A COMBINATION OF ADAPTIVELY SELECTABLE LEFT / RIGHT OR MID / SIDE STEREO CODING AND OF PARAMETRIC BASED ON A COMBINATION OF ADAPTIVE SELECTABLE LEFT / RIGHT OR MID / SIDE STEREO CODING AND PARAMETRIC STEREO CODING STEREO CODING}

본 발명은 오디오 코딩에 관한 것으로, 특히 파라미터 및 파형 기반의 코딩 기술들을 결합한 스테레오 오디오 코딩에 관한 것이다.The present invention relates to audio coding, and more particularly to stereo audio coding combining parametric and waveform based coding techniques.

스테레오 신호의 좌측(L) 채널 및 우측(R) 채널의 조인트(joint) 코딩은 L 및 R의 독립적 코딩에 비해 더 효율적인 코딩을 가능하게 한다. 조인트 스테레오 코딩을 위한 일반적인 수법은 미드(mid)/사이드(side)(M/S) 코딩이다. 여기에서, 미드(M) 신호는 L 신호와 R 신호를 더함으로써 형성되는데, 예를 들면, M 신호는 다음의 형태를 취할 수 있다.Joint coding of the left (L) channel and the right (R) channel of the stereo signal allows for more efficient coding compared to independent coding of L and R. A common technique for joint stereo coding is mid / side (M / S) coding. Here, the mid (M) signal is formed by adding an L signal and an R signal. For example, the M signal can take the following form.

Figure pat00001
Figure pat00001

또한, 사이드(S) 신호는 2개의 채널 L 및 채널 R을 서로 감함으로써 형성되는데, 예를 들면, S 신호는 다음의 형태를 취할 수 있다.Further, the side (S) signal is formed by subtracting two channels L and R from each other. For example, the S signal can take the following form.

Figure pat00002
Figure pat00002

M/S 코딩의 경우에, L 신호 및 R 신호 대신에 M 신호 및 S 신호가 코딩된다.In the case of M / S coding, the M signal and the S signal are coded in place of the L signal and the R signal.

MPEG(Moving Picture Experts Group) AAC(Advanced Audio Coding) 표준(표준 문서 ISO/IEC 13818-7 참조)에서, L/R 스테레오 코딩 및 M/S 스테레오 코딩은 시간-가변 및 주파수-가변 방식으로 선택될 수 있다. 따라서, 스테레오 인코더는 스테레오 신호의 일부 주파수 대역들에 대해선 L/R 코딩을 적용할 수 있고 반면 M/S 코딩은 스테레오 신호의 그외 다른 주파수 대역들을 인코딩하기 위해 이용된다(주파수 가변). 또한, 인코더는 시간에 따라 L/R과 M/S 코딩 간을 전환할 수 있다(시간-가변). MPEG AAC에서, 스테레오 인코딩을 주파수 영역, 특히 MDCT(수정된 이산 코사인 변환) 영역에서 실행된다. 이것은 주파수 및 시간 가변적으로 L/R 또는 M/S 코딩을 적응형으로 선택할 수 있게 한다. L/R과 M/S 스테레오 인코딩 간에 결정은 사이드 신호를 평가함으로써 기초할 수 있는데, 사이드 신호의 에너지가 낮을 때는 M/S 스테레오 인코딩이 더 효율적이고 이용되어야 한다. 대안적으로, 두 스테레오 코딩 수법들 간을 결정함에 있어, 두 코딩 수법들을 시도해보고, 선택은 나타난 양자화 결과, 즉, 관찰된 인지 엔트로피에 기초할 수 있다.In the Moving Picture Experts Group (MPEG) Advanced Audio Coding (MPEG) standard (see standard document ISO / IEC 13818-7), L / R stereo coding and M / S stereo coding are selected in a time-variable and frequency- . Thus, the stereo encoder can apply L / R coding for some frequency bands of the stereo signal, while M / S coding is used to encode other frequency bands of the stereo signal (frequency variable). In addition, the encoder can switch between L / R and M / S coding over time (time-variable). In MPEG AAC, stereo encoding is performed in the frequency domain, especially in the MDCT (Modified Discrete Cosine Transform) domain. This allows adaptive selection of L / R or M / S coding with frequency and time variability. The decision between L / R and M / S stereo encoding can be based on evaluating the side signal. When the energy of the side signal is low, M / S stereo encoding should be more efficient and used. Alternatively, in determining between the two stereo coding techniques, the two coding techniques may be tried and the selection may be based on the quantization result, i.e., the observed cognitive entropy, as indicated.

조인트 스테레오 코딩에 대한 대안적 수법은 파라메트릭 스테레오(PS) 코딩이다. 여기에서, 스테레오 신호는 AAC 인코더와 같은 통상의 오디오 인코더로 다운믹스 신호를 인코딩한 후에 모노 다운믹스 신호로서 전달된다. 다운믹스 신호는 L 채널과 R 채널의 중첩이다. 모노 다운믹스 신호는 채널간(즉, L과 R 간에) 세기 차(IID) 및 채널간 교차상관(ICC)과 같은 추가의 시간-가변 및 주파수-가변적 PS 파라미터들과 조합하여 전달된다. 디코더에서, 디코딩된 다운믹스 신호 및 파라메트릭 스테레오 파라미터들에 기초하여, 원 스테레오 신호의 인지 스테레오 이미지에 근사한 스테레오 신호가 재구성된다. 재구성하기 위해서, 다운믹스 신호의 역상관된(decorrelated) 버전이 역상관기에 의해 생성된다. 이러한 역상관기는 적합한 전역-통과 필터에 의해 실현될 수 있다. PS 인코딩 및 디코딩은 논문 "Low Complexity 파라미터 Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168에 기술되어 있다. 이 문서에 개시된 바를 참조로서 여기에 포함시킨다.An alternative approach to joint stereo coding is parametric stereo (PS) coding. Here, the stereo signal is transmitted as a mono down-mix signal after encoding the down-mix signal with a conventional audio encoder such as an AAC encoder. The downmix signal is an overlap of the L channel and the R channel. The mono downmix signal is delivered in combination with additional time-varying and frequency-varying PS parameters such as inter-channel (i.e., L and R) intensity difference (IID) and interchannel cross-correlation (ICC). At the decoder, a stereo signal approximating the perceived stereo image of the original stereo signal is reconstructed, based on the decoded downmix signal and the parametric stereo parameters. To reconstruct, a decorrelated version of the downmix signal is generated by the decorrelator. This decorrelator can be realized by a suitable global-pass filter. PS encoding and decoding is described in the paper "Low Complexity Parameter Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFX'04), Naples, Italy, October 5-8, 2004, pages 163-168. Incorporated herein by reference in its entirety.

MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)은 PS 코딩의 개념을 이용한다. MPEG 서라운드 디코더에서 복수의 출력 채널들은 몇개의 입력 채널들 및 제어 파라미터들에 기초하여 생성된다. MPEG 서라운드 디코더들 및 인코더들은 파라메트릭 스테레오 모듈들을 연이어 연결함으로써 구성되는데, MPEG 서라운드에서는 디코더에 있어서선 OTT 모듈들(1 대 2 모듈들) 이라고 하고 인코더에 있어선 R-OTT 모듈들(역 1 대 2 모듈들)이라고 한다. OTT 모듈은 PS 파라미터들을 동반한 단일 입력 채널(다운믹스 신호)에 의해 2개의 출력 채널들을 결정한다. OTT 모듈은 PS 디코더에 대응하고 R-OTT 모듈은 PS 인코더에 대응한다. 파라메트릭 스테레오는 디코더측에서 단일 OTT 모듈과 인코더측에서 단일 R-OTT 모듈을 이용한 MPEG 서라운드를 이용함으로써 실현될 수 있고, 이것을 "MPEG 서라운드 2-1-2" 모드라고도 한다. 비트스트림 신택스는 다를 수 있는데, 그러나 기본 이론 및 신호 처리는 동일하다. 그러므로, 다음에서 PS에 대한 모든 언급들은 "MPEG 서라운드 2-1-2" 또는 MPEG 서라운드 기반 파라메트릭 스테레오를 포함한다.The MPEG Surround standard (document ISO / IEC 23003-1) uses the concept of PS coding. In an MPEG surround decoder, a plurality of output channels are generated based on several input channels and control parameters. MPEG Surround decoders and encoders are constructed by connecting parametric stereo modules in series. In MPEG Surround, they are called line OTT modules (one-to-two modules) for decoders and R-OTT modules Modules). The OTT module determines the two output channels by a single input channel (downmix signal) with PS parameters. The OTT module corresponds to the PS decoder and the R-OTT module corresponds to the PS encoder. Parametric stereo can be realized by using MPEG surround with a single OTT module on the decoder side and a single R-OTT module on the encoder side, which is also referred to as the "MPEG surround 2-1-2" mode. The bitstream syntax may be different, but the basic theory and signal processing are the same. Therefore, all references to PS in the following include "MPEG Surround 2-1-2" or MPEG Surround based parametric stereo.

PS 인코더에서(예를 들면, MPEG 서라운드 PS 인코더에서), 다운믹스 신호 외에도 잔차 신호(RES)가 결정되어 송신될 수 있다. 이러한 잔차 신호는 원 채널들을 이들의 다운믹스 및 PS 파라미터들로 나타낸 것에 연관된 오차를 나타낸다. 디코더에서, 잔차 신호는 다운믹스 신호의 역상관된 버전 대신에 이용될 수 있다. 이것은 원 채널 L 및 채널 R의 파형들을 더 잘 재구성할 수 있게 한다. 추가의 잔차 신호의 이용은 예를 들면, MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 및 논문 "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding, J. Herre et al., Audio Engineering Convention Paper 7084, 122nd Convention, May 5-8, 2007에 기술되어 있다. 두 문서들의 내용, 특히 이들에 잔차 신호에 대한 설명을 참조로서 여기에 포함시킨다.In the PS encoder (for example, in the MPEG surround PS encoder), the residual signal RES in addition to the downmix signal can be determined and transmitted. This residual signal represents the error associated with representing the original channels with their downmix and PS parameters. In the decoder, the residual signal may be used in place of the decorrelated version of the downmix signal. This allows for better reconstruction of the waveforms of the original channel L and channel R. [ The use of additional residual signals is described, for example, in the MPEG Surround standard (see document ISO / IEC 23003-1) and in the article "MPEG Surround - The ISO / MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding, al., Audio Engineering Convention Paper 7084, are described in the 122 nd Convention, may 5-8, 2007 . causes the contents of both documents, particularly to those included here by reference in the description of the residual signal.

잔차를 이용한 PS 코딩은 M/S 코딩보다는 조인트 스테레오 코딩에 더 일반적인 수법이고, M/S 코딩은 L/R 신호들을 M/S 신호들로 변환할 때 신호 회전(rotation)을 실행한다. 또한, 잔차 이용 PS 코딩은 L/R 신호들을 다운믹스 신호 및 잔차 신호로 변환할 때 신호 회전 을 실행한다. 그러나, 후자의 경우에 신호 회전는 가변적이고 PS 파라미터들에 종속적이다.PS coding using residuals is a more common technique for joint stereo coding than M / S coding, and M / S coding performs signal rotation when converting L / R signals to M / S signals. In addition, the residual use PS coding performs signal rotation when converting the L / R signals into a downmix signal and a residual signal. In the latter case, however, the signal rotation is variable and dependent on the PS parameters.

잔차 이용 PS 코딩의 더 일반적 수법에 기인하여, 잔차 이용 PS 코딩은 팬(paned) 모노 신호같은 어떤 유형들의 신호들의 코딩을 M/S 코딩보다 더 효율적이게 한다. 따라서, 제시된 코더는 파라메트릭 스테레오 코딩 기술들을 파형 기반 스테레오 코딩 기술들과 효율적으로 결합할 수 있게 한다. Due to the more general technique of residual use PS coding, residual use PS coding makes coding of some types of signals, such as paned mono signals, more efficient than M / S coding. Thus, the proposed coder enables efficient combination of parametric stereo coding techniques with waveform based stereo coding techniques.

흔히, MPEG AAC 인지 스테레오 인코더와 같은 인지 스테레오 인코더들은 L/R 스테레오 인코딩과 M/S 스테레오 인코딩 중 하나를 결정할 수 있는데, 후자의 경우 미드/사이드 신호는 스테레오 신호에 기초하여 발생된다. 이러한 선택은 주파수-가변적일 수 있는데, 즉, 일부 주파수 대역들에 대해서 L/R 스테레오 인코딩이 이용될 수 있고, 그외 주파수 대역들에 대해선 M/S 스테레오 인코딩이 이용될 수 있다.Often, perceptual stereo encoders such as MPEG AAC or stereo encoders can determine either L / R stereo encoding and M / S stereo encoding, in the latter case the mid / side signal is generated based on the stereo signal. This selection may be frequency-variable, i.e., L / R stereo encoding may be used for some frequency bands, and M / S stereo encoding may be used for other frequency bands.

L 및 R 채널들이 기본적으로 독립적 신호들인 상황에서, 이러한 인지 스테레오 인코더는 이 상황에서 이러한 인코딩 수법이 L/R 스테레오 인코딩에 비해 어떠한 코딩 이득도 제공하지 않기 때문에 전형적으로 M/S 스테레오 인코딩을 제공하지 않을 것이다. 인코더는 기본적으로 L 및 R을 독립적으로 처리하는 단순 L/R 스테레오 인코딩으로 되돌아 갈 것이다.In the situation where the L and R channels are essentially independent signals, this perceptual stereo encoder typically does not provide M / S stereo encoding in this situation since this encoding approach does not provide any coding gain over L / R stereo encoding I will not. The encoder will revert to a simple L / R stereo encoding, which basically handles L and R independently.

같은 상황에서, PS 인코더 시스템은 L 및 R 채널들 양쪽 모두를 내포하는 다운믹스 신호를 생성할 것이고, 이것은 L 및 R 채널들의 독립적 처리를 못하게 한다. 잔차 신호 이용 PS 코딩에 있어서, 이것은 스테레오 인코딩에 비해 덜 효율적인 코딩임을 의미할 수 있고, L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩은 적응형으로 선택될 수 있다.In the same situation, the PS encoder system will generate a downmix signal containing both L and R channels, which prevents independent processing of the L and R channels. For PS coding with residual signal, this may mean less efficient coding compared to stereo encoding, and L / R stereo encoding or M / S stereo encoding may be adaptively selected.

따라서, L/R 스테레오 인코딩과 M/S 스테레오 인코딩 중 하나를 적응형으로 선택함으로써 PS 코더가 인지 스테레오 코더보다 낮고, 다른 상황들에서는 후자의 코더가 PS 코더보다 더 나은 상황들이 있다.Thus, there are situations in which the PS coder is lower than the perceived stereo coder by adaptively selecting one of L / R stereo encoding and M / S stereo encoding, and in other situations the latter coder is better than the PS coder.

본 발명의 목적은 파라미터 및 파형 기반의 코딩 기술들을 결합한 스테레오 오디오 코딩을 제공하는 것이다.It is an object of the present invention to provide stereo audio coding that combines parameter and waveform based coding techniques.

본 발명은 잔차를 이용하는 PS 코딩을 적응형 L/R 또는 M/S 인지 스테레오 코딩(예를 들면, MDCT 영역에서 AAC 인지 조인트 스테레오 코딩)에 결합하는 착상에 기초한 오디오 인코더 시스템 및 인코딩 방법을 기술한다. 이것은 적응형 L/R 또는 M/S 스테레오 코딩(예를 들면, MPEG AAC에서 이용되는)의 잇점들과 잔차 신호를 이용하는 PS 코딩(예를 들면, MPEG 서라운드에서 이용되는)의 잇점들을 결합할 수 있게 한다. 또한, 본 발명은 대응하는 오디오 디코더 시스템 및 디코딩 방법을 기술한다.The present invention describes an imaging-based audio encoder system and encoding method that combines PS coding using residuals into adaptive L / R or M / S or stereo coding (e.g., AAC or joint stereo coding in the MDCT domain) . This can combine the advantages of adaptive L / R or M / S stereo coding (e.g. used in MPEG AAC) and the benefits of PS coding using residual signals (e.g. used in MPEG surround) Let's do it. The present invention also describes a corresponding audio decoder system and decoding method.

본 발명의 제 1 양태는 스테레오 신호를 비트스트림 신호로 인코딩하기 위한 인코더 시스템에 관한 것이다. 인코더 시스템의 실시예에 따라서, 인코더 시스템은 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위한 다운믹스 스테이지를 포함한다. 잔차 신호는 이용되는 오디오 주파수 범위의 일부분만을 또는 전부를 포함할 수 있다. 또한, 인코더 시스템은 채널간 세기 차 및 채널간 교차상관과 같은 PS 파라미터들을 결정하기 위한 파라미터 결정 스테이지를 포함한다. 바람직하게, PS 파라미터들 주파수-가변적이다. 이러한 다운믹스 스테이지 및 파라미터 결정 스테이지는 전형적으로 PS 인코더의 일부이다.A first aspect of the invention relates to an encoder system for encoding a stereo signal into a bitstream signal. According to an embodiment of the encoder system, the encoder system comprises a downmix stage for generating a downmix signal and a residual signal based on the stereo signal. The residual signal may include only a portion or all of the audio frequency range being used. The encoder system also includes a parameter determination stage for determining PS parameters, such as inter-channel intensity differences and inter-channel cross-correlation. Preferably, the PS parameters are frequency-variable. These downmix stages and parameter determination stages are typically part of a PS encoder.

또한, 인코더 시스템은 다운믹스 스테이지 하류측에 있는 인지 인코딩 수단을 포함하고, 다운믹스 신호와 잔차 신호의 합에 기초하고 다운믹스 신호와 잔차 신호의 차에 기초하여 인코딩하거나, 다운믹스 신호에 기초하고 잔차 신호에 기초하여 인코딩하는 것인 2가지 인코딩 수법들이 선택가능하다.The encoder system also includes a perceptual encoding means on the downstream side of the downmix stage for encoding based on the sum of the downmix signal and the residual signal and based on the difference between the downmix signal and the residual signal, And encoding based on the residual signal are selectable.

인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 다운믹스 신호 및 잔차 신호가 인코딩되거나 이에 비례하는 신호들이 인코딩될 수 있는 것에 유의한다. 인코딩이 합 및 차에 기초하는 경우, 합 및 차가 인코딩되거나 이에 비례하는 신호들이 인코딩될 수 있다.Note that when the encoding is based on a downmix signal and a residual signal, the downmix signal and the residual signal may be encoded or the signals proportional thereto may be encoded. If the encodings are based on sum and difference, the sum and difference may be encoded or signals that are proportional thereto may be encoded.

선택은 주파수-가변적(및 시간-가변적)일 수 있는데, 즉, 제 1 주파수 대역에 대해서 인코딩이 합 신호 및 차 신호에 기초하는 것이 선택될 수 있고, 제 2 주파수 대역에 대해서 인코딩은 다운믹스 신호 및 잔차 신호에 기초하는 것이 선택될 수 있다.The selection may be frequency-variable (and time-variant), that is, for the first frequency band, encoding may be selected based on the sum signal and the difference signal, and for the second frequency band, And the residual signal can be selected.

이러한 인코더 시스템은 잔차를 이용하여 L/R 스테레오 코딩과 PS 코딩 간을 전환할 수 있게 하는(바람직하게 주파수-가변적으로) 잇점이 있는데, 인지 인코딩 수단이 다운믹스 신호 및 잔차 신호에 기초한 인코딩을 선택한다면(특정 대역에 대해서 또는 전체 이용되는 주파수 범위에 대해서), 인코딩 시스템은 잔차 이용 표준 PS 코딩을 이용하는 시스템처럼 동작한다. 그러나, 인지 인코딩 수단이 다운믹스 신호 및 잔차 신호의 합 신호에 기초하고 및 다운믹스 신호 및 잔차 신호의 차 신호에 기초하여 인코딩을 선택한다면(특정 대역에 대해서 또는 전체 이용되는 주파수 범위에 대해서), 어떤 상황들 하에서, 합 및 차 연산들은 근본적으로 전체 시스템이 실제로 전체 스테레오 신호 또는 이의 주파수 대역에 대해서 L/R 인코딩을 실행할 수 있게 이전의 다운믹스 동작(아마도 다른 이득률은 제외하고)을 보상한다. 예를 들면, 이러한 상황들은 스테레오 신호의 L 채널 및 R 채널이 독립적이고 후술하는 바와 같이 동일 레벨을 가질 때 일어난다.Such an encoder system is advantageous (preferably frequency-variable) by allowing the use of residuals to switch between L / R stereo coding and PS coding, wherein the cognitive encoding means selects an encoding based on the downmix signal and the residual signal (For a particular band or for the entire used frequency range), the encoding system operates like a system using residual use standard PS coding. However, if the recognition encoding means selects an encoding based on the sum signal of the downmix signal and the residual signal and based on the difference signal of the downmix signal and the residual signal (for a particular band or for the entire used frequency range) Under some circumstances, sum and difference operations essentially compensate for previous downmix operations (possibly other gain factors) so that the entire system can actually perform L / R encoding for the entire stereo signal or its frequency band . For example, these situations occur when the L channel and R channel of the stereo signal are independent and have the same level as described below.

바람직하게, 인코딩 수법의 적응은 시간 및 주파수에 종속적이다. 따라서, 바람직하게 스테레오 신호의 일부 주파수 대역들은 L/R 인코딩 수법에 의해 인코딩되고, 스테레오 신호의 이외 다른 주파수 대역들은 잔차를 이용하는 PS 코딩 수법에 의해 인코딩된다.Preferably, the adaptation of the encoding technique is time and frequency dependent. Thus, preferably some frequency bands of the stereo signal are encoded by the L / R encoding technique and other frequency bands of the stereo signal are encoded by a PS coding technique that utilizes residuals.

위에 논한 바와 같이 인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 코어 인코더에 입력되는 실제 신호는 다운믹스 신호 및 반대인 잔차 신호에 대해 2개의 일련의 동작들(아마도 다른 이득율에 대해선 제외하고)에 의해 형성될 수도 있는 것에 유의한다. 예를 들면, 다운믹스 신호 및 잔차 신호는 M/S 대 L/R 변환 스테이지에 공급되고 이어서 변환 스테이지의 출력은 L/R 대 M/S 변환 스테이지에 공급된다. 결과적인 신호(이어서 인코딩하기 위해 이용된다)는 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)에 대응한다.As discussed above, if the encoding is based on a downmix signal and a residual signal, the actual signal input to the core encoder is divided into two series of operations (presumably for the other gain factors, except for the downmix signal and the opposite inverse signal) And < / RTI > For example, the downmix signal and the residual signal are supplied to the M / S to L / R conversion stage and then the output of the conversion stage is supplied to the L / R to M / S conversion stage. The resulting signal (which is then used for encoding) corresponds to the downmix signal and the residual signal (except perhaps for other gain factors).

다음 실시예는 이 착상을 이용한다. 인코더 시스템의 실시예에 따라서, 인코더 시스템은 위에 논한 바와 같이 다운믹스 스테이지 및 파라미터 결정 스테이지를 포함한다. 또한, 인코더 시스템은 변환 스테이지(예를 들면, 위에 논한 인코딩 수단의 부분으로서)를 포함한다. 변환 스테이지는 다운믹스 신호 및 잔차 신호의 변환을 실행함으로써 의사 L/R 스테레오 신호를 생성한다. 변환 스테이지는 바람직하게는 합차 변환을 실행하는데, 다운믹스 신호 및 잔차 신호들은 의사 스테레오 신호의 한 채널을 생성하기 위해 합해지며(아마도, 합은 인수로 곱해진다), 의사 스테레오 신호의 다른 한 채널을 생성하기 위해 서로 감해진다(아마도, 차는 인수로 곱해진다). 바람직하게, 의사 스테레오 신호의 제 1 채널(예를 들면, 의사 좌 채널)은 다운믹스 신호 및 잔차 신호의 합에 비례하고, 제 2 채널(예를 들면, 의사 우 채널)은 다운믹스 신호 및 잔차 신호의 차에 비례한다. 이에 따라, PS 인코더로부터 다운믹스 신호(DMX) 및 잔차 신호(RES)는 다음 식들에 따라 의사 스테레오 신호(Lp, Rp)로 변환될 수 있다.The following example uses this implant. According to an embodiment of the encoder system, the encoder system comprises a downmix stage and a parameter decision stage as discussed above. The encoder system also includes a conversion stage (e.g., as part of the encoding means discussed above). The conversion stage generates a pseudo L / R stereo signal by performing conversion of the downmix signal and the residual signal. The conversion stage preferably performs a sum-of-product conversion, wherein the downmix signal and the residual signals are summed to produce one channel of the pseudo-stereo signal (possibly summed with a factor) and the other channel of the pseudo-stereo signal They are subtracted from each other to produce (perhaps the difference is multiplied by the argument). Preferably, the first channel (e.g., pseudo left channel) of the pseudo stereo signal is proportional to the sum of the downmix signal and the residual signal, and the second channel (e.g., pseudo right channel) It is proportional to the difference in signal. Thus, the downmix signal (DMX) and a residual signal (RES) from the PS encoder may be converted to a pseudo-stereo signal (L p, R p) in accordance with the following equations.

Lp = g(DMX + RES)L p = g (DMX + RES)

Rp = g(DMX - RES)R p = g (DMX - RES)

위의 식들에서 이득 정규화율 g는 예를 들면, 다음의 값을 갖는다.In the above equations, the gain normalization rate g has, for example, the following values.

Figure pat00003
Figure pat00003

의사 스테레오 신호는 바람직하게는 인지 스테레오 인코더(예를 들면, 인코딩 수단의 부분으로서)에 의해 처리된다. 인코딩에 있어서, L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩은 선택될 수 있다. 적응형 L/R 또는 M/S 인지 스테레오 인코더는 AAC 기반 인코더일 수 있다. 바람직하게, L/R 스테레오 인코딩 및 M/S 스테레오 인코딩 간에 선택은 주파수-가변적이고, 따라서 선택은 위에 논한 바와 같이 상이한 주파수 대역들마다 다를 수 있다. 또한, L/R 인코딩과 M/S 인코딩 간에 선택은 바람직하게는 시간-가변적이다. L/R 인코딩과 M/S 인코딩 간에 결정은 바람직하게는 인지 스테레오 인코더에 의해 행해진다.The pseudo-stereo signal is preferably processed by a perceptual stereo encoder (e.g., as part of the encoding means). For encoding, L / R stereo encoding or M / S stereo encoding may be selected. The adaptive L / R or M / S stereo encoder may be an AAC based encoder. Preferably, the choice between L / R stereo encoding and M / S stereo encoding is frequency-variable, so the selection may be different for different frequency bands as discussed above. In addition, the choice between L / R encoding and M / S encoding is preferably time-variant. The decision between L / R encoding and M / S encoding is preferably done by a perceptual stereo encoder.

M/S 인코딩에 대해 선택가능한 이러한 인지 인코더는 (의사) M 및 S 신호들(시간 영역에서 또는 선택된 주파수 대역들에서)를 의사 스테레오 L/R 신호에 기초하여 내부에서 계산할 수 있다. 이러한 의사 M 및 S 신호들은 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)에 대응한다. 따라서, 인지 스테레오 인코더가 M/S 인코딩을 선택한다면, 이것은 시스템에서 잔차 이용 표준 PS 코딩을 이용하여 행해졌을 다운믹스 신호 잔차 신호(의사 M 신호 S 신호에 대응하는)을 실제로 인코딩한다.These cognitive encoders that are selectable for M / S encoding can compute (pseudo) M and S signals (in the time domain or in selected frequency bands) internally based on the pseudo-stereo L / R signal. These pseudo M and S signals correspond to the downmix signal and the residual signal (except perhaps for other gain factors). Thus, if the perceptual stereo encoder chooses the M / S encoding, it actually encodes the downmix signal residual signal (corresponding to the pseudo M signal S signal) that has been made in the system using residual standard PS coding.

또한, 특별한 상황들 하에서, 변환 스테이지는 전체 인코더 시스템이 실제로 전체 스테레오 신호 또는 이의 주파수 대역에 대해서 L/R 인코딩을 실행할 수 있게(인지 인코더에서 L/R 인코딩이 선택된다면) 이전의 다운믹스 동작(아마도 다른 이득률은 제외하고)을 근본적으로 보상한다. 이것은 예를 들면, 스테레오 신호의 L 채널 및 R 채널이 독립적이고 나중에 상세히 설명되는 바와 같이 동일 레벨을 가질 때의 경우이다. 따라서, 주파수 대역에 대해서 스테레오 신호의 좌 채널 및 우 채널이 근본적으로 독립적이고 근본적으로 동일 레벨을 갖는다면, 주어진 주파수 대역에 대해서 의사 스테레오 신호는 근본적으로 스테레오 신호에 대응하거나 이에 비례한다.Further, under special circumstances, the conversion stage may also perform a previous downmix operation (if the L / R encoding is selected in the cognitive encoder) so that the entire encoder system can actually perform the L / R encoding for the entire stereo signal or its frequency band Perhaps except for other benefit rates). This is the case, for example, when the L channel and the R channel of the stereo signal are independent and have the same level as described in detail later. Thus, for a given frequency band, the pseudo-stereo signal essentially corresponds to or is proportional to the stereo signal if the left and right channels of the stereo signal are fundamentally independent and essentially at the same level for the frequency band.

따라서, 인코더 시스템은 주어진 스테레오 입력 신호의 특성들에 맞출 수 있기 위해서, L/R 스테레오 코딩과 잔차 이용 PS 코딩 간을 실제적으로 전환할 수 있게 한다. 바람직하게, 인코딩 수법의 적응은 시간 및 주파수 종속적이다. 따라서, 바람직하게, 스테레오 신호의 일부 주파수 대역들은 L/R 인코딩 수법에 의해 인코딩되고, 스테레오 신호의 그외 주파수 대역들은 잔차 이용 PS 코딩 수법에 의해 인코딩된다. M/S 코딩은 기본적으로 잔차 이용 PS 코딩의 특별한 경우이고(L/R 대 M/S 변환은 PS 다운믹스 동작의 특별한 경우이기 때문에) 따라서 인코더 시스템도 전체 M/S 코딩을 실행할 수 있는 것에 유의한다.Thus, the encoder system is able to actually switch between L / R stereo coding and residual use PS coding in order to be able to match the characteristics of a given stereo input signal. Preferably, the adaptation of the encoding technique is time and frequency dependent. Thus, preferably, some frequency bands of the stereo signal are encoded by the L / R encoding technique, and the other frequency bands of the stereo signal are encoded by the residual use PS coding technique. Note that M / S coding is basically a special case of residual use PS coding (since L / R versus M / S conversion is a special case of PS downmix operation) and therefore the encoder system can also perform full M / do.

PS 인코더의 하류측에 및 L/R 또는 M/S 인지 스테레오 인코더의 상류측에 변환 스테이지를 갖는 상기 실시예는 통상의 PS 인코더 및 통상의 인지 인코더가 이용될 수 있다는 잇점이 있다. 그럼에도불구하고, PS 인코더 또는 인지 인코더는 여기에서 특별한 이용에 기인하여 적응형이 될 수 있다.The embodiment with the conversion stage on the downstream side of the PS encoder and on the upstream side of the L / R or M / S or stereo encoder has the advantage that a conventional PS encoder and a conventional cognitive encoder can be used. Nonetheless, the PS encoder or cognitive encoder can be adaptive due to the particular use here.

새로운 개념은 PS 코딩 및 조인트 스테레오 코딩을 효율적으로 결합할 수 있게 함으로써 스테레오 코딩의 성응을 개선한다.The new concept improves the adaptation of stereo coding by allowing efficient combination of PS coding and joint stereo coding.

대안적 실시예에 따라, 위에 논한 바와 같은 인코딩 수단은 하나 이상의 주파수 대역들(예를 들면, 전체 이용되는 주파수 범위에 대해서 또는 한 주파수 범위에 대해서만)에 대해서 다운믹스 신호 및 잔차 신호에 기초하여 합차 변환을 실행하는 변환 스테이지를 포함한다. 변환은 주파수 영역 또는 시간 영역에서 실행될 수 있다. 변환 스테이지는 하나 이상의 주파수 대역들에 대해 의사 좌/우 스테레오 신호를 생성한다. 의사 스테레오 신호의 한 채널은 합에 대응하고, 다른 채널은 차에 대응한다.According to an alternative embodiment, the encoding means as discussed above may be implemented as a combination of two or more frequency bands (for example, And a conversion stage for executing the conversion. The transformation can be performed in the frequency domain or the time domain. The conversion stage generates pseudo left / right stereo signals for one or more frequency bands. One channel of the pseudo-stereo signal corresponds to the sum, and the other channel corresponds to the difference.

따라서, 인코딩이 합차 신호들에 기초하는 경우에, 변환 스테이지의 출력이 인코딩을 위해 이용될 수 있고, 인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 인코딩 스테이지의 상류측에 신호들이 인코딩을 위해 이용될 수 있다. 따라서, 이 실시예는 다운믹스 신호 및 잔차 신호에 대해 2개의 일련의 합차 변환들을 이용하지 않아, 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)가 되게 한다.Thus, if the encoding is based on summing signals, then the output of the transforming stage can be used for encoding, and if the encoding is based on a downmix signal and a residual signal, the signals upstream of the encoding stage Lt; / RTI > Thus, this embodiment does not use two series of sum-of-product transforms for the downmix signal and the residual signal, resulting in a downmix signal and a residual signal (perhaps for other gain factors).

다운믹스 신호 및 잔차 신호에 기초하여 인코딩을 선택하였을 때, 스테레오 신호의 파라메트릭 스테레오 인코딩이 선택된다. 합차에 기초하여 인코딩(즉, 의사 스테레오 신호에 기초한 인코딩)을 선택하였을 때, 스테레오 신호의 L/R 인코딩이 선택된다.When encoding is selected based on the downmix signal and the residual signal, the parametric stereo encoding of the stereo signal is selected. When selecting an encoding based on the sum (i. E. Encoding based on a pseudo stereo signal), the L / R encoding of the stereo signal is selected.

변환 스테이지는 L/R 및 M/S 스테레오 인코딩(아마도 이득율은 통상의 L/R 대 M/S 변환 스테이지에 비교하여 다르다) 간을 적응형으로 선택하는 인지 인코더의 부분으로서 L/R 대 M/S 변환 스테이지일 수 있다. L/R과 M/S 스테레오 인코딩 간에 결정은 반대로 되어야 함에 유의한다. 따라서, 다운믹스 신호 및 잔차 신호에 기초한 인코딩은 결정 수단이 M/S 인지 디코딩을 결정하였을 때 선택되고(즉, 인코딩된 신호는 변환 스테이지를 거치지 않았다), 변환 스테이지에 의해 생성된 의사 스테레오 신호에 기초한 인코딩은 결정 수단이 L/R 인지 디코딩을 결정하였을 때 선택된다(즉, 인코딩된 신호는 변환 스테이지를 거쳤다).The conversion stage is a part of a cognitive encoder that adaptively selects between L / R and M / S stereo encoding (presumably the gain ratio is different compared to a conventional L / R to M / S conversion stage) / S conversion stage. Note that the decision between L / R and M / S stereo encoding must be reversed. Thus, the encoding based on the downmix signal and the residual signal is selected when the decision means has decided to decode the M / S (i.e., the encoded signal has not gone through the conversion stage), and the pseudo stereo signal generated by the conversion stage Based encoding is selected when the decision means determines L / R or decoding (i. E., The encoded signal has passed the conversion stage).

위에 논의된 실시예들 중 어느 한 실시예에 따른 인코더 시스템은 추가의 SBR(스펙트럼 대역 복제) 인코더를 포함할 수도 있다. SBR은 HFR(고 주파수 재구성)의 형태이다. SBR 인코더는 디코더에서 오디오 신호의 고 주파수 범위의 재구성을 위한 사이드 정보를 결정한다. 저 주파수 범위만이 인지 인코더에 의해 인코딩되고, 그럼으로써 비트레이트를 감소시킨다. 바람직하게, SBR 인코더는 PS 인코더의 상류측에 연결된다. 따라서, SBR 인코더는 스테레오 영역에 있을 수 있고, 스테레오 신호를 위한 SBR 파라미터들을 생성한다. 이것은 도면들에 관련하여 상세히 논의될 것이다.The encoder system according to any one of the embodiments discussed above may include an additional SBR (spectral band replica) encoder. SBR is a form of HFR (High Frequency Reconstruction). The SBR encoder determines the side information for reconstruction of the high frequency range of the audio signal at the decoder. Only the low frequency range is encoded by the cognitive encoder, thereby reducing the bit rate. Preferably, the SBR encoder is connected upstream of the PS encoder. Thus, the SBR encoder may be in the stereo region and generate SBR parameters for the stereo signal. This will be discussed in detail with reference to the drawings.

바람직하게, PS 인코더(즉, 다운믹스 스테이지 및 파라미터 결정 스테이지)은 오버샘플된 주파수 영역에서 동작한다(이하 논의된 바와 같이 PS 디코더는 바람직하게는 오버샘플된 주파수 영역에서 동작한다). 시간을 주파수로 변환에 있어 예를 들면, QMF(quadrature mirror filter) 및 나이키스트 필터를 구비한 복소수값 하이브리드 필터 뱅크는 MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 기술된 바와 같이 PS 인코더의 상류측에서 이용될 수 있다. 이것은 가청 에일리어싱 아티팩트없이 시간 및 주파수 적응형 신호 처리를 할 수 있게 한다. 반면, 적응형 L/R 또는 M/S 인코딩은 바람직하게 효율적 양자화된 신호 표현이 될 수 있게 하기 위해서 크리티컬 샘플링(critically sampled) MDCT 영역(예를 들면, AAC에 기술된 바와 같은) 에서 실행된다.Preferably, the PS encoder (i.e., downmix stage and parameter decision stage) operates in the oversampled frequency domain (as discussed below, the PS decoder preferably operates in the oversampled frequency domain). In converting time to frequency, for example, a complex valued hybrid filter bank with quadrature mirror filters (QMFs) and Nyquist filters may be used for the PS encoders as described in the MPEG Surround standard (see document ISO / IEC 23003-1) As shown in Fig. This allows time- and frequency-adaptive signal processing without audible aliasing artifacts. On the other hand, the adaptive L / R or M / S encoding is preferably performed in a critically sampled MDCT region (e.g., as described in AAC) in order to be able to be an efficient quantized signal representation.

다운믹스 신호 및 잔차 신호와 의사 L/R 스테레오 신호 간에 변환은 PS 인코더 및 인지 스테레오 인코더가 전형적으로 어째든 시간 영역에서 연결되기 때문에 시간 영역에서 실행될 수 있다. 따라서, 의사 L/R 신호를 생성하기 위한 변환 스테이지는 시간 영역에서 동작할 수 있다.The conversion between the downmix signal and the residual signal and the pseudo L / R stereo signal can be performed in the time domain since the PS encoder and the perceptual stereo encoder are typically connected in any time domain. Thus, the conversion stage for generating the pseudo L / R signal can operate in the time domain.

도면들에 관련하여 논의된 다른 실시예들에서, 변환 스테이지는 오버샘플된 주파수 영역에서 또는 크리티컬 샘플링 MDCT 영역에서 동작한다.In other embodiments discussed with respect to the figures, the conversion stage operates in the oversampled frequency domain or in the critical sampling MDCT domain.

본 발명의 제 2 양태는 위에 논한 인코더 시스템에 의해 생성되는 비트스트림 신호 을 디코딩하기 위한 디코더 시스템 에 관한 것이다.A second aspect of the present invention is directed to a decoder system for decoding a bitstream signal generated by an encoder system as discussed above.

디코더 시스템의 실시예에 따라서, 디코더 시스템은 비트스트림 신호에 기초하여 디코딩하는 인지 디코딩 수단을 포함한다. 디코딩 수단은 디코딩에 의해 (내부) 제 1 신호 및 (내부) 제 2 신호를 생성하고 다운믹스 신호 및 잔차 신호를 출력하도록 구성된다. 다운믹스 신호 및 잔차 신호는 선택적으로, 제 1 신호 및 제 2 신호의 합에 기초하고 제 1 신호 및 제 2 신호의 차에 기초하거나, 제 1 신호에 기초하고 제 2 신호에 기초한다.According to an embodiment of the decoder system, the decoder system comprises perceptual decoding means for decoding based on the bitstream signal. The decoding means is configured to generate the (internal) first signal and the (internal) second signal by decoding and output the downmix signal and the residual signal. The downmix signal and the residual signal are optionally based on a sum of the first signal and the second signal and based on a difference between the first signal and the second signal, or based on the first signal and based on the second signal.

인코더 시스템에 관련하여 위에 논한 바와 같이, 여기에서도 선택은 주파수-가변적이거나 주파수-불변적일 수 있다. As discussed above with respect to the encoder system, the choice here can also be frequency-variable or frequency-invariant.

또한, 시스템은 다운믹스 신호 및 잔차 신호에 기초하여 스테레오 신호를 발생하는 업믹스 스테이지를 포함하고, 업믹스 스테이지의 업믹스 동작은 하나 이상의 파라메트릭 스테레오 파라미터들에 종속적이다.The system also includes an upmix stage for generating a stereo signal based on the downmix signal and the residual signal, and the upmix operation of the upmix stage is dependent on one or more parametric stereo parameters.

인코더 시스템과 유사하게, 디코더 시스템은 바람직하게 시간 및 주파수 가변적으로, L/R 디코딩과 잔차 이용 PS 디코딩 중 하나를 실제적으로 전환할 수 있게 한다.Similar to the encoder system, the decoder system preferably allows time and frequency variability to actually switch between L / R decoding and residual use PS decoding.

또 다른 실시예에 따라서, 디코더 시스템은 비트스트림 신호을 디코딩하고 의사 스테레오 신호를 생성하는 인지 스테레오 디코더(예를 들면, 디코딩 수단의 부분으로서)를 포함한다. 인지 디코더는 AAC 기반 디코더일 수 있다. 인지 스테레오 디코더에 있어서, L/R 인지 디코딩 또는 M/S 인지 디코딩을 주파수-가변 또는 주파수-불변적으로 선택될 수 있다(실제 선택은 바람직하게는 비트스트림 내 사이드-정보로서 전달되는 인코더에서 판단에 의해 제어된다). 디코더는 인코딩을 위해 이용되는 인코딩 수법에 기초하여 디코딩 수법을 선택한다. 이용된 인코딩 수법은 수신된 비트스트림 내 내포된 정보에 의해 디코더에 지시될 수 있다.According to yet another embodiment, the decoder system includes a perceptual stereo decoder (e.g., as part of decoding means) that decodes the bitstream signal and generates a pseudo-stereo signal. The perceptual decoder may be an AAC based decoder. For a perceptual stereo decoder, L / R or M / S decoding may be chosen to be frequency-variable or frequency-invariant (the actual selection is preferably determined by an encoder which is transmitted as side- Lt; / RTI > The decoder selects the decoding technique based on the encoding technique used for encoding. The encoding scheme used may be indicated to the decoder by the embedded information in the received bitstream.

또한, 변환 스테이지는 의사 스테레오 신호의 변환을 실행함으로써 다운믹스 신호 및 잔차 신호를 생성하기 위해 제공된다. 즉, 인지 디코더로부터 얻어진 의사 스테레오 신호는 다운믹스 및 잔차 신호들로 다시 변환된다. 이러한 변환은 합차 변환이고, 결과적인 다운믹스 신호는 의사 스테레오 신호의 좌 채널 및 우 채널의 합에 비례한다. 결과적인 잔차 신호는 의사 스테레오 신호의 좌 채널 및 우 채널 의 차에 비례한다. 따라서, 준 L/R 대 M/S 변환이 실행되었다. 두 채널들(Lp, Rp)을 가진 의사 스테레오 신호는 다음 식들에 따라 다운믹스 및 잔차 신호들로 변환될 수 있다.The conversion stage is also provided for generating a downmix signal and a residual signal by performing conversion of the pseudo-stereo signal. That is, the pseudo-stereo signal obtained from the perceptual decoder is converted back to the downmix and residual signals. This transform is a sum-of-product transform and the resulting downmix signal is proportional to the sum of the left and right channels of the pseudo-stereo signal. The resulting residual signal is proportional to the difference between the left channel and the right channel of the pseudo-stereo signal. Therefore, the sub L / R to M / S conversion was performed. A pseudo-stereo signal having two channels L p , R p can be converted into downmix and residual signals according to the following equations.

Figure pat00004
Figure pat00004

위에 식들에서, 이득 정규화율 g은 예를 들면, g =

Figure pat00005
의 값을 가질 수 있다. 디코더에서 이용되는 잔차 신호(RES)는 전체 이용되는 오디오 주파수 범위 또는 이용된 오디오 주파수 범위의 부분만을 포함할 수 있다.In the above equations, the gain normalization rate g is, for example, g =
Figure pat00005
It can have a value of. The residual signal RES used in the decoder may only include the entire used audio frequency range or the portion of the audio frequency range used.

이어서 다운믹스 신호 및 잔차 신호는 최종 스테레오 출력 신호를 얻기 위해서 PS 디코더의 업믹스 스테이지에 의해 처리된다. 다운믹스 신호 및 잔차 신호를 스테레오 신호로 업믹스하는 것은 수신된 PS 파라미터들에 종속된다.The downmix signal and the residual signal are then processed by the upmix stage of the PS decoder to obtain the final stereo output signal. Upmixing the downmix signal and the residual signal into a stereo signal is dependent on the received PS parameters.

대안적 실시예에 따라, 인지 디코딩 수단은 하나 이상의 주파수 대역들(예를 들면, 전체 이용된 주파수 범위에 대해서)에 대해서 제 1 신호 및 제 2 신호에 기초하여 실행하기 위한 합차 변환 스테이지를 포함할 수 있다. 따라서, 변환 스테이지는 다운믹스 신호 및 잔차 신호가 제 1 신호 및 제 2 신호의 합에 기초하고 제 1 신호 및 제 2 신호의 차에 기초하는 경우에 대해 다운믹스 신호 및 잔차 신호를 생성한다. 변환 스테이지는 시간 영역 또는 주파수 영역에서 동작할 수 있다.According to an alternative embodiment, the perceptual decoding means may comprise a sum-of-transformation stage for performing based on the first signal and the second signal for one or more frequency bands (e.g., for the entire used frequency range) . Thus, the conversion stage generates a downmix signal and a residual signal for the case where the downmix signal and the residual signal are based on the sum of the first and second signals and based on the difference between the first signal and the second signal. The conversion stage may operate in the time domain or the frequency domain.

인코더 시스템에 관련하여 유사하게 논의된 바와 같이, 변환 스테이지는 L/R 및 M/S 스테레오 디코딩(아마도 이득율은 통상의 M/S 대 L/R 변환 스테이지와 비교하여 다르다) 간을 적용으로 선택하는 인지 디코더의 부분으로서 M/S 대 L/R 변환 스테이지일 수 있다. L/R 및 M/S 스테레오 디코딩간에 선택인 반대로 되어야 함에 유의한다.As discussed similarly with regard to the encoder system, the conversion stage is selected by applying between L / R and M / S stereo decoding (presumably the gain ratio is different compared to a conventional M / S to L / R conversion stage) / RTI > L / R conversion stage as part of the perceptual decoder that performs the L / R conversion. L / R and M / S stereo decoding.

전술한 실시예들 중 어느 한 실시예에 따른 디코더 시스템은 SBR 인코더로부터 사이드 정보를 디코딩하고 오디오 신호의 고 주파수 성분을 발생하는 추가의 SBR 디코더를 포함할 수 있다. 바람직하게, SBR 디코더는 PS 디코더의 하류측에 위치된다. 이것은 도면들에 관련하여 상세히 논의될 것이다.A decoder system according to any one of the embodiments described above may include an additional SBR decoder that decodes the side information from the SBR encoder and generates high frequency components of the audio signal. Preferably, the SBR decoder is located on the downstream side of the PS decoder. This will be discussed in detail with reference to the drawings.

바람직하게, 업믹스 스테이지는 오버샘플 주파수 영역에서 동작하는데, 예를 들면, 위에서 논한 하이브리드 필터 뱅크는 PS 디코더의 상류측에서 이용될 수 있다.Preferably, the upmix stage operates in the oversampled frequency domain, for example, the hybrid filter bank discussed above may be used upstream of the PS decoder.

L/R 대 M/S 변환은 인지 디코더 및 PS 디코더(업믹스 스테이지를 포함한)가 전형적으로 시간 영역에서 연결되기 때문에 시간 영역에서 실행될 수 있다.The L / R to M / S conversion can be performed in the time domain since the perceptual decoder and the PS decoder (including the upmix stage) are typically connected in the time domain.

도면들에 관련하여 논의된 다른 실시예들에서, L/R 대 M/S 변환은 오버샘플 주파수 영역(예를 들면, QMF)에서, 또는 크리티컬 샘플링 주파수 영역(예를 들면, MDCT)에서 실행된다.In other embodiments discussed with respect to the figures, the L / R to M / S transform is performed in the oversampled frequency domain (e.g., QMF) or in the critical sampling frequency domain (e.g., MDCT) .

본 발명의 제 3 양태는 스테레오 신호를 비트스트림 신호으로 인코딩하기 위한 방법에 관한 것이다. 방법은 위에서 논한 인코더 시스템과 유사하게 동작한다. 따라서, 인코더 시스템에 관계된 위에 언급한 바는 기본적으로 인코딩 방법에도 적용될 수 있다.A third aspect of the invention relates to a method for encoding a stereo signal into a bitstream signal. The method operates similarly to the encoder system discussed above. Therefore, the above-mentioned matters relating to the encoder system can basically be applied to the encoding method.

본 발명의 제 4 양태는 스테레오 신호를 생성하기 위한 PS 파라미터들을 포함하는 비트스트림 신호를 디코딩하는 방법에 관한 것이다. 방법은 위에서 논한 디코더 시스템과 동일한 방식으로 동작한다. 따라서, 디코더 시스템에 관계된 위에 언급한 바는 기본적으로 디코딩 방법에도 적용될 수 있다.A fourth aspect of the invention relates to a method of decoding a bitstream signal comprising PS parameters for generating a stereo signal. The method operates in the same manner as the decoder system discussed above. Therefore, the above-mentioned matters related to the decoder system can basically be applied to the decoding method.

본 발명은 동반된 도면에 관련하여 예들에 의해 이하 설명된다.BRIEF DESCRIPTION OF THE DRAWINGS The invention will be described below by examples with reference to the accompanying drawings.

도 1은 인지 스테레오 인코더에서 선택적으로 PS 파라미터들이 음향심리 제어를 돕는 인코더 시스템의 실시예도.
도 2는 PS 인코더의 실시예도.
도 3은 디코더 시스템의 실시예도.
도 4는 L/R 인코딩이 잇점이 있는 경우 PS 인코딩을 비활성화하기 위해 검출기를 포함하는 PS 인코더의 또 다른 실시예를 도시한 도면.
도 5는 다운믹스를 위해 추가의 SBR 인코더를 갖는 통상의 PS 인코더 시스템의 실시예도.
도 6은 다운믹스 신호에 대해 추가의 SBR 인코더를 갖는 인코더 시스템의 실시예도.
도 7은 스테레오 영역에서 추가의 SBR 인코더를 갖는 인코더 시스템의 실시예도.
도 8a 내지 도 8d는 디코더 출력에서 2개의 출력 채널들 중 한 채널의 여러 시간-주파수 표현을 도시한 도면들.
도 9a는 코어 인코더의 실시예도.
도 9b는 선형 예측 영역(전형적으로 모노 신호들만에 대해서)에서 코딩과 변환 영역(전형적으로 모노 및 스테레오 신호들 양쪽 모두에 대해서)에서 코딩 간을 전환할 수 있게 하는 인코더의 실시예도.
도 10은 인코더 시스템의 실시예도.
도 11a는 인코더 시스템의 실시예의 일부를 도시한 도면.
도 l1b는 도 11a에 실시예의 구현예를 도시한 도면.
도 11c는 도 11a에 실시예에 대한 대안예를 도시한 도면.
도 12는 인코더 시스템의 실시예도.
도 13는 도 12의 인코더 시스템의 부분으로서 스테레오 코더의 실시예를 도시한 도면.
도 14는 도 6의 인코더 시스템에 의해 발생된 비트스트림 신호를 디코딩하기 위한 디코더 시스템의 실시예도.
도 15는 도 7의 인코더 시스템에 의해 발생된 비트스트림 신호를 디코딩하기 위한 디코더 시스템의 실시예도.
도 16a는 디코더 시스템의 실시예의 부분을 도시한 도면.
도 16b는 도 16a에 실시예의 구현예를 도시한 도면.
도 16c는 도 16a에 실시예의 대안예를 도시한 도면.
도 17은 인코더 시스템의 실시예도.
도 18은 디코더 시스템의 실시예도.
Figure 1 also illustrates an embodiment of an encoder system in which PS parameters optionally assist acoustic psychological control in a perceptual stereo encoder.
Figure 2 also shows an embodiment of a PS encoder.
Figure 3 also shows an embodiment of a decoder system.
Figure 4 illustrates another embodiment of a PS encoder including a detector for deactivating PS encoding if L / R encoding is advantageous.
Figure 5 also shows an embodiment of a conventional PS encoder system with an additional SBR encoder for downmixing.
6 shows an embodiment of an encoder system with an additional SBR encoder for the downmix signal.
Figure 7 also shows an embodiment of an encoder system with an additional SBR encoder in the stereo region.
Figures 8a-8d illustrate multiple time-frequency representations of one of two output channels at decoder output.
Figure 9a also illustrates an embodiment of a core encoder.
FIG. 9B also illustrates an embodiment of an encoder that enables switching between coding in a linear prediction region (typically for mono signals only) and coding in a transform domain (typically for both mono and stereo signals).
Figure 10 also illustrates an embodiment of an encoder system.
11A shows a portion of an embodiment of an encoder system;
FIG. 11B shows an embodiment of the embodiment in FIG. 11A. FIG.
FIG. 11C shows an alternative example to the embodiment in FIG. 11A. FIG.
Figure 12 also illustrates an embodiment of an encoder system.
Figure 13 illustrates an embodiment of a stereo coder as part of the encoder system of Figure 12;
Figure 14 also illustrates an embodiment of a decoder system for decoding a bitstream signal generated by the encoder system of Figure 6;
Figure 15 also illustrates an embodiment of a decoder system for decoding a bitstream signal generated by the encoder system of Figure 7;
16A illustrates a portion of an embodiment of a decoder system;
Figure 16b illustrates an embodiment of the embodiment in Figure 16a.
FIG. 16C is a view showing an alternative example of the embodiment in FIG. 16A. FIG.
Figure 17 also illustrates an embodiment of an encoder system.
Figure 18 also shows an embodiment of a decoder system.

도 1은 잔차를 이용한 PS 인코딩을 적응형 L/R 또는 M/S 인지 스테레오 인코딩과 결합한 인코더 시스템의 실시예를 도시한 것이다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 인코더 시스템은 스테레오 신호(L, R)를 수신하는 PS 인코더(1)를 포함한다. PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 다운믹스(DMX) 및 잔차(RES) 신호들을 생성하기 위한 다운믹스 스테이지를 갖는다. 이 동작은 L 신호 및 R 신호를 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환하는 2ㆍ2 다운믹스 행렬 H-1에 의해 기술될 수 있다.Figure 1 illustrates an embodiment of an encoder system that combines PS encoding using residuals with adaptive L / R or M / S or stereo encoding. This embodiment is only intended to illustrate the principles of the present invention. Modifications and variations of the embodiments will be apparent to those skilled in the art. The encoder system includes a PS encoder 1 for receiving stereo signals (L, R). The PS encoder 1 has a downmix stage for generating downmix (DMX) and residual (RES) signals based on the stereo signals (L, R). This operation can be described by a 2 占 2 downmix matrix H -1 that converts the L signal and R signal into a downmix signal DMX and a residual signal RES.

Figure pat00006
Figure pat00006

전형적으로, 행렬 H-1은 주파수-가변 및 시간-가변적인데, 즉, 행렬 H-1의 원소들은 주파수에 따라 변하고 시간슬롯마다 변한다. 행렬 H-1은 프레임마다(예를 들면, 21 또는 42ms마다) 업데이트될 수 있고 인지를 기준으로 한(바크(Bark)와 같은)주파수 스케일로 복수의 대역들, 예를 들면, 28, 20, 또는 10 대역들("파라미터 대역들"이라 함)의 주파수 분해능을 가질 수 있다.Typically, the matrix H -1 is frequency-variable and time-variant, that is, the elements of the matrix H -1 vary with frequency and change from time slot to time slot. The matrix H -1 can be updated every frame (e.g., every 21 or 42 ms) and can be updated in multiple bands (e.g., 28, 20, Or 10 bands (referred to as "parameter bands").

행렬 H-1의 원소들은 시간-가변 및 주파수-가변적 PS 파라미터들(IID(채널간 세기차; CLD-채널 레벨차라고도 함) 및 ICC(채널간 교차상관))에 따른다. PS 파라미터들(5), 예를 들면, IID 및 ICC를 결정하기 위해서, PS 인코더(1)는 파라미터 결정 스테이지를 포함한다. 역행렬 H의 행렬 원소들을 계산하는 예는 다음에 의해 주어지며 참조로서 여기에 포함시키는 MPEG 서라운드 명세 문서 ISO/IEC 23003-1, 6.5.3.2 부단락에 기술되어 있다.The elements of the matrix H -1 depend on time-varying and frequency-varying PS parameters (IID (interchannel intensity difference; also called CLD-channel level difference) and ICC (cross-channel cross-correlation)). In order to determine the PS parameters 5, for example IID and ICC, the PS encoder 1 comprises a parameter determination stage. An example of computing the matrix elements of the inverse matrix H is given in the MPEG Surround specification document ISO / IEC 23003-1, subclause 6.5.3.2, which is incorporated herein by reference.

Figure pat00007
Figure pat00007

Figure pat00008
, 및
Figure pat00009
이고,
Figure pat00008
, And
Figure pat00009
ego,

여기서,

Figure pat00010
, 및
Figure pat00011
이고,here,
Figure pat00010
, And
Figure pat00011
ego,

Figure pat00012
이다.
Figure pat00012
to be.

또한, 인코더 시스템은 PS 인코더(1)로부터의 다운믹스 신호(DMX) 및 잔차 신호(RES)를 예를 들면, 다음 식들에 따라 의사 스테레오 신호(Lp, Rp)로 변환하는 변환 스테이지(2)를 포함한다.The encoder system also includes a conversion stage 2 for converting the downmix signal DMX and the residual signal RES from the PS encoder 1 into a pseudo-stereo signal L p , R p , for example, ).

Lp = g(DMX + RES)L p = g (DMX + RES)

Rp = g(DMX - RES)R p = g (DMX - RES)

위에 식들에서 이득 정규화율 g는 예를 들면, g =

Figure pat00013
값을 갖는다. g =
Figure pat00014
에 대해서, 의사 스테레오 신호(Lp, Rp)에 대한 2개의 식들은 다음처럼 다시 쓸 수 있다.The gain normalization rate g in the above equations is, for example, g =
Figure pat00013
Has a value. g =
Figure pat00014
, The two equations for the pseudo-stereo signal (L p , R p ) can be rewritten as:

Figure pat00015
Figure pat00015

이어서 의사 스테레오 신호(Lp, Rp)는 L/R 또는 M/S 스테레오 인코딩을 적응형으로 선택하는 인지 스테레오 인코더(3)에 공급된다. M/S 인코딩은 조인트 스테레오 코딩 형태이다. L/R 인코딩 또한 조인트 인코딩 특징들에 기초할 수 있는데, 예를 들면, 비트들은 공통 비트 저장소(reservoir)로부터 L 채널 및 R 채널에 대해 공동으로 할당될 수 있다.The pseudo stereo signals Lp and Rp are then supplied to the perceptual stereo encoder 3 which adaptively selects the L / R or M / S stereo encoding. The M / S encoding is in the form of a joint stereo coding. The L / R encoding may also be based on joint encoding features, for example, the bits may be jointly allocated for the L channel and the R channel from a common bit reservoir.

L/R 또는 M/S 스테레오 인코딩 간에 선택은 바람직하게는 주파수-가변적인데, 즉, 일부 주파수 대역들은 L/R 인코딩될 수 있고, 그외 다른 주파수 대역들은 M/S 인코딩될 수 있다. L/R 또는 M/S 스테레오 인코딩 간에 선택을 구현하기 위한 실시예는 문서 "Sum-Difference Stereo Transform Coding", J.D. Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992, pages 569-572에 기술되어 있다. 이 문서, 특히 5.1 및 5.2 단락들에 L/R 또는 M/S 스테레오 인코딩 간에 선택에 대한 논의를 참조로서 여기에 포함시킨다. The choice between L / R or M / S stereo encoding is preferably frequency-variable, i.e. some frequency bands may be L / R encoded and other frequency bands may be M / S encoded. An embodiment for implementing selection between L / R or M / S stereo encoding is described in the document "Sum-Difference Stereo Transform Coding" Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992, pages 569-572. Include here a discussion of the choice between L / R or M / S stereo encoding in this document, especially paragraphs 5.1 and 5.2.

의사 스테레오 신호(Lp, Rp)에 기초하여, 인지 인코더(3)는 내부에서 (의사) 미드/사이드 신호들(Mp, Sp)를 계산할 수 있다. 이러한 신호들은 기본적으로 다운믹스 신호(DMX) 및 잔차 신호(RES)(아마도 다른 이득율에 대해선 제외하고)에 대응한다. 그러므로, 인지 인코더(3)가 주파수 대역에 대해 M/S 인코딩을 선택한다면, 인지 인코더(3)는 잔차를 이용하는 종래의 PS 코딩을 이용하여 종래의 인지 인코더 시스템에서도 행해질 것이기 때문에 이 주파수 대역(아마도 다른 이득율에 대해선 제외하고)에 대해 다운믹스 신호(DMX) 및 잔차 신호(RES)를 기본적으로 인코딩한다. 인지 인코더(3)의 PS 파라미터들(5) 및 출력 비트스트림(4)은 멀티플렉서(7)에 의해 단일 비트스트림으로 멀티플렉스된다.Based on the pseudo-stereo signal (L p , R p ), the perceptual encoder 3 can compute (pseudo) mid / side signals M p , S p internally. These signals basically correspond to the downmix signal DMX and the residual signal RES (presumably for the other gain factors). Therefore, if the cognitive encoder 3 chooses the M / S encoding for the frequency band, the cognitive encoder 3 will be able to perform this frequency band (presumably because the cognitive encoder 3 will be done in a conventional cognitive encoder system, (Except for the other gain factors), the downmix signal DMX and the residual signal RES are basically encoded. The PS parameters 5 and the output bit stream 4 of the cognitive encoder 3 are multiplexed into a single bit stream by the multiplexer 7.

스테레오 신호의 PS 인코딩 외에도, 도 1에 인코더 시스템은 다음에 설명되는 바와 같이 스테레오 신호를 L/R 코딩할 수 있게 하는데, 위에서 논한 바와 같이, 인코더의 다운믹스 행렬 H-l의 원소들은(디코더에서 이용되는 업믹스 행렬 H의원소들도) 시간-가변 및 주파수-가변적 PS 파라미터들(IID(채널간 세기차; CLD-채널 레벨차라고도 함) 및 ICC(채널간 교차상관))에 따른다. 업믹스 행렬 H의 행렬 원소들을 계산하는 예는 위에 기술되었다. 잔차 코딩을 이용하는 경우에, 2ㆍ2 업믹스 행렬 H의 우측 열은 다음으로서 주어진다.In addition to the PS encoding of a stereo signal, in Figure 1 the encoder system as to be able to code L / R stereo signals as will be described in the following, discussed above, the downmix matrix H -l elements of encoders (in the decoder The upmix matrix H elements used also depend on time-varying and frequency-varying PS parameters (IID (interchannel intensity difference; also called CLD-channel level difference) and ICC (cross-channel cross-correlation)). An example of calculating the matrix elements of the upmix matrix H has been described above. In the case of using residual coding, the right column of the 2 < 2 > upmix matrix H is given as follows.

Figure pat00016
Figure pat00016

그러나, 바람직하게, 2ㆍ2 업믹스 행렬 H의 우측 열은 이 대신에 다음으로 수정되어야 한다.However, preferably, the right column of the 2 < 2 > upmix matrix H should be modified next instead.

Figure pat00017
Figure pat00017

좌측 열은 바람직하게는 MPEG 서라운드 명세에 주어진 바와 같이 계산된다.The left column is preferably calculated as given in the MPEG Surround specification.

업믹스 행렬 H 의 우측 열을 수정함으로써, IID = 0 dB 및 ICC = 0(즉, 각각의 대역에 대해 스테레오 채널 L 및 채널 R이 독립적이고 동일 레벨을 갖는 경우)에 있어서, 대역에 대해 다음의 업믹스 행렬 H이 얻어질 수 있게 된다.By modifying the right-hand column of the upmix matrix H, IID = 0 dB and ICC = 0 (i.e., if the stereo channel L and channel R are independent and have the same level for each band) The upmix matrix H can be obtained.

Figure pat00018
Figure pat00018

업믹스 행렬 H 및 다운믹스 행렬 H-1도 전형적으로 시간-가변 및 주파수-가변적인 것에 유의한다. 따라서, 행렬들의 값들은 시간/주파수 타일들(tile)마다 다르다(타일은 특정 주파수 대역과 특정 시간 기간의 교차부분에 대응한다). 위에 경우에 다운믹스 행렬 H-1은 업믹스 행렬 H과 같다. 따라서, 대역에 대해서 의사 스테레오 신호(Lp, Rp)은 다음 식에 의해 계산될 수 있다.Note that the upmix matrix H and the downmix matrix H -1 are also typically time-variable and frequency-variable. Thus, the values of the matrices are different for each time / frequency tile (the tile corresponds to the intersection of a particular frequency band and a particular time period). In the above case, the downmix matrix H -1 is equal to the upmix matrix H. Therefore, the pseudo stereo signal (L p , R p ) for the band can be calculated by the following equation.

Figure pat00019
Figure pat00019

그러므로, 이 경우에 다운믹스 행렬 H-1을 이용하여 잔차를 이용한 PS 인코딩 및 이에 이어 변환 스테이지(2)에서 의사 L/R 신호의 생성은 단위 행렬에 대응하고 각각의 주파수 대역에 대한 스테레오 신호를 전혀 변경하지 않는다. 즉,Therefore, in this case, the PS encoding using the residual matrix using the downmix matrix H- 1 and the subsequent generation of the pseudo L / R signals in the conversion stage 2 correspond to the unit matrix and the stereo signals for the respective frequency bands Do not change at all. In other words,

Lp = LL p = L

Rp = RR p = R

즉, 변환 스테이지(2)는 의사 스테레오 신호(Lp, Rp)가 입력 스테레오 신호(L, R)에 대응하게 다운믹스 행렬 H-1을 보상한다.That is, the conversion stage 2 compensates the downmix matrix H -1 for the pseudo-stereo signals L p and R p to correspond to the input stereo signals L and R.

이것은 원 입력 스테레오 신호(L, R)를 특정 대역에 대해 인지 인코더(3)에 의해 인코딩할 수 있게 한다. L/R 인코딩이 특정 대역을 인코딩하기 위해 인지 인코더(3)에 의해 선택될 때, 인코더 시스템은 스테레오 입력 신호(L, R)의 대역을 인코딩하기 위한 L/R 인지 인코더처럼 행동한다.This enables the original input stereo signal (L, R) to be encoded by the perceptual encoder 3 for a particular band. When the L / R encoding is selected by the perceptual encoder 3 to encode a particular band, the encoder system behaves like an encoder, L / R, to encode the band of the stereo input signals (L, R).

도 1에서 인코더 시스템은 주파수-가변 및 시간-가변 방식으로 L/R 코딩과 잔차를 이용한 PS 코딩 간을 끊어짐이 없이 적응형으로 전환할 수 있게 한다. 인코더 시스템은 코딩 수법을 전환할 때 파형에서 불연속들이 없게 한다. 이것은 아티팩트들을 방지한다. 원할하게 이어질 수 있게 하기 위해서, 2개의 스테레오 파라미터 업데이트들 간에 샘플들에 대해서 인코더에선 행렬 H-1의 원소들에 및 디코더에선 행렬 H의 원소들에 선형 보간이 적용될 수 있다.In Fig. 1, the encoder system enables adaptive switching between PS coding using L / R coding and residual coding in a frequency-variable and time-variable manner. The encoder system eliminates discontinuities in the waveform when switching the coding scheme. This prevents artifacts. For the sake of convenience, linear interpolation can be applied to the elements of the matrix H -1 at the encoder and to the elements of the matrix H at the decoder for the samples between the two stereo parameter updates.

도 2는 PS 인코더(1)의 실시예를 도시한 것이다. PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성하는 다운믹스 스테이지(8)를 포함한다. 또한, PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 PS 파라미터들(5)을 추정하기 위한 파라미터 추정 스테이지(9)를 포함한다.Fig. 2 shows an embodiment of the PS encoder 1. Fig. The PS encoder 1 includes a downmix stage 8 for generating a downmix signal DMX and a residual signal RES based on the stereo signals L and R. [ The PS encoder 1 also includes a parameter estimation stage 9 for estimating the PS parameters 5 based on the stereo signals L, R.

도 3은 도 1의 인코더 시스템에 의해 생성되는 비트스트림(6)을 디코딩하도록 구성된 대응하는 디코더 시스템의 실시예를 도시한 것이다. 이 실시예는 본 발명의 원리를 단지 예시하는 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 디코더 시스템은 PS 파라미터들(5)과 인지 인코더(3)에 의해 생성되는 오디오 비트스트림(4)을 분리하기 위한 디멀티플렉서(10)를 포함한다. 오디오 비트스트림(4)은 인지 스테레오 디코더(11)에 공급되고, 이것은 L/R 인코딩된 비트스트림 또는 M/S 인코딩된 오디오 비트스트림을 선택적으로 디코딩할 수 있다. 디코더(11)의 동작은 인코더(3)의 동작과는 반대이다. 인지 인코더(3)와 유사하게, 인지 디코더(11)는 바람직하게 주파수-가변 및 시간-가변 디코딩 수법을 할 수 있게 한다. 일부 주파수 대역들은 인코더(3)에 의해 L/R 인코딩되고 디코더(11)에 의해 L/R 디코딩되고, 반면 그외 다른 주파수 대역들은 인코더(3)에 의해 M/S 인코딩되고, 디코더(11)에 의해 M/S 디코딩된다. 디코더(11)는 전에 인지 인코더(3)에 입력되었던 의사 스테레오 신호(Lp, Rp)를 출력한다. 인지 디코더(11)로부터 얻어지는 의사 스테레오 신호(Lp, Rp)는 L/R 대 M/S 변환 스테이지(12)에 의해서 다시 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환된다. 디코더측에 L/R 대 M/S 변환 스테이지(12)의 동작은 인코더측에 변환 스테이지(2)의 동작과는 반대이다. 바람직하게, 변환 스테이지(12)는 다음 식들에 따라 다운믹스 신호(DMX) 및 잔차 신호(RES)를 결정한다.FIG. 3 shows an embodiment of a corresponding decoder system configured to decode the bitstream 6 generated by the encoder system of FIG. This embodiment is merely illustrative of the principles of the invention. Modifications and variations of the embodiments will be apparent to those skilled in the art. The decoder system includes a demultiplexer 10 for separating the PS parameters 5 and the audio bitstream 4 generated by the perceptual encoder 3. The audio bitstream 4 is supplied to the perceptual stereo decoder 11, which can selectively decode the L / R encoded bitstream or the M / S encoded audio bitstream. The operation of the decoder 11 is opposite to that of the encoder 3. Similar to the cognitive encoder 3, the perceptual decoder 11 preferably enables frequency-variable and time-variant decoding techniques. Some frequency bands are L / R encoded by the encoder 3 and L / R decoded by the decoder 11, while the other frequency bands are M / S encoded by the encoder 3 and decoded by the decoder 11 M / S < / RTI > The decoder 11 outputs the pseudo stereo signal L p , R p that was previously input to the perceptual encoder 3. The pseudo stereo signals L p and R p obtained from the perceptual decoder 11 are converted into the downmix signal DMX and the residual signal RES again by the L / R to M / S conversion stage 12. The operation of the L / R to M / S conversion stage 12 on the decoder side is opposite to that of the conversion stage 2 on the encoder side. Preferably, the conversion stage 12 determines the downmix signal DMX and the residual signal RES according to the following equations.

Figure pat00020
Figure pat00020

위에 식들에서, 이득 정규화율(g)은 인코더측에서 이득 정규화율(g)과 동일하고 예를 들면, g =

Figure pat00021
의 값을 갖는다.In the above equations, the gain normalization rate (g) is equal to the gain normalization rate (g) at the encoder side and g =
Figure pat00021
Lt; / RTI >

이어서 다운믹스 신호(DMX) 및 잔차 신호(RES)는 최종 L 및 R 출력 신호들을 얻기 위해 PS 디코더(13)에 의해 처리된다. 잔차 이용 PS 코딩을 위한 디코딩 프로세스에서 업믹스 단계는 다운믹스 신호(DMX) 및 잔차 신호(RES)를 다시 L 채널 및 R 채널로 변환하는 2ㆍ2 업믹스 행렬 H에 의해 기술될 수 있다.The downmix signal DMX and the residual signal RES are then processed by the PS decoder 13 to obtain the final L and R output signals. In the decoding process for residual use PS coding, the upmixing step may be described by a 2 < 2 > upmix matrix H for converting the downmix signal DMX and the residual signal RES back to the L channel and the R channel.

Figure pat00022
Figure pat00022

업믹스 행렬 H의 원소들의 계산은 이미 위에서 논의되었다. The calculation of the elements of the upmix matrix H has already been discussed above.

PS 인코더(1) 및 PS 디코더(13)에서 PS 인코딩 및 PS 디코딩 프로세스는 바람직하게는 오버샘플 주파수 영역에서 실행된다. 시간을 주파수로 변환을 위해서, 예를 들면, MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 기술된 필터 뱅크와 같은, QMF(quadrature mirror fiter) 및 나이키스트 필터를 구비한 복소수값 하이브리드 필터 뱅크가 PS 인코더의 상류측에서 이용될 수 있다. 신호의 복소수 QMF 표현은 복소수값이고 실수값이 아니기 때문에 2배로 오버샘플된다. 이것은 가청 에일리어싱 아티팩트 없이 시간 및 주파수 적응형 신호 처리를 할 수 있게 한다. 이러한 하이브리드 필터 뱅크는 전형적으로 저 주파수들에선 높은 주파수 분해능(협대역)을 제공하고, 반면 고 주파수에서는 몇개의 QMF 대역들이 더 넓은 대역으로 그룹화된다. 논문 "Low Complexity Parameter Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163 ~ 168은 하이브리드 필터 뱅크(단락 3.2 및 도 4 참조)의 실시예를 기술한다. 이 개시된 바를 참조로서 여기에 포함시킨다. 이 문서에서 48 kHz 샘플링 레이트가 취해지며, 64 대역 QMF 뱅크로부터 한 대역의 (공칭) 대역폭은 375 Hz이다. 그러나, 인지 바크(Bark) 주파수 스케일은 500 Hz 미만의 주파수들에 대해서 대략 100 Hz의 대역폭을 요구한다. 그러므로, 첫번째 3개의 QMF 대역들은 나이키스트 필터 뱅크에 의해 더 좁은 서브-대역들로 분할될 수 있다. 첫 번째 QMF 대역은 4 대역들(음의 주파수들을 위해 2개가 더 추가된다)로 분할될 수 있고, 두 번째 및 세 번째 QMF 대역들은 각각 2개의 대역들로 분할될 수 있다.The PS encoding and PS decoding processes in the PS encoder 1 and the PS decoder 13 are preferably executed in the oversampling frequency domain. Value hybrid filter with quadrature mirror (QMF) and Nyquist filters, such as the filter bank described in the MPEG Surround standard (see document ISO / IEC 23003-1) A bank may be used on the upstream side of the PS encoder. The complex QMF representation of the signal is a complex number and is not a real number, so it is oversampled twice. This allows time- and frequency-adaptive signal processing without audible aliasing artifacts. Such a hybrid filter bank typically provides high frequency resolution (narrowband) at low frequencies, while at high frequencies some QMF bands are grouped into a broader band. &Quot; Low Complexity Parameter Stereo Coding in MPEG-4 ", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFX'04), Naples, Italy, October 5-8, 2004, pages 163-168, describes an embodiment of a hybrid filter bank (see paragraph 3.2 and figure 4). The disclosure of which is incorporated herein by reference. In this document, a 48 kHz sampling rate is taken, and the (nominal) bandwidth of one band from a 64-band QMF bank is 375 Hz. However, the perceptual Bark frequency scale requires a bandwidth of approximately 100 Hz for frequencies below 500 Hz. Therefore, the first three QMF bands can be divided into narrower sub-bands by the Nyquist filter bank. The first QMF band may be divided into four bands (two more are added for negative frequencies), and the second and third QMF bands may be divided into two bands each.

한편으로, 바람직하게, 적응형 L/R 또는 M/S 인코딩은 효율적인 양자화된 신호 표현이 될 수 있게 하기 위해서, 크리티컬 샘플링 MDCT 영역(예를 들면, AAC에 기술된 바와 같이)에서 실행된다. 변환 스테이지(2)에서 다운믹스 신호(DMX) 및 잔차 신호(RES)를 의사 스테레오 신호(Lp, Rp)로 변환은 PS 인코더(1)와 인지 인코더(3)가 시간 영역에서도 연결될 수 있기 때문에 시간 영역에서 실행될 수 있다. 또한, 디코딩 시스템에서, 인지 스테레오 디코더(11) 및 PS 디코더(13)는 바람직하게는 시간 영역에서 연결된다. 이에 따라, 변환 스테이지(12)에서 의사 스테레오 신호(Lp, Rp)를 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환도 시간 영역에서 실행될 수 있다.On the other hand, preferably, the adaptive L / R or M / S encoding is performed in the critical sampling MDCT region (e.g., as described in AAC) to be an efficient quantized signal representation. It converts the conversion stage (2) a downmix signal (DMX) and a residual signal (RES) in a pseudo-stereo signal (L p, R p) is PS encoder (1) and that the encoder (3) can be connected in the time domain Therefore, it can be executed in the time domain. Further, in the decoding system, the perceptual stereo decoder 11 and the PS decoder 13 are preferably connected in the time domain. Accordingly, the conversion of the pseudo stereo signal L p , R p into the downmix signal DMX and the residual signal RES in the conversion stage 12 can also be performed in the time domain.

도 1에 인코더(3)로서 보인 바와 같은 적응형 L/R 또는 M/S 스테레오 코더는 전형적으로 저 비트레이트에서 고 코딩 효율을 가능하게 하기 위해서 음향심리 모델을 이용하는 인지 오디오 코더이다. 이러한 인코더에 대한 예가 AAC 인코더이고, 이것은 음향심리 모델을 이용함으로써 시간-가변 및 주파수-가변 양자화를 제어함과 아울러 크리티컬 샘플링 MDCT 영역에서의 변환 코딩을 채용한다. 또한, L/R 및 M/S 코딩 간에 시간-가변 및 주파수-가변 결정은 전형적으로 음향심리 모델을 이용하여 계산되는 인지 엔트로피 측정값들의 도움을 받아 제어된다.An adaptive L / R or M / S stereo coder as shown in Fig. 1 as encoder 3 is typically a cognitive audio coder that uses a psychoacoustic model to enable high coding efficiency at low bit rates. An example of such an encoder is the AAC encoder, which employs a psychoacoustic model to control time-varying and frequency-variable quantization and employs transcoding in the critical sampling MDCT domain. In addition, time-variable and frequency-variable decisions between L / R and M / S coding are typically controlled with the help of cognitive entropy measurements computed using acoustic psychological models.

인지 스테레오 인코더(도 1에 인코더(3)와 같은)는 의사 L/R 스테레오 신호 (도 1에 Lp, Rp 참조)에 대해 동작한다. 스테레오 인코더의 코딩 효율을 최적화하기 위해(특히 L/R 인코딩과 M/S 인코딩 간에 올바른 결정을 하기 위해서), 최종 스테레오 출력 신호(L, R)를 생성할 때 디코더에서 적용되는 신호 수정(의사 L/R를 DMX 및 RES 변환하고 이어서 PS 디코딩하는 것)을 고려하기 위해서 인지 스테레오 인코더에서 음향심리 제어 메커니즘(L/R과 M/S 스테레오 인코딩 간에 결정하는 제어 메커니즘 및 시간-가변 및 주파수-가변 양자화를 제어하는 제어 메커니즘을 포함한다)을 수정하는 것이 잇점이 있다. 이들 신호 수정은 음향심리 제어 메커니즘들에서 활용되는 양이 마스킹(binaural masking) 현상에 영향을 미칠 수 있다. 그러므로, 이들 음향심리 제어 메커니즘들은 바람직하게는 이에 따라 적응되어야 한다. 이를 위해서, 음향심리 제어 메커니즘들이 의사 L/R 신호 (도 1에 Lp, Rp 참조)에 액세스할 수 있을 뿐만 아니라 PS 파라미터들(도 1에 5를 참조) 및/또는 원 스테레오 신호(L, R)에도 액세스할 수 있다면 이익될 수 있다. PS 파라미터들 및 스테레오 신호(L, R)에 음향심리 제어 메커니즘들의 액세스가 도 1에서 점선들로 표시되었다. 이 정보에 기초하여, 예를 들면, 마스킹 임계값(들)가 적응될 수 있다.The perceptual stereo encoder (such as encoder 3 in Figure 1) operates on pseudo L / R stereo signals (see L p , R p in Figure 1). To optimize the coding efficiency of the stereo encoder (in particular to make a correct decision between L / R encoding and M / S encoding), the signal modification (pseudo L / R < / RTI > and RES transformations followed by PS decoding), a control mechanism that determines between the L / R and M / S stereo encodings in the stereo encoder, and the time-variable and frequency- Lt; RTI ID = 0.0 > a < / RTI > control mechanism). These signal modifications can affect the phenomenon of binaural masking that is utilized in acoustic psychological control mechanisms. Therefore, these acoustic psychological control mechanisms should preferably be adapted accordingly. To this end, not only the acoustic psychological control mechanisms can access the pseudo L / R signal (see L p , R p in FIG. 1) but also PS parameters (see 5 in FIG. 1) and / or the original stereo signal L , R). ≪ / RTI > The PS parameters and the access of the acoustic psychological control mechanisms to the stereo signals (L, R) are indicated by dashed lines in FIG. Based on this information, for example, the masking threshold value (s) may be adapted.

음향심리 제어를 최적화하기 위한 대안적 수법은 적합할 때, 바람직하게는 시간-가변 및 주파수-가변 방식으로, PS 인코딩을 효과적으로 비활성화시킬 수 있는 비활성화 스테이지를 형성하는 검출기를 인코더 시스템에 추가하는 것이다. PS 인코딩을 비활성화하는 것은 예를 들면, L/R 스테레오 코딩이 잇점이 있을 것으로 예상될 때 또는 의사 L/R 신호를 효율적으로 인코딩하는데 있어 음향심리 제어가 문제가 될 것으로 보일 때 적합하다. PS 인코딩은 다운믹스 행렬 H-1 및 이에 이은 변환(도 1에서 스테이지(2) 참조)이 단위 행렬에(즉, 항등 연산에) 또는 1배의 단위 행렬에 대응하게 다운믹스 행렬 H-1을 설정함으로써 효과적으로 비활성화될 수 있다. 예를 들면, PS 인코딩은 PS 파라미터들 IID 및/또는 ICC를 강제로 IID = 0 dB 및 ICC = 0로 함으로써 효과적으로 비활성화될 수 있다. 이 경우, 의사 스테레오 신호(Lp, Rp)는 위에서 논한 바와 같이 스테레오 신호(L, R)에 대응한다.An alternative approach to optimizing acoustical psychological control is to add to the encoder system a detector that, when appropriate, forms a deactivation stage that can effectively deactivate the PS encoding, preferably in a time-variable and frequency-variable manner. Deactivating the PS encoding is suitable, for example, when L / R stereo coding is expected to be advantageous, or when acoustic psychological control seems to be a problem in efficiently encoding the pseudo L / R signal. PS encoding the downmix matrix H -1, and, following this conversion (see stage 2 in Fig. 1) (i.e., the identity operation) or 1 times the identity matrix corresponding to the downmix matrix H -1 to the identity matrix Can be effectively deactivated. For example, the PS encoding may be effectively deactivated by forcing the PS parameters IID and / or ICC to be IID = 0 dB and ICC = 0. In this case, the pseudo stereo signal (L p , R p ) corresponds to the stereo signal (L, R) as discussed above.

PS 파라미터 수정을 제어하는 이러한 검출기를 도 4에 도시하였다. 여기에서, 검출기(20)는 파라미터 추정 스테이지(9)에 의해 결정된 PS 파라미터들(5)을 수신한다. 검출기가 PS 인코딩을 비활성화하지 않을 때, 검출기(20)는 PS 파라미터들을 다운믹스 스테이지(8)를 거쳐 멀티플렉서(7)에 보내는데, 즉 이 경우 PS 파라미터들(5)은 다운믹스 스테이지(8)에 공급된 PS 파라미터들(5')에 대응한다. PS 인코딩이 잇점이 없어 PS 인코딩이 비활성화되어야 함을(하나 이상의 주파수 대역들에 대해서) 검출기가 검출한 경우에, 검출기는 영향받은 PS 파라미터들(5)을 수정하고(예를 들면, PS 파라미터들 IID 및/또는 ICC를 IID = 0 dB 및 ICC = 0로 설정) 수정된 PS 파라미터들(5')를 다운믹스 스테이지(8)에 공급한다. 검출기는 선택적으로 PS 파라미터 수정에 대해 판단하기 위해 좌 및 우 신호들(L, R)을 고려할 수도 있다(도 4에 점선 참조).This detector, which controls PS parameter modification, is shown in FIG. Here, the detector 20 receives the PS parameters 5 determined by the parameter estimation stage 9. When the detector does not deactivate the PS encoding, the detector 20 sends the PS parameters via the downmix stage 8 to the multiplexer 7, in which case the PS parameters 5 are sent to the downmix stage 8 Corresponds to the supplied PS parameters 5 '. If the detector detects (for one or more frequency bands) that the PS encoding is not beneficial and the PS encoding should be deactivated, the detector may modify the affected PS parameters 5 (e.g., IID and / or ICC to IID = 0 dB and ICC = 0) to the downmix stage 8. The detector may also consider left and right signals L, R to determine for PS parameter modification (see dotted line in FIG. 4).

다음에서, 용어 QMF(quadrature mirror fiter 또는 필터 뱅크)는 나이키스트 필터 뱅크, 즉, 하이브리드 필터 뱅크 구조와 결합하여 QMF 서브-대역 필터 뱅크를 포함한다. 또한, 이하 설명에서 모든 값들은 주파수 종속적일 수 있는데, 예를 들면, 상이한 주파수 범위들에 대해 상이한 다운믹스 및 업믹스 행렬들이 추출될 수 있다. 또한, 잔차 코딩은 이용된 오디오 주파수 범위의 부분만을 포함할 수도 있다(즉, 잔차 신호는 이용된 오디오 주파수 범위의 부분에 대해서만 코딩된다). 이하 개괄되는 다운믹스의 특징들은 일부 주파수 범위들에 대해서 QMF 영역 (예를 들면, 종래기술에 따라)에서 행해지고, 그외 주파수 범위들에 대해서는 예를 들면, 위상 면들만이 복소수 QMF 영역에서 처리될 것이고 진폭 변환은 실수값 MDCT 영역에서 처리된다. In the following, the term QMF (quadrature mirror filter or filter bank) includes a QMF sub-band filter bank in combination with a Nyquist filter bank, i.e., a hybrid filter bank structure. Also, all values in the following description may be frequency dependent, e.g., different downmix and upmix matrices may be extracted for different frequency ranges. In addition, the residual coding may only include portions of the audio frequency range used (i.e., the residual signal is coded only for the portion of the audio frequency range used). The features of the downmix outlined below will be done in the QMF domain (e.g., according to the prior art) for some frequency ranges and only the phase planes, for example, for the other frequency ranges, will be processed in the complex QMF domain The amplitude transformation is processed in the real-valued MDCT domain.

도 5에 통상적인 PS 인코더 시스템가 도시되었다. 스테레오 채널들(L, R) 각각은 먼저 M 서브-대역들을 가진 복소수 QMF(30), 예를 들면, M = 64 서브-대역들을 가진 QMF에 의해 분석된다. 서브-대역 신호들은 PS 인코더(31)에서 PS 파라미터들(5) 및 다운믹스 신호(DMX)를 추정하기 위해 이용된다. 다운믹스 신호(DMX)는 SBR 인코더(32)에서 SBR(스펙트럼 대역폭 복제) 파라미터들(33)을 추정하기 위해 이용된다. SBR 인코더(32)는 아마도 잡음 및 토낼러티(tonality) 측정치들과 조합하여, 원 고 대역 신호의 스펙트럼 엔벨로프를 나타내는 SBR 파라미터들(33)을 추출한다. PS 인코더(31)와는 반대로, SBR 인코더(32)는 코어 코더(34)에 전달되는 신호에 영향을 미치지 않는다. PS 인코더(31)의 다운믹스 신호(DMX)는 N 서브-대역들을 가진 역 QMF(35)을 이용하여 합성된다. 예를 들면, N = 32을 가진 복소수 QMF가 이용될 수 있는데, 이 경우 PS 인코더(31) 및 SBR 인코더(32)에 의해 이용되는(64) 서브-대역들 중 32개의 가장 낮은 서브-대역들만이 합성된다. 이에 따라, 동일 프레임 크기에 대해서 서브-대역들의 수의 반을 이용함으로써, 입력에 비해 대역폭 반의 시간 영역 신호가 얻어져 코어 코더(34)에 보내진다. 감소된 대역폭에 기인하여, 샘플링 레이트는 반으로 감소될 수 있다(도시되지 않음). 코어 인코더(34)는 비트스트림(36)을 생성하기 위해 모노 입력 신호의 인지 인코딩을 실행한다. PS 파라미터들(5)은 멀티플렉서(도시되지 않음)에 의해 비트스트림(36)에 삽입된다.A typical PS encoder system is shown in Fig. Each of the stereo channels L, R is first analyzed by a QMF with a complex QMF 30 with M sub-bands, e.g., M = 64 sub-bands. The sub-band signals are used in the PS encoder 31 to estimate the PS parameters 5 and the downmix signal DMX. The downmix signal DMX is used to estimate the SBR (Spectrum Bandwidth Replication) parameters 33 in the SBR encoder 32. The SBR encoder 32 extracts the SBR parameters 33 representing the spectral envelope of the original high-band signal, possibly in combination with the noise and tonality measurements. Contrary to the PS encoder 31, the SBR encoder 32 does not affect the signal transmitted to the core coder 34. [ The downmix signal DMX of the PS encoder 31 is synthesized using the inverse QMF 35 with N sub-bands. For example, a complex QMF with N = 32 may be used, where only the 32 lowest sub-bands out of the (64) sub-bands used by PS encoder 31 and SBR encoder 32 . Thus, by using half the number of sub-bands for the same frame size, a time-domain signal of half the bandwidth compared to the input is obtained and sent to the core coder 34. [ Due to the reduced bandwidth, the sampling rate may be reduced by half (not shown). The core encoder 34 performs perceptual encoding of the mono input signal to produce a bit stream 36. The PS parameters 5 are inserted into the bit stream 36 by a multiplexer (not shown).

도 6은 잔차를 이용하는 PS 코딩을 적응형 L/R 또는 M/S 인지 스테레오 코딩을 할 수 있는 스테레오 코어 코더(48)와 결합한 인코더 시스템의 다른 실시예를 도시한 것이다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 좌측 및 우측 원 채널들을 나타내는 입력 채널들(L, R)은 도 5에 관련하여 논한 바와 유사한 방식으로, 복소수 QMF(30)에 의해 분석된다. 도 5에 PS 인코더(31)와는 반대로, 도 6에 PS 인코더(41)는 다운믹스 신호(DMX) 뿐만 아니라 잔차 신호(RES)도 출력한다. 의사 L/R로 고정된 DMX/RES 변환(즉, M/S를 L/R로의 변환)은 변환 스테이지(2)에서 다운믹스(DMX) 및 잔차(RES) 신호들에 적용된다. 도 6에서 변환 스테이지(2)는 도 1에서 변환 스테이지(2)에 대응한다. 변환 스테이지(2)는 코어 인코더(48)가 동작할 "의사" 좌 우 채널 신호(Lp, Rp)를 생성한다. 이 실시예에서, 필터 뱅크들(35)에 의한 서브-대역 합성에 앞서, L/R을 M/S로의 역 변환이 QMF 영역에서 적용된다. 바람직하게, 합성을 위한 서브-대역들의 수 N(예를 들면, N = 32)은 분석을 위해 이용되는 서브-대역들의 수 M(예를 들면, M =(64))의 반에 대응하고, 코어 코더(48)는 샘플링 레이트의 반으로 동작한다. 인코더에서 QMF 분석을 위해(64) 서브-대역 채널들과, 합성을 위해 32 서브-대역들을 이용하는 제약은 없으며, 코어 코더(48)에 의해 수신되는 신호에 대해 어떤 샘플링 레이트가 요망되는가에 따라 다른 값들도 가능함에 유의한다. 코어 스테레오 인코더(48)는 필터 뱅크들(35)의 신호의 인지 인코딩을 실행하여 비트스트림 신호(46)를 발생한다. PS 파라미터들(5)은 멀티플렉서(도시되지 않음)에 의해 비트스트림 신호(46)에 삽입된다. 선택적으로, PS 파라미터들 및/또는 원 L/R 입력 신호는 코어 인코더(48)에 의해 이용될 수 있다. 이러한 정보는 PS 인코더(41)가 스테레오 공간을 어떻게 회전되었는가를 코어 인코더(48)에 알린다. 정보는 인지적으로 최적이 되게 양자화를 어떻게 제어할 것인지 코어 인코더(48)를 안내할 수 있다. 이것이 도 6에 점선으로 표시되었다.Figure 6 illustrates another embodiment of an encoder system that combines PS coding using residuals with a stereo core coder 48 capable of stereo coding with adaptive L / R or M / S. This embodiment is only intended to illustrate the principles of the present invention. Modifications and variations of the embodiments will be apparent to those skilled in the art. The input channels L, R representing the left and right source channels are analyzed by the complex QMF 30 in a manner similar to that discussed with respect to Fig. In contrast to the PS encoder 31 in Fig. 5, the PS encoder 41 in Fig. 6 outputs not only the downmix signal DMX but also the residual signal RES. The DMX / RES conversion (i.e., M / S to L / R conversion) fixed with the pseudo L / R is applied to the downmix (DMX) and residual (RES) signals in the conversion stage 2. The conversion stage 2 in Fig. 6 corresponds to the conversion stage 2 in Fig. The conversion stage 2 generates the "pseudo" left and right channel signals L p and R p to which the core encoder 48 will operate. In this embodiment, prior to sub-band synthesis by filter banks 35, an inverse conversion from L / R to M / S is applied in the QMF domain. Preferably, the number N of sub-bands for synthesis (e.g., N = 32) corresponds to half the number of sub-bands M used for analysis (e.g., M = (64) The core coder 48 operates at half the sampling rate. There is no restriction to use sub-band channels 64 for QMF analysis in the encoder and 32 sub-bands for synthesis, and depending on what sampling rate is desired for the signal received by the core coder 48, Note that values are also possible. The core stereo encoder 48 performs perceptual encoding of the signals in the filter banks 35 to generate a bitstream signal 46. The PS parameters 5 are inserted into the bitstream signal 46 by a multiplexer (not shown). Alternatively, the PS parameters and / or the original L / R input signal may be utilized by the core encoder 48. [ This information informs the core encoder 48 how the PS encoder 41 has rotated the stereo space. The information can guide the core encoder 48 how to control the quantization to be cognitively optimal. This is indicated by a dotted line in Fig.

도 7은 도 6에 실시예와 유사한 인코더 시스템의 다른 실시예를 도시한 것이다. 도 5에 실시예와 비교하여, 도 7에서 SBR 인코더(42)는 PS 인코더(41) 상류측에 연결된다. 도 7에서 SBR 인코더(42)는 PS 인코더(41) 앞쪽으로 옮겨졌으며, 이에 따라 도 6에서와 같이 다운믹스 신호(DMX)에 동작하는 것이 아니라, 좌 우 채널들(여기에서는, QMF 영역에서)에 동작한다.Figure 7 illustrates another embodiment of an encoder system similar to the embodiment of Figure 6. Compared with the embodiment in Fig. 5, in Fig. 7, the SBR encoder 42 is connected to the upstream side of the PS encoder 41. Fig. 7, the SBR encoder 42 is moved to the front side of the PS encoder 41, so that the SBR encoder 42 is not operated on the downmix signal DMX as shown in FIG. 6, but on the left and right channels (here, in the QMF region) Lt; / RTI >

SBR 인코더(42)의 재배열에 기인하여, PS 인코더(41)는 입력 신호의 전체 대역폭뿐만 아니라 SBR 크로스오버 주파수 미만의 주파수 범위에도 동작하도록 구성될 수도 있다. 도 7에서, SBR 파라미터들(43)은 SBR 범위에 대해선 스테레오에 있으며, 도 15에 관련하여 나중에 논하는 바와 같이 대응 PS 디코더로부터의 출력은 SBR 디코더가 동작할 스테레오 소스 주파수 범위를 생성할 것이다. 이러한 수정, 즉, 인코더 시스템에서 PS 인코더 모듈(41) 상류측에 SBR 인코더 모듈(42)을 연결하고 대응하여 디코더 시스템에서(도 15 참조), PS 디코더 모듈 다음에 SBR 디코더 모듈을 배치하는 것은 스테레오 출력을 생성하기 위해 역상관된 신호를 이용하는 것이 감소될 수 있는 잇점이 있다. 모든 또는 특정 주파수 대역에서 잔차 신호가 전혀 존재하지 않는 경우에, 대신에 다운믹스 신호(DMX)의 역상관된 버전이 PS 디코더에서 이용되는 것에 유의한다. 그러나, 역상관된 신호에 기초한 재구성은 오디오 품질을 감소시킨다. 따라서, 역상관된 신호를 이용하지 않는 것이 오디오 품질을 증가시킨다.Due to the rearrangement of the SBR encoder 42, the PS encoder 41 may be configured to operate in the frequency range below the SBR crossover frequency as well as the full bandwidth of the input signal. In Fig. 7, the SBR parameters 43 are in stereo for the SBR range, and the output from the corresponding PS decoder will generate the stereo source frequency range over which the SBR decoder will operate, as discussed later in connection with Fig. This modification, i.e., connecting the SBR encoder module 42 upstream of the PS encoder module 41 in the encoder system and correspondingly placing the SBR decoder module after the PS decoder module in the decoder system (see FIG. 15) The advantage is that the use of the decorrelated signal to produce an output can be reduced. Note that if there is no residual signal at all or in a particular frequency band, then an undocoded version of the downmix signal DMX is used in the PS decoder instead. However, reconstruction based on the decorrelated signal reduces audio quality. Therefore, not using the decorrelated signal increases the audio quality.

도 6에 실시예와 비교해서 도 7에 실시예의 이러한 잇점은 도 8a 내지 도 8d에 관련하여 이제 더 상세히 설명될 것이다.This advantage of the embodiment in Fig. 7 compared to the embodiment in Fig. 6 will now be explained in more detail with reference to Figs. 8a-8d.

도 8a에서, 2개의 출력 채널들(L, R)(디코더측에서) 중 하나의 시간 주파수를 시각화하여 나타내었다. 도 8a의 경우에, 도 5 또는 도 6에서 인코더와 같은 SBR 인코딩 모듈 앞에 PS 인코딩 모듈이 배치된 인코더가 이용된다(PS 디코더가 SBR 디코더 다음에 배치되는 디코더에서, 도 14 참조). 또한, 잔차는 코어 코더의 주파수 범위(51)보다는 작은 저 대역폭 주파수 범위(50)에서만 코딩된다. 도 8a에서 스펙토그램 시각화로부터 명백한 바와 같이, 역상관된 신호가 PS 디코더에 의해 이용하게 되는 주파수 범위(52)는 잔차 신호의 이용에 의해 포함되는 더 낮은 주파수 범위(50)를 제외하고 모든 주파수 범위를 포함한다. 또한, SBR은 역상관된 신호보다 현저히 높은 범위에서 시작하는 주파수 범위(53)를 포함한다. 이에 따라, 전체 주파수 범위는 다음 주파수 범위들로 나뉘어진다: 저 주파수 범위(도 8a에서 범위(50) 참조)에서, 파형 코딩이 이용되고; 중간 주파수 범위(주파수 범위(51)와 주파수 범위(52)의 교차범위 참조)에서, 역상관된 신호와 조합하여 파형 코딩이 이용되고; 고 주파수 범위(주파수 범위(53) 참조)에서, 저 주파수들로부터 재생되는 SBR 재생 신호가 PS 디코더에 의해 생성된 역상관된 신호와 조합하여 이용된다.In Figure 8A, one of the two output channels (L, R) (on the decoder side) is visualized in time frequency. In the case of FIG. 8A, an encoder in which a PS encoding module is placed before the SBR encoding module, such as an encoder in FIG. 5 or 6, is used (see FIG. 14 in a decoder in which the PS decoder is placed after the SBR decoder). In addition, the residual is coded only in the low bandwidth frequency range 50, which is less than the frequency range 51 of the core coder. As is apparent from the spectrogram visualization in Fig. 8A, the frequency range 52, in which the decorrelated signal is used by the PS decoder, is the sum of all frequencies (50) except for the lower frequency range 50 Range. The SBR also includes a frequency range 53 that starts at a significantly higher range than the decorrelated signal. Thus, the entire frequency range is divided into the following frequency ranges: in the low frequency range (see range 50 in FIG. 8A), waveform coding is used; In the intermediate frequency range (see the intersecting range of frequency range 51 and frequency range 52), waveform coding is used in combination with the decorrelated signal; In the high frequency range (see frequency range 53), the SBR reproduction signal reproduced from the low frequencies is used in combination with the decorrelated signal generated by the PS decoder.

도 8b에서, SBR 인코더가 인코더 시스템에서 PS 인코더의 상류측에 연결된 경우(아울러 SBR 디코더가 디코더 시스템에서 PS 디코더 다음에 위치된다)에 대해 2개의 출력 채널들(L, R)(디코더측에서) 중 하나의 시간 주파수를 시각적으로 나타내었다. 도 8b에서, 잔차 신호 대역폭(60)(이에 잔차 코딩이 실행된다)이 코어 코더(61)의 대역폭보다 낮은 저 비트레이트 시나리오가 도시되었다. SBR 디코딩 프로세스가 PS 디코더 다음에 디코더에 작동되기 때문에(도 15 참조), 저 주파수들에 대해 이용되는 잔차 신호는 SBR 범위(63)에서 더 높은 주파수들의 적어도 일부(주파수 범위(64) 참조)의 재구성에도 이용된다.In Figure 8b, two output channels (L, R) (on the decoder side) for the SBR encoder connected upstream of the PS encoder in the encoder system (and the SBR decoder is located after the PS decoder in the decoder system) Lt; RTI ID = 0.0 > 1 < / RTI > In FIG. 8B, a low bit rate scenario is shown in which the residual signal bandwidth 60 (residual coding is performed on it) is lower than the bandwidth of the core coder 61. Since the SBR decoding process operates on the decoder after the PS decoder (see FIG. 15), the residual signal used for the lower frequencies is at least part of the higher frequencies (see frequency range 64) in SBR range 63 It is also used for reconstruction.

잇점은 잔차 신호 대역폭이 코어 코더 대역폭에 근접하거나 동일한 중간 비트레이트들에 작동할 때 훨씬 더 명백해진다. 이 경우, 도 8a의 시간 주파수 표현(도 6에 도시된 바와 같이 PS 인코딩 및 SBR 인코딩의 순서가 이용되는)은 도 8c에 도시된 시간 주파수 표현이 된다. 도 8c에서, 잔차 신호는 근본적으로 코어 코더의 전체 저 대역 범위(51)을 포함하는데, SBR 주파수 범위(53)에서는 역상관된 신호가 PS 디코더에 의해 이용된다. 도 8d에서, 인코딩/디코딩 모듈들의 바람직한 순서의 경우에(즉, 도 7에 도시된 바와 같이, PS 인코딩 전에 스테레오 신호에 작동하는 SBR 인코딩) 시간 주파수 표현이 시각화되었다. 여기에서, PS 디코딩 모듈은 도 15에 도시된 바와 같이, 디코더 내 SBR 디코딩 모듈 전에 동작한다. 따라서, 잔차 신호는 고 주파수 재구성을 위해 이용되는 저 대역의 부분이다. 잔차 신호 대역폭이 모노 다운믹스 신호 대역폭과 같을 때, 출력 신호를 디코딩하기 위해 어떠한 역상관된 신호 정보도 필요로 하지 않을 될 것이다(도 8d에 해칭된 전체 주파수 범위를 참조).The advantage becomes even more apparent when the residual signal bandwidth is close to or equal to the core coder bandwidth and operates at the same intermediate bit rates. In this case, the time frequency representation of FIG. 8A (where the order of PS encoding and SBR encoding as shown in FIG. 6 is used) becomes the time frequency representation shown in FIG. 8C. In Figure 8c, the residual signal essentially comprises the full low band range 51 of the core coder, where the decorrelated signal is used by the PS decoder in the SBR frequency range 53. [ In FIG. 8D, a time-frequency representation is visualized in the case of a preferred order of encoding / decoding modules (i.e., SBR encoding operating on a stereo signal prior to PS encoding, as shown in FIG. 7). Here, the PS decoding module operates before the SBR decoding module in the decoder, as shown in Fig. Thus, the residual signal is part of the low band used for high frequency reconstruction. When the residual signal bandwidth is equal to the mono downmix signal bandwidth, no decoded signal information will be required to decode the output signal (see the full frequency range hatched in FIG. 8D).

도 9a에서, MDCT 변환 영역에서 적응형으로 선택가능한 L/R 또는 M/S 스테레오 인코딩하는 스테레오 코어 인코더(48)의 실시예가 도시되었다. 이러한 스테레오 인코더(48)는 도 6 및 도 7에서 이용될 수 있다. 도 5에 도시된 바와 같은 모노 코어 인코더(34)는 도 9a에서 스테레오 코어 인코더(48)의 특별한 경우로서 간주될 수 있고, 이 경우 단일의 모노 입력 채널만이 처리된다(즉, 도 9a에서 점선으로 나타낸 제 2 입력 채널은 없다).In FIG. 9A, an embodiment of a stereo core encoder 48 for L / R or M / S stereo encoding that is adaptively selectable in the MDCT transform domain is shown. Such a stereo encoder 48 can be used in Figs. 6 and 7. Fig. The mono core encoder 34 as shown in Fig. 5 can be regarded as a special case of the stereo core encoder 48 in Fig. 9A, in which case only a single mono input channel is processed (i.e., There is no second input channel indicated by < / RTI >

도 9b에서, 더 일반화된 인코더의 실시예가 도시되었다. 모노 신호들에 대해서, 인코딩은 선형 예측 영역에서 코딩(블록(71) 참조)과 변환 영역에서 코딩(블록(48) 참조) 간을 전환할 수 있다. 이러한 유형의 코어 코더는 입력 신호의 특징들에 따라 적응형으로 이용될 수 있는 몇가지 코딩 방법들을 도입한다. 여기에서, 코더는 AAC 스타일 변환 코더(48)(모노 및 스테레오 신호들에 이용될 수 있는 것으로, 스테레오 신호들의 경우엔 L/R 또는 M/S 코딩이 적응형으로 선택될 수 있다) 또는 AMR-WB+(적응형 멀티레이트-광대역 플러스) 스타일 코어 코더(71)(모노 신호들에 대해서만 이용될 수 있다)을 이용하여 신호를 코딩하기로 선택할 수 있다. AMR-WB+ 코어 코더(71)는 선형 예측기(72)의 잔차를 평가하고, 이어서 선형 예측 잔차의 변환 코딩 수법 또는 선형 예측 잔차를 코딩하기 위한 고전적 스피치 코더 ACELP(Algebraic Code Excited Linear Prediction) 수법 간에 선택한다. AAC 스타일 변환 코더(48)와 AMR-WB+ 스타일 코어 코더(71) 간에 결정하기 위해서, 두 코더(48)와 코더(71) 간에 입력 신호에 기초하여 판단하는 모드 판단 스테이지(73)가 이용된다.In Figure 9b, an embodiment of a more generalized encoder is shown. For mono signals, the encoding can switch between coding in the linear prediction region (see block 71) and coding in the transform domain (see block 48). This type of core coder introduces several coding methods that can be used adaptively according to the characteristics of the input signal. Here, the coder uses the AAC style conversion coder 48 (which can be used for mono and stereo signals, where L / R or M / S coding can be adaptively selected for stereo signals) or AMR- And may choose to code the signal using a WB + (adaptive multirate-broadband plus) style core coder 71 (which may only be used for mono signals). The AMR-WB + core coder 71 evaluates the residual of the linear predictor 72 and then selects between the linear predictive residual coding or the classical speech coder ACELP (Algebraic Code Excited Linear Prediction) technique for coding the linear prediction residual do. A mode determination stage 73 is used to determine between the two coder 48 and the coder 71 based on the input signal to determine between the AAC style conversion coder 48 and the AMR-WB + style core coder 71. [

인코더(48)는 스테레오 AAC 스타일 MDCT 기반의 코더이다. 모드 판단(73)이 MDCT 기반 코딩을 이용하기 위해 입력 신호를 조정할 때, 모노 입력 신호 또는 스테레오 입력 신호들은 AAC 기반 MDCT 코더(48)에 의해 코딩된다. MDCT 코더(48)는 MDCT 스테이지들(74)에서 하나 또는 2개의 신호들의 MDCT 분석을 행한다. 스테레오 신호의 경우에, 주파수 대역에 기초하여 M/S 또는 L/R 판단은 양자화 및 코딩에 앞서 스테이지(75)에서 실행된다. L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩을 주파수-가변 방식으로 선택될 수 있다. 스테이지(75)는 L/R 대 M/S 변환을 실행한다. 특정 주파수 대역에 대해 M/S 인코딩이 결정된다면, 스테이지(75)는 이 주파수 대역에 대해 M/S 신호를 출력한다. 그렇지 않다면, 스테이지(75)는 이 주파수 대역에 대해 L/R 신호를 출력한다.The encoder 48 is a stereo AAC style MDCT based coder. When the mode determination 73 adjusts the input signal to use MDCT-based coding, the mono input signal or the stereo input signals are coded by the AAC-based MDCT coder 48. The MDCT coder 48 performs MDCT analysis of one or two signals in the MDCT stages 74. In the case of a stereo signal, the M / S or L / R decision based on the frequency band is performed in the stage 75 prior to quantization and coding. L / R stereo encoding or M / S stereo encoding can be selected in a frequency-variable manner. The stage 75 performs L / R to M / S conversion. If M / S encoding is determined for a particular frequency band, the stage 75 outputs an M / S signal for this frequency band. Otherwise, the stage 75 outputs the L / R signal for this frequency band.

따라서, 변환 코딩 모드가 이용될 때, 기본 코어 코더의 스테레오 코딩 기능의 전체 효율은 스테레오에 대해 이용될 수 있다.Thus, when a transform coding mode is used, the overall efficiency of the stereo coding function of the basic core coder can be used for stereo.

모드 판단(73)이 선형 예측 영역 코더(71)에 모노 신호를 조정할 때, 이어서 블록(72)에서 선형 예측 분석에 의해 모노 신호가 분석된다. 이어서, LP 잔차를 시간-영역 ACELP 스타일 코더(76)에 의해 코딩할지 아니면 MDCT 영역에서 동작하는 TCX 스타일 코더(77)(Transform Coded eXcitation)에 의해 코딩할지 판단이 행해진다. 선형 예측 영역 코더(71)는 어떠한 내재하는 스테레오 코딩 능력도 갖고 있지 않다. 그러므로, 선형 예측 영역 코더(71)로 스테레오 신호를 코딩할 수 있게 위해서, 도 5에 도시된 것과 유사한 인코더 구성이 이용될 수 있다. 이 구성에서, PS 인코더는 PS 파라미터들(5) 및 모노 다운믹스 신호(DMX)를 생성하고, 이것은 선형 예측 영역 코더에 의해 인코딩된다.When the mode determination 73 adjusts the mono signal to the linear prediction area coder 71, the mono signal is then analyzed at block 72 by linear prediction analysis. Subsequently, a determination is made whether the LP residual is to be coded by the time-domain ACELP style coder 76 or by the TCX style coder 77 (Transform Coded eXcitation) operating in the MDCT domain. The linear prediction area coder 71 has no inherent stereo coding capability. Therefore, in order to be able to code the stereo signal with the linear prediction area coder 71, an encoder configuration similar to that shown in Fig. 5 can be used. In this configuration, the PS encoder generates PS parameters 5 and a mono downmix signal DMX, which is encoded by a linear predictive region coder.

도 10은 인코더 시스템의 다른 실시예를 도시한 것으로, 도 7 및 도 9의 부분들이 새로운 방식으로 결합된다. 도 7에 개괄된 바와 같이, DMX/RES 대 의사 L/R 블록(2)는 스테레오 MDCT 분석(74) 앞에 AAC 스타일 다운믹스 코더(70) 내에 배치된다. 이 실시예는 스테레오 MDCT 코어 코더가 이용될 때만 DMX/RES 대 의사 L/R 변환(2)이 적용된다는 잇점이 있다. 따라서, 변환 코딩 모드가 이용될 때, 기본 코어 코더의 스테레오 코딩 기능의 전체 효율이 잔차 신호에 의해 포함된 주파수 범위의 스테레오 코딩을 위해 이용될 수 있다.Figure 10 illustrates another embodiment of an encoder system in which the portions of Figures 7 and 9 are combined in a novel manner. 7, the DMX / RES versus pseudo L / R block 2 is placed in the AAC style downmix coder 70 before the stereo MDCT analysis 74. As shown in FIG. This embodiment has the advantage that the DMX / RES to pseudo L / R conversion 2 is applied only when a stereo MDCT core coder is used. Thus, when a transform coding mode is used, the overall efficiency of the stereo coding function of the basic core coder can be used for stereo coding of the frequency range contained by the residual signal.

도 9b에서 모드 판단(73)이 모노 입력 신호 또는 입력 스테레오 신호에 작동할 때, 도 10에 모드 판단(73')은 다운믹스 신호(DMX) 및 잔차 신호(RES)에 작동한다. 모노 입력 신호의 경우에, 모노 신호는 DMX 신호로서 직접 이용될 수 있고, RES 신호는 제로로 설정되고, PS 파라미터들은 IID = 0 dB 및 ICC = 1로 디폴트될 수 있다.In Figure 9B, when mode determination 73 operates on a mono input signal or an input stereo signal, mode determination 73 'in Figure 10 operates on the downmix signal DMX and the residual signal RES. In the case of a mono input signal, the mono signal can be used directly as a DMX signal, the RES signal is set to zero, and the PS parameters can be defaulted to IID = 0 dB and ICC = 1.

모드 판단(73')이 선형 예측 영역 코더(71)에 다운믹스 신호(DMX)를 조정할 때, 이어서 블록(72)에서 선형 예측 분석에 의해 다운믹스 신호(DMX)가 분석된다. 이이서, LP 잔차를 시간-영역 ACELP 스타일 코더(76)에 의해 코딩할지 아니면 MDCT 영역에서 동작하는 TCX 스타일 코더(77)(Transform Coded eXcitation)에 의해 코딩할지 판단이 행해진다. 선형 예측 영역 코더(71)는 다운믹스 신호(DMX) 외에 잔차 신호를 코딩하기 위해 이용될 수 있는 어떠한 내재된 스테레오 코딩 능력도 갖고 있지 않다. 그러므로, 다운믹스 신호(DMX)가 예측 영역 코더(71)에 의해 인코딩될 때 잔차 신호(RES)를 인코딩하기 위해 전용 잔차 코더(78)가 채용된다. 예를 들면, 이러하는 코더(78)는 모노 AAC 코더일 수 있다.When the mode determination 73 'adjusts the downmix signal DMX to the linear prediction area coder 71, the downmix signal DMX is then analyzed at block 72 by a linear prediction analysis. It is then determined whether the LP residual is to be coded by the time-domain ACELP style coder 76 or by the TCX style coder 77 (Transform Coded eXcitation) operating in the MDCT domain. The linear prediction region coder 71 has no inherent stereo coding capability that can be used to code the residual signal in addition to the downmix signal DMX. Therefore, a dedicated residual coder 78 is employed to encode the residual signal RES when the downmix signal DMX is encoded by the predictive area coder 71. [ For example, the coder 78 may be a mono AAC coder.

도 10에서는 코더(71, 78)가 생략될 수 있는 것에 유의한다(이 경우 모드 판단 스테이지(73')는 더 이상 필요하지 않다).It should be noted that the coder 71,78 can be omitted in Fig. 10 (in which case the mode determination stage 73'is no longer needed).

도 11a는 도 10에 도시된 바와 동일한 잇점을 달성하는 인코더 시스템의 또 따른 대안적 실시예의 상세를 도시한 것이다. 도 10의 실시예와는 반대로, 도 11a에서 DMX/RES 대 의사 L/R 변환(2)은 코어 코더(70)의 MDCT 분석(74) 다음에 배치되는데, 즉, 변환은 MDCT 영역에서 동작한다. 블록(2)에서 변환은 선형 및 시간-불변이고 따라서, MDCT 분석(74) 다음에 놓여질 수 있다. 도 11에 도시되지 않은 도 10의 나머지 블록들은 선택적으로 도 11a에서 동일한 방식으로 추가될 수 있다. 대안적으로, MDCT 분석 블록들(74)은 변환 블록(2) 다음에 배치될 수도 있다.11A shows details of yet another alternative embodiment of an encoder system that achieves the same benefits as shown in FIG. 11A, the DMX / RES to pseudo L / R transform 2 is placed after the MDCT analysis 74 of the core coder 70, i.e., the transform operates in the MDCT domain . In block 2, the transform is linear and time-invariant and, therefore, can be placed after the MDCT analysis 74. The remaining blocks of FIG. 10, which are not shown in FIG. 11, may optionally be added in the same manner in FIG. 11A. Alternatively, MDCT analysis blocks 74 may be placed after conversion block 2.

도 11b는 도 11a에 실시예의 구현을 도시한 것이다. 도 11b에서, M/S 또는 L/R 인코딩 간에 선택하기 위한 스테이지(75)의 구현예가 도시되었다. 스테이지(75)는 의사 스테레오 신호(Lp, Rp)를 수신하는 합 및 차 변환 스테이지(98)(더 정확하게는 M/S으로 L/R의 변환 스테이지)를 포함한다. 변환 스테이지(98)는 M/S으로 L/R의 변환을 실행함으로써 의사 미드/사이드 신호(Mp, Sp)를 발생한다. 있을 수 있는 이득율을 제외하고, 다음이 적용된다: Mp = DMX 및 Sp = RES.FIG. 11B illustrates an implementation of the embodiment in FIG. 11A. In FIG. 11B, an implementation of stage 75 for selecting between M / S or L / R encoding is shown. Stage 75 includes sum and difference transform stages 98 (more precisely, L / R transform stages in M / S) that receive pseudo stereo signals L p and R p . The conversion stage 98 generates the pseudo mid / side signals M p and S p by performing the L / R conversion to the M / S. Except for the possible gain rates, the following applies: M p = DMX and S p = RES.

스테이지(75)는 L/R 또는 M/S 인코딩 중 하나를 판단한다. 판단에 기초하여, 의사 스테레오 신호(Lp, Rp) 또는 의사 미드/사이드 신호(Mp, Sp)가 선택되어 AAC 블록(97)에서 인코딩된다. 제 1 AAC 블록(97)이 의사 스테레오 신호(Lp, Rp)에 할당되고 제 2 AAC 블록(97)이 의사 미드/사이드 신호(Mp, Sp)에 할당되어 2개의 AAC 블록들(97)이 이용될 수 있음에(도 11b엔 도시되지 않음) 유의한다. 이 경우에, L/R 또는 M/S 선택은 제 1 AAC 블록(97)의 출력 또는 제 2 AAC 블록(97)의 출력을 선택함으로써 실행된다.Stage 75 determines one of L / R or M / S encoding. Based on the judgment, the pseudo stereo signal (L p , R p ) or the pseudo mid / side signal (M p , S p ) is selected and encoded in the AAC block (97). A first AAC block 97 is assigned to the pseudo stereo signal L p and R p and a second AAC block 97 is assigned to the pseudo mid / side signals M p and S p , 97) may be used (not shown in Figure 11B). In this case, the L / R or M / S selection is performed by selecting the output of the first AAC block 97 or the output of the second AAC block 97.

도 11c는 도 11a의 실시예에 대한 대안을 도시한 것이다. 여기에서, 어떠한 분명한 변환 스테이지(2)도 이용되지 않는다. 그보다는, 변환 스테이지(2) 및 스테이지(75)이 단일 스테이지(75')에서 결합되어 있다. 다운믹스 신호(DMX) 및 잔차 신호(RES)는 스테이지(75')의 부분으로서 합 및 차 변환 스테이지(99)(더 정확하게는 의사 L/R로의 DMX/RES의 변환 스테이지)에 공급된다. 변환 스테이지(99)는 의사 스테레오 신호(Lp, Rp)를 발생한다. 도 11c에서 DMX/RES 대 의사 L/R 변환 스테이지(99)은 도 11b에 L/R 대 M/S 변환 스테이지(98)와 유사하다(아마도 다른 이득율은 제외하고). 그럼에도불구하고, 도 11c에서 M/S와 L/R 디코딩 간에 선택은 도 11b과 비교해서 반대로 될 필요가 있다. 도 11b 및 도 11c 양쪽 모두에서, L/R 또는 M/S 선택을 위한 스위치의 위치가 도 11b에선 위쪽 위치에 있고 도 11c에선 아래쪽 위치에 있는 Lp/Rp 위치로 도시된 것에 유의한다. 이것은 L/R 또는 M/S 선택이 반전된 의미를 시각적으로 나타낸 것이다.Figure 11C shows an alternative to the embodiment of Figure 11A. Here, no explicit conversion stage 2 is used. Rather, the conversion stage 2 and the stage 75 are combined in a single stage 75 '. The downmix signal DMX and the residual signal RES are supplied to the sum and difference conversion stage 99 (more precisely, the conversion stage of the DMX / RES in the pseudo L / R) as part of the stage 75 '. The conversion stage 99 generates a pseudo stereo signal L p , R p . 11C, the DMX / RES vs. pseudo L / R conversion stage 99 is similar to the L / R to M / S conversion stage 98 (except for other gain factors) in FIG. Nevertheless, the choice between M / S and L / R decoding in Fig. 11c needs to be reversed compared to Fig. 11b. And the note shown in both Fig. 11b and Fig. 11c, a L p / R p where the L / R or bottom position In Figure 11c is a switch located in the upper position In Figure 11b for the M / S selection. This is a visual representation of the reversed L / R or M / S selection.

도 11b 및 도 11c에서 스위치는 바람직하게는 L/R과 M/S 간에 선택이 시간-가변 및 주파수-가변적일 수 있게 MDCT 영역에서 각각의 주파수 대역마다 개별적으로 존재하는 것에 유의한다. 즉, 스위치의 위치는 바람직하게는 주파수-가변적이다. 변환 스테이지들(98, 99)은 이용된 전체 주파수 범위를 변환하거나 단일 주파수 대역만을 변환할 수 있다.In Figs. 11B and 11C, it is noted that the switch preferably exists separately for each frequency band in the MDCT region so that the choice between L / R and M / S is time-varying and frequency-variable. That is, the position of the switch is preferably frequency-variable. Conversion stages 98 and 99 may convert the entire frequency range used or only a single frequency band.

또한, 모든 블록들(2, 98, 99)은 모든 블록들이 다음의 형태의 변환 행렬을 구현하기 때문에 "합차 변환 블록들"이라 할 수 있는 것에 유의한다.It is also noted that all blocks 2, 98 and 99 can be referred to as " summed transform blocks "since all blocks implement the following type of transform matrix.

Figure pat00023
Figure pat00023

단지, 이득율(c)이 블록들(2, 98, 99)에서 서로 다를 수 있다.However, the gain factor c may be different in blocks 2, 98, 99.

도 12에서 인코더 시스템의 또 다른 실시예가 개괄되었다. 이것은 IID 외에도 ICC(위에 기술된)가 2개의 추가의 파라미터들로서 IPD(채널간 위상차, 이하 φipd 참조)와 스테레오 신호의 2개의 채널(L)과 채널(R) 간에 위상 관계를 특징짓게 할 수 있는 OPD(전체 위상차, 이하 φopd 참조)를 포함하는 확장된 한 세트의 PS 파라미터들을 이용한다. 이들 위상 파라미터들의 예는 참조로서 여기에 포함시키는 ISO/IEC 14496-3 8.6.4.6.3 부단락에 주어져 있다. 위상 파라미터들이 이용될 때, 결과적인 업믹스 행렬(HC0MPLEX)(및 이의 역 H-1 C0MPLEX)은 다음 식에 따라 복소수값이 된다.Another embodiment of the encoder system is outlined in Fig. This can be summed characterized by a phase relationship between the two channels (L) and the channel (R) (refer to the phase difference, or less φ ipd between channels) IID addition ICC (described above) is 2 as the parameter of the additional IPD and the stereo signal utilizes the PS parameters of a set extension containing OPD (see full phase, more than φ opd) in. Examples of these phase parameters are given in ISO / IEC 14496-3 subclause 8.6.4.6.3, which is incorporated herein by reference. When phase parameters are used, the resulting upmix matrix (H COMPLEX ) (and its inverse H -1 COMPLEX ) becomes a complex value according to the following equation:

HCOMPLEX = HφㆍH H COMPLEX = H ? H

여기에서, From here,

Figure pat00024
Figure pat00024

이고, 여기에서, Lt; / RTI >

Figure pat00025
Figure pat00025

이다.to be.

복소수 QMF 영역에서 동작하는 PS 인코더의 스테이지(80)는 채널들(L, R) 간에 위상 의존도만을 처리한다. 다운믹스 회전(즉, 위에서 행렬 H-1에 의해 기술되었던 L/R 영역에서 DMX/RES 영역으로의 변환)은 스테레오 코어 코더(81)의 부분으로서 MDCT 영역에서 처리된다. 그러므로, 두 채널들 간에 위상 의존도는 복소수 QMF 영역에서 추출되고, 이외 실수값인 파형 의존도는 이용된 코어 코더의 스테레오 코딩 메커니즘의 부분으로서 실수값인 크리티컬 샘플링 MDCT 영역에서 추출된다. 이것은 채널들 간에 선형 의존도의 추출이 코어 코더의 스테레오 코딩에 확실히 통합될 수 있다(그러나, 임계 샘플링 MDCT 영역에서 에일리어싱을 방지하기 위해서, 잔차 코등에 의해 포함되는 주파수 범위에서 아마도 주파수 축 상에 "가드(guard) 대역"을 감한 범위에 대해서만)는 잇점이 있다.The stage 80 of the PS encoder operating in the complex QMF domain handles only the phase dependency between the channels L and R. [ The downmix rotation (i.e., the conversion from the L / R region to the DMX / RES region described above by matrix H -1 ) is processed in the MDCT region as part of the stereo core coder 81. Therefore, the phase dependence between the two channels is extracted in the complex QMF domain, and the real-valued waveform dependence is extracted in the critical sampling MDCT domain, which is a real value as part of the stereo coding mechanism of the used core coder. This allows the extraction of linear dependencies between channels to be reliably integrated into the stereo coding of the core coder (however, in order to avoid aliasing in the critical sampling MDCT domain, a "guard "quot; guard band ") is advantageous.

도 12에서 PS 인코더의 위상 조절 스테이지(80)는 위상에 관계된 PS 파라미터들, 예를 들면, 파라미터들 IPD(채널간 위상차) 및 OPD(전체 위상차)을 추출한다. 그러므로, 이것이 생성하는 위상 조절 행렬 H-1은 다음에 따를 수 있다.In Fig. 12, the PS encoder phase adjustment stage 80 extracts PS parameters related to the phase, e.g., parameters IPD (interchannel phase difference) and OPD (full phase difference). Therefore, the phase control matrix H -1 that it generates can be:

Figure pat00026
Figure pat00026

전에 논의한 바와 같이, PS 모듈의 다운믹스 회전 부분은 도 12에서 코어 코더의 스테레오 코딩 모듈(81)에서 처리된다. 스테레오 코딩 모듈(81)은 MDCT 영역에서 동작하고 도 13에 도시되었다. 스테레오 코딩 모듈(81)은 MDCT 영역에서 위상 조절된 스테레오 신호(Lφ, Rφ)를 수신한다. 이 신호는 위에서 논한 바와 같이 복소수 다운믹스 행렬(H-1 COMPLEX)의 실수값 부분인 다운믹스 회전 행렬(H-1)에 의해 다운믹스 스테이지(82)에서 다운믹스되고, 그럼으로써 다운믹스 신호(DMX) 및 잔차 신호(RES)를 발생한다. 다운믹스 동작에 이어 본원에 따라 역 L/R 대 M/S 변환이 행해지고(변환 스테이지(2) 참조), 그럼으로써 의사 스테레오 신호(Lp, Rp)를 발생한다. 의사 스테레오 신호(Lp, Rp)는 스테레오 코딩 알고리즘(적응형 M/S 또는 L/R 스테레오 인코더(83) 참조), 이 특정 실시예에서는 인지 엔트로피 기준에 따라 신호의 L/R 표현 또는 M/S 표현을 코딩하기로 결정하는 스테레오 코딩 메커니즘에 의해 처리된다. 이 결정은 바람직하게는 시간-가변 및 주파수-가변적이다.As discussed above, the downmix rotation portion of the PS module is processed in the stereo coding module 81 of the core coder in Fig. The stereo coding module 81 operates in the MDCT domain and is shown in FIG. The stereo coding module 81 receives the phase adjusted stereo signals L [ phi] , R [ phi ] in the MDCT domain. This signal is downmixed in the downmix stage 82 by the downmix rotation matrix H -1 , which is the real part of the complex number downmix matrix H -1 COMPLEX , as discussed above, DMX) and a residual signal (RES). The downmix operation is followed by an inverse L / R to M / S conversion according to the present invention (see conversion stage 2), thereby generating a pseudo stereo signal L p , R p . The pseudo-stereo signal (L p , R p ) may be represented by a stereo coding algorithm (see adaptive M / S or L / R stereo encoder 83), in this particular embodiment an L / RTI ID = 0.0 > / S < / RTI > This determination is preferably time-variable and frequency-variable.

도 14에서 도 6에 도시된 인코더 시스템에 의해 발생된 비트스트림(46)을 디코딩하는데 적합한 디코더 시스템의 실시예가 도시되었다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 코어 디코더(90)는 비트스트림(46)을 의사 좌 채널 및 우 채널로 디코딩하고, 이들은 필터 뱅크들(91)에 의해 QMF 영역에서 변환된다. 이어서, 결과적인 의사 스테레오 신호(Lp, Rp)의 고정된 의사 L/R 대 DMX/RES 변환은 변환 스테이지(12)에서 실행되고, 이에 따라 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성한다. SBR 코딩을 이용할 때, 이들 신호들은 저 대역 신호들인데, 예를 들면, 다운믹스 신호(DMX) 및 잔차 신호(RES)는 대략 8 kHz까지의 저 주파수 대역에 대한 오디오 정보만을 내포할 수 있다. 다운믹스 신호(DMX)는 수신된 SBR 파라미터들(도시되지 않음)에 기초하여 고 주파수 대역을 재구성하기 위해 SBR 디코더(93)에 의해 이용된다. SBR 디코더(93)로부터 출력 신호(다운믹스 신호(DMX)의 저 및 재구성된 고 주파수 대역들을 포함한) 및 잔차 신호(RES) 양쪽 모두는 QMF 영역(특히 하이브리드 QMF + 나이키스트 필터 영역에서)에서 동작하는 PS 디코더(94)에 입력된다. PS 디코더(94)의 입력에서 다운믹스 신호(DMX)는 고 주파수 대역(예를 들면, 20 kHz까지) 내 오디오 정보도 내포하나, PS 디코더(94)의 입력에서 잔차 신호(RES)는 저 대역 신호(예를 들면, 8 kHz까지로 제한된)이다. 이에 따라, 고 주파수 대역(예를 들면, 8 kHz 내지 20 kHz 대역에 대해서)에 대해서, PS 디코더(94)는 대역 제한된 잔차 신호(RES)를 이용하는 대신에 다운믹스 신호(DMX)의 역상관된 버전을 이용한다. 그러므로 PS 디코더(94)의 출력에 디코딩된 신호들은 8 kHz까지만의 잔차 신호에 기초한다. PS 디코딩 후에, PS 디코더(94)의 2개의 출력 채널들은 필터 뱅크들(95)에 의해 시간 영역에서 변환되고, 그럼으로써 출력 스테레오 신호(L, R)을 발생한다.An embodiment of a decoder system suitable for decoding the bit stream 46 generated by the encoder system shown in FIG. 14 to FIG. 6 is shown. This embodiment is only intended to illustrate the principles of the present invention. Modifications and variations of the embodiments will be apparent to those skilled in the art. The core decoder 90 decodes the bit stream 46 into pseudo left channel and right channel, which are transformed in the QMF domain by the filter banks 91. The fixed pseudo L / R to DMX / RES conversions of the resulting pseudo stereo signals L p and R p are then performed in the conversion stage 12 and thus the downmix signal DMX and the residual signal RES, . When using SBR coding, these signals are low-band signals, for example, the downmix signal DMX and the residual signal RES may only contain audio information for a low frequency band of up to approximately 8 kHz. The downmix signal DMX is used by the SBR decoder 93 to reconstruct the high frequency band based on the received SBR parameters (not shown). Both the output signal (including the low and reconstructed high frequency bands of the downmix signal DMX) and the residual signal RES from the SBR decoder 93 operate in the QMF domain (especially in the hybrid QMF + Nyquist filter domain) And is input to a PS decoder 94 which performs a decoding process. The downmix signal DMX at the input of the PS decoder 94 also contains audio information in the high frequency band (e.g., up to 20 kHz), while the residual signal RES at the input of the PS decoder 94, Signal (e.g., limited to 8 kHz). Thus, for a high frequency band (e.g., for the 8 kHz to 20 kHz band), the PS decoder 94 may use the band-limited residual signal RES instead of using the down-mix signal DMX Version. Therefore, the decoded signals at the output of the PS decoder 94 are based on residual signals only up to 8 kHz. After PS decoding, the two output channels of the PS decoder 94 are transformed in the time domain by filter banks 95, thereby generating an output stereo signal L, R.

도 7에 도시된 인코더 시스템에 의해 생성되는 비트스트림(46)을 디코딩하는데 적합한 디코더 시스템의 실시예가 도 15에 도시되었다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 도 15에 실시예의 주요 동작은 도 14에 개괄된 디코더 시스템의 주요 동작과 유사하다. 도 14와는 반대로, 도 15에 SBR 디코더(96)는 PS 디코더(94)의 출력에 위치된다. 또한, SBR 디코더는 도 14에 모노 SBR 파라미터들과는 반대로 스테레오 엔벨로프 데이터를 형성하는 SBR 파라미터들(도시되지 않음)을 이용한다. PS 디코더(94)의 입력에서 다운믹스 및 잔차 신호는 전형적으로 저 대역 신호들인데, 예를 들면, 다운믹스 신호(DMX) 및 잔차 신호(RES)는 예를 들면, 대략 8 kHz까지의 저 주파수 대역에 대한 오디오 정보만을 내포할 수 있다. 저 대역 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여, PS 인코더(94)는 예를 들면, 대략 8 kHz까지의 저 대역 스테레오 신호를 결정한다. 저 대역 스테레오 신호 및 스테레오 SBR 파라미터들에 기초하여 SBR 디코더(96)는 스테레오 신호의 고 주파수 부분을 재구성한다. 도 14에 실시예와 비교해서, 도 15에 실시예는 어떠한 역상관된 신호 도 필요하지 않고(도 8d 참조) 따라서 증강된 오디오 품질이 달성되는 잇점을 제공하나 도 14에서 고 주파수 부분에 대해선 역상관된 신호가 필요하여(도 8c 참조), 오디오 품질이 감소된다.An embodiment of a decoder system suitable for decoding the bit stream 46 generated by the encoder system shown in Fig. 7 is shown in Fig. This embodiment is only intended to illustrate the principles of the present invention. Modifications and variations of the embodiments will be apparent to those skilled in the art. The main operation of the embodiment in Fig. 15 is similar to the main operation of the decoder system outlined in Fig. Contrary to FIG. 14, the SBR decoder 96 is located at the output of the PS decoder 94 in FIG. In addition, the SBR decoder uses SBR parameters (not shown) that form the stereo envelope data as opposed to the mono SBR parameters in FIG. The downmix signal and the residual signal at the input of the PS decoder 94 are typically low band signals such that the downmix signal DMX and the residual signal RES are at a low frequency Only the audio information for the band can be contained. Based on the low-band downmix signal DMX and the residual signal RES, the PS encoder 94 determines a low-band stereo signal, for example, up to approximately 8 kHz. Based on the low-band stereo signal and the stereo SBR parameters, the SBR decoder 96 reconstructs the high frequency portion of the stereo signal. Compared with the embodiment in Fig. 14, the embodiment of Fig. 15 provides the advantage that no decorrelated signal is required (see Fig. 8d) and thus an enhanced audio quality is achieved, but in Fig. 14, A correlated signal is required (see FIG. 8C), and audio quality is reduced.

도 16a는 도 11a에 도시된 인코딩 시스템과는 반대인 디코딩 시스템의 실시예를 도시한 것이다. 입력 비트스트림 신호는 디코더 블록(100)에 공급되고 디코더 블록(100)은 제 1 디코딩된 신호(102) 및 제 2 디코딩된 신호(103)를 발생한다. 인코더에서, M/S 코딩 또는 L/R 코딩이 선택되었다. 이것은 수신된 비트스트림에 지정되어 있다. 이 정보에 기초하여, 선택 스테이지(101)에서 M/S 또는 L/R이 선택된다. 인코더에서 M/S가 선택된 경우에, 제 1의 102 및 제 2의 103 신호들은 (의사) L/R 신호로 변환된다. 인코더에서 L/R이 선택된 경우에, 제 1의 102 및 제 2의 103 신호들은 변환없이 스테이지(101)를 통과할 수 있다. 스테이지(101)의 출력에서 의사 L/R 신호(Lp, Rp)는 변환 스테이지(12)(이 스테이지는 외견상 L/R 대 M/S 변환를 실행한다)에 의해 DMX/RES 신호로 변환된다. 바람직하게, 도 16a에 스테이지들(100, 101, 12)는 MDCT 영역에서 동작한다. 다운믹스 신호(DMX) 및 잔차 신호들(RES)를 시간 영역으로 변환하기 위해서, 변환 블록들(104)이 이용될 수 있다. 그후, 결과적인 신호는 도 14 및 도 15에 도시된 바와 같이 PS 디코더(도시되지 않음)에 및 선택적으로 SBR 디코더에 공급된다. 대안적으로, 블록들(104)은 블록(12) 앞에 배치될 수도 있다.FIG. 16A illustrates an embodiment of a decoding system that is opposite to the encoding system shown in FIG. 11A. An input bitstream signal is supplied to a decoder block 100 and a decoder block 100 generates a first decoded signal 102 and a second decoded signal 103. In the encoder, M / S coding or L / R coding was selected. This is specified in the received bit stream. Based on this information, M / S or L / R is selected in the selection stage 101. When M / S is selected in the encoder, the first 102 and the second 103 signals are converted into a (pseudo) L / R signal. When L / R is selected in the encoder, the first 102 and the second 103 signals can pass through the stage 101 without conversion. At the output of the stage 101, the pseudo L / R signals L p and R p are converted into DMX / RES signals by the conversion stage 12 (this stage performs apparent L / R versus M / S conversion) do. Preferably, the stages 100, 101, 12 in FIG. 16A operate in the MDCT domain. In order to convert the downmix signal DMX and the residual signals RES into time domain, the transform blocks 104 may be used. The resulting signal is then supplied to a PS decoder (not shown), and optionally to an SBR decoder, as shown in FIGS. 14 and 15. FIG. Alternatively, blocks 104 may be placed before block 12.

도 16b는 도 16a에 실시예의 구현예를 도시한 것이다. 도 16b에서, M/S 또는 L/R 디코딩 간에 선택하기 위한 스테이지(101)의 구현예가 도시되었다. 스테이지(101)는 제 1의 102 및 제 2의 103 신호들을 수신하는 합차 변환 스테이지(105)(M/S 대 L/R 변환)을 포함한다.FIG. 16B shows an embodiment of the embodiment in FIG. 16A. In Fig. 16B, an example of the stage 101 for selecting between M / S or L / R decoding is shown. Stage 101 includes a sum-of-transformation stage 105 (M / S to L / R conversion) for receiving first 102 and second 103 signals.

비트스트림에 주어진 인코딩 정보에 기초하여, 스테이지(101)는 L/R 또는 M/S 디코딩을 선택한다. L/R 디코딩이 선택되었을 때, 디코딩 블록(100)의 출력 신호는 변환 스테이지(12)에 공급된다.Based on the encoding information given to the bitstream, the stage 101 selects L / R or M / S decoding. When L / R decoding is selected, the output signal of the decoding block 100 is supplied to the conversion stage 12.

도 16c는 도 16a에 실시예에 대한 대안을 도시한 것이다. 여기에서는 어떠한 분백한 변환 스테이지(12)도 이용되지 않는다. 그보다는, 변환 스테이지(12) 및 스테이지(101)은 단일 스테이지(101')로 합체된다. 제 1의 102 및 제 2의 103 신호들은 스테이지(101')의 부분으로서 합차 변환 스테이지(105')(더 정확하게는 의사 L/R 대 DMX/RES 변환 스테이지)에 공급된다. 변환 스테이지(105')은 DMX/RES 신호를 발생한다. 도 16c에서 변환 스테이지(105')은 도 16b(아마도 다른 이득율에 대해선 제외하고)에서 변환 스테이지(105)와 유사하거나 동등하다. 도 16c에서 M/S와 L/R 디코딩 간에 선택은 도 16b와 비교해서 반대로 할 필요가 있다. 도 16c에서 스위치는 아래쪽 위치에 있고, 도 16b에서 스위치는 위쪽 위치에 있다. 이것은 반대로 L/R 또는 M/S 선택하는 것을 시각화한 것이다(선택 신호는 간단히 인버터에 의해 반전될 수도 있다).Figure 16c shows an alternative to the embodiment of Figure 16a. No bright conversion stage 12 is used here. Rather, the conversion stage 12 and the stage 101 are combined into a single stage 101 '. The first 102 and the second 103 signals are supplied to the Sum conversion stage 105 '(more precisely, the pseudo L / R versus DMX / RES conversion stage) as part of stage 101'. The translation stage 105 'generates a DMX / RES signal. In FIG. 16C, the conversion stage 105 'is similar or equivalent to the conversion stage 105 in FIG. 16B (except perhaps for the other gain factors). 16C, the selection between M / S and L / R decoding needs to be reversed in comparison with FIG. 16B. In Fig. 16C, the switch is in the lower position, and in Fig. 16B, the switch is in the upper position. This is a reverse visualization of the L / R or M / S selection (the selection signal can simply be inverted by the inverter).

도 16b 및 도 16c에서 스위치는 바람직하게 L/R과 M/S 간에 선택이 시간-가변 및 주파수-가변적일 수 있게 MDCT 영역에서 각각의 주파수 대역에 대해 개별적으로 존재하는 것에 유의한다. 변환 스테이지들(105, 105')은 전체 이용된 주파수 범위를 변환할 수도 있고 또는 단일 주파수 대역만을 변환할 수도 있다.16B and 16C, it is noted that the switch preferably exists separately for each frequency band in the MDCT domain so that the choice between L / R and M / S can be time-varying and frequency-variable. The conversion stages 105 and 105 'may convert the entire used frequency range or may convert only a single frequency band.

도 17는 스테레오 신호(L, R)를 비트스트림 신호로 코딩하기 위한 인코딩 시스템의 또 다른 실시예를 도시한 것이다. 인코딩 시스템은 스테레오 신호에 기초하여 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성하기 위한 다운믹스 스테이지(8)를 포함한다. 또한, 인코딩 시스템은 하나 이상의 파라메트릭 스테레오 파라미터들(5)을 결정하기 위한 파라미터 결정 스테이지(9)를 포함한다.17 shows another embodiment of an encoding system for coding a stereo signal (L, R) into a bitstream signal. The encoding system includes a downmix stage 8 for generating a downmix signal DMX and a residual signal RES based on a stereo signal. The encoding system also includes a parameter determination stage 9 for determining one or more parametric stereo parameters 5.

인코딩은 다음의 선택이 가능하다:The encoding can be selected as follows:

- 다운믹스 신호(DMX) 및 잔차 신호(RES)의 합 신호에 기초하고 다운믹스 신호(DMX) 및 잔차 신호(RES)의 차신호에 기초한 인코딩, 또는- encoding based on the sum signal of the downmix signal DMX and the residual signal RES and based on the difference signal of the downmix signal DMX and the residual signal RES,

- 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초한 인코딩.- An encoding based on the downmix signal (DMX) and the residual signal (RES).

바람직하게, 선택은 시간-가변 및 주파수-가변적이다.Preferably, the selection is time-variable and frequency-variable.

인코딩 수단(110)은 합차 신호들을 발생하는 합차 변환 스테이지(111)를 포함한다. 또한, 인코딩 수단(110)은 합차 신호들에 기초하여 또는 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여 인코딩을 선택하기 위한 선택 블록(112)을 포함한다. 또한, 인코딩 블록(113)이 제공된다. 대안적으로, 2개의 인코딩 블록들(113)이 이용될 수 있는데, 제 1 인코딩 블록(113)은 DMX 및 RES 신호들을 인코딩하고 제 2 인코딩 블록(113)은 합차 신호들을 인코딩한다. 이 경우에 선택(112)은 2개의 인코딩 블록들(113)의 하류측에 있다.The encoding means 110 includes a sum-of-transformation stage 111 for generating sum signal (s). The encoding means 110 also includes a selection block 112 for selecting the encoding based on the summed signals or based on the downmix signal DMX and the residual signal RES. An encoding block 113 is also provided. Alternatively, two encoding blocks 113 may be used, wherein the first encoding block 113 encodes the DMX and RES signals and the second encoding block 113 encodes the sum signals. In this case, the selection 112 is on the downstream side of the two encoding blocks 113.

블록(111)에서 합차 변환은 다음 형태이다.In block 111, the Sum transformation is of the following form.

Figure pat00027
Figure pat00027

변환 블록(111)은 도 11c에 변환 블록(99)에 대응할 수 있다.The conversion block 111 may correspond to the conversion block 99 in Fig. 11C.

인지 인코더(110)의 출력은 멀티플렉서(7) 내 파라메트릭 스테레오 파라미터들(5)과 결합되어 결과적인 비트스트림(6)을 형성한다.The output of the cognitive encoder 110 is combined with the parametric stereo parameters 5 in the multiplexer 7 to form the resulting bitstream 6.

도 17에 구조와는 반대로, 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초한 인코딩은 다운믹스 신호(DMX) 및 잔차 신호(RES)를 도 l1b에 도시된 바와 같이 2개의 일련의 합차 변환들에 의해 변환함으로써 발생되는 결과적인 신호를 인코딩할 때 실현될 수 있다(2개의 변환 블록들(2, 98)을 참조). 2개의 합차 변환 후에 결과적인 신호는 다운믹스 신호(DMX) 및 잔차 신호(RES)(아마도 있을 수 있는 다른 이득율에 대해선 제외하고)에 대응한다.17, the encoding based on the downmix signal DMX and the residual signal RES converts the downmix signal DMX and the residual signal RES into two series of sum-of-products conversion as shown in Fig. (See two conversion blocks 2 and 98). [0031] In the case of the first and second conversion blocks 2 and 98, The resultant signal after the two summation transforms corresponds to the downmix signal DMX and the residual signal RES (except for possibly other gain factors).

도 18은 도 17에 인코더 시스템과는 반대인 디코더 시스템의 실시예를 도시한 것이다. 디코더 시스템은 비트스트림 신호에 기초하여 인지 디코딩을 위한 수단(120)을 포함한다. 디코딩 전에, PS 파라미터들은 디멀티플렉서(10)에서 비트스트림 신호(6)로부터 분리된다. 디코딩 수단(120)은 제 1 신호(122) 및 제 2 신호(123)(디코딩에 의한)을 발생하는 코어 디코더(121)를 포함한다. 디코딩 수단은 다운믹스 신호(DMX) 및 잔차 신호(RES)를 출력한다.Figure 18 illustrates an embodiment of a decoder system that is opposite to the encoder system in Figure 17; The decoder system includes means (120) for perceptual decoding based on the bitstream signal. Before decoding, the PS parameters are separated from the bitstream signal 6 in the demultiplexer 10. The decoding means 120 includes a core decoder 121 for generating a first signal 122 and a second signal 123 (by decoding). The decoding means outputs the downmix signal DMX and the residual signal RES.

다운믹스 신호(DMX) 및 잔차 신호(RES)는 선택적으로, The downmix signal DMX and the residual signal RES are alternately,

- 제 1 신호(122) 및 제 2 신호(123)의 합과 제 1 신호(122) 및 제 2 신호(123)의 차에 기초하거나, Based on the difference between the sum of the first signal 122 and the second signal 123 and the first signal 122 and the second signal 123,

- 제 1 신호(122) 및 제 2 신호(123)에 기초한다.- based on the first signal 122 and the second signal 123.

바람직하게, 선택은 시간-가변 및 주파수-가변적이다. 선택은 선택 스테이지(125)에서 실행된다.Preferably, the selection is time-variable and frequency-variable. Selection is performed in the selection stage 125.

디코딩 수단(120)은 합차 신호들을 발생하는 합차 변환 스테이지(124)를 포함한다.The decoding means 120 includes a sum-of-transformation stage 124 for generating summed signals.

블록(124)에서 합차 변환은 다음 형태이다.In block 124, the sum-of-products transformation is of the following form.

Figure pat00028
Figure pat00028

변환 블록(124)은 도 16c에서 변환 블록(105')에 대응할 수 있다.Conversion block 124 may correspond to conversion block 105 'in Figure 16C.

선택 후에, DMX 및 RES 신호들은 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여 스테레오 신호(L, R)를 생성하기 위한 업믹스 스테이지(126)에 공급된다. 업믹스 동작은 PS 파라미터들(5)에 종속적이다.After selection, the DMX and RES signals are supplied to the upmix stage 126 for generating the stereo signals L and R based on the downmix signal DMX and the residual signal RES. The upmix operation is dependent on the PS parameters 5.

바람직하게, 도 17 및 도 18에서 선택은 주파수-가변적이다. 도 17에서, 예를 들면, 시간 대 주파수 변환(예를 들면, MDCT 또는 분석 필터 뱅크에 의해)은 인지 인코딩 수단(110)에서 제 1 단계로서 실행될 수 있다. 도 18에서, 예를 들면, 주파수 대 시간 변환(예를 들면, 역 MDCT 또는 합성 필터 뱅크에 의한)은 인지 디코딩 수단(120)에서 마지막 단계로서 실행될 수 있다.Preferably, the selection in Figures 17 and 18 is frequency-variable. In Figure 17, for example, a time-to-frequency conversion (e.g., by an MDCT or an analysis filter bank) may be performed as a first step in the perceptual encoding means 110. In FIG. 18, for example, a frequency-to-time conversion (e.g., by an inverse MDCT or synthesis filter bank) may be performed as a last step in the perceptual decoding means 120.

위에 기술된 실시예들에서, 신호들, 파라미터들 및 행렬들은 주파수-가변 또는 주파수-불변 및/또는 시간-가변 또는 시간-불변일 수 있는 것에 유의한다. 기술된 계산단계들은 주파수별로 또는 오디오 대역 전체에 대해 실행될 수 있다.It is noted that in the embodiments described above, signals, parameters and matrices may be frequency-variable or frequency-invariant and / or time-variable or time-invariant. The described computation steps may be performed on a frequency-by-frequency basis or over an entire audio band.

또한, 여러 합차 변환들, 즉, DMX)/RES 대 의사 L/R 변환, 의사 L/R 대 DMX/RES 변환, L/R 대 M/S 변환 및 M/S 대 L/R 변환이 모두가 다음의 형태를 갖는 것에 유의한다.In addition, it is also possible to use various sums of transformations (DMX) / RES to pseudo L / R conversion, pseudo L / R to DMX / RES conversion, L / R to M / S conversion, and M / S to L / Note that the following form is used.

Figure pat00029
Figure pat00029

단지, 이득율 c은 서로 다를 수도 있다. 그러므로, 원리적으로, 이들 변환들 각각은 이들 변환들의 다른 변환로 교환될 수 있다. 이득이 인코딩 처리 동안 정확하지 않다면, 이것은 디코딩 프로세스에서 보상될 수 있다. 또한, 2개의 서로 동일한 또는 2개의 상이한 합차 변환들이 일련으로 행해질 때, 결과적인 변환은 항등행렬(아마도, 이득율로 곱해진)에 대응한다.However, the gain factor c may be different from each other. Therefore, in principle, each of these transforms can be exchanged for another transform of these transforms. If the gain is not correct during the encoding process, this can be compensated in the decoding process. Further, when two identical or two different summed transformations are performed in a series, the resulting transform corresponds to an identity matrix (possibly multiplied by the gain factor).

PS 인코더 및 SBR 인코더 양쪽 모두를 포함하는 인코더 시스템에서, 상이한 PS/SBR 구성들이 가능하다. 도 6에 도시된 제 1 구성에서, SBR 인코더(32)는 PS 인코더(41)의 하류측에 연결된다. 도 7에 도시된 제 2 구성에서, SBR 인코더(42)는 PS 인코더(41)의 상류측에 연결된다. 예를 들면, 요망되는 타겟 비트레이트, 코어 인코더의 특성들, 및/또는 하나 이상의 각종의 다른 요인들에 따라, 구성들 중 하나는 최상의 성능을 제공하기 위해서 다른 구성보다 바람직할 수 있다. 전형적으로, 저 비트레이트에 대해선, 제 1 구성이 바람직할 수 있고, 고 비트레이트들에 대해선 제 2 구성이 바람직할 수 있다. 따라서, 예를 들면, 요망되는 타겟 비트레이트 및/또는 하나 이상의 다른 기준에 따라 바람직한 구성을 선택할 수 있기 위해서 인코더 시스템이 상이한 구성들 모두를 지원한다면 바람직하다.In an encoder system that includes both PS encoder and SBR encoder, different PS / SBR configurations are possible. In the first configuration shown in Fig. 6, the SBR encoder 32 is connected to the downstream side of the PS encoder 41. Fig. In the second configuration shown in Fig. 7, the SBR encoder 42 is connected to the upstream side of the PS encoder 41. In Fig. Depending on, for example, the desired target bit rate, the characteristics of the core encoder, and / or one or more various other factors, one of the configurations may be preferable to other configurations to provide the best performance. Typically, for low bit rates, a first configuration may be preferred and a second configuration for high bit rates may be desirable. Thus, for example, it is desirable if the encoder system supports all of the different configurations in order to be able to select the desired configuration according to the desired target bit rate and / or one or more other criteria.

또한, PS 디코더 및 SBR 디코더 양쪽 모두를 포함하는 디코더 시스템에서, 상이한 PS/SBR 구성들이 가능하다. 도 14에 도시된 제 1 구성에서, SBR 디코더(93)는 PS 디코더(94)의 상류측에 연결된다. 도 15에 도시된 제 2 구성에서, SBR 디코더(96)는 PS 디코더(94)의 하류측에 연결된다. 정확한 동작을 달성하기 위해서, 디코더 시스템의 구성은 인코더 시스템의 구성과 일치해야 한다. 인코더가 도 6에 따라 구성된다면, 디코더는 대응하여 도 14에 따라 구성된다. 인코더가 도 7에 따라 구성된다면, 디코더는 대응하여 도 15에 따라 구성된다. 정확한 동작을 보장하기 위해서, 인코더는 바람직하게 어느 PS/SBR 구성이 인코딩을 위해 선택되었는지를(따라서 어느 PS/SBR 구성이 디코딩을 위해 선택될 것인지) 디코더에 알린다. 이 정보에 기초하여, 디코더는 적합한 디코더 구성을 선택한다.Also, in a decoder system that includes both a PS decoder and an SBR decoder, different PS / SBR configurations are possible. In the first configuration shown in FIG. 14, the SBR decoder 93 is connected to the upstream side of the PS decoder 94. In the second configuration shown in FIG. 15, the SBR decoder 96 is connected to the downstream side of the PS decoder 94. In order to achieve correct operation, the configuration of the decoder system must match the configuration of the encoder system. If the encoder is constructed according to Fig. 6, the decoder is correspondingly constructed according to Fig. If the encoder is constructed according to FIG. 7, the decoder is correspondingly configured according to FIG. To ensure correct operation, the encoder preferably informs the decoder which PS / SBR configuration was selected for encoding (and therefore which PS / SBR configuration is to be selected for decoding). Based on this information, the decoder selects a suitable decoder configuration.

위에서 논한 바와 같이, 정확한 디코더 동작을 보장하기 위해서, 여기에서는 바람직하게 디코더에서 어느 구성이 이용될 것인지를 인코더에서 디코더에 알리는 메커니즘이 있다. 이것은 분명하게(예를 들면, 이하 논하는 바와 같이 비트스트림의 구성 헤더 내 전용 비트 또는 필드에 의해서) 또는 암묵적으로(예를 들면, PS 데이터가 존재하는 경우에 SBR 데이터가 모노인지 아니면 스테레오인지를 체크함으로써) 행해질 수 있다.As discussed above, in order to ensure correct decoder operation, here is a mechanism to inform the decoder in the encoder which configuration is preferably to be used in the decoder. This can be done explicitly (for example, by dedicated bits or fields in the configuration header of the bitstream as discussed below) or implicitly (e.g., if the PS data is present, whether the SBR data is mono or stereo) Check).

위에서 논한 바와 같이, 선택된 PS/SBR 구성을 시그널링하는서, 인코더에서 디코더로 전달되는 비트스트림의 비트스트림 헤더에 전용 요소가 이용될 수도 있다. 이러한 비트스트림 헤더는 디코더가 비트스트림에 데이터를 정확하게 디코딩할 수 있기 위해서 필요한 구성 정보를 전달한다. 비트스트림 헤더 내 전용 요소는 예를 들면, 1 비트 플래그, 필드일 수 있고, 상이한 디코더 구성들을 명시하는 테이블 내 특정 엔트리를 가리키는 인덱스일 수도 있다.As discussed above, a dedicated element may be used in the bitstream header of the bitstream delivered from the encoder to the decoder, signaling the selected PS / SBR configuration. This bitstream header conveys necessary configuration information so that the decoder can correctly decode the data in the bitstream. A dedicated element in the bitstream header may be, for example, a one-bit flag, a field, or it may be an index pointing to a particular entry in the table that specifies different decoder configurations.

PS/SBR 구성을 알리기 위한 추가의 전용 요소를 비트스트림 헤더에 포함하는 대신에, 비트스트림에 이미 있는 정보가 정확한 PS/SBR 구성을 선택하기 위해 디코딩 시스템에서 평가될 수 있다. 예를 들면, 선택된 PS/SBR 구성은 PS 디코더 및 SBR 디코더를 위해 비트스트림 헤더 구성 정보로부터 도출될 수 있다. 이 구성 정보는 전형적으로 SBR 디코더가 모노 동작 또는 스테레오 동작을 위해 구성되어야 할지를 나타낸다. 예를 들면, PS 디코더가 활성화되고 SBR 디코더가 모노 동작(구성 정보에 지시된 바와 같은)을 위해 구성된다면, 도 14에 따른 PS/SBR 구성이 선택될 수 있다. PS 디코더가 활성화되고 SBR 디코더가 스테레오 동작을 위해 구성된다면, 도 15에 따른 PS/SBR 구성이 선택될 수 있다.Instead of including in the bitstream header an additional dedicated element for informing the PS / SBR configuration, the information already in the bitstream can be evaluated in the decoding system to select the correct PS / SBR configuration. For example, the selected PS / SBR configuration may be derived from the bitstream header configuration information for the PS decoder and the SBR decoder. This configuration information typically indicates whether the SBR decoder should be configured for mono operation or stereo operation. For example, if the PS decoder is activated and the SBR decoder is configured for mono operation (as indicated in the configuration information), the PS / SBR configuration according to FIG. 14 can be selected. If the PS decoder is enabled and the SBR decoder is configured for stereo operation, the PS / SBR configuration according to FIG. 15 may be selected.

위에 기술된 실시예들은 단지 본 발명의 원리를 예시하는 것이다. 여기에 기술된 구성들 및 상세들의 수정들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 그러므로, 본 발명의 범위는 여기에 실시예들의 설명에 의해 제시된 구체적 상세로 제한되지 않는다.The embodiments described above merely illustrate the principles of the present invention. It will be appreciated that modifications and variations of the configurations and details described herein will be apparent to those skilled in the art. Therefore, the scope of the present invention is not limited to the specific details presented by the description of the embodiments herein.

본원에 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 어떤 성분들 또는 모든 성분들은 디지털 신호 프로세서 또는 마이크로프로세서에서 실행되는 소프트웨어로서 구현될 수도 있고, 또는 하드웨어로서 및/또는 응용특정의 집적회로로서 구현될 수도 있다. The systems and methods disclosed herein may be implemented as software, firmware, hardware, or a combination thereof. Some or all of the components may be implemented as software executing in a digital signal processor or microprocessor, or as hardware and / or as application specific integrated circuits.

개시된 시스템들 및 방법들을 이용하는 전용적인 장치들은 휴대 오디오 플레이어들, 모바일 통신 장치, 셋탑박스들, TV, AVR(오디오-비디오 수신기), 개인용 컴퓨터들이다.Exclusive devices that utilize the disclosed systems and methods are portable audio players, mobile communication devices, set-top boxes, TV, AVR (audio-video receiver), personal computers.

1, 31: PS 인코더 3: 인지 스테레오 인코더
7: 멀티플렉서
11: 인지 스테레오 디코더 13: PS 디코더
20: 검출기 32, 42: SBR 인코더
34: 코어 코더 41: PS 인코더 모듈
48: 스테레오 코어 코더 71: 선형 예측 영역 코더
78: 전용 잔차 코더
1, 31: PS encoder 3: Acknowledgment stereo encoder
7: Multiplexer
11: Acknowledgment stereo decoder 13: PS decoder
20: Detector 32, 42: SBR encoder
34: core coder 41: PS encoder module
48: Stereo Core Coder 71: Linear Prediction Area Coder
78: dedicated residual coder

Claims (20)

스테레오 신호를 비트스트림 신호(6)로 인코딩하기 위해 구성된 인코더 시스템에 있어서:
- 상기 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위해 구성된 다운믹싱 수단(8);
- 하나 이상의 파라메트릭 스테레오 파라미터들을 결정하기 위해 구성된 파라미터 결정 수단(9); 및
- 상기 다운믹싱 수단(8)의 하류측에 있는 인지 인코딩 수단(2, 3)을 포함하고, 상기 인지 인코딩 수단(2, 3)은 상기 다운믹스 신호와 상기 잔차 신호를 인코딩하도록 구성되고, 상기 인지 인코딩 수단(2, 3)은 좌/우 인지 인코딩 또는 미드/사이드 인지 인코딩을 선택하도록 구성되는, 인코더 시스템.
1. An encoder system configured for encoding a stereo signal into a bitstream signal (6) comprising:
Downmixing means (8) configured to generate a downmix signal and a residual signal based on the stereo signal;
Parameter determining means (9) configured to determine one or more parametric stereo parameters; And
(2, 3) on the downstream side of said downmixing means (8), said perceptual encoding means (2, 3) being configured to encode said downmix signal and said residual signal, The cognitive encoding means (2, 3) are configured to select left / right encoding or mid / side encoding.
제 1 항에 있어서,
상기 인지 인코딩 수단(2, 3)은:
- 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 변환을 실행하고 그럼으로써 의사 좌/우 스테레오 신호를 생성하기 위해 구성된 변환 수단(2); 및
- 상기 의사 좌/우 스테레오 신호를 인코딩하기 위해 구성된 인지 인코더(3, 48)를 포함하고, 상기 인지 인코더(3, 48)는,
- 좌/우 인지 인코딩, 또는
- 미드(mid)/사이드 인지 인코딩을 선택하도록 구성되는, 인코더 시스템.
The method of claim 1,
Wherein the perceptual encoding means (2, 3) comprise:
- conversion means (2) configured to perform a conversion based on the downmix signal and the residual signal and thereby generate a pseudo left / right stereo signal; And
- a cognitive encoder (3, 48) configured for encoding said pseudo left and right stereo signals, said cognitive encoder (3, 48)
- Left / right encoding, or
- mid / side encode encoding.
제 2 항에 있어서,
상기 인지 인코더(3)는 상기 의사 스테레오 신호에 기초하여 주파수-가변 또는 주파수-불변적으로,
- 좌/우 인코딩, 또는
- 미드/사이드 인코딩 중 하나를 결정하도록 구성되는, 인코더 시스템.
3. The method of claim 2,
The cognitive encoder 3 is frequency-variable or frequency-invariant based on the pseudo stereo signal,
- left / right encoding, or
- < / RTI > mid / side encoding.
제 2 항 또는 제 3 항에 있어서,
상기 인지 인코더(3, 48)는 상기 의사 스테레오 신호에 기초하여 좌/우 대 미드/사이드 변환(left/right to mid/side transform)(98)을 실행하도록 구성되는, 인코더 시스템.
The method according to claim 2 or 3,
The cognitive encoder (3, 48) is configured to perform a left / right to mid / side transform (98) based on the pseudo stereo signal.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 파라메트릭 스테레오 파라미터들(5)은,
- 채널간 세기차를 나타내는 주파수-가변 또는 주파수-불변 파라미터; 및
- 채널간 교차상관을 나타내는 주파수-가변 또는 주파수-불변 파라미터를 포함하는, 인코더 시스템.
The method according to any one of claims 1 to 4,
The parametric stereo parameters (5)
A frequency-variable or frequency-invariant parameter representing the interchannel intensity difference; And
- a frequency-variable or frequency-invariant parameter indicative of inter-channel cross-correlation.
제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
- 상기 의사 스테레오 신호의 제 1 채널은 상기 다운믹스 및 잔차 신호들의 합에 비례하고;
- 상기 의사 스테레오 신호의 제 2 채널은 상기 다운믹스 및 잔차 신호들의 차에 비례하는, 인코더 시스템.
6. The method according to any one of claims 2 to 5,
The first channel of the pseudo stereo signal is proportional to the sum of the downmix and residual signals;
The second channel of the pseudo stereo signal is proportional to the difference between the downmix and the residual signals.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 인지 인코딩 수단(3)은 AAC 기반 스테레오 인코더(48)를 포함하는, 인코더 시스템.
7. The method according to any one of claims 1 to 6,
Wherein the perceptual encoding means (3) comprises an AAC based stereo encoder (48).
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 인지 인코딩 수단(3)은 음향심리 제어 메커니즘을 포함하고, 상기 음향심리 제어 메커니즘은,
- 상기 파라메트릭 스테레오 파라미터들 중 하나 이상에, 및/또는
- 상기 스테레오 신호에 액세스할 수 있는, 인코더 시스템.
The method according to any one of claims 1 to 7,
Characterized in that the perceptual encoding means (3) comprises a psychoacoustic control mechanism,
- at least one of said parametric stereo parameters, and / or
- an encoder system capable of accessing said stereo signal.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 인코더 시스템은 SBR 인코더(32)를 추가로 포함하는, 인코더 시스템.
The method according to any one of claims 1 to 8,
Wherein the encoder system further comprises an SBR encoder (32).
제 9 항에 있어서,
상기 SBR 인코더(32)는 상기 다운믹싱 수단(8)의 상류측에 연결되는, 인코더 시스템.
The method of claim 9,
Wherein the SBR encoder (32) is connected to the upstream side of the downmixing means (8).
하나 이상의 파라메트릭 스테레오 파라미터들(5)을 포함하는 비트스트림 신호를 스테레오 신호로 디코딩하기 위해 구성된 디코더 시스템에 있어서:
- 상기 비트스트림 신호(6)에 기초하여 디코딩하는 인지 디코딩 수단(11, 12)으로서, 상기 디코딩 수단(11, 12)은 다운믹스 신호 및 잔차 신호를 생성하도록 구성되고, 상기 디코딩 수단(11, 12)은
- 좌/우 인지 디코딩 또는
- 미드/사이드 인지 디코딩을 선택적으로 수행하도록 구성되는, 상기 디코딩 수단(11, 12); 및
- 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 상기 스테레오 신호를 생성하기 위해 업믹스 동작을 수행하도록 구성된 업믹싱 수단(13)으로서, 상기 업믹싱 수단의 업믹스 동작은 상기 하나 이상의 파라메트릭 스테레오 파라미터들(5)에 종속적인, 상기 업믹싱 수단(13)을 포함하는, 디코더 시스템.
A decoder system configured to decode a bitstream signal comprising one or more parametric stereo parameters (5) into a stereo signal, the system comprising:
Perceptual decoding means (11, 12) for decoding on the basis of the bitstream signal (6), wherein said decoding means (11, 12) are configured to generate a downmix signal and a residual signal, said decoding means (11) 12) is
- decoding left / right or
Said decoding means (11, 12), configured to selectively perform mid / side aware decoding; And
- an upmixing means (13) configured to perform an upmix operation to generate the stereo signal based on the downmix signal and the residual signal, wherein the upmixing operation of the upmixing means comprises applying the one or more parametric stereo parameters (13), which is dependent on the first and second signals (5).
제 11 항에 있어서,
상기 인지 디코딩 수단(11, 12)은:
- 상기 비트스트림 신호(6)에 기초하여 디코딩하고, 의사 스테레오 신호를 생성하기 위해 구성된 인지 스테레오 디코더(11)로서, 상기 디코더는,
- 좌/우 인지 디코딩, 또는
- 미드/사이드 인지 디코딩을 선택적으로 실행하도록 구성되는, 상기 인지 스테레오 디코더; 및
- 상기 의사 스테레오 신호에 기초하여 변환을 실행하고 그럼으로써 상기 다운믹스 신호 및 상기 잔차 신호를 생성하기 위해 구성된 변환 수단(12)을 포함하는, 디코더 시스템.
The method of claim 11,
Wherein the perceptual decoding means (11, 12) comprise:
- a perceptual stereo decoder (11) configured to decode based on the bitstream signal (6) and to generate a pseudo-stereo signal,
- decode left or right, or
- the perceptual stereo decoder configured to selectively perform mid / side perceptual decoding; And
- conversion means (12) configured to perform a conversion based on the pseudo-stereo signal and thereby generate the downmix signal and the residual signal.
제 12 항에 있어서,
상기 인지 스테레오 디코더(11)는 디코딩된 의사 미드/사이드 신호에 기초하여 미드/사이드 대 좌/우 변환(mid/side to left/right transform)(105)을 실행하도록 구성되는, 디코더 시스템.
13. The method of claim 12,
Wherein the perceptual stereo decoder (11) is configured to perform a mid / side to left / right transform (105) based on the decoded pseudo mid / side signal.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 파라메트릭 스테레오 파라미터들은,
- 채널간 세기차를 나타내는 주파수-가변 또는 주파수-불변 파라미터, 및
- 채널간 교차상관을 나타내는 주파수-가변 또는 주파수-불변 파라미터를 포함하는, 디코더 시스템.
14. The method according to any one of claims 11 to 13,
Wherein the parametric stereo parameters comprise:
A frequency-variable or frequency-invariant parameter representing the interchannel intensity difference, and
A frequency-variable or frequency-invariant parameter indicative of inter-channel cross-correlation.
제 12 항에 있어서,
- 상기 다운믹스 신호는 상기 의사 스테레오 신호의 2개의 채널들의 합에 비례하고,
- 상기 잔차 신호는 상기 의사 스테레오 신호의 2개의 채널들의 차에 비례하는, 디코더 시스템.
13. The method of claim 12,
The downmix signal being proportional to the sum of the two channels of the pseudo-stereo signal,
The residual signal being proportional to the difference between the two channels of the pseudo-stereo signal.
제 11 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 인지 디코딩 수단은 AAC 기반 디코더를 포함하는, 디코더 시스템.
16. The method according to any one of claims 11 to 15,
Wherein the perceptual decoding means comprises an AAC-based decoder.
제 11 항 내지 제 16 항 중 어느 한 항에 있어서,
상기 스테레오 신호의 상기 좌 채널 및 상기 스테레오 신호의 우 채널이 독립적이고 주파수 대역에 대해서 동일 레벨을 갖는 경우에, 상기 업믹스 동작은 다음 식:
Figure pat00030
Figure pat00031

에 따라 기술될 수 있고,
여기서, L은 상기 스테레오 신호의 상기 좌 채널의 주파수 대역 성분을 나타내고, R은 상기 스테레오 신호의 상기 우 채널의 주파수 대역 성분을 나타내고, DMX는 상기 다운믹스 신호의 주파수 대역 성분을 나타내고, RES는 상기 잔차 신호의 주파수 대역 성분을 나타내고, c은 배율인, 디코더 시스템.
17. The method according to any one of claims 11 to 16,
When the left channel of the stereo signal and the right channel of the stereo signal are independent and have the same level for the frequency band, the upmix operation is
Figure pat00030
Figure pat00031

, ≪ / RTI >
Here, L represents a frequency band component of the left channel of the stereo signal, R represents a frequency band component of the right channel of the stereo signal, DMX represents a frequency band component of the downmix signal, C denotes the frequency band component of the residual signal, and c is a scaling factor.
제 11 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 디코더 시스템은 SBR 디코더를 추가로 포함하고, 상기 SBR 디코더는 상기 업믹싱 수단(13)의 하류측에 위치하는, 디코더 시스템.
18. The method according to any one of claims 11 to 17,
Wherein said decoder system further comprises a SBR decoder, said SBR decoder being located downstream of said upmixing means (13).
스테레오 신호를 비트스트림 신호(6)로 인코딩하기 위한 방법에 있어서:
- 상기 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하는 단계;
- 하나 이상의 파라메트릭 스테레오 파라미터들(5)을 결정하는 단계;
- 상기 다운믹스 신호 및 상기 잔차 신호 생성 이후에 인지 인코딩하는 단계를 포함하고,
- 좌/우 인지 인코딩, 또는
- 미드/사이드 인코딩이 선택가능한, 스테레오 신호를 비트스트림 신호로 인코딩하기 위한 방법.
A method for encoding a stereo signal into a bitstream signal (6) comprising:
Generating a downmix signal and a residual signal based on the stereo signal;
- determining one or more parametric stereo parameters (5);
- cognition encoding after said downmix signal and said residual signal generation,
- Left / right encoding, or
A method for encoding a stereo signal into a bitstream signal, wherein mid / side encoding is selectable.
파라메트릭 스테레오 파라미터들(5)을 포함하는 비트스트림 신호(6)를 스테레오 신호로 디코딩하기 위한 방법에 있어서:
- 상기 비트스트림 신호(6)에 기초하여 인지 디코딩하는 단계로서, 상기 인지 디코딩은,
- 좌/우 인지 디코딩, 또는
- 미드/사이드 인지 디코딩을 선택적으로 수행함으로써 다운믹스 신호와 잔차 신호를 생성하는 것을 포함하는, 상기 인지 디코딩 단계; 및
- 업믹스 동작에 의해 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 상기 스테레오 신호를 생성하는 단계로서, 상기 업믹스 동작은 상기 파라메트릭 스테레오 파라미터들(5)에 종속적인, 상기 스테레오 신호를 생성하는 단계를 포함하는, 파라메트릭 스테레오 파라미터들을 포함하는 비트스트림 신호를 스테레오 신호로 디코딩하기 위한 방법.
A method for decoding a bitstream signal (6) comprising parametric stereo parameters (5) into a stereo signal, comprising:
- decoding perceptually based on said bitstream signal (6)
- decode left or right, or
- generating a downmix signal and a residual signal by selectively performing mid / side perceptual decoding; And
- generating the stereo signal based on the downmix signal and the residual signal by an upmix operation, wherein the upmixing operation comprises generating the stereo signal, which is dependent on the parametric stereo parameters (5) The method comprising the steps of: generating a stereo signal by decoding a bitstream signal including parametric stereo parameters into a stereo signal.
KR1020137020130A 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding KR101433701B1 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16070709P 2009-03-17 2009-03-17
US61/160,707 2009-03-17
US21948409P 2009-06-23 2009-06-23
US61/219,484 2009-06-23
PCT/EP2010/052866 WO2010105926A2 (en) 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020117021514A Division KR101367604B1 (en) 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Publications (2)

Publication Number Publication Date
KR20130095851A true KR20130095851A (en) 2013-08-28
KR101433701B1 KR101433701B1 (en) 2014-08-28

Family

ID=42562759

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137020130A KR101433701B1 (en) 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
KR1020117021514A KR101367604B1 (en) 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020117021514A KR101367604B1 (en) 2009-03-17 2010-03-05 Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Country Status (13)

Country Link
US (10) US9082395B2 (en)
EP (2) EP2626855B1 (en)
JP (1) JP5214058B2 (en)
KR (2) KR101433701B1 (en)
CN (2) CN105225667B (en)
AU (1) AU2010225051B2 (en)
BR (4) BR122019023947B1 (en)
CA (6) CA3152894C (en)
ES (2) ES2519415T3 (en)
HK (2) HK1166414A1 (en)
MX (1) MX2011009660A (en)
RU (3) RU2520329C2 (en)
WO (1) WO2010105926A2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180103102A (en) * 2016-01-22 2018-09-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Apparatus and method of MDCT M / S stereo with global ILD improved mid / side decision
KR20200140864A (en) * 2018-04-05 2020-12-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Apparatus, method or computer program for estimating time difference between channels
KR20210126797A (en) * 2019-03-14 2021-10-20 붐클라우드 360, 인코포레이티드 Spatial Awareness Multi-Band Compression System by Priority

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122019023947B1 (en) 2009-03-17 2021-04-06 Dolby International Ab CODING SYSTEM, DECODING SYSTEM, METHOD FOR CODING A STEREO SIGNAL FOR A BIT FLOW SIGNAL AND METHOD FOR DECODING A BIT FLOW SIGNAL FOR A STEREO SIGNAL
JP5267257B2 (en) * 2009-03-23 2013-08-21 沖電気工業株式会社 Audio mixing apparatus, method and program, and audio conference system
TWI433137B (en) 2009-09-10 2014-04-01 Dolby Int Ab Improvement of an audio signal of an fm stereo radio receiver by using parametric stereo
KR101710113B1 (en) * 2009-10-23 2017-02-27 삼성전자주식회사 Apparatus and method for encoding/decoding using phase information and residual signal
EP4120246A1 (en) 2010-04-09 2023-01-18 Dolby International AB Stereo coding using either a prediction mode or a non-prediction mode
TWI516138B (en) * 2010-08-24 2016-01-01 杜比國際公司 System and method of determining a parametric stereo parameter from a two-channel audio signal and computer program product thereof
ES2526320T3 (en) * 2010-08-24 2015-01-09 Dolby International Ab Hiding intermittent mono reception of FM stereo radio receivers
EP2705516B1 (en) 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
WO2013045693A2 (en) * 2011-09-29 2013-04-04 Dolby International Ab High quality detection in fm stereo radio signals
JP6155274B2 (en) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー Upsampling with oversampled SBR
WO2013106322A1 (en) * 2012-01-11 2013-07-18 Dolby Laboratories Licensing Corporation Simultaneous broadcaster -mixed and receiver -mixed supplementary audio services
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US20150371643A1 (en) * 2012-04-18 2015-12-24 Nokia Corporation Stereo audio signal encoder
EP2862168B1 (en) 2012-06-14 2017-08-09 Dolby International AB Smooth configuration switching for multichannel audio
US9622014B2 (en) * 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
JP5949270B2 (en) * 2012-07-24 2016-07-06 富士通株式会社 Audio decoding apparatus, audio decoding method, and audio decoding computer program
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2676870C1 (en) * 2013-01-29 2019-01-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Decoder for formation of audio signal with improved frequency characteristic, decoding method, encoder for formation of encoded signal and encoding method using compact additional information for selection
JP6179122B2 (en) * 2013-02-20 2017-08-16 富士通株式会社 Audio encoding apparatus, audio encoding method, and audio encoding program
CN110379434B (en) * 2013-02-21 2023-07-04 杜比国际公司 Method for parametric multi-channel coding
RU2625444C2 (en) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Audio processing system
TWI546799B (en) * 2013-04-05 2016-08-21 杜比國際公司 Audio encoder and decoder
RU2665214C1 (en) 2013-04-05 2018-08-28 Долби Интернэшнл Аб Stereophonic coder and decoder of audio signals
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
CN110890101B (en) * 2013-08-28 2024-01-12 杜比实验室特许公司 Method and apparatus for decoding based on speech enhancement metadata
TWI579831B (en) 2013-09-12 2017-04-21 杜比國際公司 Method for quantization of parameters, method for dequantization of quantized parameters and computer-readable medium, audio encoder, audio decoder and audio system thereof
ES2641538T3 (en) * 2013-09-12 2017-11-10 Dolby International Ab Multichannel audio content encoding
FR3011408A1 (en) * 2013-09-30 2015-04-03 Orange RE-SAMPLING AN AUDIO SIGNAL FOR LOW DELAY CODING / DECODING
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102160254B1 (en) * 2014-01-10 2020-09-25 삼성전자주식회사 Method and apparatus for 3D sound reproducing using active downmix
BR112017006325B1 (en) 2014-10-02 2023-12-26 Dolby International Ab DECODING METHOD AND DECODER FOR DIALOGUE HIGHLIGHTING
WO2016108655A1 (en) * 2014-12-31 2016-07-07 한국전자통신연구원 Method for encoding multi-channel audio signal and encoding device for performing encoding method, and method for decoding multi-channel audio signal and decoding device for performing decoding method
KR20160081844A (en) * 2014-12-31 2016-07-08 한국전자통신연구원 Encoding method and encoder for multi-channel audio signal, and decoding method and decoder for multi-channel audio signal
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI771266B (en) * 2015-03-13 2022-07-11 瑞典商杜比國際公司 Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
EP3961623A1 (en) * 2015-09-25 2022-03-02 VoiceAge Corporation Method and system for decoding left and right channels of a stereo sound signal
FR3045915A1 (en) * 2015-12-16 2017-06-23 Orange ADAPTIVE CHANNEL REDUCTION PROCESSING FOR ENCODING A MULTICANAL AUDIO SIGNAL
WO2017125563A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
CA3042580C (en) 2016-11-08 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
WO2018086946A1 (en) 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
WO2018221138A1 (en) * 2017-06-01 2018-12-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Coding device and coding method
US10431231B2 (en) 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
CN109300480B (en) 2017-07-25 2020-10-16 华为技术有限公司 Coding and decoding method and coding and decoding device for stereo signal
CN109389987B (en) * 2017-08-10 2022-05-10 华为技术有限公司 Audio coding and decoding mode determining method and related product
US10580420B2 (en) * 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
TWI812658B (en) 2017-12-19 2023-08-21 瑞典商都比國際公司 Methods, apparatus and systems for unified speech and audio decoding and encoding decorrelation filter improvements
EP3729427A1 (en) 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
EP3729298A1 (en) 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus systems for unified speech and audio decoding improvements
JP7261807B2 (en) 2018-02-01 2023-04-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Acoustic scene encoder, acoustic scene decoder and method using hybrid encoder/decoder spatial analysis
MA52530A (en) 2018-04-25 2021-03-03 Dolby Int Ab INTEGRATION OF HIGH FREQUENCY AUDIO RECONSTRUCTION TECHNIQUES
BR112020021809A2 (en) 2018-04-25 2021-02-23 Dolby International Ab integration of high-frequency reconstruction techniques with reduced post-processing delay
CN110556118B (en) * 2018-05-31 2022-05-10 华为技术有限公司 Coding method and device for stereo signal
CN114708874A (en) * 2018-05-31 2022-07-05 华为技术有限公司 Coding method and device for stereo signal
CN112352277A (en) * 2018-07-03 2021-02-09 松下电器(美国)知识产权公司 Encoding device and encoding method
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003873A1 (en) 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
US4790016A (en) 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
US5222189A (en) 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5357594A (en) 1989-01-27 1994-10-18 Dolby Laboratories Licensing Corporation Encoding and decoding using specially designed pairs of analysis and synthesis windows
CN1062963C (en) 1990-04-12 2001-03-07 多尔拜实验特许公司 Adaptive-block-lenght, adaptive-transform, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
ATE138238T1 (en) 1991-01-08 1996-06-15 Dolby Lab Licensing Corp ENCODER/DECODER FOR MULTI-DIMENSIONAL SOUND FIELDS
JP2693893B2 (en) 1992-03-30 1997-12-24 松下電器産業株式会社 Stereo speech coding method
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JP3765622B2 (en) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション Audio encoding / decoding system
JP4478220B2 (en) * 1997-05-29 2010-06-09 ソニー株式会社 Sound field correction circuit
SE512719C2 (en) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd A method and apparatus for reducing data flow based on harmonic bandwidth expansion
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
DE19742655C2 (en) 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Method and device for coding a discrete-time stereo signal
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
SE9903553D0 (en) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing conceptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
CN1100113C (en) 1999-06-04 2003-01-29 中国科学院山西煤炭化学研究所 Process for preparing asphalt as road and coating of surface
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0001926D0 (en) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation / folding in the subband domain
SE0004163D0 (en) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance or high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (en) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP3951690B2 (en) * 2000-12-14 2007-08-01 ソニー株式会社 Encoding apparatus and method, and recording medium
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (en) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
GB0119569D0 (en) * 2001-08-13 2001-10-03 Radioscape Ltd Data hiding in digital audio broadcasting (DAB)
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
KR20040080003A (en) * 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. Parametric audio coding
KR101016251B1 (en) 2002-04-10 2011-02-25 코닌클리케 필립스 일렉트로닉스 엔.브이. Coding of stereo signals
SE0202770D0 (en) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method of reduction of aliasing is introduced by spectral envelope adjustment in real-valued filterbanks
US7191136B2 (en) 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
KR100923297B1 (en) * 2002-12-14 2009-10-23 삼성전자주식회사 Method for encoding stereo audio, apparatus thereof, method for decoding audio stream and apparatus thereof
KR100528325B1 (en) * 2002-12-18 2005-11-15 삼성전자주식회사 Scalable stereo audio coding/encoding method and apparatus thereof
SE0301273D0 (en) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex exponential-modulated filter bank and adaptive time signaling methods
US7809579B2 (en) 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
CN1677491A (en) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 Intensified audio-frequency coding-decoding device and method
BRPI0509100B1 (en) * 2004-04-05 2018-11-06 Koninl Philips Electronics Nv OPERATING MULTI-CHANNEL ENCODER FOR PROCESSING INPUT SIGNALS, METHOD TO ENABLE ENTRY SIGNALS IN A MULTI-CHANNEL ENCODER
JP4832305B2 (en) * 2004-08-31 2011-12-07 パナソニック株式会社 Stereo signal generating apparatus and stereo signal generating method
RU2393552C2 (en) 2004-09-17 2010-06-27 Конинклейке Филипс Электроникс Н.В. Combined audio coding, which minimises perceived distortion
EP1801782A4 (en) * 2004-09-28 2008-09-24 Matsushita Electric Ind Co Ltd Scalable encoding apparatus and scalable encoding method
SE0402650D0 (en) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding or spatial audio
JP2008519306A (en) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Encode and decode signal pairs
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
WO2006091139A1 (en) 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
FR2888699A1 (en) 2005-07-13 2007-01-19 France Telecom HIERACHIC ENCODING / DECODING DEVICE
CN101223820B (en) * 2005-07-15 2011-05-04 松下电器产业株式会社 Signal processing device
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
KR101012259B1 (en) * 2006-10-16 2011-02-08 돌비 스웨덴 에이비 Enhanced coding and parameter representation of multichannel downmixed object coding
EP2437257B1 (en) 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
KR20080052813A (en) 2006-12-08 2008-06-12 한국전자통신연구원 Apparatus and method for audio coding based on input signal distribution per channels
JP5133401B2 (en) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット Output signal synthesis apparatus and synthesis method
US8218775B2 (en) * 2007-09-19 2012-07-10 Telefonaktiebolaget L M Ericsson (Publ) Joint enhancement of multi-channel audio
EP2210253A4 (en) 2007-11-21 2010-12-01 Lg Electronics Inc A method and an apparatus for processing a signal
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN102177542B (en) * 2008-10-10 2013-01-09 艾利森电话股份有限公司 Energy conservative multi-channel audio coding
BR122019023947B1 (en) 2009-03-17 2021-04-06 Dolby International Ab CODING SYSTEM, DECODING SYSTEM, METHOD FOR CODING A STEREO SIGNAL FOR A BIT FLOW SIGNAL AND METHOD FOR DECODING A BIT FLOW SIGNAL FOR A STEREO SIGNAL

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180103102A (en) * 2016-01-22 2018-09-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Apparatus and method of MDCT M / S stereo with global ILD improved mid / side decision
US11842742B2 (en) 2016-01-22 2023-12-12 Fraunhofer-Gesellschaft zur Foerderung der angewandten Forschung V. Apparatus and method for MDCT M/S stereo with global ILD with improved mid/side decision
KR20200140864A (en) * 2018-04-05 2020-12-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Apparatus, method or computer program for estimating time difference between channels
KR20210126797A (en) * 2019-03-14 2021-10-20 붐클라우드 360, 인코포레이티드 Spatial Awareness Multi-Band Compression System by Priority

Also Published As

Publication number Publication date
BRPI1009467A2 (en) 2017-05-16
RU2017108988A (en) 2018-09-17
HK1166414A1 (en) 2012-10-26
RU2614573C2 (en) 2017-03-28
US20120002818A1 (en) 2012-01-05
US20180144751A1 (en) 2018-05-24
CA3093218A1 (en) 2010-09-23
US20190287538A1 (en) 2019-09-19
MX2011009660A (en) 2011-09-30
AU2010225051A1 (en) 2011-09-15
BR122019023877B1 (en) 2021-08-17
US10297259B2 (en) 2019-05-21
US11322161B2 (en) 2022-05-03
CN102388417A (en) 2012-03-21
ES2415155T3 (en) 2013-07-24
RU2730469C2 (en) 2020-08-24
US11133013B2 (en) 2021-09-28
EP2626855B1 (en) 2014-09-10
EP2626855A1 (en) 2013-08-14
JP5214058B2 (en) 2013-06-19
CA3209167A1 (en) 2010-09-23
JP2012521012A (en) 2012-09-10
EP2409298B1 (en) 2013-05-08
US11017785B2 (en) 2021-05-25
US20190392844A1 (en) 2019-12-26
US20240127829A1 (en) 2024-04-18
CA3152894C (en) 2023-09-26
CN105225667B (en) 2019-04-05
WO2010105926A3 (en) 2010-12-23
US20190318748A1 (en) 2019-10-17
RU2014112936A (en) 2015-10-10
AU2010225051B2 (en) 2013-06-13
EP2409298A2 (en) 2012-01-25
RU2017108988A3 (en) 2020-05-21
US9082395B2 (en) 2015-07-14
BR122019023924B1 (en) 2021-06-01
WO2010105926A2 (en) 2010-09-23
KR20120006010A (en) 2012-01-17
CA2949616A1 (en) 2010-09-23
BRPI1009467B1 (en) 2020-08-18
HK1187145A1 (en) 2014-03-28
RU2520329C2 (en) 2014-06-20
KR101433701B1 (en) 2014-08-28
US20150269948A1 (en) 2015-09-24
CN102388417B (en) 2015-10-21
ES2519415T3 (en) 2014-11-06
CA3057366C (en) 2020-10-27
US20190228782A1 (en) 2019-07-25
CA3152894A1 (en) 2010-09-23
US11315576B2 (en) 2022-04-26
US9905230B2 (en) 2018-02-27
CA2949616C (en) 2019-11-26
US10796703B2 (en) 2020-10-06
US20220246155A1 (en) 2022-08-04
KR101367604B1 (en) 2014-02-26
BR122019023947B1 (en) 2021-04-06
CA3057366A1 (en) 2010-09-23
CA3093218C (en) 2022-05-17
RU2020122022A (en) 2022-01-04
CA2754671A1 (en) 2010-09-23
US20190378521A1 (en) 2019-12-12
CN105225667A (en) 2016-01-06
CA2754671C (en) 2017-01-10

Similar Documents

Publication Publication Date Title
US11315576B2 (en) Selectable linear predictive or transform coding modes with advanced stereo coding
RU2804032C1 (en) Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device
RU2799400C2 (en) Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device
AU2018200340B2 (en) Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170809

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180808

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190807

Year of fee payment: 6