KR20180103102A - 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법 - Google Patents

미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법 Download PDF

Info

Publication number
KR20180103102A
KR20180103102A KR1020187022988A KR20187022988A KR20180103102A KR 20180103102 A KR20180103102 A KR 20180103102A KR 1020187022988 A KR1020187022988 A KR 1020187022988A KR 20187022988 A KR20187022988 A KR 20187022988A KR 20180103102 A KR20180103102 A KR 20180103102A
Authority
KR
South Korea
Prior art keywords
channel
audio signal
signal
spectral band
spectral
Prior art date
Application number
KR1020187022988A
Other languages
English (en)
Other versions
KR102230668B1 (ko
Inventor
엠마뉘엘 라벨리
마르쿠스 슈넬
스테판 될라
볼프강 예거스
마틴 디에츠
크리스티안 헴리히
고란 마르코비치
엘레니 포토포우로우
마르쿠스 물트루스
스테판 바이어
기욤 푹스
위르겐 헤레
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180103102A publication Critical patent/KR20180103102A/ko
Application granted granted Critical
Publication of KR102230668B1 publication Critical patent/KR102230668B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

도 1은 일 실시예에 따른 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치를 도시한다. 장치는 오디오 입력 신호의 제 1 채널 및 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성된 정규화기(110)를 포함하고, 여기서 정규화기(110)는 정규화 값에 따라, 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성된다. 또한, 장치는 제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하도록 구성되는 인코딩 유닛(120)을 포함하고, 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이다. 인코딩 유닛(120)은 처리된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하도록 구성된다.

Description

미드/사이드 결정이 개선된 전역 ILD를 갖는 MDCT M/S 스테레오의 장치 및 방법
본 발명은 오디오 신호 인코딩 및 오디오 신호 디코딩에 관한 것으로, 특히 미드/사이드 검출이 개선된 전역 ILD를 갖는 MDCT M/S 스테레오를 위한 장치 및 방법에 관한 것이다.
MDCT 기반 코더(MDCT = Modified Discrete Cosine Transform)의 대역별 M/S 처리(M/S = Mid/Side)는 스테레오 처리를 위한 알려진 효과적인 방법이다. 그러나, 이는 패닝된 신호에는 충분하지 않으며, 복잡한 예측 또는 미드 및 사이드 채널 간의 각도 코딩과 같은 추가 처리가 필요하다.
[1], [2], [3], 및 [4]에서, 윈도우화되고 변환된 비정규화된(백색화되지 않은) 신호에 대한 M/S 처리가 설명된다.
[7]에서, 미드 채널과 사이드 채널 간의 예측이 설명된다. [7]에서, 2개의 오디오 채널의 조합에 기초하여 오디오 신호를 인코딩하는 인코더가 개시되어 있다. 오디오 인코더는 미드 신호인 결합 신호를 획득하고, 미드 신호로부터 도출된 예측된 사이드 신호인 예측 잔류 신호를 또한 획득한다. 제 1 결합 신호 및 예측 잔류 신호는 인코딩되어 예측 정보와 함께 데이터 스트림에 기입된다. 또한, [7]은 예측 잔류 신호, 제 1 결합 신호, 및 예측 정보를 사용하여 디코딩된 제 1 및 제 2 오디오 채널을 생성하는 디코더를 개시하고 있다.
[5]에서는, 각각 대역에서 별도로 정규화한 후 M/S 스테레오 커플링을 적용하는 것이 설명되어 있다. 특히 [5]에서는, Opus 코덱을 언급한다. Opus는 미드 신호 및 사이드 신호를 정규화된 신호로 인코딩한다(
Figure pct00001
Figure pct00002
). m과 s로부터 M과 S를 복원하기 위해, 각도
Figure pct00003
가 인코딩된다. N이 대역의 크기이고 a가 m 및 s에 대해 이용 가능한 총 비트 수인 경우, m에 대한 최적 할당은
Figure pct00004
이다.
알려진 접근법(예를 들어, [2]와 [4])에서, 복잡한 레이트/왜곡 루프는 (예를 들어, [7]로부터 M 내지 S 예측 잔류 계산이 뒤따를 수 있는 M/S를 사용하여) 채널 간의 상관 관계를 감소시키기 위해 대역 채널이 변환되어야 한다는 결정과 결합된다. 이 복잡한 구조는 높은 계산 비용을 갖는다. ([6a], [6b], 및 [13]과 같이) 레이트 루프에서 지각 모델을 분리하는 것은 시스템을 상당히 단순화시킨다.
또한, 각각의 대역에서의 예측 계수 또는 각도의 코딩은 (예를 들어, [5] 및 [7]에서) 상당한 수의 비트를 필요로 한다.
[1], [3], 및 [5]에서는, 전체 스펙트럼에 대한 단일 결정만 수행되어 전체 스펙트럼이 M/S 또는 L/R 코딩되어야 하는지를 결정한다.
ILD(두 귀 레벨 차이)가 존재하는 경우, 즉 채널이 패닝되는 경우, M/S 코딩은 효율적이지 않다.
위에서 개략적으로 설명된 바와 같이, MDCT 기반 코더에서 대역별 M/S 처리는 스테레오 처리에 효과적인 방법이라는 것이 알려져 있다. M/S 처리 코딩 이득은 비상관 채널의 경우 0%에서 모노포닉의 경우 또는 채널 간 π/2 위상차의 경우 50%까지 다양하다. 스테레오 언마스킹과 역 언마스킹([1] 참조)으로 인해, 강력한 M/S 결정을 하는 것이 중요하다.
[2]에서, 왼쪽과 오른쪽 사이의 마스킹 임계치가 2dB 미만으로 변하는 각각의 대역에, M/S 코딩이 코딩 방법으로서 선택된다.
[1]에서, M/S 결정은 채널의 M/S 코딩 및 L/R 코딩(L/R = left/right)에 대한 추정된 비트 소비에 기초한다. M/S 코딩 및 L/R 코딩에 대한 비트레이트 요구는 지각 엔트로피(perceptual entropy, PE)를 사용하여 스펙트럼 및 마스킹 임계치로부터 추정된다. 마스킹 임계치는 왼쪽 및 오른쪽 채널에 대해 계산된다. 미드 채널 및 사이드 채널에 대한 마스킹 임계치는 왼쪽 및 오른쪽 임계치의 최소치로 가정된다.
또한, [1]은 인코딩될 개별 채널의 코딩 임계치가 도출되는 방법을 설명한다. 구체적으로, 왼쪽 및 오른쪽 채널에 대한 코딩 임계치는 이들 채널에 대한 각각의 지각 모델에 의해 계산된다. [1]에서, M 채널 및 S 채널에 대한 코딩 임계치는 동등하게 선택되고 왼쪽 및 오른쪽 코딩 임계치의 최소치로 도출된다.
또한, [1]은 우수한 코딩 성능이 달성되도록 L/R 코딩과 M/S 코딩 사이에서 결정하는 것을 설명한다. 구체적으로, 지각 엔트로피는 임계치를 사용하여 L/R 인코딩 및 M/S 인코딩에 대해 추정된다.
[1]과 [2], 뿐만 아니라 [3]과 [4]에서, M/S 처리는 윈도우화되고 변환된 비정규화된(백색화되지 않은) 신호에 수행되고, M/S 결정은 마스킹 임계치 및 지각 엔트로피 추정에 기초한다.
[5]에서, 왼쪽 채널과 오른쪽 채널의 에너지는 명시적으로 코딩되고, 코딩된 각도는 차이 신호의 에너지를 보존한다. [5]에서는, L/R 코딩이 더 효율적이라 할지라도, M/S 코딩이 안전하다고 가정된다. [5]에 따르면, L/R 코딩은 채널들 간의 상관 관계가 충분히 강하지 않을 때만 선택된다.
또한, 각각의 대역에서의 예측 계수 또는 각도의 코딩은 (예를 들어, [5] 및 [7]에서) 상당한 수의 비트를 필요로 한다.
따라서, 오디오 인코딩 및 오디오 디코딩에 대한 개선된 개념이 제공된다면 매우 가치있을 것이다.
본 발명의 목적은 오디오 신호 인코딩, 오디오 신호 처리, 및 오디오 신호 디코딩에 대한 개선된 개념을 제공하는 것이다. 본 발명의 목적은 제1항에 따른 오디오 디코더에 의해, 제23항에 따른 장치에 의해, 제37항에 따른 방법에 의해, 제38항에 따른 방법에 의해, 그리고 제39항에 따른 컴퓨터 프로그램에 의해 해결된다.
일 실시예에 따르면, 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치가 제공된다.
인코딩하기 위한 장치는 오디오 입력 신호의 제 1 채널 및 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성된 정규화기를 포함하고, 여기서 정규화기는 정규화 값에 따라 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성된다.
또한, 인코딩하기 위한 장치는 제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하도록 구성된 인코딩 유닛을 포함하고, 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이다. 인코딩 유닛은 처리된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하도록 구성된다.
또한, 2개 이상의 채널을 포함하는 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위해 제 1 채널 및 제 2 채널을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 장치가 제공된다.
디코딩하기 위한 장치는 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역과 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하도록 구성된 디코딩 유닛을 포함한다.
디코딩 유닛은 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성된다.
또한, 디코딩 유닛은 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하도록 구성된다.
또한, 디코딩하기 위한 장치는 정규화해제 값에 따라 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성된 정규화해제기를 포함한다.
또한, 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하는 방법이 제공된다. 방법은:
- 오디오 입력 신호의 제 1 채널 및 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하는 단계,
- 정규화 값에 따라, 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하는 단계,
- 제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하고 - 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역임 -, 처리된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하는 단계를 포함한다.
또한, 2개 이상의 채널을 포함하는 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위해 제 1 채널 및 제 2 채널을 포함하는 인코딩된 오디오 신호를 디코딩하는 방법이 제공된다. 방법은:
- 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역과 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하는 단계,
- 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하는 단계,
- 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하는 단계,및
- 정규화해제 값에 따라 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하는 단계를 포함한다.
또한, 컴퓨터 프로그램이 각각이 제공되는데, 여기서 컴퓨터 프로그램 각각은 컴퓨터 또는 신호 프로세서 상에서 실행될 때 전술한 방법 중 하나를 구현하도록 구성된다.
실시예에 따르면, 최소한의 보조 정보를 사용하여 패닝된 신호를 다룰 수 있는 새로운 개념이 제공된다.
일부 실시예에 따르면, 레이트 루프를 갖는 FDNS(FDNS = Frequency Domain Noise Shaping)가 [8]에서 설명된 바와 같이 스펙트럼 엔벨로프 워핑과 결합되어 [6a] 및 [6b]에서 설명된 바와 같이 사용된다. 일부 실시예에서, FDNS 백색화 스펙트럼에 대한 단일 ILD 파라미터가 사용되고, 뒤이어 M/S 코딩 또는 L/R 코딩이 코딩을 위해 사용되는지 여부에 대한 대역별 결정이 온다. 일부 실시예에서, M/S 결정은 추정된 비트 절약에 기초한다. 일부 실시예에서, 대역별 M/S 처리된 채널들 사이의 비트레이트 분배는 예를 들어 에너지에 의존할 수 있다.
일부 실시예는 효율적인 M/S 결정 메커니즘 및 하나의 단일 전역 이득을 제어하는 레이트 루프를 갖는 대역별 M/S 처리가 뒤따르는, 백색화된 스펙트럼 상에 적용된 단일 전역 ILD의 조합을 제공한다.
일부 실시예는 특히 예를 들어 [6a] 또는 [6b]에 기초하여, 예를 들어 [8]에 기초한 스펙트럼 엔벨로프 워핑과 결합된, 레이트 루프를 갖는 FDNS를 이용한다. 이들 실시예는 양자화 잡음 및 레이트 루프의 지각적 성형을 분리하기 위한 효율적이고 매우 효과적인 방법을 제공한다. FDNS 백색화된 스펙트럼에 대해 단일 ILD 파라미터를 사용하는 것은 전술한 바와 같은 M/S 처리의 이점이 있는지를 간단하고 효과적으로 결정할 수 있게 한다. 스펙트럼을 백색화하고 ILD를 제거하는 것은 효율적인 M/S 처리를 할 수 있게 한다. 설명된 시스템에 대한 단일 전역 ILD를 코딩하는 것으로 충분하므로, 알려진 접근법과 대조적으로 비트 절약이 달성된다.
실시예에 따르면, M/S 처리는 지각적으로 백색화된 신호에 기초하여 수행된다. 실시예는 코딩 임계치를 결정하고, 지각적으로 백색화되고 ILD로 보상된 신호를 처리할 때 L/R 코딩 또는 M/S 코딩이 이용되는지 여부의 결정을 최적의 방식으로 결정한다.
또한, 실시예에 따르면, 새로운 비트레이트 추정이 제공된다.
[1]-[5]와는 대조적으로, 실시예에서, 지각 모델은 [6a], [6b], 및 [13]에서와 같이 레이트 루프로부터 분리된다.
M/S 결정은 [1]에서 제안된 바와 같이 추정된 비트레이트에 기초할지라도, [1]과 대조적으로 M/S 및 L/R 코딩의 비트레이트 요구의 차이는 지각 모델에 의해 결정되는 마스킹 임계치에 의존하지 않는다. 대신에, 비트레이트 요구는 사용되는 무손실 엔트로피 코더에 의해 결정된다. 다시 말해, 원래의 신호의 지각 엔트로피로부터 비트레이트 요구를 도출하는 대신에, 비트레이트 요구는 지각적으로 백색화된 신호의 엔트로피로부터 도출된다.
[1]-[5]와 대조적으로, 실시예에서, M/S 결정은 지각적으로 백색화된 신호에 기초하여 결정되고, 요구되는 비트레이트의 더 양호한 추정이 획득된다. 이를 위해, [6a] 또는 [6b]에 설명된 바와 같은 산술 코더 비트 소비 추정이 적용될 수 있다. 마스킹 임계치는 명시적으로 고려될 필요가 없다.
[1]에서, 미드 및 사이드 채널에 대한 마스킹 임계치는 왼쪽 및 오른쪽 임계치의 최소치로 가정된다. 스펙트럼 잡음 성형은 미드 및 사이드 채널에 수행되고, 예를 들어 이들 마스킹 임계치에 기초할 수 있다.
실시예에 따르면, 스펙트럼 잡음 성형은 예를 들어 왼쪽 및 오른쪽 채널에 수행될 수 있고, 지각 엔벨로프는 그러한 실시예에서 그것이 추정된 곳에서 정확하게 적용될 수 있다.
또한, 실시예는 ILD가 존재하는 경우, 즉 채널들이 패닝되는 경우, M/S 코딩이 효율적이지 않다는 발견에 기초한다. 이를 피하기 위해, 실시예는 지각적으로 백색화된 스펙트럼에 단일 ILD 파라미터를 사용한다.
일부 실시예에 따르면, 지각적으로 백색화된 신호를 처리하는 M/S 결정을 위한 새로운 개념이 제공된다.
일부 실시예에 따르면, 코덱은 예를 들어 [1]에서 설명된 바와 같이 고전적인 오디오 코덱의 일부가 아닌 새로운 개념을 사용한다.
일부 실시예에 따르면, 지각적으로 백색화된 신호가 예를 들어 스피치 코더에서 사용되는 방식과 유사한 추가 코딩을 위해 사용된다.
이러한 접근법은 몇 가지 이점을 갖는데, 예를 들어 코덱 아키텍처가 단순화되고, 잡음 성형 특성의 간결한 표현, 및 마스킹 임계 값이 예를 들어 LPC 계수로서 달성된다. 또한, 변환 및 스피치 코덱 아키텍처가 통합되어 결합된 오디오/음성 코딩이 가능하게 된다.
일부 실시예는 전역 ILD 파라미터를 이용하여 패닝된 소스를 효율적으로 코딩한다.
실시예에서, 코덱은 예를 들어 [8]에서 설명된 바와 같은 스펙트럼 엔벨로프 워핑과 결합되어 [6a] 또는 [6b]에서 설명된 바와 같이, 레이트 루프로 지각적으로 신호를 백색화하기 위해 주파수 도메인 잡은 성형(FDNS)을 이용한다. 이러한 실시예에서, 코덱은 예를 들어 FDNS 백색화된 스펙트럼에 단일 ILD 파라미터를 더 사용하고, 뒤이어 대역별 M/S 대 L/R 결정을 더 사용할 수 있다. 대역별 M/S 결정은 예를 들어, L/R 및 M/S 모드로 코딩될 때 각각의 대역에서의 추정된 비트레이트에 기초할 수 있다. 최소 요구 비트를 가진 모드가 선택된다. 대역별 M/S 처리된 채널 간의 비트레이트 분배는 에너지에 기초한다.
일부 실시예는 엔트로피 코더에 대한 대역 당 추정된 비트 수를 사용하여 지각적으로 백색화되고 ILD로 보상된 스펙트럼에 대해 대역별 M/S 결정을 적용한다.
일부 실시예에서, 예를 들어 [8]에서 설명된 바와 같이 스펙트럼 엔벨로프 워핑과 결합된, [6a] 또는 [6b]에서 설명된 바와 같은 레이트 루프를 갖는 FDNS가 이용된다. 이는 양자화 잡음 및 레이트 루프의 지각적 성형을 분리하는 효율적이고 매우 효과적인 방식을 제공한다. FDNS 백색화된 스펙트럼에 대해 단일 ILD 파라미터를 사용하는 것은 전술한 바와 같은 M/S 처리의 이점이 있는지를 간단하고 효과적으로 결정할 수 있게 한다. 스펙트럼을 백색화하고 ILD를 제거하는 것은 효율적인 M/S 처리를 할 수 있게 한다. 설명된 시스템에 대한 단일 전역 ILD를 코딩하는 것으로 충분하므로, 알려진 접근법과 대조적으로 비트 절약이 달성된다.
실시예는 지각적으로 백색화되고 ILD로 보상된 신호를 처리할 때 [1]에서 제공된 개념을 수정한다. 특히, 실시예는 FDNS와 함께 코딩 임계치를 형성하는 L, R, M, 및 S에 대해 동일한 전역 이득을 이용한다. 전역 이득은 SNR 추정 또는 어떤 다른 개념으로부터 도출될 수 있다.
제안된 대역별 M/S 결정은 산술 부호화기로 각각의 대역을 코딩하기 위해 필요한 비트 수를 정확하게 추정한다. 이는 M/S 결정이 백색화된 스펙트럼에 대해 행해지고 양자화가 바로 뒤따라 오기 때문에 가능하다. 임계치를 실험적으로 검색할 필요가 없다.
다음에서, 본 발명의 실시예가 도면을 참조하여보다 상세히 설명되며, 여기서:
도 1a는 일 실시예에 따른 인코딩하기 위한 장치를 도시하고,
도 1b는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하며, 여기서 장치는 변환 유닛 및 전처리 유닛을 더 포함하고,
도 1c는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하며, 여기서 장치는 변환 유닛을 더 포함하고,
도 1d는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하며, 여기서 장치는 전처리 유닛 및 변환 유닛을 더 포함하고,
도 1e는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하며, 여기서 장치는 스펙트럼 도메인 전처리기를 더 포함하고,
도 1f는 일 실시예에 따른 인코딩된 오디오 신호의 4개의 채널을 획득하기 위해 4개 이상의 채널을 포함하는 오디오 입력 신호의 4개의 채널을 인코딩하기 위한 시스템을 도시하고,
도 2a는 일 실시예에 따른 디코딩하기 위한 장치를 도시하고,
도 2b는 변환 유닛 및 후처리 유닛을 더 포함하는 일 실시예에 따른 디코딩하기 위한 장치를 도시하고,
도 2c는 일 실시예에 따른 디코딩하기 위한 장치를 도시하며, 여기서 디코딩하기 위한 장치는 변환 유닛을 더 포함하고,
도 2d는 일 실시예에 따른 디코딩하기 위한 장치를 도시하며, 여기서 디코딩하기 위한 장치는 후처리 유닛을 더 포함하고,
도 2e는 일 실시예에 따른 디코딩 장치를 도시하며, 여기서 장치는 스펙트럼 도메인 후처리기를 더 포함하고,
도 2f는 일 실시예에 따른 4개 이상의 채널을 포함하는 4개의 디코딩된 오디오 신호의 4개의 채널을 획득하기 위해 4개 이상의 채널을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 시스템을 도시하고,
도 3은 일 실시예에 따른 시스템을 도시하고,
도 4는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하고,
도 5는 일 실시예에 따른 인코딩하기 위한 장치에서의 스테레오 처리 모듈을 도시하고,
도 6은 다른 실시예에 따른 디코딩하기 위한 장치를 도시하고,
도 7은 일 실시예에 따른 대역별 M/S 결정을 위한 비트레이트의 계산을 도시하고,
도 8은 일 실시예에 따른 스테레오 모드 결정을 도시하고,
도 9는 스테레오 필링(filling)을 이용하는 실시예에 따른 인코더 측의 스테레오 처리를 도시하고,
도 10은 스테레오 필링을 이용하는 실시예에 따른 디코더 측의 스테레오 처리를 도시하고,
도 11은 일부 특정 실시예에 따른 디코더 측에서의 사이드 신호의 스테레오 필링을 도시하고,
도 12는 스테레오 필링을 이용하지 않는 실시예에 따른 인코더 측의 스테레오 처리를 도시하고,
도 13은 스테레오 필링을 이용하지 않는 실시예에 따른 디코더 측의 스테레오 처리를 도시한다.
도 1a는 일 실시예에 따른 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치를 도시한다.
장치는 오디오 입력 신호의 제 1 채널 및 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성된 정규화기(110)를 포함한다. 정규화기(110)는 정규화 값에 따라, 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성된다.
예를 들어, 정규화기(110)는 일 실시예에서, 예를 들어 오디오 입력 신호의 제 1 채널 및 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성될 수 있고, 정규화기(110)는 예를 들어 정규화 값에 따라 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성될 수 있다.
또한, 예를 들어, 정규화기(110)는 예를 들어 시간 도메인에서 표현되는 오디오 입력 신호의 제 1 채널 및 시간 도메인에서 표현되는 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성될 수 있다. 또한, 정규화기(110)는 정규화 값에 따라, 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성된다. 장치는 정규화된 오디오 신호가 스펙트럼 도메인에서 표현되도록 정규화된 오디오 신호를 시간 도메인에서 스펙트럼 도메인으로 변환하도록 구성되는 변환 유닛(도 1a에 미도시)을 더 포함한다. 변환 유닛은 스펙트럼 도메인에 표현되는 정규화된 오디오 신호를 인코딩 유닛(120)에 공급하도록 구성된다. 예를 들어, 오디오 입력 신호는 예를 들어 시간 도메인 오디오 신호의 2개의 채널을 LPC(LPC = Linear Predictive Coding) 필터링함으로써 초래되는 시간 도메인 잔류 신호일 수 있다.
또한, 장치는 제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하도록 구성되는 인코딩 유닛(120)을 포함하고, 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이다. 인코딩 유닛(120)은 처리된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하도록 구성된다.
일 실시예에서, 인코딩 유닛(120)은 예를 들어 정규화된 오디오 신호의 제 1 채널의 복수의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 복수의 스펙트럼 대역에 따라 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하도록 구성될 수 있다.
이러한 실시예에서, 인코딩 유닛(120)은 예를 들어 풀 미드-사이드 인코딩 모드가 선택되는 경우, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널로부터의 미드 신호를 미드-사이드 신호의 제 1 채널로서 생성하고, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널로부터의 사이드 신호를 미드-사이드 신호의 제 2 채널로서 생성하고, 미드-사이드 신호를 인코딩하여 인코딩된 신호를 획득하도록 구성될 수 있다.
이러한 실시예에 따르면, 인코딩 유닛(120)은 예를 들어 풀 듀얼-모노 인코딩 모드가 선택되는 경우, 정규화된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하도록 구성될 수 있다.
또한, 이러한 실시예에서, 인코딩 유닛(120)은 대역별 인코딩 모드가 선택되는 경우, 제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하도록 구성될 수 있고, 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이고, 여기서 인코딩 유닛(120)은 처리된 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 획득하도록 구성될 수 있다.
일 실시예에 따르면, 오디오 입력 신호는 예를 들어 정확하게 2개의 채널을 포함하는 오디오 스테레오 신호일 수 있다. 예를 들어, 오디오 입력 신호의 제 1 채널은 예를 들어 오디오 스테레오 신호의 왼쪽 채널일 수 있고, 오디오 입력 신호의 제 2 채널은 예를 들어 오디오 스테레오 신호의 오른쪽 채널일 수 있다.
일 실시예에서, 인코딩 유닛(120)은 예를 들어 대역별 인코딩 모드가 선택되는 경우, 처리된 오디오 신호의 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 미드-사이드 인코딩이 이용되는지 또는 듀얼-모노 인코딩이 이용되는지 여부를 결정하도록 구성될 수 있다.
미드-사이드 인코딩이 상기 스펙트럼 대역에 대해 이용되는 경우, 인코딩 유닛(120)은 예를 들어 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역을 미드 신호의 스펙트럼 대역으로서 생성하도록 구성될 수 있다. 인코딩 유닛(120)은 예를 들어 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역을 사이드 신호의 스펙트럼 대역으로서 생성하도록 구성될 수 있다.
듀얼-모노 인코딩이 상기 스펙트럼 대역에 대해 이용되는 경우, 인코딩 유닛(120)은 예를 들어 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성될 수 있고, 예를 들어 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역을 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성될 수 있다. 또는 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 예를 들어 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역을 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성될 수 있다.
일 실시예에 따르면, 인코딩 유닛(120)은 예를 들어 풀 미드-사이드 인코딩 모드가 이용될 때 인코딩에 필요한 제 1 비트 수를 추정하는 제 1 추정치를 결정함으로써, 풀 듀얼-모노 인코딩 모드가 이용될 때 인코딩에 필요한 제 2 비트 수를 추정하는 제 2 추정치를 결정함으로써, 예를 들어 대역별 인코딩 모드가 이용될 수 있을 때 인코딩에 필요한 제 3 비트 수를 추정하는 제 3 추정치를 결정함으로써, 그리고 제 1 추정치, 제 2 추정치, 및 제 3 추정치 중 가장 작은 비트 수를 갖는, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 중에서의 인코딩 모드를 선택함으로써 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하도록 구성될 수 있다.
일 실시예에서, 인코딩 유닛(120)은 예를 들어
Figure pct00005
에 따라, 대역별 인코딩 모드가 이용될 때 인코딩에 필요한 제 3 비트 수를 추정하는 제 3 추정치
Figure pct00006
를 추정하도록 구성될 수 있으며,
여기서 nBands는 정규화된 오디오 신호의 스펙트럼 대역의 수이고, 여기서
Figure pct00007
은 미드 신호의 i번째 스펙트럼 대역을 인코딩하고 사이드 신호의 i번째 스펙트럼 대역을 인코딩하기 위해 필요한 비트 수에 대한 추정치이고, 여기서
Figure pct00008
은 제 1 신호의 i번째 스펙트럼 대역을 인코딩하고 상기 제 2 신호의 i번째 스펙트럼 대역을 인코딩하는 데 필요한 비트 수에 대한 추정치이다.
실시예에서, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하기 위한 객관적인 품질 척도가 예를 들어 사용될 수 있다.
일 실시예에 따르면, 인코딩 유닛(120)은 예를 들어 풀 미드-사이드 인코딩 모드로 인코딩할 때 절약되는 제 1 비트 수를 추정하는 제 1 추정치를 결정함으로써, 풀 듀얼-모노 인코딩 모드로 인코딩할 때 절약되는 제 2 비트 수를 추정하는 제 2 추정치를 결정함으로써, 예를 들어 대역별 인코딩 모드로 인코딩할 때 절약되는 인코딩에 필요한 제 3 비트 수를 추정하는 제 3 추정치를 결정함으로써, 그리고 제 1 추정치, 제 2 추정치, 및 제 3 추정치 중 절약된 가장 큰 비트 수를 갖는, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서의 인코딩 모드를 선택함으로써, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하도록 구성될 수 있다.
다른 실시예에서, 인코딩 유닛(120)은 예를 들어 풀 미드-사이드 인코딩 모드가 이용될 때 발생하는 제 1 신호대 잡음비를 추정함으로써, 풀 듀얼-모노 인코딩 모드가 이용될 때 발생하는 제 2 신호대 잡음비를 추정함으로써, 대역별 인코딩 모드가 이용될 때 발생하는 제 3 신호대 잡음비를 추정함으로써, 그리고 제 1 신호대 잡음비, 및 제 2 신호대 잡음비, 및 제 3 신호대 잡음비 중 가장 큰 신호대 잡음비를 갖는, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 중에서의 인코딩 모드를 선택함으로써, 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하도록 구성될 수 있다.
일 실시예에서, 정규화기(110)는 예를 들어 오디오 입력 신호의 제 1 채널의 에너지 및 오디오 입력 신호의 제 2 채널의 에너지에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성될 수 있다.
일 실시예에 따르면, 오디오 입력 신호는 예를 들어 스펙트럼 도메인에서 표현될 수 있다. 정규화기(110)는 예를 들어 오디오 입력 신호의 제 1 채널의 복수의 스펙트럼 대역 및 오디오 입력의 제 2 채널의 복수의 스펙트럼 대역에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성될 수 있다. 또한, 정규화기(110)는 예를 들어 정규화 값에 따라 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정함으로써 정규화된 오디오 신호를 결정하도록 구성될 수 있다.
일 실시예에서, 정규화기(110)는 예를 들어 공식:
Figure pct00009
에 기초하여 정규화 값을 결정하도록 구성될 수 있으며, 여기서 MDCTL,k는 오디오 입력 신호의 제 1 채널의 MDCT 스펙트럼의 제 k번째 계수이고, MDCTR,k는 오디오 입력 신호의 제 2 채널의 MDCT 스펙트럼의 k번째 계수이다. 정규화기(110)는 예를 들어 ILD를 양자화함으로써 정규화 값을 결정하도록 구성될 수 있다.
도 1b에 도시된 실시예에 따르면, 인코딩하기 위한 장치는 예를 들어 변환 유닛(102) 및 전처리 유닛(105)을 더 포함할 수 있다. 변환 유닛(102)은 예를 들어 시간 도메인 오디오 신호를 시간 도메인에서 주파수 도메인으로 변환하여 변환된 오디오 신호를 획득하도록 구성될 수 있다. 전처리 유닛(105)은 예를 들어 변환된 오디오 신호에 인코더 측 주파수 도메인 잡음 성형 연산을 적용함으로써 오디오 입력 신호의 제 1 채널 및 제 2 채널을 생성하도록 구성될 수 있다.
특정 실시예에서, 전처리 유닛(105)은 예를 들어 변환된 오디오 신호에 인코더 측 주파수 도메인 잡음 성형 연산을 적용하기 전에 변환된 오디오 신호에 인코더 측 시간 잡음 성형 연산을 적용함으로써 오디오 입력 신호의 제 1 채널 및 제 2 채널을 생성하도록 구성될 수 있다.
도 1c는 변환 유닛(115)을 더 포함하는, 다른 실시예에 따른 인코딩하기 위한 장치를 도시한다. 정규화기(110)는 예를 들어 시간 도메인에서 표현되는 오디오 입력 신호의 제 1 채널 및 시간 도메인에서 표현되는 오디오 입력 신호의 제 2 채널에 따라 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성될 수 있다. 또한, 정규화기(110)는 정규화 값에 따라, 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성될 수 있다. 변환 유닛(115)은 예를 들어 정규화된 오디오 신호가 스펙트럼 도메인에서 표현되도록 정규화된 오디오 신호를 시간 도메인에서 스펙트럼 도메인으로 변환하도록 구성될 수 있다. 또한, 변환 유닛(115)은 예를 들어 스펙트럼 도메인에 표현되는 정규화된 오디오 신호를 인코딩 유닛(120)에 공급하도록 구성될 수 있다.
도 1d는 다른 실시예에 따른 인코딩하기 위한 장치를 도시하며, 여기서 장치는 제 1 채널 및 제 2 채널을 포함하는 시간 도메인 오디오 신호를 수신하도록 구성되는 전처리 유닛(106)을 더 포함한다. 전처리 유닛(106)은 예를 들어 필터를 시간 도메인 오디오 신호의 제 1 채널에 적용하여 제 1 지각적으로 백색화된 스펙트럼을 생성해 시간 도메인에서 표현되는 오디오 입력 신호의 제 1 채널을 획득하도록 구성될 수 있다. 또한, 전처리 유닛(106)은 예를 들어 필터를 시간 도메인 오디오 신호의 제 2 채널에 적용하여 제 2 지각적으로 백색화된 스펙트럼을 생성해 시간 도메인에서 표현되는 오디오 입력 신호의 제 2 채널을 획득하도록 구성될 수 있다.
도 1e에 도시된 실시예에서, 변환 유닛(115)은 예를 들어 정규화된 오디오 신호를 시간 도메인에서 스펙트럼 도메인으로 변환하여 변환된 오디오 신호를 획득하도록 구성될 수 있다. 도 1e의 실시예에서, 장치는 변환된 오디오 신호에 인코더 측 시간 잡음 성형을 수행하여 스펙트럼 도메인에서 표현되는 정규화된 오디오 신호를 획득하도록 구성되는 스펙트럼 도메인 전처리기(118)를 더 포함한다.
일 실시예에 따르면, 인코딩 유닛(120)은 예를 들어 정규화된 오디오 신호 또는 처리된 오디오 신호에 인코더 측 스테레오 지능형 갭 필링(Stereo Intelligent Gap Filling)을 적용하여 인코딩된 오디오 신호를 획득하도록 구성될 수 있다.
도 1에 도시된 다른 실시예에서, 인코딩된 오디오 신호를 획득하기 위해 4개 이상의 채널을 포함하는 오디오 입력 신호의 4개의 채널을 인코딩하기 위한 시스템이 제공된다. 시스템은 오디오 입력 신호의 4개 이상의 채널 중 제 1 채널 및 제 2 채널을 인코딩하여 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위한 전술한 실시예 중 하나에 따른 제 1 장치(170)를 포함한다. 또한, 시스템은 오디오 입력 신호의 4개 이상의 채널 중 제 3 채널 및 제 4 채널을 인코딩하여 인코딩된 오디오 신호의 제 3 채널 및 제 4채널을 획득하기 위한 전술한 실시예 중 하나에 따른 제 2 장치(180)를 포함한다.
도 2a는 일 실시예에 따른 디코딩된 오디오 신호를 획득하기 위해 제 1 채널 및 제 2 채널을 포함하는 인코딩된 오디오 신호를 디코딩하는 장치를 도시한다.
디코딩하기 위한 장치는 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역과 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하도록 구성된 디코딩 유닛(210)을 포함한다.
디코딩 유닛(210)은 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성된다.
또한, 디코딩 유닛(210)은 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하도록 구성된다.
또한, 디코딩하기 위한 장치는 정규화해제 값에 따라 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성된 정규화해제기(220)를 포함한다.
일 실시예에서, 디코딩 유닛(210)은 예를 들어 인코딩된 오디오 신호가 풀 미드-사이드 인코딩 모드 또는 풀 듀얼-모노 인코딩 모드 또는 대역별 인코딩 모드로 인코딩되는지 여부를 결정하도록 구성될 수 있다.
또한, 이러한 실시예에서, 디코딩 유닛(210)은 예를 들어 인코딩된 오디오 신호가 풀 미드-사이드 인코딩 모드로 인코딩되었다고 결정되는 경우, 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널로부터 중간 오디오 신호의 제 1 채널을 생성하고, 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널로부터 중간 오디오 신호의 제 2 채널을 생성하도록 구성될 수 있다.
이러한 실시예에 따르면, 디코딩 유닛(210)은 예를 들어 인코딩된 오디오 신호가 풀 듀얼-모노 인코딩 모드로 인코딩되었다고 결정되는 경우, 인코딩된 오디오 신호의 제 1 채널을 중간 오디오 신호의 제 1 채널로서 사용하고, 인코딩된 오디오 신호의 제 2 채널을 중간 오디오 신호의 제 2 채널로서 사용하도록 구성될 수 있다.
또한, 이러한 실시예에서, 디코딩 유닛(210)은 예를 들어 인코딩된 오디오 신호가 대역별 인코딩 모드로 인코딩되었다고 결정되는 경우,
- 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역과 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하고,
- 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하고,
- 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하도록 구성될 수 있다.
예를 들어, 풀 미드-사이드 인코딩 모드에서, 공식:
Figure pct00010
, 및
Figure pct00011
이 예를 들어 적용되어 중간 오디오 신호의 제 1 채널(L)을 획득하고 중간 오디오 신호의 제 2 채널(R)을 획득할 수 있으며, M은 인코딩된 오디오 신호의 제 1 채널이고, S는 인코딩된 오디오 신호의 제 2 채널이다.
일 실시예에 따르면, 디코딩된 오디오 신호는 예를 들어 정확하게 2개의 채널을 포함하는 오디오 스테레오 신호일 수 있다. 예를 들어, 디코딩된 오디오 신호의 제 1 채널은 예를 들어 오디오 스테레오 신호의 왼쪽 채널일 수 있고, 디코딩된 오디오 신호의 제 2 채널은 예를 들어 오디오 스테레오 신호의 오른쪽 채널일 수 있다.
일 실시예에 따르면, 정규화해제기(220)는 예를 들어 정규화해제 값에 따라 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성될 수 있다.
도 2b에 도시된 다른 실시예에 따르면, 정규화해제기(220)는 예를 들어 정규화해제 값에 따라 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정하여 정규화해제된 오디오 신호를 획득하도록 구성될 수 있다. 이러한 실시예에서, 장치는 예를 들어 후처리 유닛(230) 및 변환 유닛(235)을 더 포함할 수 있다. 후처리 유닛(230)은 예를 들어 정규화해제된 오디오 신호에 대한 디코더 측 시간 잡음 성형 및 디코더 측 주파수 도메인 잡음 성형 중 적어도 하나를 수행하여 후처리된 오디오 신호를 획득하도록 구성될 수 있다. 변환 유닛(235)은 예를 들어 스펙트럼 도메인으로부터 시간 도메인으로 후처리된 오디오 신호를 변환하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성될 수 있다.
도 2c에 도시된 실시예에 따르면, 장치는 스펙트럼 도메인으로부터 시간 도메인으로 중간 오디오 신호를 변환하도록 구성된 변환 유닛(215)을 더 포함한다. 정규화해제기(220)는 예를 들어 정규화해제 값에 따라, 시간 도메인에서 표현되는 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제2 채널을 획득하도록 구성될 수 있다.
도 2d에 도시된 유사한 실시예에서, 변환 유닛(215)은 예를 들어 스펙트럼 도메인으로부터 시간 도메인으로 중간 오디오 신호를 변환하도록 구성될 수 있다. 정규화해제기(220)는 예를 들어 정규화해제 값에 따라, 시간 도메인에서 표현되는 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 정규화해제된 오디오 신호를 획득하도록 구성될 수 있다. 장치는 예를 들어 지각적으로 백색화된 오디오 신호인 정규화해제된 오디오 신호를 처리하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성될 수 있는 후처리 유닛(235)을 더 포함한다.
도 2e에 도시된 다른 실시예에 따르면, 장치는 중간 오디오 신호에 디코더 측 시간 잡음 성형을 수행하도록 구성되는 스펙트럼 도메인 후처리기(212)를 더 포함한다. 이러한 실시예에서, 변환 유닛(215)은 디코더 측 시간 잡음 성형이 중간 오디오 신호에 수행된 후에 스펙트럼 도메인으로부터 시간 도메인으로 중간 오디오 신호를 변환하도록 구성된다.
다른 실시예에서, 디코딩 유닛(210)은 예를 들어 인코딩된 오디오 신호에 디코더 측 스테레오 지능형 갭 필링을 적용하도록 구성될 수 있다.
또한, 도 2f에 도시된 바와 같이, 개 이상의 채널을 포함하는 4개의 디코딩된 오디오 신호의 4개의 채널을 획득하기 위해 4개 이상의 채널을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 시스템이 제공된다. 시스템은 인코딩된 오디오 신호의 4개 이상의 채널 중 제 1 채널 및 제 2 채널을 디코딩하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위한 전술한 실시예 중 하나에 따른 제 1 장치(270)를 포함한다. 또한, 시스템은 인코딩된 오디오 신호의 4개 이상의 채널 중 제 3 채널 및 제 4 채널을 디코딩하여 디코딩된 오디오 신호의 제 3 채널 및 제 3 채널을 획득하기 위한 전술한 실시예 중 하나에 따른 제 2 장치(280)를 포함한다.
도 3은 일 실시예에 따른, 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템을 도시한다.
시스템은 전술한 실시예 중 하나에 따라 인코딩하기 위한 장치(310)를 포함하며, 여기서 인코딩하기 위한 장치(310)는 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하도록 구성된다.
또한, 시스템은 전술한 바와 같은 디코딩하기 위한 장치(320)를 포함한다. 디코딩하기 위한 장치(320)는 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하도록 구성된다.
유사하게, 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템이 제공된다. 시스템은 도 1f의 실시예에 따른 시스템 - 여기서 도 1f의 실시예에 따른 시스템은 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하도록 구성됨 -, 및 도 2f의 실시예에 따른 시스템 - 여기서 도 2f의 실시예의 시스템은 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하도록 구성됨- 을 포함한다.
이하에서, 바람직한 실시예가 설명된다.
도 4는 다른 실시예에 따른 인코딩하기 위한 장치를 도시한다. 특히, 특정 실시예에 따른 전처리 유닛(105) 및 변환 유닛(102)이 도시되어 있다. 변환 유닛(102)은 특히 오디오 입력 신호의 시간 도메인으로부터 스펙트럼 도메인으로의 변환을 수행하도록 구성되고, 변환 유닛은 오디오 입력 신호에 인코더 측 시간 잡음 성형 및 인코더 측 주파수 도메인 잡음 성형을 수행하도록 구성된다.
또한, 도 5는 일 실시예에 따른 인코딩하기 위한 장치의 스테레오 처리 모듈을 도시한다. 도 5는 정규화기(110) 및 인코딩 유닛(120)을 도시한다.
또한, 도 6은 다른 실시예에 따른 디코딩하기 위한 장치를 도시한다. 특히, 도 6은 특정 실시예에 따른 후처리 유닛(230)을 도시한다. 후처리 유닛(230)은 특히 정규화해제기(220)로부터 처리된 오디오 신호를 획득하도록 구성되고, 후처리 유닛(230)은 처리된 오디오 신호에 디코더 측 시간 잡음 성형 및 디코더 측 주파수 도메인 잡음 성형 중 적어도 하나를 수행하도록 구성된다.
시간 도메인 과도 검출기(Time Domain Transient Detector, TD TD), 윈도우화, MDCT, MDST, 및 OLA가 예를 들어 [6a] 또는 [6b]에서 설명된 바와 같이 수행될 수 있다. MDCT 및 MDST는 MCLT(Modulated Complex Lapped Transform)를 형성한다; MDCT 및 MDST를 별도로 수행하는 것은 MCLT를 수행하는 것과 동일하다; "MCLT에서 MDCT로"는 MCLT의 MDCT 부분만 가져오고 MDST는 버리는 것을 나타낸다([12] 참조).
왼쪽 채널 및 오른쪽 채널에서 상이한 윈도우 길이를 선택하는 것은 예를 들어 해당 프레임에서 듀얼-모노 코딩을 강제할 수 있다.
시간 잡음 성형(Temporal Noise Shaping, TNS)이 예를 들어 [6a] 또는 [6b]에서 설명된 것과 유사하게 수행될 수 있다.
주파수 도메인 잡음 성형(frequency domain noise shaping, FDNS) 및 FDNS 파라미터의 계산은 예를 들어 [8]에서 설명된 절차와 유사할 수 있다. 한 가지 차이점은 예를 들어 TNS가 비활성인 프레임에 대한 FDNS 파라미터가 MCLT 스펙트럼으로부터 계산된다는 것일 수 있다. TNS가 활성인 프레임에서, MDST는 예를 들어 MDCT로부터 추정될 수 있다.
FDNS는 또한 (예를 들어, [13]에서 설명된 바와 같이) 시간 도메인에서 지각적 스펙트럼 백색화로 대체될 수 있다.
스테레오 처리는 전역 ILD 처리, 대역별 M/S 처리, 채널 간 비트레이트 분배로 구성된다.
단일 전역 ILD는
Figure pct00012
와 같이 계산되며, 여기서 MDCTL,k는 왼쪽 채널의 MDCT 스펙트럼의 k번째 계수이고, MDCTR,k는 오른쪽 채널의 MDCT 스펙트럼의 k번째 계수이다. 전역 ILD는 균일하게 양자화되며:
Figure pct00013
여기서 ILDbits는 전역 ILD를 코딩하는 데 사용되는 비트 수이다.
Figure pct00014
은 비트스트림에 저장된다.
<<는 비트 시프트 연산이며, 0 비트를 삽입함으로써 ILDbits만큼 왼쪽으로 비트를 시프팅한다.
다시 말해:
Figure pct00015
이다.
그러면, 채널의 에너지 비율은
Figure pct00016
이다.
ratioILD > 1인 경우 오른쪽 채널은
Figure pct00017
으로 스케일링되고, 그렇지 않으면 왼쪽 채널이 ratioILD로 스케일링된다. 이것은 사실상 소리가 더 큰 채널이 스케일링됨을 의미한다.
(예를 들어, [13]에서 설명된 바와 같이) 시간 도메인에서의 지각적 스펙트럼 백색화가 사용되는 경우, 시간-주파수 도메인 변환 전에(즉, MDCT 전에), 시간 도메인에서 단일 전역 ILD가 또한 계산되고 적용될 수 있다. 또는, 대안적으로, 지각적 스펙트럼 백색화에는 뒤이어 시간-주파수 도메인 변환이 오고, 뒤이어 주파수 도메인에서의 단일 전역 ILD가 올 수 있다. 대안적으로, 단일 전역 ILD는 시간-주파수 도메인 변환 전에 시간 도메인에서 계산되어 시간-주파수 도메인 변환 후에 주파수 영역에서 적용될 수 있다.
미드 MDCTM,k 채널 및 사이드 MDCTS,k 채널은
Figure pct00018
Figure pct00019
에 따라 왼쪽 채널 MDCTL,k 및 오른쪽 채널 MDCTR,k를 사용하여 형성된다. 스펙트럼은 대역으로 나눠지고, 각각의 대역에 대해 왼쪽, 오른쪽, 미드, 또는 사이드 채널이 사용되는지가 결정된다.
전역 이득 Gest가 연결된 왼쪽 채널 및 오른쪽 채널을 포함하는 신호에 대해 추정된다. 따라서, [6b] 및 [6a]와는 상이하다. 예를 들어 [6b] 또는 [6a]의 5.3.3.2.8.1.1 장 "전역 이득 추정기"에 설명된 바와 같은 이득의 제 1 추정은 예를 들어 스칼라 양자화로부터 비트당 샘플마다 6dB의 SNR 이득을 가정한다.
추정된 이득은 최종 Gest에서의 과소 평가치 또는 과대 평가치를 얻기 위해 상수가 곱해질 수 있다. 그러면, 왼쪽, 오른쪽, 미드, 및 사이드 채널의 신호는 Gest를 사용하여 양자화된다, 즉 양자화 스텝 크기는 1/Gest이다.
그 다음에, 양자화된 신호는 산술 코더, 허프만 코더, 또는 임의의 다른 엔트로피 코더를 사용하여 코딩되어 필요한 비트 수를 얻는다. 예를 들어, [6b] 또는 [6a]의 5.3.3.2.8.1.3 장 - 5.3.3.2.8.1.7 장에 설명된 컨텍스트 기반 산술 코더가 사용될 수 있다. 레이트 루프(예를 들어, [6b] 또는 [6a]의 5.3.3.2.8.1.2)는 스테레오 코딩 후에 실행되기 때문에, 필요한 비트의 추정이 충분하다.
예로서, 각각의 양자화된 채널에 대해, 컨텍스트 기반 산술 부호화에 필요한 비트 수는 [6b] 또는 [6a]의 5.3.3.2.8.1.3 장 - 5.3.3.2.8.1.7 장에 설명된 바와 같이 추정된다.
일 실시예에 따르면, 각각의 양자화된 채널(왼쪽, 오른쪽, 미드, 또는 사이드)에 대한 비트 추정은 다음의 예시적인 코드에 기초하여 결정된다:
Figure pct00020
Figure pct00021
여기서 스펙트럼은 코딩될 양자화된 스펙트럼을 가리키도록 설정되고, start_line은 0으로 설정되고, end_line은 스펙트럼의 길이로 설정되고, lastnz는 스펙트럼의 마지막 0이 아닌 요소의 인덱스로 설정되고, ctx는 0으로 설정되고, 확률은 14 비트 고정 소수점 표기법에서 1로 설정된다(16384=1<<14).
개략적으로 설명한 같이, 상기 예시적인 코드는 예를 들어 왼쪽 채널, 오른쪽 채널, 미드 채널, 및 사이드 채널 중 적어도 하나에 대한 비트 추정치를 획득하기 위해 이용될 수 있다.
일부 실시예는 [6b] 및 [6a]에서 설명된 바와 같이 산술 코더를 이용한다. 더 자세한 것은 예를 들어 [6b]의 5.3.3.2.8 "산술 코더" 장에서 찾을 수 있다.
"풀 듀얼 모노"에 대한 추정된 비트 수(bLR)는 그러면 오른쪽 채널과 왼쪽 채널에 필요한 비트의 합과 같다.
"풀 M/S"에 대한 추정된 비트 수(bMS)는 그러면 미드 채널 및 사이드 채널에 필요한 비트의 합과 같다.
상기 예시적인 코드의 대안인 대안적인 실시예에서, 공식:
Figure pct00022
이 "풀 듀얼 모노"에 대한 추정된 비트 수(bLR)를 계산하는 데 이용될 수 있다.
또한, 상기 예시적인 코드의 대안인 대안적인 실시예에서, 공식:
Figure pct00023
이 "풀 M/S"에 대한 추정된 비트 수(bMS)를 계산하는 데 이용될 수 있다.
경계
Figure pct00024
를 갖는 각각의 대역 i에 대해, L/R(
Figure pct00025
) 및 M/S(
Figure pct00026
) 모드의 대역에서 양자화된 신호를 코딩하는 데 얼마나 많은 비트가 사용될지가 검사된다. 다시 말해, 각각의 대역 i에 대해 L/R 모드에 대한 대역별 비트 추정이 수행되며(
Figure pct00027
), 이는 대역 i에 대한 L/R 모드 대역별 비트 추정을 야기하고, 각각의 대역 i에 대해 M/S 모드에 대한 대역별 비트 추정이 수행되며(
Figure pct00028
), 이는 대역 i에 대해 M/S 모드 대역별 비트 추정을 야기한다.
비트 수가 적은 모드가 대역을 위해 선택된다. 컨텍스트 기반 산술 부호화에 필요한 비트 수는 [6b] 또는 [6a]의 5.3.3.2.8.1.3 장 - 5.3.3.2.8.1.7 장에 설명된 바와 같이 추정된다. "대역별 M/S"모드에서 스펙트럼을 코딩하는 데 필요한 총 비트 수(bBW)는
Figure pct00029
의 합과 같다:
Figure pct00030
"대역별 M/S"모드는 L/R 또는 M/S 코딩이 사용되는지 여부를 각각의 대역에서 시그널링하기 위한 추가 비트가 필요하다. "대역별 M/S", "풀 듀얼 모노", 및 "풀 M/S" 사이의 선택은 예를 들어 비트스트림에 스테레오 모드로서 코딩되고, 그러면 "풀 듀얼 모노" 및 "풀 M/S"는 "대역별 M/S"와 비교하여, 시그널링을 하기 위해 추가 비트가 필요 없다.
컨텍스트 기반 산술 코더의 경우,
Figure pct00031
Figure pct00032
이 이전의
Figure pct00033
Figure pct00034
의 컨텍스트의 선택에 따라 달라지기 때문에, bLR의 계산에 사용된
Figure pct00035
은 bBW의 계산에 사용된
Figure pct00036
과 같지 않거나, bMS에 사용된
Figure pct00037
은 bBW의 계산에 사용된
Figure pct00038
과 같지 않고, 여기서 j <i이다. bLR은 왼쪽 채널 및 오른쪽 채널에 대한 비트의 합으로서 계산될 수 있고, bMS는 미드 채널 및 사이드 채널에 대한 비트의 합으로서 계산될 수 있고, 여기서 각각의 채널의 비트는 예시 코드 context_based_arihmetic_coder_estimate_bandwise를 사용하여 계산될 수 있고, 여기서 start_line은 0으로 설정되고, end_line은 lastnz로 설정된다.
상기 예시적인 코드의 대안인 대안적인 실시예에서, 공식:
Figure pct00039
이 예를 들어 "풀 듀얼 모노"에 대한 추정된 비트 수(bLR)를 계산하는 데 이용될 수 있고, 각각의 대역 L/R 코딩에서의 시그널링이 사용될 수 있다.
또한, 상기 예시적인 코드의 대안인 대안적인 실시예에서, 공식:
Figure pct00040
이 예를 들어 "풀 M/S"에 대한 추정된 비트 수(bMS)를 계산하는 데 이용될 수 있고, 각각의 대역 M/S 코딩에서의 시그널링이 사용될 수 있다.
일부 실시예에서, 우선, 이득 G가 예를 들어 추정될 수 있고, L/R에서 채널을 코딩하기에 충분한 비트가 예상되는 양자화 스텝 크기가 예를 들어 추정될 수 있다.
이하에서는, 대역별 비트 추정치를 결정하는 상이한 방식을 설명하는 실시예가 제공된다, 예를 들어 특정 실시예에 따라
Figure pct00041
Figure pct00042
을 결정하는 방법이 설명된다.
이미 개략적으로 설명한 바와 같이, 특정 실시예에 따르면, 각각의 양자화된 채널에 대해, 산술 코딩에 필요한 비트 수는 예를 들어 [6b]의 5.3.3.2.8.1.7 장 "비트 소비량 추정"또는 [6a]의 유사한 장에서 설명된 바와 같이 추정된다.
일 실시예에 따르면, 대역별 비트 추정치는 start_line을 lbi로, end_line을 ubi, lastnz를 스펙트럼의 마지막 0이 아닌 요소의 인덱스로 설정함으로써, i마다
Figure pct00043
Figure pct00044
각각을 계산하기 위한 context_based_arihmetic_coder_estimate를 사용하여 결정된다.
4개의 컨텍스트(ctxL, ctxR, ctxM, ctxM) 및 4개의 확률(pL, pR, pM, pM)이 초기화되고, 그 다음에 반복적으로 업데이트된다.
추정의 시작(i = 0)인 경우에서, 각각의 컨텍스트(ctxL, ctxR, ctxM, ctxM)는 0으로 설정되고, 각각의 확률(pL, pR, pM, pM)은 14 비트 고정 소수점 표기법에서 1로 설정된다(16384=1<<14).
Figure pct00045
Figure pct00046
Figure pct00047
의 합으로 계산되며, 여기서
Figure pct00048
은 코딩될 양자화된 왼쪽 스펙트럼을 가리키도록 스펙트럼을 설정함으로써 context_based_arihmetic_coder_estimate를 사용하여 결정되고 - ctx는 ctxL로 설정되고 확률은 pL로 설정됨 -,
Figure pct00049
은 코딩될 양자화된 오른쪽 스펙트럼을 가리키도록 스펙트럼을 설정함으로써 context_based_arihmetic_coder_estimate를 사용하여 결정된다 - ctx는 ctxR로 설정되고 확률은 pR로 설정됨-.
Figure pct00050
Figure pct00051
Figure pct00052
의 합으로 계산되며, 여기서
Figure pct00053
은 코딩될 양자화된 미드 스펙트럼을 가리키도록 스펙트럼을 설정함으로써 context_based_arihmetic_coder_estimate를 사용하여 결정되고 - ctx는 ctxM로 설정되고 확률은 pM로 설정됨 -,
Figure pct00054
는 코딩될 양자화된 사이드 스펙트럼을 가리키도록 스펙트럼을 설정함으로써 context_based_arihmetic_coder_estimate를 사용하여 결정된다 - ctx는 ctxS로 설정되고 확률은 pS로 설정됨-.
Figure pct00055
인 경우, ctxL은 ctxM으로 설정되고, ctxR은 ctxS로 설정되고, pL은 pM으로 설정되고, pR은 pS로 설정된다.
Figure pct00056
인 경우, ctxM은 ctxL로 설정되고, ctxS는 ctxR로 설정되고, pM은 pL로 설정되고, pS는 pR로 설정된다.
대안적인 실시예에서, 대역별 비트 추정치는 다음과 같이 획득된다:
스펙트럼은 대역으로 나눠지고, 각각의 대역에 대해 M/S 처리가 수행되어야 하는지가 결정된다. M/S가 사용되는 모든 대역에 대해, MDTCL,k 및 MDCTR,k
Figure pct00057
Figure pct00058
으로 대체된다.
대역별 M/S 대 L/R 결정은 예를 들어 M/S 처리로 추정된 비트 절약에 기초할 수 있다:
Figure pct00059
여기서 NRGR,i는 오른쪽 채널의 i번째 대역의 에너지이고, NRGL,i는 왼쪽 채널의 i번째 대역의 에너지이고, NRGM,i는 미드 채널의 i번째 대역의 에너지, NRGS,i는 사이드 채널의 i번째 대역의 에너지이고, nlinesi은 i번째 대역의 스펙트럼 계수의 수이다. 미드 채널은 왼쪽 및 오른쪽 채널의 합이며, 사이드 채널은 왼쪽 및 오른쪽 채널의 차이이다.
bitsSavedi은 i번째 대역에 대해 사용될 추정된 비트 수로 제한된다:
Figure pct00060
도 7은 일 실시예에 따른 대역별 M/S 결정을 위해 비트레이트를 계산하는 것을 도시한다.
특히, 도 7에서, bBW를 계산하기 위한 프로세스가 도시된다. 복잡성을 감소시키기 위해, bandi-1까지의 스펙트럼을 코딩하기 위한 산술 코더 컨텍스트가 저장되고 bandi에서 재사용된다.
컨텍스트 기반 산술 코더의 경우,
Figure pct00061
Figure pct00062
은 예를 들어 전술한 바와 같이 모든 j < i인 대역에서 M/S 대 L/R 선택에 따른 산술 코더 컨텍스트에 의존한다는 점에 유의해야 한다.
도 8은 일 실시예에 따른 스테레오 모드 결정을 도시한다.
"풀 듀얼 모노"가 선택되는 경우, 완전한 스펙트럼은 MDCTL,k 및 MDCTR,k로 구성된다. "풀 M/S"가 선택되는 경우, 완전한 스펙트럼은 MDCTM,k 및 MDCTS,k로 구성된다. "대역별 M/S"가 선택되는 경우, 스펙트럼의 일부 대역은 MDCTL,k 및 MDCTR,k로 구성되고, 다른 대역은 MDCTM,k 및 MDCTS,k로 구성된다.
스테레오 모드는 비트스트림으로 코딩된다. "대역별 M/S"모드에서도, 대역별 M/S 결정이 비트스트림에 코딩된다.
스테레오 처리 후의 2개의 채널에서의 스펙트럼의 계수는 MDCTLM,k 및 MDCTRS,k로 표시된다. 스트레오 모드 및 대역별 M/S 결정에 따라, MDCTLM,k는 M/S 대역의 MDCTM,k 또는 L/R 대역의 MDCTL,k와 동일하고, MDCTRS,k는 M/S 대역의 MDCTS,k 또는 L/R 대역의 MDCTR,k와 동일하다. MDCTLM,k로 구성되는 스펙트럼은 예를 들어 공동으로 코딩된 채널 0(조인트 채널 0)으로 지칭될 수 있거나, 예를 들어 제 1 채널로 지칭될 수 있고, MDCTRS,k로 구성되는 스펙트럼은 예를 들어 공동으로 코딩된 채널 1(조인트 채널 1)로 지칭될 수 있거나, 예를 들어 제 2 채널로 지칭될 수 있다.
비트레이트 분할 비율은 스테레오 처리된 채널의 에너지를 사용하여 계산된다:
Figure pct00063
비트레이트 분할 비율은 균일하게 양자화된다:
Figure pct00064
여기서
Figure pct00065
은 비트레이트 분할 비율을 코딩하는 데 사용되는 비트 수이다.
Figure pct00066
이고
Figure pct00067
이면,
Figure pct00068
인 경우
Figure pct00069
이 감소된다.
Figure pct00070
이고
Figure pct00071
이면,
Figure pct00072
인 경우
Figure pct00073
이 증가된다.
Figure pct00074
은 비트스트림에 저장된다.
채널들 사이의 비트레이트 분배는
Figure pct00075
이다.
또한,
Figure pct00076
Figure pct00077
을 체크하여 각각의 채널에서 엔트로피 코더에 충분한 비트가 있는지 확실히 확인해야 하며, 여기서 minBits는 엔트로피 코더에 의해 요구되는 최소 비트 수이다. 엔트로피 코더를 위한 비트가 충분하지 않는 경우,
Figure pct00078
Figure pct00079
이 충족될 때까지
Figure pct00080
이 1만큼 증가/감소한다.
레이트 루프를 포함하여 양자화, 잡음 필링, 및 엔트로피 인코딩은 [6b] 또는 [6a]의 5.3.3 "MDCT 기반 TCX"의 5.3.3.2 "일반적인 인코딩 절차"에 설명되어 있다. 레이트 루프는 추정된 Gest를 사용하여 최적화될 수 있다. 파워 스펙트럼 P(MCLT의 크기)가 [6a] 또는 [6b]에서 설명된 바와 같이 양자화 및 지능형 갭 필링(IGF)의 음조/잡음 측정에 사용된다. 백색화되고 대역별 M/S 처리된 MDCT 스펙트럼이 파워 스펙트럼에 사용되기 때문에, 동일한 FDNS 및 M/S 처리가 MDST 스펙트럼에서 수행될 것이다. 소리가 더 큰 채널의 전역 ILD를 기초한 동일한 스케일링이 MDCT에 수행된 것처럼 MDST에 수행될 것이다. TNS가 활성인 프레임의 경우, 파워 스펙트럼 계산에 사용되는 MDST 스펙트럼은 백색화되고 M/S 처리된 MDCT 스펙트럼으로부터 추정된다: Pk = MDCTk 2 +(MDCTk+1 - MDCTk-1)2.
디코딩 프로세스는 공동으로 코딩된 채널의 스펙트럼의 디코딩 및 역 양자화를 시작하며, [6b] 또는 [6a]의 6.2.2 "MDCT 기반 TCX"에 설명된 바와 같은 잡음 필링이 뒤따른다. 각각의 채널에 할당된 비트 수는 비트스트림에서 코딩된 윈도우 길이, 스테레오 모드, 및 비트레이트 분할 비율에 따라 결정된다. 각각의 채널에 할당된 비트 수는 비트스트림을 완전히 디코딩하기 전에 알려져야 한다.
지능형 갭 필링(IGF) 블록에서, 타겟 타일이라고 불리는, 스펙트럼의 특정 범위에서 0으로 양자화된 라인은 소스 타일이라고 불리는, 스펙트럼의 상이한 범위로부터 처리된 컨텐츠로 필링된다. 대역별 스테레오 처리로 인해, 소스 및 타겟 타일에 대한 스테레오 표현(즉, L/R 또는 M/S)이 상이할 수 있다. 양호한 품질을 보장하기 위해, 소스 타일의 표현이 타겟 타일의 표현과 상이한 경우, 소스 타일은 디코더에서의 갭 필링 전에 타겟 파일의 표현으로 그것을 변환하도록 처리된다. 이 절차는 [9]에 이미 설명되어 있다. IGF 자체는 [6a]와 [6b]와는 반대로, 원래의 스펙트럼 도메인 대신에 백색화된 스펙트럼 도메인에 적용된다. 공지된 스테레오 코덱(예를 들어, [9])과는 달리, IGF는 백색화되고 ILD로 보상된 스펙트럼 도메인에 적용된다.
스테레오 모드 및 대역별 M/S 결정에 기초하여, 왼쪽과 오른쪽 채널은 공동으로 코딩된 채널로 구성된다:
Figure pct00081
Figure pct00082
.
ratioILD > 1인 경우, 오른쪽 채널이 ratioILD로 스케일링되고, 그렇지 않으면 왼쪽 채널이
Figure pct00083
로 스케일링된다.
0으로 나눌 수 있는 각각의 경우에, 작은 엡실론이 분모에 추가된다.
중간 비트레이트, 예를 들어 48 kbps인 경우, MDCT 기반 코딩은 예를 들어 비트 소비 타겟에 맞추기 위해 너무 거친 스펙트럼의 양자화를 야기할 수 있다. 이는 동일한 스펙트럼 영역에서 이산 코딩과 결합되고, 프레임 단위로 구성되고, 충실도를 증가시키는 파라메트릭 코딩의 필요성을 높인다.
이하에서는, 스테레오 필링을 이용하는 실시예 중 일부의 양태가 설명된다. 상기 실시예에 있어서, 스테레오 필링이 이용될 필요는 없다는 것에 유의해야 한다. 따라서, 전술한 실시예 중 일부만이 스테레오 필링을 사용한다. 전술한 실시예 중 다른 실시예는 스테레오 필링을 전혀 이용하지 않는다.
MPEG-H 주파수 도메인 스테레오의 스테레오 주파수 필링은 예를 들어 [11]에 설명되어 있다. [11]에서, 각각의 대역에 대한 타겟 에너지는 스케일 인자의 형태로 인코더로부터 전송된 대역 에너지를 이용하여 달성된다(예를 들어, AAC에서). 주파수 도메인 잡음 성형(frequency-domain noise shaping, FDNS)이 적용되고 스펙트럼 엔벨로프가 LSF(line spectral frequency)를 사용하여 코딩되는 경우([6a], [6b], [8] 참조), [11]에 설명된 스테레오 필링 알고리즘에서 요구되는 바와 같이 일부 주파수 대역(스펙트럼 대역)에 대해서만 스케일링을 변경할 수는 없다.
처음에, 몇 가지 배경 정보가 제공된다.
미드/사이드 코딩이 이용될 때, 사이드 신호를 상이한 방식으로 인코딩하는 것이 가능하다.
제 1 그룹의 실시예에 따르면, 사이드 신호 S는 미드 신호 M과 동일한 방식으로 인코딩된다. 양자화가 수행되지만, 필요한 비트레이트를 감소시키기 위한 추가 단계는 수행되지 않는다. 일반적으로, 이러한 접근법은 디코더 측에서 사이드 신호 S의 상당히 정확한 재구성을 허용하는 것을 목표로 하지만, 한편으로는 인코딩을 위해 많은 양의 비트를 필요로 한다.
제 2 그룹의 실시예에 따르면, M 신호에 기초하여 원래의 사이드 신호 S로부터 잔류 사이드 신호 Sres가 생성된다. 일 실시예에서, 잔류 사이드 신호는 예를 들어 공식
Figure pct00084
에 따라 계산될 수 있다.
다른 실시예는 예를 들어 잔류 사이드 신호에 대한 다른 정의를 이용할 수 있다.
잔류 신호 Sres는 양자화되어 파라미터 g와 함께 디코더에 송신된다. 원래의 사이드 신호 S 대신에 잔류 신호 Sres를 양자화함으로써, 일반적으로 더 많은 스펙트럼 값이 0으로 양자화된다. 이는 일반적으로 양자화된 원래의 사이드 신호 S와 비교하여 인코딩 및 송신에 필요한 비트의 양을 절약한다.
제 2 그룹의 실시예 중 이들 실시예 일부에서, 단일 스펙트럼 g가 완전한 스펙트럼에 대해 결정되어 디코더에 송신된다. 제 2 그룹의 실시예의 다른 실시예에서, 주파수 스펙트럼의 복수의 주파수 대역/스펙트럼 대역 각각은 예를 들어 2개 이상의 스펙트럼 값을 포함할 수 있고, 파라미터 g는 주파수 대역/스펙트럼 대역 각각에 대해 결정되어 디코더에 송신된다.
도 12는 스테레오 필링을 이용하지 않는 제 1 또는 제 2 그룹의 실시예에 따른 인코더 측의 스테레오 처리를 도시한다.
도 13은 스테레오 필링을 이용하지 않는 제 1 또는 제 2 그룹의 실시예에 따른 디코더 측의 스테레오 처리를 도시한다.
제 3 그룹의 실시예에 따르면, 스테레오 필링이 이용된다. 이들 실시예 중 일부에서는, 디코더 측에서, 특정 시점 t에 대한 사이드 신호 S가 직전 시점 t-1의 미드 신호로부터 생성된다.
디코더 측에서 직전 시점 t-1의 미드 신호로부터 특정 시점 t에 대한 사이드 신호 S를 생성하는 것은 예를 들어 공식
Figure pct00085
에 따라 수행될 수 있다.
인코더 측에서, 스펙트럼의 복수의 주파수 대역의 각각의 주파수 대역에 대해 파라미터 hb가 결정된다. 파라미터 hb를 결정한 후에, 인코더는 파라미터 hb를 디코더에 송신한다. 일부 실시예에서, 사이드 신호 S 자체의 스펙트럼 값 또는 그것의 잔류는 디코더에 송신되지 않는다. 이러한 접근법은 필요한 비트 수를 절약하는 것을 목표로 한다.
제 3 그룹의 실시예의 일부 다른 실시예에서, 적어도 사이드 신호가 미드 신호보다 큰 주파수 대역에 대해서는, 이들 주파수 대역의 사이드 신호의 스펙트럼 값이 명시적으로 인코딩되어 디코더에 전송된다.
제 4 그룹의 실시예에 따르면, 사이드 신호 S의 주파수 대역 중 일부는 원래의 사이드 신호 S(제 1 그룹의 실시예를 참조) 또는 잔류 사이드 신호 Sres를 명시적으로 인코딩함으로써 인코딩되고, 한편 다른 주파수 대역에 대해서는, 스테레오 필링이 이용된다. 이러한 접근법은 제 1 또는 제 2 그룹의 실시예를 스테레오 필링을 이용하는 제 3 그룹의 실시예와 결합한다. 예를 들어, 저주파수 대역은 예를 들어 원래의 사이드 신호 S 또는 잔류 사이드 신호 Sres를 양자화함으로써 인코딩될 수 있고, 한편 다른 상위 주파수 대역에 대해서는, 예를 들어 스테레오 필링이 이용될 수 있다.
도 9는 스테레오 필링을 이용하는 제 3 또는 제 4 그룹의 실시예에 따른 인코더 측의 스테레오 처리를 도시한다.
도 10은 스테레오 필링을 이용하는 제 3 또는 제 4 그룹의 실시예에 따른 디코더 측의 스테레오 처리를 도시한다.
스테레오 필링을 이용하는 전술한 실시예의 것들은 MPEG-H에 설명된 바와 같은 스테레오 필링을 이용할 수 있다(MPEG-H 주파수 도메인 스테레오 참조)(예를 들어 [11] 참조).
스테레오 필링을 이용하는 실시예 중 일부는 예를 들어 스펙트럼 엔벨로프가 잡음 필링과 결합된 LSF로서 코딩되는 시스템에 [11]에 설명된 스테레오 필링 알고리즘을 적용할 수 있다. 스펙트럼 엔벨로프를 코딩하는 것은 예를 들어 [6a], [6b], [8]에 설명된 바와 같이 구현될 수 있다. 잡음 필링은 예를 들어 [6a] 및 [6b]에서 설명된 바와 같이 구현될 수 있다.
일부 특정 실시예에서, 스테레오 필링 파라미터 계산을 포함하는 스테레오 필링 처리는 예를 들어 0.08Fs(Fs = sampling frequency)와 같은 하위 주파수로부터, 예를 들어 IGF 크로스 오버 주파수와 같은 상위 주파수까지, 주파수 대역 내의 M/S 대역에서 수행될 수 있다.
예를 들어, 보다 하위 주파수(예를 들어, 0.08Fs)보다 하위 주파수 부분에 대해, 원래의 사이드 신호 S 또는 원래의 사이드 신호 S로부터 유도 된 잔류 사이드 신호는 예를 들어 양자화되어 디코더로 송신될 수 있다. 상위 주파수(예를 들어, IGF 크로스 오버 주파수)보다 큰 주파수 부분에 대해, 예를 들어 지능형 갭 필링(IGF)이 수행될 수 있다.
보다 특히, 실시예 중 일부에서, 사이드 채널(제2 채널)은, 0으로 완전히 양자화된 스테레오 필링 범위 내의 주파수 대역(예를 들어 IGF 크로스 오버 주파수까지 샘플링 주파수의 0.08배)에 대해, 예를 들어 이전의 프레임의 백색화된 MDCT 스펙트럼 다운믹스(IGF = Intelligent Gap Filling)의 "복사하여 덮어쓰기(copy-over)"를 사용하여 필링될 수 있다. "복사하여 덮어쓰기"는 예를 들어 잡음 필링에 보완적으로 적용될 수 있으며 인코더로부터 전송된 보정 인자에 따라 스케일링될 수 있다. 다른 실시예에서, 하위 주파수는 0.08Fs 이외의 다른 값을 나타낼 수 있다.
0.08Fs 대신에, 일부 실시예에서, 하위 주파수는 예를 들어 0Fs 내지 0.50Fs 범위의 값일 수 있다. 특히, 실시예에서, 하위 주파수는 0.01Fs 내지 0.50Fs의 범위의 값일 수 있다. 예를 들어, 하위 주파수는 예를 들어 0.12Fs 또는 0.20Fs 또는 0.25Fs일 수 있다.
다른 실시예에서, 지능형 갭 필링을 이용하는 것에 더하여 또는 대신에, 상위 주파수보다 큰 주파수에 대해, 예를 들어 잡음 필링이 수행될 수 있다.
다른 실시예에서, 상위 주파수가 없고, 스테레오 필링이 하위 주파수보다 큰 각각의 주파수 부분에 수행된다.
또 다른 실시예에서, 하위 주파수가 없고, 스테레오 충전은 최저 주파수 대역으로부터 상위 주파수까지의 주파수 부분에 수행된다.
또 다른 실시예에서, 하위 주파수 및 상위 주파수가 없고, 전체 주파수 스펙트럼에 대해 스테레오 필링이 수행된다.
이하, 스테레오 필링을 이용하는 특정 실시예가 설명된다.
특히, 특정 실시예에 따른 보정 인자를 갖는 스테레오 필링이 설명된다. 보정 인자를 갖는 스테레오 필링은 예를 들어 도 9(인코더 측) 및 도 10(디코더 측)의 스테레오 필링 처리 블록의 실시예에서 이용될 수 있다.
이하에서,
- DmxR는 예를 들어 백색화된 MDCT 스펙트럼의 미드 신호를 표시할 수 있고,
- SR은 예를 들어 백색화된 MDCT 스펙트럼의 사이드 신호를 표시할 수 있고,
- DmxI는 예를 들어 백색화된 MDST 스펙트럼의 미드 신호를 표시할 수 있고,
- SI는 예를 들어 백색화된 MDCT 스펙트럼의 사이드 신호를 표시할 수 있고,
- prevDmxR 는 예를 들어 일 프레임만큼 지연된 백색화된 MDCT 스펙트럼의 미드 신호를 표시할 수 있고,
- prevDmxI는 예를 들어 일 프레임만큼 지연된 백색화된 MDST 스펙트럼의 미드 신호를 표시할 수 있다.
스테레오 필링 인코딩은 스테레오 결정이 모든 대역 에 대한 M/S(전체 M/S)이거나 모든 스테레오 필링 대역에 대한 M/S(대역별 M/S) 일 때 적용될 수 있다.
풀 듀얼-모노 처리를 적용하기로 결정되었을 때, 스테레오 필링은 건너뛰어진다. 또한, 스펙트럼 대역(주파수 대역) 중 일부에 대해 L/R 코딩이 선택될 때, 스테레오 필링은 또한 이러한 스펙트럼 대역에 대해 건너뛰어진다.
이제, 스테레오 필링을 이용하는 특정 실시예가 고려된다. 여기서, 블록 내에서의 처리는 예를 들어 다음과 같이 수행될 수 있다:
하위 주파수(예를 들어, 0.08Fs(Fs = sampling frequency))에서 시작하여(예를 들어, IGF 크로스 오버 주파수와 같은) 상위 주파수까지의 주파수 영역에 속하는 주파수 대역(fb)에 대해:
- 사이드 신호 SR의 잔류 ResR는 예를 들어
Figure pct00086
에 따라 계산되고, 여기서 aR은 실수부이고, aI는 복소수 예측 계수의 허수부이다([10] 참조).
사이드 신호 SI의 잔류 ResI는 예를 들어
Figure pct00087
에 따라 계산된다.
- 잔류 및 이전의 프레임 다운믹스(미드 신호) prevDmx의 에너지, 예를 들어 복소 값 에너지가 계산된다:
Figure pct00088
위의 공식에서:
Figure pct00089
는 ResR의 주파수 대역 fb 내의 모든 스펙트럼 값의 제곱을 합한다.
Figure pct00090
는 ResI의 주파수 대역 fb 내의 모든 스펙트럼 값의 제곱을 합한다.
Figure pct00091
은 prevDmxR의 주파수 대역 fb 내의 모든 스펙트럼 값의 제곱을 합한다.
Figure pct00092
은 prevDmxI의 주파수 대역 fb 내의 모든 스펙트럼 값의 제곱을 합한다.
- 이러한 계산된 에너지(EResfb, EprevDmxfb)로부터, 스테레오 필링 보정 인자가 계산되어 보조 정보로서 디코더에 송신된다:
Figure pct00093
일 실시예에서, ε=0이다. 다른 실시예서는, 0으로 나누는 것을 피하기 위해, 예를 들어 0.1>ε>0이다.
- 대역별 스케일링 인자는 예를 들어 스테레오 필링이 이용되는 각각의 스펙트럼 대역에 대해 계산된 스테레오 필링 보정 인자에 따라 계산될 수 있다. 디코더 측에서 잔류 신호로부터 사이드 신호를 재구성하기 위해 역 복소수 예측 연산이 없기 때문에(aR=aI=0), 스케일링 인자에 의한 출력 미드 및 사이드(잔류) 신호의 대역별 스케일링이 도입되어 에너지 손실을 보상한다.
특정 실시예에서, 대역별 스케일링 인자는 예를 들어
Figure pct00094
에 따라 계산될 수 있으며,
여기서 EDmxfb는 (예를 들어, 전술한 바와 같이 계산될 수 있는) 현재 프레임 다운믹스의 (예를 들어, 복소) 에너지이다.
- 일부 실시예에서,스테레오 처리 블록에서의 스테레오 필링 처리 후에 그리고 양자화 전에, 스테레오 필링 주파수 범위에 속하는 잔류의 빈은 등가 대역에 대해 다운믹스(미드)가 잔류(사이드)보다 소리가 더 클 경우, 예를 들어 0으로 설정될 수 있다 :
Figure pct00095
Figure pct00096
따라서, 다운믹스 및 잔류의 하위 주파수 빈의 코딩에 더 많은 비트가 소비되어 전체적인 품질을 개선시킨다.
대안적인 실시예에서, 잔류(사이드)의 모든 비트는 예를 들어 0으로 설정될 수 있다. 이러한 대안적인 실시예는 예를 들어 다운믹스가 대부분의 경우에 잔류보다 소리가 더 크다는 가정에 기초할 수 있다.
도 11은 디코더 측에서의 일부 특정 실시예에 따른 사이드 신호의 스테레오 필링을 도시한다.
스테레오 필링은 디코딩, 역 양자화, 및 잡음 필링 후에 사이드 채널에 적용된다. 스테레오 충전 범위 내에서 0으로 양자화된 주파수 대역에 대해, 잡음 필링 후의 대역 에너지가 타겟 에너지에 도달하지 못하는 경우, (도 11에서 볼 수 있는 바와 같이) 예를 들어 마지막 프레임의 백색화된 MDCT 스펙트럼 다운믹스로부터의 "복사하여 덮어쓰기"가 적용될 수 있다. 주파수 대역당 타겟 에너지는 예를 들어 공식
Figure pct00097
에 따라 인코더로부터 파라미터로서 전송되는 스테레오 보정 인자로부터 계산된다.
디코더 측에서 사이드 신호의 생성(예를 들어, 이전의 다운믹스 "복사하여 덮어쓰기"로 지칭될 수 있음)은 예를 들어 공식
Figure pct00098
에 따라 수행되며,
여기서 i는 주파수 대역 fb 내의 주파수 빈(스펙트럼 값)을 나타내고, N은 잡음이 필링된 스펙트럼이고, facDmxfb는 인코더로부터 전송된 스테레오 필링 보정 인자에 따른 이전의 다운믹스에 적용되는 인자이다.
facDmxfb는 특정 실시예에서 예를 들어 각각의 주파수 대역 fb에 대해
Figure pct00099
으로 계산될 수 있으며,
여기서 ENfb는 대역 fb에서의 잡음이 필링된 스펙트럼의 에너지이고, EprevDmxfb는 각각의 이전의 프레임 다운믹스 에너지이다.
인코더 측에서, 대안적인 실시예는 MDST 스펙트럼(또는 MDCT 스펙트럼)을 고려하지 않는다. 이들 실시예에서, 인코더 측에서의 처리는 예를 들어 다음과 같이 구성된다:
하위 주파수(예를 들어, 0.08Fs(Fs = sampling frequency))에서 시작하여(예를 들어, IGF 크로스 오버 주파수와 같은) 상위 주파수까지의 주파수 영역에 속하는 주파수 대역(fb)에 대해:
- 사이드 신호 SR의 잔류 Res는 예를 들어
Figure pct00100
에 따라 계산되며,
여기서 aR은 (예를 들어, 실수) 예측 계수이다.
- 잔류 Res 및 이전의 프레임 다운믹스(미드 신호) prevDmx의 에너지가 계산된다:
Figure pct00101
- 이러한 계산된 에너지(EResfb , EprevDmxfb)로부터, 스테레오 필링 보정 인자가 계산되어 보조 정보로서 디코더에 송신된다:
Figure pct00102
일 실시예에서, ε=0이다. 다른 실시예서는, 0으로 나누는 것을 피하기 위해, 예를 들어 0.1>ε>0이다.
- 대역별 스케일링 인자는 예를 들어 스테레오 필링이 이용되는 각각의 스펙트럼 대역에 대해 계산된 스테레오 필링 보정 인자에 따라 계산될 수 있다.
특정 실시예에서, 대역별 스케일링 인자는 예를 들어
Figure pct00103
에 따라 계산될 수 있으며,
여기서 EDmxfb는 (예를 들어, 전술한 바와 같이 계산될 수 있는) 현재 프레임 다운믹스의 에너지이다.
- 일부 실시예에서,스테레오 처리 블록에서의 스테레오 필링 처리 후에 그리고 양자화 전에, 스테레오 필링 주파수 범위에 속하는 잔류의 빈은 등가 대역에 대해 다운믹스(미드)가 잔류(사이드)보다 소리가 더 클 경우, 예를 들어 0으로 설정될 수 있다:
Figure pct00104
Figure pct00105
따라서, 다운믹스 및 잔류의 하위 주파수 빈의 코딩에 더 많은 비트가 소비되어 전체적인 품질을 개선시킨다.
대안적인 실시예에서, 잔류(사이드)의 모든 비트는 예를 들어 0으로 설정될 수 있다. 이러한 대안적인 실시예는 예를 들어 다운믹스가 대부분의 경우에 잔류보다 소리가 더 크다는 가정에 기초할 수 있다.
일부 실시예에 따르면, 예를 들어FDNS를 이용하여 시스템에서 스테레오 필링을 적용하는 수단이 제공될 수 있으며, 여기서 스펙트럼 엔벨로프는 LSF(또는 단일 대역에서 스케일링을 독립적으로 변경할 수 없는 유사한 코딩)을 사용하여 코딩된다.
실시예 중 일부에 따르면, 예를 들어 복소수/실수 예측이 없이 시스템에서 스테레오 필링을 적용하는 수단이 제공될 수 있다.
실시예 중 일부는 예를 들어 백색화된 왼쪽 및 오른쪽 MDCT 스펙트럼의 스테레오 필링(예를 들어, 이전의 프레임의 다운믹스로)을 제어하기 위해, 명시적인 파라미터(스테레오 필링 보정 인자)가 인코더로부터 디코더로 전송된다는 의미에서 파라메트릭 스테레오 필링을 이용 할 수 있다.
보다 일반적으로:
실시예 중 일부에서, 도 1a 내지 도 1e의 인코딩 유닛(120)은 예를 들어 처리된 오디오 신호를 생성하도록 구성될 수 있으며, 상기 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 상기 미드 신호의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 상기 제 2 채널의 적어도 하나의 스펙트럼 대역은 상기 사이드 신호의 스펙트럼 대역이다. 인코딩된 오디오 신호를 획득하기 위해, 인코딩 유닛(120)은 예를 들어 상기 사이드 신호의 상기 스펙트럼 대역에 대한 보정 인자를 결정함으로써 상기 사이드 신호의 상기 스펙트럼 대역을 인코딩하도록 구성될 수 있다. 인코딩 유닛(120)은 예를 들어, 잔류 신호에 따라 그리고 상기 미드 신호의 상기 스펙트럼 대역에 대응하는 이전의 미드 신호의 스펙트럼 대역에 따라 상기 사이드 신호의 상기 스펙트럼 대역에 대한 상기 보정 인자를 결정하도록 구성될 수 있으며, 여기서 이전의 미드 신호는 시간에서 상기 미드 신호에 선행한다. 또한, 인코딩 유닛(120)은 예를 들어 상기 사이드 신호의 상기 스펙트럼 대역 및 상기 미드 신호의 상기 스펙트럼 대역에 따라 잔류를 결정하도록 구성될 수 있다.
실시예 중 일부에 따르면, 인코딩 유닛(120)은 공식
Figure pct00106
에 따라 상기 사이드 신호의 상기 스펙트럼 대역에 대한 상기 보정 인자를 결정하도록 구성될 수 있으며,
여기서 correction_factorfb는 상기 사이드 신호의 상기 스펙트럼 대역에 대한 상기 보정 인자를 나타내고, 여기서 EResfb는 상기 미드 신호의 상기 스펙트럼 대역에 대응하는 상기 잔류의 스펙트럼 대역의 에너지에 따른 잔류 에너지를 나타내며, 여기서 EprevDmxfb는 이전의 미드 신호의 스펙트럼 대역의 에너지에 따른 이전의 에너지를 나타내고, 여기서 ε=0이거나 0.1>ε>0이다.
실시예 중 일부에서, 상기 잔류는 예를 들어
Figure pct00107
에 따라 정의될 수 있으며,
여기서 ResR은 상기 잔류이고, SR은 상기 신호이고, aR은 (예를 들어, 실수) 계수이고(예를 들어, 예측 계수), 여기서 DmxR은 상기 미드 신호이고, 인코딩 유닛(120)은
Figure pct00108
에 따라 상기 잔류 에너지를 결정하도록 구성된다.
실시예 중 일부에 따르면, 상기 잔류는
Figure pct00109
에 따라 정의되며,
여기서 ResR는 상기 잔류이고, 여기서 SR은 상기 사이드 신호이고, 여기서 aR은 복소 (예측) 계수의 실수부이고, 여기서 aI는 상기 복소 (예측) 계수의 허수부이고, 여기서 DmxR은 상기 미드 신호이고, 여기서 DmxI는 정규화된 오디오 신호의 제 1 채널 및 정규화된 오디오 신호의 제 2 채널에 따른 다른 미드 신호이고, 여기서 정규화된 오디오 신호의 제 1 채널 및 정규화된 오디오 신호의 제 2 채널에 따른 다른 사이드 신호 SI의 다른 잔류는
Figure pct00110
에 따라 정의되고,
여기서 인코딩 유닛(120)은 예를 들어
Figure pct00111
에 따라 상기 잔류 에너지를 결정하도록 구성될 수 있으며,
여기서, 인코딩 유닛(120)은 예를 들어 상기 미드 신호의 상기 스펙트럼 대역에 대응하는 상기 잔류의 스펙트럼 대역의 에너지, 및 상기 미드 신호의 상기 스펙트럼 대역에 대응하는 상기 다른 잔류의 스펙트럼 대역의 에너지에 따라 이전의 에너지를 결정하도록 구성될 수 있다.
실시예 중 일부에서, 도 2a 내지 도 2e의 디코딩 유닛은 예를 들어 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역과 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하도록 구성될 수 있다. 또한, 디코딩 유닛(210)은 예를 들어 상기 제 2 채널의 스펙트럼 대역을 재구성함으로써 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 획득하도록 구성될 수 있다. 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역은 미드 신호의 스펙트럼 대역이고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역은 사이드 신호의 스펙트럼 대역이다. 또한, 미드-사이드 인코딩이 사용된 경우, 디코딩 유닛(210)은 예를 들어 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자, 및 상기 미드 신호의 스펙트럼 대역에 대응하는 이전의 미드 신호의 스펙트럼 대역에 따라 상기 사이드 신호의 스펙트럼 대역을 재구성하도록 구성될 수 있으며, 여기서 이전의 미드 신호는 시간에서 상기 미드 신호에 선행한다.
실시예 중 일부에 따르면, 미드-사이드 인코딩이 사용되는 경우, 디코딩 유닛(210)은 예를 들어
Figure pct00112
에 따라 상기 사이드 신호의 스펙트럼 대역의 스펙트럼 값을 재구성함으로써 상기 사이드 신호의 스펙트럼 대역을 재구성하도록 구성될 수 있으며,
여기서 Si는 상기 사이드 신호의 스펙트럼 대역의 스펙트럼 값을 나타내고, 여기서 prevDmxi는 상기 이전의 사이드 신호의 스펙트럼 대역의 스펙트럼 값을 나타내고, 여기서 Ni는 잡음이 필링된 스펙트럼의 스펙트럼 값을 나타내고, 여기서 facDmxfb
Figure pct00113
에 따라 정의되며,
여기서 correction_factorfb는 상기 사이드 신호의 스펙트럼 대역에 대한 상기 보정 인자이고, 여기서 ENfb는 잡음이 필링된 스펙트럼의 에너지이고, 여기서 EprevDmxfb는 상기 이전의 미드 신호의 스펙트럼 대역의 에너지이고, 여기서 ε=0이거나, 0.1>ε>0이다.
실시예 중 일부에서, 잔류는 예를 들어 인코더에서 복잡한 스테레오 예측 알고리즘으로부터 도출될 수는 있으나, 디코더 측에서는 스테레오 예측(실수 또는 복소수)이 없다.
실시예 중 일부에 따르면, 디코더 측에서 역 예측 처리가 없다는 사실을 보상하기 위해, 예를 들어 인코더 측에서의 스펙트럼의 에너지 보정 스케일링이 사용될 수 있다.
일부 양태가 장치의 맥락에서 설명되었지만, 이들 양태는 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로프로세서, 프로그램 가능한 컴퓨터, 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로, 또는 적어도 부분적으로는 하드웨어로, 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 본원에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.
따라서, 본 발명의 방법의 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본원에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 디바이스를 포함한다.
다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능한 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본원에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본원에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본원에 설명된 구성 및 세부사항의 수정 및 변형은 당업자에게 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
참고문헌
[1] J. Herre, E. Eberlein and K. Brandenburg, "Combined Stereo Coding," in 93rd AES Convention, San Francisco, 1992.
[2] J. D. Johnston and A. J. Ferreira, "Sum-difference stereo transform coding," in Proc. ICASSP, 1992.
[3] ISO/IEC 11172-3, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio, 1993.
[4] ISO/IEC 13818-7, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding(AAC), 2003.
[5] J.-M. Valin, G. Maxwell, T. B. Terriberry and K. Vos, "High-Quality, Low-Delay Music Coding in the Opus Codec," in Proc. AES 135th Convention, New York, 2013.
[6a] 3GPP TS 26.445, Codec for Enhanced Voice Services(EVS); Detailed algorithmic description, V 12.5.0, Dezember 2015.
[6b] 3GPP TS 26.445, Codec for Enhanced Voice Services(EVS); Detailed algorithmic description, V 13.3.0, September 2016.
[7] H. Purnhagen, P. Carlsson, L. Villemoes, J. Robilliard, M. Neusinger, C. Helmrich, J. Hilpert, N. Rettelbach, S. Disch and B. Edler, "Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction". US Patent 8,655,670 B2, 18 February 2014.
[8] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, "Linear prediction based coding scheme using spectral domain noise shaping". European Patent 2676266 B1, 14 February 2011.
[9] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, "Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within an Intelligent Gap Filling Framework". International Patent PCT/EP2014/065106, 15 07 2014.
[10] C. Helmrich, P. Carlsson, S. Disch, B. Edler, J. Hilpert, M. Neusinger, H. Purnhagen, N. Rettelbach, J. Robilliard and L. Villemoes, "Efficient Transform Coding Of Two-channel Audio Signals By Means Of Complex-valued Stereo Prediction," in Acoustics, Speech and Signal Processing(ICASSP), 2011 IEEE International Conference on, Prague, 2011.
[11] C. R. Helmrich, A. Niedermeier, S. Bayer and B. Edler, "Low-complexity semi-parametric joint-stereo audio transform coding," in Signal Processing Conference(EUSIPCO), 2015 23rd European, 2015.
[12] H. Malvar, "A Modulated Complex Lapped Transform and its Applications to Audio Processing" in Acoustics, Speech, and Signal Processing(ICASSP), 1999. Proceedings., 1999 IEEE International Conference on, Phoenix, AZ, 1999.
[13] B. Edler and G. Schuller, "Audio coding using a psychoacoustic pre- and post-filter," Acoustics, Speech, and Signal Processing, 2000. ICASSP '00.

Claims (39)

  1. 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치에 있어서,
    상기 오디오 입력 신호의 제 1 채널 및 상기 오디오 입력 신호의 제 2 채널에 따라 상기 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성된 정규화기(110) - 상기 정규화기(110)는 상기 정규화 값에 따라, 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성됨 -; 및
    제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하도록 구성되는 인코딩 유닛(120) - 상기 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이고, 상기 인코딩 유닛(120)은 상기 처리된 오디오 신호를 인코딩하여 상기 인코딩된 오디오 신호를 획득하도록 구성됨 -;을 포함하는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  2. 제1항에 있어서,
    상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 1 채널의 복수의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 복수의 스펙트럼 대역에 따라 풀 미드-사이드 인코딩 모드 및 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 사이에서 선택하도록 구성되고,
    상기 인코딩 유닛(120)은 상기 풀 미드-사이드 인코딩 모드가 선택되는 경우, 상기 정규화된 오디오 신호의 제 1 채널 및 제 2 채널로부터의 미드 신호를 미드-사이드 신호의 제 1 채널로서 생성하고, 상기 정규화된 오디오 신호의 제 1 채널 및 제 2 채널로부터의 사이드 신호를 상기 미드-사이드 신호의 제 2 채널로서 생성하고, 상기 미드-사이드 신호를 인코딩하여 상기 인코딩된 신호를 획득하도록 구성되고,
    상기 인코딩 유닛(120)은 상기 풀 듀얼-모노 인코딩 모드가 선택되는 경우, 상기 정규화된 오디오 신호를 인코딩하여 상기 인코딩된 오디오 신호를 획득하도록 구성되고,
    상기 인코딩 유닛(120)은 상기 대역별 인코딩 모드가 선택되는 경우, 상기 처리된 오디오 신호를 생성하도록 구성되고, 상기 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역이고, 상기 인코딩 유닛(120)은 상기 처리된 오디오 신호를 인코딩하여 상기 인코딩된 오디오 신호를 획득하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  3. 제2항에 있어서,
    상기 인코딩 유닛(120)은 상기 대역별 인코딩 모드가 선택되는 경우, 상기 처리된 오디오 신호의 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 미드-사이드 인코딩이 이용되는지 또는 듀얼-모노 인코딩이 이용되는지 여부를 결정하도록 구성되고,
    상기 미드-사이드 인코딩이 상기 스펙트럼 대역에 대해 이용되는 경우, 상기 인코딩 유닛(120)은 미드-사이드 인코딩이 사용된 경우, 상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역을 미드 신호의 스펙트럼 대역으로서 생성하도록 구성되고, 상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역을 사이드 신호의 스펙트럼 대역으로서 생성하도록 구성되고,
    상기 듀얼-모노 인코딩이 상기 스펙트럼 대역에 대해 이용되는 경우,
    상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성되거나,
    상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역을 상기 처리된 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  4. 제2항 또는 제3항에 있어서,
    상기 인코딩 유닛(120)은 상기 풀 미드-사이드 인코딩 모드가 이용될 때 인코딩에 필요한 제 1 비트 수를 추정하는 제 1 추정치를 결정함으로써, 상기 풀 듀얼-모노 인코딩 모드가 이용될 때 인코딩에 필요한 제 2 비트 수를 추정하는 제 2 추정치를 결정함으로써, 상기 대역별 인코딩 모드가 이용될 때 인코딩에 필요한 제 3 비트 수를 추정하는 제 3 추정치를 결정함으로써, 그리고 상기 제 1 추정치, 상기 제 2 추정치, 및 상기 제 3 추정치 중 가장 작은 비트 수를 갖는, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 대역별 인코딩 모드 중에서의 인코딩 모드를 선택함으로써, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 상기 대역별 인코딩 모드 사이에서 선택하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  5. 제4항에 있어서,
    상기 인코딩 유닛(120)은 공식
    Figure pct00114

    에 따라, 상기 대역별 인코딩 모드가 이용될 때 인코딩에 필요한 제 3 비트 수를 추정하는 상기 제 3 추정치 bBW를 추정하도록 구성되고,
    nBands는 상기 정규화된 오디오 신호의 스펙트럼 대역의 수이고,
    Figure pct00115
    은 상기 미드 신호의 i번째 스펙트럼 대역을 인코딩하고 상기 사이드 신호의 i번째 스펙트럼 대역을 인코딩하기 위해 필요한 비트 수에 대한 추정치이고,
    Figure pct00116
    은 상기 제 1 신호의 i번째 스펙트럼 대역을 인코딩하고 상기 제 2 신호의 i번째 스펙트럼 대역을 인코딩하기 위해 필요한 비트 수에 대한 추정치인 것을 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  6. 제2항 또는 제3항에 있어서,
    상기 인코딩 유닛(120)은 상기 풀 미드-사이드 인코딩 모드로 인코딩할 때 절약되는 제 1 비트 수를 추정하는 제 1 추정치를 결정함으로써, 상기 풀 듀얼-모노 인코딩 모드로 인코딩할 때 절약되는 제 2 비트 수를 추정하는 제 2 추정치를 결정함으로써, 상기 대역별 인코딩 모드로 인코딩할 때 절약되는 인코딩에 필요한 제 3 비트 수를 추정하는 제 3 추정치를 결정함으로써, 그리고 상기 제 1 추정치, 상기 제 2 추정치, 및 상기 제 3 추정치 중 절약된 가장 큰 비트 수를 갖는, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 상기 대역별 인코딩 모드 사이에서의 인코딩 모드를 선택함으로써, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 상기 대역별 인코딩 모드 사이에서 선택하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  7. 제2항 또는 제3항에 있어서,
    상기 인코딩 유닛(120)은 상기 풀 미드-사이드 인코딩 모드가 이용될 때 발생하는 제 1 신호대 잡음비를 추정함으로써, 상기 풀 듀얼-모노 인코딩 모드가 이용될 때 발생하는 제 2 신호대 잡음비를 추정함으로써, 상기 대역별 인코딩 모드가 이용될 때 발생하는 제 3 신호대 잡음비를 추정함으로써, 그리고 상기 제 1 신호대 잡음비 및 상기 제 2 신호대 잡음비 및 상기 제 3 신호대 잡음비 중 가장 큰 신호대 잡음비를 갖는, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 상기 대역별 인코딩 모드 중에서의 인코딩 모드를 선택함으로써, 상기 풀 미드-사이드 인코딩 모드 및 상기 풀 듀얼-모노 인코딩 모드 및 상기 대역별 인코딩 모드 사이에서 선택하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  8. 제1항에 있어서,
    상기 인코딩 유닛(120)은 상기 처리된 오디오 신호를 생성하도록 구성되고, 상기 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 상기 미드 신호의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 상기 사이드 신호의 스펙트럼 대역이고,
    상기 인코딩된 오디오 신호를 획득하기 위해, 상기 인코딩 유닛(120)은 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자를 결정함으로써 상기 사이드 신호의 스펙트럼 대역을 인코딩하도록 구성되고,
    상기 인코딩 유닛(120)은 잔류 및 상기 미드 신호의 스펙트럼 대역에 대응하는 이전의 미드 신호의 스펙트럼 대역에 따라 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자를 결정하도록 구성되고, 상기 이전의 미드 신호는 시간에서 상기 미드 신호에 선행하고,
    상기 인코딩 유닛(120)은 상기 사이드 신호의 스펙트럼 대역 및 상기 미드 신호의 스펙트럼 대역에 따라 상기 잔류를 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  9. 제8항에 있어서,
    상기 인코딩 유닛(120)은 공식
    Figure pct00117

    에 따라 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자를 결정하도록 구성되고,
    correction_factorfb는 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자를 나타내고,
    EResfb는 상기 미드 신호의 스펙트럼 대역에 대응하는, 상기 잔류의 스펙트럼 대역의 에너지에 따른 잔류 에너지를 나타내고,
    EprevDmxfb는 상기 이전의 미드 신호의 스펙트럼 대역의 에너지에 따른 이전의 에너지를 나타내고,
    ε=0이거나, 0.1>ε>0인 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  10. 제8항 또는 제9항에 있어서,
    상기 잔류는
    Figure pct00118

    에 따라 정의되고,
    ResR는 상기 잔류이고, SR은 상기 사이드 신호이고, aR은 계수이고, DmxR은 상기 미드 신호이고,
    상기 인코딩 유닛(120)은
    Figure pct00119

    에 따라 상기 잔류 에너지를 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  11. 제8항 또는 제9항에 있어서,
    상기 잔류는
    Figure pct00120

    에 따라 정의되고,
    ResR는 상기 잔류이고, SR은 상기 사이드 신호이고, aR은 복소 계수의 실수부이고, aI는 상기 복소 계수의 허수부이고, DmxR은 상기 미드 신호이고, DmxI는 상기 정규화된 오디오 신호의 제 1 채널 및 상기 정규화된 오디오 신호의 제 2 채널에 따른 다른 미드 신호이고,
    상기 정규화된 오디오 신호의 제 1 채널 및 상기 정규화된 오디오 신호의 제 2 채널에 따른 다른 사이드 신호 SI의 다른 잔류는
    Figure pct00121

    에 따라 정의되고,
    상기 인코딩 유닛(120)은
    Figure pct00122

    에 따라 상기 잔류 에너지를 결정하도록 구성되고,
    상기 인코딩 유닛(120)은 상기 미드 신호의 스펙트럼 대역에 대응하는 상기 잔류의 스펙트럼 대역의 에너지, 및 상기 미드 신호의 스펙트럼 대역에 대응하는 상기 다른 잔류의 스펙트럼 대역의 에너지에 따라 이전의 에너지를 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 정규화기(110)는 상기 오디오 입력 신호의 제 1 채널의 에너지 및 상기 오디오 입력 신호의 제 2 채널의 에너지에 따라 상기 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호는 스펙트럼 도메인에서 표현되고,
    상기 정규화기(110)는 상기 오디오 입력 신호의 제 1 채널의 복수의 스펙트럼 대역 및 상기 오디오 입력의 제 2 채널의 복수의 스펙트럼 대역에 따라 상기 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성되고,
    상기 정규화기(110)는 상기 정규화 값에 따라, 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정함으로써 상기 정규화된 오디오 신호를 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  14. 제13항에 있어서,
    상기 정규화기(110)는 공식
    Figure pct00123

    에 기초하여 상기 정규화 값을 결정하도록 구성되고,
    MDCTL,k은 상기 오디오 입력 신호의 제 1 채널의 MDCT 스펙트럼의 제 k번째 계수이고, MDCTR,k는 상기 오디오 입력 신호의 제 2 채널의 MDCT 스펙트럼의 k번째 계수이고,
    상기 정규화기(110)는 ILD를 양자화함으로써 상기 정규화 값을 결정하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 인코딩하기 위한 장치는 변환 유닛(102) 및 전처리 유닛(105)을 더 포함하고,
    상기 변환 유닛(102)은 시간 도메인 오디오 신호를 시간 도메인에서 주파수 도메인으로 변환하여 변환된 오디오 신호를 획득하도록 구성되고,
    상기 전처리 유닛(105)은 상기 변환된 오디오 신호에 인코더 측 주파수 도메인 잡음 성형 연산을 적용함으로써 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널을 생성하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  16. 제15항에 있어서,
    상기 전처리 유닛(105)은 상기 변환된 오디오 신호에 상기 인코더 측 주파수 도메인 잡음 성형 연산을 적용하기 전에 상기 변환된 오디오 신호에 인코더 측 시간 잡음 성형 연산을 적용함으로써 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널을 생성하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  17. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 정규화기(110)는 시간 도메인에서 표현되는 상기 오디오 입력 신호의 제 1 채널 및 상기 시간 도메인에서 표현되는 상기 오디오 입력 신호의 제 2 채널에 따라 상기 오디오 입력 신호에 대한 정규화 값을 결정하도록 구성되고,
    상기 정규화기(110)는 상기 정규화 값에 따라, 상기 시간 도메인에서 표현되는 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써 상기 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하도록 구성되고,
    상기 장치는 상기 정규화된 오디오 신호가 스펙트럼 도메인에서 표현되도록 상기 정규화된 오디오 신호를 상기 시간 도메인에서 상기 스펙트럼 도메인으로 변환하도록 구성되는 변환 유닛(115)을 더 포함하고,
    상기 변환 유닛은 상기 스펙트럼 도메인에 표현되는 상기 정규화된 오디오 신호를 상기 인코딩 유닛(120)에 공급하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  18. 제17항에 있어서,
    상기 장치는 제 1 채널 및 제 2 채널을 포함하는 시간 도메인 오디오 신호를 수신하도록 구성되는 전처리 유닛(106)을 더 포함하고,
    상기 전처리 유닛(106)은 필터를 상기 시간 도메인 오디오 신호의 제 1 채널에 적용하여 제 1 지각적으로 백색화된 스펙트럼을 생성해 상기 시간 도메인에서 표현되는 상기 오디오 입력 신호의 제 1 채널을 획득하도록 구성되고,
    상기 전처리 유닛(106)은 상기 필터를 상기 시간 도메인 오디오 신호의 제 2 채널에 적용하여 제 2 지각적으로 백색화된 스펙트럼을 생성해 상기 시간 도메인에서 표현되는 상기 오디오 입력 신호의 제 2 채널을 획득하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  19. 제17항 또는 제18항에 있어서,
    상기 변환 유닛(115)은 상기 정규화된 오디오 신호를 상기 시간 도메인에서 상기 스펙트럼 도메인으로 변환하여 변환된 오디오 신호를 획득하도록 구성되고,
    상기 장치는 상기 변환된 오디오 신호에 인코더 측 시간 잡음 성형을 수행하여 상기 스펙트럼 도메인에서 표현되는 상기 정규화된 오디오 신호를 획득하도록 구성되는 스펙트럼 도메인 전처리기(118)를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 인코딩 유닛(120)은 상기 정규화된 오디오 신호 또는 상기 처리된 오디오 신호에 인코더 측 스테레오 지능형 갭 필링을 적용하여 상기 인코딩된 오디오 신호를 획득하도록 구성되는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호는 정확하게 2개의 채널을 포함하는 오디오 스테레오 신호인 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하기 위한 장치.
  22. 인코딩된 오디오 신호를 획득하기 위해 4개 이상의 채널을 포함하는 오디오 입력 신호의 4개의 채널을 인코딩하기 위한 시스템에 있어서,
    상기 오디오 입력 신호의 4개 이상의 채널 중 제 1 채널 및 제 2 채널을 인코딩하여 상기 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위한, 제1항 내지 제20항 중 어느 한 항에 따른 제 1 장치(170); 및
    상기 오디오 입력 신호의 4개 이상의 채널 중 제 3 채널 및 제 4 채널을 인코딩하여 상기 인코딩된 오디오 신호의 제 3 채널 및 제 4 채널을 획득하기 위한, 제1항 내지 제20항 중 어느 한 항에 따른 제 2 장치(180);를 포함하는 것을 특징으로 하는 오디오 입력 신호의 4개의 채널을 인코딩하기 위한 시스템.
  23. 2개 이상의 채널을 포함하는 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위해 제 1 채널 및 제 2 채널을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 장치에 있어서,
    상기 장치는 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하도록 구성된 디코딩 유닛(210)을 포함하고,
    상기 디코딩 유닛(210)은 상기 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하도록 구성되고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하도록 구성되고,
    상기 디코딩 유닛(210)은 상기 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하도록 구성되고,
    상기 장치는 정규화해제 값에 따라, 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성된 정규화해제기(220)를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  24. 제23항에 있어서,
    상기 디코딩 유닛(210)은 상기 인코딩된 오디오 신호가 풀 미드-사이드 인코딩 모드 또는 풀 듀얼-모노 인코딩 모드 또는 대역별 인코딩 모드로 인코딩되었는지 여부를 결정하도록 구성되고,
    상기 디코딩 유닛(210)은 상기 인코딩된 오디오 신호가 상기 풀 미드-사이드 인코딩 모드로 인코딩되었다고 결정되는 경우, 상기 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널로부터 상기 중간 오디오 신호의 제 1 채널을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널 및 제 2 채널로부터 상기 중간 오디오 신호의 제 2 채널을 생성하도록 구성되고,
    상기 디코딩 유닛(210)은 상기 인코딩된 오디오 신호가 상기 풀 듀얼-모노 인코딩 모드로 인코딩되었다고 결정되는 경우, 상기 인코딩된 오디오 신호의 제 1 채널을 상기 중간 오디오 신호의 제 1 채널로서 사용하고, 상기 인코딩된 오디오 신호의 제 2 채널을 상기 중간 오디오 신호의 제 2 채널로서 사용하도록 구성되고,
    상기 디코딩 유닛(210)은 상기 인코딩된 오디오 신호가 상기 대역별 인코딩 모드로 인코딩되었다고 결정되는 경우,
    복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 상기 듀얼-모노 인코딩 또는 상기 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하고,
    상기 듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 상기 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하고,
    상기 미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  25. 제23항에 있어서,
    상기 디코딩 유닛(210)은 상기 복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하도록 구성되고,
    상기 디코딩 유닛(210)은 상기 제 2 채널의 스펙트럼 대역을 재구성함으로써 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 획득하도록 구성되고,
    미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역은 미드 신호의 스펙트럼 대역이고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역은 사이드 신호의 스펙트럼 대역이고,
    미드-사이드 인코딩이 사용된 경우, 상기 디코딩 유닛(210)은 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자, 및 상기 미드 신호의 스펙트럼 대역에 대응하는 이전의 미드 신호의 스펙트럼 대역에 따라 상기 사이드 신호의 스펙트럼 대역을 재구성하도록 구성되고, 상기 이전의 미드 신호는 시간에서 상기 미드 신호에 선행하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  26. 제25항에 있어서,
    미드-사이드 인코딩이 사용된 경우, 상기 디코딩 유닛(210)은
    Figure pct00124

    에 따라 상기 사이드 신호의 스펙트럼 대역의 스펙트럼 값을 재구성함으로써 상기 사이드 신호의 스펙트럼 대역을 재구성하도록 구성되고,
    Si는 상기 사이드 신호의 스펙트럼 대역의 스펙트럼 값을 나타내고,
    prevDmxi는 상기 이전의 미드 신호의 스펙트럼 대역의 스펙트럼 값을 나타내고,
    Ni는 잡음이 필링된 스펙트럼의 스펙트럼 값을 나타내고,
    facDmxfb
    Figure pct00125

    에 따라 정의되고,
    correction_factorfb은 상기 사이드 신호의 스펙트럼 대역에 대한 보정 인자이고,
    ENfb는 상기 잡음이 필링된 스펙트럼의 에너지이고,
    EprevDmxfb는 상기 이전의 미드 신호의 스펙트럼 대역의 에너지이고,
    ε=0이거나, 0.1>ε>0인 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  27. 제23항 내지 제26항 중 어느 한 항에 있어서,
    상기 정규화해제기(220)는 상기 정규화해제 값에 따라, 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  28. 제23항 내지 제26항 중 어느 한 항에 있어서,
    상기 정규화해제기(220)는 상기 정규화해제 값에 따라, 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나의 복수의 스펙트럼 대역을 수정하여 정규화해제된 오디오 신호를 획득하도록 구성되고,
    상기 장치는 후처리 유닛(230) 및 변환 유닛(235)을 더 포함하고,
    상기 후처리 유닛(230)은 상기 정규화해제된 오디오 신호에 대한 디코더 측 시간 잡음 성형 및 디코더 측 주파수 도메인 잡음 성형 중 적어도 하나를 수행하여 후처리된 오디오 신호를 획득하도록 구성되고,
    상기 변환 유닛(235)은 스펙트럼 도메인으로부터 시간 도메인으로 상기 후처리된 오디오 신호를 변환하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  29. 제23항 내지 제26항 중 어느 한 항에 있어서,
    상기 장치는 스펙트럼 도메인으로부터 시간 도메인으로 상기 중간 오디오 신호를 변환하도록 구성된 변환 유닛(215)을 더 포함하고,
    상기 정규화해제기(220)는 상기 정규화해제 값에 따라, 시간 도메인에서 표현되는 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제2 채널을 획득하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  30. 제23항 내지 제26항 중 어느 한 항에 있어서,
    상기 장치는 스펙트럼 도메인으로부터 시간 도메인으로 상기 중간 오디오 신호를 변환하도록 구성된 변환 유닛(215)을 더 포함하고,
    상기 정규화해제기(220)는 상기 정규화해제 값에 따라, 시간 도메인에서 표현되는 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 정규화해제된 오디오 신호를 획득하도록 구성되고,
    상기 장치는 지각적으로 백색화된 오디오 신호인 상기 정규화해제된 오디오 신호를 처리하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하도록 구성되는 후처리 유닛(235)을 더 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  31. 제29항 또는 제30항에 있어서,
    상기 장치는 상기 중간 오디오 신호에 디코더 측 시간 잡음 성형을 수행하도록 구성되는 스펙트럼 도메인 후처리기(212)를 더 포함하고,
    상기 변환 유닛(215)은 디코더 측 시간 잡음 성형이 상기 중간 오디오 신호에 수행된 후에 상기 스펙트럼 도메인으로부터 상기 시간 도메인으로 상기 중간 오디오 신호를 변환하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  32. 제23항 내지 제31항 중 어느 한 항에 있어서,
    상기 디코딩 유닛(210)은 상기 인코딩된 오디오 신호에 디코더 측 스테레오 지능형 갭 필링을 적용하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  33. 제23항 내지 제32항 중 어느 한 항에 있어서,
    상기 디코딩된 오디오 신호는 정확하게 2개의 채널을 포함하는 오디오 스테레오 신호인 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 장치.
  34. 4개 이상의 채널을 포함하는 디코딩된 오디오 신호의 4개의 채널을 획득하기 위해 4개 이상의 채널을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 시스템에 있어서,
    상기 인코딩된 오디오 신호의 4개 이상의 채널 중 제 1 채널 및 제 2 채널을 디코딩하여 상기 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위한, 제23항 내지 제32항 중 어느 한 항에 따른 제 1 장치(270); 및
    상기 인코딩된 오디오 신호의 4개 이상의 채널 중 제 3 채널 및 제 4 채널을 디코딩하여 상기 디코딩된 오디오 신호의 제 3 채널 및 제 4 채널을 획득하기 위한, 제23항 내지 제32항 중 어느 한 항에 따른 제 2 장치(280);를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 시스템.
  35. 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템에 있어서,
    제1항 내지 제21항 중 어느 한 항에 따른 장치(310) - 상기 제1항 내지 제21항 중 어느 한 항에 따른 장치(310)는 상기 오디오 입력 신호로부터 상기 인코딩된 오디오 신호를 생성하도록 구성됨 -; 및
    제23항 내지 제33항 중 어느 한 항에 따른 장치(320) - 상기 제23항 내지 제33항 중 어느 한 항에 따른 장치(320)는 상기 인코딩된 오디오 신호로부터 상기 디코딩된 오디오 신호를 생성하도록 구성됨 -;를 포함하는 것을 특징으로 하는 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템.
  36. 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템에 있어서,
    제22항에 따른 시스템 - 상기 제22항에 따른 시스템은 상기 오디오 입력 신호로부터 상기 인코딩된 오디오 신호를 생성하도록 구성됨 -; 및
    제34항에 따른 시스템 - 상기 제34항에 따른 시스템은 상기 인코딩된 오디오 신호로부터 상기 디코딩된 오디오 신호를 생성하도록 구성됨 -;을 포함하는 것을 특징으로 하는 오디오 입력 신호로부터 인코딩된 오디오 신호를 생성하고 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 생성하기 위한 시스템.
  37. 인코딩된 오디오 신호를 획득하기 위해 2개 이상의 채널을 포함하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하는 방법에 있어서,
    상기 오디오 입력 신호의 제 1 채널 및 상기 오디오 입력 신호의 제 2 채널에 따라 상기 오디오 입력 신호에 대한 정규화 값을 결정하는 단계;
    상기 정규화 값에 따라, 상기 오디오 입력 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정함으로써, 정규화된 오디오 신호의 제 1 채널 및 제 2 채널을 결정하는 단계;
    제 1 채널 및 제 2 채널을 갖는 처리된 오디오 신호를 생성하고 - 상기 처리된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 2 채널의 하나 이상의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 1 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 미드 신호의 스펙트럼 대역이고, 상기 처리된 오디오 신호의 제 2 채널의 적어도 하나의 스펙트럼 대역은 상기 정규화된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 정규화된 오디오의 제 2 채널의 스펙트럼 대역에 따른 사이드 신호의 스펙트럼 대역임 -, 상기 처리된 오디오 신호를 인코딩하여 상기 인코딩된 오디오 신호를 획득하는 단계;를 포함하는 것을 특징으로 하는 오디오 입력 신호의 제 1 채널 및 제 2 채널을 인코딩하는 방법.
  38. 2개 이상의 채널을 포함하는 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하기 위해 제 1 채널 및 제 2 채널을 포함하는 인코딩된 오디오 신호를 디코딩하는 방법에 있어서,
    복수의 스펙트럼 대역의 각각의 스펙트럼 대역에 대해, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역이 듀얼-모노 인코딩 또는 미드-사이드 인코딩을 사용하여 인코딩되었는지 여부를 결정하는 단계;
    듀얼-모노 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역을 중간 오디오 신호의 제 1 채널의 스펙트럼 대역으로서 사용하고, 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역을 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역으로서 사용하는 단계;
    미드-사이드 인코딩이 사용된 경우, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 1 채널의 스펙트럼 대역을 생성하고, 상기 인코딩된 오디오 신호의 제 1 채널의 스펙트럼 대역 및 상기 인코딩된 오디오 신호의 제 2 채널의 스펙트럼 대역에 기초하여 상기 중간 오디오 신호의 제 2 채널의 스펙트럼 대역을 생성하는 단계; 및
    정규화해제 값에 따라, 상기 중간 오디오 신호의 제 1 채널 및 제 2 채널 중 적어도 하나를 수정하여 디코딩된 오디오 신호의 제 1 채널 및 제 2 채널을 획득하는 단계;를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 방법.
  39. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제37항 또는 제38항의 방법을 구현하기 위한 컴퓨터 프로그램.
KR1020187022988A 2016-01-22 2017-01-20 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법 KR102230668B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP16152457 2016-01-22
EP16152454 2016-01-22
EP16152457.4 2016-01-22
EP16152454.1 2016-01-22
EP16199895.0 2016-11-21
EP16199895 2016-11-21
PCT/EP2017/051177 WO2017125544A1 (en) 2016-01-22 2017-01-20 Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision

Publications (2)

Publication Number Publication Date
KR20180103102A true KR20180103102A (ko) 2018-09-18
KR102230668B1 KR102230668B1 (ko) 2021-03-22

Family

ID=57860879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187022988A KR102230668B1 (ko) 2016-01-22 2017-01-20 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법

Country Status (18)

Country Link
US (2) US11842742B2 (ko)
EP (2) EP3405950B1 (ko)
JP (3) JP6864378B2 (ko)
KR (1) KR102230668B1 (ko)
CN (2) CN117542365A (ko)
AU (1) AU2017208561B2 (ko)
BR (1) BR112018014813A2 (ko)
CA (1) CA3011883C (ko)
ES (1) ES2932053T3 (ko)
FI (1) FI3405950T3 (ko)
MX (1) MX2018008886A (ko)
MY (1) MY188905A (ko)
PL (1) PL3405950T3 (ko)
RU (1) RU2713613C1 (ko)
SG (1) SG11201806256SA (ko)
TW (1) TWI669704B (ko)
WO (1) WO2017125544A1 (ko)
ZA (1) ZA201804866B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
EP4336497A3 (en) * 2018-07-04 2024-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal encoder, multisignal decoder, and related methods using signal whitening or signal post processing
BR112021012753A2 (pt) 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
DE102020210917B4 (de) 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008065487A1 (en) * 2006-11-30 2008-06-05 Nokia Corporation Method, apparatus and computer program product for stereo coding
US20120275604A1 (en) * 2011-04-26 2012-11-01 Koen Vos Processing Stereophonic Audio Signals
KR20130095851A (ko) * 2009-03-17 2013-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
WO2017087073A1 (en) * 2015-11-20 2017-05-26 Qualcomm Incorporated Encoding of multiple audio signals
WO2017106041A1 (en) * 2015-12-18 2017-06-22 Qualcomm Incorporated Encoding of multiple audio signals

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3435674B2 (ja) * 1994-05-06 2003-08-11 日本電信電話株式会社 信号の符号化方法と復号方法及びそれを使った符号器及び復号器
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
DE19959156C2 (de) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
BRPI0418665B1 (pt) * 2004-03-12 2018-08-28 Nokia Corp método e decodificador para sintetizar um sinal de áudio mono baseado no sinal de áudio codificado de múltiplos canais disponíveis, terminal móvel e sistema de codificação
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
EP2250641B1 (en) * 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for mixing a plurality of input data streams
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
DE102010014599A1 (de) 2010-04-09 2010-11-18 Continental Automotive Gmbh Luftmassenmesser
ES2935911T3 (es) * 2010-04-09 2023-03-13 Dolby Int Ab Descodificación estéreo de predicción compleja basada en MDCT
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
BR112013020587B1 (pt) * 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
EP2681734B1 (en) * 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
CN110970041B (zh) * 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008065487A1 (en) * 2006-11-30 2008-06-05 Nokia Corporation Method, apparatus and computer program product for stereo coding
KR20130095851A (ko) * 2009-03-17 2013-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
US20120275604A1 (en) * 2011-04-26 2012-11-01 Koen Vos Processing Stereophonic Audio Signals
WO2017087073A1 (en) * 2015-11-20 2017-05-26 Qualcomm Incorporated Encoding of multiple audio signals
WO2017106041A1 (en) * 2015-12-18 2017-06-22 Qualcomm Incorporated Encoding of multiple audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Draft International Standard ISO/IEC DIS 23008-3. ISO/IEC JTC 1/SC 29/WG 11. 2014.07.25. *
ETSI TS 103 190-2 V1.1.1, Digital Audio Compression (AC-4) Standard Part 2: Immersive and personalized audio, 2015.09 *

Also Published As

Publication number Publication date
JP2021119383A (ja) 2021-08-12
MX2018008886A (es) 2018-11-09
EP3405950B1 (en) 2022-09-28
EP4123645A1 (en) 2023-01-25
PL3405950T3 (pl) 2023-01-30
AU2017208561A1 (en) 2018-08-09
WO2017125544A1 (en) 2017-07-27
AU2017208561B2 (en) 2020-04-16
TW201732780A (zh) 2017-09-16
US20240071395A1 (en) 2024-02-29
SG11201806256SA (en) 2018-08-30
CN109074812A (zh) 2018-12-21
EP3405950A1 (en) 2018-11-28
JP2019506633A (ja) 2019-03-07
KR102230668B1 (ko) 2021-03-22
JP6864378B2 (ja) 2021-04-28
ES2932053T3 (es) 2023-01-09
MY188905A (en) 2022-01-13
US11842742B2 (en) 2023-12-12
FI3405950T3 (fi) 2022-12-15
JP7280306B2 (ja) 2023-05-23
ZA201804866B (en) 2019-04-24
CA3011883C (en) 2020-10-27
TWI669704B (zh) 2019-08-21
US20180330740A1 (en) 2018-11-15
CN117542365A (zh) 2024-02-09
CA3011883A1 (en) 2017-07-27
JP2023109851A (ja) 2023-08-08
BR112018014813A2 (pt) 2018-12-18
RU2713613C1 (ru) 2020-02-05
CN109074812B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
KR102230668B1 (ko) 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
US9715883B2 (en) Multi-mode audio codec and CELP coding adapted therefore
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant