KR101750732B1 - 멀티채널 오디오의 하이브리드 인코딩 - Google Patents

멀티채널 오디오의 하이브리드 인코딩 Download PDF

Info

Publication number
KR101750732B1
KR101750732B1 KR1020157031340A KR20157031340A KR101750732B1 KR 101750732 B1 KR101750732 B1 KR 101750732B1 KR 1020157031340 A KR1020157031340 A KR 1020157031340A KR 20157031340 A KR20157031340 A KR 20157031340A KR 101750732 B1 KR101750732 B1 KR 101750732B1
Authority
KR
South Korea
Prior art keywords
frequency components
channel
channels
input signal
audio
Prior art date
Application number
KR1020157031340A
Other languages
English (en)
Other versions
KR20150138328A (ko
Inventor
필립스 윌리암스
미하엘 슈크
로빈 테징
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20150138328A publication Critical patent/KR20150138328A/ko
Application granted granted Critical
Publication of KR101750732B1 publication Critical patent/KR101750732B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

멀티채널 오디오 입력 신호를 인코딩하기 위한 방법이 개시되며, 이 방법은 입력 신호의 서브세트의 채널들의 저주파수 성분들의 다운믹스를 생성하는 단계, 다운믹스의 각각의 채널을 파형 코딩하여, 파형 코딩된 다운믹스 데이터를 생성하는 단계, 입력 신호의 각각의 채널의 적어도 일부의 더 높은 주파수 성분들에 대해 파라메트릭 인코딩(parametric encoding)을 수행하여, 파라메트릭 코딩된 데이터를 생성하는 단계; 및 파형 코딩된 다운믹스 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호(예를 들면, E-AC-3 인코딩된 신호)를 생성하는 단계를 포함한다. 다른 양태들은 이러한 인코딩된 신호를 디코딩하기 위한 방법들, 및 본 발명의 방법의 임의의 실시예를 수행하도록 구성된 시스템들이다.

Description

멀티채널 오디오의 하이브리드 인코딩{HYBRID ENCODING OF MULTICHANNEL AUDIO}
관련 출원들에 대한 교차-참조
이 출원은 2013년 4월 30일에 출원된 미국 가특허 출원 제61/817,729호로부터 우선권을 주장하며, 그 전체 내용은 본 명세서에 참조로 포함된다.
발명의 분야
본 발명은 오디오 신호 처리에 관한 것이고, 특히, 멀티채널 오디오 인코딩(예를 들면, 멀티채널 오디오 신호를 나타내는 데이터의 인코딩) 및 디코딩에 관한 것이다. 통상적인 실시예들에서는 멀티채널 입력 오디오의 개별 채널들의 저주파수 성분들의 다운믹스가 파형 코딩을 받고(undergo) 입력 오디오의 다른(더 높은 주파수) 주파수 성분들의 다운믹스가 파라메트릭 코딩을 받는다. 일부 실시예들에서는 AC-3 및 E-AC-3 (Enhanced AC-3)으로 알려진 포맷들 중 하나에 따라 또는 다른 인코딩 포맷에 따라 멀티채널 오디오 데이터를 인코딩한다.
돌비 레버러토리즈는 돌비 디지털 및 돌비 디지털 플러스로서 각각 알려진 AC-3 및 E-AC-3의 독점적 구현들을 제공한다. 돌비, 돌비 디지털, 및 돌비 디지털 플러스는 돌비 레버러토리즈 라이센싱 코포레이션의 등록상표들이다.
본 발명은 E-AC-3 (또는 AC-3) 포맷에 따라 오디오 데이터를 인코딩하는데 있어서 이용에 제한되지 않지만, 편의를 위해 E-AC-3 포맷에 따라 오디오 비트스트림을 인코딩하는 것이 실시예들에 기술될 것이다.
AC-3 또는 E-AC-3 인코딩된 비트스트림은 메타데이터를 포함하고 오디오 컨텐트의 1 내지 6개의 채널들을 포함할 수 있다. 오디오 컨텐트는 지각 오디오 코딩을 이용하여 압축된 오디오 데이터이다. AC-3 코딩의 세부사항들은 잘 알려졌고 다음을 포함하는 많은 공개된 문헌들에 개시되어 있다:
ATSC 표준 A52/A: 디지털 오디오 압축 표준 (AC-3), 개정 A, 고급 텔레비전 시스템 위원회, 2001년 8월 20일; 및
미국 특허들 제5,583,962호; 제5,632,005호; 제5,633,981호; 제5,727,119호; 및 제6,021,386호.
돌비 디지털 플러스 (E-AC-3) 코딩의 세부사항들은 예를 들면, 2004년 10월 28일, 117차 AES 회의, AES 회의록 6196의 "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System"에 기재되어 있다.
AC-3 인코딩된 오디오 비트스트림의 각각의 프레임은 디지털 오디오의 1536개의 샘플들에 대한 오디오 컨텐트 및 메타데이터를 포함한다. 48 kHz의 샘플링 레이트에 대해, 이것은 디지털 오디오의 32 밀리초 또는 오디오의 초당 31.25 프레임들의 레이트를 표현한다.
E-AC-3 인코딩된 오디오 비트스트림의 각각의 프레임은 프레임이 오디오 데이터의 1개, 2개, 3개 또는 6개의 블록들을 포함하는지에 따라, 각각 256개, 512개, 768개 또는 1536개의 샘플들에 대한 오디오 컨텐트 및 메타데이터를 포함한다.
E-AC-3 인코딩의 통상적 구현들에 의해 수행되는 오디오 컨텐트 인코딩은 파형 인코딩 및 파라메트릭 인코딩을 포함한다.
오디오 입력 신호의 파형 인코딩(통상적으로 인코딩된 신호가 입력 신호보다 적은 비트들을 포함하도록 신호를 압축하기 위해 수행됨)은 적용 가능한 제약들을 조건으로 입력 신호의 파형을 가능한 많이 보존하는 방식으로(예를 들면, 인코딩된 신호의 파형이 입력 신호의 파형과 가능한 범위까지 매칭하도록) 입력 신호를 인코딩한다. 예를 들면, 종래의 E-AC-3 인코딩에서, 입력 신호의 각각의 채널의 각각의 저주파수 대역의 각각의 샘플(주파수 성분임)의 양자화된 표현(양자화된 가수(quantized mantissas) 및 지수)을 (주파수 도메인에서) 생성함으로써, 입력 신호의 이러한 저주파수 컨텐트를 압축하기 위해 멀티채널 입력 신호의 각각의 채널의 저주파수 성분들(통상적으로, 최대 3.5 kHz 또는 4.6 kHz)에 대해 파형 인코딩이 수행된다.
보다 구체적으로, E-AC-3 인코더들(및 일부 다른 종래의 오디오 인코더들)의 통상적 구현들은 각각의 가수에 대한 비트들의 최적 할당을 결정하기 위해 대역화(banded)에 기초하여(즉, 바크 스케일로 공지된 잘 알려진 음향 심리학적 스케일의 주파수 대역들에 가까운 통상적으로 50개의 불균일 대역들) 입력 신호를 나타내는 주파수 도메인 데이터를 분석하기 위해 음향 심리학적 모델을 구현한다. 입력 신호의 저주파수 성분들에 대해 파형 인코딩을 수행하기 위해, 가수 데이터(저주파수 컨텐트를 나타냄)는 결정된 비트 할당에 대응하는 비트들의 수로 양자화된다. 양자화된 가수 데이터(및 대응하는 지수 데이터와 통상적으로 또한 대응하는 메타데이터)는 그 후에 인코딩된 출력 비트스트림으로 포맷팅된다.
파라메트릭 인코딩, 다른 잘 알려진 타입의 오디오 신호 인코딩은 입력 오디오 신호의 특징 파라미터들을 추출 및 인코딩하여, 재구성된 신호(인코딩 및 후속 디코딩 후)가 가능한 명료성을 가지지만(적용 가능한 제약들을 조건으로), 인코딩된 신호의 파형은 입력 신호의 파형과 매우 상이할 수 있게 한다.
예를 들면, 2003년 10월 9일 공개된 PCT 국제 출원 공개 제WO 03/083834 A1호 및 2004년 11월 25일 공개된 PCT 국제 출원 공개 제WO 2004/102532 A1호는 스펙트럼 확장 코딩으로서 알려진 파라메트릭 코딩 타입을 기술한다. 스펙트럼 확장 코딩에서, 전주파수 범위(full frequency range)의 오디오 입력 신호의 주파수 성분들은 제한된 주파수 범위의 신호(기저대역 신호)의 주파수 성분들의 시퀀스와 전주파수 범위의 입력 신호의 근사화된 버전을 (기저대역 신호로) 결정하는 인코딩 파라미터들(잔여 신호를 나타냄)의 대응하는 시퀀스로서 인코딩된다.
파라메트릭 인코딩의 다른 잘 알려진 타입은 채널 결합 코딩이다. 채널 결합 코딩에서, 오디오 입력 신호의 채널들의 모노 다운믹스가 구성된다. 입력 신호는 이 다운믹스(주파수 성분들의 시퀀스) 및 결합 파라미터들의 대응하는 시퀀스로서 인코딩된다. 결합 파라미터들은 입력 신호의 채널들의 각각의 근사화된 버전을 (다운믹스로) 결정하는 레벨 파라미터들이다. 결합 파라미터들은 모노 다운믹스의 에너지가 입력 신호의 각각의 채널의 에너지와 매칭하는 주파수-대역화 메타데이터이다.
예를 들면, 5.1 채널 입력 신호의 종래의 E-AC-3 인코딩(코딩된 신호의 전달을 위해 192 kbps의 이용 가능한 비트레이트로)은 통상적으로 입력 신호의 각각의 채널의 중간 주파수 성분들(F1 < f ≤ F2의 범위에서, 여기서 F1은 통상적으로 3.5 kHz 또는 4.6 kHz와 같고, F2는 통상적으로 10 kHz 또는 10.2 kHz와 같음)을 인코딩하기 위해 채널 결합 코딩을 구현하고, 입력 신호의 각각의 채널의 고주파수 성분들(F2 < f ≤ F3의 범위에서, 여기서 F2는 통상적으로 10 kHz 또는 10.2 kHz와 같고, F3은 통상적으로 14.8 kHz 또는 16 kHz와 같음)을 인코딩하기 위해 스펙트럼 확장 코딩을 구현한다. 채널 결합 인코딩의 수행 중에 결정된 모노 다운믹스는 파형 코딩되고, 파형 코딩된 다운믹스는 결합 파라미터들과 함께 전달된다(인코딩된 출력 신호에서). 채널 결합 인코딩의 수행 중에 결정된 다운믹스는 스펙트럼 확장 코딩을 위해 기저대역 신호로서 활용된다. 스펙트럼 확장 코딩은 (기저대역 신호 및 입력 신호의 각각의 채널의 고주파수 성분들로부터) 다른 세트의 인코딩 파라미터들(SPX 파라미터들)을 결정한다. SPX 파라미터들은 인코딩된 출력 신호에 포함되어 함께 전달된다.
공간 오디오 코딩으로 가끔 칭해지는 파라메트릭 코딩의 다른 타입에서, 멀티채널 오디오 입력 신호의 채널들의 다운믹스(예를 들면, 모노 또는 스테레오 다운믹스)가 생성된다. 입력 신호는 이 다운믹스(주파수 성분들의 시퀀스) 및 공간 파라미터들의 대응하는 시퀀스를 포함하는 출력 신호로서 (또는 공간 파라미터들의 대응하는 시퀀스와, 다운믹스의 각각의 채널의 파형 코딩된 버전으로서) 인코딩된다. 공간 파라미터들은 오디오 입력 신호의 각각의 채널의 진폭 엔벨로프와 입력 신호의 다운믹스로부터 오디오 입력 신호의 채널들 사이의 채널간 상관들 둘다의 복원을 허용한다. 이러한 타입의 파라메트릭 코딩은 입력 신호의 전주파수 범위의 부분 범위에 있는 주파수 성분들에 대해서보다는 입력 신호의 모든 주파수 성분들(즉, 입력 신호의 전주파수 범위에 걸쳐)에 대해 수행될 수 있다(즉, 입력 신호의 인코딩된 버전이 전주파수 범위의 서브세트보다는 입력 신호의 전주파수 범위의 모든 주파수들에 대한 다운믹스 및 공간 파라미터들을 포함하도록).
오디오 비트스트림의 E-AC-3 또는 AC-3 인코딩에서, 인코딩될 입력 오디오 샘플들의 블록들은 균일하게 이격된 주파수 빈들에 위치되는 흔히 변환 계수들(또는 주파수 계수들 또는 주파수 성분들)로 칭해지는 주파수 도메인 데이터의 블록들을 유발하는 시간-대-주파수 도메인 변환을 받는다. 각각의 빈의 주파수 계수는 그 후에 지수 및 가수를 포함하는 부동 소수점 포맷으로 변환된다(예를 들면, 도 1의 시스템의 BFPE 단(7)에서).
통상적으로, 가수 비트 할당은 미세-입자 신호 스펙트럼(각각의 주파수 빈에 대한 전력 스펙트럼 밀도("PSD") 값으로 표현)과 굵은-입자 마스킹 곡선(각각의 주파수 대역에 대한 마스크 값으로 표현) 사이의 차에 기초한다.
도 1은 시간-도메인 입력 오디오 데이터(1)에 대해 종래의 E-AC-3 인코딩을 수행하도록 구성된 인코더이다. 인코더의 분석 필터 뱅크(2)는 시간-도메인 입력 오디오 데이터(1)를 주파수-도메인 오디오 데이터(3)로 변환하고, 블록 부동 소수점 인코딩(BFPE) 단(7)은 각각의 주파수 빈에 대한 지수 및 가수를 포함하는 데이터(3)의 각각의 주파수 성분의 부동 소수점 표현을 만들어낸다. 단(7)으로부터 출력된 주파수-도메인 데이터는 가끔 주파수 도메인 오디오 데이터(3)로도 칭해질 것이다. 단(7)으로부터 출력된 주파수 도메인 오디오 데이터는, 단(7)으로부터 출력된 주파수 도메인 데이터의 저주파수 성분들("F1" 이하의 주파수를 가짐, 여기서 F1은 통상적으로 3.5 kHz 또는 4.6 kHz와 같음)에 대해 파형 코딩(도 1의 시스템의 소자들(4, 6, 10, 및 11)에서)을 수행함에 의해, 및 단(7)으로부터 출력된 주파수 도메인 데이터의 다른 주파수 성분들(F1보다 큰 주파수를 가진 성분들)에 대해 파라메트릭 코딩(파라메트릭 인코딩 단(12)에서)을 수행함에 의한 것을 포함하여 인코딩된다.
파형 인코딩은 양자화기(6)에서의 (단(7)으로부터 출력된 저주파수 성분들의) 가수들의 양자화 및 텐팅 단(10)에서의 (단(7)으로부터 출력된 저주파수 성분들의) 지수들의 텐팅 및 단(10)에서 생성된 텐팅 지수들의 인코딩(지수 코딩 단(11)에서)을 포함한다. 포맷터(8)는 양자화기(6)로부터 출력된 양자화된 데이터, 단(11)으로부터 출력된 코딩된 차분 지수 데이터, 및 단(12)으로부터 출력된 파라메트릭 인코딩된 데이터에 응답하여, E-AC-3 인코딩된 비트스트림(9)을 생성한다.
양자화기(6)는 제어기(4)에 의해 생성된 제어 데이터(마스킹 데이터를 포함)에 기초하여 비트 할당 및 양자화를 수행한다. 마스킹 데이터(마스킹 곡선을 결정)는 인간의 청각 및 청각 인지의 음향 심리학적 모델(제어기(4)에 의해 구현)에 기초하여 주파수 도메인 데이터(3)로부터 생성된다. 음향 심리학적 모델링은 인간 청각의 주파수-종속 임계값들, 및 마스킹으로 칭해지는 음향 심리학적 현상을 고려하고, 그에 의해 하나 이상의 더 약한 주파수 성분들 부근의 강한 주파수 성분은 더 약한 성분들을 마스킹하여, 인간 청취자에게 이들을 청취 가능하게 하려는 경향이 있다. 이것은 오디오 데이터를 인코딩할 때 더 약한 주파수 성분들을 생략하는 것을 가능하게 하고, 그에 의해 인코딩된 오디오 데이터(비트스트림(9))의 지각 품질에 악영향을 미치지 않고 더 높은 정도의 압축을 달성한다. 마스킹 데이터는 주파수 도메인 오디오 데이터(3)의 각각의 주파수 대역에 대한 마스킹 곡선 값을 포함한다. 이들 마스킹 곡선 값들은 각각의 주파수 대역에서 인간의 귀에 의해 마스킹되는 신호의 레벨을 표현한다. 양자화기(6)는 입력 오디오 신호의 각각의 주파수 대역의 주파수 도메인 데이터를 표현하기 위해 이용 가능한 수의 데이터 비트들을 이용하기 위한 최상의 방법을 결정하기 위해 이 정보를 이용한다.
종래의 E-AC-3 인코딩에서, 차분 지수들(즉, 연속 지수들 사이의 차)은 절대 지수들을 대신하여 코딩된다는 것이 알려졌다. 차분 지수들은 5개의 값들: 2, 1, 0, -1, 및 -2 중 하나만을 취할 수 있다. 이 범위 밖의 차분 지수가 발견되는 경우, 감산되는 지수들 중 하나는 차분 지수(수정후)가 주지된 범위 내에 있도록 수정된다(이러한 종래 방법은 "지수 텐팅(exponent tenting)" 또는 "텐팅"으로 알려졌다). 도 1 인코더의 텐팅 단(10)은 이러한 텐팅 동작을 수행함으로써, 이에 어서트된(asserted) 미가공 지수들(raw exponents)에 응답하여 텐팅 지수들을 생성한다.
E-AC-3 코딩의 통상적 실시예에서, 5 또는 5.1 채널 오디오 신호는 약 96 kbps 내지 약 192 kbps의 범위에 있는 비트 레이트에서 인코딩된다. 현재, 192 kbps에서 통상적 E-AC-3 인코더는 신호의 각각의 채널의 더 낮은 주파수 성분들(예를 들면, 최대 3.5 kHz 또는 4.6 kHz)에 대한 이산 파형 코딩, 신호의 각각의 채널의 중간 주파수 성분들(예를 들면, 3.5 kHz 내지 약 10 kHz 또는 4.6 kHz 내지 약 10 kHz)에 대한 채널 결합, 및 신호의 각각의 채널의 더 높은 주파수 성분들(예를 들면, 약 10 kHz 내지 16 kHz 또는 약 10 kHz 내지 14.8 kHz)에 대한 스펙트럼 확장의 조합을 이용하여 5-채널(또는 5.1 채널) 입력 신호를 인코딩한다. 이것이 허용 품질을 얻지만, 인코딩된 출력 신호를 전달하기 위해 이용 가능한 최대 비트레이트가 192 kbps보다 낮게 감소됨에 따라, 품질(인코딩된 출력 신호의 디코딩된 버전)이 급속히 저하된다. 예를 들면, 스트리밍을 위한 5.1 채널 오디오를 인코딩하기 위해 E-AC-3을 이용할 때, 임시 데이터 대역폭 제한들은 192 kbps보다 낮은 데이터 레이트(예를 들면, 64 kbps로)를 요구할 수 있다. 그러나 192 kbps보다 낮은 비트레이트에서 전달하도록 5.1 채널 신호를 인코딩하기 위해 E-AC-3을 이용하는 것은 "방송 품질(broadcast quality)" 인코딩된 오디오를 생성하지 않는다. 실질적으로 192 kbps 아래의 비트레이트(예를 들면, 96 kbps, 또는 128 kbps, 또는 160 kbps)에서 전달하도록 신호를 코딩하기 위해(E-AC-3 인코딩을 이용하여), 오디오 대역폭(인코딩된 오디오 신호를 전달하기 위해 이용 가능한), 코딩 아티팩트들, 및 공간 붕괴(spatial collapse) 사이의 최상의 이용 가능한 트레이드오프가 발견되어야 한다. 더욱 일반적으로, 본 발명자들은 낮은(또는 일반적인 비트레이트보다 적은) 비트레이트들에서 전달하기 위한 멀티채널 입력 오디오를 인코딩하기 위해 오디오 대역폭, 코딩 아티팩트들, 및 공간 붕괴 사이의 최상의 트레이드오프가 발견되어야 함을 인식했다.
하나의 순수 솔루션은 멀티채널 입력 오디오를, 이용 가능한 비트레이트에 대해 적절한 품질(예를 들면, 이것이 최소 적절한 품질인 경우, "방송 품질")로 생성될 수 있는 채널들의 수로 다운믹스하고, 그 후에 다운믹스의 각각의 채널의 종래의 인코딩을 수행하는 것이다. 예를 들면, 5-채널 입력 신호를 3-채널 다운믹스(이용 가능한 비트레이트가 128 kbps인 경우)로 또는 2-채널 다운믹스(이용 가능한 비트레이트가 96 kbps인 경우)로 다운믹스할 수 있다. 그러나 이 솔루션은 심각한 공간 붕괴의 댓가를 치르면서 코딩 품질 및 오디오 대역폭을 유지한다.
다른 순수 솔루션은 다운믹스를 회피하고(예를 들면, 5.1 채널 입력 신호에 응답하여 전 5.1 채널 인코딩된 출력 신호를 생성하고), 대신에 코덱을 그 제한에 넣는 것이다. 그러나 이 솔루션은 가능한 넓은 공간을 유지하지만, 더 많은 코딩 아티팩트들을 도입하고 오디오 대역폭을 희생한다.
본 발명은 개선된 멀티채널 오디오 인코딩 및 디코딩을 제공하고자 하는 것이다.
통상적 실시예들에서, 본 발명은 멀티채널 오디오 입력 신호의 하이브리드 인코딩 방법(예를 들면, E-AC-3 표준에 순응하는 인코딩 방법)이다. 이 방법은 입력 신호의 개별의 채널들의 저주파수 성분들(예를 들면, 약 1.2 kHz 내지 약 4.6 kHz, 또는 약 3.5 kHz 내지 약 4.6 kHz의 범위에 있는 최대 값까지의 주파수를 가진)의 다운믹스를 생성하는 단계, 다운믹스의 각각의 채널에 대해 파형 코딩을 수행하는 단계, 및 입력 신호의 각각의 채널의 다른 주파수 성분들(적어도 일부의 중간 주파수 및/또는 고주파수 성분들)의 파라메트릭 인코딩을 수행하는 단계(입력 신호의 채널들 중 임의의 다른 주파수 성분들의 예비 다운믹스를 수행하지 않고)를 포함한다.
통상적 실시예들에서, 본 발명의 인코딩 방법은, 인코딩된 출력 신호가 입력 신호보다 적은 비트들을 포함하도록, 및 인코딩된 신호가 낮은 비트레이트에서(예를 들면, E-AC-3 순응 실시예에 대해 약 96 kbps 내지 약 160 kbps의 범위에서, 여기서 "kbps"는 초당 킬로비트들을 표시) 양호한 품질로 전송될 수 있도록 입력 신호를 압축한다. 이러한 맥락에서, 종래 인코딩된 오디오의 전송을 위해 통상적으로 이용 가능한 것(예를 들면, 종래 E-AC-3 인코딩된 오디오에 대해 192 kbps의 통상적 비트 레이트)보다 실질적으로 적지만, 최소 비트레이트보다는 크고, 최소 비트레이트보다 아래에서는 입력 신호의 전적인 파라메트릭 코딩이 (전송된 인코딩된 신호의 디코딩된 버전의) 적절한 품질을 달성하도록 요구된다는 의미에서, 전송 비트레이트는 "낮다(low)". (인코딩된 신호의 예를 들면 낮은 비트레이트에서의 전송 후에 인코딩된 신호의 디코딩된 버전의) 적절한 품질을 제공하기 위해, 멀티채널 입력 신호는 입력 신호의 오리지널 채널들의 저주파수 컨텐트의 파형 코딩된 다운믹스와, 입력 신호의 각각의 오리지널 채널의 고(더 높은 후에 저)주파수 컨텐트의 파라메트릭 코딩된 버전의 조합으로서 인코딩된다. 각각의 오리지널 입력 채널의 저주파수 컨텐트의 이산 파형 코딩과 반대로 저주파수 컨텐트의 다운믹스를 파형 코딩함으로써 상당한 비트레이트 절약들이 달성된다. 각각의 입력 채널의 고주파수들을 파라메트릭 코딩하도록(인코딩 신호에 포함되도록) 요구되는 데이터량이 비교적 적기 때문에, 인코딩된 신호가 전달될 수 있는 비트레이트를 그다지 증가시키지 않고 각각의 입력 채널의 더 높은 주파수들을 파라메트릭 코딩하여, 비교적 낮은 "비트 레이트(bit rate)" 비용으로 개선된 공간 이미징을 유발하는 것이 가능하다. 본 발명의 하이브리드(파형 및 파라메트릭) 코딩 방법의 통상적 실시예들은 공간 이미지 붕괴(다운믹스로 인해)로부터 유발되는 아티팩트들과 코딩 잡음 사이의 균형을 통한 더 많은 제어를 허용하고, 일반적으로 종래의 방법들에 의해 달성될 수 있는 것에 비해 (인코딩된 신호의 디코딩된 버전의) 지각 품질의 전체 개선을 유발한다.
일부 실시예들에서, 본 발명은 극히 대역폭-제한된 환경들에서 컨텐트를 스트리밍할 때 특별히 전달하기 위한 인코딩된 오디오를 생성하는 E-AC-3 방법 또는 시스템이다. 다른 실시예들에서, 본 발명의 인코딩 방법 및 시스템은 더욱 일반적인 애플리케이션들을 위해 더 높은 비트레이트들로 전달하기 위한 인코딩된 오디오를 생성한다.
일 부류의 실시예들에서, 멀티-채널 입력 오디오의 각각의 채널의 저주파수 대역들만의 다운믹스(저주파수 성분들의 결과로서 생긴 다운믹스의 파형 코딩이 뒤따름)는 오디오 컨텐트의 저주파수 대역들에 대한 파형 코딩된 비트들을 (인코딩된 출력 신호에) 포함하기 위한 필요성을 제거함으로써 다수의 비트들을 절감하고(즉, 인코딩된 출력 신호의 비트들의 수를 감소시키고), 또한 오리지널 입력 오디오의 모든 채널들의 파라메트릭 코딩된 컨텐트(예를 들면, 채널 결합된 및 스펙트럼 확장된 컨텐트)의 (인코딩된 신호에의) 포함의 결과로서 전달된 인코딩된 신호의 디코딩된 버전의 렌더링 중에 공간 붕괴를 최소화(또는 감소)한다. 이러한 실시예들에 의해 생성되는 인코딩된 신호는 종래의 인코딩 방법(예를 들면, 상기 언급된 순수 인코딩 방법들 중 하나)에 의해 생성된 경우보다 공간, 대역폭, 및 코딩 아티팩트들의 더욱 균형적인 트레이드오프를 가진다.
일부 실시예들에서, 본 발명은 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법이며, 이 방법은: 입력 신호의 적어도 일부의 채널들의 저주파수 성분들의 다운믹스를 생성하는 단계; 다운믹스의 각각의 채널을 파형 코딩하여, 다운믹스의 오디오 컨텐트를 나타내는 파형 코딩된 다운믹스 데이터를 생성하는 단계; 입력 신호의 각각의 채널의 적어도 일부의 더 높은 주파수 성분들(예를 들면, 중간 주파수 성분들 및/또는 고주파수 성분들)에 대해 파라메트릭 인코딩을 수행하여(예를 들면, 중간 주파수 성분들의 채널 결합 코딩 및 고주파수 성분들의 스펙트럼 확장 코딩을 수행하여), 입력 신호의 상기 각각의 채널의 상기 적어도 일부의 더 높은 주파수 성분들을 나타내는 파라메트릭 코딩된 데이터를 생성하는 단계; 및 파형 코딩된 다운믹스 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호를 생성하는 단계를 포함한다. 일부 이러한 실시예들에서, 인코딩된 오디오 신호는 E-AC-3 인코딩된 오디오 신호이다.
본 발명의 다른 양태는 인코딩된 오디오 데이터를 디코딩하기 위한 방법이며, 이 방법은, 본 발명의 인코딩 방법의 임의의 실시예에 따라 오디오 데이터를 인코딩함으로써 생성된 인코딩된 오디오 데이터를 나타내는 신호를 수신하는 단계, 및 오디오 데이터를 나타내는 신호를 생성하기 위해 인코딩된 오디오 데이터를 디코딩하는 단계를 포함한다.
예를 들면, 일부 실시예들에서, 본 발명은 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호를 디코딩하기 위한 방법이며, 여기서 인코딩된 오디오 신호는, 멀티채널 오디오 입력 신호의 적어도 일부의 채널들의 저주파수 성분들의 다운믹스를 생성하고, 다운믹스의 각각의 채널을 파형 코딩하여, 다운믹스의 오디오 컨텐트를 나타내도록 파형 코딩된 데이터를 생성하고, 입력 신호의 각각의 채널의 적어도 일부의 더 높은 주파수 성분들에 대해 파라메트릭 인코딩을 수행하여, 파라메트릭 코딩된 데이터가 입력 신호의 상기 각각의 채널의 상기 적어도 일부의 더 높은 주파수 성분들을 나타내도록 파라메트릭 코딩된 데이터를 생성하고, 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터에 응답하여 인코딩된 오디오 신호를 생성함으로써 생성되었다. 디코딩 방법은: 인코딩된 오디오 신호로부터 파형 인코딩된 데이터 및 파라메트릭 인코딩된 데이터를 추출하는 단계; 다운믹스의 각각의 채널의 저주파수 오디오 컨텐트를 나타내는 제 1 세트의 복구된 주파수 성분들을 생성하기 위해 추출된 상기 파형 인코딩된 데이터에 대해 파형 디코딩을 수행하는 단계; 및 멀티채널 오디오 입력 신호의 각각의 채널의 더 높은 주파수(예를 들면, 중간 주파수 및 고주파수) 오디오 컨텐트를 나타내는 제 2 세트의 복구된 주파수 성분들을 생성하기 위해 추출된 파라메트릭 인코딩된 데이터에 대해 파라메트릭 디코딩을 수행하는 단계를 포함한다. 일부 이러한 실시예들에서, 멀티채널 오디오 입력 신호는 N개의 채널들을 갖고, 여기서 N은 정수이고, 디코딩 방법은 또한, 디코딩된 주파수-도메인 데이터의 각각의 채널이 멀티채널 오디오 입력 신호의 채널들 중 상이한 채널의 중간 주파수 및 고주파수 오디오 컨텐트를 나타내고, 디코딩된 주파수-도메인 데이터의 적어도 서브세트의 채널들의 각각이 멀티채널 오디오 입력 신호의 저주파수 오디오 컨텐트를 나타내도록, 상기 제 1 세트의 복구된 주파수 성분들 및 상기 제 2 세트의 복구된 주파수 성분들을 조합함에 의한 것을 포함하여 디코딩된 주파수-도메인 데이터의 N개의 채널들을 생성하는 단계를 포함한다.
본 발명의 다른 양태는 오디오 데이터에 응답하여 인코딩된 오디오 데이터를 생성하기 위한 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된(예를 들면, 프로그래밍된) 인코더 및 오디오 데이터를 복구하기 위해 인코딩된 오디오 데이터를 디코딩하도록 구성된 디코더를 포함하는 시스템이다.
본 발명의 다른 양태들은 본 발명의 방법의 임의의 실시예를 수행하도록 구성된(예를 들면, 프로그래밍된) 시스템 또는 디바이스(예를 들면, 인코더, 디코더, 또는 처리기), 및 본 발명의 방법 또는 그 단계들의 임의의 실시예를 구현하기 위한 코드들을 저장하는 컴퓨터 판독 가능한 매체(예를 들면, 디스크)를 포함한다. 예를 들면, 본 발명의 시스템은 프로그래밍 가능한 범용 처리기, 디지털 신호 처리기, 또는 마이크로프로세서일 수 있거나 이들을 포함할 수 있고, 이들은 소프트웨어 또는 펌웨어로 프로그래밍되고 및/또는 본 발명의 방법 또는 그 단계들의 실시예를 포함하여 데이터에 관한 임의의 다양한 동작들을 수행하도록 구성된다. 이러한 범용 처리기는 입력 디바이스, 메모리, 및 처리 회로를 포함하는 컴퓨터 시스템일 수 있거나 이들을 포함할 수 있으며, 이들은 그에 어서트된 데이터에 응답하여 본 발명의 방법(또는 그 단계들)의 실시예를 수행하도록 프로그래밍(및/또는 구성)된다.
도 1은 종래의 인코딩 시스템의 블록도.
도 2는 본 발명의 인코딩 방법의 실시예를 수행하도록 구성된 인코딩 시스템의 블록도.
도 3은 본 발명의 디코딩 방법의 실시예를 수행하도록 구성된 디코딩 시스템의 블록도.
도 4는 오디오 데이터에 응답하여 인코딩된 오디오 데이터를 생성하기 위해 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된 인코더, 및 오디오 데이터를 복구하기 위해 인코딩된 오디오 데이터를 디코딩하도록 구성된 디코더를 포함하는 시스템의 블록도.
본 발명의 코딩 방법 및 상기 방법을 구현하도록 구성된 시스템의 일 실시예가 도 2를 참조하여 기술될 것이다. 도 2의 시스템은 멀티-채널 오디오 입력 신호(21)에 응답하여 E-AC-3 인코딩된 오디오 비트스트림(31)을 생성하도록 구성된 E-AC-3 인코더이다. 신호(21)는 오디오 컨텐트의 5개의 전 범위 채널들을 포함하는 "5.0 채널" 시간-도메인 신호일 수 있다.
도 2의 시스템은 또한, 5개의 전체 범위 채널들 및 하나의 저주파수 효과들(LFE: low frequency effects) 채널을 포함하는 5.1 채널 오디오 입력 신호(21)에 응답하여 E-AC-3 인코딩된 오디오 비트스트림(31)을 생성하도록 구성된다. 도 2에 도시된 소자들은 5개의 전체 범위 입력 채널들을 인코딩할 수 있고, 출력 비트스트림(31)에의 포함을 위해 인코딩된 전체 범위 채널들을 나타내는 비트들을 포맷팅 단(30)에 제공할 수 있다. LFE 채널을 인코딩하고(종래의 방식으로) 출력 비트스트림(31)에의 포함을 위해 인코딩된 LFE 채널을 나타내는 비트들을 포맷팅 단(30)에 제공하기 위한 시스템의 종래의 소자들은 도 2에 도시되지 않는다.
도 2의 시간 도메인-대-주파수 도메인 변환 단(22)은 시간-도메인 입력 신호(21)의 각각의 채널을 주파수 도메인 오디오 데이터의 채널로 변환하도록 구성된다. 도 2의 시스템이 E-AC-3 인코더이기 때문에, 각각의 채널의 주파수 성분들은 바크 스케일로서 공지된 잘 알려진 음향 심리학적 스케일의 주파수 대역들에 가까운 50개의 불균일 대역들로 주파수-대역화된다. 도 2 실시예에 대한 변형들(예를 들면, 인코딩된 출력 오디오(31)가 E-AC-3 순응 포맷을 가지지 않는)에서, 입력 신호의 각각의 채널의 주파수 성분들은 다른 방식으로(즉, 균일 또는 불균일 주파수 대역들의 임의의 세트에 기초하여) 주파수-대역화된다.
단(22)으로부터 출력된 채널들의 전부 또는 일부의 저주파수 성분들은 다운믹스 단(23)에서 다운믹스를 받는다. 저주파수 성분들은 최대 주파수 "F1" 이하인 주파수를 갖고, 여기서 F1은 통상적으로 약 1.2 kHz 내지 약 4.6 kHz의 범위에 있다.
단(22)으로부터 출력된 모든 채널들의 중간 주파수 성분들은 단(26)에서 채널 결합 코딩을 받는다. 중간 주파수 성분들은 F1 < f ≤ F2의 범위에 있는 주파수들 f를 갖고, 여기서 F1은 통상적으로 약 1.2 kHz 내지 약 4.6 kHz의 범위에 있고, F2는 통상적으로 약 8 kHz 내지 약 12.5 kHz의 범위에 있다(예를 들면, F2는 8 kHz 또는 10 kHz 또는 10.2 kHz와 같다).
단(22)으로부터 출력된 모든 채널들의 고주파수 성분들은 단(28)에서 스펙트럼 확장 코딩을 받는다. 고주파수 성분들은 F2 < f ≤ F3의 범위에 있는 주파수들 f를 갖고, 여기서 F2는 통상적으로 약 8 kHz 내지 약 12.5 kHz의 범위에 있고, F3은 통상적으로 약 10.2 kHz 내지 약 18 kHz의 범위에 있다.
본 발명자들은, 멀티-채널 입력 신호의 일부 또는 모든 채널들의 오디오 컨텐트의 저주파수 성분들의 다운믹스(예를 들면, 5개의 전체 범위 채널들을 가진 입력 신호의 3-채널 다운믹스)를 파형 코딩하고(모든 5개의 전체 범위 입력 채널들의 오디오 컨텐트의 저주파수 성분들을 이산적으로 파형 코딩하기보다는) 입력 신호의 각각의 채널의 다른 주파수 성분들을 파라메트릭 인코딩하는 것이 감소된 비트 레이트로 표준 E-AC-3 코딩을 이용하여 획득된 것에 비해 개선된 품질을 가진 인코딩된 출력 신호를 유발하고 부적당한 공간 붕괴를 회피한다고 판단했다. 도 2의 시스템은 본 발명의 인코딩 방법의 이러한 실시예를 수행하도록 구성된다. 예를 들면, 도 2의 시스템은 멀티-채널 입력 신호(21)가 5개의 전체 범위 채널들을 갖고(즉, 5 또는 5.1 채널 오디오 신호이고) 감소된 비트 레이트(예를 들면, 160 kbps, 또는 약 96 kbps보다 크고 실질적으로 192 kbps보다 작은 다른 비트 레이트, 여기서 "kbps"는 초당 킬로비트를 표시)로 인코딩되는 경우에 품질이 개선된 인코딩된 출력 신호(31)를 생성하는 (및 부적당한 공간 붕괴를 회피하는 방식으로) 본 발명의 방법의 이러한 실시예를 수행할 수 있고, 여기서 "감소된(reduced)" 비트 레이트는 비트 레이트가 표준 E-AC-3 인코더가 통상적으로 동일한 입력 신호의 인코딩 동안에 동작하는 비트 레이트보다 아래임을 나타낸다. 본 발명의 방법의 주지된 실시예 및 종래의 E-AC-3 인코딩 방법 둘다가 입력 신호의 오디오 컨텐트의 중간 및 더 높은 주파수 성분들을 파라메트릭 기법들(즉, 도 2의 시스템의 단(26)에서 수행되는 바와 같이, 채널 결합 코딩, 및 도 2의 시스템의 단(28)에서 수행되는 바와 같이, 스펙트럼 확장 코딩)을 이용하여 인코딩하지만, 본 발명의 방법은 입력 오디오 신호의 모든 5개의 이산 채널들보다는 감소된 수(예를 들면, 3개)의 다운믹스 채널들만의 컨텐트의 저주파수 성분들의 파형 코딩을 수행한다. 이것은 유익한 트레이드-오프를 유발하며, 그에 의해 다운믹스 채널들의 코딩 잡음이 공간 정보의 손상의 댓가를 치르면서(채널들의 일부, 통상적으로 서라운드 채널들로부터의 저주파수 데이터가 다른 채널들, 통상적으로 프론트 채널들로 믹스되기 때문에) 감소된다(예를 들면, 파형 코딩이 5개의 채널들보다는 5보다 적은 채널들의 저주파수 성분들에 대해 수행되기 때문에). 본 발명자들은 이 트레이드-오프가 통상적으로, 입력 신호에 대한 표준 E-AC-3 코딩을 감소된 비트 레이트로 수행함으로써 생성되는 것보다 양호한 품질의 출력 신호를 유발한다(인코딩된 출력 신호의 전달, 디코딩 및 렌더링 후에 양호한 사운드 품질을 제공한다)고 판단했다.
통상적 실시예에서, 도 2의 시스템의 다운믹스 단(23)은 입력 신호의 제 1 서브세트의 채널들(통상적으로, 우측 및 좌측 서라운드 채널들, Ls 및 Rs)의 각각의 채널의 저주파수 성분들을 영 값들로 대체하고, 입력 신호의 다른 채널들(예를 들면, 도 2에 도시된 바와 같이, 좌측 프론트 채널 L, 중앙 채널 C, 및 우측 프론트 채널 R)의 저주파수 성분들을 입력 채널들의 저주파수 성분들의 다운믹스로서 변경되지 않고 (파형 인코딩 단(24)에) 통과한다. 대안적으로, 저주파수 컨텐트의 다운믹스는 다른 방식으로 생성된다. 예를 들면, 일 대안적 구현에서, 다운믹스를 생성하는 동작은 제 1 서브세트의 적어도 하나의 채널의 저주파수 성분들을 입력 신호의 다른 채널들 중 적어도 하나의 저주파수 성분들과 믹스하는 단계를 포함한다(예를 들면, 단(23)은 다운믹스의 우측 채널을 생성하기 위해 그에 어서트된 우측 서라운드 채널 Rs와 우측 프론트 채널 R을 믹스하고, 다운믹스의 좌측 채널을 생성하기 위해 그에 어서트된 좌측 서라운드 채널 Ls와 좌측 프론트 채널 L을 믹스하도록 구현될 수 있다).
단(23)에서 생성되는 다운믹스의 각각의 채널은 파형 인코딩 단(24)에서 파형 코딩을(종래의 방식으로) 받는다. 다운믹스 단(23)은 입력 신호의 제 1 서브세트의 채널들(예를 들면, 도 2에 나타낸 바와 같이, 우측 및 좌측 서라운드 채널들, Ls 및 Rs)의 각각의 채널의 저주파수 성분들을 영 값들을 포함하는 저주파수 성분 채널로 대체하고, 영 값들을 포함하는 각각의 이러한 채널(본 명세서에서 가끔 "무음(silent)" 채널로 칭해짐)은 다운믹스의 각각의 영이 아닌(유음) 채널과 함께 단(23)으로부터 출력된다. 다운믹스의 각각의 영이 아닌 채널(단(23)에서 생성된)이 단(24)에서 파형 코딩을 받을 때, 단(23)에서 단(24)까지 어서트하는 각각의 "무음" 채널도 또한 통상적으로 파형 코딩된다(매우 낮은 처리 및 비트 비용으로). 단(24)에서 생성되는 모든 파형 인코딩된 채널들(임의의 파형 인코딩된 무음 채널들을 포함)은 인코딩된 출력 신호(31)에서 적절한 포맷으로 포함을 위해 단(24)에서 포맷팅 단(30)으로 출력된다.
통상적인 실시예들에서, 인코딩된 출력 신호(31)가 디코더(예를 들면, 도 3을 참조하여 기술될 디코더)에 전달(예를 들면, 전송) 될 때, 디코더는 저주파수 오디오 컨텐트의 전체 수의 파형 코딩된 채널들(예를 들면, 5개의 파형 코딩된 채널들)을 볼 수 있지만, 이들의 서브세트(예를 들면, 3-채널 다운믹스의 경우에 이들 중 2개, 또는 2-채널 다운믹스의 경우에 이들 중 3개)는 완전히 영들로 이루어진 "무음" 채널들이다.
저주파수 컨텐트의 다운믹스를 생성하기 위해, 본 발명의 상이한 실시예들(예를 들면, 도 2의 단(23)의 상이한 구현들)은 상이한 방법들을 활용한다. 입력 신호가 5개의 전체 범위 채널들(좌측 프론트, 좌측 서라운드, 우측 프론트, 우측 서라운드, 및 중앙)을 갖고 3-채널 다운믹스가 생성되는 일부 실시예들에서, 입력 신호의 좌측 서라운드 채널 신호의 저주파수 성분들은 다운믹스의 좌측 프론트 채널을 생성하기 위해 입력 신호의 좌측 프론트 채널의 저주파수 성분들로 믹스되고, 입력 신호의 우측 서라운드 신호의 저주파수 성분들은 다운믹스의 우측 프론트 채널을 생성하기 위해 입력 신호의 우측 프론트 채널의 저주파수 성분들로 믹스된다. 입력 신호의 중앙 채널은 파형 및 파라메트릭 코딩에 앞서 변하지 않고(즉, 믹스를 받지 않고), 다운믹스의 좌측 및 우측 서라운드 채널들의 저주파수 성분들은 영들로 설정된다.
대안적으로, 2-채널 다운믹스가 생성되는 경우(즉, 더 낮은 비트레이트들에 대해), 입력 신호의 좌측 서라운드 채널의 저주파수 성분들을 입력 신호의 좌측 프론트 채널의 저주파수 성분들과 믹스하는 것 외에도, 통상적으로 입력 신호의 중앙 채널의 저주파수 성분들의 레벨을 3dB 만큼 감소시킨 후에(좌측과 우측 채널들 사이에서 중앙 채널의 전력을 분리하는 것을 처리하기 위해), 입력 신호의 중앙 채널의 저주파수 성분들은 또한 입력 신호의 좌측 프론트 채널의 저주파수 성분들과 믹스되고, 입력 신호의 우측 서라운드 채널 및 중앙 채널의 저주파수 성분들은 입력 신호의 우측 프론트 채널의 저주파수 성분들과 믹스된다.
다른 대안적인 실시예들에서, 모노(일-채널) 다운믹스가 생성되거나, 2 또는 3개의 채널들 외에 다른 수의 채널들(예를 들면, 4개)을 가진 다운믹스가 생성된다.
도 2를 다시 참조하면, 단(22)으로부터 출력된 모든 채널들(즉, 5개의 전체 범위 채널들을 가진 입력 신호(21)에 응답하여 생성된 중간 주파수 성분들의 모든 5개의 채널들)의 중간 주파수 성분들은 채널 결합 코딩 단(26)에서 종래의 채널 결합 코딩을 받는다. 단(26)의 출력은, 중간 주파수 성분들의 모노 다운믹스(도 2에서 "모노 오디오"로 라벨이 붙음) 및 결합 파라미터들의 대응하는 시퀀스이다.
모노 다운믹스는 파형 코딩 단(27)에서 파형 코딩되고(종래의 방식으로), 단(27)으로부터 출력된 파형 코딩된 다운믹스 및 단(26)으로부터 출력된 결합 파라미터들의 대응하는 시퀀스는 인코딩된 출력 신호(31)에서 적절한 포맷으로 포함을 위해 포맷팅 단(30)으로 어서트된다.
채널 결합 인코딩의 결과로서 단(26)에 의해 생성된 모노 다운믹스는 또한 스펙트럼 확장 코딩 단(28)에 어서트된다. 이 모노 다운믹스는 단(22)으로부터 출력된 모든 채널들의 고주파수 성분들의 스펙트럼 확장 코딩을 위해 기저대역 신호로서 단(28)에 의해 활용된다. 단(28)은 단(26)으로부터의 모노 다운믹스를 이용하여, 단(22)으로부터 출력된 모든 채널들(즉, 5개의 전체 범위 채널들을 가진 입력 신호(21)에 응답하여 생성된 고주파수 성분들의 모든 5개의 채널들)의 고주파수 성분들의 스펙트럼 확장 코딩을 수행하도록 구성된다. 스펙트럼 확장 코딩은 고주파수 성분들에 대응하는 인코딩 파라미터들(SPX 파라미터들)의 세트의 결정을 포함한다.
SPX 파라미터들은 입력 신호(21)의 채널들의 각각의 오디오 컨텐트의 고주파수 성분들의 양호한 근사치를 재구성하기 위해, 기저대역 신호(단(26)으로부터 출력된)와 디코더(예를 들면, 도 3의 디코더)에 의해 처리될 수 있다. SPX 파라미터들은 인코딩된 출력 신호(31)에서 적절한 포맷으로 포함을 위해 코딩 단(28)에서 포맷팅 단(30)으로 어서트된다.
다음에, 도 3을 참조하여, 도 2의 인코더에 의해 생성된 인코딩된 출력 신호(31)를 디코딩하기 위한 본 발명의 방법 및 시스템의 일 실시예를 기술한다.
도 3의 시스템은 본 발명의 디코딩 시스템 및 방법의 일 실시예를 구현하는 E-AC-3 디코더이고, E-AC-3 인코딩된 오디오 비트스트림(예를 들면, 도 2의 인코더에 의해 생성된 다음에, 도 3의 디코더에 전송되거나 전달되는 E-AC-3 인코딩된 신호(31))에 응답하여 멀티-채널 오디오 출력 신호(41)를 복구하도록 구성된다. 신호(41)는 오디오 컨텐트의 5개의 전체 범위 채널들을 포함하는 5.0 채널 시간-도메인 신호일 수 있고, 여기서 신호(31)는 이러한 5.0 채널 신호의 오디오 컨텐트를 나타낸다.
대안적으로, 신호(41)는, 신호(31)가 5.1 채널 신호의 오디오 컨텐트를 나타내는 경우, 5개의 전체 범위 채널들 및 하나의 저주파수 효과들(LFE) 채널을 포함하는 5.1 채널 시간 도메인 오디오 신호일 수 있다. 도 3에 도시된 소자들은 이러한 신호(31)에 나타낸 5개의 전체 범위 채널들을 디코딩할 수 있다(그리고 디코딩된 전체 범위 채널들을 나타내는 비트들을 출력 신호(41)의 생성시 이용을 위해 단(40)에 제공할 수 있다). 5.1 채널 신호의 오디오 컨텐트를 나타내는 신호(31)를 디코딩하기 위해, 도 3의 시스템은 이러한 5.1 채널 신호의 LFE 채널을 디코딩하고(종래의 방식으로) 디코딩된 LFE 채널을 나타내는 비트들을 출력 신호(41)의 생성시 이용을 위해 단(40)에 제공하기 위한 종래의 소자들(도 3에 도시되지 않음)을 포함한다.
도 3의 디코더의 디포맷팅 단(32)은 신호(21)의 오리지널 채널들의 전부 또는 일부의 저주파수 성분들의 다운믹스의 파형 인코딩된 저주파수 성분들(도 2의 인코더의 단(24)에 의해 생성된), 신호(21)의 중간 주파수 성분들의 파형 인코딩된 모노 다운믹스(도 2의 인코더의 단(27)에 의해 생성된), 도 2의 인코더의 채널 결합 코딩 단(26)에 의해 생성된 결합 파라미터들의 시퀀스, 및 도 2의 인코더의 스펙트럼 확장 코딩 단(28)에 의해 생성된 SPX 파라미터들의 시퀀스를 신호(31)로부터 추출하도록 구성된다.
단(32)은 파형 인코딩된 저주파수 성분들의 각각의 추출된 다운믹스 채널이 파형 디코딩 단(34)에 어서트하도록 결합 및 구성된다. 단(34)은 도 2의 인코더의 다운믹스 단(23)으로부터 출력된 저주파수 성분들의 각각의 다운믹스 채널을 복구하기 위해, 파형 인코딩된 저주파수 성분들의 이러한 다운믹스 채널에 대해 파형 디코딩을 수행하도록 구성된다. 통상적으로, 저주파수 성분들의 이들 복구된 다운믹스 채널들은 무음 채널들(예를 들면, 도 3에 나타낸 무음 좌측 서라운드 채널, Ls = 0, 및 도 3에 나타낸 무음 우측 서라운드 채널, Rs = 0) 및 도 2의 인코더의 단(23)에 의해 생성된 다운믹스의 저주파수 성분들의 각각의 유음 채널(예를 들면, 도 3에 나타낸 좌측 프론트 채널 L, 중앙 채널 C, 및 우측 프론트 채널 R)을 포함한다. 단(34)으로부터 출력된 각각의 다운믹스 채널의 저주파수 성분들은 "F1" 이하의 주파수들을 갖고, 여기서 F1은 통상적으로 약 1.2 kHz 내지 약 4.6 kHz의 범위에 있다.
저주파수 성분들의 복구된 다운믹스 채널들은 단(34)에서 주파수 도메인 조합 및 주파수 도메인-대-시간 도메인 변환 단(40)으로 어서트된다.
단(32)에 의해 추출되는 중간 주파수 성분들의 파형 인코딩된 모노 다운믹스에 응답하여, 도 3의 디코더의 파형 디코딩 단(36)은 도 2의 인코더의 채널 결합 인코딩 단(26)으로부터 출력된 중간 주파수 성분들의 모노 다운믹스를 복구하기 위해 파형 디코딩을 수행하도록 구성된다. 단(36)에 의해 복구된 중간 주파수 성분들의 모노 다운믹스, 및 단(32)에 의해 추출된 결합 파라미터들의 시퀀스에 응답하여, 도 3의 채널 결합 디코딩 단(37)은 신호(21)의 오리지널 채널들(도 2의 인코더의 단(26)의 입력들에 어서트된)의 중간 주파수 성분들을 복구하기 위해 채널 결합 디코딩을 수행하도록 구성된다. 이들 중간 주파수 성분들은 F1 < f ≤ F2의 범위에 있는 주파수들을 갖고, 여기서 F1은 통상적으로 약 1.2 kHz 내지 약 4.6 kHz의 범위에 있고, F2는 통상적으로 약 8 kHz 내지 약 12.5 kHz의 범위에 있다(예를 들면, F2는 8 kHz 또는 10 kHz 또는 10.2 kHz와 같다).
복구된 중간 주파수 성분들은 단(37)에서 주파수 도메인 조합 및 주파수 도메인-대-시간 도메인 변환 단(40)으로 어서트된다.
파형 디코딩 단(36)에 의해 생성된 중간 주파수 성분들의 모노 다운믹스는 스펙트럼 확장 디코딩 단(38)에도 또한 어서트된다. 중간 주파수 성분들의 모노 다운믹스, 및 단(32)에 의해 추출된 SPX 파라미터들의 시퀀스에 응답하여, 스펙트럼 확장 디코딩 단(38)은 신호(21)의 오리지널 채널들(도 2의 인코더의 단(28)의 입력들에 어서트된)의 고주파수 성분들을 복구하기 위해 스펙트럼 확장 디코딩을 수행하도록 구성된다. 이들 고주파수 성분들은 F2 < f ≤ F3의 범위에 있는 주파수들을 갖고, 여기서 F2는 통상적으로 약 8 kHz 내지 약 12.5 kHz의 범위에 있고, F3은 통상적으로 약 10.2 kHz 내지 약 18 kHz(예를 들면, 약 14.8 kHz 내지 약 16 kHz)의 범위에 있다.
복구된 고주파수 성분들은 단(38)에서 주파수 도메인 조합 및 주파수 도메인-대-시간 도메인 변환 단(40)으로 어서트된다.
단(40)은 전주파수 범위의 주파수 도메인 복구된 버전의 좌측 프론트 채널을 생성하기 위해, 오리지널 멀티-채널 신호(21)의 좌측 프론트 채널에 대응하는 복구된 중간 주파수 성분들, 고주파수 성분들, 및 저주파수 성분들을 조합(예를 들면, 함께 합산)하도록 구성된다.
유사하게, 단(40)은 전주파수 범위의 주파수 도메인 복구된 버전의 우측 프론트 채널을 생성하기 위해, 오리지널 멀티-채널 신호(21)의 우측 프론트 채널에 대응하는 복구된 중간 주파수 성분들, 고주파수 성분들, 및 저주파수 성분들을 조합(예를 들면, 함께 합산)하도록 구성되고, 전주파수 범위의 주파수 도메인 복구된 버전의 중앙 채널을 생성하기 위해, 오리지널 멀티-채널 신호(21)의 중앙에 대응하는 복구된 중간 주파수 성분들, 고주파수 성분들, 및 저주파수 성분들을 조합(예를 들면, 함께 합산)하도록 구성된다.
단(40)은 또한, 전주파수 범위를 가진 주파수 도메인 복구된 버전의 좌측 서라운드 프론트 채널을 생성하기 위해(도 2의 인코더의 단(23)에서 수행된 다운믹스로 인해 저주파수 컨텐트가 부족하지만), 오리지널 멀티-채널 신호(21)의 좌측 서라운드 채널의 복구된 저주파수 성분들(저주파수 성분 다운믹스의 좌측 서라운드 채널이 무음 채널이기 때문에, 영 값들을 가짐)을 오리지널 멀티-채널 신호(21)의 좌측 서라운드 채널에 대응하는 복구된 중간 주파수 성분들 및 고주파수 성분들과 조합(예를 들면, 함께 합산)하도록 구성된다.
단(40)은 또한, 전주파수 범위를 가진 주파수 도메인 복구된 버전의 우측 서라운드 프론트 채널을 생성하기 위해(도 2의 인코더의 단(23)에서 수행된 다운믹스로 인해 저주파수 컨텐트가 부족하지만), 오리지널 멀티-채널 신호(21)의 우측 서라운드 채널의 복구된 저주파수 성분들(저주파수 성분 다운믹스의 우측 서라운드 채널이 무음 채널이기 때문에 영 값들을 가짐)을 오리지널 멀티-채널 신호(21)의 우측 서라운드 채널에 대응하는 복구된 중간 주파수 성분들 및 고주파수 성분들과 조합(예를 들면, 함께 합산)하도록 구성된다.
단(40)은 또한, 디코딩된 출력 신호(41)의 각각의 채널을 생성하기 위해, 주파수 성분들의 각각 복구된(주파수 도메인) 전주파수 범위 채널에 대해 주파수 도메인-대-시간 도메인 변환을 수행하도록 구성된다. 신호(41)는 채널들이 오리지널 멀티-채널 신호(21)의 채널들의 복구된 버전들인 시간-도메인, 멀티-채널 오디오 신호이다.
더욱 일반적으로, 본 발명의 디코딩 방법 및 시스템의 통상적 실시예들은 (본 발명의 일 실시예에 따라 생성된 인코딩된 오디오 신호로부터) 오리지널 멀티-채널 입력 신호의 채널들(채널들의 일부 또는 전부)의 오디오 컨텐트의 저주파수 성분들의 파형 인코딩된 다운믹스의 각각의 채널을 복구하고, 또한 멀티-채널 입력 신호의 각각의 채널의 컨텐트의 파라메트릭 인코딩된 중간 및 고주파수 성분들의 각각의 채널을 복구한다. 디코딩을 수행하기 위해, 다운믹스의 복구된 저주파수 성분들은 파형 디코딩을 받고 그 후에 여러 상이한 방식들 중 어느 것으로 복구된 중간 및 고주파수 성분들의 파라메트릭 디코딩된 버전들과 조합될 수 있다. 제 1 부류의 실시예들에서, 각각의 다운믹스 채널의 저주파수 성분들은 대응하는 파라메트릭 코딩된 채널의 중간 및 고주파수 성분들과 조합된다. 예를 들면, 인코딩된 신호가 5-채널 입력 신호의 저주파수 성분들의 3-채널 다운믹스(좌측 프론트, 중앙, 및 우측 프론트 채널들)를 포함하는 경우, 및 인코더가 입력 신호의 좌측 서라운드 및 우측 서라운드 채널들의 저주파수 성분들 대신에 영의 값들을 출력한(저주파수 성분 다운믹스를 생성하는 것과 관련되어) 경우를 고려한다. 디코더의 좌측 출력은 파라메트릭 디코딩된 좌측 채널 신호(중간 및 고주파수 성분들을 포함)와 조합된 파형 디코딩된 좌측 프론트 다운믹스 채널(저주파수 성분들을 포함)일 것이다. 디코더의 중앙 채널 출력은 파라메트릭 디코딩된 중앙 채널과 조합된 파형 디코딩된 중앙 다운믹스 채널일 것이다. 디코더의 우측 출력은 파라메트릭 디코딩된 우측 채널과 조합된 파형 디코딩된 우측 프론트 다운믹스 채널일 것이다. 디코더의 좌측 서라운드 채널 출력은 바로 좌측 서라운드 파라메트릭 디코딩된 신호일 것이다(즉, 영이 아닌 저주파수 좌측 서라운드 채널 컨텐트가 없을 것이다). 유사하게, 디코더의 우측 서라운드 채널 출력은 바로 우측 서라운드 파라메트릭 디코딩된 신호일 것이다(즉, 영이 아닌 저주파수 우측 서라운드 채널 컨텐트가 없을 것이다).
일부 대안적 실시예들에서, 본 발명의 디코딩 방법은 오리지널 멀티-채널 입력 신호의 채널들(채널들의 일부 또는 전부)의 오디오 컨텐트의 저주파수 성분들의 파형 인코딩된 다운믹스의 각각의 채널을 복구하는 단계(본 발명의 디코딩 시스템은 이를 수행하도록 구성됨), 및 다운믹스의 저주파수 성분들의 각각의 다운믹스 채널의 파형 디코딩된 버전에 대해 블라인드 업믹스하는 단계(즉, 인코더로부터 수신된 임의의 파라메트릭 데이터에 응답하여 수행되지 않는다는 의미에서 "블라인드(blind)"), 그 후에 인코딩된 신호로부터 복구된 파라메트릭 디코딩된 중간 및 고주파수 컨텐트의 대응하는 채널과 업믹스된 저주파수 성분들의 각각의 채널의 재조합 단계를 포함한다. 블라인드 업믹서들은 본 기술분야에 잘 알려졌고, 블라인드 업믹스의 예는 2011년 11월 10일에 공개된 미국 특허 출원 공개 제2011/0274280 A1호에 기술되어 있다. 특정 블라인드 업믹서는 본 발명에 필요하지 않고, 본 발명의 상이한 실시예들을 구현하기 위해 상이한 블라인드 업믹스 방법들이 활용될 수 있다. 예를 들면, 5-채널 입력 신호(좌측 프론트, 좌측 서라운드, 중앙, 우측 서라운드, 및 우측 프론트 채널들을 포함)의 저주파수 성분들의 3-채널 다운믹스(좌측 프론트, 중앙, 및 우측 프론트 채널들을 포함)를 포함하는 인코딩된 오디오 신호를 수신 및 디코딩하는 실시예를 고려한다. 이 실시예에서, 디코더는 3-채널 다운믹스의 저주파수 성분들의 각각의 다운믹스 채널(좌측 프론트, 중앙, 우측 프론트)의 파형 디코딩된 버전에 대해 블라인드 업믹스를 수행하도록 구성되는 블라인드 업믹서(예를 들면, 도 3의 단(40)에 의해 주파수 도메인에서 구현됨)를 포함한다. 디코더는 또한 디코더에 의해 수신되는 인코딩된 오디오 신호의 파라메트릭 디코딩된 좌측 프론트 채널(중간 및 고주파수 성분들을 포함)과 디코더의 블라인드 업믹서의 좌측 프론트 출력 채널(저주파수 성분들을 포함)을 조합하도록 구성되고(예를 들면, 도 3의 단(40)은 조합하도록 구성되고), 디코더에 의해 수신되는 오디오 신호의 파라메트릭 디코딩된 좌측 서라운드 채널(중간 및 고주파수 성분들을 포함)과 블라인드 업믹서의 좌측 서라운드 출력 채널(저주파수 성분들을 포함)을 조합하도록 구성되고, 디코더에 의해 수신되는 오디오 신호의 파라메트릭 디코딩된 중앙 채널(중간 및 고주파수 성분들을 포함)과 블라인드 업믹서의 중앙 출력 채널(저주파수 성분들을 포함)을 조합하도록 구성되고, 오디오 신호의 파라메트릭 디코딩된 우측 프론트 채널(중간 및 고주파수 성분들을 포함)과 블라인드 업믹서의 우측 프론트 출력 채널(저주파수 성분들을 포함)을 조합하도록 구성되고, 디코더에 의해 수신되는 오디오 신호의 파라메트릭 디코딩된 우측 서라운드 채널과 블라인드 업믹서의 우측 서라운드 출력을 조합하도록 구성된다.
본 발명의 디코더의 통상적 실시예에서, 신호의 파라메트릭 디코딩된 중간 및 고주파수 성분과 인코딩된 오디오 신호의 디코딩된 저주파수 컨텐트의 재조합은 주파수 도메인에서 수행되고(예를 들면 도 3의 디코더의 단(40)에서), 그 후에 단일 주파수 도메인 대 시간 도메인 변환이 완전히 디코딩된 시간 도메인 신호를 생성하기 위해 각각의 재조합된 채널에 적용된다(예를 들면 도 3의 디코더의 단(40)에서). 대안적으로, 본 발명의 디코더는 제 1 변환을 이용하여 파형 디코딩된 저주파수 성분들을 역변환하고, 제 2 변환을 이용하여 파라메트릭 디코딩된 중간 및 고주파수 성분들을 역변환하고 그 후에 결과들을 합산함으로써 시간 도메인에서 이러한 재조합을 수행하도록 구성된다.
본 발명의 예시적 실시예에서, 도 2의 시스템은, 192 kbps에서 실질적으로 192 kbps보다 적은 비트레이트(예를 들면, 96 kbps)까지의 범위에 있는 이용 가능한 비트레이트(인코딩된 출력 신호의 전송을 위한)를 가정하는 방식으로, 관객의 박수를 나타내는 5.1 채널 오디오 입력 신호의 E-AC-3 인코딩을 수행하도록 동작 가능하다. 다음의 예시적 비트 비용 계산들은 이러한 시스템이 관객의 박수를 나타내는 멀티채널 입력 신호를 인코딩하도록 동작되고 5개의 전체 범위 채널들을 가진다는 것과, 입력 신호의 각각의 전체 범위 채널의 주파수 성분들이 주파수의 함수와 적어도 실질적으로 동일한 분포를 가진다는 것을 가정한다. 예시적 비트 비용 계산들은 또한 시스템이, 입력 신호의 각각의 전체 범위 채널의 최대 4.6 kHz의 주파수를 가지는 주파수 성분들에 대한 파형 인코딩을 수행하고, 입력 신호의 각각의 전체 범위 채널의 4.6 kHz 내지 10.2 kHz의 주파수 성분들에 대해 채널 결합 코딩을 수행하고, 입력 신호의 각각의 전체 범위 채널의 10.2 kHz 내지 14.8 kHz의 주파수 성분들에 대한 스펙트럼 확장 코딩을 수행하는 것을 포함하여, 입력 신호에 E-AC-3 인코딩을 수행하는 것을 가정한다. 인코딩된 출력 신호에 포함된 결합 파라미터들(결합 사이드체인 메타데이터)이 전체 범위 채널 당 약 1.5 kbps를 소비하는 것과, 결합 채널의 가수들 및 지수들이 대략 25 kbps를 소비(즉, 인코딩된 출력 신호의 192 kbps의 비트레이트로의 전송을 가정하여, 개별 전체 범위 채널들이 소비하는 전송 비트들의 약 1/5)하는 것을 가정한다. 채널 결합을 수행하는 것으로부터 유발되는 비트 절감들은 가수들 및 지수들의 5개 채널들보다는 가수들 및 지수들의 단일 채널(결합 채널)의 전송(관련 범위에 있는 주파수 성분들에 대해)으로 인한 것이다.
따라서, 시스템이 다운믹스의 모든 주파수 성분들을 인코딩하기 전에 모든 오디오 컨텐트를 5.1에서 스테레오로 다운믹스하는 경우(다운믹스의 각각의 전체 범위 채널의 최대 4.6 kHz의 주파수 성분들에 대해 파형 인코딩, 4.6 kHz 내지 10.2 kHz의 주파수 성분들에 대해 채널 결합 코딩, 및 10.2 kHz 내지 14.8 kHz의 주파수 성분들에 대해 스펙트럼 확장 코딩을 이용하여), 결합된 채널은 방송 품질을 달성하기 위해 여전히 약 25 kbps를 소비해야 한다. 따라서 다운믹스로부터 유발되는 비트 절감들(채널 결합을 구현하기 위한)은 단지 더 이상 결합 파라미터들을 필요로 하지 않는 3개의 채널들에 대한 결합 파라미터들의 생략으로 인한 것이며, 이것은 3개의 채널들의 각각 마다 약 1.5 kbps 또는 전체로서 약 4.5 kbps에 달한다. 따라서, 스테레오 다운믹스에 대한 채널 결합을 수행하는 비용은 입력 신호의 오리지널 5개의 전체 범위 채널들에 대해 채널 결합을 수행하기 위한 것보다 (적은 단지 약 4.5 kbps) 거의 동일하다.
예시적 입력 신호의 전체 5개의 전체 범위 채널들에 대한 스펙트럼 확장 코딩을 수행하는 것은 인코딩된 출력 신호에서 스펙트럼 확장("SPX") 파라미터들(SPX 사이드체인 메타데이터)의 포함을 필요로 한다. 이것은 여전히 인코딩된 출력 신호의 192 kbps의 비트레이트로의 전송을 가정하여, 전체 범위 채널 당 SPX 메타데이터의 약 3 kbps(모든 5개의 전체 범위 채널들에 대해 총 약 15 kbps)의 인코딩된 출력 신호의 포함을 필요로 한다.
따라서, 시스템이 다운믹스의 모든 주파수 성분들을 인코딩하기 전에 입력 신호의 5개의 전체 범위 채널들을 2개의 채널들로 다운믹스(스테레오 다운믹스)하는 경우(다운믹스의 각각의 전체 범위 채널의 최대 4.6 kHz의 주파수 성분들에 대해 파형 인코딩, 4.6 kHz 내지 10.2 kHz의 주파수 성분들에 대해 채널 결합 코딩, 및 10.2 kHz 내지 14.8 kHz의 주파수 성분들에 대해 스펙트럼 확장 코딩을 이용하여), 다운믹스로부터 유발되는 비트 절감들(스펙트럼 확장 결합을 구현하기 위한)은 단지 더 이상 이러한 파라미터들을 필요로 하지 않는 3개의 채널들에 대한 SPX 파라미터들의 생략으로 인한 것이며, 이것은 3개의 채널들의 각각 마다 약 3 kbps 또는 전체로서 약 9 kbps에 달한다.
예에서 결합 및 spx 코딩의 비용은 [표 1]에서 하기에 요약된다.
[표 1](5, 3, 및 2개의 채널들에 대한 결합 및 스펙트럼 확장 코딩의 비용)
Figure 112015105655518-pct00001
인코딩이 (결합 및 스펙트럼 확장 주파수 대역들에서) 9 kbps만을 절감하기 전에 5.1 채널 입력 신호의 전체 다운믹스가 3/0 다운믹스(3개의 전체 범위 채널들)에 입력되고, 인코딩이 결합 및 스펙트럼 확장 주파수 대역들에서 13.5 kbps만을 절감하기 전에 5.1 채널 입력 신호의 전체 다운믹스가 2/0 다운믹스(2개의 전체 범위 채널들)에 입력되는 것이 [표 1]로부터 명백하다. 당연히, 각각의 이러한 다운믹스는 다운믹스의 저주파수 성분들(채널 코딩을 위해 최소 주파수 아래의 주파수를 가짐)의 파형 인코딩에 필요한 비트들의 수를 감소시키지만, 공간 붕괴의 댓가를 지불한다.
본 발명자들은 멀티 채널들(예를 들면, 상기 예에서와 같이 5, 3, 또는 2개의 채널들)의 결합 코딩 및 스펙트럼 확장 코딩을 수행하는 비트 비용이 매우 유사하기 때문에, 파라메트릭 코딩(예를 들면, 상기 예에서와 같이 결합 코딩 및 스펙트럼 확장 코딩)으로 멀티-채널 오디오 신호의 가능한 많은 채널들을 코딩하는 것이 바람직하다는 것을 인식했다. 따라서, 본 발명의 통상적 실시예들은 인코딩될 멀티-채널 입력 신호의 채널들(즉, 채널들의 일부 또는 전부)의 저주파수 성분들만(채널 코딩을 위해 최소 주파수 아래의)을 다운믹스하고, 다운믹스의 각각의 채널에 대해 파형 인코딩을 수행하고 또한 입력 신호의 각각의 오리지널 채널의 더 높은 주파수 성분들(파라메트릭 코딩을 위해 최소 주파수 위의)에 대해 파라메트릭 코딩(예를 들면, 결합 코딩 및 스펙트럼 확장 코딩)을 수행한다. 이것은 입력 신호의 모든 오리지널 채널들의 고주파수 컨텐트의 파라메트릭 코딩된 버전을 포함함으로 인한 공간 붕괴를 최소화하면서, 인코딩된 출력 신호로부터 이산 채널 지수들 및 가수들을 제거함으로써 다수의 비트들을 절감한다.
상기 예를 참조하여 기술된 5.1 채널 신호의 E-AC-3 인코딩을 수행하는 종래의 방법에 대한 본 발명의 두 실시예들로부터 유발된 비트 비용 및 절감들의 비교는 다음과 같다:
5.1 채널 신호의 종래의 E-AC-3 인코딩의 총 비용은 172.5 kbps이고, 이것은 [표 1]의 좌측 컬럼에 요약된 47.5 kbps(입력 신호의 4.6 kHz 위의 고주파수 컨텐트의 파라메트릭 코딩을 위해)에, 지수들의 5개의 채널들에 대한 25 kbps(입력 신호의 각각의 채널의 4.6 kHz 아래의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더하고, 가수들의 5개의 채널들에 대한 100 kbps(입력 신호의 각각의 채널의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더한 것이다.
입력 신호의 5개의 전체 범위 채널들의 저주파수 성분들(4.6 kHz 아래)의 3-채널 다운믹스가 생성되고, E-AC-3 순응 인코딩된 출력 신호가 생성되는(다운믹스를 파형 인코딩하고, 입력 신호의 각각의 오리지널 전체 범위 채널의 고주파수 성분들을 파라메트릭 인코딩하는 것을 포함) 본 발명의 일 실시예에 따라 5.1 채널 입력 신호의 인코딩의 총 비용은 122.5 kbps이고, 이것은 [표 1]의 좌측 컬럼에 요약된 47.5 kbps(입력 신호의 각각의 채널의 4.6 kHz 위의 고주파수 컨텐트의 파라메트릭 코딩을 위해)에, 지수들의 3개의 채널들에 대한 15 kbps(다운믹스의 각각의 채널의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더하고, 가수들의 3개의 채널들에 대한 60 kbps(다운믹스의 각각의 채널의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더한 것이다. 이것은 종래의 방법에 비해 50 kbps의 절감을 나타낸다. 이러한 절감들은 통상적으로 인코딩된 출력 신호의 전송에 필요한 192 kbps보다는, 142 kbps의 비트 레이트로 인코딩된 출력 신호의 전송(통상적으로 인코딩된 출력 신호의 품질과 등가의 품질로)을 허용한다.
이전 단락에 기술된 본 발명의 방법의 실제 구현에서, 입력 신호의 고주파수(4.6 kHz 위의) 컨텐트의 파라메트릭 인코딩은 무음 채널들에서 영-값 데이터의 최대 시분할로 인해, 결합 파라미터 메타데이터에 대해 [표 1]에 나타낸 7.5 kbps 및 SPX 파라미터 메타데이터에 대해 [표 1]에 나타낸 15 kbps보다 다소 적게 필요하다는 것이 예상된다. 따라서, 이러한 실제 구현은 종래의 방법에 비해 50 kbps보다 다소 많은 절감들을 제공한다.
유사하게, 입력 신호의 5개의 전체 범위 채널들의 저주파수 성분들(4.6 kHz 아래)의 2-채널 다운믹스가 생성되고, E-AC-3 순응 인코딩된 출력 신호가 그 후에 생성되는(다운믹스를 파형 인코딩하고, 입력 신호의 각각의 오리지널 전체 범위 채널의 고주파수 성분들을 파라메트릭 인코딩하는 것을 포함) 본 발명의 일 실시예에 따라 5.1 채널 신호의 인코딩의 총 비용은 102.5 kbps이고, 이것은 [표 1]의 좌측 컬럼에 요약된 47.5 kbps(입력 신호의 4.6 kHz 위의 고주파수 컨텐트의 파라메트릭 코딩을 위해)에, 지수들의 2개의 채널들에 대한 10 kbps(다운믹스의 각각의 채널의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더하고, 가수들의 2개의 채널들에 대한 45 kbps(다운믹스의 각각의 채널의 저주파수 컨텐트의 파형 인코딩으로부터 유발된)를 더한 것이다. 이것은 종래의 방법에 비해 70 kbps의 절감을 나타낸다. 이러한 절감들은 통상적으로 인코딩된 출력 신호의 전송에 필요한 192 kbps보다는, 122 kbps의 비트 레이트로 인코딩된 출력 신호의 전송(통상적으로 인코딩된 출력 신호의 품질과 등가의 품질로)을 허용한다. 이전 단락에 기술된 본 발명의 방법의 실제 구현에서, 입력 신호의 고주파수(4.6 kHz 위의) 컨텐트의 파라메트릭 인코딩은 무음 채널들에서 영-값 데이터의 최대 시분할로 인해, 결합 파라미터 메타데이터에 대해 [표 1]에 나타낸 7.5 kbps 및 SPX 파라미터 메타데이터에 대해 [표 1]에 나타낸 15 kbps보다 다소 적게 필요하다는 것이 예상된다. 따라서, 이러한 실제 구현은 종래의 방법에 비해 70 kbps보다 다소 많은 절감들을 제공한다.
일부 실시예들에서, 본 발명의 인코딩 방법은, 다운믹스된 후에 파형 인코딩을 받는 저주파수 성분들이 감소된(통상적인 것보다 낮은) 최대 주파수(예를 들면, 종래의 E-AC-3 인코더들에서 통상적인 최소 주파수(3.5 kHz 또는 4.6 kHz)보다는 1.2 kHz)를 갖고, 이보다 위에서는 입력 오디오 컨텐트에 대해 채널 결합이 수행되고 이보다 아래에서는 파형 인코딩이 수행된다는 의미에서 "강화된 결합(enhanced coupling)" 코딩을 구현한다. 이러한 실시예들에서, 통상적인 주파수 범위보다 넓은(예를 들면, 1.2 kHz 내지 10 kHz, 또는 1.2 kHz 내지 10.2 kHz) 입력 오디오의 주파수 성분들은 채널 결합 코딩을 받는다. 또한, 이러한 실시예들에서, 채널 인코딩으로부터 유발되는 인코딩된 오디오 컨텐트와 함께 인코딩된 출력 신호에 포함되는 결합 파라미터들(레벨 파라미터들)은 통상적인(더 좁은) 범위에 있는 주파수 성분들만이 채널 결합 코딩을 받는 경우와는 상이하게 양자화(본 기술분야의 통상의 기술자들에게는 명백한 방식으로)될 수 있다.
강화된 결합 코딩을 구현하는 본 발명의 실시예들은 이들이 통상적으로 채널 결합 코딩을 위한 최소 주파수보다 적은 주파수를 가진 주파수 성분들에 대해 영-값 지수들(인코딩된 출력 신호에서)을 전달할 것이므로, 이 최소 주파수를 감소시키는 것은(강화된 결합 코딩을 구현함으로써) 따라서 인코딩된 출력 신호에 포함되는 폐기 비트들(영 비트들)의 총수를 감소시키고 비트 레이트 비용을 단지 약간 증가시키면서 증가된 공간감(spaciousness)을 제공(인코딩된 신호가 디코딩되고 렌더링될 때)하기 때문에 바람직할 수 있다.
상기 주지된 바와 같이, 본 발명의 일부 실시예들에서, 입력 신호의 제 1 서브세트의 채널들(예를 들면, 도 2에 나타낸 바와 같이 L, C, 및 R 채널들)의 저주파수 성분들은 파형 인코딩을 받는 다운믹스로서 선택되고, 입력 신호의 제 2 서브세트의 채널들(통상적으로 서라운드 채널들, 예를 들면, 도 2에 나타낸 바와 같이 Ls 및 Rs 채널들)의 각각의 채널의 저주파수 성분들은 영으로 설정된다(또한 파형 인코딩을 받을 수 있다). 본 발명에 따라 생성된 인코딩된 오디오 신호가 E-AC-3 표준과 순응하는 일부 이러한 실시예들에서, E-AC-3 인코딩된 신호의 제 1 서브세트의 채널들의 저주파수 오디오 컨텐트만이 유용한, 파형 인코딩된 저주파수 오디오 컨텐트이더라도(및 E-AC-3 인코딩된 신호의 채널의 저주파수 오디오 컨텐트가 유용하지 않은, 파형 인코딩된 "무음" 오디오 컨텐트이더라도), 전체 세트의 채널들(제 1 및 제 2 서브세트 둘다)이 E-AC-3 신호로서 포맷팅 및 전달되어야 한다. 예를 들면, 좌측 및 우측 서라운드 채널들은 E-AC-3 인코딩된 신호에 존재할 것이지만 이들 저주파수 컨텐트는 무음일 것이고, 이것은 전송하는데 약간의 오버헤드가 필요하다. "무음" 채널들(상기-주지된 제 2 서브세트의 채널들에 대응)은 이러한 오버헤드를 최소화하기 위해 다음의 가이드라인들에 따라 구성될 수 있다.
블록 스위치들은 과도 신호들을 나타내는 E-AC-3 인코딩된 신호의 채널들 상에 통상적으로 나타나고, 이들 블록 스위치들은 이러한 채널의 파형 인코딩된 컨텐트의 MDCT 블록들의 더 큰 수의 더 작은 블록들(그 후에 파형 디코딩을 받음)로 분할을(E-AC-3 디코더에서) 유발하고, 이러한 채널의 고주파수 컨텐트의 파라메트릭 (채널 결합 및 스펙트럼 확장) 디코딩을 디스에이블한다. 무음 채널("무음" 저주파수 컨텐트를 포함하는 채널)의 블록 스위치의 시그널링은 더 많은 오버헤드를 필요로 하고 또한 무음 채널의 고주파수 컨텐트(최소 "채널 결합 디코딩" 주파수보다 위의 주파수를 가짐)의 파라메트릭 디코딩을 방지한다. 따라서, 본 발명의 통상적 실시예들에 따라 생성된 E-AC-3 인코딩된 신호의 각각의 무음 채널에 대한 블록 스위치들은 디스에이블되어야 한다.
유사하게, 종래의 AHT 및 TPNP 처리(가끔 종래의 E-AC-3 디코더의 동작에서 수행됨)는 본 발명의 일 실시예에 따라 생성되는 E-AC-3 인코딩된 신호의 무음 채널의 디코딩 중에 아무런 이익도 제공하지 않는다. 따라서, AHT 및 TPNP 처리는 이러한 E-AC-3 인코딩된 신호의 각각의 무음 채널의 디코딩 동안 디스에이블되는 것이 바람직하다.
E-AC-3 인코딩된 신호의 채널에 통상적으로 포함되는 dithFlag 파라미터는 랜덤 잡음을 갖고 인코더에 의해 영 비트들이 할당되는 가수들(채널에서)을 재구성할지를 E-AC-3 디코더에 표시한다. 일 실시예에 따라 생성된 E-AC-3 인코딩된 신호의 각각의 무음 채널이 참으로 무음이 되려고 하기 때문에, 각각의 이러한 무음 채널에 대한 dithFlag는 E-AC-3 인코딩된 신호의 생성 동안 영으로 설정되어야 한다. 결과적으로, 영 비트들이 할당되는 가수들(각각의 이러한 무음 채널에서)은 디코딩 동안 잡음을 이용하여 재구성되지 않을 것이다.
E-AC-3 인코딩된 신호의 채널에 통상적으로 포함되는 지수 전략 파라미터는 채널에서 지수들의 시간 및 주파수 해상도를 제어하기 위해 E-AC-3 디코더에 의해 이용된다. 일 실시예에 따라 생성되는 E-AC-3 인코딩된 신호의 각각의 무음 채널에 대해, 지수들의 전송 비용을 최소화하는 지수 전략이 선택되는 것이 바람직하다. 이를 달성하기 위한 지수 전략은 "D45" 전략으로 알려졌고, 이것은 인코딩된 프레임의 제 1 블록에 대한 4개의 주파수 빈들 마다 하나의 지수를 포함한다(프레임의 나머지 블록들은 이전 블록에 대한 지수들을 재사용한다).
주파수 도메인에서 구현되는 본 발명의 인코딩 방법의 일부 실시예들이 가진 한가지 문제점은 시간 도메인으로 다시 변환될 때 다운믹스(입력 신호 채널들의 저주파수 컨텐트의)가 포화(saturate)할 수 있고, 이것이 순수하게 주파수-도메인 분석을 이용하여 발생할 때를 예측하는 방법이 없다는 점이다. 이 문제점은 클리핑이 발생할지를 평가하기 위해 시간 도메인에서 다운믹스를 시뮬레이션함으로써(주파수 도메인에서 이를 실제로 발생시키기 전에) 일부 이러한 실시예들에서(예를 들면, E-AC-3 인코딩을 구현하는 일부 실시예들)에서 다루어진다. 종래의 피크 리미터(peak limiter)는 스케일 팩터들을 계산하기 위해 이용될 수 있고, 스케일 팩터들은 그 후에 다운믹스에서 모든 목적지 채널들에 적용된다. 다운믹스된 채널들만이 클리핑 방지 스케일 팩터에 의해 감쇠된다. 예를 들면, 입력 신호의 좌측 및 좌측 서라운드 채널들의 컨텐트가 좌측 다운믹스 채널로 다운믹스되고 입력 신호의 우측 및 우측 서라운드 채널들의 컨텐트가 우측 다운믹스 채널로 다운믹스되는 다운믹스에서, 중앙 채널은 다운믹스에서 소스 또는 목적지 채널이 아니기 때문에 스케일링되지 않는다. 이러한 다운믹스 클리핑 보호가 적용된 후에, 그 효과는 종래의 E-AC-3 DRC/다운믹스 보호를 적용함으로써 보상될 수 있었다.
본 발명의 다른 양태들은 멀티채널 오디오 입력 신호에 응답하여(예를 들면, 멀티채널 오디오 입력 신호를 나타내는 오디오 데이터에 응답하여) 인코딩된 오디오 신호를 생성하는 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된 인코더, 이러한 인코딩된 신호를 디코딩하도록 구성된 디코더, 및 이러한 인코더 및 이러한 디코더를 포함하는 시스템을 포함한다. 도 4의 시스템은 이러한 시스템의 일례이다. 도 4의 시스템은 오디오 데이터(멀티-채널 오디오 입력 신호를 나타내는)에 응답하여 인코딩된 오디오 신호를 생성하는 본 발명의 인코딩 방법의 임의의 실시예를 구현하도록 구성(예를 들면, 프로그래밍)되는 인코더(90), 전달 서브시스템(91), 및 디코더(92)를 포함한다. 전달 서브시스템(91)은 인코더(90)에 의해 생성된 인코딩된 오디오 신호를 저장(예를 들면, 인코딩된 오디오 신호를 나타내는 데이터를 저장)하고 및/또는 인코딩된 오디오 신호를 전송하도록 구성된다. 디코더(92)는, 서브시스템(91)으로부터 인코딩된 오디오 신호를 수신하고(예를 들면, 서브시스템(91)의 저장장치로부터 이러한 데이터를 판독 또는 검색함으로써, 또는 서브시스템(91)에 의해 전송된 이러한 인코딩된 오디오 신호를 수신함으로써), 인코딩된 오디오 신호(또는 이를 나타내는 데이터)를 디코딩하도록 결합 및 구성(예를 들면, 프로그래밍)된다. 디코더(92)는 통상적으로 오리지널 멀티-채널 입력 신호의 오디오 컨텐트를 나타내는 디코딩된 오디오 신호를 생성 및 출력(예를 들면 렌더링 시스템에)하도록 구성된다.
일부 실시예들에서, 본 발명은 멀티채널 오디오 입력 신호를 인코딩함으로써 인코딩된 오디오 신호를 생성하도록 구성된 오디오 인코더이다. 인코더는:
입력 신호의 적어도 일부의 채널들의 저주파수 성분들의 다운믹스를 생성하고, 다운믹스의 각각의 채널을 파형 코딩하여, 다운믹스의 오디오 컨텐트를 나타내는 파형 코딩된 다운믹스 데이터를 생성하고, 입력 신호의 각각의 채널의 중간 주파수 성분들 및 고주파수 성분들에 대해 파라메트릭 인코딩을 수행하여, 입력 신호의 상기 각각의 채널의 중간 주파수 성분들 및 고주파수 성분들을 나타내는 파라메트릭 코딩된 데이터를 생성하도록 구성된 인코딩 서브시스템(예를 들면, 도 2의 소자들(22, 23, 24, 26, 27, 및 28)); 및
인코딩된 오디오 신호가 상기 파형 코딩된 다운믹스 데이터 및 상기 파라메트릭 코딩된 데이터를 나타내도록, 상기 파형 코딩된 다운믹스 데이터 및 상기 파라메트릭 코딩된 데이터에 응답하여 인코딩된 오디오 신호를 생성하도록 결합 및 구성된 포맷팅 서브시스템(예를 들면, 도 2의 소자(30))을 포함한다.
일부 이러한 실시예들에서, 인코딩 서브시스템은 입력 신호의 적어도 일부의 채널들의 저주파수 성분들 및 입력 신호의 상기 각각의 채널의 중간 주파수 성분들 및 고주파수 성분들을 포함하는 주파수 도메인 데이터를 생성하기 위해 입력 신호에 대해 시간 도메인-대-주파수 도메인 변환을 수행(예를 들면, 도 2의 소자(22))하도록 구성된다.
일부 실시예들에서, 본 발명은 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호(예를 들면, 도 2 또는 도 3의 신호(31))를 디코딩하도록 구성된 오디오 디코더로서, 인코딩된 오디오 신호는, N개의 채널들을 가진 멀티채널 오디오 입력 신호의 적어도 일부의 채널들의 저주파수 성분들의 다운믹스를 생성하고, 여기서 N은 정수이고, 다운믹스의 각각의 채널을 파형 코딩하여, 다운믹스의 오디오 컨텐트를 나타내도록 파형 코딩된 데이터를 생성하고, 입력 신호의 각각의 채널의 중간 주파수 성분들 및 고주파수 성분들에 대해 파라메트릭 인코딩을 수행하여, 파라메트릭 코딩된 데이터가 입력 신호의 상기 각각의 채널의 중간 주파수 성분들 및 고주파수 성분들을 나타내도록 파라메트릭 코딩된 데이터를 생성하고, 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터에 응답하여 인코딩된 오디오 신호를 생성함으로써 생성된, 상기 오디오 디코더이다. 이들 실시예들에서, 디코더는:
인코딩된 오디오 신호로부터 파형 인코딩된 데이터 및 파라메트릭 인코딩된 데이터를 추출하도록 구성된 제 1 서브시스템(예를 들면, 도 3의 소자(32)); 및
다운믹스의 각각의 채널의 저주파수 오디오 컨텐트를 나타내는 제 1 세트의 복구된 주파수 성분들을 생성하기 위해 제 1 서브시스템에 의해 추출된 파형 인코딩된 데이터에 대해 파형 디코딩을 수행하고, 멀티채널 오디오 입력 신호의 각각의 채널의 중간 주파수 및 고주파수 오디오 컨텐트들을 나타내는 제 2 세트의 복구된 주파수 성분들을 생성하기 위해 제 1 서브시스템에 의해 추출된 파라메트릭 인코딩된 데이터에 대해 파라메트릭 디코딩을 수행하도록 결합 및 구성된 제 2 서브시스템(예를 들면, 도 3의 소자들(34, 36, 37, 38, 및 40))을 포함한다.
일부 이러한 실시예들에서, 디코더의 제 2 서브시스템은 또한, 디코딩된 주파수-도메인 데이터의 각각의 채널이 멀티채널 오디오 입력 신호의 채널들 중 상이한 채널의 중간 주파수 및 고주파수 오디오 컨텐트를 나타내고, 디코딩된 주파수-도메인 데이터의 채널들의 적어도 서브세트의 각각이 멀티채널 오디오 입력 신호의 저주파수 오디오 컨텐트를 나타내도록, 제 1 세트의 복구된 주파수 성분들 및 제 2 세트의 복구된 주파수 성분들을 조합함에 의한 것을 포함하여(예를 들면, 도 3의 소자(40)에서) 디코딩된 주파수-도메인 데이터의 N개의 채널들을 생성하도록 구성된다.
일부 실시예들에서, 디코더의 제 2 서브시스템은 N-채널, 시간-도메인 디코딩된 오디오 신호를 생성하기 위해 디코딩된 주파수-도메인 데이터의 채널들의 각각에 대해 주파수 도메인-대-시간 도메인 변환을 수행(예를 들면, 도 3의 소자(40) 에서)하도록 구성된다.
본 발명의 다른 양태는 본 발명의 인코딩 방법의 일 실시예에 따라 생성된 인코딩된 오디오 신호를 디코딩하기 위한 방법(예를 들면, 도 4의 디코더(92) 또는 도 3의 디코더에 의해 수행된 방법)이다.
본 발명은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 둘의 조합(프로그래밍 가능한 논리 어레이)으로 구현될 수 있다. 달리 명시되지 않는 한, 본 발명의 일부로서 포함되는 알고리즘들 또는 처리들은 본질적으로 임의의 특정 컴퓨터 또는 다른 장치에 관련되지 않는다. 특히, 다양한 범용 기계들은 본 명세서의 개시내용들에 따라 기록된 프로그램들과 함께 이용될 수 있거나, 또는 필요한 방법 단계들을 수행하기 위해 더욱 특수화된 장치(예를 들면, 집적 회로들)를 구성하는 것이 더욱 편리할 수 있다. 따라서, 본 발명은 하나 이상의 프로그래밍 가능한 컴퓨터 시스템들(예를 들면, 도 2의 인코더 또는 도 3의 디코더를 구현하는 컴퓨터 시스템) 상에서 실행하는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있고, 컴퓨터 시스템들 각각은 적어도 하나의 처리기, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 소자들을 포함), 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함한다. 프로그램 코드는 본 명세서에 기술된 기능들을 수행하고 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 하나 이상이 출력 디바이스들에 알려진 방식으로 적용된다.
각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 원하는 컴퓨터 언어(기계, 어셈블리, 또는 높은 수준의 절차, 논리, 또는 객체 지향 프로그래밍 언어들)로 구현될 수 있다. 어떤 경우에, 언어는 컴파일 또는 해석된 언어일 수 있다.
예를 들면, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 구현될 때, 본 발명의 실시예들의 다양한 기능들 및 단계들은 적합한 디지털 신호 처리 하드웨어에서 실행하는 멀티스레드형 소프트웨어 명령 시퀀스들에 의해 구현될 수 있고, 이 경우, 실시예들의 다양한 디바이스들, 단계들, 및 기능들은 소프트웨어 명령들의 일부에 대응할 수 있다.
각각의 이러한 컴퓨터 프로그램은, 저장 매체들 또는 디바이스가 본 명세서에 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성 및 동작하기 위해, 일반 또는 특수 목적 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 저장 매체들 또는 디바이스(예를 들면, 고체 상태 메모리 또는 매체들, 또는 자기 또는 광 매체들) 상에 저장하거나 다운로드하는 것이 바람직하다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된(즉, 저장하는), 컴퓨터-판독 가능한 저장 매체로서 구현될 수 있고, 그렇게 구성된 저장 매체는 컴퓨터 시스템으로 하여금 본 명세서에 기술된 기능들을 수행하기 위해 특정되고 미리 규정된 방식으로 동작하게 한다.
본 발명의 다수의 실시예들이 기술되었다. 그렇지만, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정들이 이루어질 수 있음을 이해할 것이다. 본 발명의 다수의 수정들 및 변형들은 상기 개시내용들에 비추어 가능하다. 첨부된 청구항들의 범위 내에서, 본 발명은 본 명세서에 구체적으로 기술된 것과 다르게 실시될 수 있음을 이해해야 한다.
21; 입력 오디오
22; 시간 도메인-대-주파수 도메인 변환
23; 다운믹스
24;파형 코딩
26; 채널 결합 코딩
27; 파형 코딩
28; 스펙트럼 확장 코딩
30; 포맷팅
31; 인코딩된 오디오

Claims (32)

  1. 저주파수 성분들 및 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들을 가진 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법에 있어서:
    (a) 상기 입력 신호의 적어도 일부의 채널들의 상기 저주파수 성분들의 다운믹스를 생성하는 단계;
    (b) 상기 다운믹스의 각각의 채널을 파형 코딩(waveform coding)하여, 상기 다운믹스의 오디오 컨텐트를 나타내는 파형 코딩된 다운믹스 데이터를 생성하는 단계;
    (c) 상기 입력 신호의 각각의 채널의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들의 적어도 일부에 대해 파라메트릭 인코딩(parametric encoding)을 수행하여, 상기 입력 신호의 상기 각각의 채널의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들의 상기 적어도 일부를 나타내는 파라메트릭 코딩된 데이터를 생성하는 단계; 및
    (d) 상기 파형 코딩된 다운믹스 데이터 및 상기 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호를 생성하는 단계를 포함하고,
    상기 입력 신호는 N개의 전체 범위 오디오 채널들을 갖고, 상기 다운믹스는 N개보다 적은 유음 채널들(nonsilent channels)을 갖고, 단계 (a)는 상기 입력 신호의 상기 전체 범위 오디오 채널들 중 적어도 하나의 상기 저주파수 성분들을 영 값들로 대체하는 단계를 포함하는, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 인코딩된 오디오 신호는 E-AC-3 인코딩된 오디오 신호인, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들은 중간 주파수 성분들 및 고주파수 성분들(high frequency components)을 포함하고, 단계 (c)는:
    상기 중간 주파수 성분들의 채널 결합 코딩을 수행하는 단계와;
    상기 고주파수 성분들의 스펙트럼 확장 코딩을 수행하는 단계를 포함하는, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 저주파수 성분들은 1.2 kHz 내지 4.6 kHz의 범위에 있는 최대값 F1보다 크지 않는 주파수들을 갖고, 상기 중간 주파수 성분들은 F1 < f ≤ F2의 범위에 있는 주파수들 f를 갖고, 여기서 F2는 8 kHz 내지 12.5 kHz의 범위에 있고, 상기 고주파수 성분들은 F2 < f ≤ F3의 범위에 있는 주파수들 f를 갖고, 여기서 F3은 10.2 kHz 내지 18 kHz의 범위에 있는, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  5. 제 4 항에 있어서,
    상기 인코딩된 오디오 신호는 E-AC-3 인코딩된 오디오 신호인, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    N은 5이고, 상기 다운믹스는 3개의 유음 채널들을 갖고, 단계(a)는 상기 입력 신호의 상기 전체 범위 오디오 채널들 중 2개의 상기 저주파수 성분들을 영 값들로 대체하는 단계를 포함하는, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  8. 제 1 항에 있어서,
    상기 인코딩은 상기 인코딩된 오디오 신호가 상기 입력 신호보다 적은 비트들을 포함하도록 상기 입력 신호를 압축하는, 멀티채널 오디오 입력 신호를 인코딩하기 위한 방법.
  9. 제 1 항 내지 제 5 항 및 제 7 항 내지 제 8 항 중 어느 한 항에 따른 방법을 실행하여, 저주파수 성분들 및 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들을 가진 멀티채널 오디오 입력 신호를 인코딩함으로써 인코딩된 오디오 신호를 생성하도록 구성된 오디오 인코더.
  10. 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호를 디코딩하기 위한 방법으로서, 상기 인코딩된 오디오 신호는, 멀티채널 오디오 입력 신호의 적어도 일부 채널들의 저주파수 성분들의 다운믹스를 생성하고, 상기 다운믹스의 각각의 채널을 파형 코딩하여, 상기 파형 코딩된 데이터가 상기 다운믹스의 오디오 컨텐트를 나타내도록 상기 파형 코딩된 데이터를 생성하고, 상기 입력 신호의 각각의 채널의 적어도 일부의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들에 대해 파라메트릭 인코딩을 수행하여, 상기 파라메트릭 코딩된 데이터가 상기 입력 신호의 상기 각각의 채널의 상기 적어도 일부의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들을 나타내도록 상기 파라메트릭 코딩된 데이터를 생성하고, 상기 파형 코딩된 데이터 및 상기 파라메트릭 코딩된 데이터에 응답하여 상기 인코딩된 오디오 신호를 생성함으로써 생성되고,
    상기 입력 신호는 N개의 전체 범위 오디오 채널들을 갖고, 상기 다운믹스는 N개보다 적은 유음 채널들(nonsilent channels)을 갖고, 상기 입력 신호의 적어도 일부의 채널들의 상기 저주파수 성분들의 다운믹스를 생성하는 것은 상기 입력 신호의 상기 전체 범위 오디오 채널들 중 적어도 하나의 상기 저주파수 성분들을 영 값들로 대체하는 것을 포함하는, 상기 인코딩된 오디오 신호를 디코딩하기 위한 방법에 있어서:
    (a) 상기 인코딩된 오디오 신호로부터 상기 파형 코딩된 데이터 및 상기 파라메트릭 코딩된 데이터를 추출하는 단계;
    (b) 상기 다운믹스의 각각의 채널의 저주파수 오디오 컨텐트를 나타내는 제 1 세트의 복구된 주파수 성분들을 생성하기 위해 단계 (a)에서 추출된 상기 파형 코딩된 데이터에 대해 파형 디코딩을 수행하는 단계; 및
    (c) 상기 멀티채널 오디오 입력 신호의 각각의 채널의 적어도 일부의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 오디오 컨텐트를 나타내는 제 2 세트의 복구된 주파수 성분들을 생성하기 위해 단계 (a)에서 추출된 상기 파라메트릭 코딩된 데이터에 대해 파라메트릭 디코딩을 수행하는 단계를 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  11. 제 10 항에 있어서,
    상기 멀티채널 오디오 입력 신호는 N개의 채널들을 갖고, 여기서 N은 정수이고, 상기 방법은:
    (d) 디코딩된 주파수-도메인 데이터의 각각의 채널이 상기 멀티채널 오디오 입력 신호의 상기 채널들 중 상이한 채널의 중간 주파수 및 고주파수 오디오 컨텐트를 나타내고, 상기 디코딩된 주파수-도메인 데이터의 상기 채널들의 적어도 서브세트의 각각이 상기 멀티채널 오디오 입력 신호의 저주파수 오디오 컨텐트를 나타내도록, 상기 제 1 세트의 복구된 주파수 성분들 및 상기 제 2 세트의 복구된 주파수 성분들을 조합함에 의한 것을 포함하여 상기 디코딩된 주파수-도메인 데이터의 N개의 채널들을 생성하는 단계를 더 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  12. 제 11 항에 있어서,
    N-채널, 시간-도메인 디코딩된 오디오 신호를 생성하기 위해 디코딩된 주파수-도메인 데이터의 상기 채널들의 각각에 대해 주파수 도메인-대-시간 도메인 변환을 수행하는 단계를 더 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  13. 제 11 항에 있어서, 단계(d)는:
    업믹스된 주파수 성분들을 생성하기 위해 상기 제 1 세트의 복구된 주파수 성분들에 대해 블라인드 업믹스(blind upmixing)를 수행하는 단계와;
    디코딩된 주파수-도메인 데이터의 상기 N 개의 채널들을 생성하기 위해 상기 업믹스된 주파수 성분들과 상기 제 2 세트의 복구된 주파수 성분들을 조합하는 단계를 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  14. 제 10 항에 있어서,
    상기 인코딩된 오디오 신호는 E-AC-3 인코딩된 오디오 신호인, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  15. 제 10 항에 있어서, 단계(c)는:
    단계(a)에서 추출된 상기 파라메트릭 인코딩된 데이터의 적어도 일부에 대해 채널 결합 디코딩을 수행하는 단계와;
    단계(a)에서 추출된 상기 파라메트릭 인코딩된 데이터의 적어도 일부에 대해 스펙트럼 확장 디코딩을 수행하는 단계를 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  16. 제 10 항에 있어서,
    상기 제 1 세트의 복구된 주파수 성분들은 1.2 kHz 내지 4.6 kHz의 범위에 있는 최대값 F1 이하의 주파수들을 갖는, 인코딩된 오디오 신호를 디코딩하기 위한 방법.
  17. 파형 코딩된 데이터 및 파라메트릭 코딩된 데이터를 나타내는 인코딩된 오디오 신호를 디코딩하도록 구성된 오디오 디코더로서,
    N개의 채널들을 가진 멀티채널 오디오 입력 신호의 적어도 일부 채널들의 저주파수 성분들의 다운믹스를 생성하고, 여기서 N은 정수이고, 상기 다운믹스의 각각의 채널을 파형 코딩하여, 상기 파형 코딩된 데이터가 상기 다운믹스의 오디오 컨텐트를 나타내도록 상기 파형 코딩된 데이터를 생성하고, 상기 입력 신호의 각각의 채널의 적어도 일부의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들에 대해 파라메트릭 인코딩을 수행하여, 상기 파라메트릭 코딩된 데이터가 상기 입력 신호의 상기 각각의 채널의 상기 적어도 일부의 상기 저주파수 성분들보다 높은 주파수들을 가지는 주파수 성분들을 나타내도록 상기 파라메트릭 코딩된 데이터를 생성하고, 상기 파형 코딩된 데이터 및 상기 파라메트릭 코딩된 데이터에 응답하여 상기 인코딩된 오디오 신호를 생성함으로써 상기 인코딩된 오디오 신호가 생성되고,
    상기 N개의 채널들은 전체 범위 오디오 채널들이고, 상기 다운믹스는 N개보다 적은 유음 채널들(nonsilent channels)을 갖고, 상기 입력 신호의 적어도 일부의 채널들의 상기 저주파수 성분들의 다운믹스를 생성하는 것은 상기 입력 신호의 상기 전체 범위 오디오 채널들 중 적어도 하나의 상기 저주파수 성분들을 영 값들로 대체하는 것을 포함하고,
    제 10 항 내지 제 16 항 중 어느 한 항에 따른 방법을 실행하도록 구성되는, 오디오 디코더.
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
KR1020157031340A 2013-04-30 2014-04-22 멀티채널 오디오의 하이브리드 인코딩 KR101750732B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361817729P 2013-04-30 2013-04-30
US61/817,729 2013-04-30
PCT/US2014/034981 WO2014179119A1 (en) 2013-04-30 2014-04-22 Hybrid encoding of multichannel audio

Publications (2)

Publication Number Publication Date
KR20150138328A KR20150138328A (ko) 2015-12-09
KR101750732B1 true KR101750732B1 (ko) 2017-06-27

Family

ID=51267375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157031340A KR101750732B1 (ko) 2013-04-30 2014-04-22 멀티채널 오디오의 하이브리드 인코딩

Country Status (10)

Country Link
US (1) US8804971B1 (ko)
EP (1) EP2992528B1 (ko)
JP (1) JP6181854B2 (ko)
KR (1) KR101750732B1 (ko)
CN (1) CN105164749B (ko)
BR (1) BR112015026963B1 (ko)
HK (1) HK1215490A1 (ko)
RU (1) RU2581782C1 (ko)
TW (1) TWI521502B (ko)
WO (1) WO2014179119A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9530422B2 (en) * 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
JP6777071B2 (ja) * 2015-04-08 2020-10-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
JP6650651B2 (ja) 2015-08-25 2020-02-19 Nittoku株式会社 パレット搬送装置及びそれを用いたパレット搬送方法
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
GB2561594A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Spatially extending in the elevation domain by spectral extension
EP3422738A1 (en) * 2017-06-29 2019-01-02 Nxp B.V. Audio processor for vehicle comprising two modes of operation depending on rear seat occupation
US11361772B2 (en) * 2019-05-14 2022-06-14 Microsoft Technology Licensing, Llc Adaptive and fixed mapping for compression and decompression of audio data
CA3193359A1 (en) 2019-06-14 2020-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parameter encoding and decoding
US20220240012A1 (en) * 2021-01-28 2022-07-28 Sonos, Inc. Systems and methods of distributing and playing back low-frequency audio content

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
DE69210689T2 (de) 1991-01-08 1996-11-21 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6356639B1 (en) 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7106943B2 (en) 2000-09-21 2006-09-12 Matsushita Electric Industrial Co., Ltd. Coding device, coding method, program and recording medium
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CN1650528B (zh) 2002-05-03 2013-05-22 哈曼国际工业有限公司 多信道下混频设备
DE10234130B3 (de) 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US6937737B2 (en) * 2003-10-27 2005-08-30 Britannia Investment Corporation Multi-channel audio surround sound from front located loudspeakers
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CN1906664A (zh) * 2004-02-25 2007-01-31 松下电器产业株式会社 音频编码器和音频解码器
KR101120911B1 (ko) 2004-07-02 2012-02-27 파나소닉 주식회사 음성신호 복호화 장치 및 음성신호 부호화 장치
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
KR101236259B1 (ko) 2004-11-30 2013-02-22 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩하는 방법 및 장치
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US8139775B2 (en) * 2006-07-07 2012-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combining multiple parametrically coded audio sources
CN101276587B (zh) * 2007-03-27 2012-02-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
WO2009066960A1 (en) * 2007-11-21 2009-05-28 Lg Electronics Inc. A method and an apparatus for processing a signal
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
TWI449442B (zh) 2009-01-14 2014-08-11 Dolby Lab Licensing Corp 用於無回授之頻域主動矩陣解碼的方法與系統
CN101800048A (zh) * 2009-02-10 2010-08-11 数维科技(北京)有限公司 基于dra编码器的多声道数字音频编码方法及其编码系统
BR122019023924B1 (pt) * 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
KR101370522B1 (ko) * 2009-12-07 2014-03-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 하이브리드 변환을 사용한 다채널 오디오 엔코딩된 비트 스트림들의 디코딩
WO2011073201A2 (en) * 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
JP5582027B2 (ja) * 2010-12-28 2014-09-03 富士通株式会社 符号器、符号化方法および符号化プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fielder, et al. Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. Audio Engineering Society Convention 117. 2004.10.
Jurgen Herre, et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding. Journal of the Audio Engineering Society, 2008.11. Vol.56 No.11, pp.932-955.
Max Neuendorf, et al. MPEG unified speech and audio coding - the ISO/MPEG standard for high-efficiency audio coding of all content types. Audio Engineering Society Convention 132. 2012.04.29.

Also Published As

Publication number Publication date
EP2992528B1 (en) 2019-06-12
TW201513096A (zh) 2015-04-01
JP2016522909A (ja) 2016-08-04
KR20150138328A (ko) 2015-12-09
CN105164749A (zh) 2015-12-16
TWI521502B (zh) 2016-02-11
JP6181854B2 (ja) 2017-08-16
WO2014179119A1 (en) 2014-11-06
BR112015026963B1 (pt) 2022-01-04
US8804971B1 (en) 2014-08-12
RU2581782C1 (ru) 2016-04-20
CN105164749B (zh) 2019-02-12
EP2992528A1 (en) 2016-03-09
BR112015026963A2 (pt) 2017-07-25
EP2992528A4 (en) 2017-01-18
HK1215490A1 (zh) 2016-08-26

Similar Documents

Publication Publication Date Title
KR101750732B1 (ko) 멀티채널 오디오의 하이브리드 인코딩
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
EP2887350B1 (en) Adaptive quantization noise filtering of decoded audio data
JP7106711B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
RU2665214C1 (ru) Стереофонический кодер и декодер аудиосигналов
US9275649B2 (en) Method and system for encoding audio data with adaptive low frequency compensation
MX2008014222A (es) Codificacion de señal de informacion.
KR20120006077A (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
TW201405548A (zh) 具多重子流之多通道音頻信號的有效編碼與解碼
JP7035154B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JP2016531327A (ja) 先進的結合のための非一様パラメータ量子化
EP1905034A1 (en) Virtual source location information based channel level difference quantization and dequantization method
Watson et al. Design and implementation of AAC decoders
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
WO2023173941A1 (zh) 一种多声道信号的编解码方法和编解码设备以及终端设备
CN116798438A (zh) 一种多声道信号的编解码方法和编解码设备以及终端设备
KR20070041336A (ko) 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기위한 장치
KR20080030848A (ko) 오디오 신호 인코딩 및 디코딩 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant