KR101865205B1

KR101865205B1 - 다중 채널 오디오 코딩에서의 잡음 충진

Info

Publication number: KR101865205B1
Application number: KR1020167004469A
Authority: KR
Inventors: 마리아 루이스 발레로; 크리스티안 헴리히; 요하네스 힐퍼트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-07-22
Filing date: 2014-07-18
Publication date: 2018-06-07
Also published as: PL3618068T3; CN105706165A; BR122022016310B1; US20200051577A1; US11887611B2; PT3025341T; HK1246963A1; RU2661776C2; EP3025341B1; US10468042B2; EP3618068B1; PL3025341T3; MX2016000912A; US10978084B2; ES2980506T3; EP3618068A1; US20240127837A1; MX359186B; CN105706165B; WO2015011061A1

Abstract

다중 채널 오디오 코딩에서, 개선된 코딩 효율은 다음의 척도에 의해 달성된다: 제로-양자화된 스케일 인자 대역들의 잡음 충진은 인공적으로 생성된 잡음 또는 스펙트럼 복제가 아닌 다른 잡음 충진 소스들을 이용하여 수행된다. 특히, 다중 채널 오디오 코딩에서의 코딩 효율은 다중 채널 오디오 신호의 이전 프레임의 스펙트럼 라인들, 또는 다중 채널 오디오 신호의 현재 프레임의 상이한 채널을 이용하여 생성된 잡음에 기초하여 잡음 충진을 수행함으로써 더 효율적으로 렌더링될 수 있다.

Description

다중 채널 오디오 코딩에서의 잡음 충진{NOISE FILLING IN MULTICHANNEL AUDIO CODING}

본 출원은 다중 채널 오디오 코딩에서의 잡음 충진(noise filling)에 관한 것이다.

IETF[1], MPEG-4 (HE-)AAC[2] 또는, 특히 MPEG-D xHE-AAC(USAC)[3]의 오퍼스/셀트(Opus/Celt) 코덱과 같은 현대의 주파수-도메인 음성/오디오 코딩 시스템들은 신호의 시간 정상성(temporal stationarity)에 따라 하나의 긴 변환 - 긴 블록 - 또는 8개의 순차 짧은 변환들을 이용하여 오디오 프레임들을 코딩하기 위한 수단을 제공한다. 더욱이, 낮은-비트율 코딩에 대해, 이들 계획들(shemes)은 동일한 채널의 저주파수 계수들 또는 의사 무작위 잡음을 이용하여 채널의 주파수 계수들을 재구성하기 위한 툴들(tools)을 제공한다. xHE-AAC에서, 이들 툴들은 각각 잡음 충진 및 스펙트럼 대역 복제로서 알려져 있다.

하지만, 바로 음조(tonal) 또는 트랜지언트(transient) 스테레오 입력에 대해, 잡음 충진 및/또는 스펙틀험 대역 복제는 단독으로 매우 낮은 비트율에서 달성가능한 코딩 품질을 제한하는데, 이는 대부분 양쪽 채널들의 너무 많은 스펙트럼 계수들이 명시적으로 송신될 필요가 있기 때문이다.

따라서, 그 목적은, 특히 매우 낮은 비트율에서 더 효율적인 코딩을 제공하는 다중 채널 오디오 코딩에서 잡음 충진을 수행하기 위한 개념을 제공하는 것이다.

이 목적은 동봉된 독립 청구항들의 주제에 의해 달성된다.

본 출원은, 다중 채널 오디오 코딩에서, 채널의 제로-양자화된 스케일 인자 대역들의 잡음 충진이 동일한 채널의 인공적으로 생성된 잡음 또는 스펙트럼 복제 이외에 다른 잡음 충진 소스들을 이용하여 수행되는 rsuddn 달성될 수 있다는 발견에 기초한다. 특히, 다중 채널 오디오 코딩에서의 효율은 다중 채널 오디오 신호의 이전 프레임, 또는 현재 프레임의 상이한 채널로부터 스펙트럼 라인들을 이용하여 생성된 잡음에 기초하여 잡음 충진을 수행함으로써 더 효율적으로 렌더링될 수 있다.

이전 프레임의 스펙트럼적으로 공동-위치된 스펙트럼 라인들 또는 다중 채널 오디오 신호의 다른 채널들의 스펙트럼 시간적으로 공동-위치된 스펙트럼 라인들을 이용함으로써, 특히 스펙트럼 라인들을 제로-양자화하기 위한 인코더의 요건이 스케일 인자 대역들을 전체적으로 제로-양자화하도록 하는 상황에 가까운 매우 낮은 비트율에서, 재구성된 다중 채널 오디오 신호의 더 좋은 품질을 얻는 것이 가능하다. 개선된 잡음 충진으로 인해, 인코더는 더 많은 스케일 인자 대역들을 제로-양자화하도록 적은 품질 페널티(penalty)로 선택할 수 있어서, 코딩 효율을 개선한다.

본 출원의 실시예에 따라, 잡음 충진을 수행하기 위한 소스는 복소수-값을 갖는 스테레오 예측을 수행하는데 사용된 소스와 부분적으로 중첩한다. 특히, 이전 프레임의 다운믹스는 잡음 충진을 위한 소스로서 사용될 수 있고, 복소수 인터-예측을 수행하기 위해 허수 부분 추정을 수행하기 위한 소스로서 공동-살용될 수 있다.

실시예들에 따라, 기존의 다중 채널 오디오 코덱은 프레임간(frame-by-frame)에 기초하여 인터-채널 잡음 충진의 이용을 신호 발신(signal)하도록 역호환 방식으로 확장된다. 아래에 개요된 특정 실시예들은 예를 들어, 역호환 방식으로 신호 발신에 의해 xHE-AAC를 확장하고, 신호 발신은 조건부 코딩된 잡음 충진 파라미터의 미사용된 상태들을 이용하여 인터-채널 잡음 충진을 스위칭 온 및 오프한다.

본 출원의 유리한 구현들은 종속항들의 주제이다. 본 출원의 바람직한 실시예들은 도면들에 대해 아래에 기재된다.

도 1은 본 출원의 실시예에 따른 파라미터적 주파수-도메인 디코더의 블록도.
도 2는 도 1의 디코더의 설명의 이해를 용이하게 하기 위해 다중 채널 오디오 신호의 채널들의 스펙트로그램들(spectrograms)을 스펙트럼 형성하는 시퀀스를 도시하는 개략도.
도 3은 도 1의 설명의 이해를 완화시키기 위해 도 2에 도시된 스펙트로그램들로부터의 현재 스펙트럼을 도시한 개략도.
도 4는, 이전 프레임의 다운믹스가 인터-채널 잡음 충진에 대한 기초로서 사용되는 대안적인 실시예에 따른 파라미터적 주파수-도메인 오디오 디코더의 블록도.
도 5는 실시예에 따른 파라미터적 주파수-도메인 오디오 인코더의 블록도.

도 1은 본 출원의 실시예에 따른 주파수-도메인 오디오 디코더를 도시한다. 디코더는 일반적으로 도면 부호(10)를 이용하여 표시되고, 스케일 인자 대역 식별기(12), 역양자화기(14), 잡음 필러(16) 및 역 변환기(18) 뿐 아니라 스펙트럼 라인 추출기(20) 및 스케일 인자 추출기(22)를 포함한다. 디코더(10)에 의해 포함될 수 있는 선택적인 추가 요소들은 복합 스테레오 예측기(24), MS(mid-side) 디코더(26), 및 2개의 예시(28a 및 28b)가 도 1에 도시된 역 TNS(Temporal Noise Shaping) 필러 툴을 수반한다. 더욱이, 다운믹스 제공자가 도시되고, 도면 부호(30)를 이용하여 아래에 더 구체적으로 개요된다.

도 1의 주파수-도메인 오디오 디코더(10)는 잡음 충진을 지원하는 파라미터적 디코더이고, 이에 따라 특정한 제로-양자화된 스케일 인자 대역은 그러한 스케일 인자 대역으로 충진된 잡음의 레벨을 제어하기 위한 수단으로서 그러한 스케일 인자 대역의 스케일 인자를 이용하여 잡음으로 충진된다. 그 외에, 도 1의 디코더(10)는 인바운드(inbound) 데이터 스트림(30)으로부터 다중 채널 오디오 신호를 재구성하도록 구성된 다중 채널 오디오 디코더를 나타낸다. 하지만, 도 1은 데이터 스트림(30)에 코딩된 다중 채널 오디오 신호들 중 하나를 재구성하는 것에 수반된 디코더(10)의 요소들 상에 집중하고, 출력(32)에서 이러한 (출력) 채널을 출력한다. 도면 부호(34)는, 디코더(10)가 추가 요소들을 포함할 수 있거나 다중 채널 오디오 신호의 다른 채널들을 재구성하기 위해 응답가능한 몇몇 파이프라인(pipeline) 동작 제어를 포함할 수 있고, 아래에 제기된 설명은, 출력(32)에서 해당 채널의 디코더(10)의 재구성이 다른 채널들의 디코딩과 어떻게 상호 작용하는 지를 나타낸다.

데이터 스트림(30)에 의해 표현된 다중 채널 오디오 신호는 2개 이상의 채널들을 포함할 수 있다. 다음에서, 본 출원의 실시예들의 설명은, 다중 채널 오디오 신호가 단지 2개의 채널들을 포함하는 스테레오 경우에 집중하지만, 사실상 다음에서 제기된 실시예들은 다중 채널 오디오 신호들 및 2개보다 많은 채널들을 포함하는 그 코딩에 관한 대안적인 실시예들 상으로 쉽게 전달될 수 있다.

아래의 도 1의 설명으로부터 더 명백한 바와 같이, 도 1의 디코더(10)는 변형 디코더이다. 즉, 디코더(10)에 기초하는 코딩 기술에 따라, 채널들은 채널들의 랩형(lapped) 변환을 이용하는 것과 같이 변환 도메인에서 코딩된다. 더욱이, 오디오 신호의 생성기(creator)에 따라, 시간 위상들이 존재하는데, 그 동안 오디오 신호의 채널들은 대부분 동일한 오디오 컨텐트를 나타내어, 채널들 사이의 차이들이 다중 채널 오디오 신호의 출력 채널들과 연관된 가상 스피커 위치들에 대해 오디오 장면의 오디오 소스의 가상 위치 지정(positioning)을 가능하게 하는 오디오 장면을 나타내기 위해 상이한 진폭들 및/또는 위상과 같이 그 사이의 사소하거나 결정론적인 변화들에 의해 서로 편이(deviating). 하지만, 몇몇 다른 시간 위상들에서, 오디오 신호의 상이한 채널들은 서로 약간 상관되지 않을 수 있고, 예를 들어, 완전히 상이한 오디오 소스들을 나타낼 수 있다.

오디오 신호의 채널들 사이의 가능한 시간-변화 관계를 고려하기 위해, 도 1의 디코더(10)에 기초하는 오디오 코덱은 인터-채널 여분들(redundancies)을 이용하기 위해 상이한 척도들(measures)의 시간-변화 이용을 허용한다. 예를 들어, MS 코딩은, 각각 좌측 및 우측 채널들의 다운믹스 및 및 그 절반의 차이를 나타내는 M(중간) 및 S(측면) 채널들의 쌍으로서 또는 그들 자체로서 스테레오 오디오 신호의 좌측 및 우측 채널들을 나타내는 것들 사이를 스위칭하는 것을 허용한다. 즉, 데이터 스트림(30)에 의해 송신된 2개의 채널들의 연속적으로 - 스펙트럼 시간(spectrotemporal) 관점에서 - 스펙트로그램들이 존재하지만, 이들 (송신된) 채널들의 의미는 각각 출력 채널들에 대해 시간적으로 변화할 수 있다.

복소수 스테레오 예측 - 다른 인터-채널 여분 이용 툴 -은 스펙트럼 도메인에서, 다른 채널의 스펙트럼적으로 공동-위치된 라인들을 이용하여 하나의 채널의 주파수-도메인 계수들 또는 스펙트럼 라인들을 예측하는 것을 가능하게 한다. 이에 관한 더 많은 세부사항들은 아래에 기재된다.

도 1 및 도 1에 도시된 구성요소들의 후속 설명의 이해를 용이하게 하기 위해, 도 2는 데이터 스트림(30)에 의해 표현된 스테레오 오디오 신호의 예시적인 경우에 대해, 도 1의 디코더(10)에 의해 처리되도록 2개의 채널들의 스펙트럼 라인들에 대한 샘플 값들이 데이터 스트림(30)에 어떻게 코딩될 수 있는 지 가능한 방식을 도시한다. 특히, 도 2의 상부 절반부에서, 스테레오 오디오 신호의 제 1 채널의 스펙트로그램(40)이 도시되지만, 도 2의 하부 절반부는 스테레오 오디오 신호의 다른 채널의 스펙트로그램(42)을 도시한다. 다시, 스펙트로그램들(40 및 42)의 "의미"가 예를 들어, MS 코딩된 도메인 및 비-MS-코딩된 도메인 사이의 시간-변화 스위칭으로 인해 시간이 지남에 따라 변할 수 있다는 것이 주지할 만하다. 제 1 경우에서, 스펙트로그램들(40 및 42)은 각각 M 및 S 채널에 관한 것인 반면, 후자의 경우에, 스펙트로그램들(40 및 42)은 좌측 및 우측 채널들에 관한 것이다. MS 코딩된 도메인과 비-코딩된 MS 코딩된 도메인 사이의 스위칭은 데이터 스트림(30)에서 신호 발신될 수 있다.

도 2는, 스펙트로그램들(40 및 42)이 시간-변화 스펙트럼 시간 분해능(resolution)에서 데이터 스트림(30)에 코딩될 수 있다. 예를 들어, 양쪽의 (송신된) 채널들은 시간-정렬된 방식으로, 동일하게 길 수 있고 중첩 없이 서로 인접할 수 있는 중괄호(curly brackets)(44)를 이용하여 표시된 프레임들의 시퀀스로 세분화될 수 있다. 방금 언급된 바와 같이, 스펙트로그램들(40 및 42)이 데이터 스트림(30)에 나타난 스펙트럼 분해능은 시간이 지남에 따라 변할 수 있다. 임시적으로, 스펙트럼 시간 분해능이 스펙트로그램들(40 및 42)에 대해 동일하게 시간적으로 변하지만, 이러한 간략화의 확장이 또한 다음의 설명으로부터 명백한 바와 같이 실용적이라는 것이 간주된다. 스펙트럼 시간 분해능의 변화는 예를 들어, 프레임들(44)의 유닛들에서 데이터 스트림(30)에서 신호 발신된다. 즉, 스펙트럼 시간 분해능은 프레임들(44)의 유닛들에서 변한다. 스펙트로그램들(40 및 42)의 스펙트럼 시간 분해능에서의 변화는 각 프레임(44) 내에서 스펙트로그램들(40 및 42)을 기재하는데 사용된 변환들의 수 및 변환 길이를 스위칭함으로써 달성된다. 도 2의 예에서, 프레임들(44a 및 44b)은, 하나의 긴 변환이 그 안의 오디오 신호의 채널들을 샘플링하기 위해 사용되어, 이를 통해 채널당 그러한 프레임들 각각에 대한 스펙트럼 라인당 하나의 스펙트럼 라인 샘플 값을 갖는 가장 높은 스펙트럼 분해능을 초래한다. 도 2에서, 스펙트럼 라인들의 샘플 값들은 박스들 내의 작은 십자각들을 이용하여 표시되고, 박스들에서, 다시 행 및 열로 배열되고, 스펙트럼 시간 그리드를 나타낼 수 있고, 각 행은 하나의 스펙트럼 라인에 대응하고, 각 열은 스펙트로그램들(40 및 42)을 형성하는데 수반된 가장 짧은 변환들에 대응하는 프레임들(44)의 서브-간격들(sub-intervals)에 대응한다. 특히, 도 2는 예를 들어, 프레임(44d)에 대해, 프레임이 대안적으로 더 짧은 길이의 연속 변환들을 겪을 수 있어서, 이를 통해 프레임(44d)과 같은 그러한 프레임들에 대해, 감소된 스펙트럼 분해능의 여러 시간적으로 연속적인 스펙트럼을 초래한다. 8개의 짧은 변환들은 예시적으로 프레임(44d)에 사용되어, 그 결과 단지 8번째 스펙트럼 라인마다 집합(populated)되도록 서로 이격된 스펙트럼 라인들에서, 하지만 변환 프레임(44d)에 사용된 더 짧은 길이의 8개의 변환 윈도우들 또는 변환들 각각에 대한 샘플 값을 가지고, 그러한 프레임(42d) 내에서 스펙트로그램들(40 및 42)의 스펙트럼 시간 샘플링을 초래한다. 예시 목적들을 위해, 프레임에 대한 변환들의 다른 수들이 예를 들어 프레임들(44a 및 44b)에 대한 긴 변환들의 변환 길이의 절반인 변환 길이의 2개의 변환들의 이용과 같이 실용적이어서, 2개의 스펙트럼 라인 샘플 값들이 매 제 2 스펙트럼 라인에 대해 얻어지는 스펙트럼 시간 그리드 또는 스펙트로그램들(40 및 42)의 샘플링을 초래하고, 이들 2개의 스펙트럼 라인 샘플 값들 중 하나는 선두(leading) 변환에 관한 것이고, 다른 하나는 후미(trailing) 변환에 관한 것이라는 것이 도 2에 도시된다.

프레임들이 세분화되는 변환들에 대한 변환 윈도우들은 아래의 도 2에 예시되고, 각 스펙트로그램은 중첩하는 윈도우-형 라인들을 이용한다. 시간 중첩은 예를 들어, TDAC(Time- Domain Aliasing Cancellation) 목적들을 위해 작용한다.

아래에 추가로 기재된 실시예들이 또한 다른 방식으로 구현될 수 있지만, 도 2는, 개별적인 프레임들(44)에 대한 상이한 스펙트럼 시간 분해능들 사이의 스위칭이 각 프레임(44)에 대해 도 2에서의 작은 십자가들로 표시된 동일한 수의 스펙트럼 라인 값들이 스펙트로그램(40) 및 스펙트로그램(42)에 대해, 라인들이 각 프레임(44)의 시간에 걸쳐 시간적으로 선회되고 제로 주파수로부터 최대 주파수(f_max)로 스펙트럼적으로 선회된 각 프레임(44)에 대응하는 각 스펙트럼 시간 타일을 스펙트럼 시간적으로 샘플링하는 방식으로 단지 상주하는 차이를 초래하는 방식으로 수행되는 경우를 도시한다.

도 2에서의 화살표들을 이용하여, 도 2는, 유사한 스펙트럼이 동일한 스펙트럼 라인이지만, 하나의 채널의 하나의 프레임 내에서 짧은 변환 윈도우들에 속하는 스펙트럼 라인 샘플 값들을 그러한 동일한 프레임의 다음의 점유된 스펙트럼 라인까지 그러한 프레임 내에서 점유되지 않은(빈) 스펙트럼 라인들 상에 적합하게 분배함으로써 모든 프레임들(44)에 대해 얻어질 수 있는 것을 프레임(44d)에 대해 도시한다. 그러한 결과적인 스펙트럼은 다음에서 "인터리빙된 스펙트럼"이라 불린다. 하나의 채널의 하나의 프레임의 n개의 변환들을 인터리빙할 때, 예를 들어, n개의 짧은 변환들의 스펙트럼적으로 공동-위치된 스펙트럼 라인 값들은, 스펙트럼적으로 연속적인 스펙트럼 라인의 n개의 짧은 변환들의 n개의 스펙트럼적으로 공동-위치된 스펙트럼 라인 값들의 세트가 뒤따르기 전에 서로 뒤따른다. 인터리빙의 중간 형태도 또한 실용적이다: 하나의 프레임의 모든 스펙트럼 라인 계수들을 인터리빙하는 것 대신에, 프레임(44d)의 짧은 변환들의 적절한 서브셋의 스펙트럼 라인 계수들을 단지 인터리빙하는 것이 실용적이다. 어떠한 경우에도, 스펙트로그램들(40 및 42)에 대응하는 2개의 채널들의 프레임들의 스펙트럼이 논의될 때마다, 이들 스펙트럼은 인터리빙된 것들 또는 비-인터리빙된 것들을 지칭할 수 있다.

디코더(10)에 통과된 데이터 스트림(30)을 통해 스펙트로그램들(40 및 42)을 나타내는 스펙트럼 라인 계수들을 효율적으로 코딩하기 위해, 이와 동일한 것이 양자화된다. 양자화 잡음을 스펙트럼 시간적으로 제어하기 위해, 양자화 단계 크기는 특정 스펙트럼 시간 그리드에서 설정되는 스케일 인자들을 통해 제어된다. 특히, 각 스펙트럼 그램의 스펙트럼의 각 시퀀스 내에서, 스펙트럼 라인들은 스펙트럼적으로 연속 비-중첩 스케일 인자 그룹들로 그룹화된다. 도 3은 그 상부 절반부에서 스펙트로그램(40)의 스펙트럼(46)과, 스펙트로그램(42)으로부터의 공동-시간 스펙트럼(48)을 도시한다. 여기에 도시된 바와 같이, 스펙트럼(46 및 48)은 스펙트럼 라인들을 비-중첩 그룹들로 그룹화하도록 스펙트럼 축(f)을 따라 스케일 인자 대역들로 세분화된다. 스케일 인자 대역들은 중괄호들(50)을 이용하여 도 3에 도시된다. 간략함을 위해, 스케일 인자 대역들 사이의 경계들이 스펙트러(46 및 48) 사이에 부합하지만, 이것인 반드시 그렇게 될 필요는 없다는 것이 가정된다.

즉, 데이터 스트림(30)에서의 코딩에 의해, 스펙트로그램들(40 및 42) 각각은 스펙트럼의 시간 시퀀스로 세분화되고, 이들 스펙트럼의 각각은 스케일 인자 대역들에로 스펙트럼적으로 세분화되고, 각 스케일 인자 대역에 대해, 데이터 스트림(30)은 각 스케일 인자 대역에 대응하는 스케일 인자에 관한 정보를 코딩하거나 운반한다. 각 스케일 인자 대역(50)에 놓이는 스펙트럼 라인 계수들은 각 스케일 인자를 이용하여 양자화되거나, 디코더(10)가 고려되는 한, 대응하는 스케일 인자 대역의 스케일 인자를 이용하여 역양자화될 수 있다.

다시 도 1 및 그 설명으로 돌아가기 전에, 특수하게 처리된 채널, 즉 34를 제외한 도 1의 디코더의 특정 요소들이 수반되는 디코딩을 갖는 것이 이미 위에서 언급된 바와 같이, 좌측 및 우측 채널들 중 하나, 데이터 스트림(30)에 코딩된 다중 채널 오디오 신호가 스테레오 오디오 신호인 점을 가정하여 M 채널 또는 S 채널을 나타낼 수 있는 스펙트로그램(40)의 송신된 채널이라는 것이 다음에 가정될 수 있다.

스펙트럼 라인 추출기(20)가 스펙트럼 라인 데이터, 즉 데이터 스트림(30)으로부터 프레임들(44)에 대한 스펙트럼 라인 계수들을 추출하도록 구성되지만, 스케일 인자 추출기(22)는 각 프레임(44)에 대해 대응하는 스케일 인자들을 추출하도록 구성된다. 이 때문에, 추출기들(20 및 22)은 엔트로피 디코딩(entropy decoding)을 이용할 수 있다. 실시예에 따라, 스케일 인자 추출기(22)는 예를 들어, 컨텍스트-적응형(context-adaptive) 엔트로피 디코딩을 이용하여 데이터 스트림(30)으로부터 도 3에서의 스펙트럼(46)의 스케일 인자들, 즉 스케일 인자 대역들(50)의 스케일 인자들을 순차적으로 추출하도록 구성된다. 순차 디코딩의 순서는 스케일 인자 대역들의 인도 중에서, 예를 들어 저주파수로부터 고주파수로 한정된 스펙트럼 순서에 따를 수 있다. 스케일 인자 추출기(22)는 컨텍스트-적응형 엔트로피 디코딩을 이용할 수 있고, 즉시 선행하는 스케일 인자 대역의 스케일 인자에 따르는 것과 같이 현재 추출된 스케일 인자의 스펙트럼 이웃에서의 이미 추출된 스케일 인자들에 따라 각 스케일 인자에 대한 컨텍스트를 결정할 수 있다. 대안적으로, 스케일 인자 추출기(22)는 예를 들어, 즉시 선행하는 것과 같이 임의의 이전에 디코딩된 스케일 인자들에 기초하여 현재 디코딩된 스케일 인자를 예측하는 동안 차동 디코딩을 이용하는 것과 같이 데이터 스트림(30)으로부터 스케일 인자들을 예측적으로 디코딩할 수 있다. 특히, 스케일 인자 확장의 이러한 프로세스는 가역적으로 제로-양자화된 스펙트럼 라인들에 의해 집합되거나, 적어도 하나가 비-제로 값으로 양자화되는 스펙트럼 라인들에 의해 집합된 스케일 인자 대역에 속하는 스케일 인자에 대해 불가(agnostic)하다. 제로-양자화된 스펙트럼 라인들에 의해 집합된 스케일 인자 대역에 속하는 스케일 인자는, 하나가 비-제로인 스펙트럼 라인들에 의해 집합된 스케일 인자 대역에 가능하면 속하는 후속 디코딩된 스케일 인자에 대한 예측 기초로서 작용할 수 있고, 하나가 비-제로인 스펙트럼 라인드렝 의해 집합된 스케일 인자 대역에 가능하면 속하는 이전에 디코딩된 스케일 인자에 기초하여 예측될 수 있다.

완전함만을 위해, 스펙트럼 라인 추출기(20)가, 스케일 인자 대역들(50)이 예를 들어 엔트로피 코딩 및/또는 예측 코딩을 이용하여 마찬가지로 집합되는 스펙트럼 라인 계수들을 추출한다는 것이 주지된다. 엔트로피 코딩은 현재 디코딩된 스펙트럼 라인 계수의 스펙트럼 시간 이웃에서의 스펙트럼 라인 계수들에 기초하여 컨텍스트-적응형을 이용할 수 있고, 마찬가지로, 예측은 스펙트럼 시간 이웃에서의 이전에 디코딩된 스펙트럼 라인 계수들에 기초하여 현재 디코딩된 스펙트럼 라인 계수를 예측하는 스펙트럼 예측, 시간 예측 또는 스펙트럼 시간 예측일 수 있다. 증가된 코딩 효율을 위해, 스펙트럼 라인 추출기(20)는 스펙트럼 라인들 또는 라인 계수들을 집합 단위로(in tuples) 디코딩하는 것을 수행하도록 구성될 수 있고, 이들은 주파수 축을 따라 스펙트럼 라인들을 수집하거나 그룹화한다.

따라서, 스펙트럼 라인 추출기(20)의 출력에서, 스펙트럼 라인 계수들은 예를 들어, 대응하는 프레임의 모든 스펙트럼 라인 계수들을 수집하거나, 대안적으로 대응하는 프레임의 특정한 짧은 변환들의 모든 스펙트럼 라인 계수들을 수집하는 스펙트럼(46)과 같은 예를 들어 스펙트럼의 유닛들과 같이 제공된다. 스케일 인자 추출기(22)의 출력에서, 다시 각 스펙트럼의 대응하는 스케일 인자들이 출력된다.

스케일 인자 대역 식별기(12) 및 역양자화기(14)는 스펙트럼 라인 추출기(20)의 출력에 결합된 스펙트럼 라인 입력들을 갖고, 역양자화기(14) 및 잡음 필러(16)는 스케일 인자 추출기(22)의 출력에 결합된 스케일 인자 입력들을 갖는다. 스케일 인자 대역 식별기(12)는 현재 스펙트럼(46) 내에서 소위 제로-양자화된 스케일 인자 대역들, 즉 모든 스펙트럼 라인들이 도 3에서의 스케일 인자 대역(50c)과 같이 0으로 양자화되는 스케일 인자 대역들, 및 적어도 하나의 스펙트럼 라인이 비-제로로 양자화되는 스펙트럼의 나머지 스케일 인자 대역들을 식별하도록 구성된다. 특히, 도 3에서, 스펙트럼 라인 계수들은 도 3에서의 사선 영역을 이용하여 표시된다. 스펙트럼(46)에서, 스케일 인자 대역(50b)을 제외한 모든 스케일 인자 대역들이 적어도 하나의 스펙트럼 라인을 갖고, 이러한 적어도 하나의 스펙트럼 라인의 스펙트럼 라인 계수는 비-제로 값으로 양자화된다는 것을 그로부터 알 수 있다. 나중에, 50d와 같은 제로-양자화된 스케일 인자 대역들이 아래에 추가로 기재된 인터-채널 잡음 충진의 주제를 형성한다는 것이 명백할 것이다. 설명에 대한 진행 이전에, 스케일 인자 대역 식별자(12)가 특정한 시작 주파수(52)보다 높은 스케일 인자 대역들 상으로와 같이 스케일 인자 대역들(50)의 단지 적절한 서브셋 상에 그 식별을 제약할 수 있다는 것이 주지된다. 도 3에서, 이것은 스케일 인자 대역들(50d, 50e 및 50f) 상에 식별 절차를 제약한다.

스케일 인자 대역 식별자(12)는 제로-양자화된 스케일 인자 대역들인 그러한 스케일 인자 대역들에 대해 잡음 필러(16)에게 통보한다. 역양자화기(14)는 연관된 스케일 인자들, 즉 스케일 인자 대역들(50)과 연관된 스케일 인자들에 따라 스펙트럼(46)의 스펙트럼 라인들의 스펙트럼 라인 계수들을 역양자화하거나 스케일링하도록 인바운드 스펙트럼(46)과 연관된 스케일 인자들을 이용한다. 특히, 역양자화기(14)는 각 스케일 인자 대역과 연관된 스케일 인자를 가지고 각 스케일 인자 대역에 놓인 스펙트럼 라인 계수들을 역양자화하고 스케일링한다. 도 3은 스펙트럼 라인들의 역양자화의 결과를 보여주는 것으로 해석될 수 있다.

잡음 필러(16)는, 인터-채널 잡음 충진이 현재 프레임에 대해 수행될 것인지의 여부를 나타내는 현재 프레임에 대한 데이터 스트림(30)으로부터 얻어진 신호 발신과 제로-양자화된 스케일 인자 대역들로서 식별된 적어도 그러한 스케일 인자 대역들의 스케일 인자들뿐 아니라 다음의 잡음 충진, 역양자화 스펙트럼의 주제를 형성하는 제로-양자화된 스케일 인자 대역들에 대한 정보를 얻는다.

다음의 예에 기재된 인터-채널 잡음 충진 프로세스는 실제로 2가지 유형들의 잡음 충진, 즉 임의의 제로-양자화된 스케일 인자 대역으로의 잠재적인 멤버쉽(membership)과 무관하게 제로로 양자화된 모든 스펙트럼 라인들에 속하는 잡음 플로어(floor)(54)의 삽입, 및 실제 인터-채널 잡음 충진 절차를 수반한다. 이러한 조합이 이후에 기재되지만, 잡음 플로어 삽입이 대안적인 실시예에 따라 생략될 수 있다는 것이 강조된다. 더욱이, 현재 프레임에 관련되고 데이터 스트림(30)으로부터 얻어진 잡음 충진 스위치-온 및 스위치-오프에 관한 신호 발신은 인터-채널 잡음 충진에만 관련될 수 있거나, 양쪽 잡음 충진 부류들의 조합을 함께 제어할 수 있다.

잡음 플로어 삽입에 관련하여, 잡음 필러(16)는 다음과 같이 동작할 수 있다. 특히, 잡음 필러(16)는 스펙트럼 라인들을 충진하기 위해 의사 무작위 수 생성기 또는 무작위의 몇몇 다른 소스와 같은 인공 잡음 생성을 이용할 수 있고, 스펙트럼 라인들의 스펙트럼 라인 계수들은 0이었다. 이에 따라 제로-양자화된 스펙트럼 라인들에 삽입된 잡음 플로어(54)의 레벨은 현재 프레임 또는 현재 스펙트럼(46)에 대한 데이터 스트림(30) 내에서 명시적인 신호 발신에 따라 설정될 수 있다. 잡음 플로어(54)의 "레벨"은 예를 들어, 제곱 평균 제곱근(RMS) 또는 에너지 척도를 이용하여 결정될 수 있다.

이에 따라 잡음 플로어 삽입은 도 3에서의 스케일 인자 대역(50d)과 같은 제로-양자화된 것들로서 식별된 그러한 스케일 인자 대역들에 대한 사전-충진의 유형을 나타낸다. 이것은 또한 제로-양자화된 것들 외에 다른 스케일 인자 대역들에 영향을 미치지만, 제로-양자화된 것은 다음의 인터-채널 잡음 충진을 추가로 겪게 된다. 아래에 기재되는 바와 같이, 인터-채널 잡음 충진 프로세스는 각 제로-양자화된 스케일 인자 대역의 스케일 인자를 통해 제어된 레벨까지 제로-양자화된 스케일 인자 대역들을 충진하는 것이다. 후자는 제로로 양자화되는 각 제로-양자화된 스케일 인자 대역의 모든 스펙트럼 라인들로 인해 이 목적에 직접 사용될 수 있다. 그럼에도 불구하고, 데이터 스트림(30)은 파라미터의 추가 신호 발신을 포함할 수 있고, 이러한 파라미터의 추가 신호 발신은 각 프레임 또는 각 스펙트럼(46)에 대해, 대응하는 프레임 또는 스펙트럼(46)의 모든 제로-양자화된 스케일 인자 대역들의 스케일 인자들에 공통적으로 적용되고, 잡음 필러(16)에 의해 제로-양자화된 스케일 인자 대역들의 스케일 인자들 상에 적용될 때, 제로-양자화된 스케일 인자 대역들에 대해 개별적인 각 충진 레벨을 초래한다. 즉, 잡음 필러(16)는 스펙트럼(46)의 각 제로-양자화된 스케일 인자 대역에 대해, 동일한 변형 함수를 이용하여, 에너지 또는 RMS에 관해, 각 제로-양자화된 스케일 인자 대역 측정을 위한 충진 목표 레벨을 얻도록 현재 프레임의 스펙트럼(46)에 대한 데이터 스트림(30)에 포함된 방금 언급된 파라미터를 이용하여 각 스케일 인자 대역의 스케일 인자를 변형할 수 있으며, 인터-채널 잡음 충진 프로세스는 (선택적으로) 추가 잡음{잡음 플로어(54)에 더하여}을 갖는 각 제로-양자화된 스케일 인자 대역을 상기 에너지 또는 RMS의 레벨까지 충진한다.

특히, 인터-채널 잡음 충진(56)을 수행하기 위해, 잡음 필러(16)는 이미 크게 또는 완전히 디코딩된 상태에서, 다른 채널의 스펙트럼(48)의 스펙트럼적으로 공동-위치된 부분을 얻고, 스펙트럼(48)의 얻어진 부분을, 그러한 제로-양자화된 스케일 인자 대역 내의 결과적인 전체 잡음 레벨 - 각 스케일 인자 대역의 스펙트럼 라인들에 걸친 적분에 의해 도출된 -이 제로-양자화된 스케일 인자 대역의 스케일 인자로부터 얻어진 전술한 충진 목표 레벨과 동일한 방식으로 이 부분이 스케일링된, 스펙트럼적으로 공동-위치되는 제로-양자화된 스케일 인자 대역으로 복제한다. 이러한 척도에 의해, 각 제로-양자화된 스케일 인자 대역에 충진된 잡음의 음조는 잡음 플로어(54)의 기초를 형성하는 것과 같이 인공적으로 생성된 잡음과 비교하여 개선되고, 또한 동일한 스펙트럼(46) 내의 매우-낮은-주파수 라인들로부터 제어되지 않은 스펙트럼 복사/복제보다 더 양호하다.

더욱 더 정밀하게, 잡음 필러(16)는 50d와 같은 현재 대역에 대해, 다른 채널의 스펙트럼(48) 내의 스펙트럼적으로 공동-위치된 부분을 위치시키고, 선택적으로 현재 프레임 또는 스펙트럼(46)에 대한 데이터 스트림(30)에 포함된 몇몇 추가 오프셋 또는 잡음 인자 파라미터를 수반하는 방금 언급된 방식으로 제로-양자화된 스케일 인자 대역(50d)의 스케일 인자에 따라 스펙트럼 라인들을 스케일링하여, 그 결과는 제로-양자화된 스케일 인자 대역(50d)의 스케일 인자에 의해 한정된 원하는 레벨까지 각 제로-양자화된 스케일 인자 대역(50d)을 충진한다. 본 실시예에서, 이것은, 충진이 잡음 플로어(54)에 대한 추가 방식으로 이루어진다는 것을 의미한다.

간략화된 실시예에 따라, 결과적인 잡음-충진된 스펙트럼(46)은, 스펙트럼(46)의 스펙트럼 라인 계수들이 속하는 각 변환 윈도우에 대해, 각 채널 오디오 시간-신호의 시간-도메인 부분을 얻도록 역 변환기(18)의 입력에 직접 입력되고, 여기서(도 1에 도시되지 않음) 중첩-가산 프로세스는 이들 시간-도메인 부분들을 조합할 수 있다. 즉, 스펙트럼(46)이 단지 하나의 변환에 속하는 스펙트럼 라인 계수들을 갖는 비-인터리빙된 스펙트럼이면, 역 변환기(18)는 하나의 시간-도메인 부분을 초래하도록 그러한 변환을 겪고, 이러한 시간-도메인 부분의 선행 및 후미 단부들은 예를 들어, 시간-도메인 얼라이싱 취소를 실현하도록 선형 및 연속적인 역 변환들을 역 변환함으로써 얻어진 선형 및 후미 시간-도메인 부분들을 가지고 중찹-가산 프로세스를 겪는다. 하지만, 스펙트럼(46)이 하나보다 많은 연속 변환의 스펙트럼 라인 계수들에 인터리빙하면, 역 변환기(18)는 이와 동일한 것을 역 변환당 하나의 시간-도메인 부분을 얻도록 개별적인 역 변환들을 겪게 하고, 그 중에 한정된 시간 순서에 따라, 이들 시간-도메인 부분들은 그 사이에, 및 다른 스펙트럼 또는 프레임들의 선형 및 연속적인 시간-도메인 부분들에 대해 중첩-가산 프로세스를 겪게 한다.

하지만, 완전함을 위해 추가 처리가 잡음-충진된 스펙트럼 상에서 수행될 수 있다는 것이 주지되어야 한다. 도 1에 도시된 바와 같이, 역 TNS 필터는 잡음-충진된 스펙트럼 상으로의 역 TNS 필터링을 수행할 수 있다. 즉, 현재 프레임 또는 스펙트럼(46)에 대한 TNS 필터 계수를 통해 제어되어, 지금까지 얻어진 스펙트럼은 스펙트럼 방ㅅ향을 따라 선형 필터링을 겪는다.

역 TNS 필터링을 갖거나 갖지 않고, 복소수 스테레오 예측기(24)는 인터-채널 예측의 예측 잔류로서 스펙트럼을 처리할 수 있다. 더 구체적으로, 인터-채널 예측기(24)는 스펙트럼(46) 또는 스케일 인자 대역들(50)의 적어도 서브셋을 예측하기 위해 다른 채널의 스펙트럼적으로 공동-위치된 부분을 이용할 수 있다. 복소수 예측 프로세스는 스케일 인자 대역(50b)에 대한 점선 박스(58)로 도 3에 도시된다. 즉, 데이터 스트림(30)은 예를 들어 스케일 인자 대역들(50) 중 어떤 것이 인터-채널 예측될 수 있는 지와, 그러한 방식으로 예측되지 않을 수 있는 것을 제어하는 인터-채널 예측 파라미터들을 포함할 수 있다. 더욱이, 데이터 스트림(30)에서의 인터-채널 예측 파라미터들은 인터-채널 예측 결과를 얻도록 인터-채널 예측기(24)에 의해 적용된 복소수 인터-채널 예측 인자들을 더 포함할 수 있다. 이들 인자들은 각 스케일 인자 대역, 또는 대안적으로 하나 이상의 스케일 인자 대역들의 각 그룹에 대해 개별적으로 데이터 스트림(30)에 포함될 수 있고, 이로 인해 인터-채널 예측은 활성화되거나, 데이터 스트림(30)에서 활성화되는 것으로 신호 발신된다.

인터-채널 예측의 소스는 도 3에 표시된 바와 같이, 다른 채널의 스펙트럼(48)일 수 있다. 더 정밀하게, 인터-채널 예측의 소스는 스펙트럼(48)의 스펙트럼적으로 공동-위치될 수 있고, 인터-채널 예측될 스케일 인자 대역(50b)에 공동-위치되고, 허상 부분의 추정에 의해 확장될 수 있다. 허상 부분의 추정은 스펙트럼(48) 자체의 스펙트럼적으로 공동-위치된 부분(60)에 기초하여 수행될 수 있고, 및/또는 이전 프레임, 즉 스펙트럼(46)이 속하는 현재 디코딩된 프레임을 바로 선행하는 프레임의 이미 디코딩된 채널들의 다운믹스를 이용할 수 있다. 사실상, 인터-채널 예측기(24)는 도 3에서의 스케일 인자 대역(50b), 방금 기재된 바와 같이 얻어진 예측 신호와 같이 예측된 인터-채널에 스케일 인자 대역들을 추가한다.

이전 설명에서 이미 주지된 바와 같이, 스펙트럼(46)이 속하는 채널은 MS 코딩된 채널일 수 있거나, 스테레오 오디오 신호의 좌측 또는 우측 채널과 같이 스피커 관련 채널일 수 있다. 따라서, 선택적으로 MS 디코더(26)는, 이것이 스펙트럼 라인 또는 스펙트럼(46)마다, 스펙트럼(48)에 대응하는 다른 채널의 스펙트럼적으로 대응하는 스펙트럼 라인들을 이용한 가산 또는 감산을 수행한다는 점에서 선택적으로 인터-채널 예측된 스펙트럼(46)에 MS 디코딩을 겪게 한다. 예를 들어, 도 1에 도시되지 않았지만, 도 3에 도시된 스펙트럼(48)은 스펙트럼(46)이 속하는 채널에 대해 위에서 제기된 설명과 유사한 방식으로 디코더(10)의 부분(34)에 의해 얻어졌고, MS 디코딩 모듈(26)은 MS 디코딩을 수행할 때, 스펙트럼(46 및 48)을 스펙트럼 라인-방식의 가산 또는 스펙트럼 라인 방식의 감산을 겪게 하고, 양쪽 스펙트럼(46 및 48)은 처리 라인 내에서 동일한 스테이지에 있고, 이것은 모두 예를 들어 인터-채널 예측에 의해 방금 얻어진 것, 또는 잡음 충진 또는 역 TNS 필터링에 의해 방금 얻어진 것을 의미한다.

선택적으로, MS 디코딩이 전체 스펙트럼(46)에 범용으로 관련된 방식으로 수행될 수 있거나, 예를 들어, 스케일 인자 대역들(50)의 유닛들에서 데이터 스트림(30)에 의해 개별적으로 활성화가능할 수 있다. 즉, MS 디코딩은 예를 들어, 개별적으로 스펙트로그램들(40 및/또는 42)의 스펙트럼(46 및/또는 48)의 스케일 인자 대역들에 대한 것과 같이 예를 들어, 프레임들 또는 몇몇 더 미세한 스펙트럼 시간 분해능의 유닛들에서 데이터 스트림(30)에서의 각 신호 발신을 이용하여 스위치 온 또는 오프될 수 있고, 양쪽 채널의 스케일 인자 대역들의 동일한 경계들이 한정된다는 것이 가정된다.

도 1에 도시된 바와 같이, 역 TNS 필터(28)에 의한 역 TNS 필터링은 또한 인터-채널 예측(58) 또는 MS 디코더(26)에 의한 MS 디코딩과 같은 임의의 인터-채널 처리 이후에 수행될 수 있다. 인터-채널 처리 앞에, 또는 하류에서의 성능은 데이터 스트림(30)에서의 각 프레임에 대해 또는 몇몇 다른 레벨의 입도(granularity)에서 각 신호 발신을 통해 고정되거나 제어될 수 있다. 역 TNS 필터링이 수행될 때마다, 현재 스펙트럼(46)에 대한 데이터 스트림에 존재하는 각 TNS 필터 계수들은 TNS 필터, 즉 각 역 TNS 필터 모듈(28a 및/또는 28b)에 인바운드된 스펙트럼을 선형으로 필터링하도록 스펙트럼 방향을 따라 이어지는 선형 예측 필터를 제어한다.

따라서, 역 변환기(18)의 입력에 도달하는 스펙트럼(46)은 방금 기재된 추가 처리를 겪을 수 있다. 다시, 상기 설명은, 이들 모든 선택적인 툴들이 동시에 존재하거나 존재하지 않는 방식으로 이해되는 것으로 의미하지 않는다. 이들 툴들은 부분적으로 또는 집합적으로 디코더(10)에 존재할 수 있다.

어떠한 경우에도, 역 변환기의 입력에서의 결과적인 스펙트럼은 채널의 출력 신호의 최종 재구성을 나타내고, 복소수 예측(58)에 대해 기재된 바와 같이, 디코딩될 다음 프레임에 대한 잠재적인 허상 부분 추정에 대한 기초로서 작용하는 현재 프레임에 대한 전술한 다운믹스의 기초를 형성한다. 도 1에서 34를 제외한 요소들이 관련된 것보다 다른 채널을 예측하는 인터-채널에 대한 최종 재구성으로서 추가로 작용할 수 있다.

각 다운믹스는 스펙트럼(48)의 각 최종 버전과 이러한 최종 스펙트럼(46)을 조합함으로써 다운믹스 제공자(31)에 의해 형성된다. 후자의 개체, 즉 스펙트럼(48)의 각 최종 버전은 예측기(24)에서의 복소수 인터-채널 예측에 대한 기초를 형성하였다.

도 4는, 복소수 인터-채널 예측을 이용하는 선택적인 경우에, 이러한 복소수 인터-채널 예측의 소스가 인터-채널 잡음 충진에 대한 소스로서 및 복소수 인터-채널 예측에서의 허상 부분 추정에 대한 소스로서 2배 사용되도록 이전 프레임의 스펙트럼적으로 공동-위치된 스펙트럼 라인들의 다운믹스에 의해 표현되는 한 도 1에 대한 대안을 도시한다. 도 4는 스펙트럼(46)이 속하는 제 1 채널의 디코딩에 속하는 부분(70), 뿐 아니라 스펙트럼(48)을 포함하는 다른 채널의 디코딩에 수반되는 전술한 다른 부분(34)의 내부 구조를 포함하는 디코더(10)를 도시한다. 동일한 도면 부호는 한 편으로 부분(70) 및 다른 한 편으로 34의 내부 요소들에 사용되었다. 알 수 있듯이, 구조는 동일하다. 출력(32)에서, 스테레오 오디오 신호의 하나의 채널은 출력이고, 제 2 디코더 부분(34)의 역 변환기(18)의 출력에서, 스테레오 오디오 신호의 다른 (출력) 채널이 초래되고, 이러한 출력은 도면 부호(74)로 표시된다. 다시, 이전에 기재된 실시예들은 2개보다 많은 채널들의 이용의 경우로 쉽게 전달될 수 있다.

다운믹스 제공기(31)는 양쪽 부분들(70 및 34)에 의해 공동-이용되고, 스펙트로그램들(40 및 42)의 시간적으로 공동-위치된 스펙트럼(48 및 46)을 수신하여, 잠재적으로 각 스펙트럼 라인에서의 합을 다운믹싱된 채널들의 수, 즉 도 4의 경우에 2로 나눔으로써 그로부터 평균을 형성하는 것을 통해 스펙트럼 라인간에 기초하여 이들 스펙트럼을 합산함으로써 이에 기초한 다운믹스를 형성한다. 다운믹스 제공기(31)의 출력에서, 이전 프레임의 다운믹스는 이러한 척도에 의해 초래된다. 스펙트로그램들(40 및 42) 중 어느 하나에서 하나보다 많은 스펙트럼을 포함하는 이전 프레임의 경우에, 다운믹스 제공기(31)가 그러한 경우에 어떻게 동작하는 지에 관한 상이한 가능성들이 존재한다. 예를 들어, 그 경우에, 다운믹스 제공기(31)는 현재 프레임의 후미 변환들의 스펙트럼을 이용할 수 있거나, 스펙트로그램(40 및 42)의 현재 프레임의 모든 스펙트럼 라인 계수들을 인터리빙하는 인터리빙 결과를 이용할 수 있다. 다운믹스 제공기(31)의 출력에 연결된 도 4에 도시된 지연 요소(74)는, 다운믹스 제공기(31)의 출력에 이에 따라 제공된 다운믹스가 이전 프레임(76)의 다운믹스를 형성한다는 것을 도시한다{각각 인터-채널 잡음 충진(56) 및 복소수 예측(58)에 대해 도 3을 참조}. 따라서, 지연 요소(74)의 출력은 한 편으로 디코더 부분들(34 및 70)의 인터-채널 예측기들(24)의 입력들, 및 다른 한 편으로 디코더 부분들(70 및 34)의 잡음 필러들(16)의 입력들에 연결된다.

즉, 도 1에서, 잡음 필러(16)가 인터-채널 잡음 충진에 기초하여 동일한 현재 프레임의 다른 채널의 마지막으로 재구성된 시간적으로 공동-위치된 스펙트럼(48)을 수신하지만, 도 4에서, 인터-채널 잡음 충진은 다운믹스 제공기(31)에 의해 제공된 이전 프레임의 다운믹스에 기초하여 그 대신 수행된다. 인터-채널 잡음 충진이 수행되는 방식은 동일하게 남아있다. 즉, 인터-채널 잡음 필러(16)는 도 1의 경우에, 현재 프레임의 다른 채널의 스펙트럼의 각 스펙트럼으로부터 스펙트럼적으로 공동-위치된 부분을 붙잡고(grabs), 도 4의 경우에 이전 프레임의 다운믹스를 나타내는 이전 프레임으로부터 얻어진 더 크거나 완전히 디코딩된 최종 스펙트럼을 붙잡고, 각 스케일 인자 대역의 스케일 인자에 의해 결정된 목표 잡음 레벨에 따라 스케일링된, 도 3에서의 50d와 같이 잡음 충진될 스케일 인자 대역 내에서의 스펙트럼 라인들에 동일한 "소스" 부분을 가산한다.

오디오 디코더에서 인터-채널 잡음 충진을 기재하는 실실예뜰의 상기 논의의 결론을 내면, "소스" 스펙트럼의 붙잡힌 스펙트럼적으로 또는 시간적으로 공동-위치된 부분을 "목표" 스케일 인자 대역의 스펙트럼 라인들에 가산하기 전에, 특정 사전-처리가 인터-채널 충진의 일반적인 개념으로부터 벗어나지 않고도 "소스" 스펙트럼 라인들에 적용될 수 있다는 것이 당업자에게 명백해야 한다. 특히, 인터-채널 잡음 충진 프로세스의 오디오 품질을 개서하기 위해, 예를 들어 스펙트럼 평탄화(flattening), 또는 경사 제거(tilt removal)와 같은 필터링 동작을, 도 3에서의 50d와 같이 "목표" 스케일 인자 대역에 추가될 "소스" 영역의 스펙트럼 라인들에 적용하는 것이 유리할 수 있다. 마찬가지로, 그리고 크게(완전함 대신) 디코딩된 스펙트럼의 예로서, 전술한 "소스" 부분은 이용가능한 역(즉, 합성) TNS 필터에 의해 아직 필터링되지 않은 스펙트럼으로부터 얻어질 수 있다.

따라서, 상기 실시예들은 인터-채널 잡음 충진의 개념에 관한 것이다. 다음에서, 인터-채널 잡음 충진의 상기 개념이 반-역호환 방식으로 기존의 코덱, 즉 xHE-AAC에 어떻게 구축될 수 있는 지에 대한 가능성이 기재된다. 특히, 이후에, 상기 실시예들의 바람직한 구현이 기재되며, 이에 따라 스테레오 충진 툴은 반-역호환 신호 발신 방식으로 xHE-AAC 기반의 오디오 코덱에 구축된다. 아래에 추가로 기재된 구현의 이용에 의해, 특정 스테레오 시호들에 대해, MPEG-D xHE-AAC(USAC)에 기초한 오디오 코덱에서 2개의 채널들 중 어느 하나에서의 변환 계수들의 스테레오 충진이 실행가능하여, 특히 낮은 비트율에서 특정한 오디오 신호들의 코딩 품질을 개선한다. 스테레오 충진 툴은, 레거시 xHE-AAC 디코더들이 명백한 오디오 에러들 또는 드롭-아웃들(drop-outs) 없이 비트스트림들을 분석 및 디코딩할 수 있도록 반-역호환성으로 신호 발신된다. 이미 위에서 기재된 바와 같이, 오디오 코더가 현재 디코딩된 채널들 중 어느 하나의 제로-양자화된(비-송신된) 계수들을 재구성하기 위해 2개의 스테레오 채널들의 이전에 디코딩된/양자화된 계수들의 조합을 이용할 수 있는 경우 더 양호한 전체 품질이 얻어질 수 있다. 그러므로, 오디오 코더들에서, 특히 xHE-AAC 또는 이에 기초한 코더들에서 스펙트럼 대역 복제(저주파수 채널 계수로부터 고주파수 채널 계수들로) 및 잡음 충진(상관되지 않은 의사 무작위 소스로부터) 외에도 그러한 스테레오 충진(이전 채널 계수로부터 현재 채널 계수들로)을 허용하는 것이 바람직하다.

스테레오 충진을 갖는 코딩된 비트스트림들이 레거시 xHE-AAC 디코더들에 의해 판독되고 분석되도록 하기 위해, 원하는 스테레오 충진 툴은 반-역호환 방식으로 사용될 수 있다: 그 존재는, 레거시 디코더들이 디코딩을 중지 - 또는 심지어 시작하지 않음 -하도록 하지 않아야 한다. xHE-AAC 인프라구조에 의한 비트스트림의 판독성은 또한 업계 채택을 용이하게 할 수 있다.

xHE-AAC 또는 그 잠재적인 도출의 정황에서 스테레오 충진 툴에 대한 반-역호환성에 대한 전술한 바람을 달성하기 위해, 다음의 구현은 스테레오 충진의 기능뿐 아니라 실제로 잡음 충진에 관련된 데이터 스트림에서 구문을 통해 동일한 것을 신호 발신할 수 있는 능력을 수반한다. 스테레오 충진 툴은 상기 설명과 부합하여 작용한다. 공통 윈도우 구성을 갖는 채널 쌍에서, 제로-양자화된 스케일 인자 대역의 계수는, 스테레오 충진 툴이 활성화될 때, 2개의 채널들 중 어느 하나, 바람직하게 우측 채널에서 이전 프레임의 계수들의 합 또는 차이에 의해 재구성된, 잡음 충진에 대한 대안(또는 기재된 바와 같이, 이에 더하여)과 같다. 스테레오 충진은 잡음 충진과 유사하게 수행된다. 신호 발신은 xHE-AAC의 잡음 충진 신호 발신을 통해 이루어진다. 스테레오 충진은 8-비트 잡음 충진 부가 정보에 의해 운반된다. 이것은 실용적인데, 이는 MPEG-D USAC 표준[4]이, 적용될 잡음 레벨이 제로이더라도 모든 8 비트가 송신된다는 것을 언급하기 때문이다. 그러한 상황에서, 잡음-충진 비트들 중 몇몇은 스테레오 충진 툴에 대해 재사용될 수 있다.

레거시 xHE-AAC 디코더들에 의해 분석되고 재생되는 비트스트림에 관한 반-역호환성은 다음과 같이 보장된다. 스테레오 충진은 스테레오 충진 툴에 대한 부가 정보를 포함하는 5개의 비-제로 비트들(전형적으로 잡음 오프셋을 나타냄)이 뒤따르는 제로의 잡음 레벨(즉, 모두 제로의 값을 갖는 처음 3개의 잡음-충진 비트들) 및 손실된 잡음 레벨을 통해 신호 발신된다. 레거시 xHE-AAC 디코더가, 3-비트 잡음 레벨이 제로이면 5-비트 잡음 오프셋의 값을 무시하기 때문에, 스테레오 충진 툴 신호 발신의 존재만이 레거시 디코더에서의 잡음 충진에 영향을 미친다: 잡음 충진은 처음 3비트가 제로이기 때문에 턴 오프(turned off)되고, 디코딩 동작의 나머지는 의도된 대로 실행된다. 특히, 스테레오 충진은 비활성화되는 잡음-충진 프로세스와 같이 동작된다는 점으로 인해 수행되지 않는다. 따라서, 레거시 디코더는 여전히 개선된 비트스트림(30)의 "적절한(graceful)" 디코딩을 제공하는데, 이는 출력 신호를 뮤팅(mute)하거나, 심지어 스위칭 온된 스테레오 출진을 가지고 프레임에 도달할 때 디코딩을 중단할 필요가 업기 때문이다. 사실상, 하지만, 스테레오-충진된 라인 계수들의 정확하게 의도된 재구성을 제공하는 것이 가능하지 않아, 새로운 스테레오 충진 툴을 대략 다룰 수 있는 적절한 디코더에 의한 디코딩과 비교하여 영향을 받은 프레임들에서 저하된 품질을 초래한다. 그럼에도 불구하고, 스테레오 충진 툴이 의도된 대로, 즉 낮은 비트율에서 스테레오 입력 상에서만 사용된다고 가정하면, xHE-AAC 디코더들을 통한 품질은 영향을 받은 프레임들이 다른 명백한 재생 에러들로 인도하거나 뮤팅으로 인해 드롭 아웃되는 경우보다 더 양호해야 한다.

다음에서, 스테레오 충진 툴이 확장으로서 xHE-AAC 코덱에 어떻게 구축될 수 있는 지에 대한 상세한 설명이 제공된다.

표준에 구축될 때, 스테레오 충진 툴은 다음과 같이 기재될 수 있다. 특히, 그러한 스테레오 충진(SF) 툴은 MPEG-H 3D-오디오의 주파수-도메인(FD)에서 새로운 툴을 나타낸다. 상기 논의에 부합하여, 그러한 스테레오 충진 툴의 목적은 [4]에 기재된 표준의 섹션 7.2에 따라 잡음 충진을 통해 이미 달성될 수 있는 것과 유사하게 낮은 비트율에서 MDCT 스펙트럼 계수들의 파라미터적 재구성이다. 하지만, 임의의 FD 채널의 MDCT 스펙트럼 값들을 생성하기 위한 의사 무작위 잡음 소스를 이용하는 잡음 충진과 달리, SF는 또한 이전 프레임의 좌측 및 우측 MDCT 스펙트럼의 다운믹스를 이용하여 채널들의 결합하여 코딩된 스테레오 쌍의 우측 채널의 MDCT 값들을 재구성하도록 이용가능하다. 아래에 설명된 구현에 따라, SF는 레거시 MPEG-D USAC 디코더에 의해 정확히 분석될 수 있는 잡음 충전 부가 정보에 의해 반-역호환가능하게 신호 발신된다.

툴 설명은 다음과 같을 수 있다. SF가 결합-스테레오 FD 프레임에서 활성화될 때, 50d와 같이 우측(제 2) 채널의 빈(즉, 완전히 제로-양자화된) 스케일 인자 대역들의 MDCT 계수들은 이전 프레임(FD인 경우)의 대응하여 디코딩된 좌측 및 우측 채널들의 MDCT 계수들의 합 또는 차이로 대체된다. 레거시 잡음 충진이 제 2 채널에 대해 활성외면, 의사 무작위 값들은 또한 각 계수에 추가된다. 각 스케일 인자 대역의 결과적인 계수들은, 각 대역의 RMS(평균 계수 제곱근)가 그러한 대역의 스케일 인자에 의해 송신된 값에 매칭하도록 스케일링된다. [4]에서의 표준의 섹션 7.3을 참조하자.

몇몇 연산 제약들은 MPEG-D USAC 표준에서 새로운 SF 툴의 이용을 위해 제공될 수 있다. 예를 들어, SF 툴은 공통 FD 채널 쌍의 우측 FD 채널, 즉 common_window==1을 가지고 StereoCoreToolInfo()를 송신하는 채널 쌍 요소에서만 사용하기에 이용가능할 수 있다. 그 외에도, 반-역호환 신호 발신으로 인해, SF 툴은 구문 컨테이너 UsacCoreConfig()에서 noiseFilling==1일 때만 사용하기에 이용가능할 수 있다. 쌍에서의 채널들 중 어느 하나가 LPD core_mode에 있는 경우, SF 툴은 우측 채널이 FD 모드에 있는 경우에도 사용될 수 없을 것이다.

다음의 용어들 및 정의들은 [4]에 기재된 표준의 확장을 더 명확히 기재하기 위해 이후에 이용된다.

특히, 데이터 요소들을 고려하면, 다음의 데이터 요소는 새롭게 도입된다.

stereo_filling SF가 현재 프레임 및 채널에 이용되는 지의 여부를 나타내는 이진 플래그

더욱이, 새로운 헬프(help) 요소들이 도입된다:

noise_offset 제로-양자화된 대역들의 스케일 인자들을 변형하기 위한 잡음-충진 오프셋(섹션 7.2)

noise_level 추가된 스펙트럼 잡음의 진폭을 나타내는 잡음-충진 레벨(섹션 7.2)

downmix_prev[] 이전 프레임의 좌측 및 우측 채널들의 다운믹스(즉, 합 또는 차이)

sf_index[g][sfb] 윈도우 그룹(g) 및 대역(sfb)에 대한 스케일 인자 인덱스(즉, 송신된 정수)

표준의 디코딩 프로세스는 다음의 방식으로 확장된다. 특히, 활성화되는 SF 툴을 이용한 결합-스테레오 코딩된 FD 채널의 디코딩은 다음과 같이 3가지 순차적인 단계들로 실행된다:

먼저, stereo_filling 플래그의 디코딩이 발생한다.

stereo_filling은 독립적인 비트스트림 요소를 나타내지 않고, UsacChannelPairelement()에서 잡음-충진 요소, noise_offset 및 nose_level와, StereoCoreToolInfo()에서 common_window 플래그로부터 도출된다. noiseFilling==0 또는 common_window==0 또는 현재 채널이 요소에서 좌측(제 1) 채널이면, stereo_filling은 0이고, 스테레오 충진 프로세스는 종료한다. 그렇지 않으면,

if ((noiseFilling != 0) && (common_window != 0) && (noise_level == 0)) {

stereo_filling = (noise_offset & 16) / 16;

noise_level = (noise_offset & 14) / 2;

noise_offset = (noise_offset & 1) * 16;

}

else {

stereo_filling = 0;

}

즉, noise_level==0이면, noise_offset은 잡음 충진 데이터의 4비트가 후속하는 stereo_filling 플래그를 포함하고, 이것은 이 후 재배열된다. 이러한 연산이 noise_level 및 noise_offset의 값들을 변경하기 때문에, 섹션 7.2의 잡음 충진 프로세스 이전에 수행될 필요가 있다. 더욱이, 상기 의사-코드는 UsacChannelPairElement()의 좌측(제 1) 채널 또는 임의의 다른 요소에서 실행되지 않는다.

그런 후에, downmix_prev의 계산이 발생한다.

스펙트럼 다운믹스가 스테레오 충진에 사용될 downmix_prev[]는 복소수 스테레오 예측에서의 MDST 스펙트럼 추정에 사용된 drm_re_prev[]외 동일하다(섹션 7.7.2.3). 이것은

- downmix_prev[]의 모든 계수들은, 다운믹싱이 수행되는 프레임 - 즉, 현재 디코딩된 프레임 이전의 프레임 - 및 요소의 임의의 채널들이 core_mode==1(LPD)를 이용하거나, 채널들이 동일하지 않은 변환 길이들(하나의 채널에서 split_transform==1 또는 window_sequence==EIGHT_SHORT_SEQUENCE로의 블록 스위칭) 또는 usaclndependencyFlag==1를 이용하는 경우 제로가 되어야 한다.

- downmix_prev[]의 모든 계수들은, 채널의 변환 길이가 현재 요소에서 마지막 프레임으로부터 현재 프레임으로 변하는 경우(즉, split_transform==0가 선행하는 split_transform==1, 또는 window_sequence !=EIGHT_SHORT_SEQUENCE가 선행하는 window_sequence=EIGHT_SHORT_SEQUENCE, 또는 그 반대로도 가능함) 스테레오 충진 프로세스 동안 제로가 되어야 한다.

- 변환 분할이 이전 또는 현재 프레임의 채널들에 적용되면, downmix_prev[]는 라인간 인터리빙된 스펙트럼 다운믹스를 나타낸다. 세부사항들에 대해 변환 분할 툴을 참조하자.

- 복소수 스테레오 예측이 현재 프레임 및 요소에 이용되지 않으면, pred_dir은 0이다.

그 결과, 이전 다운믹스만이 양쪽 툴들에 대해 한번 계산되어야 하여, 복잡도를 절감한다. 섹션 7.7.2에서 downmix_prev[] 및 dmx_re_prev[] 사이의 유일한 차이점은, 복소수 스테레오 예측이 현재 사용되지 않을 때, 또는 활성이지만 use_prev_frame==0일 때 행위이다. 그 경우에, downmix_prev[]는, dmx_re_prev[]가 복소수 스테레오 예측 디코딩을 위해 필요하지 않으므로 정의되지 않음/제로인 경우에도 섹션 7.7.2.3에 따라 스테레오 충진 디코딩을 위해 계산된다.

그 후에, 빈 스케일 인자 대역들의 스테레오 충진이 수행된다.

stereo_filling==1이면, 다음의 절차는 max_sfb_ste 아래의 모든 초기의 빈 스케일 인자 대역들(sfb[]), 즉 모든 MDCT 라인들이 제로로 양자화된 모든 대역들에서 잡음 충진 프로세스 이후에 수행된다. 먼저, downmix_prev[]에서 주어진 sfb[] 및 대응하는 라인들의 에너지들은 라인 제곱들의 합들을 통해 계산된다. 그런 후에, 각 그룹 윈도우의 스펙트럼에 대해 sfb[]당 라인들의 수를 포함하는 sfbWidth가 주어지면,

if (energy[sfb] < sfbWidth[sfb]) { /* noise level isn't maximum, or band starts below noise-fill region */

facDmx = sqrt((sfbWidth[sfb] - energy[sfb]) / energy_dmx[sfb]);

factor = 0.0;

/* if the previous downmix isn't empty, add the scaled downmix lines such that band reaches unity energy */

for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {

spectrum[window][index] += downmix_prev[window][index] * facDmx;

factor += spectrum[window][index] * spectrum[window][index];

}

if ((factor != sfbWidth[sfb]) && (factor > 0)) { /* unity energy isn't reached, so modify band */

factor = sqrt(sfbWidth[sfb] / (factor + 1e-8));

for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {

spectrum[window][index] *= factor;

}

그런 후에, 스케일 인자들은 섹션 7.3에서와 같이 결과적인 스펙트럼 상에 적용되며, 빈 대역들의 스케일 인자들은 규칙적인 스케일 인자들과 같이 처리된다.

xHE-AAC 표준의 상기 확장에 대한 대안은 암시적인 반-역호환 신호 발신 방법을 이용한다.

xHE-AAC 코드 프레임워크에서의 상기 구현은 stereo_filling에 포함된 새로운 스테레오 충진 툴의 이용을 도 1에 따른 디코더에 신호 발신하기 위해 비트스트림에서 1 비트를 이용하는 접근법을 기재한다. 더 구체적으로, 그러한 신호 발신(이것을 명시적인 반-역호환 신호 발신이라 부르자)은 SF 신호 발신과 독립적으로 사용될 다음의 레거시 비트스트림 데이터 - 여기서 잡음 충진 부가 정보 -를 허용한다. 본 실시예에서, 잡음 충진 데이터는 스테레오 충진 정보에 의존하지 않고, 그 반대로도 그러하다. 예를 들어, 전-제로들(all-zeros)(noise_level=noise_offset=0)로 구성된 잡음 충진 데이터는 송신될 수 있는 한편, stereo_filling은 임의의 가능한 값(이진 플래그임, 0 또는 1)을 신호 발신할 수 있다.

레거시와 본 발명의 비트스트림 데이터 사이의 엄격한 독립성이 요구되지 않고 본 발명의 신호가 이진 결정인 경우들에서, 신호 발신 비트의 명시적인 송신이 회피될 수 있고, 상기 이진 결정은 명시적인 반-역호환 신호 발신이라 불릴 수 있는 것의 존재 또는 부재(absence)에 의해 신호 발신될 수 있다. 일례로 상기 실시예를 다시 취하면, 스테레오 충진의 이용은 새로운 신호 발신을 간단히 이용함으로써 송신될 수 있다: noise_level이 제로이고, 동시에 noise_offset이 제로가 아니면, stereo_filling 플래그는 1과 동일하게 설정된다. noise_level 및 noise_offset 모두가 제로가 아니면, stereo_filling은 0이다. 레거시 잡음-충진 신호에 대한 이러한 명시적인 신호의 종속은, noise_level 및 noise_offset 모두가 제로일 때 발생한다. 이 경우에, 레거시 또는 새로운 SF 명시적인 신호 발신이 사용되는 지의 여부가 불명확하다. 그러한 모호성을 피하기 위해, stereo_filling의 값은 미리 정의되어야 한다. 본 예에서, 잡음 충진 데이터가 전-제로들로 구성되는 경우 stereo_filling=0을 정의하는 것이 적절한데, 이는 이것이 잡음 충진이 프레임에 적용되지 않을 때 스테레오 충진 성능 신호를 갖지 않는 레거시 인코더들이기 때문이다.

명시적인 반-역호환 신호 발신의 경우에 해결되는 것으로 남아있는 문제점은 stereo_filling==1 및 잡음 충진이 없음을 동시에 어떻게 신호 발신하는 지이다. 설명된 바와 같이, 잡음 충진 데이터는 전-제로가 아니어야 하고, 제로의 잡음 크기가 요청되는 경우, noise_level((전술한 바와 같이 (noise_offset & 14)/2)은 0이어야 한다. 이것은 해법으로서 0보다 큰 noise_offset((전술한 바와 같이 (noise_offset & 1)*16)만을 남긴다. 하지만, noise_offset은, noise_level이 제로인 경우에도 스케일 인자들을 적용할 때 스테레오 충진의 경우에 고려된다. 다행히, 인코더는, 제로의 noise_offset이 영향을 받는 스케일 인자들을 변경함으로써 송신가능하지 않을 수 있어서, 비트스트림 기록시, noise_offset을 통해 디코더에서 이루어지지 않은 오프셋을 포함한다는 점을 보상할 수 있다. 이것은 스케일 인자 데이터 속도에서의 잠재적인 증가의 비용으로 상기 실시예에서 상기 명시적인 신호 발신을 허용한다. 따라서, 상기 설명의 의사-코드에서의 스테레오 충진의 신호 발신은 1 비트 대신에 2비트(4 값들)를 갖는 noise_offset을 송신하기 위해 절감된 SF 신호 발신 비트를 이용하여 다음과 같이 변화될 수 있다:

if ((noiseFilling) && (common_window) && (noise_level == 0) && (noise_offset > 0)) {

stereo_filling = 1;

noise_level = (noise_offset & 28) / 4;

noise_offset = (noise_offset & 3) * 8;

}

else {

stereo_filling = 0;

}

완전함을 위해, 도 5는 본 출원의 실시예에 따른 파라미터적 오디오 인코더를 도시한다. 먼저, 도면 부호(100)를 이용하여 표시되는 도 5의 인코더는 도 1의 출력(32)에서 재구성된 오디오 신호의 원래의 비-왜곡된 버전의 송신을 수행하기 위한 변환기(102)를 포함한다. 도 2에 대해 기재된 바와 같이, 랩형 변환은 프레임들(44)의 유닛들에서 대응하는 변환 윈도우들을 가지고 상이한 변환 길이들 사이의 스위칭을 통해 이용될 수 있다. 상이한 변환 길이 및 대응하는 변환 윈도우들은 도면 부호(104)를 이용하여 도 2에 도시된다. 도 1과 유사한 방식으로, 도 5는 다중 채널 오디오 신호의 하나의 채널을 인코딩할 책임이 있는 디코더(100)의 부분에 집중하는 반면, 디코더(100)의 다른 채널 도메인 부분은 일반적으로 도 5에서 도면 부호(106)를 이용하여 표시된다.

변환기(102)의 출력에서, 스펙트럼 라인들 및 스케일 인자들은 양자화되지 않고, 실질적으로 코딩 손실이 아직 발생하지 않았다. 변환기(102)에 의해 출력된 스펙트로그램은 변환기(102)에 의해 출력된 스펙트로그램의 스펙트럼 라인들을 양자화하도록 구성되는 양자화기(108)에 들어가고, 이것은 스펙트럼마다 스케일 인자 대역들의 예비 스케일 인자들을 설정하고 이용한다. 즉, 양자화기(108)의 출력에서, 예비 스케일 인자들 및 대응하는 스펙트럼 라인 계수들을 초래하고, 잡음 필러(16'), 선택적인 역 TNS 필터(28'), 인터-채널 예측기(24'), MS 디코더(26'), 및 역 TNS 필터(28b')의 시퀀스는 다운믹스 제공자의 입력에서 디코더 측에서 얻어질 수 있는 것처럼 현재 스펙트럼의 재구성된 최종 버전을 얻을 수 있는 능력을 도 5의 인코더(100)에 제공하도록 순차적으로 연결된다(도 1을 참조). 인터-채널 예측(24') 및/또는 이전 프레임의 다운믹스를 이용하여 인터-채널 잡음을 형성하는 버전에서의 인터-채널 잡음 충진을 이용하는 경우에, 인코더(100)는 다중 채널 오디오 신호의 채널들의 스펙트럼의 재구성된 최종 버전들의 다운믹스를 형성하도록 다운믹스 제공기(31')를 또한 포함한다. 물론, 계산들을 절감하기 위해, 최종 대신에, 채널들의 상기 스펙트럼의 원래의 양자화되지 않은 버전들은 다운믹스의 형성에서 다운믹스 제공기(31')에 의해 이용될 수 있다.

인코더(100)는 허상 부분 추정을 이용하여 ㅇ니터-채널 예측을 수행하는 전술한 가능한 버전과 같이 인터-프레임 스펙트럼 예측을 수행하기 위해, 및/또는 속도 제어를 수행하기 위해, 즉 인코더(100)에 의해 데이터 스트림(30)에 마지막으로 코딩된 가능한 파라미터들이 속도/왜곡 최적의 관점에서 설정된다는 것을 속도 제어 루프 내에서 결정하기 위해, 스펙트럼의 이용가능한 재구성된 최종 버전에 대한 정보를 이용할 수 있다.

예를 들어, 인코더(100)의 그러한 예측 루프 및/또는 속도 제어 루프에서 의 하나의 그러한 파라미터 세트는 식별기(12')에 의해 식별된 각 제로-양자화된 스케일 인자 대역에 대해, 양자화기(108)에 의해 단지 예비적으로 설정된 각 스케일 인자 대역의 스케일 인자이다. 인코더(100)의 예측 및/또는 속도 제어 루프에서, 제로-양자화된 스케일 인자 대역들의 스케일 인자는 전술한 바와 같이, 대응하는 프레임에 대한 데이터 스트림에 의해 또한 디코더 측으로 운반된 선택적인 변형 파라미-와 함께 전술한 목표 잡음 레벨을 결정하도록 몇몇 음향 심리학적으로 또는 속도/왜곡 최적의 관점에서 설정된다. 이러한 스케일 인자가, 이것이 속하는 스펙트럼의 스펙트럼 라인들 및 채널(즉, 처음에 기재된 바와 같이, "목표" 스펙트럼)만을 이용하여 계산될 수 있거나, 대안적으로, "목표" 채널 스펙트럼의 스펙트럼 라인들 및, 이에 더하여 다운믹스 제공기(31')로부터 얻어진 이전 프레임(즉, 처음에 도입된 바와 같이, "소스" 스펙트럼)으로부터 다른 채널 스펙트럼 또는 다운믹스 스펙트럼의 스펙트럼 라인들을 이용하여 결정될 수 있다. 특히, 목표 잡음 레벨을 안정화하기 위해, 그리고 인터-채널 잡음 충진이 적용되는 디코딩된 오디오 채널들에서 시간 레벨 요동들(fluctuations)을 감소하기 위해, 목표 스케일 인자는 "목표" 스케일 인자 대역에서의 스펙트럼 라인들의 에너지 척도와, 대응하는 "소스" 영역에서의 공동-위치된 스펙트럼 라인들의 에너지 척도 사이의 관계를 이용하여 계산될 수 있다. 마지막으로, 위에서 주지된 바와 같이, 이러한 "소스" 영역은 다른 채널 또는 이전 프레임의 다운믹스의 재구성된 최종 버전으로부터 유래할 수 있거나, 인코더 복잡도가 감소되는 경우, 이전 프레임의 스펙트럼의 원래의 양자화되지 않은 버전들의 다운믹스 또는 동일한 다른 채널의 원래의 양자화되지 않은 버전으로부터 유래할 수 있다

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리를 이용하여 수행될 수 있는데, 이러한 디지털 저장 매체는 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖고, 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은 기계 판독가능한 캐리어 상에 저장된, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그러므로, 본 발명의 방법들의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 리코딩되게 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 리코딩된 매체는 일반적으로 실체적(tangible)이고 및/또는 비-과도적이다.

그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스들 또는 데이터 스트림은 데이터 통신 연결부를 통해, 예를 들어, 인터넷을 통해, 전송되도록 구성될 수 있다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 프로그래밍되고, 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 논리 디바이스를 포함한다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전달하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.

몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 전계 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.

전술한 실시예들은 본 발명의 원리들을 위해 단지 예시적이다. 본 명세서에 기재된 세부사항들 및 배치들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.

인용 문헌들

[1] Internet Engineering Task Force (IETF), RFC 6716, "Definition of the Opus Audio Codec," Int. Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716.

[2] International Organization for Standardization, ISO/IEC 14496-3:2009, "Information Technology - Coding of audio-visual objects - Part 3: Audio," Geneva, Switzerland, Aug. 2009.

[3] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132^ndAESConvention,Budapest,Hungary,Apr.2012.AlsotoappearintheJournaloftheAES,2013.

[4] International Organization for Standardization, ISO/IEC 23003-3:2012, "Information Technology - MPEG audio - Part 3: Unified speech and audio coding," Geneva, Jan. 2012.

Claims

프로그래밍 가능한 컴퓨터, 또는 프로그래밍 가능한 논리 디바이스, 또는 마이크로 프로세서를 포함하는, 파라미터적(parametric) 주파수-도메인 오디오 디코더로서,
상기 컴퓨터, 또는 상기 논리 디바이스, 또는 상기 마이크로 프로세서는:
다중 채널 오디오 신호의 현재 프레임의 제 1 채널의 스펙트럼의 제 1 스케일 인자 대역들 및 제 2 스케일 인자 대역들을 식별(12)하고 ─여기서, 상기 제 1 스케일 인자 대역들의 모든 스펙트럼 라인들은 제로(zero)로 양자화되고, 상기 제 2 스케일 인자 대역들의 적어도 하나의 스펙트럼 라인들은 논-제로(non-zero)로 양자화됨─;
상기 제 1 스케일 인자 대역들 중 미리 결정된 스케일 인자 대역의 스케일 인자를 이용하여 잡음의 레벨을 조정하면서, 상기 미리 결정된 스케일 인자 대역 내의 상기 스펙트럼 라인들을 상기 잡음으로 충진(16)하고 ─여기서, 상기 잡음은 상기 다중 채널 오디오 신호의 이전 프레임의 다운믹스의 스펙트럼 라인을 이용하여 생성됨─;
상기 제 2 스케일 인자 대역들의 스케일 인자들을 이용하여 상기 제 2 스케일 인자 대역들의 상기 스펙트럼 라인들을 역양자화(14)하고;
상기 다중 채널 오디오 신호의 상기 제 1 채널의 시간 도메인 부분을 얻도록, 상기 제 1 스케일 인자 대역들 및 상기 제 2 스케일 인자 대역들로부터 얻은 상기 스펙트럼을 역 변환(18)하도록 ─여기서, 상기 제 1 스케일 인자 대역들은 상기 제 1 스케일 인자 대역들의 상기 스케일 인자를 이용하여 상기 레벨이 조정된 잡음으로 충진되고, 상기 제 2 스케일 인자 대역들은 상기 제 2 스케일 인자 대역들의 상기 스케일 인자들을 이용하여 역양자화된 것임─
구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 1항에 있어서,
충진시,
상기 미리 결정된 스케일 인자 대역의 상기 스케일 인자를 이용하여 상기 이전 프레임의 상기 다운믹스의 스펙트럼의 공동-위치된 부분의 레벨을 조정하고 ─여기서, 상기 이전 프레임은 상기 미리 결정된 스케일 인자 대역에 대하여 스펙트럼적으로 공동-위치됨─,
조정된 레벨을 갖는 상기 공동-위치된 부분을 상기 미리 결정된 스케일 인자 대역에 추가하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 2항에 있어서,
인터-채널(inter-channel) 예측을 얻기 위해 상기 현재 프레임의 다른 채널 또는 다운믹스로부터 상기 스케일 인자 대역들의 서브세트를 예측하고, 상기 잡음으로 충진된 상기 미리 결정된 스케일 인자 대역을 이용하도록 추가로 구성되고,
상기 제 2 스케일 인자 대역들은 상기 스펙트럼을 얻기 위해 상기 인터-채널 예측의 예측 잔류물(residual)로서 상기 제 2 스케일 인자 대역들의 상기 스케일 인자들을 이용하여 역양자화되는,
파라미터적 주파수-도메인 오디오 디코더.
제 3항에 있어서,
상기 스케일 인자 대역들의 상기 서브세트를 예측할 시, 상기 이전 프레임의 상기 다운믹스의 상기 스펙트럼을 이용하여 상기 현재 프레임의 상기 다른 채널 또는 다운믹스의 허상(imaginary) 부분 추정을 수행하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 1항에 있어서,
상기 제 1 채널 및 다른 채널은 MS 코딩을 겪고, 상기 파라미터적 주파수-도메인 오디오 디코더는 상기 스펙트럼에 MS 코딩을 겪게 하도록 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 1항에 있어서,
현재 추출된 스케일 인자의 스펙트럼 이웃에서의 미리 추출된 스케일 인자들에 따라 컨텍스트 결정(context determination)을 갖는 컨텍스트-적응형(context_adaptive) 엔트로피 디코딩을 이용하여, 및/또는 상기 현재 추출된 스케일 인자의 스펙트럼 이웃에서의 미리 추출된 스케일 인자들에 따라 스펙트럼 예측을 갖는 예측 디코딩을 이용하여 데이터 스트림으로부터 상기 제 1 및 제 2 스케일 인자 대역들의 상기 스케일 인자들을 순차적으로 추출하도록 추가로 구성되고,
상기 스케일 인자들은 상기 제 1 및 제 2 스케일 인자 대역들 중에서 스펙트럼 순서에 따라 스펙트럼적으로 배열되는,
파라미터적 주파수-도메인 오디오 디코더.
제 1항에 있어서,
상기 잡음이 의사 무작위(pseudorandom) 또는 무작위 잡음을 이용하여 추가로 생성되도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 7항에 있어서,
상기 현재 프레임의 데이터 스트림에서 신호 발신된(signaled) 잡음 파라미터에 따라, 상기 제 1 스케일 인자 대역들에 대해 상기 의사 무작위 또는 무작위 잡음의 레벨을 동일하게 조정하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 1항에 있어서,
상기 현재 프레임에 대한 데이터 스트림에서 신호 발신된 변형 파라미터(modifying parameter)를 이용하여 상기 제 2 스케일 인자 대역들의 상기 스케일 인자들에 대한 상기 제 1 스케일 인자 대역들의 상기 스케일 인자들을 동일하게 변형하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
프로그래밍 가능한 컴퓨터, 또는 프로그래밍 가능한 논리 디바이스, 또는 마이크로 프로세서를 포함하는, 파라미터적 주파수-도메인 오디오 인코더로서,
상기 컴퓨터, 또는 상기 논리 디바이스, 또는 상기 마이크로 프로세서는:
스펙트럼 내에서 스케일 인자 대역들의 예비(preliminary) 스케일 인자들을 이용하여 다중 채널 오디오 신호의 현재 프레임의 제 1 채널의 스펙트럼의 스펙트럼 라인들을 양자화하고;
상기 스펙트럼의 제 1 스케일 인자 대역들 및 제 2 스케일 인자 대역들을 식별하고 ─여기서, 상기 제 1 스케일 인자 대역들의 모든 스펙트럼 라인들은 제로(zero)로 양자화되고, 상기 제 2 스케일 인자 대역들의 적어도 하나의 스펙트럼 라인들은 논-제로(non-zero)로 양자화됨─;
예측 및/또는 속도(rate) 제어 루프 내에서, 미리 결정된 스케일 인자 대역의 실제 스케일 인자를 이용하여 잡음의 레벨을 조정하면서, 상기 제 1 스케일 인자 대역들 중 미리 결정된 스케일 인자 대역 내의 상기 스펙트럼 라인들을 상기 잡음으로 충진하고 ─여기서, 상기 잡음은 상기 다중 채널 오디오 신호의 이전 프레임의 다운믹스의 스펙트럼 라인을 이용하여 생성됨─;
상기 예비 스케일 인자 대신에 상기 미리 결정된 스케일 인자 대역의 상기 실제 스케일 인자를 신호 발신하도록
구성된,
파라미터적 주파수-도메인 오디오 인코더.
제 10항에 있어서,
상기 미리 결정된 스케일 인자 대역 내에서 상기 제 1 채널의 상기 스펙트럼의 상기 스펙트럼 라인들의 양자화되지 않은 버전의 레벨에 기초하여, 그리고 추가적으로 상기 다중 채널 오디오 신호의 상기 이전 프레임의 상기 다운믹스의 상기 스펙트럼 라인들, 또는 상기 다중 채널 오디오 신호의 상기 현재 프레임의 다른 채널의 스펙트럼 라인들에 기초하여 상기 미리 결정된 스케일 인자 대역에 대한 상기 실제 스케일 인자를 계산하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 인코더.
프로그래밍 가능한 컴퓨터, 또는 프로그래밍 가능한 논리 디바이스, 또는 마이크로 프로세서를 포함하는, 파라미터적 주파수-도메인 오디오 디코더로서,
상기 컴퓨터, 또는 상기 논리 디바이스, 또는 상기 마이크로 프로세서는:
다중 채널 오디오 신호의 현재 프레임의 제 1 채널의 스펙트럼의 제 1 스케일 인자 대역들 및 제 2 스케일 인자 대역들을 식별(12)하고 ─여기서, 상기 제 1 스케일 인자 대역들의 모든 스펙트럼 라인들은 제로(zero)로 양자화되고, 상기 제 2 스케일 인자 대역들의 적어도 하나의 스펙트럼 라인들은 논-제로(non-zero)로 양자화됨─;
상기 제 1 스케일 인자 대역들 중 미리 결정된 스케일 인자 대역의 스케일 인자를 이용하여 잡음의 레벨을 조정하면서, 상기 미리 결정된 스케일 인자 대역 내의 상기 스펙트럼 라인들을 충진(16)하고 ─여기서, 상기 잡음은 상기 다중 채널 오디오 신호의 상기 현재 프레임의 다른 채널의 스펙트럼 라인들을 이용하여 생성됨─;
상기 제 2 스케일 인자 대역들의 스케일 인자들을 이용하여 상기 제 2 스케일 인자 대역들의 상기 스펙트럼 라인들을 역양자화하고(14);
상기 다중 채널 오디오 신호의 상기 제 1 채널의 시간 도메인 부분을 얻도록, 상기 제 1 스케일 인자 대역들 및 상기 제 2 스케일 인자 대역들로부터 얻은 상기 스펙트럼을 역 변환(18)하도록 ─여기서, 상기 제 1 스케일 인자 대역들은 상기 제 1 스케일 인자 대역들의 스케일 인자를 이용하여 상기 레벨이 조정된 잡음으로 충진되고, 상기 제 2 스케일 인자 대역들은 상기 제 2 스케일 인자 대역들의 상기 스케일 인자들을 이용하여 역양자화된 것임─
구성되고,
충진시,
상기 미리 결정된 스케일 인자 대역의 상기 스케일 인자를 이용하여 이전 프레임의 다운믹스의 스펙트럼의 공동-위치된 부분의 레벨을 조정하고 ─여기서, 상기 이전 프레임은 상기 미리 결정된 스케일 인자 대역에 대하여 스펙트럼적으로 공동-위치됨─,
조정된 레벨을 갖는 상기 공동-위치된 부분을 상기 미리 결정된 스케일 인자 대역에 추가하도록 추가로 구성된,
파라미터적 주파수-도메인 오디오 디코더.
제 12항에 있어서,
인터-채널 예측을 얻기 위해 상기 현재 프레임의 상기 다른 채널 또는 다운믹스로부터 상기 스케일 인자 대역들의 서브세트를 예측하고, 상기 잡음으로 충진된 상기 미리 결정된 스케일 인자 대역을 이용하도록 추가로 구성되고,
상기 제 2 스케일 인자 대역들은 상기 스펙트럼을 얻기 위해 상기 인터-채널 예측의 예측 잔류물로서 상기 제 2 스케일 인자 대역들의 상기 스케일 인자들을 이용하여 역양자화되는,
파라미터적 주파수-도메인 오디오 디코더.
제 13항에 있어서,
상기 스케일 인자 대역들의 상기 서브세트를 예측할 시, 상기 이전 프레임의 상기 다운믹스의 상기 스펙트럼을 이용하여 상기 현재 프레임의 상기 다른 채널 또는 다운믹스의 허상 부분 추정을 수행하도록 추가로 구성되는,
파라미터적 주파수-도메인 오디오 디코더.
제 13항에 있어서, 상기 제 1 채널 및 상기 다른 채널은 MS 코딩을 겪고, 상기 파라미터적 주파수-도메인 오디오 디코더는 상기 스펙트럼에 MS 코딩을 겪게 하도록 구성되는,
파라미터적 주파수-도메인 오디오 디코더.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제