KR101819401B1

KR101819401B1 - 변환 길이 스위칭을 지원하는 주파수 도메인 오디오 코딩

Info

Publication number: KR101819401B1
Application number: KR1020167004298A
Authority: KR
Inventors: 사샤 딕; 크리스티안 헴리히; 안드레아스 홀저
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2018-01-16
Also published as: EP4369337A2; JP6911080B2; EP3025339A1; HK1254315A1; MX357694B; ZA201601115B; EP3025339B1; PL3025339T3; PL3312836T3; CA2918849A1; EP4369337A3; JP7311940B2; CN105593934B; EP4191581B1; ES2650747T3; PT3961621T; CN105593934A; MX2016000913A; JP2018055117A; US10984809B2

Abstract

다음에 의해: 어떤 변환 길이가 실제로 적용되는지에 관한 프레임들에 대한 신호화 시그널링과 관계없이 인터리빙 방식으로 각각의 프레임의 주파수 도메인 계수들이 송신되고, 추가로 주파수 도메인 계수 추출 및 스케일 팩터 추출이 신호화와 독립적으로 작동하는 것에 의해, 주파수 도메인 오디오 코덱에 하위 호환성 있는 방식으로 특정 변환 길이를 추가로 지원하는 능력이 제공된다. 이러한 조치에 의해, 신호화에 민감하지 않은 구형 주파수 도메인 오디오 코더들/디코더들이 그럼에도 오류들 없이 그리고 적정한 품질을 재생하여 동작할 수 있을 것이다. 동시에, 추가 변환 길이를 지원할 수 있는 주파수 도메인 오디오 코더들/디코더들은 하위 호환성에도 불구하고 훨씬 더 양호한 품질을 제공할 것이다. 더 이전의 디코더들에 대해 투명한 방식으로의 주파수 도메인 계수들의 코딩으로 인한 코딩 효율성 페널티들에 관한 한, 이는 인터리빙으로 인해 비교적 중요치 않은 특징이다.

Description

변환 길이 스위칭을 지원하는 주파수 도메인 오디오 코딩{Frequency-Domain Audio Coding Supporting Transform Length Switching}

본 출원은 변환 길이 스위칭을 지원하는 주파수 도메인 오디오 코딩에 관한 것이다.

IETF의 Opus/Celt 코덱[1], MPEG-4(HE-aa)C[2] 또는 특히, MPEG-D xHE-AAC(USAC)[3]와 같은 최신 주파수 도메인 음성/오디오 코딩 시스템들은 신호의 시간적 정상성에 따라 1회의 긴 변환― 긴 블록 ― 또는 8개의 순차적 짧은 변환들― 짧은 블록들 ―을 사용하여 오디오 프레임들을 코딩하는 수단을 제공한다.

비 또는 많은 청중의 박수와 같은 특정 오디오 신호들의 경우, 길지도 짧지도 않은 블록 코딩이 낮은 비트레이트들로 만족스러운 품질을 산출한다. 이는 이러한 레코딩들에서 두드러진 트랜션트(transient)들의 밀도로 설명될 수 있는데; 긴 블록들만의 코딩은 프리 에코(pre-echo)로도 또한 알려진 빈번하고 잘 들리는 시간 지연(time-smearing)의 코딩 에러를 야기할 수 있는 반면, 짧은 블록들만의 코딩은 일반적으로, 스펙트럼 홀들로 이어지는 증가된 데이터 오버헤드로 인해 비효율적이다.

이에 따라, 이제 개요가 서술되는 종류들의 오디오 신호들에도 또한 적합한 변환 길이들을 지원하는 주파수 도메인 오디오 코딩 개념을 바로 쓸 수 있도록 갖는 것이 유리할 것이다. 물론, 특히, 특정 종류의 오디오 신호에 적합한 특정한 원하는 변환 길이를 포괄하는 한 세트의 변환 길이들 사이의 스위칭을 지원하는 새로운 주파수 도메인 오디오 코덱을 개발하는 것이 실현 가능할 것이다. 그러나 시장에서 채택되는 새로운 주파수 도메인 오디오 코덱을 얻는 것은 쉬운 작업이 아니다. 잘 알려진 코덱들이 이미 이용 가능하며 빈번하게 사용된다. 이에 따라, 기존의 주파수 도메인 오디오 코덱들이 원하는 새로운 변환 길이를 추가로 지원하는 식으로 확장될 수 있게 하지만, 그럼에도, 기존의 코더들 및 디코더들과의 하위 호환성을 유지하는 개념을 바로 쓸 수 있도록 가질 수 있는 것이 유리할 것이다.

이에 따라, 기존의 주파수 도메인 오디오 코덱들이 이러한 새로운 변환 길이를 또한 포함하는 변환 길이들 사이에 스위칭하도록 추가 변환 길이의 지원을 향해 하위 호환성 있는 방식으로 확장될 수 있게 하는 이러한 개념을 제공하는 것이 본 발명의 과제이다.

이러한 과제는 여기 첨부된 독립 청구항들의 요지에 의해 달성된다.

본 발명은 어떤 변환 길이가 실제로 적용되는지에 관한 프레임들에 대한 신호화 시그널링과 관계없이 인터리빙 방식으로 각각의 프레임의 주파수 도메인 계수들이 송신될 때, 그리고 추가로 주파수 도메인 계수 추출 및 스케일 팩터 추출이 신호화와 독립적으로 작동할 때, 주파수 도메인 오디오 코덱에 하위 호환성 있는 방식으로 특정 변환 길이를 추가로 지원하는 능력이 제공될 수 있다는 발견을 기반으로 한다. 이러한 조치에 의해, 신호화에 민감하지 않은 구형 주파수 도메인 오디오 코더들/디코더들이 그럼에도 오류들 없이 그리고 적정한 품질을 재생하여 동작할 수 있을 것이다. 동시에, 추가로 지원되는 변환 길이로/로부터의 스위칭에 응답하는 주파수 도메인 오디오 코더들/디코더들은 하위 호환성에도 불구하고 훨씬 더 양호한 품질을 달성할 것이다. 더 이전의 디코더들에 대해 투명한 방식으로의 주파수 도메인 계수들의 코딩으로 인한 코딩 효율성 페널티들에 관한 한, 이는 인터리빙으로 인해 비교적 중요치 않은 특징이다.

본 출원의 유리한 구현들이 종속 청구항들의 대상이다.

특히, 본 출원의 선호되는 실시예들은 다음 중의 도면들에 관해 아래에 설명된다.
도 1은 한 실시예에 따른 주파수 도메인 오디오 디코더의 개략적인 블록도를 보여준다.
도 2는 도 1의 역변환기의 기능을 나타내는 개략도를 보여준다.
도 3은 한 실시예에 따라 업스트림 쪽으로의 도 2의 역 TNS 필터링 프로세스의 가능한 변위를 나타내는 개략도를 보여준다.
도 4는 한 실시예에 따라 USAC에서 긴 정지-시작 윈도우에 대해 변환 분할을 사용할 때 윈도우들을 선택할 가능성을 보여준다.
도 5는 한 실시예에 따른 주파수 도메인 오디오 인코더의 블록도를 보여준다.

도 1은 본 출원의 한 실시예에 따라 변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더를 보여준다. 도 1의 주파수 도메인 오디오 디코더는 일반적으로 참조 부호(10)를 사용하여 표시되며, 주파수 도메인 계수 추출기(12), 스케일링 팩터 추출기(14), 역변환기(16) 및 결합기(18)를 포함한다. 이들의 입력에서, 주파수 도메인 계수 추출기 및 스케일링 팩터 추출기(12, 14)가 인바운드 데이터 스트림(20)에 액세스한다. 주파수 도메인 계수 추출기(12) 및 스케일링 팩터 추출기(14)의 출력들이 역변환기(16)의 각각의 입력들에 접속된다. 역변환기(16)의 출력은 결국 결합기(18)의 입력에 접속된다. 결합기(18)는 인코더(10)의 출력(22)에서 재구성된 오디오 신호를 출력한다.

주파수 도메인 계수 추출기(12)는 데이터 스트림(20)으로부터 오디오 신호의 프레임들(26)의 주파수 도메인 계수들(24)을 추출하도록 구성된다. 주파수 도메인 계수들(24)은 MDCT 계수들일 수도 있고 또는 다른 중복(lapped) 변환과 같은 다른 어떤 변환에 속할 수도 있다. 아래 더 설명되는 방식에서, 특정 프레임(26)에 속하는 주파수 도메인 계수들(24)은 각각의 프레임(26) 내의 오디오 신호의 스펙트럼을 변화하는 스펙트럼-시간 분해능으로 기술한다. 프레임들(26)은 오디오 신호가 시간상 순차적으로 세분되는 시간 부분들을 나타낸다. 모든 프레임들의 모든 주파수 도메인 계수들(24)을 함께 놓으면, 이는 오디오 신호의 스펙트럼도(28)를 나타낸다. 프레임들(26)은 예를 들어, 동일한 길이일 수도 있다. 시간에 따라 변화하는 오디오 신호의 오디오 콘텐츠의 종류로 인해, 예를 들어, 각각의 프레임(26)의 시간 길이에 걸친, 즉 오디오 신호의 이 프레임(26) 내의 샘플 값들뿐만 아니라 각각의 프레임 선행하고 이어지는 시간 도메인 샘플들도 수반하는, 예를 들어 일정한 변환 길이를 갖는 변환들을 사용하여 각각의 프레임(26)에 대한 스펙트럼을 연속적인 스펙트럼-시간 분해능으로 기술하는 것이 불리할 수도 있다. 예를 들어, 각각의 프레임의 스펙트럼을 주파수 도메인 계수들(24)의 형태로 손실 있게 송신하는 것으로부터 프리 에코 아티팩트들이 발생할 수 있다. 이에 따라, 아래 추가로 개요가 설명되는 방식에서, 각각의 프레임(26)의 주파수 도메인 계수들(24)은 이 프레임(26) 내의 오디오 신호의 스펙트럼을 서로 다른 변환 길이들 사이의 스위칭에 의해 스위칭 가능한 스펙트럼-시간 분해능으로 기술한다. 그러나 주파수 도메인 계수 추출기(12)에 관한 한, 후자의 상황은 주파수 도메인 계수 추출기(12)에 대해 투명하다. 주파수 도메인 계수 추출기(12)는 방금 언급한 프레임들(26)에 대한 서로 다른 스펙트럼-시간 분해능들 사이의 스위칭을 시그널링하는 임의의 신호화와 독립적으로 동작한다.

주파수 도메인 계수 추출기(12)는 데이터 스트림(20)으로부터 주파수 도메인 계수들(24)을 추출하기 위해 엔트로피 코딩을 사용할 수도 있다. 예를 들어, 주파수 도메인 계수 추출기는 각각의 주파수 도메인 계수가 속하는 프레임(26)의 앞서 언급한 신호화 시그널링 스펙트럼-시간 분해능과 관계없이 주파수 도메인 계수들(24) 각각에 동일한 콘텍스트를 할당하여, 데이터 스트림(20)으로부터 주파수 도메인 계수들(24)을 추출하기 위해 가변 콘텍스트 산술 디코딩과 같은 콘텍스트 기반 엔트로피 디코딩을 사용할 수도 있다. 대안으로 그리고 제 2 예로서, 추출기(12)는 프레임(26)의 분해능을 특정하는 상기 신호화와 관계없이 허프만(Huffman) 디코딩을 사용하여 한 세트의 허프만 코드워드들을 정의할 수도 있다.

주파수 도메인 계수들(24)이 스펙트럼도(28)를 기술하는 방식에 대해 서로 다른 가능성들이 존재한다. 예를 들어, 주파수 도메인 계수들(24)은 단지 일부 예측 잔차를 나타낼 뿐일 수도 있다. 예를 들어, 주파수 도메인 계수들은 적어도 부분적으로는, 대응하는 오디오 채널을 나타내는 다른 오디오 신호로부터의 스테레오 예측 또는 신호 스펙트럼도(28)가 속하는 다채널 오디오 신호로부터의 다운믹스에 의해 얻어진 예측의 잔차를 나타낼 수도 있다. 예측 잔차에 대해 추가로 또는 대안으로, 주파수 도메인 계수들(24)은 M/S 스테레오 패러다임[5]에 따른 합(중간) 또는 차(사이드) 신호를 나타낼 수도 있다. 또한, 주파수 도메인 계수들(24)에 시간 잡음 정형이 실시되었을 수도 있다.

그것 외에, 주파수 도메인 계수들(12)이 양자화되고, 양자화 에러를 청감(psycho-acoustic) 검출(또는 마스킹) 임계치 아래로 유지하기 위해, 예를 들어 양자화 스텝 크기가 주파수 도메인 계수들(24)과 연관된 각각의 스케일링 팩터들을 통해 제어되는 방식으로 스펙트럼상 변화된다. 스케일링 팩터 추출기(14)는 데이터 스트림(20)으로부터 스케일링 팩터들의 추출을 담당한다.

프레임마다 서로 다른 스펙트럼-시간 분해능들 사이의 스위칭에 대해 잠깐 좀더 자세히 설명하면, 다음이 주목된다. 아래 더 상세히 설명되는 바와 같이, 서로 다른 스펙트럼-시간 분해능들 사이의 스위칭은 특정 프레임(26) 내에서, 모든 주파수 도메인 계수들(24)이 1회의 변환에 속함을, 또는 각각의 프레임(26)의 주파수 도메인 계수들(24)이 실제로 예를 들어, 변환 길이가 방금 언급한 1회의 변환의 변환 길이의 1/2인 2회의 변환들과 같은 서로 다른 변환들에 속함을 나타낼 것이다. 도면들에 관해 이하 설명되는 실시예는 한편으로는 1회의 변환과 다른 한편으로는 2회의 변환들 사이의 스위칭을 가정하지만, 사실 1회의 변환과 2회보다 많은 변환들 사이의 스위칭은 원칙적으로, 이러한 대안적인 실시예들로 쉽게 변환 가능한 아래 주어진 실시예들에도 실행 가능할 것이다.

도 1은 현재 프레임이 1회는 현재 프레임(26)의 뒤를 따르는 1/2을 사용하여 도출되었고, 다른 1회는 오디오 신호의 현재 프레임(26)의 선두 1/2을 변환함으로써 얻어진 2회의 짧은 변환들로 표현되는 타입인 예시적인 경우를 해칭을 사용하여 나타낸다. 짧아진 변환 길이로 인해, 주파수 도메인 계수들(24)이 프레임(26)의 스펙트럼을 기술하는 스펙트럼 분해능이 감소되는데, 즉 2회의 짧은 변환들을 사용하는 경우에는 반으로 줄어드는 한편, 시간 분해능은 증가되는데, 즉 이 경우에는 2배가 된다. 도 1에서, 예를 들어, 해칭하여 도시된 주파수 도메인 계수들(24)은 선두 변환에 속하는 반면, 해칭되지 않은 것들은 후행 변환에 속할 것이다. 따라서 스펙트럼상 콜로케이팅된(co-located) 주파수 도메인 계수들(24)은 프레임(26) 내에서 오디오 신호의 동일한 스펙트럼 컴포넌트를, 그러나 약간 다른 시간 인스턴스들에서, 즉 변환 분할 프레임의 2개의 연속한 변환 윈도우들에서 기술한다.

데이터 스트림(20)에서, 주파수 도메인 계수들(24)은 2회의 서로 다른 변환들의 스펙트럼상 대응하는 주파수 도메인 계수들이 서로 바로 이어지도록 인터리빙 방식으로 송신된다. 심지어 다르게 말하면, 분할 변환 프레임, 즉 데이터 스트림(20)에서 변환 분할이 시그널링되는 프레임(26)의 주파수 도메인 계수들(24)은, 주파수 도메인 계수 추출기(12)로부터 수신되는 주파수 도메인 계수들(24)이 이들이 마치 긴 변환의 주파수 도메인 계수들인 것과 같은 식으로 순차적으로 정렬된다면, 이들이 스펙트럼상 콜로케이팅된 주파수 도메인 계수들(24)이 서로 바로 인접하고 이러한 스펙트럼상 콜로케이팅된 주파수 도메인 계수들(24)의 쌍들이 스펙트럼/주파수 순서에 따라 정렬되도록 이러한 순서로 인터리빙 방식으로 정렬되도록 송신된다. 흥미롭게도, 이런 식으로 정렬되면, 인터리빙된 주파수 도메인 계수들(24)의 시퀀스가 1회의 긴 변환에 의해 얻어진 주파수 도메인 계수들(24)의 시퀀스와 비슷해 보인다. 또한, 주파수 도메인 계수 추출기(12)에 관한 한, 프레임들(26)의 단위에서 서로 다른 변환 길이들 또는 스펙트럼-시간 분해능들 사이의 스위칭은 이에 대해 투명하고, 이에 따라 콘텍스트 적응적 방식으로 주파수 도메인 계수들(24)을 엔트로피-코딩하기 위한 콘텍스트 선택은 현재 프레임이 실제로 긴 변환 프레임인지 또는 현재 프레임이 분할 변환 타입인지와 관계없이 추출기(12)가 이에 관해 알지 않고 동일한 콘텍스트가 선택되는 결과를 야기한다. 예를 들어, 주파수 도메인 계수 추출기(12)는 스펙트럼-시간 이웃에서 이미 코딩된/디코딩된 주파수 도메인 계수들을 기초로 특정 주파수 도메인 계수에 대해 이용될 콘텍스트를 선택할 수도 있는데, 이러한 스펙트럼-시간 이웃은 도 1에 도시된 인터리빙된 상태로 정의된다. 이는 다음의 결과를 갖는다. 현재 코딩된/디코딩된 주파수 도메인 계수(24)가 도 1에서 해칭을 사용하여 표시된 선두 변환의 일부였다고 가정한다. 그러면, 스펙트럼상 바로 인접한 주파수 도메인 계수가 실제로 동일한 선두 변환의 주파수 도메인 계수(24)(즉, 도 1에서 해칭된 것)일 것이다. 그러나 그렇다 하더라도, 주파수 도메인 계수 추출기(12)는 콘텍스트 선택을 위해 후행 변환에 속하는 주파수 도메인 계수(24), 즉 (짧아진 변환의 감소된 스펙트럼 분해능에 따라) 스펙트럼상 인접하고 있는 것을 사용하는데, 후자가 현재 주파수 도메인 계수(24)의 1회의 긴 변환의 가장 가까운 스펙트럼 이웃이 될 것이라고 가정한다. 마찬가지로, 후행 변환의 주파수 도메인 계수(24)에 대한 콘텍스트의 선택시, 주파수 도메인 계수 추출기(12)는 가장 가까운 스펙트럼 이웃으로서 선두 변환에 속하며 그 계수에 실제로 스펙트럼상 콜로케이팅되는 주파수 도메인 계수(24)를 사용할 것이다. 특히, 현재 프레임(26)의 계수들(24) 사이에 정해진 디코딩 순서는 예를 들어, 가장 낮은 주파수에서부터 가장 높은 주파수까지 이어질 수 있다. 주파수 도메인 계수 추출기(12)가 디인터리빙되지 않고 정렬될 때 바로 연속한 주파수 도메인 계수들(24)의 그룹들/투플(tuple)들에서 현재 프레임(26)의 주파수 도메인 계수들(24)을 엔트로피 디코딩하도록 구성되는 경우에 비슷한 관측들이 유효하다. 동일한 짧은 변환에 속하는 스펙트럼상 인접하고 있는 주파수 도메인 계수들(24)만의 투플을 사용하는 대신에, 주파수 도메인 계수 추출기(12)는 서로 다른 짧은 변환들에 속하는 주파수 도메인 계수들(24)의 혼합의 특정 투플에 대해 서로 다른 변환들에 속하는 주파수 도메인 계수들(24)의 이러한 혼합의 스펙트럼상 인접하고 있는 투플을 기초로 콘텍스트를 선택할 것이다.

위에서 지적한 바와 같이, 인터리빙된 상태에서 2회의 짧은 변환들에 의해 얻어진 결과적인 스펙트럼은 1회의 긴 변환에 의해 얻어진 스펙트럼과 매우 비슷해 보인다는 사실로 인해, 변환 길이 스위칭에 대한 주파수 도메인 계수 추출기(12)의 애그노스틱(agnostic) 동작에 기인하는 엔트로피 코딩 페널티는 낮다.

앞서 언급한 바와 같이, 데이터 스트림(20)으로부터 주파수 도메인 계수들(24)의 스케일링 팩터들의 추출을 담당하는 스케일링 팩터 추출기(14)로 디코더(10)의 설명이 재개된다. 주파수 도메인 계수들(24)에 스케일 팩터들이 할당되는 스펙트럼 분해능은 긴 변환에 의해 지원되는 비교적 미세한 스펙트럼 분해능보다 더 개략적이다. 중괄호들(30)로 예시된 바와 같이, 주파수 도메인 계수들(24)은 다수의 스케일 팩터 대역들로 그룹화될 수 있다. 스케일 팩터 대역들의 세분은 청감 사고를 기초로 선택될 수 있으며, 예를 들어 소위 바크(Bark)(또는 임계) 대역들과 일치할 수도 있다. 스케일링 팩터 추출기(14)는 주파수 도메인 계수 추출기(12)가 그러한 것처럼 변환 길이 스위칭에 대해 애그노스틱이기 때문에, 스케일링 팩터 추출기(14)는 각각의 프레임(26)이 변환 길이 스위칭 신호화와 관계없이 동일한 다수의 스케일 팩터 대역들(30)로 세분되는 것을 가정하며, 이러한 각각의 스케일 팩터 대역(30)에 대해 스케일 팩터(32)를 추출한다. 인코더 측에서, 이러한 스케일 팩터 대역들(30)에 대한 주파수 도메인 계수들(24)의 귀속은 도 1에 예시된 디인터리빙되지 않는 상태로 이루어진다. 결과로서, 분할 변환에 대응하는 프레임들(26)에 관한 한, 각각의 스케일 팩터(32)는 선두 변환의 주파수 도메인 계수들(24)과 후행 변환의 주파수 도메인 계수들(24) 모두에 의해 차지하게 된 그룹에 속한다.

역변환기(16)는 각각의 프레임(26)에 대해 대응하는 주파수 도메인 계수들(24) 및 대응하는 스케일 팩터들(32)을 수신하고 스케일 팩터들(32)에 따라 스케일링된 프레임(26)의 주파수 도메인 계수들(24)에 역변환을 실시하여 오디오 신호의 시간 도메인 부분들을 획득하도록 구성된다. 예를 들어, 수정된 이산 코사인 변환(MDCT: modified discrete cosine transform)과 같은 중복 변환이 역변환기(16)에 의해 사용될 수도 있다. 결합기(18)는 시간 도메인 부분들을 결합하여, 예를 들어 역변환기(16)에 의해 출력되는 시간 도메인 부분들의 중첩하는 부분들 내에서 시간 도메인 에일리어싱 제거를 야기하는, 예를 들어 적당한 중첩-가산 프로세스의 사용에 의해서와 같이 오디오 신호를 얻는다.

물론, 역변환기(16)는 프레임들(26)에 대해 데이터 스트림(20) 내에서 시그널링되는 앞서 언급한 변환 길이 스위칭에 응답한다. 역변환기(16)의 동작은 도 2에 관해 더 상세히 설명된다.

도 2는 역변환기(16)의 가능한 내부 구조를 보다 상세히 보여준다. 도 2에 표시된 바와 같이, 역변환기(16)는 현재 프레임에 대해 그 프레임과 연관된 주파수 도메인 계수들(24)뿐만 아니라, 주파수 도메인 계수들(24)을 역양자화하기 위한 대응하는 스케일 팩터들(32)도 수신한다. 또한, 역변환기(16)는 각각의 프레임에 대해 데이터 스트림(20)에 존재하는 신호화(34)에 의해 제어된다. 역변환기(16)는 선택적으로 이에 포함되는 데이터 스트림(20)의 다른 컴포넌트들을 통해 추가로 제어될 수도 있다. 다음 설명에서는, 이러한 추가 파라미터들에 관한 세부사항들이 설명된다.

도 2에 도시된 바와 같이, 도 2의 역변환기(16)는 역양자화기(36), 활성화 가능한 디인터리버(38) 및 역변환 스테이지(40)를 포함한다. 다음 설명의 이해의 편의상, 현재 프레임에 대해 주파수 도메인 계수 추출기(12)로부터 도출된 인바운드 주파수 도메인 계수들(24)은 0부터 N - 1까지 넘버링된 것으로 도시된다. 또한, 주파수 도메인 계수 추출기(12)는 신호화(34)에 대해 애그노스틱이기 때문에, 즉 이와 독립적으로 동작하기 때문에, 주파수 도메인 계수 추출기(12)는 현재 프레임이 분할 변환 타입인지 아니면 1-변환 타입인지와 관계없이 동일한 방식으로 역변환기(16)에 주파수 도메인 계수들(24)을 제공하는데, 즉 본 예시적인 경우에 주파수 도메인 계수들(24)의 수는 N이고, N개의 주파수 도메인 계수들(24)에 대한 0 내지 N - 1의 인덱스들의 연관이 또한 신호화(34)와 관계없이 그대로 동일하다. 현재 프레임이 1회 또는 긴 변환 타입인 경우, 0 내지 N - 1의 인덱스들은 더 낮은 주파수에서부터 가장 높은 주파수까지의 주파수 도메인 계수들(24)의 순서에 대응하며, 현재 프레임이 분할 변환 타입인 경우, 인덱스들은 주파수 도메인 계수들의 스펙트럼 순서에 따라, 그러나 모든 각각의 두 번째 주파수 도메인 계수(24)는 후행 변환에 속하는 반면, 다른 것들은 선두 변환에 속하도록 인터리빙 방식으로 스펙트럼 정렬될 때 주파수 도메인 계수들에 대한 순서에 대응한다.

스케일 팩터들(32)에 대해 비슷한 사실들이 유효하다. 스케일 팩터 추출기(14)는 신호화(34)에 대해 애그노스틱 방식으로 동작하므로, 스케일 팩터 추출기(14)로부터 도달하는 스케일 팩터들(32)의 값들뿐만 아니라 개수 및 순서도 신호화(34)와는 독립적이며, 도 2의 스케일 팩터들(32)은 전형적으로 이러한 스케일 팩터들이 연관되는 스케일 팩터 대역들 사이의 순차적인 순서에 대응하는 인덱스를 갖는 S₀ 내지 S_M으로 표기된다.

주파수 도메인 계수 추출기(12) 및 스케일 팩터 추출기(14)와 비슷한 방식으로, 역양자화기(36)는 신호화(34)에 대해 애그노스틱으로 또는 이와 독립적으로 동작할 수도 있다. 역양자화기(36)는 각각의 주파수 도메인 계수들이 속하는 스케일 팩터 대역과 연관된 스케일 팩터를 사용하여 인바운드 주파수 도메인 계수들(24)을 역양자화하거나 스케일링한다. 또한, 개별 스케일 팩터 대역들에 대한 인바운드 주파수 도메인 계수들(24)의 멤버십 및 이에 따른 스케일 팩터들(32)에 대한 인바운드 주파수 도메인 계수들(24)의 연관은 신호화(34)와는 독립적이며, 역변환기(16)는 이에 따라 신호화와는 독립적인 스펙트럼 분해능으로 주파수 도메인 계수들(24)에 스케일 팩터들(32)에 따른 스케일링을 실시한다. 예를 들어, 신호화(34)와는 독립적인 역양자화기(36)가 0 내지 3의 인덱스들을 갖는 주파수 도메인 계수들을 첫 번째 스케일 팩터 대역 및 이에 따라 첫 번째 스케일 팩터(S₀)에 할당하고, 4 내지 9의 인덱스들을 갖는 주파수 도메인 계수들을 두 번째 스케일 팩터 대역 및 이에 따른 스케일 팩터(S₁)에 할당하는 식이다. 스케일 팩터 한계들은 단지 예시로 여겨진다. 역양자화기(36)는 예를 들어, 주파수 도메인 계수들(24)을 역양자화하기 위해, 연관된 스케일 팩터를 사용하여 곱셈을 수행할 수 있는데, 즉 주파수 도메인 계수 x₀을 x₀·s₀이 되게, x₁을 x₁·s₀이 되게, … , x₃을 x₃·s₀이 되게, x₄를 x₄·s₁이 되게, … , x₉를 x₉·s₁이 되게 하는 식으로 계산할 수 있다. 대안으로, 역양자화기(36)는 스케일 팩터 대역들에 의해 정의된 개략적 스펙트럼 분해능으로부터 주파수 도메인 계수들(24)의 역양자화를 위해 실제로 사용되는 스케일 팩터들의 보간을 수행할 수도 있다. 보간은 신호화(34)와 독립적일 수도 있다. 대안으로, 그러나 후자의 보간은 현재 프레임이 분할 변환 타입인지 아니면 1회/긴 변환 타입인지에 따라 주파수 도메인 계수들(24)의 서로 다른 스펙트럼-시간 샘플링 위치들을 고려하기 위해 신호화에 의존할 수도 있다.

도 2는 활성화 가능한 디인터리버(38)의 입력 측까지, 주파수 도메인 계수들(24) 사이의 순서가 그대로 동일하고 그 순서가 적어도 실질적으로 그 지점까지 전체 동작에 대해 적용됨을 나타낸다. 도 2는 활성화 가능한 디인터리버(38)의 업스트림, 역변환기(16)에 의해 추가 동작들이 수행될 수 있음을 보여준다. 예를 들어, 역변환기(16)는 주파수 도메인 계수들(24)에 대한 잡음 채움을 수행하도록 구성될 수 있다. 예를 들어, 주파수 도메인 계수들(24)의 시퀀스에서 스케일 팩터 대역들, 즉 0 내지 N - 1의 인덱스들을 따르는 순서의 인바운드 주파수 도메인 계수들의 그룹들이 식별될 수 있는데, 여기서 각각의 스케일 팩터 대역들의 모든 주파수 도메인 계수들(24)이 0으로 양자화된다. 이러한 주파수 도메인 계수들은 예를 들어, 의사 난수 발생기를 사용하는 것과 같은, 예를 들어 인공 잡음 생성을 사용하여 채워질 수 있다. 0-양자화된 스케일 팩터 대역에 채워지는 잡음의 강도/레벨은 각각의 스케일 팩터 대역의 스케일 팩터를 사용하여 조정될 수 있는데, 이는 그 안의 스펙트럼 계수들이 전부 0이기 때문에 이러한 스케일 팩터가 스케일링에 필요하지 않기 때문이다. 이러한 잡음 채움은 도 2에서 40으로 도시되며, 특허 EP2304719A1[6]의 실시예에서 보다 상세히 설명된다.

도 2는 역변환기(16)가 조인트 스테레오 코딩 및/또는 채널 간 스테레오 예측을 지원하도록 구성될 수도 있음을 추가로 보여준다. 채널 간 스테레오 예측의 프레임워크에서, 역변환기(16)는 예를 들어, 오디오 신호의 다른 채널로부터 0 내지 N - 1의 인덱스들의 순서로 표현된 디인터리빙되지 않는 정렬에서 스펙트럼을 예측할 수 있다(42). 즉, 주파수 도메인 계수들(24)이 스테레오 오디오 신호의 채널의 스펙트럼도를 기술하고, 역변환기(16)가 주파수 도메인 계수들(24)을 이러한 스테레오 오디오 신호의 다른 채널로부터 도출된 예측 신호의 예측 잔차로서 다루도록 구성되는 것이 가능할 수 있다. 이러한 채널 간 스테레오 예측은 예를 들어, 신호화(34)와는 독립적인 어떤 스펙트럼 입도(granularity)로 수행될 수 있다. 복합 스테레오 예측(42)을 제어하는 복합 예측 파라미터들(44)은 예를 들어, 앞서 언급한 스케일 팩터 대역들 중 특정 대역들에 대한 복합 스테레오 예측(42)을 활성화할 수 있다. 복합 예측 파라미터(44)에 의해 복합 예측이 활성화되는 각각의 스케일 팩터 대역에 대해, 각각의 스케일 팩터 대역 내에 상주하는, 0 내지 N - 1의 순서로 정렬된 스케일링된 주파수 도메인 계수들(24)이 스테레오 오디오 신호의 다른 채널로부터 얻어진 채널 간 예측 신호와 합산될 것이다. 이러한 각각의 스케일 팩터 대역에 대한 복합 예측 파라미터들(44) 내에 포함된 복합 팩터가 예측 신호를 제어할 수 있다.

또한, 조인트 스테레오 코딩 프레임워크 내에서, 역변환기(16)는 MS 디코딩(46)을 수행하도록 구성될 수 있다. 즉, 도 1의 디코더(10)는 한번은 스테레오 오디오 신호의 제 1 채널에 대해 그리고 다른 한번은 제 2 채널에 대해 지금까지 두 번 설명되었으며 데이터 스트림(20) 내의 MS 파라미터들을 통해 제어되는 동작들을 수행할 수 있으며, 역변환기(16)는 이러한 2개의 채널들을 MS 디코딩하거나 또는 이들을 그대로, 즉 스테레오 오디오 신호의 좌우 채널들로서 둘 수 있다. MS 파라미터들(48)은 프레임 레벨에 대한 또는 심지어 어떤 더 미세한 레벨로, 예컨대 그 스케일 팩터 대역들 또는 그룹들의 단위들로의 MS 코딩 사이에 스위칭할 수 있다. 예를 들어, 활성화된 MS 디코딩의 경우, 역변환기(16)는 0 내지 N - 1인 계수들의 순서의 대응하는 주파수 도메인 계수들(24)과 스테레오 오디오 신호의 다른 채널의 대응하는 주파수 도메인 계수들의 합, 또는 이들의 차를 형성할 수 있다.

다음에 도 2는 현재 프레임이 신호화(34)에 의해 분할 변환 프레임인 것으로 시그널링되는 경우에는 2회의 변환들, 즉 선두 변환(50) 및 후행 변환(52)을 얻도록 인바운드 주파수 도메인 계수들을 디인터리빙하기 위해, 그리고 신호화(34)가 현재 프레임이 긴 변환 프레임임을 나타내는 경우에는 1회의 변환(54)을 야기하도록 주파수 도메인 계수들을 인터리빙되게 놓기 위해 활성화 가능한 디인터리버(38)가 현재 프레임에 대한 신호화(34)에 응답함을 보여준다. 디인터리빙의 경우, 디인터리버(38)는 50과 52 중 1회의 변환을 형성하는데, 짝수 인덱스들을 갖는 주파수 도메인 계수들 중에서 첫 번째 짧은 변환을, 그리고 짝수가 아닌 인덱스 위치들에서의 주파수 도메인 계수들 중에서 다른 짧은 변환을 형성한다. 예를 들어, 짝수 인덱스의 주파수 도메인 계수들은 (인덱스 0에서 시작할 때) 선두 변환을 형성할 수 있는 반면, 다른 계수들은 후행 변환을 형성한다. 변환들(50, 52)에는 각각 더 짧은 변환 길이의 역변환이 실시되어 각각 시간 도메인 부분들(56, 58)을 야기한다. 도 1의 결합기(18)는 시간 도메인 부분들(56, 58)을 시간상 정확히, 즉 후행 변환(52)으로부터 발생하는 시간 도메인 부분(58) 앞에 선두 변환(50)으로부터 발생하는 시간 도메인 부분(56)을 포지셔닝하며, 이들 사이에 그리고 선행하고 이어지는 오디오 신호의 프레임들로부터 발생하는 시간 도메인 부분들에 중첩-가산 프로세스를 수행한다. 디인터리빙하지 않는 경우, 인터리버(38)에 도달하는 주파수 도메인 계수들은 이들 그대로 긴 변환(54)을 수행하고, 역변환 스테이지(40)는 시간 도메인 부분(60)이 현재 프레임들(26)의 전체 시간 간격에 걸쳐 그리고 그 이상에 걸치는 결과를 야기하도록 이에 대해 역변환을 수행한다. 결합기(18)는 시간 도메인 부분(60)을 선행하고 이어지는 오디오 신호의 프레임들로부터 발생하는 각각의 시간 도메인 부분들과 결합한다.

지금까지 설명한 주파수 도메인 오디오 디코더는 신호화(34)에 응답하지 않는 주파수 도메인 오디오 디코더들과 호환되게 하는 식으로 변환 길이 스위칭을 가능하게 한다. 특히, 이러한 "구형" 디코더들은 신호화(34)에 의해 분할 변환 타입인 것으로 실제로 시그널링되는 프레임들을 긴 변환 타입이라고 잘못 추정할 것이다. 즉, 이들은 잘못해서 분할 타입 주파수 도메인 계수들을 인터리빙되게 그대로 두고 긴 변환 길이의 역변환을 수행할 것이다. 그러나 재구성된 오디오 신호의 영향받는 프레임들의 결과적인 품질은 여전히 꽤 적정할 것이다.

코딩 효율성 페널티도 역시 결국 여전히 꽤 적정하다. 코딩 효율성 페널티는 주파수 도메인 계수들 및 스케일 팩터들은 코딩 효율성을 증가시키도록 변화하는 계수들의 의미를 고려하지 않고 그리고 이러한 변화를 활용하지 않고 인코딩될 때 신호화(34)의 무시로부터 발생한다. 그러나 후자의 페널티는 하위 호환성을 허용하는 이점에 비해 비교적 작다. 후자의 언급은 도 2에서 0 내지 N - 1의 인덱스들로 정의된 디인터리빙된 상태로 연속적인 스펙트럼 부분들(스케일 팩터 대역들) 내에서만 잡음 필러(40), 복합 스테레오 예측(42) 및 MS 디코딩(46)을 활성화 및 비활성화하는 제약에 관해서도 또한 사실이다. (예를 들어, 2개의 잡음 레벨들을 갖는) 프레임의 타입에 대해 구체적으로 이러한 코딩 툴들을 제어하게 할 기회가 가능하게는 이점들을 제공할 수 있지만, 이점들은 하위 호환성을 갖는 이점에 의해 과잉 보상된다.

도 2는 도 1의 디코더가 심지어 TNS 코딩을 지원하도록 구성될 수 있지만, 그럼에도 디코더들과의 하위 호환성을 신호화(34)에 민감하지 않게 유지하는 것을 보여준다. 특히, 도 2는 만약에 있다면, 임의의 복합 스테레오 예측(42) 및 MS 디코딩(46) 이후에 역 TNS 필터링을 수행할 가능성을 나타낸다. 하위 호환성을 유지하기 위해, 역변환기(16)는 신호화(34)와 관계없이 각각의 TNS 계수들(64)을 사용하여 N개의 계수들의 시퀀스에 역 TNS 필터링(62)을 수행하도록 구성된다. 이러한 조치에 의해, 데이터 스트림(20)은 신호화(34)와 관계없이 TNS 계수들(64)을 동일하게 코딩한다. 즉, TNS 계수들의 수와 그 코딩 방식이 동일하다. 그러나 역변환기(16)는 TNS 계수들(64)을 다르게 적용하도록 구성된다. 현재 프레임이 긴 변환 프레임인 경우, 긴 변환(54), 즉 인터리빙된 상태로 순서가 정해진 주파수 도메인 계수들에 역 TNS 필터링이 수행되며, 현재 프레임이 신호화(34)에 의해 분할 변환 프레임으로서 시그널링되는 경우, 역변환기(16)는 선두 변환(50)과 후행 변환(52)의 연속, 즉 0, 2, … , N - 2, 1, 3, 5, … , N - 1의 인덱스들의 주파수 도메인 계수들의 시퀀스를 역 TNS 필터링(62)한다. 역 TNS 필터링(62)은 예를 들어, 역변환기(16)가 필터를 적용하는 것을 수반할 수도 있는데, 그 전달 함수는 프로세싱 업스트림 디인터리버(38)의 시퀀스를 전달한 계수들의 디인터리빙된 또는 인터리빙된 시퀀스에 대한 TNS 계수들(64)에 따라 설정된다.

따라서 뜻하지 않게 분할 변환 타입의 프레임들을 긴 변환 프레임들로서 취급하는 "구형" 디코더는 2회의 짧은 변환들, 즉 50과 52의 연속을 분석함으로써 인코더에 의해 생성되었던 TNS 계수들(64)을 변환(54)에 적용하고, 이에 따라 변환(54)에 적용된 역변환에 의해 부정확한 시간 도메인 부분(60)을 발생시킨다. 그러나 신호가 비 또는 박수 등을 나타내는 경우들에 대해 이러한 분할 변환 프레임들의 사용을 제한하는 경우에는 이러한 디코더들에서의 이러한 품질 저하라도 청자들이 견딜 수 있을 수도 있다.

완벽함을 위해, 도 3은 역변환기(16)의 역 TNS 필터링(62)이 또한 도 2에 도시된 프로세스의 시퀀스에 어디라도 삽입될 수도 있음을 보여준다. 예를 들어, 역 TNS 필터링(62)은 복합 스테레오 예측(42)의 업스트림에 포지셔닝될 수 있다. 디인터리빙된 도메인을 다운스트림에 그리고 역 TNS 필터링(62)을 업스트림에 유지하기 위해, 도 3은 지금까지 처리된 주파수 도메인 계수들(24)이 0, 2, 4, … , N - 2, 1, 3, … , N - 3, N - 1의 인덱스들의 순서인 디인터리빙된 연결 상태 내에서 역 TNS 필터링(68)을 수행하기 위해, 그 경우에 주파수 도메인 계수들(24)이 단지 예비로 디인터리빙(66)되며, 그 결과 이들의 인터리빙된 순서인 0, 1, 2, … , N - 1로 다시 역 TNS 필터링된 버전의 주파수 도메인 계수들을 얻도록 디인터리빙이 반전됨(70)을 보여준다. 도 2에 도시된 처리 단계들의 시퀀스 내에서 역 TNS 필터링(62)의 위치는 일정할 수 있고 또는 이를테면, 예를 들어 프레임 단위로 또는 어떤 다른 입도로 데이터 스트림(20)을 통해 시그널링될 수 있다.

설명을 쉽게 하기 위해, 상기 실시예들은 긴 변환 프레임들과 분할 변환 프레임들의 병치에만 집중했다는 점이 주목되어야 한다. 그러나 본 출원의 실시예들은 8개의 짧은 변환들의 프레임들과 같은 다른 변환 타입의 프레임들의 도입으로 잘 확장될 수도 있다. 이와 관련하여, 모든 프레임들에 포함된 추가 신호화를 검사함으로써 "구형" 디코더가 분할 변환 프레임들을 뜻하지 않게 긴 변환 프레임들로서 취급하고, 다른 프레임들(분할 변환 및 긴 변환 프레임들을 제외한 전부)과 구별되는 프레임들만이 신호화(34)를 포함하도록, 앞서 언급한 애그노스틱은 단지 추가 신호화에 의해 임의의 제 3 변환 타입의 이러한 다른 프레임들과 구별되는 프레임들에만 관련된다는 점이 주목되어야 한다. 이러한 다른 프레임들(분할 변환 및 긴 변환 프레임들을 제외한 전부)에 관한 한, 콘텍스트 선택 등과 같은 추출기들(12, 14)의 동작 모드는 추가 신호화에 의존할 수 있는데, 즉 상기 동작 모드는 분할 변환 및 긴 변환 프레임들에 적용되는 동작 모드와 다를 수 있다는 점이 주목된다.

앞서 설명한 디코더 실시예들에 맞는 적당한 인코더를 설명하기 전에, 하위 호환성 있는 방식으로 변환 분할의 지원을 허용하도록 xHE-AAC 기반 오디오 코더들/디코더들을 이에 따라 업그레이드하기에 적합한 상기 실시예들의 구현이 설명된다.

즉, 다음에는 낮은 비트레이트들로 특정 오디오 신호들의 코딩 품질을 개선하는 것을 목표로 MPEG-D xHE-AAC(USAC)를 기반으로 한 오디오 코덱에서의 변환 길이 분할을 수행하는 방법의 가능성이 설명된다. 변환 분할 툴은 레거시 xHE-AAC 디코더들이 명백한 오디오 에러들 또는 중단(drop-out)들 없이 상기 실시예들에 따라 비트스트림들을 파싱 및 디코딩할 수 있도록 반-하위 호환성 있게 시그널링된다. 이하 도시되는 바와 같이, 이러한 반-하위 호환성 있는 신호화는 조건부 코딩 방식으로 잡음 채움의 사용을 제어하는 프레임 신택스 엘리먼트의 사용되지 않은 가능한 값들을 활용한다. 레거시 xHE-AAC 디코더들은 각각의 잡음 채움 신택스 엘리먼트의 이러한 가능한 값들에 민감하지 않지만, 강화된 오디오 디코더들은 민감하다.

특히, 아래 설명되는 구현은 앞서 설명한 실시예들에 따라, 비 또는 박수와 비슷한 코딩 신호들에 대한 중간 변환 길이, 바람직하게는 분할된 긴 블록, 즉 긴 블록의 스펙트럼 길이의 각각 1/2 또는 1/4인 2회의 순차적 변환들을 제공할 수 있게 하는데, 이러한 변환들 사이의 최대 시간 중첩은 연속한 긴 블록들 사이의 최대 시간 중첩 미만이다. 변환 분할, 즉 신호화(34)에 의해 코딩된 비트스트림들이 레거시 xHE-AAC 디코더들에 의해 판독 및 파싱되게 하기 위해, 분할은 반-하위 호환성 있는 방식으로 사용되어야 하는데: 이러한 변환 분할 툴의 존재는 레거시 디코더들로 하여금 디코딩을 중단하게 하지 ― 또는 심지어 시작하지 ― 않아야 한다. xHE-AAC 인프라구조에 의한 이러한 비트스트림들의 판독성은 또한 시장 채택을 가능하게 할 수 있다. xHE-AAC의 콘텍스트 또는 그 잠재적 파생물들에서 변환 분할을 사용하기 위한 반-하위 호환성의 앞서 언급한 목표를 달성하기 위해, 변환 분할은 xHE-AAC의 잡음 채움 신호화를 통해 시그널링된다. 앞서 설명한 실시예들에 따라, 변환 분할을 xHE-AAC 코더들/디코더들에 구축하기 위해, 주파수 도메인(FD: frequency-domain) 중단-시작 윈도우 시퀀스 대신에 2회의 개별 1/2 길이 변환들로 구성된 분할 변환이 사용될 수도 있다. 시간상 순차적인 1/2 길이 변환들이 변환 분할을 지원하지 않는 디코더들, 즉 레거시 xHE-AAC 디코더들에 대해 계수 단위 방식으로 단일 중단-시작형 블록으로 인터리빙된다. 이하 설명되는 바와 같이 잡음 채움 신호화를 통한 시그널링이 수행된다. 특히, 8-비트 잡음 채움 부가 정보가 변환 분할을 전달하는 데 사용될 수도 있다. MPEG-D 표준[4]이 적용될 잡음 레벨이 0인 경우에도 8 비트 전부가 송신된다고 서술하고 있기 때문에 이것이 실현 가능하다. 그 상황에서, 잡음 채움 비트들 중 일부가 변환 분할에, 즉 신호화(34)에 재사용될 수 있다.

레거시 xHE-AAC 디코더들에 의한 비트스트림 파싱 및 재생에 관한 반-하위 호환성은 다음과 같이 보장될 수 있다. 변환 분할은 0의 잡음 레벨을 통해 시그널링되는데, 즉 처음 3개의 잡음 채움 비트들은 모두 0 값을 갖고, 변환 분할에 관한 부가 정보뿐만 아니라 누락된 잡음 레벨도 포함하는 (종래에는 잡음 오프셋을 나타내는) 5개의 0이 아닌 비트들이 이어진다. 레거시 xHE-AAC 디코더는 3-비트 잡음 레벨이 0이라면 5-비트 오프셋 값을 무시하기 때문에, 변환 분할 신호화(34)의 존재는 레거시 디코더에서 잡음 채움에만 영향을 갖는데: 처음 3개의 비트들이 0이기 때문에 잡음 채움은 오프 전환되고, 디코딩 동작의 나머지가 의도한 대로 실행된다. 특히, 분할 변환은 (앞서 언급한 계수 인터리빙으로 인해) 전체 길이 역변환에 의한 종래의 중단-시작 블록처럼 처리되며 어떠한 디인터리빙도 수행되지 않는다. 그러므로 레거시 디코더는 변환 분할 타입의 프레임에 도달시 출력 신호(22)를 뮤트하거나 또는 심지어 디코딩을 중단할 필요가 없기 때문에 레거시 디코더는 여전히 강화된 데이터 스트림/비트스트림(20)의 "적절한" 디코딩을 제공한다. 물론, 이러한 레거시 디코더는 분할 변환 프레임들의 정확한 재구성을 제공할 수 없어, 예컨대 도 1에 따른 적절한 디코더에 의한 디코딩과 비교할 때 영향받는 프레임들에서의 열화된 품질로 이어진다. 그럼에도, 의도한 대로, 즉 낮은 비트레이트들로 트랜션트 또는 잡음 있는 입력에 대해서만 변환 분할이 사용된다고 가정하면, xHE-AAC 디코더를 통한 품질은 영향받는 프레임들이 뮤트로 인해 중단되거나 아니면 명백한 재생 에러들로 이어지게 되는 경우보다 더 양호해야 한다.

구체적으로, 변환 분할 쪽으로의 xHE-AAC 코더/디코더의 확장은 다음과 같을 수 있다.

상기 설명에 따르면, xHE-AAC에 사용될 새로운 툴은 변환 분할(TS: transform splitting)로 불릴 수 있다. 이는 xHE-AAC 또는 예를 들어, USAC를 기반으로 하는 MPEG-H 3D-오디오[4]의 주파수 도메인(FD) 코더에서 새로운 툴이 될 것이다. 변환 분할은 다음에 (낮은 비트레이트들에서 시간 지연, 특히 프리 에코로 이어지는) 규칙적인 긴 변환들 또는 (낮은 비트레이트들에서 스펙트럼 홀들 및 버블 아티팩트들로 이어지는) 8개의 짧은 변환들에 대한 대안으로서 특정 트랜션트 신호 통로들에 대해 사용 가능할 것이다. TS는 다음에, 레거시 MPEG-D USAC 디코더에 의해 정확히 파싱될 수 있는 긴 변환으로 인터리빙하는 FD 계수에 의해 반-하위 호환성 있게 시그널링될 수도 있다.

이러한 툴의 설명은 상기 설명과 비슷할 것이다. TS가 긴 변환에서 액티브할 때, 2회의 1/2 길이 MDCT들이 1회의 전체 길이 MDCT 대신 이용되며, 2회의 MDCT들, 즉 50 및 52의 계수들이 라인별 인터리빙 방식으로 송신된다. 예를 들어, FD (중단) 시작 변환들이 경우에는 인터리빙된 송신이 이미 사용되었는데, 시간상 첫 번째 MDCT의 계수들은 짝수에 배치되고 시간상 두 번째 MDCT의 계수들은 홀수 인덱스들에 배치되지만(여기서 인덱싱은 0에서 시작함), 중단-시작 변환들을 다룰 수 없는 디코더는 데이터 스트림을 정확히 파싱할 수 없었을 것이다. 즉, 주파수 도메인 계수들을 엔트로피 코딩하기 위해 사용된 서로 다른 콘텍스트들은 절반이 된 변환들로 간소화된 다양한 신택스인 이러한 중단-시작 변환을 제공하기 때문에, 중단-시작 윈도우들을 지원할 수 없는 어떠한 디코더도 각각의 중단-시작 윈도우 프레임들을 폐기해야 했을 것이다.

잠시 앞서 설명한 실시예를 다시 참조하면, 이는 도 1의 디코더가 지금까지 앞에서 한 설명 이상으로, 추가 변환 길이, 즉 신호화(34)를 확장하는 신호화를 이용한 2회보다 훨씬 더 많은 변환들로의 특정 프레임들(26)의 세분을 대안으로 지원하는 것이 가능할 수 있음을 의미한다. 그러나 신호화(34)를 사용하여 활성화된 분할 변환 이외에, 프레임들(26)의 변환 세분들의 병치에 관해서는, FD 계수 추출기(12) 및 스케일링 팩터 추출기(14)는 이들의 동작 모드가 신호화(34)뿐만 아니라 그 추가 신호화에 따라서도 변화할 것이라는 점에서 이러한 신호화에 민감할 것이다. 또한, 56 및 59에 따른 분할 변환 타입 이외에 시그널링된 변환 타입에 맞는 TNS 계수들, MS 파라미터들 및 복합 예측 파라미터들의 간소화된 송신은, 각각의 디코더가 60에 따른 긴 변환 타입을 포함하는 이러한 "알려진 변환 타입들" 또는 프레임들과 예를 들어, AAC의 경우에서처럼 프레임들을 8개의 짧은 변환들로 세분하는 것과 같은 다른 변환 타입들 사이의 신호화 선택에 응답할 수, 즉 이해할 수 있어야 한다는 것을 필요로 할 것이다. 그 경우에, 이러한 "알려진 신호화"는 신호화(34)를 이해할 수 없는 디코더들이 이러한 프레임들을 8개의 짧은 변환 타입 프레임들과 같은 다른 타입들의 프레임들보다는 긴 변환 프레임들로서 취급하도록, 신호화(34)가 분할 변환 타입을 시그널링하는 프레임들을 긴 변환 타입의 프레임들로서 식별할 것이다.

다시 xHE-AAC의 가능한 확장의 설명으로 돌아가면, TS 툴을 이러한 코딩 프레임워크로 구축하기 위해 특정 동작상의 제약들이 제공될 수 있다. 예를 들어, TS는 FD 긴 시작 또는 중단-시작 윈도우에만 사용되도록 허용될 수 있다. 즉, 기반이 되는 신택스 엘리먼트 window_sequence는 1과 같도록 요구될 수 있다. 게다가, 반-하위 호환성 있는 시그널링으로 인해, 이는 신택스 엘리먼트 noiseFilling이 신택스 컨테이너 UsacCoreConfig()에서 1일 때만 TS가 적용될 수 있다는 요건일 수도 있다. TS가 액티브한 것으로 시그널링될 때, TNS 및 역 MDCT를 제외한 모든 FD 툴들이 TS 계수들의 인터리빙된(긴) 세트에 대해 작동한다. 이는 스케일 팩터 대역 오프셋 및 긴 변환 산술 코더 테이블들뿐만 아니라 윈도우 형상들 및 중첩 길이들의 재사용을 허용한다.

다음에는, [4]에 기술된 USAC 표준이 하위 호환성 있는 TS 기능을 제공하도록 어떻게 확장될 수 있는지에 관해 설명하기 위해 다음에 사용되는 용어들 및 정의들이 제시되며, 여기서는 간혹 관심 있는 독자를 위해 그 표준 내의 섹션들에 대한 참조가 이루어진다.

새로운 데이터 엘리먼트는 다음과 같을 수 있다:

split_transform 현재 프레임 및 채널에 TS가 이용되는지 여부를 표시하는 2진 플래그

새로운 보조 엘리먼트들은 다음과 같을 수 있다:

window_sequence 현재 프레임 및 채널에 대한 FD 윈도우 시퀀스 타입(섹션 6.2.9)

noise_offset 0으로 양자화된 대역들의 스케일 팩터들을 수정하기 위한 잡음 채움 오프셋(섹션 7.2)

noise_level 부가된 스펙트럼 잡음의 진폭을 나타내는 잡음 채움 레벨(섹션 7.2)

half_transform_length coreCoderFrameLength의 1/2(ccfl, 변환 길이, 섹션 6.1.1)

half_lowpass_line 현재 채널에 대해 송신된 MDCT 라인들의 수의 1/2.

USAC 프레임워크에서 변환 분할(TS)을 이용한 FD(중단-) 시작 변환의 디코딩이 다음과 같이 완전히 순차적인 단계들로 수행될 수 있다:

먼저, split_transform 및 half_lowpass_line의 디코딩이 수행될 수 있다.

split_transform은 실제로 독립적인 비트스트림 엘리먼트를 나타내는 것이 아니라 잡음 채움 엘리먼트들(noise_offset, noise_level) 그리고 UsacChannelPairElement()의 경우에는 StereoCoreToolInfo()의 common_window 플래그로부터 도출된다. NoiseFilling == 0이라면, split_transform은 0이다. 그렇지 않으면,

즉, noise_level == 0이라면, noise_offset은 4 비트의 잡음 채움 데이터가 이어지는 split_transform 플래그를 포함하는데, 이는 다음에 재정렬된다. 이러한 동작은 noise_level 및 noise_offset의 값들을 변경시키기 때문에, 이는 섹션 7.2의 잡음 채움 프로세스 이전에 실행되어야 한다. 더욱이, UsacChannelPairElement()에서 common_window == 1이라면, split_transform은 왼쪽(첫 번째) 채널에서만 결정되며; 오른쪽 채널의 split_transform은 왼쪽 채널의 split_transform과 같게 설정(즉, 그로부터 복사)되고, 오른쪽 채널에서는 상기 의사 코드가 실행되지 않는다.

"긴" 스케일 팩터 대역 오프셋 테이블, swb_offset_long_window, 및 현재 채널의 max_sfb, 또는 스테레오 및 common_window == 1인 경우에는 max_sfb_ste로부터 half_lowpass_line이 결정된다.

다음에, 두 번째 단계로서, 시간 잡음 정형을 위한 1/2 길이 스펙트럼들의 디인터리빙이 수행될 것이다.

스펙트럼 역양자화, 잡음 채움 및 스케일 팩터 적용 이후 그리고 시간 잡음 정형(TNS: Temporal Noise Shaping)의 적용 이전에, 헬퍼(helper) buffer[ ]를 사용하여 spec[ ] 내의 TS 계수들이 디인터리빙된다:

적절한 디인터리빙이 2개의 1/2 길이 TS 스펙트럼들을 서로의 위에 배치하며, TNS 툴이 이제 결과적인 전체 길이 의사 스펙트럼에 대해 평소대로 작동한다.

상기를 참조하면, 이러한 프로시저가 도 3에 관해 설명되었다.

다음에, 세 번째 단계로서, 2개의 순차적 역 MDCT들과 함께 임시 재인터리빙이 사용될 것이다.

현재 프레임에서 common_window == 1이거나 TNS 디코딩 이후에 스테레오 디코딩이 수행된다면(섹션 7.8에서 tns_on_lr == 0), spec[ ]이 전체 길이 스펙트럼으로 임시로 재인터리빙되어야한다:

결과적인 의사 스펙트럼이 스테레오 디코딩(섹션 7.7)에 그리고 dmx_re_prev[ ]를 업데이트(섹션들 7.7.2 및 A.1.4)하는 데 사용된다. tns_on_lr == 0의 경우에, 섹션 A.1.3.2의 프로세스를 반복함으로써 스테레오 디코딩된 전체 길이 스펙트럼들이 다시 디인터리빙된다. 마지막으로, 현재 그리고 마지막 프레임의 ccfl 및 채널의 window_shape를 이용해 2회의 역 MDCT들이 계산된다. 섹션 7.9와 도 1을 참조한다.

xHE-AAC의 복합 예측 스테레오 디코딩에 대해 어떤 수정이 이루어질 수도 있다.

TS를 xHE-AAC로 구축하기 위해 암시적 반-하위 호환성 있는 시그널링 방법이 대안으로 사용될 수도 있다.

위에서는 split_transform에 포함된 발명의 변환 분할의 사용을 발명의 디코더에 시그널링하기 위해 비트스트림에서 1 비트를 이용하는 접근 방식을 설명하였다. 특히, 이러한 시그널링(이를 명시적 반-하위 호환성 있는 시그널링이라 한다)은 다음의 레거시 비트스트림 데이터- 여기서는 잡음 채움 부가 정보 -가 발명의 신호와 독립적으로 사용되게 하며: 본 실시예에서, 잡음 채움 데이터는 변환 분할 데이터에 의존하지 않고, 그 반대도 가능하다. 예를 들어, 전부 0으로 구성된 잡음 채움 데이터(noise_level = noise_offset = 0)가 송신될 수도 있는 한편, split_transform은 (0 또는 1인 2진 플래그인) 임의의 가능한 값을 유지할 수도 있다.

레거시와 발명의 비트스트림 데이터 간의 이러한 엄격한 독립성이 요구되지 않고 발명의 신호가 2진 결정인 경우에, 시그널링 비트의 명시적 송신이 회피될 수 있고, 상기 2진 결정은 암시적 반-하위 호환성 있는 시그널링이라 불릴 수도 있는 것의 유무로 시그널링될 수 있다. 상기 실시예를 다시 일례로 취하면, 단순히 발명의 시그널링을 사용함으로써 변환 분할의 사용이 송신될 수 있는데: noise_level이 0이고, 동시에 noise_offset이 0이 아니라면, split_transform이 1과 같게 설정된다. noise_level과 noise_offset 모두 0이 아니라면, split_transform은 0과 같게 설정된다. noise_level과 noise_offset 모두가 0일 때 레거시 잡음 채움 신호에 대한 발명의 암시적 신호의 의존성이 발생한다. 이 경우, 레거시 아니면 발명의 암시적 시그널링이 사용되고 있는지가 불명확하다. 이러한 모호성을 피하기 위해, split_transform의 값이 사전에 정의되어야 한다. 본 예에서는, 잡음 채움 데이터가 전부 0으로 구성되는 경우에 split_transform = 0을 정의하는 것이 적절한데, 이것은 프레임에서 잡음 채움이 사용되지 않아야 할 때 변환 분할 없는 레거시 인코더들이 시그널링할 것이기 때문이다.

암시적 반-하위 호환성 있는 시그널링의 경우에 여전히 해결되어야 할 문제는 split_transform == 1 그리고 동시에 잡음 채움 없음을 어떻게 시그널링하는지이다. 설명한 바와 같이, 잡음 채움 데이터는 전부 0은 아니어야 하며, 0의 잡음 크기가 요구된다면, noise_level(위와 같이 (noise_offset & 14)/2)은 0과 같아야 한다. 이는 솔루션으로서 단지 noise_offset(위와 같이 (noise_offset & 1)*16)를 0보다 더 크게 하는 것뿐이다. 다행히도, USAC[4]를 기반으로 디코더에서 어떠한 잡음 채움도 수행되지 않는다면 noise_offset의 값은 무시되며, 따라서 이러한 접근 방식은 본 실시예에서 실현 가능한 것으로 나타난다. 따라서 위와 같은 의사 코드에서의 split_transform의 시그널링은 noise_offset 에 대해 1 비트 대신 2비트(4개의 값들)를 송신하도록 저장된 TS 시그널링 비트를 사용하여 다음과 같이 수정될 수 있다:

이에 따라, 이러한 대안을 적용하여, USAC의 설명은 다음 설명을 사용하여 확장될 수 있다.

툴 설명은 대체로 동일할 것이다. 즉,

긴 변환에서 변환 분할(TS)이 액티브할 때, 1회의 전체 길이 MDCT 대신 2회의 1/2 길이 MDCT들이 이용된다. 2회의 MDCT들의 계수들은 시간상 첫 번째 MDCT의 계수들은 짝수에 배치되고 시간상 두 번째 MDCT의 계수들은 홀수 인덱스들에 배치되어, 종래의 주파수 도메인(FD) 변환과 같이 라인별 인터리빙 방식으로 송신된다.

동작상의 제약들은 FD 긴 시작 또는 중단-시작 윈도우(window_sequence == 1)에만 TS가 사용될 수 있는 것을 그리고 UsacCoreConfig( )에서 noiseFilling이 1인 경우에만 TS가 적용될 수 있는 것을 요구할 수 있다. TS가 시그널링될 때, TNS 및 역 MDCT를 제외한 모든 FD 툴들이 TS 계수들의 인터리빙된(긴) 세트에 대해 작동한다. 이는 스케일 팩터 대역 오프셋 및 긴 변환 산술 코더 테이블들뿐만 아니라 윈도우 형상들 및 중첩 길이들의 재사용을 허용한다.

아래에 사용되는 용어들 및 정의들은 다음의 보조 엘리먼트들을 수반한다.

common_window CPE의 채널 0 및 채널 1이 동일한 윈도우 파라미터들을 사용하는지 여부를 표시한다(ISO/IEC 23003-3:2012 섹션 6.2.5.1.1 참조).

window_sequence 현재 프레임 및 채널에 대한 FD 윈도우 시퀀스 타입(ISO/IEC 23003-3:2012 섹션 6.2.9 참조).

tns_on_lr TNS 필터링에 대한 동작 모드를 표시한다(ISO/IEC 23003-3:2012 섹션 7.8.2 참조).

noiseFilling 이 플래그는 FD 코어 코더에서 스펙트럼 홀들의 잡음 채움의 사용을 시그널링한다(ISO/IEC 23003-3:2012 섹션 6.1.1.1 참조).

noise_offset 0으로 양자화된 대역들의 스케일 팩터들을 수정하기 위한 잡음 채움 오프셋(ISO/IEC 23003-3:2012 섹션 7.2 참조).

noise_level 부가된 스펙트럼 잡음의 진폭을 나타내는 잡음 채움 레벨(ISO/IEC 23003-3:2012 섹션 7.2 참조).

split_transform 현재 프레임 및 채널에 TS가 이용되는지 여부를 표시하는 2진 플래그.

half_transform_length coreCoderFrameLength의 1/2(ccfl, 변환 길이, ISO/IEC 23003-3:2012 섹션 6.1.1 참조).

TS를 수반하는 디코딩 프로세스가 다음과 같이 설명될 수 있다. 특히, TS에 의한 FD(중단-)시작 변환의 디코딩이 다음과 같이 3개의 순차적 단계들로 수행된다.

먼저, split_transform 및 half_lowpass_line의 디코딩이 수행된다. 보조 엘리먼트 split_transform는 독립적인 비트스트림 엘리먼트를 나타내는 것이 아니라 잡음 채움 엘리먼트들, noise_offset 및 noise_level, 그리고 UsacChannelPairElement()의 경우에는 StereoCoreToolInfo()의 common_window 플래그로부터 도출된다. NoiseFilling == 0이라면, split_transform은 0이다. 그렇지 않으면,

즉, noise_level == 0이라면, noise_offset은 4 비트의 잡음 채움 데이터가 이어지는 split_transform 플래그를 포함하는데, 이는 다음에 재정렬된다. 이러한 동작은 noise_level 및 noise_offset의 값들을 변경시키기 때문에, 이는 ISO/IEC 23003-3:2012 섹션 7.2의 잡음 채움 프로세스 전에 실행되어야 한다.

더욱이, UsacChannelPairElement()에서 common_window == 1이라면, split_transform은 왼쪽(첫 번째) 채널에서만 결정되며; 오른쪽 채널의 split_transform은 왼쪽 채널의 split_transform과 같게 설정(즉, 그로부터 복사)되고, 오른쪽 채널에서는 상기 의사 코드가 실행되지 않는다.

보조 엘리먼트인 "긴" 스케일 팩터 대역 오프셋 테이블, swb_offset_long_window, 및 현재 채널의 max_sfb, 또는 스테레오 및 common_window == 1인 경우에는 max_sfb_ste로부터 half_lowpass_line이 결정된다.

igFilling 플래그를 기초로, half_lowpass_line이 도출된다:

다음에, 시간 잡음 정형을 위한 1/2 길이 스펙트럼들의 디인터리빙이 수행된다.

스펙트럼 역양자화, 잡음 채움 및 스케일 팩터 적용 이후 그리고 시간 잡음 정형(TNS)의 적용 이전에, 헬퍼 buffer[ ]를 사용하여 spec[ ] 내의 TS 계수들이 디인터리빙된다:

마지막으로, 임시 재인터리빙 및 2회의 순차적 역 MDCT들이 사용될 수도 있다:

결과적인 의사 스펙트럼이 스테레오 디코딩(ISO/IEC 23003-3:2012 섹션 7.7)에 그리고 dmx_re_prev[ ]를 업데이트(ISO/IEC 23003-3:2012 섹션 7.7.2)하는 데 사용되며, tns_on_lr == 0의 경우에, 섹션 A.1.3.2의 프로세스를 반복함으로써 스테레오 디코딩된 전체 길이 스펙트럼들이 다시 디인터리빙된다. 마지막으로, 현재 그리고 마지막 프레임의 ccfl 및 채널의 window_shape를 이용해 2회의 역 MDCT들이 계산된다.

TS에 대한 처리는 ISO/IEC 23003-3:2012 섹션 "7.9 Filterbank and block switching"에 주어진 설명을 따른다. 다음의 부가사항들이 고려되어야 한다.

window_sequence 값을 기초로 한 윈도우 길이인 N을 갖는 헬퍼 buffer[ ]를 사용하여 spec[ ] 내의 TS 계수들이 디인터리빙된다:

다음에 1/2 길이 TS 스펙트럼에 대한 IMDCT이 다음과 같이 정의된다:

이후의 윈도잉 및 블록 스위칭 단계들이 다음 하위 섹션들에서 정의된다.

STOP_START_SEQUENCE에 의한 변환 분할은 다음 설명과 같이 보일 것이다:

변환 분할과 결합한 STOP_START_SEQUENCE가 도 2에 도시되었다. 이는 1024(960, 768)인, N_l/2의 길이를 갖는 2개의 중첩 및 가산된 1/2 길이 윈도우들(56, 58)을 포함한다. N_s는 각각 256(240, 192)으로 설정된다.

2개의 1/2 길이 IMDCT들에 대한 윈도우들(0,1)이 다음과 같이 주어지며:

여기서 첫 번째 IMDCT 윈도우들에 대해서는 아래 식이 적용되고:

두 번째 IMDCT 윈도우들에 대해서는 아래 식이 적용된다:

윈도잉된 시간 도메인 값들(zi,n)을 야기하는 2개의 1/2 길이 윈도우들 사이의 중첩 및 가산이 다음과 같이 설명된다. 여기서, N_l은 2048(1920, 1536)로, N_s는 256(240, 192)으로 각각 설정된다:

LONG_START_SEQUENCE에 의한 변환 분할은 다음 설명과 같이 보일 것이다:

변환 분할과 결합한 LONG_START_SEQUENCE가 도 4에 도시된다. 이는 다음과 같이 정의된 3개의 윈도우들을 포함하며, 여기서 각각 N_l/2는 1024(960, 768)로 설정되고, N_s는 256(240, 192)으로 설정된다.

좌/우 윈도우 절반이 다음으로 주어진다:

제 3 윈도우는 LONG_START_윈도우의 왼쪽 1/2과 같다:

인 경우

중간 윈도잉된 시간 도메인 값들(

)을 야기하는 2개의 1/2 길이 윈도우들 사이의 중첩 및 가산이 다음과 같이 설명된다. 여기서, N_l은 2048(1920, 1536)로, N_s는 256(240, 192)으로 각각 설정된다:

W2를 적용함으로써 최종 윈도잉된 시간 도메인 값들(Zi,n)이 얻어진다:

둘 다 앞에서 설명한 명시적 아니면 암시적 반-하위 호환성 있는 시그널링이 사용되고 있는지와 관계없이, 인터리빙된 스펙트럼들에 대해 의미 있는 동작을 달성하기 위해 xHE-AAC의 복합 예측 스테레오 디코딩에 어떤 수정이 필수적일 수도 있다.

복합 예측 스테레오 디코딩에 대한 변형이 다음과 같이 구현될 수 있다.

FD 스테레오 툴들은 채널 쌍에서 TS가 액티브할 때 인터리빙된 의사 스펙트럼에 대해 작동하기 때문에, 기반이 되는 M/S 또는 복합 예측 처리에는 어떠한 변경들도 필요하지 않다. 그러나 이전 또는 현재 프레임의 어느 한 채널에서 TS가 사용된다면 ISO/IEC 23003-3:2012 섹션 7.7.2에서 이전 프레임의 다운믹스 dmx_re_prev[ ]의 도출 및 다운믹스 MDST dmx_im[ ]의 계산이 적응될 필요가 있다:

TS 활동이 어느 한 채널에서 이전 프레임에서 현재 프레임으로 변경되었다면 use_prev_frame이 0이 되어야 한다. 즉, 그 경우에는 변환 길이 스위칭으로 인해 dmx_re_prev[ ]가 사용되지 않아야 한다.

TS가 액티브했거나 액티브하다면, dmx_re_prev[ ] 및 dmx_re[ ]가 인터리빙된 의사 스펙트럼들을 특정하며, 정확한 MDST 계산을 위해 이들의 대응하는 2개의 1/2 길이 TS 스펙트럼들로 디인터리빙되어야 한다.

TS 활동시, 2회의 1/2 길이 MDST 다운믹스들이 적응된 필터 계수들(표 1과 표 2)을 사용하여 계산되고 전체 길이 스펙트럼 dmx_im[ ](dmx_re[ ]와 같은)으로 인터리빙된다.

window_sequence: 각각의 그룹 윈도우 쌍에 대해 다운믹스 MDST 추정치들이 계산된다. 2개의 1/2 윈도우 쌍들 중 첫 번째 쌍에 대해서만 use_prev_frame이 평가된다. 나머지 윈도우 쌍에 대해서는, MDST 추정에 항상 이전 윈도우 쌍이 사용되며, 이는 use_prev_frame = 1을 의미한다.

윈도우 형상들: 아래 설명되는 것과 같은 필터 계수들인 현재 윈도우에 대한 MDST 추정 파라미터들은 좌우 윈도우 절반의 형상들에 의존한다. 첫 번째 윈도우에 대해, 이는 필터 파라미터들이 현재 및 이전 프레임들의 window_shape 플래그들의 함수임을 의미한다. 나머지 윈도우는 현재 window_shape에만 영향을 받는다. 표1은 현재 윈도우에 대한 MDST 필터 파라미터들(filter_coefs)이다. 표2는 이전 윈도우에 대한 MDST 필터 파라미터들(filter_coefs_prev)

현재 윈도우 시퀀스	왼쪽 1/2: 사인 형상 오른쪽 1/2: 사인 형상	왼쪽 1/2: KBD 형상 오른쪽 1/2: KBD 형상
LONG_START_SEQUENCE STOP_START_SEQUENCE	[0.185618f, -0.000000f, 0.627371f, 0.000000f, -0.627371f, 0.000000f, -0.185618f]	[0.203599f, -0.000000f, 0.633701f, 0.000000f, -0.633701f, 0.000000f, -0.203599f]
현재 윈도우 시퀀스	왼쪽 1/2: 사인 형상 오른쪽 1/2: KBD 형상	왼쪽 1/2: KBD 형상 오른쪽 1/2: 사인 형상
LONG_START_SEQUENCE STOP_START_SEQUENCE	[0.194609f, 0.006202f, 0.630536f, 0.000000f, -0.630536f, -0.006202f, -0.194609f]	[0.194609f, -0.006202f, 0.630536f, 0.000000f, -0.630536f, 0.006202f, -0.194609f]

현재 윈도우 시퀀스	현재 윈도우의 왼쪽 1/2: 사인 형상	현재 윈도우의 왼쪽 1/2: KBD 형상
LONG_START_SEQUENCE STOP_START_SEQUENCE	[0.038498, 0.039212, 0.039645, 0.039790, 0.039645, 0.039212, 0.038498]	[0.038498, 0.039212, 0.039645, 0.039790, 0.039645, 0.039212, 0.038498]

마지막으로, 도 5는 완벽함을 위해, 위에서 개요가 설명된 실시예들에 맞는 변환 길이 스위칭을 지원하는 가능한 주파수 도메인 오디오 인코더를 보여준다. 즉, 일반적으로 참조 부호(100)를 사용하여 표시되는 도 5의 인코더는, 앞서 설명한 도 1의 디코더 및 대응하는 변형들은 프레임들 중 일부에 대해 변환 분할 모드를 이용할 수 있는 반면, "구형" 디코더들은 여전히 파싱 에러들 등 없이 TS 프레임들을 처리할 수 있게 하는 방식으로 오디오 신호(102)를 데이터 스트림(20)으로 인코딩할 수 있다.

도 5의 인코더(100)는 변환기(104), 역스케일러(106), 주파수 도메인 계수 삽입기(108) 및 스케일 팩터 삽입기(110)를 포함한다. 변환기(104)는 인코딩될 오디오 신호(102)를 수신하고, 오디오 신호의 시간 도메인 부분들에 변환을 실시하여 오디오 신호의 프레임들에 대한 주파수 도메인 계수들을 얻도록 구성된다. 특히, 상기 논의로부터 명백해지는 바와 같이, 변환기(104)는 이러한 프레임들(26)에 대한 변환들― 또는 변환 윈도우들 ―로의 어떤 세분이 사용되는지에 대해 프레임 단위로 결정한다. 앞서 설명한 바와 같이, 프레임들(26)은 같은 길이일 수도 있고, 변환은 서로 다른 길이들의 중첩 변환들을 사용하는 중복 변환일 수도 있다. 도 5는 예를 들어, 프레임(26a)에 1회의 긴 변환이 실시되고, 프레임(26b)에 변환 분할이, 즉 1/2 길이의 2회의 변환들이 실시되며, 추가 프레임(26c)은 2회 초과, 즉 2ⁿ>2, 심지어 긴 변환 길이의 2^- ⁿ인 더 짧은 변환들이 실시되는 것으로 도시됨을 나타낸다. 앞서 설명한 바와 같이, 이러한 조치에 의해, 인코더(100)는 변환기(104)에 의해 수행되는 중복 변환으로 표현되는 스펙트럼도의 스펙트럼-시간 분해능을 시간 변화 오디오 콘텐츠 또는 비슷한 오디오 콘텐츠의 오디오 신호(102)에 적응시킬 수 있다.

즉, 주파수 도메인 계수들은 오디오 신호(102)의 스펙트럼도를 나타내는 변환기(104)의 출력에서 나타난다. 역스케일러(106)가 변환기(104)의 출력에 접속되며, 스케일 팩터들에 따라 주파수 도메인 계수들을 역스케일링하고 동시에 양자화하도록 구성된다. 특히, 역스케일러는 주파수 계수들이 변환기(104)에 의해 얻어질 때 이들에 대해 작동한다. 즉, 역스케일러(106)는 반드시 프레임들(26)에 대한 변환 길이 할당 또는 변환 모드 할당을 알 필요가 있다. 역스케일러(106)는 스케일 팩터들을 결정할 필요가 있다는 점 또한 주목한다. 역스케일러(106)는 이 때문에 예를 들어, 가능한 한 어떤 비트레이트 제약을 따르거나 또는 따르지 않고, 양자화에 의해 유입되며 스케일 팩터들에 따라 점진적으로 설정되는 양자화 잡음을 검출의 청감 임계치 아래로 유지하도록 오디오 신호(102)에 대해 결정된 청감 마스킹 임계치를 평가하는 피드백 루프의 일부이다.

역스케일러(106)의 출력에서, 스케일 팩터들 및 역스케일링되고 양자화된 주파수 도메인 계수들이 출력되며, 스케일 팩터 삽입기(110)는 스케일 팩터들을 데이터 스트림(20)에 삽입하도록 구성되는 반면, 주파수 도메인 계수 삽입기(108)는 스케일 팩터들에 따라 역스케일링되고 양자화된 오디오 신호의 프레임들의 주파수 도메인 계수들을 데이터 스트림(20)에 삽입하도록 구성된다. 디코더에 대응하는 방식으로, 두 삽입기들(108, 110) 모두 긴 변환 모드의 프레임들(26a) 및 변환 분할 모드의 프레임들(26b)의 병치에 관한 한 프레임들(26)과 연관된 변환 모드와 관계없이 작동한다.

즉, 삽입기들(110, 108)은 변환기(104)가 프레임들(26a, 26b) 각각에 대해 데이터 스트림(20)으로 시그널링하거나 이에 삽입하도록 구성되는, 앞서 언급한 신호화(34)와 독립적으로 작동한다.

즉, 상기 실시예에서, 이는 긴 변환 및 분할 변환 프레임들의 변환 계수들을 적절히, 즉 평평한 직렬 정렬 또는 인터리빙에 의해 정렬하는 변환기(104)이며, 삽입기는 실제로 신호화(34)와 독립적으로 작동한다. 그러나 보다 일반적인 의미로, 신호화에 따르면, 스케일 팩터들에 따라 역스케일링된 각각의 긴 변환 및 분할 변환 오디오 신호의 프레임들의 주파수 도메인 계수들의 시퀀스가 프레임이 긴 변환 프레임인 경우에는 각각의 프레임의 1회의 변환의 주파수 도메인 계수들을 인터리빙되지 않는 방식으로 순차적으로 정렬함으로써, 그리고 각각의 프레임이 분할 변환 프레임인 경우에는 각각의 프레임의 1회를 초과하는 변환의 주파수 도메인 계수들을 인터리빙함으로써 형성된다는 점에서, 이는 이러한 주파수 도메인 계수들의 시퀀스에 대한 데이터 스트림으로의 삽입으로 제한된다면 충분하다.

주파수 도메인 계수 삽입기(108)에 관한 한, 이것이 한편으로는 프레임들(26a) 그리고 다른 한편으로는 프레임들(26b) 간에 구별하는 신호화(34)와는 독립적으로 작동한다는 사실은, 삽입기(108)가 각각의 프레임에 대해 인터리빙되지 않는 방식으로 1회의 변환이 수행되는 경우에는 스케일 팩터들에 따라 역스케일링된 오디오 신호의 프레임들의 주파수 도메인 계수들을 순차적인 방식으로 데이터 스트림(20)에 삽입하고, 각각의 프레임에 대해 1회를 초과하는, 즉 도 5의 예에서는 2회의 변환이 수행되는 경우에는 인터리빙을 사용하여 각각의 프레임들의 주파수 도메인 계수들을 삽입함을 의미한다. 그러나 앞서 이미 언급한 바와 같이, 변환 분할 모드는 또한 1회의 변환을 2회보다 많은 변환들로 분할하도록 다르게 구현될 수도 있다.

마지막으로, 도 5의 인코더는 또한 도 2에 관해 앞서 개요가 설명된 다른 모든 추가 코딩 조치들, 예컨대 MS 코딩, 복합 스테레오 예측(42) 및 TNS를, 이를 위해 그 각각의 파라미터들(44, 48, 64)을 결정하여 수행하도록 적응될 수도 있다는 점이 주목되어야 한다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계가 이러한 장치에 의해 실행될 수도 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

참조들

[1] Internet Engineering Task Force (IETF), RFC 6716, "Definition of the Opus Audio Codec," Proposed Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716.

[2] International Organization for Standardization, ISO/IEC 14496-3:2009, "Information Technology ― Coding of audio-visual objects ― Part 3: Audio," Geneva, Switzerland, Aug. 2009.

[3] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding ― The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.

[4] International Organization for Standardization, ISO/IEC 23003-3:2012, "Information Technology ― MPEG audio ― Part 3: Unified speech and audio coding," Geneva, Jan. 2012.

[5] J.D.Johnston and A.J.Ferreira, "Sum-Difference Stereo Transform Coding", in Proc. IEEE ICASSP-92, Vol. 2, March 1992.

[6] N.Rettelbach, et al., European Patent EP2304719A1, "Audio Encoder, Audio Decoder, Methods for Encoding and Decoding an Audio Signal, Audio Stream and Computer Program", April 2011.

Claims

변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더로서,
데이터 스트림으로부터 오디오 신호의 프레임들의 주파수 도메인 계수들(24)을 추출하도록 구성된 주파수 도메인 계수 추출기(12);
상기 데이터 스트림으로부터 스케일 팩터들을 추출하도록 구성된 스케일 팩터 추출기(14);
상기 스케일 팩터들에 따라 스케일링된, 상기 프레임들의 주파수 도메인 계수들에 역변환을 실시하여 상기 오디오 신호의 시간 도메인 부분들을 얻도록 구성된 역변환기(16);
상기 시간 도메인 부분들을 결합하여 상기 오디오 신호를 얻도록 구성된 결합기(18)를 포함하며,
상기 역변환기는 상기 오디오 신호의 프레임들 내에서의 서로 다른 스펙트럼-시간 분해능들 사이의 스위칭을 시그널링하는 신호화(signalization)에 따라,
상기 스케일 팩터들에 따라 스케일링된, 각각의 프레임의 주파수 도메인 계수들을 디인터리빙되지 않는 방식으로 순차적으로 정렬함으로써 1회의 변환을 형성하고 상기 1회의 변환에 제 1 변환 길이의 역변환을 실시하고, 또는
상기 스케일 팩터들에 따라 스케일링된, 상기 각각의 프레임의 주파수 도메인 계수들을 디인터리빙함으로써 1회를 초과하는 변환을 형성하고 1회를 초과하는 변환들 각각에 상기 제 1 변환 길이보다 더 짧은 제 2 변환 길이의 역변환을 실시하도록 상기 신호화에 응답하고,
상기 주파수 도메인 계수 추출기 및 상기 스케일 팩터 추출기는 상기 신호화와 독립적으로 작동하며,
상기 역변환기는,
상기 1회의 변환의 형성시, 디인터리빙되지 않는 방식으로 순차적으로 정렬된 주파수 도메인 계수들을 N개의 계수들의 시퀀스로서 사용하여 역 시간 잡음 정형 필터링을 적용하고, 그리고
상기 1회를 초과하는 변환들의 형성시, 디인터리빙된 방식― 상기 1회를 초과하는 변환들이 상기 디인터리빙된 방식에 따라 스펙트럼상 연결됨 ―으로 순차적으로 정렬된 주파수 도메인 계수들을 상기 N개의 계수들의 시퀀스로서 사용하여 상기 주파수 도메인 계수들에 대해 상기 역 시간 잡음 정형 필터링을 적용하여,
TNS 계수들(64)에 따라 설정된 전달 함수를 갖는 필터를 상기 N개의 계수들의 시퀀스에 적용함으로써, 상기 신호화와 관계없이 상기 N개의 계수들의 시퀀스에 역 시간 잡음 정형 필터링(62)을 수행하도록 구성되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 스케일 팩터 추출기(14)는 상기 신호화와는 독립적인 스펙트럼-시간 분해능으로 상기 데이터 스트림으로부터 상기 스케일 팩터들을 추출하도록 구성되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 주파수 도메인 계수 추출기(12)는 각각의 주파수 도메인 계수에 대해, 상기 신호화와 관계없이 상기 각각의 주파수 도메인 계수에 동일한 콘텍스트 또는 코드북을 할당하여, 콘텍스트 또는 코드북 기반 엔트로피 디코딩을 사용해 상기 데이터 스트림으로부터 상기 주파수 도메인 계수들을 추출하는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 역변환기는 상기 신호화와는 독립적인 스펙트럼 분해능으로 상기 주파수 도메인 계수들에 상기 스케일 팩터들에 따른 스케일링을 실시하도록 구성되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 역변환기는 상기 주파수 도메인 계수들― 상기 주파수 도메인 계수들은 디인터리빙되지 않는 방식으로 순차적으로 정렬됨 ―에 그리고 상기 신호와는 독립적인 스펙트럼 분해능으로 잡음 채움을 실시하도록 구성되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 역변환기는, 채널 간 스테레오 예측에 의해 또는 채널 간 스테레오 예측 없이 조인트 스테레오 코딩을 지원하고 그리고 상기 신호화와 관계없이, 상기 주파수 도메인 계수들― 상기 주파수 도메인 계수들은 디인터리빙되지 않는 방식으로 정렬됨 ―을 상기 채널 간 스테레오 예측의 합(중간) 또는 차(사이드) 스펙트럼 또는 예측 잔차로서 사용하도록 구성되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 1회를 초과하는 변환들의 횟수는 2와 같고, 상기 제 1 변환 길이는 상기 제 2 변환 길이의 2배인,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
제 1 항에 있어서,
상기 역변환은 수정된 이산 코사인 역변환(IMDCT)(inverse MDCT: inverse modified discrete cosine transform)인,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코더.
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코딩을 위한 방법으로서,
데이터 스트림으로부터 오디오 신호의 프레임들의 주파수 도메인 계수들을 추출하는 단계;
상기 데이터 스트림으로부터 스케일 팩터들을 추출하는 단계;
스케일 팩터들에 따라 스케일링된, 상기 프레임들의 주파수 도메인 계수들에 역변환을 실시하여 상기 오디오 신호의 시간 도메인 부분들을 얻는 단계;
상기 시간 도메인 부분들을 결합하여 상기 오디오 신호를 얻는 단계를 포함하며,
상기 역변환을 실시하는 것은 상기 오디오 신호의 프레임들 내에서의 서로 다른 스펙트럼-시간 분해능들 사이의 스위칭을 시그널링하는 신호화(signalization)에 따라,
각각의 프레임의 주파수 도메인 계수들을 디인터리빙되지 않는 방식으로 순차적으로 정렬함으로써 1회의 변환을 형성하고 상기 1회의 변환에 제 1 변환 길이의 역변환을 실시하는 단계, 또는
상기 각각의 프레임의 주파수 도메인 계수들을 디인터리빙함으로써 1회를 초과하는 변환을 형성하고 1회를 초과하는 변환들 각각에 상기 제 1 변환 길이보다 더 짧은 제 2 변환 길이의 역변환을 실시하는 단계를 포함하도록 상기 신호화에 응답하고,
상기 주파수 도메인 계수들의 추출 및 상기 스케일 팩터들의 추출은 상기 신호화와 독립적으로 작동하며,
상기 역변환을 실시하는 단계는,
상기 1회의 변환의 형성시, 디인터리빙되지 않는 방식으로 순차적으로 정렬된 주파수 도메인 계수들을 N개의 계수들의 시퀀스로서 사용하여 역 시간 잡음 정형 필터링을 적용하고, 그리고
상기 1회를 초과하는 변환들의 형성시, 디인터리빙된 방식― 상기 1회를 초과하는 변환들이 상기 디인터리빙된 방식에 따라 스펙트럼상 연결됨 ―으로 순차적으로 정렬된 주파수 도메인 계수들을 N개의 계수들의 시퀀스로서 사용하여 상기 주파수 도메인 계수들에 대해 상기 역 시간 잡음 정형 필터링을 적용하여,
TNS 계수들(64)에 따라 설정된 전달 함수를 갖는 필터를 상기 N개의 계수들의 시퀀스에 적용함으로써, 상기 신호화와 관계없이 상기 N개의 계수들의 시퀀스에 역 시간 잡음 정형 필터링(62)을 수행하는 단계를 포함하는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 디코딩을 위한 방법.
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 인코더로서,
오디오 신호의 시간 도메인 부분들에 변환을 실시하여 상기 오디오 신호의 프레임들의 주파수 도메인 계수들을 얻도록 구성된 변환기(104);
스케일 팩터들에 따라 상기 주파수 도메인 계수들을 역스케일링하도록 구성된 역스케일러(106);
스케일 팩터들에 따라 역스케일링된, 상기 오디오 신호의 프레임들의 주파수 도메인 계수들을 데이터 스트림에 삽입하도록 구성된 주파수 도메인 계수 삽입기(108); 및
상기 데이터 스트림에 스케일 팩터들을 삽입하도록 구성된 스케일 팩터 삽입기(110)를 포함하며,
상기 변환기는 오디오 신호들의 프레임들에 대해 적어도,
각각의 프레임에 대해 제 1 변환 길이의 1회의 변환을 수행하는 것과,
상기 각각의 프레임에 대해, 상기 제 1 변환 길이보다 더 짧은 제 2 변환 길이에 대한 1회를 초과하는 변환을 수행하는 것 간에 스위칭하도록 구성되고,
상기 변환기는 상기 데이터 스트림의 프레임들 내에서의 신호화에 의해 상기 스위칭을 시그널링하도록 추가로 구성되며;
상기 주파수 도메인 계수 삽입기는,
상기 신호화에 따라,
각각의 프레임에 대해 수행되는 1회의 변환의 경우에는 인터리빙되지 않는 방식으로 상기 각각의 프레임의 상기 1회의 변환의 주파수 도메인 계수들을 순차적으로 정렬함으로써, 그리고
상기 각각의 프레임에 대해 수행되는 1회를 초과하는 변환의 경우에는 상기 각각의 프레임의 상기 1회를 초과하는 변환의 주파수 도메인 계수들을 인터리빙함으로써,
상기 주파수 도메인 계수들의 시퀀스를 형성하고,
상기 신호화와는 독립적인 방식으로, 스케일 팩터들에 따라 역스케일링된 상기 오디오 신호의 각각의 프레임의 주파수 도메인 계수들의 시퀀스를 상기 각각의 프레임에 대해, 상기 데이터 스트림에 삽입하도록 구성되며,
상기 스케일 팩터 삽입기는 상기 신호화와는 독립적으로 작동하고,
상기 인코더는,
상기 신호화와 관계없는 방식으로 TNS 계수들(64)을 결정하도록 N개의 계수들의 시퀀스에 시간 잡음 정형을 수행하도록 구성되며,
1회의 변환의 수행의 경우, 디인터리빙되지 않는 방식으로 순차적으로 정렬된 주파수 도메인 계수들이 상기 N개의 계수들의 시퀀스로서 사용되고,
1회를 초과하는 변환의 수행의 경우, 디인터리빙된 방식― 상기 1회를 초과하는 변환들이 상기 디인터리빙된 방식에 따라 스펙트럼상 연결됨 ―으로 순차적으로 정렬된 주파수 도메인 계수들이 상기 N개의 계수들의 시퀀스로서 사용되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 인코더.
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 인코딩을 위한 방법으로서,
오디오 신호의 시간 도메인 부분들에 변환을 실시하여 상기 오디오 신호의 프레임들의 주파수 도메인 계수들을 얻는 단계;
스케일 팩터들에 따라 상기 주파수 도메인 계수들을 역스케일링하는 단계;
스케일 팩터들에 따라 역스케일링된, 상기 오디오 신호의 프레임들의 주파수 도메인 계수들을 데이터 스트림에 삽입하는 단계; 및
상기 데이터 스트림에 스케일 팩터들을 삽입하는 단계를 포함하며,
상기 변환의 실시는 상기 오디오 신호의 프레임들에 대해 적어도,
각각의 프레임에 대해 제 1 변환 길이의 1회의 변환을 수행하는 것과,
상기 각각의 프레임에 대해, 상기 제 1 변환 길이보다 더 짧은 제 2 변환 길이에 대한 1회를 초과하는 변환을 수행하는 것 간에 스위칭하고,
상기 방법은 상기 데이터 스트림의 프레임들 내에서의 신호화에 의해 상기 스위칭을 시그널링하는 단계를 포함하며;
상기 주파수 도메인 계수들의 삽입은,
상기 신호화에 따라,
각각의 프레임에 대해 수행되는 1회의 변환의 경우에는 인터리빙되지 않는 방식으로 상기 각각의 프레임의 상기 1회의 변환의 주파수 도메인 계수들을 순차적으로 정렬함으로써, 그리고
상기 각각의 프레임에 대해 수행되는 1회를 초과하는 변환의 경우에는 상기 각각의 프레임의 상기 1회를 초과하는 변환의 주파수 도메인 계수들을 인터리빙함으로써,
상기 주파수 도메인 계수들의 시퀀스를 형성하고,
상기 신호화와는 독립적인 방식으로, 스케일 팩터들에 따라 역스케일링된 상기 오디오 신호의 각각의 프레임의 주파수 도메인 계수들의 시퀀스를 상기 각각의 프레임에 대해, 상기 데이터 스트림에 삽입함으로써 수행되며,
상기 스케일 팩터들의 삽입은 상기 신호화와는 독립적으로 수행되고,
상기 방법은,
상기 신호화와 관계없는 방식으로 TNS 계수들(64)을 결정하도록 N개의 계수들의 시퀀스에 시간 잡음 정형을 수행하는 단계를 포함하며,
1회의 변환의 수행의 경우, 디인터리빙되지 않는 방식으로 순차적으로 정렬된 주파수 도메인 계수들이 상기 N개의 계수들의 시퀀스로서 사용되고,
1회를 초과하는 변환의 수행의 경우, 디인터리빙된 방식― 상기 1회를 초과하는 변환들이 상기 디인터리빙된 방식에 따라 스펙트럼상 연결됨 ―으로 순차적으로 정렬된 주파수 도메인 계수들이 상기 N개의 계수들의 시퀀스로서 사용되는,
변환 길이 스위칭을 지원하는 주파수 도메인 오디오 인코딩을 위한 방법.
컴퓨터 상에서 실행될 때, 제 9 항 또는 제 11 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장하는 컴퓨터로 판독가능한 저장 매체.
삭제