KR20180095863A

KR20180095863A - 인코딩된 오디오 신호를 처리하기 위한 장치 및 방법

Info

Publication number: KR20180095863A
Application number: KR1020187020092A
Authority: KR
Inventors: 안드레아스 니더마이더; 사스카 디쉬
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-12-14
Filing date: 2016-12-08
Publication date: 2018-08-28
Also published as: EP3391373B1; MX2018007197A; BR112018012007B1; US11862184B2; CN108701467B; SG11201805008YA; ES2960963T3; AU2016373990A1; CA3008388C; CA3008388A1; JP2019502948A; RU2687872C1; CN108701467A; MY191239A; KR102625047B1; TW201730876A; AR106970A1; BR112018012007A2; EP3391373A1; TWI625722B

Abstract

본 발명은 인코딩된 오디오 신호(100)를 처리하기 위한 장치와 관련이 있다. 오디오 신호(100)는 일련의 액세스 유닛들(100')을 포함하며, 각각의 액세스 유닛은 제1 스펙트럼 폭을 갖는 코어 신호(101) 및 제1 스펙트럼 폭을 넘는 스펙트럼을 기술하는 파라미터들을 포함한다. 이 장치는: 인코딩된 오디오 신호(100)의 액세스 유닛(100')으로부터 상기 코어 신호(101) 및 상기 파라미터들의 세트(102)를 생성하기 위한 디멀티플렉서(1), 상기 액세스 유닛(100')의 상기 코어 신호(101)를 업샘플링하고 제1 업샘플링된 스펙트럼(103) 및 시간상 연속한 제2 업샘플링된 스펙트럼(103')을 출력하기 위한 업샘플러(2) ― 제1 업샘플링된 스펙트럼(103)과 제2 업샘플링된 스펙트럼(103')은 둘 다 코어 신호(101)와 동일한 콘텐츠를 가지며 코어 스펙트럼(101)의 제1 스펙트럼 폭보다 더 큰 제2 스펙트럼 폭을 가짐 ―, 변환된 파라미터들(104, 104')을 얻도록 상기 액세스 유닛(100')의 상기 파라미터들의 세트(102)의 파라미터들을 변환하기 위한 파라미터 변환기(3), 및 상기 변환된 파라미터들(104)을 사용하여 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 처리하기 위한 스펙트럼 갭 채움 프로세서(4)를 포함한다. 본 발명은 또한 대응하는 방법과 관련이 있다.

Description

인코딩된 오디오 신호를 처리하기 위한 장치 및 방법

본 발명은 인코딩된 오디오 신호를 처리하기 위한 장치 및 대응하는 방법에 관한 것이다.

지각 오디오 코딩은 효율적인 저장, 처리, 송신 및 재생을 가능하게 하기 위해 지각적으로 적응된 방식으로의 사운드의 디지털 표현 기법이다. 비트 소비를 더 줄이기 위한 필수 도구는 대역폭 확장(BWE: bandwidth extension)이라 하는 준모수적(semi-parametric) 방법이다. 이 기법은 누락된 고주파 대역들(HF)의 파라미터 제어 추정치를 부가함으로써, 보다 저주파 대역들(LF)로 대역 제한되는 지각 인코딩된 신호를 확장시킨다. 흔히, 이것은 LF 스펙트럼의 전위 및 후속 에너지 포락선 조정에 의해 달성된다. 대개, 지각적으로 관련된 몇 개의 파라미터들(잡음 레벨, 조성(tonality) 등)이 함께 조정된다.

스펙트럼 대역 복제(SBR: Spectral Band Replication) 및 지능형 갭 채움(IGF: Intelligent Gap Filling)은 대역폭 확장 기능을 제공하는 현대 기술들이다. IGF(WO 2015/010948 A1과 비교)는 높은 코딩 효율을 제공함과 동시에 SBR(WO 98/57436 A2와 비교)에 필적하는 지각 품질에서 낮은 계산 복잡성을 제공한다.

SBR 및 IGF의 고주파 대역들에서 스펙트럼 포락선들의 추정은 각각 직각 대칭 필터(QMF: Quadrature Mirror Filter) 및 변조 복소 중복 변환(MCLT: Modulated Complex Lapped Transform)의 필터 뱅크들을 사용하여 수행된다.

이는 기존의 SBR 인코딩된 오디오 자료를 IGF 기반의 표현으로 업데이트하는 것을 매력적인 작업으로 만든다. 간단하지만 번거로운 접근 방식은 SBR 기반 콘텐츠를 펄스 코드 변조(PCM: pulse code modulation) 시간 도메인 신호로 디코딩하고, 그 다음에 이 신호를 IGF 기반 포맷으로 다시 인코딩하는 것을 포함하는 텐덤(tandem) 코딩이다.

따라서 본 발명의 목적은 원래의 인코딩과는 다른 인코딩을 사용하여 인코딩된 오디오 신호인 직접 트랜스코딩된 오디오 신호를 얻기 위해 인코딩된 오디오 신호를 처리하는 것이다. 또한, 본 발명의 목적은 오디오 신호를 얻기 위해, 인코딩된 오디오 신호를 다른 디코딩 방법의 이점들을 사용하여 디코딩함으로써 인코딩된 오디오 신호를 처리하는 것이다.

이러한 목적들은 청구항 1에 따른 인코딩된 오디오 신호를 처리하기 위한 장치 및 청구항 22에 따른 대응하는 방법에 의해 달성된다.

본 발명의 장치를 통해 또는 본 발명의 방법에 의해 처리될 인코딩된 오디오 신호는 일련의 액세스 유닛들을 포함한다. 각각의 액세스 유닛은 제1 스펙트럼 폭을 갖는 코어 신호 및 제1 스펙트럼 폭을 넘는 스펙트럼을 기술하는 파라미터들을 포함한다.

이러한 인코딩된 오디오 신호를 처리하기 위한 본 발명의 장치는 다음을 포함한다:

인코딩된 오디오 신호의 액세스 유닛으로부터 상기 코어 신호 및 상기 파라미터들의 세트를 생성하기 위한 디멀티플렉서. 즉: 디멀티플렉서는 인코딩된 오디오 신호의 액세스 유닛들로부터 코어 신호 및 코어 신호에 대응하는 스펙트럼을 넘는 누락 스펙트럼을 재구성할 수 있게 하는 파라미터들을 추출한다.

상기 액세스 유닛의 상기 코어 신호를 업샘플링하고 제1 업샘플링된 스펙트럼 및 시간상 연속한 제2 업샘플링된 스펙트럼을 출력하기 위한 업샘플러. 제1 업샘플링된 스펙트럼과 제2 업샘플링된 스펙트럼은 둘 다 코어 신호와 동일한 콘텐츠를 가지며 코어 스펙트럼의 제1 스펙트럼 폭보다 더 큰 제2 스펙트럼 폭을 갖는다. 다시 말해서: 업샘플러는 코어 신호를 업샘플링하고 적어도 2개의 업샘플링된 스펙트럼들을 출력한다. 업샘플링된 스펙트럼들은 시간상 연속적이며, 코어 신호와 동일한 정보를 커버하고, 코어 신호의 스펙트럼 폭보다 더 큰 스펙트럼 폭을 갖는다.

변환된 파라미터들을 얻도록 상기 액세스 유닛의 상기 파라미터들의 세트의 파라미터들을 변환하기 위한 파라미터 변환기. 다시 말해서: 인코딩된 오디오 신호 내의 파라미터는 업샘플링된 스펙트럼들에 적용될 수 있는 파라미터로 변환된다.

상기 변환된 파라미터들을 사용하여 상기 제1 업샘플링된 스펙트럼 및 상기 제2 업샘플링된 스펙트럼을 처리하기 위한 스펙트럼 갭 채움 프로세서. 다시 말해서: 스펙트럼 갭 채움 프로세서는 업샘플링된 스펙트럼들과 변환된 파라미터를 결합한다. 그 결과는 ― 실시예에 따라 ― 트랜스코딩된 오디오 신호가 인코딩된 오디오 신호이지만 원래의 또는 입력된 인코딩된 오디오 신호와는 다른 기법을 이용하는 것일 수 있고 또는 그 결과가 오디오 신호가 될 수 있다.

일 실시예에서, 업샘플러는 상기 코어 신호의 스펙트럼의 상위 부분을 0들로 채우고 코어 신호의 채워진 스펙트럼으로부터 제1 업샘플링된 스펙트럼 및 제2 업샘플링된 스펙트럼을 도출하도록 구성된다.

한 실시예에서, 업샘플링은 인코딩된 오디오 신호의 적어도 2개의 액세스 유닛들에 기초하여 이루어진다. 이 실시예에서, 업샘플러는 상기 액세스 유닛 바로 앞의 액세스 유닛의 코어 신호를 추가로 사용하여 상기 액세스 유닛의 상기 코어 신호를 업샘플링하도록 구성된다. 따라서 업샘플링된 스펙트럼들을 얻기 위해 2개의 액세스 유닛들의 정보가 필요하고 사용된다.

추가 실시예에서, 업샘플러는 제1 수의 시간상 연속한 액세스 유닛들의 코어 신호들을 수집하고 이러한 코어 신호들로부터 정수가 아닌 업샘플링 비에 대해 제2 수의 업샘플링 스펙트럼들을 처리하도록 구성되며, 여기서 제1 수는 비의 분모이고 제2 수는 비의 지명자(nominator)이다.

한 실시예에 따르면, 파라미터 변환기는 상기 파라미터들의 세트 중 시간상 연속한 타임슬롯들의 제1 부분을 나타내는 제1 서브세트의 파라미터들을 변환하고 상기 파라미터들의 세트 중 상기 타임슬롯들의 제1 부분에 시간상 연속한 상기 타임슬롯들의 제2 부분을 나타내는 제2 서브세트의 파라미터들을 변환하도록 구성된다. 또한, 스펙트럼 갭 채움 프로세서는 변환된 제1 서브세트의 파라미터들을 제1 업샘플링된 스펙트럼으로 처리하고 변환된 제2 서브세트의 파라미터들을 제2 업샘플링된 스펙트럼으로 처리하도록 구성된다. 이 실시예에서, 인코딩된 오디오 신호의 파라미터는, 바람직하게는 프레임에 속하는 타임슬롯들을 나타낸다.

한 실시예에서, 변환기는 상기 파라미터들의 세트 중 에너지 값들을 나타내는 파라미터들을, 이러한 파라미터 값들을 주어진 스케일 계수로 스케일링함으로써 스펙트럼 갭 채움 프로세서에 의해 사용 가능한 에너지 값들로 변환하도록 구성된다.

일 실시예에서, 스케일 계수는 상수 값을 갖는다.

일 실시예에서, 스케일 계수는 주어진 인코딩된 오디오 신호의 요건들에 적응된다. 따라서 변환기는 액세스 유닛과 연관된 윈도우 함수에 관한 정보를 추출하도록 구성된다. 또한, 변환기는 윈도우 함수에 따라 스케일 계수를 적응시키도록 구성된다.

동기화를 위해, 일 실시예에서, 변환기는 지연 보상을 삽입함으로써 상기 파라미터들의 세트의 파라미터들을 시프트하도록 구성된다.

MCLT 및 QMF 변환의 예에서, 지연 불일치는 다음과 같이 고려될 수 있다. 이것은 MCLT 에너지가 긴 블록(LB: Long block) 윈도우를 사용하여 정의된다는 가정 하에서 이루어진다. 변환들 사이의 에너지들을 비교하기 위해서는, 각각의 프로토타입 윈도우들의 무게 중심(CG: center of gravity)이 정렬되도록 윈도우들이 데이터에 동기식으로 배치되어야 한다. 계량 계수는 CG에서 1이다.

QMF 분석에 사용되는 프로토타입 윈도우는 저역 통과 FIR 필터일 수 있다. 윈도우의 계수들은 최적의 측대역 억제를 위해 최적화되어, 바람직하게는 적절한 측대역 감쇠를 보증하는 윈도우 에지들에서 매끄러운 롤오프(roll-off)를 갖는 대칭 윈도우를 야기한다. 윈도우의 길이는 640일 수 있으며, 윈도우 스트라이드(stride)의 홉 크기는 64 샘플 길이이다.

MCLT 구현을 위해 대칭 사인 윈도우가 사용될 수 있다. 윈도우는 예컨대, 긴 블록들에 대해서는 2048개 샘플들의 길이를 갖는 한편, 짧은 블록들은 256개 샘플들의 길이를 갖는다. 이것은 긴 블록들의 크기의 8분의 1이다. 윈도우 스트라이드의 홉 크기는 긴 블록과 짧은 블록에 대해 각각 1024개 및 128개의 샘플들인데, 이는 변환들의 주파수 분해능과 동일하다.

예를 들어, IGF에서 사용되는 MCLT 프로토타입 윈도우들은 2N = 2048개 샘플들의 길이에 걸쳐 있으며 50%의 중첩을 갖는다. 짧은 블록 중앙의 짧은 윈도우들은 N/4의 길이를 갖고 양쪽에 448개 샘플들의 오프셋들을 갖는다. 따라서 N개 샘플들의 그 홉 크기는 첫 번째 입력 샘플들을 캡처하는 한편, 지연(τ1)은 1024개의 샘플들로 구성된다.

QMF 프로토타입 윈도우는 10M = 640개 샘플들의 길이에 걸칠 수 있으며 서브 샘플이라 하는 M개 샘플들의 홉 크기를 가질 수 있다. 홉 크기는 또한 QMF 서브 샘플에서의 부대역들의 수인 M에 해당한다. 지연 보상(τ2)은 (윈도우 길이 - 윈도우 홉 크기 = 640 - 64개 샘플들)로 계산될 수 있으며 576개의 샘플들이다.

한 실시예에 따르면, 업샘플러는 상기 코어 신호의 값들을 보간함으로써 상기 코어 신호를 업샘플링하도록 구성된다.

한 실시예에서, 업샘플러는 다음과 같이 구성된다:

업샘플러는 앞선 액세스 유닛의 코어 신호의 스펙트럼을 0들로 채우도록 구성된다.

업샘플러는 액세스 유닛의 코어 신호의 스펙트럼을 0들로 채우도록 구성된다.

업샘플러는 액세스 유닛의 채워진 스펙트럼 및 앞선 액세스 유닛의 채워진 스펙트럼의 역변환을 수행하도록 구성된다.

마지막으로, 업샘플러는 앞선 액세스 유닛의 채워진 스펙트럼에 대한 시간 도메인 신호와 액세스 유닛의 채워진 스펙트럼에 대한 시간 도메인 신호의 중첩 가산을 수행하여 중간 시간 신호를 획득하도록 구성된다.

앞서 말한 실시예에 기초하여, 한 실시예에 따르면, 업샘플러는 중간 시간 신호의 제1 부분으로 순방향 변환을 수행하여 제1 업샘플링된 스펙트럼을 획득하도록 구성된다. 업샘플러는 중간 시간 신호의 제2 부분으로 순방향 변환을 수행하여 제2 업샘플링된 스펙트럼도 또한 얻도록 구성된다. 이것은 제1 부분이 제2 부분과 중첩한다는 제약 하에서 이루어진다.

한 실시예에 따르면, 업샘플러는 업샘플링된 코어 신호를 얻기 위해 상기 코어 신호를 업샘플링하도록 구성되고, 업샘플러는 시간 도메인 신호를 얻기 위해 상기 업샘플링된 코어 신호에 대해 역변환을 수행하도록 구성되며, 업샘플러는 변환을 적용함으로써, 상기 시간 도메인 신호를 처리하여 상기 제1 업샘플링된 스펙트럼 및 상기 시간상 연속한 제2 업샘플링된 스펙트럼을 획득하도록 구성된다. 여기서 역변환은 변환의 역변환이다.

앞서 말한 실시예에 관한 일 실시예에서, 역변환은 수정 이산 코사인 역변환이고, 변환은 수정 이산 코사인 변환이다.

일 실시예에서, 스펙트럼 갭 채움 프로세서는 변환된 파라미터들로 제1 업샘플링된 스펙트럼 및 제2 업샘플링된 스펙트럼을 처리하여 시간 도메인 출력 신호를 얻도록 구성된다.

다음의 실시예에서, 스펙트럼 갭 채움 프로세서는 변환된 파라미터들의 제1 부분을 제1 업샘플링된 스펙트럼에 적용하여 제1 처리된 스펙트럼을 얻고 변환된 파라미터들의 제2 부분을 제2 업샘플링된 스펙트럼에 적용하여 제2 처리된 스펙트럼을 얻도록 구성된다.

한 실시예에 따르면, 스펙트럼 갭 채움 프로세서는 제1 처리된 스펙트럼 및 제2 처리된 스펙트럼을 시간 도메인으로 변환하기 위한 스펙트럼 변환기를 포함하도록 구성되며, 스펙트럼 갭 채움 프로세서는 오디오 신호를 얻기 위해 적어도 2개의 출력 시간 신호들을 중첩 가산하도록 구성된 오디오 가산기를 포함하도록 구성된다.

한 실시예에서, 스펙트럼 갭 채움 프로세서는 제1 액세스 유닛 및 제2 액세스 유닛을 갖는 스펙트럼 갭 채움 코딩된 신호를 생성하도록 구성되며, 제1 액세스 유닛은 제1 업샘플링된 스펙트럼의 변환된 버전 및 변환된 파라미터의 제1 부분을 포함하고, 제2 액세스 유닛은 제2 업샘플링된 스펙트럼의 변환된 버전 및 변환된 파라미터의 제2 부분을 포함한다.

한 실시예에 따르면, 스펙트럼 갭 채움 프로세서는 제1 액세스 유닛 및 제2 액세스 유닛을 갖는 출력 데이터 스트림을 생성하도록 구성된다. 이 데이터 스트림은 예를 들어, 트랜스코딩된 오디오 신호인 IGF 인코딩된 오디오 신호이다.

일 실시예에서, 스펙트럼 갭 채움 프로세서는 상기 변환된 파라미터들로 상기 제1 업샘플링된 스펙트럼 및 상기 제2 업샘플링된 스펙트럼을 처리하여 2개의 트랜스코딩된 액세스 유닛들을 얻도록 구성되고, 스펙트럼 갭 채움 프로세서는 상기 2개의 트랜스코딩된 액세스 유닛들을 가산하여 트랜스코딩된 오디오 신호를 얻도록 구성된다.

장치가 트랜스코더로서 작동하여 트랜스코딩된 오디오 신호를 출력하는 경우, 다음에 일 실시예에 따르면, 트랜스코딩된 오디오 신호는 IGF 인코딩된 오디오 신호이다.

한 실시예에 따르면, 인코딩된 오디오 신호는 SBR 인코딩된 오디오 신호이다.

본 발명은 또한, 인코딩된 오디오 신호를 처리하기 위한 방법과 관련이 있다. 인코딩된 오디오 신호는 일련의 액세스 유닛들을 포함하며, 각각의 액세스 유닛은 제1 스펙트럼 폭을 갖는 코어 신호 및 제1 스펙트럼 폭을 넘는 스펙트럼을 기술하는 파라미터들을 포함한다.

본 발명의 방법은 적어도 다음의 단계들을 포함한다:

인코딩된 오디오 신호의 액세스 유닛― 이 액세스 유닛은 현재 액세스 유닛이라 할 수 있음 ―으로부터 상기 코어 신호 및 상기 파라미터들의 세트를 생성하는 단계.

상기 액세스 유닛의 상기 코어 신호를 업샘플링하고 제1 업샘플링된 스펙트럼 및 시간상 연속한 제2 업샘플링된 스펙트럼을 출력하는 단계. 제1 업샘플링된 스펙트럼과 제2 업샘플링된 스펙트럼은 둘 다 코어 신호와 동일한 콘텐츠를 가지며 코어 스펙트럼의 제1 스펙트럼 폭보다 더 큰 제2 스펙트럼 폭을 갖는다.

변환된 파라미터들을 얻도록 상기 액세스 유닛의 상기 파라미터들의 세트의 파라미터들을 변환하는 단계.

상기 변환된 파라미터들을 사용하여 상기 제1 업샘플링된 스펙트럼 및 상기 제2 업샘플링된 스펙트럼을 처리하는 단계.

장치의 앞서 언급한 실시예들은 또한 방법의 단계들 및 방법의 대응하는 실시예들에 의해 수행될 수 있다.

일 실시예에서, 인코딩된 오디오 신호의 처리는 오디오 신호를 생성하기 위한 인코딩된 오디오 신호의 디코딩에 관련된다. 다른 실시예에서, 인코딩된 오디오 신호의 처리는 인코딩된 오디오 신호를 다르게 인코딩된 또는 트랜스코딩된 오디오 신호로 직접 트랜스코딩하는 것이다. 따라서 트랜스코더는 제1 인코딩 방법을 이용한 ― 제1 ― 인코딩된 오디오 신호로부터 다른 종류의 제2 인코딩을 기초로 ― 제2 ― 인코딩된 오디오 신호를 생성한다.

인코딩된 오디오 신호는 코어 신호 및 코어 신호를 넘는 원래의 오디오 신호의 누락 부분들을 기술하는 파라미터를 포함한다. 파라미터는 예컨대, 주어진 수의 타임슬롯들 및 대응하는 에너지 값들 또는 에너지들을 갖는 프레임들에서 주어진 스펙트럼 포락선을 포함한다. 파라미터들에 대해, 서로 다른 필터 뱅크들이 사용될 수 있다.

본 발명의 이점들은 파라미터 매핑에서의 고정밀도, 추가 트랜스코딩 아티팩트들의 최소화 및 감소된 계산 복잡성이다.

본 발명은 첨부 도면들에 도시된 실시예와 관련하여 다음에 설명될 것이다.

이어서 본 발명의 선호되는 실시예들이 첨부 도면들에 관해 논의된다.
도 1은 인코딩된 오디오 신호의 코어 신호를 예시한다.
도 2는 본 발명의 적용 중에 발생하는 스펙트럼을 예시한다.
도 3은 QMF(직각 대칭 필터, 상단 행) 및 MCLT(변조 복소 중복 변환, 하단 행)를 이용한 오디오 신호의 두 가지 변환들의 비교를 예시한다.
도 4는 MCLT에 의한 시간상 연속한 QMF 값들의 윈도우 처리(windowing)를 예시한다.
도 5는 각각 MCLT 및 QMF의 대수 에너지 값들 및 평균 오프셋을 예시한다.
도 6은 정지-시작 윈도우 시퀀스를 예시한다.
도 7은 최신 기술에 따른 디코더를 예시한다.
도 8은 인코딩된 오디오 신호를 트랜스코딩하기 위한 장치의 한 실시예를 블록도로서 예시한다.
도 9는 인코딩된 오디오 신호를 디코딩하기 위한 장치의 한 실시예를 블록도로서 예시한다.
도 10은 예컨대, 도 8 및 도 9에 각각 도시된 실시예들에서 사용되는 업샘플러의 한 실시예를 예시한다.
도 11은 도 10에 도시된 업샘플러의 파라미터 변환기의 작동을 예시한다.
도 12는 3:8 비의 코어 신호들의 업샘플링을 예시한다.
도 13은 액세스 유닛들에 적용되는 중첩 가산 시퀀스를 예시한다.
도 14는 본 발명의 장치를 블록도로서 예시한다.
도 15는 흐름도를 사용하여 본 발명의 방법을 예시한다.

다음에, 인코딩된 오디오 신호는 SBR 인코딩된 오디오 신호의 일례이지만, 본 발명은 이러한 종류의 인코딩된 오디오 신호들에 한정되지 않는다. 이것은 또한 SBR 인코딩된 오디오 신호가 트랜스코딩되거나 어떤 종류의 대응 신호들 또는 스펙트럼들이 임의의 중간 단계에서 처리되는 그러한 종류의 인코딩된 오디오 신호에 대해서도 유효하다. 여기는 이것은 IGF 인코딩된 오디오 신호의 많은 가능성들의 일례이다.

SBR 데이터를 IGF 표현으로 트랜스코딩하기 위해, 다음 단계들 중 적어도 일부가 수행된다:

SBR 카피업(copy-up) 콘텐츠를 IGF 준수 카피업 자료로 대체.

데이터 동기화를 위한 MDCT에 대한 QMF의 지연 보상 삽입.

(QMF 기반 에너지 측정을 통한) SBR에 의해 도출된 스펙트럼 고대역 포락선의 MCLT 표현으로의 매핑.

기본 SBR 시간-주파수 그리드의 IGF의 시간-주파수 그리드로의 매핑: 매핑 함수는 서로 다른 타입들의 윈도우 처리 방식들에 따라, QMF 에너지들로부터 MCLT 에너지들을 도출하도록 적응된다.

바람직하게는, 임의의 바이어스를 제거하고 잔류 오차를 최소화하도록 에너지 보정 계수의 적용.

바람직하게는, 나머지 SBR 부가 정보(예컨대, 잡음 플로어, 역 필터링 레벨로도 알려진 조성 등)를 적절한 IGF 파라미터들로 변환: 예컨대, SBR의 역 필터링 레벨이 IGF의 적절한 백색화 레벨에 매핑되어 최적의 지각 품질을 제공한다.

도 1은 여기서는 0에서부터 f_xo 주파수까지 이르는 제한된 제1 스펙트럼 폭을 갖는 인코딩된 오디오 신호의 액세스 유닛의 코어 신호(101)를 도시한다. 인코딩된 오디오 신호의 파라미터들은 이 코어 신호(101)를 넘어 여기서는 2*f_xo 주파수까지 이르는 스펙트럼을 기술한다.

이것은 도 2에 도시된 스펙트럼과 비교되어야 한다. 여기서, 업샘플링된 스펙트럼은 도 1의 코어 신호와 동일한 정보 콘텐츠를 포함하고, 이 코어 신호를 넘는 주파수들에 대해 0 값들을 전달한다. 제2 스펙트럼 폭은 이 예에서 0에서부터 2*f_xo의 주파수까지 이른다.

SBR 데이터를 IGF 표현으로 트랜스코딩하기 위해서는, QMF 에너지들을 MCLT 에너지 값들로 매핑해야 한다.

이것은 QMF 및 MCLT 변환의 비교에서 시작하여 다음에서 상세히 설명된다:

x를 SR의 샘플 레이트로 샘플링된 이산 오디오 신호라고 한다. QMF 변환이 신호(x)에 적용된다면, 다음 식이 얻어지며:

여기서 t는 변환의 시작 샘플이고, l은 타임슬롯 인덱스이며, k = 0, 1, …, m-1은 나이퀴스트 주파수 라인인 m까지의 주파수 라인이다.

윈도우 처리된 MCLT 변환이 신호(x)에 적용된다면, 결과는 다음과 같고:

여기서 b는 변환의 시작 블록이고, i = 0, 1, … , N-1은 나이퀴스트 주파수 라인인 N까지의 주파수 라인들이다.

예시적인 파라미터들이 다음 논의에서 또한 사용된다:

QMF 변환에 의해, 64개 샘플들의 홉 크기를 가진 640개 샘플들의 프로토타입 길이가 사용된다. 이로 인해 나이퀴스트 주파수 라인에 대해 m = 64가 된다.

예를 들어, MCLT의 경우, 50% 중첩을 갖는 2048의 긴 윈도우 크기가 사용된다면, 홉 크기는 1024이고, 따라서 나이퀴스트 주파수 라인에 대해 N = 1024이다. 중첩 윈도우 처리는 일반적으로 블로킹 아티팩트들을 제거한다.

이러한 예시적인 구성에 대한 분석 동안, MCLT 변환과 동일한 양의 샘플들을 커버하는 데 32개의 QMF 타임슬롯들이 필요하며, 도 3을 참조한다. 이 도 3은 또한 QMF의 서브 샘플들이 MCLT의 더 긴 윈도우와 정렬되는 데이터 동기화를 예시한다.

매핑할 SBR 인코딩된 오디오 신호의 QMF 에너지들을 준비하기 위해, 시간 도메인 샘플들이 MCLT에서 윈도우 처리되는 것과 같이 시간상 연속한 QMF 값들에 윈도우(W)가 적용된다. 이 QMF 윈도우 처리는 도 4에 도시된다.

QMF 에너지들을 MCLT 에너지들에 적절히 매핑하기 위해서는, 두 변환들이 지연 정렬될 필요가 있다.

그런 다음, QMF 및 MCLT 에너지들의 변환을 위해 다음 공식이 유지되며:

여기서 x₀은 SBR 크로스 오버 주파수이다.

다음 단계는 각각의 에너지 값들을 QMF 변환에서 MCLT 변환으로 변환하는 것이다.

SBR 프레임들은 시간/스펙트럼 포락선들의 세분성(granularity)을 사용하여 신호 피처들을 정의하는 데 도움이 된다. 스펙트럼 포락선들의 매핑은 매핑 기법 정의의 일부로서 조사되어 왔다. 적응적 SBR 그리드들의 시간 분해능에 의해 전해진 정보는 IGF에서 시간 적응 기법들로 변환된다.

QMF 필터 뱅크로 분석된 시간 도메인 신호는 서브 샘플의 시간 분해능을 갖는다. SBR 에너지들의 가장 높은 시간 분해능은 타임슬롯들, 즉 2개의 서브 샘플들에 걸쳐 있다. 시간 분해능과 주파수 분해능 사이의 절충은 타임슬롯들의 조합 및 부대역 그룹화의 선택으로부터 실현될 수 있다. 서로 다른 타입들의 프레임들은 프레임에서 가변적인 수의 시간/주파수 세그먼트들을 허용한다. 이에 따라, 신호 특징들은 그리드에서 양자화되는 포락선들에 의해 보존된다.

IGF에서 시간/주파수의 적응적 분해능은 서로 다른 타입들의 MCLT 윈도우들을 사용하여 실현될 수 있다. 실험들이 보여줬듯이, 비교에서 MCLT 블록에 따라 QMF 부대역의 에너지들이 수집될 수 있다. 이것은 에너지 매핑 동안 블록 스위칭의 통합을 촉진시킨다. 이와 같이 부대역들로 수집된 에너지들은 MCLT 주파수 빈들에 걸쳐 보간될 수 있다. 그 후, 소스 스펙트럼 전위 동안 포락선 정형(envelope shaping)을 위해 IGF 부가 정보가 도출될 수 있다.

실험들에 기초하여, 긴 블록에서 32개의 중첩하는 서브 샘플들에 걸쳐 QMF 블록 에너지가 계산될 수 있다. MCLT 블록 에너지에 대한 매핑 오류를 줄이기 위해, QMF는 MCLT 프로토타입 윈도우의 계량 계수들의 적용을 필요로 한다. 적절한 MCLT 윈도우의 선택은 QMF의 시간 포락선들에 의해 정의된 신호 피처들의 보존에 도움이 되는 것으로 예상된다.

이러한 계산들은 바람직하게는 오프라인으로 그리고 장치 또는 방법의 사용 전에 수행된다.

도 5는 E_QMF와 E_MDCT의 대수 에너지들(E'(QMF)와 E'(MCLT))이 비교된 예시적인 측정의 결과를 보여준다. 이것은 대수 도메인에서 다음 식의 계산을 가능하게 한다:

E'(QMF) +

E'(MCLT), b = 1, 2, … B.

이는 선형 도메인에서 이와 같은 선형 매핑을 위해 일정한 스케일 계수(s)를 사용함으로써 에너지 값들의 변환을 증명하며:

여기서 스케일 계수(s)는 아래 식으로 주어지고:

B는 측정된 총 블록들의 수이다. 평균 오프셋(Φ _LB )은 일 실시예에서 모든 이상점(outlier)들을 10% 신뢰 구간으로 클리핑(clip)함으로써 모든 블록들에 대한 것이다:

이 신뢰 구간은 평균으로부터 과도한 편차를 가진 데이터 샘플들을 클리핑할 수 있게 한다.

예시적인 측정은 바이어스가 없고 대략 1㏈ 피크 오차를 갖는 정확한 에너지 정합을 보여주었다. 이 매핑을 이용하면, SBR 인코딩된 오디오 신호를 포함하는 비트스트림으로 송신된 SBR 에너지 값들을 대응하는 IGF 에너지 값들로 변환하는 것이 가능하다. 도시된 예에서 일정한 스케일 계수는 로그 도메인에서 20 미만이며 약 18이다. 이것들은 IGF 디코더에 직접 공급될 수 있고, 또는 대안으로 IGF 출력 비트스트림으로 어셈블될 수 있다.

실험들은 로그 도메인에서의 평균 오프셋(Φ _LB )이 20보다 작은 값을 가짐을 보여주었다. 평균 오프셋(Φ _LB )은 16과 17 사이에 있거나 한 경우에는 약 7의 값을 갖는 것으로 확인되었다. 따라서 평균 오프셋(Φ _LB )은 7 내지 17의 값들을 갖는다.

추가 실험들은 평균 오프셋(Φ _LB )이 사용된 윈도우들의 타입에 좌우됨을 보여주었다. 얻어진 값들은 다음 표에 도시된다:

도 6은 사용된 윈도우 시퀀스에 대한 스케일 계수의 의존성을 예시하기 위한 정지-시작 윈도우 시퀀스를 도시한다. 도시된 예에서, SBR 인코딩된 오디오 신호의 프레임(f)은 QMF의 32개의 서브 샘플들을 포함한다. 시퀀스의 제1 윈도우 타입 ws(f, 0)은 완전한 프레임 데이터, 즉 t_h개의 서브 샘플들의 블록에 걸쳐 있다. 다음 윈도우 ws(f, 1)는 프레임(f)의 t_h / 2개의 서브 샘플들과 후속 프레임(f+1)의 t_h / 2개의 서브 샘플들에 걸쳐 있는 동안 ws(f, 0)과 중첩된다. SBR 그리드들의 프레임들은 ― 도시된 이 실시예에서는 ― 하나의 프레임이 QMF 서브 샘플들의 두 블록들을 생성한다는 관계로 QMF 에너지 그리드들의 블록들로서 이용 가능할 수 있다.

다음에, SBR 인코딩된 오디오 신호를 디코딩하기 위한 IGF 디코더가 일 실시예를 사용하여 설명된다.

일반적으로 2:1 SBR 디코더가 예컨대, M. Neuendorf 외, "The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates", J. Audio Eng. Soc., vol. 61, no. 12, pp. 956 - 977, Dec. 2013에 기술되어 있으며 도 7에 도시된다.

블록도 형태의 본 발명의 트랜스코더의 일 실시예가 도 8에 도시된다.

액세스 유닛들(100')을 포함하는 SBR 인코딩된 오디오 신호(100)는 코어 신호(101) 그리고 오디오 신호의 누락 부분들의 재구성을 가능하게 하는 파라미터들의 세트(102)를 추출하는 디멀티플렉서(1)에 공급된다. 코어 신호(101)는 여기서 MDCT 스플리터에 의해 구현되는 업샘플러(2)에 공급되고, 파라미터들의 세트(102)는 파라미터 변환기에 공급되는데, 이는 이 설명에서 개별 엘리먼트들에 대해 포함하는 것으로 도시된다.

이 예에서, 파라미터들의 세트(102)는 특히 SBR 인코딩된 오디오 신호에 의해 제공되는 스펙트럼 포락선을 의미한다. 이 예에서, SBR 인코딩된 오디오 신호의 프레임의 타임슬롯 0 - 타임슬롯 15는 상위 파라미터 변환기 엘리먼트로 송신되고 타임슬롯 16 - 타임슬롯 31은 하위 파라미터 변환기 엘리먼트로 송신된다. 타임슬롯들의 수는 여전히, QMF에서 MCLT로의 파라미터들의 변환에 대한 논의에 사용되는 예시적인 파라미터들을 의미한다.

파라미터 변환기(3)의 각각의 서브섹션에서, 적어도 스펙트럼 포락선을 의미하는 파라미터가 변환되는데, 이는 QMF 데이터에서 MCLT 데이터로의 앞서 설명한 변환을 통해 수행된다. 결과적인 변환된 파라미터들(104, 104')은 지능형 갭 채움의 사용에 적합하고, 업샘플러(2)에 의해 코어 신호(101)로부터 도출된 대응하는 업샘플링된 스펙트럼(103, 103')과 병합되도록 2개의 멀티플렉서들을 포함하는 스펙트럼 갭 채움 프로세서(4)에 공급된다.

그 결과는 스펙트럼 갭 채움 프로세서(4)의 멀티플렉서들의 출력으로서 2개의 액세스 유닛들(1. AU', 2. AU')을 포함한다. 두 액세스 유닛들(1. AU', 2. AU') 모두 가산기(5)에 공급되며, 여기서 제2 액세스 유닛(2. AU')은 지연 엘리먼트(6)에 의해 지연된다. 가산기(5)의 결과는 특히 도시된 실시예에서는 2개의 액세스 유닛들(1.AU, 2.AU)을 갖는 IGF 인코딩된 오디오 신호인 트랜스코딩된 오디오 신호(200)이다.

업샘플러(2)는 업샘플러(2)가 MDCT 스플리터로서 라벨링되는 도 10에 도시된 예시적인 실시예를 사용하여 설명된다.

업샘플러(2)는 원래의 SBR 인코딩된 오디오 신호의 (예컨대, 1024개의 라인들을 갖는) 코어 신호(101)의 스펙트럼을 업샘플링하기 위한 스펙트럼 업샘플러(20)를 포함한다. 업샘플링된 스펙트럼(110)(업샘플링이 예를 들어, 계수 2에 의해 이루어진다면, 결과 신호는 2048개의 라인들을 가짐)은 역변환의 일례로서 IMDCT 변환기(21)에 의해 수행되는 수정 이산 코사인 역변환을 겪는다. (시간 도메인 샘플들로 구성된) 이와 같이 획득된 시간 도메인 신호(111)는 (OA에 의해 설계된) 중첩 가산을 겪고 이와 같이 2개의 신호들로 분할된다. 두 신호들은 예를 들어, 1024개의 라인들을 가지며, ― 여기서 이와 같이 그려진 ― 더 낮은 신호는 1024개의 라인들에 대응하는 중첩 가산의 지연(24)에 의해 영향을 받는다. 그 후, 두 신호들은 2개의 MDCT 변환기들(23)에 의해 수행되는 수정 이산 코사인 변환을 겪으며, 이는 업샘플러(2)의 출력으로서 2개의 업샘플링된 스펙트럼들(103)로 이어진다.

2개의 MDCT 변환기들(23)의 효과가 도 11에 도시된다. 이 도면에서, 1. MDCT는 도 3 및 도 2에 도시된 상부 MDCT 변환기(23)를 나타낸다. MDCT는 하부 MDCT 변환기(23)를 나타낸다. IMDCT의 출력은 수정 이산 코사인 역변환된 업샘플링된 코어 신호(111)를 나타낸다. 또한, 예컨대, 2048개의 샘플들에 대해 IMDCT 변환기(21)에 제공된 중첩 가산(OA)이 존재한다.

MDCT의 세부사항들에 대해서는, 예컨대 WO 2014/128197 A1, 특히 14 - 16 페이지를 참조한다.

대안으로, MDCT 변환 및 IMDCT 변환이 아니라 고속 푸리에 및 고속 푸리에 역변환이 수행된다.

도 9에 도시된 장치는 ― 여기서는 SBR(스펙트럼 대역 복제) ― 인코딩된 오디오 신호(100)의 처리에 대한 일례로서, 그러한 인코딩된 오디오 신호(100)를 오디오 신호(300)로 디코딩하는 것을 가능하게 한다.

이러한 목적으로, 이 장치는 SBR 인코딩된 오디오 신호(100)의 액세스 유닛(100')으로부터 코어 신호(101) 및 파라미터들의 세트(102)를 생성하는 디멀티플렉서(1)를 포함한다. 파라미터들의 세트(102)는 코어 신호를 넘는 스펙트럼을 기술하는데, 즉 누락된 부분들을 기술한다.

코어 신호(101)는 코어 신호(101)를 업샘플링하기 위한, 여기서는 MDCT 스플리터로서 구현된 업샘플러(2)에 제출된다. 이것은 SBR 인코딩된 오디오 신호의 코어 신호가 IGF 인코딩된 오디오 신호의 코어 신호와 비교하여 감소된 샘플링 레이트를 갖는다는 사실에 기인한다. 업샘플러(2)의 실시예의 세부사항들은 도 10과 관련하여 설명되었다.

파라미터들의 세트(102)는 여기서는 2개의 변환기 엘리먼트들 또는 유닛들에 의해 구현되는 파라미터 변환기(3)에 제공된다. 액세스 유닛(100')은 시간상 연속한 타임슬롯들을 커버하는 적어도 하나의 프레임을 포함한다. 여기에는 32개의 타임슬롯들이 있다. 타임슬롯 0 - 타임슬롯 15를 커버하는 제1 타임슬롯들의 파라미터들은 상위 파라미터 변환기 유닛에 공급되고, 16 내지 31 범위의 제2 타임슬롯의 파라미터는 하위 파라미터 변환기 유닛에 공급되어 변환된다. 인코딩된 오디오 신호의 파라미터들 및 변환된 파라미터는 서로 다른 필터 뱅크들, 예컨대 직각 대칭 필터(QMF) 및 변조 복소 중복 변환(MCLT)과 각각 관련된다. 따라서 파라미터 변환기 유닛은 동기화를 위해 SBR 인코딩된 오디오 신호의 파라미터들에 지연 보상을 삽입한다. 또한, 파라미터 변환기 유닛은 변조 복소 중복 변환의 필터 뱅크들을 사용하여 시간 신호들에 적용된 윈도우를 사용하여 파라미터에 대해 ― 바람직하게는 사전에 ― 수행된 윈도우 처리를 사용하여 SBR 인코딩된 오디오 신호의 타임슬롯들을 기반으로 하고 있는 시간-주파수 그리드를 매핑한다.

결과적인 변환된 파라미터들(104, 104')은 업샘플링된 스펙트럼들(103, 103')을 대응하는 변환된 파라미터들(104, 104')과 병합하기 위해 스펙트럼 갭 채움 프로세서(4)의 2개의 컴포넌트들(1.IGF, 2.IGF)에 공급된다. 대응은 도시된 실시예에서, 제1 세트의 타임슬롯들로부터 도출된 변환된 파라미터들(104)이 도 10에 도시된 "MDCT 1."에 의해 제공된 업샘플링된 스펙트럼과 병합되고 제2 세트의 타임슬롯들로부터 도출된 변환된 파라미터들(104')이 "MDCT 2."에 의해 제공된 지연되어 업샘플링된 스펙트럼과 병합되는 것을 의미한다.

이러한 병합기들의 결과들은 수정 이산 코사인 역변환을 사용하여 2개의 IMDCT 변환기들(7)에 의해 시간 신호들로 변환되고, 원하는 오디오 신호(300)에 중첩 가산된다(지연(8) 및 가산기(9)).

도 12는 3:8 비의 코어 신호들을 업샘플링하기 위한 일례를 도시한다. 이 경우에, 업샘플러는 3개의 시간상 연속한 액세스 유닛들(100’)(이는 위에서 논의한 그리고 이에 따라 "현재" 액세스 유닛임) 및 2개의 앞서 말한 액세스 유닛들(100'', 100''')의 코어 신호들을 저장한다. 이러한 3개의 코어 신호들이 더해지고 이후 8개의 업샘플링된 스펙트럼들로 나뉜다.

코어 신호들의 업샘플링이 3:4 비로 수행되는 ― 도시되지 않은 ― 경우, 업샘플러는 3개의 시간상 연속한 액세스 유닛들의 코어 신호들을 또한 저장한다. 이러한 코어 신호들이 또한 더해지지만 4개의 업샘플링된 스펙트럼들로 나뉜다.

소정의 중첩이 요구된다면, 2개의 액세스 유닛들로부터의 유사한 2개의 코어 신호들이 하나의 업샘플링된 스펙트럼에 필요하다.

도 13은 중첩 가산을 개략적으로 예시한다. 설명은 위에서부터 아래로 행들을 따라간다.

3개의 액세스 유닛들: AU 0, AU 1 및 AU 2이 주어지며, 이들 각각은 1024개의 데이터 포인트들을 갖는 코어 신호를 갖는다. 코어 신호들의 대응하는 스펙트럼들은 코어 신호들의 스펙트럼을 따라 0들로 합산된다. 위로 채워진 스펙트럼은 2048개의 데이터 포인트들을 갖는다. 이러한 스펙트럼들은 2*2048 = 4096개의 데이터 포인트들을 갖는 신호들로 시간 도메인으로 변환된다.

이러한 시간 신호들에 대해, 신호들의 중첩 부분들이 합산되고, 중첩은 한 시간 신호의 첫 번째 1/2 및 다른 시간 신호의 두 번째 1/2과 관련이 있다.

앞서 말한 시간 신호들 각각으로부터 단지 1/2만이 사용되기 때문에 결과적인 합산 시간 신호들은 2048개의 데이터를 갖는다.

그러므로 3개의 액세스 유닛들(AU0, AU1, AU2)로부터 3개의 시간 신호들이 얻어진다. AU 0에서 생겨난 시간 신호로부터, 두 번째 1/2이 AU 1로부터 얻어진 시간 신호의 첫 번째 1/2에 더해진다. AU 1로부터 도출된 시간 신호의 두 번째 1/2이 AU 2로부터 얻어진 시간 신호의 첫 번째 1/2에 더해진다. 이 때문에, 3개의 액세스 유닛들은 50% 중첩의 이러한 예에서 2개의 중첩 가산된 시간 신호들을 제공하며, 이 신호들 둘 다 2048개의 데이터 포인트들을 갖는다.

이러한 2개의 중첩 가산된 시간 신호들은 이후에 (예컨대, 고속 푸리에 변환 또는 임의의 다른 적절한 변환을 사용하여) 주파수 도메인으로 변환되어, 제1 및 제2 업샘플링된 스펙트럼을 산출하는데, 이러한 스펙트럼들 둘 다 1024개의 데이터 포인트들을 갖는다.

도 14에서, 본 발명의 장치가 한 번 더 도시된다.

이 도시된 실시예에서, 인코딩된 오디오 신호(100)는 AU 0, AU 1 및 AU 2의 3개가 도시된 액세스 유닛들을 포함한다. 이러한 액세스 유닛들은 각각의 코어 신호들(CS0, CS1, CS2) 및 오디오 신호(P0, P1, P2)의 누락 부분들을 기술하기 위한 각각의 파라미터들을 추출하는 디멀티플렉서(1)에 공급된다.

코어 신호들(CS0, CS1, CS2)은 코어 신호들을 업샘플링하여 각각의 코어 신호에 대해 CS0에 대한 업샘플링된 스펙트럼들(US1, US2), CS1에 대한 업샘플링된 스펙트럼들(US3, US4) 및 CS2에 대한 업샘플링된 스펙트럼들(US5, US6)을 발생시키는 업샘플러(2)에 제출된다.

다른 한편으로는, 파라미터가 파라미터 변환기(3)에 공급되어, 변환된 파라미터들(cP0, cP1, cP2)을 산출한다.

스펙트럼 갭 채움 프로세서(4)는 대응하는 변환된 파라미터들(cP0, cP1, cP2)을 사용하여 업샘플링된 스펙트럼들(US1, US2, US3, US4, US5, US6)을 처리한다.

예를 들어, 제1 액세스 유닛(AU 0)의 제1 업샘플링된 스펙트럼(US1)은 변환된 파라미터들(cP0)의 제1 서브세트로 처리되고, 제1 액세스 유닛(AU 0)의 제2 업샘플링된 스펙트럼(US2)은 변환된 파라미터들(cP0)의 제2 서브세트로 처리된다. 스펙트럼 갭 채움 프로세서(4)의 출력은 예컨대, 오디오 신호 또는 트랜스코딩된 오디오 신호이다.

도 15는 인코딩된 오디오 신호(100)를 처리하기 위한 본 발명의 방법의 주요 단계들을 도시한다.

단계(1000)에서, 인코딩된 오디오 신호(100)로부터 ― 또는 보다 더 정확하게 하기 위해서는 ― 인코딩된 오디오 신호(100)의 하나의 액세스 유닛으로부터 코어 신호 및 파라미터들의 세트가 생성되거나 추출된다.

다음 단계들은 임의로 주어진 순서로 또는 병렬로 수행될 수 있다.

코어 신호는 단계(1001)에서 업샘플링되며, 이는 특히 2개의 시간상 연속한 업샘플링된 스펙트럼들을 산출한다. 단계(1002)에서 파라미터들은 업샘플링된 스펙트럼들에 적용 가능한 변환된 파라미터들로 변환된다.

마지막으로, 업샘플링된 스펙트럼들 및 변환된 파라미터는 ― 추가로 인코딩된 오디오 신호의 액세스 유닛으로부터 획득된 다른 파라미터들도 또한 ― 단계(1003)에서 처리된다. 이러한 처리의 출력은 예컨대, 오디오 신호를 시간 신호로서 또는 다르게 인코딩된 그리고 이에 따라 트랜스코딩된 오디오 신호이다.

대개, 인코딩된 오디오 신호는 또한, 원래의 오디오 신호를 기술하기 위한 그리고 인코딩된 오디오 신호의 디코딩 중에 누락 부분들을 재구성하기 위한 추가 파라미터들을 포함한다.

본 발명의 처리 기법은 예컨대, 고주파(HF) 합성 동안 포락선 정형을 위해 SBR 부가 정보를 IGF로 변환하는 것을 돕는다. 추가 제어 파라미터들은 포락선 정형에도 불구하고 잡음 대 조성 비가 입력 신호와 일치하지 않는 HF 스펙트럼을 나타낸다. 오디오의 이러한 특성은 목관 악기들과 같은 신호들이나 잔향이 있는 방들에서 관찰된다. 이러한 경우들의 더 높은 주파수들은 고조파 또는 높은 음색이 아니며 더 낮은 주파수들과 비교하여 잡음이 있는 것으로 인식될 수 있다.

신호의 포먼트(formant)들은 인코더에서 역 예측 오류 필터를 사용하여 추정된다. 역 필터링의 레벨은 입력 신호 특징들과 일치하게 결정된다. 이 레벨은 SBR에 의해 시그널링된다. HF 스펙트럼에서의 포락선 정형은 스펙트럼의 조성을 완전히 줄이는 데 도움이 되지 않기 때문에, 포먼트들의 평탄화를 위한 선형 예측 오차 필터에 서로 다른 레벨들의 주파수 종속 처프(chirp) 계수를 갖는 사전 백색화 필터가 적용될 수 있다.

이러한 비정상적인 신호 특징들은 역 필터링 도구를 사용하여 SBR에 의해 해결되는 한편, IGF는 백색화 도구를 사용한다. 사전 백색화의 정도는 기술들의 개별 레벨들에 매핑된다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 또는 그보다 많은 단계가 이러한 장치에 의해 실행될 수도 있다.

또한, SBR 인코딩된 오디오 신호를 트랜스코딩하기 위한 장치의 양상들은 SBR 인코딩된 오디오 신호를 디코딩하기 위한 장치에 대해 유효할 수 있고 그 반대도 가능하다. 이는 대응하는 방법들에 대해서도 마찬가지이다.

Claims

인코딩된 오디오 신호(100)를 처리하기 위한 장치로서,
상기 인코딩된 오디오 신호(100)는 일련의 액세스 유닛들(100')을 포함하며, 각각의 액세스 유닛은 제1 스펙트럼 폭을 갖는 코어 신호(101) 및 상기 제1 스펙트럼 폭을 넘는 스펙트럼을 기술하는 파라미터들을 포함하고,
상기 장치는,
상기 인코딩된 오디오 신호(100)의 액세스 유닛(100')으로부터 상기 코어 신호(101) 및 상기 파라미터들의 세트(102)를 생성하기 위한 디멀티플렉서(1),
상기 액세스 유닛(100')의 상기 코어 신호(101)를 업샘플링하고 제1 업샘플링된 스펙트럼(103) 및 시간상 연속한 제2 업샘플링된 스펙트럼(103')을 출력하기 위한 업샘플러(2) ― 상기 제1 업샘플링된 스펙트럼(103)과 상기 제2 업샘플링된 스펙트럼(103')은 둘 다 상기 코어 신호(101)와 동일한 콘텐츠를 가지며 코어 스펙트럼(101)의 제1 스펙트럼 폭보다 더 큰 제2 스펙트럼 폭을 가짐 ―,
변환된 파라미터들(104, 104')을 얻도록 상기 액세스 유닛(100')의 상기 파라미터들의 세트(102)의 파라미터들을 변환하기 위한 파라미터 변환기(3), 및
상기 변환된 파라미터들(104)을 사용하여 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 처리하기 위한 스펙트럼 갭 채움 프로세서(4)를 포함하는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항에 있어서,
상기 업샘플러(2)는 상기 코어 신호(101)의 스펙트럼의 상위 부분을 0들로 채우고 상기 코어 신호(101)의 채워진 스펙트럼(110)으로부터 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 도출하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 또는 제2 항에 있어서,
상기 업샘플러(2)는 상기 액세스 유닛(100') 바로 앞의 액세스 유닛(100'')의 코어 신호를 추가로 사용하여 상기 액세스 유닛(100')의 상기 코어 신호(101)를 업샘플링하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 업샘플러(2)는 제1 수의 시간상 연속한 액세스 유닛들(100', 100'', 100''')의 코어 신호들(101)을 수집하고 상기 코어 신호들(101)로부터 정수가 아닌 업샘플링 비에 대해 제2 수의 업샘플링 스펙트럼들(103)을 처리하도록 구성되며,
상기 제1 수는 상기 비의 분모이고 상기 제2 수는 상기 비의 지명자(nominator)인,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제4 항 중 어느 한 항에 있어서,
상기 파라미터 변환기(3)는 상기 파라미터들의 세트(102) 중 시간상 연속한 타임슬롯들의 제1 부분을 나타내는 제1 서브세트의 파라미터들을 변환하고 상기 파라미터들의 세트(102) 중 상기 타임슬롯들의 제1 부분에 시간상 연속한 상기 타임슬롯들의 제2 부분을 나타내는 제2 서브세트의 파라미터들을 변환하도록 구성되며,
상기 스펙트럼 갭 채움 프로세서(4)는 변환된 제1 서브세트의 파라미터들(104)을 상기 제1 업샘플링된 스펙트럼(103)으로 처리하고 변환된 제2 서브세트의 파라미터들(104')을 상기 제2 업샘플링된 스펙트럼(103')으로 처리하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제5 항 중 어느 한 항에 있어서,
상기 변환기(3)는 상기 파라미터들의 세트(102) 중 에너지 값들을 나타내는 파라미터들을, 상기 파라미터 값들을 주어진 스케일 계수로 스케일링함으로써 스펙트럼 갭 채움 프로세서(4)에 의해 사용 가능한 에너지 값들로 변환하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제6 항에 있어서,
상기 변환기(3)는 상기 액세스 유닛(100')과 연관된 윈도우 함수에 관한 정보를 추출하도록 구성되고,
상기 변환기(3)는 상기 윈도우 함수에 따라 상기 스케일 계수를 적응시키도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제7 항 중 어느 한 항에 있어서,
상기 변환기(3)는 지연 보상을 삽입함으로써 상기 파라미터들의 세트(102)의 파라미터들을 시프트하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제8 항 중 어느 한 항에 있어서,
상기 업샘플러(2)는 상기 코어 신호(101)의 값들을 보간함으로써 상기 코어 신호(101)를 업샘플링(20)하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제9 항 중 어느 한 항에 있어서,
상기 업샘플러(2)는 앞선 액세스 유닛(100'')의 코어 신호의 스펙트럼을 0들로 채우도록 구성되며,
상기 업샘플러(2)는 상기 액세스 유닛(100')의 코어 신호(101)의 스펙트럼을 0들로 채우도록 구성되고,
상기 업샘플러(2)는 상기 액세스 유닛(100')의 채워진 스펙트럼 및 상기 앞선 액세스 유닛(100'')의 채워진 스펙트럼의 역변환(21)을 수행하도록 구성되며,
상기 업샘플러(2)는 상기 앞선 액세스 유닛(100'')의 채워진 스펙트럼에 대한 시간 도메인 신호와 상기 액세스 유닛(100')의 채워진 스펙트럼에 대한 시간 도메인 신호의 중첩 가산을 수행하여 중간 시간 신호(111)를 획득하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제10 항에 있어서,
상기 업샘플러(2)는 상기 중간 시간 신호(111)의 제1 부분으로 순방향 변환을 수행하여 상기 제1 업샘플링된 스펙트럼(103)을 획득하도록 구성되고,
상기 업샘플러(2)는 상기 중간 시간 신호(111)의 제2 부분으로 순방향 변환을 수행하여 상기 제2 업샘플링된 스펙트럼(103')을 얻도록 구성되며,
상기 제1 부분은 상기 제2 부분과 중첩하는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제11 항 중 어느 한 항에 있어서,
상기 업샘플러(2)는 업샘플링된 코어 신호(110)를 얻기 위해 상기 코어 신호(101)를 업샘플링(20)하도록 구성되고,
상기 업샘플러(2)는 시간 도메인 신호(111)를 얻기 위해 상기 업샘플링된 코어 신호(110)에 대해 역변환(21)을 수행하도록 구성되며,
상기 업샘플러(2)는 변환(22, 23)을 적용함으로써, 상기 시간 도메인 신호(111)를 처리하여 상기 제1 업샘플링된 스펙트럼(103) 및 상기 적시의 연속한 제2 업샘플링된 스펙트럼(103')을 획득하도록 구성되고,
상기 역변환(21)은 상기 변환의 역변환인,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제12 항에 있어서,
상기 역변환은 수정 이산 코사인 역변환(inverse modified discrete cosine transform )이고, 상기 변환은 수정 이산 코사인 변환인,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제13 항 중 어느 한 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 상기 변환된 파라미터들(104, 104')로 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 디코딩하여 시간 도메인 출력 신호(300)를 얻도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제14 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 상기 변환된 파라미터들(104)의 제1 부분을 상기 제1 업샘플링된 스펙트럼(103)에 적용하여 제1 처리된 스펙트럼을 얻고 상기 변환된 파라미터들(104')의 제2 부분을 상기 제2 업샘플링된 스펙트럼(103')에 적용하여 제2 처리된 스펙트럼을 얻도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제13 항 중 어느 한 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 제1 처리된 스펙트럼 및 제2 처리된 스펙트럼을 시간 도메인으로 변환하기 위한 스펙트럼 변환기(7)를 포함하도록 구성되며,
상기 스펙트럼 갭 채움 프로세서(4)는 오디오 신호(300)를 얻기 위해 적어도 2개의 출력 시간 신호들을 중첩 가산하도록 구성된 오디오 가산기(9)를 포함하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제16 항 중 어느 한 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 제1 액세스 유닛 및 제2 액세스 유닛을 갖는 스펙트럼 갭 채움 코딩된 신호를 생성하도록 구성되며,
상기 제1 액세스 유닛은 상기 제1 업샘플링된 스펙트럼의 변환된 버전 및 상기 변환된 파라미터의 제1 부분을 포함하고,
상기 제2 액세스 유닛은 상기 제2 업샘플링된 스펙트럼의 변환된 버전 및 상기 변환된 파라미터의 제2 부분을 포함하는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제13 항 중 어느 한 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 제1 액세스 유닛 및 제2 액세스 유닛을 갖는 출력 데이터 스트림을 생성하도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제18 항 중 어느 한 항에 있어서,
상기 스펙트럼 갭 채움 프로세서(4)는 상기 변환된 파라미터들(104, 104')로 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 처리하여 2개의 트랜스코딩된 액세스 유닛들을 얻도록 구성되고,
상기 스펙트럼 갭 채움 프로세서(4)는 상기 2개의 트랜스코딩된 액세스 유닛들을 가산(5)하여 트랜스코딩된 오디오 신호(200)를 얻도록 구성되는,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제19 항 중 어느 한 항에 있어서,
상기 트랜스코딩된 오디오 신호(200)는 IGF 인코딩된 오디오 신호(200)인,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
제1 항 내지 제20 항 중 어느 한 항에 있어서,
상기 인코딩된 오디오 신호(100)는 SBR 인코딩된 오디오 신호(100)인,
인코딩된 오디오 신호(100)를 처리하기 위한 장치.
인코딩된 오디오 신호(100)를 처리하기 위한 방법으로서,
상기 인코딩된 오디오 신호(100)는 일련의 액세스 유닛들(100')을 포함하며, 각각의 액세스 유닛은 제1 스펙트럼 폭을 갖는 코어 신호 및 상기 제1 스펙트럼 폭을 넘는 스펙트럼을 기술하는 파라미터들을 포함하고,
상기 방법은,
상기 인코딩된 오디오 신호(100)의 액세스 유닛(100')으로부터 상기 코어 신호(101) 및 상기 파라미터들의 세트(102)를 생성하는 단계,
상기 액세스 유닛(100')의 상기 코어 신호(101)를 업샘플링하고 제1 업샘플링된 스펙트럼(103) 및 시간상 연속한 제2 업샘플링된 스펙트럼(103')을 출력하는 단계 ― 상기 제1 업샘플링된 스펙트럼(103)과 상기 제2 업샘플링된 스펙트럼(103')은 둘 다 상기 코어 신호(101)와 동일한 콘텐츠를 가지며 코어 스펙트럼(101)의 제1 스펙트럼 폭보다 더 큰 제2 스펙트럼 폭을 가짐 ―,
변환된 파라미터들(104)을 얻도록 상기 액세스 유닛(100')의 상기 파라미터들의 세트(102)의 파라미터들을 변환하는 단계, 및
상기 변환된 파라미터들(104)을 사용하여 상기 제1 업샘플링된 스펙트럼(103) 및 상기 제2 업샘플링된 스펙트럼(103')을 처리하는 단계를 포함하는,
인코딩된 오디오 신호(100)를 처리하기 위한 방법.