KR20120082435A

KR20120082435A - 멀티 모드 오디오 코덱 및 이를 위해 적응된 ｃｅｌｐ 코딩

Info

Publication number: KR20120082435A
Application number: KR1020127011136A
Authority: KR
Inventors: 랄프 가이거; 귈라움 푸쉬; 마르쿠스 멀트러스; 베른하르드 그릴
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2009-10-20
Filing date: 2010-10-19
Publication date: 2012-07-23
Also published as: BR112012009490A2; CA2862712A1; MY164399A; TWI455114B; US9715883B2; CA2778240A1; JP2013508761A; JP6214160B2; TW201131554A; PL2491555T3; AU2010309894B2; US9495972B2; SG10201406778VA; CA2862715C; CN102859589A; RU2012118788A; HK1175293A1; KR101508819B1; US20160260438A1; ES2453098T3

Abstract

본 발명의 제1 양태에 따르면, 프레임들의 글로벌 이득 값의 변경이 오디오 콘텐츠의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 서브프레임들의 비트스트림 엘리먼트들은 글로벌 이득 값에 대해 차별적으로 인코딩된다. 이와 동시에, 차별적 코딩은 인코딩된 비트스트림 내로 새로운 구문 엘리먼트를 유입시켰을 때에 발생하였을 비트들을 절감시킨다. 심지어 더 나아가, 글로벌 이득 값 설정시의 시간 분해능(time resolution)을 앞서 언급한 글로벌 이득 값에 대해 차별적으로 인코딩된 비트스트림 엘리먼트가 각각의 서브프레임의 이득을 조정할 때의 시간 분해능보다 낮추게함으로써 차별적 코딩은 인코딩된 비트스트림의 이득을 글로벌 조정하는 부담을 낮춰줄 수 있다. 또 다른 양태에 따르면, CELP 코딩된 프레임들과 변환 코딩된 프레임들에 걸친 글로벌 이득 제어는 변환 코딩된 프레임들의 변환 또는 역변환의 레벨과 더불어, CELP 코덱의 코드북 여기의 이득을 동시제어함으로써 달성된다. 또 다른 양태에 따르면, 각각의 이득 값을 변경할 때의 CELP 코딩된 비트스트림의 음향크기의 변동은 여기 신호의 가중화된 영역에서 CELP 코딩시 이득 값 결정을 수행함으로써 변환 코딩된 레벨 조정의 동작에 보다 잘 적응되게 된다.

Description

멀티 모드 오디오 코덱 및 이를 위해 적응된 ＣＥＬＰ 코딩{MULTI-MODE AUDIO CODEC AND CELP CODING ADAPTED THEREFORE}

본 발명은 통합형 음성 및 오디오 코덱(unified speech and audio codec), 또는 음악, 음성, 이들의 혼합 신호 및 기타 신호들과 같은 일반적인 오디오 신호들을 위해 적응된 코덱과 같은 멀티 모드 오디오 코딩, 및 이에 적응된 CELP 코딩 기법에 관한 것이다.

음성, 음악 등과 같은 여러 유형들의 오디오 신호들의 혼합체를 표현하는 일반적인 오디오 신호들을 코딩하기 위해서는 여러 코딩 모드들을 혼합하는 것이 유리하다. 개별적인 코딩 모드들은 특정한 오디오 유형들에 적응될 수 있으며, 이에 따라, 멀티 모드 오디오 인코더는 오디오 콘텐츠 유형의 변경에 대응하여 시간에 걸쳐 코딩 모드를 변경하는 것을 이용할 수 있다. 다시 말하면, 멀티 모드 오디오 인코더는, 예컨대 음성 코딩에 특별히 전용된 코딩 모드를 이용하여 음성 콘텐츠를 갖는 오디오 신호의 일부분들을 인코딩하고, 음악과 같은 비음성 콘텐츠를 표현하는 오디오 콘텐츠의 이와 다른 일부분들을 인코딩하기 위해 또 다른 코딩 모드(들)을 이용할 것을 결정할 수 있다. 선형 예측 코딩 모드들은 음성 콘텐츠를 코딩하는데 보다 적합한 경향이 있는 반면에, 주파수 영역 코딩 모드들은 음악의 코딩과 관련되어 있는 한 선형 예측 코딩 모드들을 능가하는 경향이 있다.

하지만, 상이한 코딩 모드들을 이용하는 것은 인코딩된 비트스트림을 실제로 디코딩하는 것 없이 인코딩된 비트스트림 내에서의 이득, 보다 정확하게 말하면, 인코딩된 비트스트림의 오디오 콘텐츠의 디코딩된 표현물의 이득을 글로벌 조정(globally adjust)하는 것과, 그런 후의 이득 조정된 디코딩된 표현물 이득을 재인코딩하는 것을 어렵게 하는데, 이러한 디투어(detour)는 디코딩되고 이득 조정된 표현물을 재인코딩할 때에 수행된 재양자화(requantization)로 인해 이득 조정된 비트스트림의 퀄리티를 불가피하게 감소시킬 것이다.

예를 들어, AAC에서, 출력 레벨의 조정은 8비트 필드 "글로벌 이득"의 값을 변경함으로써 비트스트림 레벨상에서 손쉽게 달성될 수 있다. 이러한 비트스트림 엘리먼트는 완전한 디코딩 및 재인코딩의 필요 없이, 단순히 패스되고 편집될 수 있다. 따라서, 이러한 프로세스는 어떠한 퀄리티 저하도 도입시키지 않으며 무손실적으로 원래대로 되돌려질 수 있다. 이러한 옵션을 실제로 이용하는 응용들이 존재한다. 예를 들어, "AAC 이득"[AAC 이득]이라 불리우는 무료 소프트웨어가 있는데, 이것은 방금 설명한 접근법을 정확히 적용한다. 이 소프트웨어는 MPEG1/2 레이어 3를 위해 이와 동일한 기술을 적용하는 무료 소프트웨어인 "MP3 이득"의 변형이다.

최근 출현한 USAC 코덱에서, FD 코딩 모드는 AAC로부터 8비트 글로벌 이득을 이어받았다. 따라서, USAC가 보다 높은 비트레이트와 같은 FD 전용 모드에서 구동하는 경우, 레벨 조정의 기능은 AAC와 비교하여 완전히 보존될 것이다. 하지만, 모드 천이들이 허용되자마자, 이러한 가능성은 더 이상 존재하지 않는다. TCX 모드에서는, 예컨대 단지 7비트의 길이를 갖는 "글로벌 이득"이라고도 불리우는 동일한 기능을 갖춘 비트스트림 엘리먼트가 또한 존재한다. 다시 말하면, 한편으로는 이득 제어를 위해 비트들을 덜 소모하는 것과, 다른 한편으로 이득 조정가능성의 너무 거친 양자화(quantization)로 인한 퀄리티의 저하를 회피하는 것 사이의 최상의 트레이드오프를 달성하기 위해 개별적인 모드들의 개별적인 이득 엘리먼트들을 인코딩하기 위한 비트들의 갯수는 주로 각각의 코딩 모드에 적응된다. 분명하게도, 이러한 트레이드오프는 TCX 모드와 FD 모드를 비교해 볼 때 상이한 갯수의 비트들을 초래시켰다. 현재 출현중인 USAC 표준의 ACELP 모드에서는, 출력 레벨이 2비트의 길이를 갖는 비트스트림 엘리먼트 "평균 에너지"를 통해 제어될 수 있다. 다시, 분명하게도 평균 에너지에 대한 너무 많은 비트들과 평균 에너지에 대한 너무 적은 비트들간의 트레이드오프는 나머지 다른 코딩 모드들, 즉 TCX 및 FD 코딩 모드와 비교하여 상이한 갯수의 비트들을 초래시켰다.

따라서, 현재까지, 멀티 모드 코딩에 의해 인코딩된 이러한 인코딩된 비트스트림의 디코딩된 표현물의 이득을 글로벌 조정하는 것은 번거롭고 퀄리티를 감소시키는 경향이 있다. 비트스트림의 각각의 상이한 코딩 모드 부분들의 이득에 영향을 미치도록 상이한 모드들의 각각의 비트스트림 엘리먼트들을 단지 적응시킴으로써 음향크기 레벨의 조정이 체험적으로 수행되어야 하거나, 또는 이득 조정이 뒤따르는 디코딩과 재인코딩이 수행되야 한다. 하지만, 전자의 가능성은 인공물을 이득 조정되고 디코딩된 표현물 내로 도입시킬 가능성이 매우 높다.

따라서, 본 발명의 목적은 디투어(detour)를 디코딩하고 재인코딩하지 않고서 퀄리티와 압축율의 측면에서 보통의 페널티로 글로벌 이득 조정을 가능하게 해주는 멀티 모드 오디오 코덱, 및 이와 유사한 특성들의 달성을 가지면서 멀티 모드 오디오 코딩 내로 임베딩되는데 적절한 CELP 코덱을 제공하는 것이다.

이 목적은 여기에 첨부된 독립 청구항들의 주제 내용에 의해 달성된다.

본 발명의 제1 양태에 따르면, 본 출원의 발명자들은, 상이한 코딩 모드들은 상이한 프레임 크기들을 가지며 서브프레임들로 상이하게 분해(decomposed)된다는 사실로부터 상이한 코딩 모드 스템들에 걸쳐 글로벌 이득 조정을 조화시키려고 시도할 때에 한가지 문제점에 직면한다는 것을 인식하였다. 본 출원의 제1 양태에 따르면, 이러한 곤란성은 프레임들의 글로벌 이득 값의 변경이 오디오 콘텐츠의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 서브프레임들의 비트스트림 엘리먼트들을 글로벌 이득 값에 대해 차별적으로 인코딩함으로써 극복된다. 이와 동시에, 차별적 코딩은 인코딩된 비트스트림 내로 새로운 구문 엘리먼트(syntax element)를 도입시켰을 때에 이와 달리 발생하였을 비트들을 절감시킨다. 더 나아가, 앞서 언급한 글로벌 이득 값에 대해 차별적으로 인코딩된 비트스트림 엘리먼트가 각각의 서브프레임의 이득을 조정할 때의 시간 분해능(time resolution)보다 글로벌 이득 값 설정시의 시간 분해능을 낮춤으로써 차별적 코딩은 인코딩된 비트스트림의 이득을 글로벌 조정하는 부담을 낮출 수 있게 한다.

이에 따라, 본 출원의 제1 양태에 따르면, 인코딩된 비트스트림에 기초하여 오디오 콘텐츠의 디코더 표현물을 제공하기 위한 멀티 모드 오디오 디코더는, 인코딩된 비트스트림의 프레임 - 제1 서브세트의 프레임들은 제1 코딩 모드에서 코딩되고 제2 서브세트의 프레임들은 제2 코딩 모드에서 코딩되며, 상기 제2 서브세트의 프레임 각각은 하나 보다 많은 서브프레임들로 구성됨 - 마다의 글로벌 이득 값을 디코딩하며, 제2 서브세트의 프레임들의 서브프레임들의 적어도 서브세트의 서브프레임마다, 각각의 프레임의 글로벌 이득 값에 대해 차별적인 대응하는 비트스트림 엘리먼트를 디코딩하며, 제1 서브세트의 프레임들을 디코딩할 때에 글로벌 이득 값을 이용하고 제2 서브세트의 프레임들의 서브프레임들의 적어도 서브세트의 서브프레임들을 디코딩할 때에 상기 글로벌 이득 값 및 대응하는 비트스트림 엘리먼트를 이용하여 비트스트림을 디코딩하는 것을 완료하도록 구성되며, 멀티 모드 오디오 디코더는 인코딩된 비트스트림 내의 프레임들의 글로벌 이득 값의 변경이 오디오 콘텐츠의 디코더 표현물의 출력 레벨의 조정을 야기시키도록 구성된다. 이러한 제1 양태에 따르면, 멀티 모드 오디오 인코더는, 오디오 콘텐츠를 인코딩된 비트스트림으로 인코딩하되 제1 서브세트의 프레임들을 제1 코딩 모드에서 인코딩하고, 제2 서브세트의 프레임들을 제2 코딩 모드에서 인코딩하도록 구성되고, 제2 서브세트의 프레임들은 하나 이상의 서브프레임들로 구성되며, 멀티 모드 오디오 인코더는 프레임마다의 글로벌 이득 값을 결정하고 인코딩하며, 제2 서브세트의 프레임들의 서브프레임들의 적어도 서브세트의 서브프레임들마다, 각각의 프레임의 글로벌 이득 값에 대한 차별적인 대응하는 비트스트림 엘리먼트를 결정하고 인코딩하도록 구성되며, 멀티 모드 오디오 인코더는 인코딩된 비트스트림 내의 프레임들의 글로벌 이득 값의 변경이 디코딩측에서의 오디오 콘텐츠의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 구성된다.

본 출원의 제2 양태에 따르면, 본 출원의 발명자들은 CELP 코딩된 프레임들과 변환 코딩된 프레임들에 걸친 글로벌 이득 제어는 변환 코딩된 프레임들의 변환 또는 역변환의 레벨과 더불어 CELP 코덱의 코드북 여기의 이득이 동시제어되는 경우 상기 약술된 장점들을 유지함으로써 달성될 수 있다는 것을 발견하였다. 물론, 이러한 동시이용은 차별적 코딩을 통해 수행될 수 있다.

이에 따라, 인코딩된 비트스트림, CELP 코딩된 제1 서브세트의 프레임들, 및 변환 코딩된 제2 서브세트의 프레임들에 기초하여 오디오 콘텐츠의 디코딩된 표현물을 제공하기 위한 멀티 모드 오디오 디코더는, 제2 양태에 따라, 제1 서브세트의 현재 프레임을 디코딩하도록 구성된 CELP 디코더로서, 상기 CELP 디코더는, 인코딩된 비트스트림 내의 제1 서브세트의 현재 프레임의 코드북 인덱스와 과거 여기에 기초하여 코드북 여기를 구축하고, 인코딩된 비트스트림 내의 글로벌 이득 값에 기초하여 코드북 여기의 이득을 설정함으로써 제1 서브세트의 현재 프레임의 현재 여기를 생성하도록 구성된 여기 생성기와, 인코딩된 비트스트림 내의 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들에 기초하여 현재 여기를 필터링하도록 구성된 선형 예측 합성 필터를 포함한 것인, 상기 CELP 디코더와, 인코딩된 비트스트림으로부터 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보를 구축하고, 시간 영역 신호의 레벨이 글로벌 이득 값에 의존하도록 시간 영역 신호를 획득하기 위해 스펙트럼 정보에 대해 스펙트럼-시간 영역 변환을 행함으로써, 제2 서브세트의 프레임들의 현재 프레임을 디코딩하도록 구성된 변환 디코더를 포함한다.

마찬가지로, 오디오 콘텐츠의 제1 서브세트의 프레임들을 CELP 인코딩하고, 제2 서브세트의 프레임들을 변환 인코딩(transform encoding)함으로써 오디오 콘텐츠를 인코딩된 스트림으로 인코딩하기 위한 멀티 모드 오디오 인코더는, 제2 양태에 따라, 제1 서브세트의 현재 프레임을 인코딩하도록 구성된 CELP 인코더로서, 상기 CELP 인코더는 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들을 생성하고, 선형 예측 필터 계수들을 인코딩된 비트스트림으로 인코딩하도록 구성된 선형 예측 분석기; 및 제1 서브세트의 현재 프레임의 현재 여기를 결정하고, 인코딩된 비트스트림 내의 선형 예측 필터 계수들에 기초하여 현재 여기가 선형 예측 합성 필터에 의해 필터링될 때, 제1 서브세트의 현재 프레임에 대한 코드북 인덱스와 과거 여기에 기초하여 코드북 여기를 구축함으로써 제1 서브세트의 현재 프레임을 복구하도록 구성된 여기 생성기를 포함한 것인, 상기 CELP 인코더와, 스펙트럼 정보를 획득하기 위해 제2 서브세트의 현재 프레임에 대한 시간 영역 신호에 대해 시간-스펙트럼 영역 변환을 수행함으로써 제2 서브세트의 현재 프레임을 인코딩하고, 스펙트럼 정보를 인코딩된 비트스트림으로 인코딩하도록 구성된 변환 인코더를 포함하며, 멀티 모드 오디오 인코더는 글로벌 이득 값을 인코딩된 비트스트림으로 인코딩하도록 구성되며, 글로벌 이득 값은 선형 예측 계수들, 또는 시간 영역 신호의 에너지에 의존하여 선형 예측 분석 필터로 필터링된 제1 서브세트의 현재 프레임의 오디오 콘텐츠의 에너지 버전에 의존한다.

본 출원의 제3 양태에 따르면, 본 발명자들은, 각각의 글로벌 이득 값을 변경할 때 CELP 코딩된 비트스트림의 음향크기의 변동은 CELP 코딩에서의 글로벌 이득 값이 계산되고 보통의 여기 신호에 직접 적용되는 것이 아닌 여기 신호의 가중화된 영역에서 적용되는 경우, 변환 코딩된 레벨 조정의 동작에 보다 잘 적응된다는 것을 발견하였다. 게다가, 여기 신호의 가중화된 영역에서의 글로벌 이득 값의 계산 및 적용은 또한, 코드 이득과 LTP 이득과 같은 CELP에서의 다른 이득들이 가중화된 영역에서 너무 많이 계산되므로 CELP 코딩 모드를 독점적으로 고려할 때 이롭다.

이에 따라, 제3 양태에 따르면, CELP 디코더는, 여기 생성기와, 선형 예측 합성 필터를 포함하며, 상기 여기 생성기는, 비트스트림 내의 현재 프레임에 대한 적응적 코드북 인덱스와 과거 여기에 기초하여 적응적 코드북 여기를 구축하고, 비트스트림 내의 현재 프레임에 대한 혁신 코드북 인덱스에 기초하여 혁신 코드북 여기를 구축하고, 비트스트림 내의 선형 예측 계수들로부터 구축된 가중화된 선형 예측 합성 필터에 의해 스펙트럼적으로 가중화된 혁신 코드북 여기의 에너지의 추정치를 계산하고, 비트스트림내의 이득 값과 추정된 에너지간의 비율에 기초하여 혁신 코드북 여기의 이득을 설정하며, 현재 여기를 획득하기 위해 적응적 코드북 여기와 혁신 코드북 여기를 결합함으로써, 비트스트림의 현재 프레임에 대한 현재 여기를 생성하도록 구성되며, 상기 선형 예측 합성 필터는 선형 예측 필터 계수들에 기초하여 현재 여기를 필터링하도록 구성된다.

마찬가지로, CELP 인코더는, 제3 양태에 따라, 오디오 콘텐츠의 현재 프레임에 대한 선형 예측 필터 계수들을 생성하고, 선형 예측 필터 계수들을 비트스트림으로 인코딩하도록 구성된 선형 예측 분석기와, 적응적 코드북 여기와 혁신 코드북 여기의 결합으로서 현재 프레임의 현재 여기를 결정하도록 구성된 여기 생성기, 및 에너지 결정기를 포함하며, 상기 여기 생성기는, 현재 여기가 선형 예측 필터 계수들에 기초하여 선형 예측 합성 필터에 의해 필터링될 때, 현재 프레임에 대한 적응적 코드북 인덱스와 과거 여기에 의해 정의된 적응적 코드북 여기를 구축하고 적응적 코드북 인덱스를 비트스트림으로 인코딩하며, 현재 프레임에 대한 혁신 코드북 인덱스에 의해 정의된 혁신 코드북 여기를 구축하고 혁신 코드북 인덱스를 비트스트림으로 인코딩함으로써, 현재 프레임을 복구하며, 상기 에너지 결정기는 이득 값을 획득하기 위해 지각적 가중 필터 및 선형 예측 필터 계수들에 의존하는 선형 예측 합성 필터로 필터링된 현재 프레임의 오디오 콘텐츠의 에너지 버전을 결정하고, 이득 값을 비트스트림으로 인코딩하도록 구성되며, 가중 필터는 선형 예측 필터 계수들로부터 해석된다.

본 출원의 바람직한 실시예들은 여기서 첨부된 종속 청구항들의 주제이다. 또한, 아래에서는 본 출원의 바람직한 실시예들을 도면들과 관련하여 설명하며, 이러한 도면들 중에서,
도 1은 실시예에 따른 멀티 모드 오디오 인코더의 블록도를 도시한다.
도 2는 제1 대안구성에 따른 도 1의 인코더의 에너지 계산부의 블록도를 도시한다.
도 3은 제2 대안구성에 따른 도 1의 인코더의 에너지 계산부의 블록도를 도시한다.
도 4는 도 1의 인코더에 의해 인코딩된 비트스트림들을 디코딩하도록 적응된, 실시예에 따른 멀티 모드 오디오 디코더를 도시한다.
도 5a와 도 5b는 본 발명의 추가적인 실시예에 따른 멀티 모드 오디오 인코더 및 멀티 모드 오디오 디코더를 도시한다.
도 6a와 도 6b는 본 발명의 추가적인 실시예에 따른 멀티 모드 오디오 인코더 및 멀티 모드 오디오 디코더를 도시한다.
도 7a와 도 7b는 본 발명의 추가적인 실시예에 따른 CELP 인코더 및 CELP 디코더를 도시한다.

도 1은 본 출원의 실시예에 따른 멀티 모드 오디오 인코더의 실시예를 도시한다. 도 1의 멀티 모드 오디오 인코더는 음성과 음악의 혼합체 등과 같은 혼합된 유형의 오디오 신호들을 인코딩하는데 적절하다. 최적의 레이트/왜곡 손상을 획득하기 위해, 멀티 모드 오디오 인코더는 인코딩될 오디오 콘텐츠의 현재의 요구사항에 코딩 특성들을 적응시키도록 하기 위해 여러 코딩 모드들 사이에서 스위칭하도록 구성된다. 특히, 도 1의 실시예에 따르면, 멀티 모드 오디오 인코더는 일반적으로 세 개의 상이한 코딩 모드들, 즉 주파수 영역(frequency-domain; FD) 코딩, 선형 예측(linear prediction; LP) 코딩(이것은 이어서 변환 코딩된 여기(transform coded excitation; TCX)로 분할된다), 및 코드북 여기 선형 예측(codebook excitation linear prediction; CELP) 코딩을 이용한다. FD 코딩 모드에서는, 인코딩될 오디오 콘텐츠가 윈도우잉(windowed)되고, 스펙트럼 분해되며, 마스킹 문턱값 아래의 양자화 노이즈를 은닉시키기 위해 스펙트럼 분해는 심리음향(psychoacoustics)에 따라 양자화되고 스케일링된다. TCX와 CELP 코딩 모드들에서는, 선형 예측 계수들을 획득하기 위해 오디오 콘텐츠는 선형 예측 분석처리를 받게되며, 이러한 선형 예측 계수들은 여기 신호(excitation signal)와 함께 비트스트림 내로 전달되며, 비트스트림 내의 선형 예측 계수들을 이용하여 대응하는 선형 예측 합성 필터로 필터링되는 경우 오디오 콘텐츠의 디코딩된 표현물을 산출시킨다. TCX의 경우에서, 여기 신호는 변환 코딩되는 반면에, CELP의 경우에서는 여기 신호는 코드북 내의 엔트리들을 인덱싱함으로써 코딩되거나 또는 그렇지 않고 필터링된 샘플들의 코드북 벡터를 합성하여 구축함으로써 코딩된다. 본 실시예에 따라 이용되는 대수적 코드북 여기 선형 예측(algebraic codebook excitation linear prediction; ACELP)에서, 여기(excitation)는 적응적 코드북 여기(adaptive codebook excitation)와 혁신 코드북 여기(innovation codebook excitation)로 구성된다. 아래에서 보다 자세하게 약술될 것이지만, TCX에서는, 선형 예측 계수들이 스케일 인자들을 도출해냄으로써 노이즈 양자화를 셰이핑(shaping)하기 위해 디코더 측에서도 주파수 영역에서 직접적으로 활용될 수 있다. 이 경우, TCX는 원래의 신호를 변환시키고 LPC의 결과물만을 주파수 영역에서 적용하도록 설정된다.

상이한 코딩 모드들에도 불구하고, 도 1의 인코더는 예컨대 이러한 글로벌 값들을 동일한 자리수와 같은 동일한 양만큼 증가시키거나 또는 감소시킴으로써(이것은 로그 밑수의 인자(또는 제수(divisor)) 곱하기 자리수로 스케일링한 것과 같음), 인코딩된 비트스트림 - 프레임들과 개별적으로 연계되거나 또는 프레임들의 그룹과 연계되는 예시들을 가지면서 - 의 모든 프레임들과 연계된 일정한 구문 엘리먼트(syntax element)가 모든 코딩 모드들에 걸쳐 글로벌 이득 적응을 허용할 수 있도록 비트스트림을 생성한다.

특히, 도 1의 멀티 모드 오디오 인코더(10)에 의해 지원된 다양한 코딩 모드들에 따르면, 멀티 모드 오디오 인코더(10)는 FD 인코더(12)와 선형 예측 코딩(linear prediction coding; LPC) 인코더(14)를 포함한다. LPC 인코더(14)는 이어서 TCX 인코딩부(16), CELP 인코딩부(18), 및 코딩 모드 스위치(20)로 구성된다. 반면에, 인코더(10)에 의해 구성된 추가적인 코딩 모드 스위치는 모드 할당기로서 도면부호 22로 일반적으로 도시된다. 모드 할당기는 연속되는 시간부분들을 상이한 코딩 모드들과 연계시키기 위해 인코딩될 오디오 콘텐츠(24)를 분석하도록 구성된다. 특히, 도 1의 경우에서, 모드 할당기(22)는 오디오 콘텐츠(24)의 연속적인 상이한 시간부분들을 FD 코딩 모드와 LPC 코딩 모드 중 어느 한쪽에 할당한다. 도 1의 실례에서, 예컨대, 모드 할당기(22)는 오디오 콘텐츠(24)의 시간부분(26)을 FD 코딩 모드에 할당한 반면에, 바로 그 뒤를 따르는 시간부분(28)은 LPC 코딩 모드에 할당한다. 모드 할당기(22)에 의해 할당된 코딩 모드에 의존하여, 오디오 콘텐츠(24)는 연속적인 프레임들로 상이하게 하위분할될 수 있다. 예를 들어, 도 1의 실시예에서, 시간부분(26) 내의 오디오 콘텐츠(24)는 동일한 길이를 가지며 서로가 예컨대 50% 오버랩하는 프레임들(30)로 인코딩된다. 다시 말하면, FD 인코더(12)는 이러한 단위들(30)로 오디오 콘텐츠(24)의 FD 부분(26)을 인코딩하도록 구성된다. 도 1의 실시예에 따르면, LPC 인코더(14)는 또한 이러한 프레임들을 갖는 프레임들(32)의 단위들로 자신과 연계된 오디오 콘텐츠(24)의 부분(28)을 인코딩하도록 구성되지만, 프레임들(30)과 동일한 크기를 반드시 갖는 것은 아니다. 도 1의 경우, 예컨대, 프레임들(32)의 크기는 프레임들(30)의 크기보다 작다. 특히, 특정한 실시예에 따르면, 프레임들(30)의 길이는 오디오 콘텐츠(24)의 2048개 샘플들인 반면에, 프레임들(32)의 길이는 각각 1024개 샘플들이다. LPC 코딩 모드와 FD 코딩 모드 사이의 경계에서 최종 프레임은 최초 프레임과 오버랩하는 것이 가능할 수 있다. 하지만, 도 1의 실시예에서는, 도 1에서 예시적으로 도시된 바와 같이, FD 코딩 모드로부터 LPC 코딩 모드로의 천이의 경우, 또는 그 반대로의 천이의 경우에 어떠한 프레임 오버랩도 없는 것이 또한 가능할 수 있다.

도 1에서 도시된 바와 같이, FD 인코더(12)는 프레임들(30)을 수신하고, 이 프레임들을 주파수 영역 변환 코딩에 의해, 인코딩된 비트스트림(36)의 각각의 프레임들(34)로 인코딩한다. 이를 위해, FD 인코더(12)는 윈도우어(38), 변환기(40), 양자화 및 스케일링 모듈(42), 및 무손실 코더(44) 뿐만이 아니라 심리음향 제어기(46)를 포함한다. 원리적으로, 이후의 설명이 FD 인코더(12)의 이와 다른 동작을 교시하지 않는 한 FD 인코더(12)는 AAC 표준에 따라 구현될 수 있다. 특히, 윈도우어(38), 변환기(40), 양자화 및 스케일링 모듈(42), 및 무손실 코더(44)는 FD 인코더(12)의 입력(48)과 출력(50) 사이에서 직렬로 연결되며, 심리음향 제어기(46)는 입력(48)에 연결된 입력과, 양자화 및 스케일링 모듈(42)의 추가적인 입력에 연결된 출력을 갖는다. FD 인코더(12)는 여기서는 중요하지 않을 수 있는 추가적인 코딩 옵션들을 위한 추가적인 모듈들을 포함할 수 있다.

윈도우어(38)는 입력(48)에 진입하는 현재의 프레임을 윈도우잉하기 위해 상이한 윈도우들을 이용할 수 있다. 윈도우잉된 프레임은 MDCT 등을 이용하는 것과 같이, 변환기(40)에서 시간-스펙트럼 영역 변환처리를 받는다. 변환기(40)는 윈도우잉된 프레임들을 변환시키기 위해 상이한 변환 길이들을 이용할 수 있다.

특히, 윈도우어(38)는 예컨대, MDCT의 경우에서, 프레임(30)의 샘플들의 갯수의 절반에 대응할 수 있는 갯수의 변환 계수들을 산출시키기 위해, 동일한 변환 길이를 이용한 변환기(40)로 프레임들(30)의 길이와 일치하는 길이를 갖는 윈도우들을 지원할 수 있다. 하지만, 윈도우어(38)는 또한, 시간적으로 서로에 대한 오프셋인 프레임들(30)의 길이 절반의 여덟 개의 윈도우들과 같은 여러 개의 짧은 윈도우들이, 윈도우잉에 따르는 변환 길이를 이용하여 현재의 프레임의 이러한 윈도우잉된 버전들을 변환하는 변환기(40)로, 현재의 프레임에 적용되고, 이로써 해당 프레임 동안에 상이한 시간들에서 오디오 콘텐츠를 샘플링한 해당 프레임에 대한 여덟 개의 스펙트럼을 산출시키는 코딩 옵션들을 지원하도록 구성될 수 있다. 윈도우어(38)에 의해 이용된 윈도우들은 대칭적이거나 또는 비대칭적일 수 있으며, 제로 선두 끝(zero leading end) 및/또는 제로 후미 끝(zero rear end)을 가질 수 있다. 하지만, 현재의 프레임에 여러 개의 짧은 윈도우들을 적용하는 경우, 이러한 짧은 윈도우들의 비제로 부분(non-zero portion)은 서로 오버랩하면서 서로에 대해 위치이동될 수 있다. 물론, 윈도우어(38)와 변환기(40)를 위한 윈도우들 및 변환 길이들에 대한 다른 코딩 옵션들이 대안적인 실시예에 따라 이용될 수 있다.

변환기(40)에 의해 출력된 변환 계수들은 모듈(42)에서 양자화되고 스케일링된다. 특히, 심리음향 제어기(46)는 양자화 및 스케일링에 의해 도입된 양자화 노이즈가 마스킹 문턱값 아래에서 형성되도록 하는 마스킹 문턱값(48)을 결정하기 위해 입력(48)에서의 입력 신호를 분석한다. 특히, 스케일링 모듈(42)은 스펙트럼 영역이 하위분할된 변환기(40)의 스펙트럼 영역을 함께 커버링하는 스케일 인자 대역들에서 동작할 수 있다. 이에 따라, 연속적인 변환 계수들의 그룹들은 상이한 스케일 인자 대역들에 할당된다. 모듈(42)은 스케일 인자 대역 마다의 스케일 인자를 결정하고, 이 스케일 인자가 각각의 스케일 인자 대역들에 할당된 각각의 변환 계수값들로 곱해진 경우, 변환기(40)에 의해 출력된 변환 계수들의 재구축된 버전을 산출시킨다. 이 외에도, 모듈(42)은 스펙트럼을 스펙트럼적으로 균일하게 스케일링하도록 이득 값을 설정한다. 따라서, 재구축된 변환 계수는 변환 계수 값 곱하기 연계된 스케일 인자 곱하기 각각의 프레임 i의 이득 값 g_i과 같다. 변환 계수 값들, 스케일 인자들 및 이득 값은, 산술적 또는 호프만 코딩과 같은 엔트로피 코딩을 통해서와 같이, 관련된 다른 구문 엘리먼트들, 예컨대 앞서 언급한 윈도우 및 변환 길이 결정들 및 추가적인 코딩 옵션들을 가능하게 하는 추가적인 구문 엘리먼트들과 함께, 무손실 코더(44)에서 무손실 코딩처리를 받는다. 이와 관련한 보다 세부적인 사항에 대해서는, 추가적인 코딩 옵션들에 대한 AAC 표준을 참조바란다.

약간 더 정확해지도록, 양자화 및 스케일링 모듈(42)은 스펙트럼 라인 k 마다 양자화된 변환 계수 값을 전달하며, 이 계수 값은 재스케일링된 경우, 즉

으로 곱셈처리된 경우, 각각의 스펙트럼 라인 k에서의 재구축된 변환 계수, 즉 x_rescal을 산출하도록 구성될 수 있으며, 여기서, sf는 각각의 양자화된 변환 계수가 속하는 각각의 스케일 인자 대역의 스케일 인자이며, sf_오프셋은 예컨대 100으로 설정될 수 있는 상수이다.

따라서, 스케일 인자들은 로그 영역에서 정의된다. 스케일 인자들은 스펙트럼 액세스를 따라 비트스트림(36) 내에서 서로에 대해 차별적으로 코딩될 수 있는데, 즉 단순히 스펙트럼적으로 이웃하는 스케일 인자들 sf간의 차분이 비트스트림 내에 전달될 수 있다. 제1 스케일 인자 sf는 앞서 언급한 글로벌_이득 값에 대해 차별적으로 코딩되어 비트스트림 내에 전달될 수 있다. 이러한 구문 엘리먼트 글로벌_이득은 다음의 설명에서 관심사항일 것이다.

글로벌_이득 값은 로그 영역에서 비트스트림 내에 전달될 수 있다. 즉, 모듈(42)은 글로벌_이득으로서, 현재의 스펙트럼의 제1 스케일 인자 sf를 취하도록 구성될 수 있다. 그 후 이 sf 값은 제로를 가지면서 각각의 선행자에게 차별적으로 전달될 수 있고 이후의 sf 값들도 각각의 선행자에게 차별적으로 전달될 수 있다.

분명하게도, 글로벌_이득을 변경하는 것은 재구축된 변환 에너지를 변경시키고, 이에 따라 모든 프레임들(30)상에서 균일하게 수행된 때, FD 코딩된 부분(26)의 음향크기 변경으로 전환된다.

특히, 글로벌_이득이 재구축된 오디오 시간 샘플들의 연속 평균(running mean)에 로그함수적으로 의존하거나 또는 그 반대로, 재구축된 오디오 시간 샘플들의 연속 평균이 글로벌_이득에 지수함수적으로 의존하도록 FD 프레임들의 글로벌_이득은 비트스트림 내에 전달된다.

프레임들(30)과 마찬가지로, LPC 코딩 모드에 할당된 모든 프레임들, 즉 프레임들(32)은 LPC 인코더(14)에 진입한다. LPC 인코더(14) 내에서, 스위치(20)는 각각의 프레임(32)을 하나 이상의 서브프레임들(52)로 하위분할한다. 이러한 서브프레임들(52) 각각은 TCX 코딩 모드 또는 CELP 코딩 모드에 할당될 수 있다. TCX 코딩 모드에 할당된 서브프레임들(52)은 TCX 인코더(16)의 입력(54)에 포워딩되는 반면에, CELP 코딩 모드와 연계된 서브프레임들은 스위치(20)에 의해 CELP 인코더(18)의 입력(56)에 포워딩된다.

도 1에서 LPC 인코더(14)의 입력(58)과 TCX 인코더(16) 및 CELP 인코더(18) 각각의 입력들(54, 56) 사이의 스위치(20)의 배열은 단지 설명을 위해 도시된 것일 뿐이며, 실제로는 어떠한 가중치/왜곡 수치를 최대화하기 위해 TCX와 CELP간의 각각의 코드 모드들을 개별적인 서브프레임들에 연계시키면서 프레임들(32)의 서브프레임들(52)로의 하위분할과 관련된 코딩 결정이 TCX 인코더(16)와 CELP 인코더(18)의 내부 엘리먼트들 사이에서 상호작용 방식으로 행해질 수 있다는 것을 유념해야 한다.

어떠한 경우든지 간에, TCX 인코더(16)는 여기 생성기(60), LP 분석기(62) 및 에너지 결정기(64)를 포함하며, LP 분석기(62)와 에너지 결정기(64)는 자신의 여기 생성기(66)를 더 포함한 CELP 인코더(18)에 의해 공동 이용(및 공동 소유)된다. 여기 생성기(60), LP 분석기(62) 및 에너지 결정기(64)의 각각의 입력들은 TCX 인코더(16)의 입력(54)에 연결된다. 마찬가지로, LP 분석기(62), 에너지 결정기(64) 및 여기 생성기(66)의 각각의 입력들은 CELP 인코더(18)의 입력(56)에 연결된다. LP 분석기(62)는, 선형 예측 계수들을 결정하기 위해, 현재 프레임, 즉 TCX 프레임 또는 CELP 프레임 내의 오디오 콘텐츠를 분석하도록 구성되고, 선형 예측 계수들을 여기 생성기(60), 에너지 결정기(64) 및 여기 생성기(66)에 포워딩하기 위해 이러한 엘리먼트들의 각각의 계수 입력들에 연결된다. 아래에서 보다 자세하게 설명될 바와 같이, LP 분석기는 프리엠퍼사이징된(pre-emphasized) 버전의 원래의 오디오 콘텐츠에 대해 동작할 수 있고, 각각의 프리엠퍼시스 필터는 LP 분석기의 각각의 입력부의 일부일 수 있거나, 또는 LP 분석기의 입력 앞에서 연결될 수 있다. 이후에 보다 자세하게 설명할 에너지 결정기(66)에 대해서도 동일하게 적용된다. 하지만, 여기 생성기(60)에 관한 한, 여기 생성기(60)는 원래의 신호에 대해 직접 동작할 수 있다. 여기 생성기(60), LP 분석기(62), 에너지 결정기(64) 및 여기 생성기(66)의 각각의 출력들 뿐만이 아니라 출력(50)은 인코더(10)의 멀티플렉서(68)의 각각의 입력들에 연결되며, 멀티플렉서(68)는 수신된 구문 엘리먼트들을 출력(70)에서 비트스트림(36)으로 멀티플렉싱하도록 구성된다.

이미 위에서 언급한 바와 같이, LP 분석기(62)는 유입중인 LPC 프레임들(32)에 대한 선형 예측 계수들을 결정하도록 구성된다. LP 분석기(62)의 잠재적인 기능과 관련된 추가적인 세부사항들에 대해서는, ACELP 표준을 참조바란다. 일반적으로, LP 분석기(62)는 LPC 계수들을 결정하기 위해 자동상관 또는 공분산 방법을 이용할 수 있다. 예를 들어, 자동상관 방법을 이용하는 경우, LP 분석기(62)는 레빈슨 더반(Levinson-Durban) 알고리즘을 이용하여 LPC 계수들을 풀 수 있는 자동상관 행렬을 산출시킬 수 있다. 본 발명분야에서 알려진 바와 같이, LPC 계수들은 인간 성도(vocal tract)를 대략적으로 모델링하고, 여기 신호에 의해 구동될 때, 성대(vocal chord)를 통한 공기의 흐름을 근본적으로 모델링하는 합성 필터를 정의한다. 이러한 합성 필터는 LP 분석기(62)에 의해 선형 예측을 이용하여 모델링된다. 성도 형상이 변경되는 레이트는 제한이 있고, 이에 따라, LP 분석기(62)는 선형 예측 계수들을 업데이트하기 위해 프레임들(32)의 프레임 레이트와는 상이하고 이러한 제한에 적응된 업데이트 레이트를 이용할 수 있다. 분석기(62)에 의해 수행된 LP 분석은,

선형 예측 합성 필터 H(z),

그 역필터, 즉

관계에 있는, 선형 예측 분석 필터 또는 화이트닝 필터 A(z),

과 같은 지각적 가중 필터 (여기서

는 가중 인자임)

와 같은, 엘리먼트들(60, 64 및 66)에 대한 어떠한 필터들에 대한 정보를 제공한다.

LP 분석기(62)는 비트스트림(36) 내로 삽입되는 LPC 계수들에 관한 정보를 멀티플렉서(68)에 전달한다. 이 정보(72)는 스펙트럼 쌍 영역 등과 같은 적절한 영역에서 양자화된 선형 예측 계수들을 나타낼 수 있다. 선형 예측 계수들의 양자화조차도 이 영역에서 수행될 수 있다. 더군다나, LP 분석기(62)는 디코딩측에서 LPC 계수들이 실제로 재구축되는 레이트보다 큰 레이트로 LPC 계수들 또는 그에 관한 정보(72)를 전달할 수 있다. 후자의 업데이트 레이트는 예컨대 LPC 전달 시간들간의 보간에 의해 달성된다. 분명하게도, 디코더는 양자화된 LPC 계수들에 대한 액세스만을 가지며, 따라서, 대응하는 재구축된 선형 예측들에 의해 정의된 앞서 언급한 필터들은

, 및

로 표기된다.

위에서 이미 약술한 바와 같이, LP 분석기(62)는 각각의 여기에 적용될 때, 설명의 용이함으로 인해 여기서는 고려하지 않는 몇몇의 후처리 외에 원래의 오디오 콘텐츠를 복구시키거나 재구축하는 LP 합성 필터

및

을 각각 정의한다.

여기 생성기들(60, 66)은 이러한 여기를 정의하고 그에 관한 각각의 정보를 멀티플렉서(68) 및 비트스트림(36)을 통해 각각 디코딩측에 전달한다. TCX 인코더(16)의 여기 생성기(60)와 관련되는 한, 여기 생성기(60)는 스펙트럼 버전의 여기를 산출시키기 위해 발견된 적절한 여기가 예컨대 몇몇의 최적화 기법에 의해, 시간-스펙트럼 영역 변환 처리되도록 함으로써 현재의 여기를 코딩하며, 이러한 스펙트럼 버전의 스펙트럼 정보(74)는 비트스트림(36) 내로의 삽입을 위해, 예컨대 FD 인코더(12)의 모듈(42)이 동작할 때의 스펙트럼과 유사하게, 양자화되고 스케일링되는 스펙트럼 정보와 함께, 멀티플렉서(68)에 포워딩된다.

즉, 현재의 서브프레임(52)의 TCX 인코더(16)의 여기를 정의하는 스펙트럼 정보(74)는 그와 연계된 양자화된 변환 계수들을 가질 수 있으며, 이 계수들은 단일의 스케일 인자에 따라 스케일링되어 이하에서 글로벌_이득이라고도 칭해지는 LPC 프레임 구문 엘리먼트와 관련되어 전달된다. FD 인코더(12)의 글로벌_이득의 경우에서와 같이, LPC 인코더(14)의 글로벌_이득은 또한 로그 영역에서 정의될 수 있다. 이러한 값의 증가는, 디코딩된 표현물이 이득 조정을 보존하는 선형 동작들에 의해 정보(74) 내의 스케일링된 변환 계수들을 처리함으로써 달성되므로, 각각의 TCX 서브프레임들의 오디오 콘텐츠의 디코딩된 표현물의 음향크기 증가로 곧바로 전환된다. 이러한 선형 동작들은 역 시간-주파수 변환이며, 결국 LP 합성 필터링이다. 하지만, 아래에서 보다 자세하게 설명될 바와 같이, 여기 생성기(60)는 스펙트럼 정보(74)의 방금 언급한 이득을 LPC 프레임들의 단위들에서보다 높은 시간 분해능으로 비트스트림으로 코딩하도록 구성된다. 특히, 여기 생성기(60)는 여기의 스펙트럼의 이득을 설정하는데 이용된 실제의 이득을 - 비트스트림 엘리먼트 글로벌_이득에 대해 - 차별적으로 코딩하기 위해 델타_글로벌_이득이라고 칭해지는 구문 엘리먼트를 이용한다. 델타_글로벌_이득은 또한 로그 영역에서 정의될 수 있다. 글로벌_이득을 선형 영역에서 배수적으로 정정하도록 델타_글로벌_이득이 정의될 수 있도록 차별적 코딩이 수행될 수 있다.

여기 생성기(60)와는 대조적으로, CELP 인코더(18)의 여기 생성기(66)는 코드북 인덱스들을 이용함으로써 현재의 서브프레임의 현재의 여기를 코딩하도록 구성된다. 특히, 여기 생성기(66)는 적응적 코드북 여기와 혁신 코드북 여기의 결합에 의해 현재의 여기를 결정하도록 구성된다. 여기 생성기(66)는 과거 여기, 즉 예컨대 이전에 코딩된 CELP 서브프레임을 위해 이용된 여기와, 현재 프레임에 대한 적응적 코드북 인덱스에 의해 정의되도록 현재 프레임에 대한 적응적 코드북 여기를 구축하도록 구성된다. 여기 생성기(66)는 적응적 코드북 인덱스(76)를 멀티플렉서(68)에 포워딩함으로써 적응적 코드북 인덱스(76)를 비트스트림으로 인코딩한다. 또한, 여기 생성기(66)는 현재의 프레임에 대한 혁신 코드북 인덱스에 의해 정의된 혁신 코드북 여기를 구축하고, 비트스트림(36) 내로의 삽입을 위해 혁신 코드북 인덱스(78)를 멀티플렉서(68)에 포워딩함으로써 혁신 코드북 인덱스(78)를 비트스트림으로 인코딩한다. 실제로, 양쪽 인덱스들은 하나의 공통 구문 엘리먼트로 통합될 수 있다. 또한, 양쪽 인덱스들은 디코더로 하여금 코드북 여기를 복구시켜서 여기 생성기에 의해 결정될 수 있도록 한다. 인코더와 디코더의 내부 상태들의 동기화를 보장하기 위해, 생성기(66)는 디코더로 하여금 현재의 코드북 여기를 복구시킬 수 있도록 하기 위한 구문 엘리먼트들을 결정할 뿐만이 아니라, 다음 CELP 프레임을 인코딩하기 위한 시작점으로서 즉, 과거 여기로서 현재의 코드북 여기를 이용하기 위해 실제로 동일물을 생성함으로써 그 상태를 실제로 업데이트한다.

여기 생성기(66)는, 적응적 코드북 여기와 혁신 코드북 여기를 구축할 시에, 결과적인 여기가 재구축을 위해 디코딩측에서 LP 합성 필터처리되는 것을 고려하여 현재의 서브프레임의 오디오 콘텐츠에 대한 지각적 가중 왜곡 수치를 최소화하도록 구성될 수 있다. 실제로, 인덱스들(76, 78)은 LP 합성 필터의 여기 입력으로서 역할을 하는 벡터들을 인덱싱하거나 또는 그렇지 않고 이를 결정하기 위해 인코더(10)뿐만이 아니라 디코딩측에서 이용가능한 일정한 테이블들을 인덱싱한다. 적응적 코드북 여기와는 대조적으로, 혁신 코드북 여기는 과거 여기와는 독립적으로 결정된다. 실제로, 여기 생성기(66)는 일정한 지연과 이득 값 및 미리결정된 필터링(보간)을 이용하여 재구축된 여기를 수정함으로써 이전에 코딩된 CELP 서브프레임의 과거 및 재구축된 여기를 이용하여 현재 프레임에 대한 적응적 코드북 여기를 결정하도록 구성될 수 있으며, 이로써 현재 프레임의 결과적인 적응적 코드북 여기는 합성 필터에 의해 필터링된 경우, 원래의 오디오 콘텐츠를 복구하는 적응적 코드북 여기에 대한 일정한 타겟에 대한 차분을 최소화시킨다. 방금 언급한 지연, 이득 및 필터링은 적응적 코드북 인덱스에 의해 표시된다. 나머지 차이는 혁신 코드북 여기에 의해 보상된다. 다시, 여기 생성기(66)는 최적의 혁신 코드북 여기를 발견하기 위해 코드북 인덱스를 적절하게 설정하며, 이 혁신 코드북 여기는 (적응적 코드북 여기에 추가된 것과 같이) 적응적 코드북 여기와 결합된 경우, 현재 프레임에 대한 현재 여기(이것은 후에 뒷따르는 CELP 서브프레임의 적응적 코드북 여기를 구축할 때 과거 여기로서 역할을 한다)를 산출시킨다. 다른 말로 말하면, 적응적 코드북 검색은 서브프레임별로 수행될 수 있으며 이것은 폐루프 피치 검색을 수행하고, 그런 후 선택된 부분적 피치 래그에서 과거 여기를 보간함으로써 적응적 코드벡터를 계산하는 것으로 구성된다. 실제로, 여기 신호 u(n)은 적응적 코드북 벡터 v(n)와 혁신 코드북 벡터 c(n)의 가중화된 합(weighted sum)으로서 여기 생성기(66)에 의해

으로 정의된다.

피치 이득

은 적응적 코드북 인덱스(76)에 의해 정의된다. 혁신 코드북 이득

은 아래에서 약술할 에너지 결정기(64)에 의해 결정된 LPC 프레임들에 대한 앞서 언급한 글로벌_이득 구문 엘리먼트 및 혁신 코드북 인덱스(78)에 의해 결정된다.

즉, 혁신 코드북 인덱스(78)를 최적화하는 경우, 여기 생성기(66)는 혁신 코드북 벡터의 펄스들의 갯수뿐만이 아니라, 이러한 펄스들의 위치 및 부호를 결정하기 위해 혁신 코드북 인덱스를 단순히 최적화하면서 혁신 코드북 이득

을 채택하여 변하지 않은 상태로 유지한다.

에너지 결정기(64)에 의해 앞서 언급한 LPC 프레임 글로벌_이득 구문 엘리먼트를 설정하기 위한 제1 접근법(또는 대안구성)을 도 2와 관련하여 아래에서 설명한다. 아래에서 설명하는 양쪽 대안구성들에 따르면, 각각의 LPC 프레임(32)에 대한 구문 엘리먼트 글로벌_이득이 결정된다. 이러한 구문 엘리먼트는 이후에 각각의 프레임(32)에 속한 TCX 서브프레임들의 앞서 언급한 델타_글로벌_이득 구문 엘리먼트들 뿐만이 아니라, 아래에서 설명되는 글로벌_이득에 의해 결정된 앞서 언급한 혁신 코드북 이득

에 대한 기준으로서 역할을 한다.

도 2에서 도시된 바와 같이, 에너지 결정기(64)는 구문 엘리먼트 글로벌_이득(80)을 결정하도록 구성될 수 있으며, LP 분석기(62)에 의해 제어된 선형 예측 분석 필터(82), 에너지 계산기(84), 양자화 및 코딩 스테이지(86) 뿐만이 아니라 재양자화를 위한 디코딩 스테이지(88)를 포함할 수 있다. 도 2에서 도시된 바와 같이, 프리엠퍼사이저(pre-emphasizer) 또는 프리엠퍼시스(pre-emphasis) 필터(90)는 원래의 오디오 콘텐츠(24)가 아래에서 설명하는 바와 같이 에너지 결정기(64) 내에서 추가적으로 처리되기 전에 이 원래의 오디오 콘텐츠(24)를 프리엠퍼사이징할 수 있다. 도 1에서는 도시되지 않았지만, 프리엠퍼시스 필터는 또한 도 1의 블록도에서 LP 분석기(62)와 에너지 결정기(64)의 입력들 모두의 바로 앞에 존재할 수 있다. 다시 말하면, 프리엠퍼시스 필터는 LP 분석기(62)와 에너지 결정기(64)에 의해 공동 소유되거나 공동 이용될 수 있다. 프리엠퍼시스 필터(90)는

으로 주어질 수 있다.

따라서, 프리엠퍼시스 필터는 하이패스 필터일 수 있다. 여기서는, 프리엠퍼시스 필터가 1차 하이패스 필터이지만, 보다 일반적으로는, 프리엠퍼시스 필터는 n차 하이패스 필터일 수 있다. 본 경우에서는, 프리엠퍼시스 필터는

가 0.68로 설정된 1차 하이패스 필터로 예를 든다.

도 2의 에너지 결정기(64)의 입력은 프리엠퍼시스 필터(90)의 출력에 연결된다. 에너지 결정기(64)의 입력과 출력(80) 사이에서, LP 분석 필터(82), 에너지 계산기(84), 및 양자화 및 코딩 스테이지(86)는 이 순서로 직렬로 연결된다. 코딩 스테이지(88)는 양자화 및 코딩 스테이지(86)의 출력에 연결된 입력을 가지며, 디코더에 의해 획득가능한 양자화된 이득을 출력한다.

특히, 프리엠퍼사이징된 오디오 콘텐츠에 적용된 선형 예측 분석 필터(82) A(z)는 여기 신호(92)를 야기시킨다. 따라서, 여기 신호(92)는 LPC 분석 필터 A(z)에 의해 필터링된 프리엠퍼사이징된 버전의 원래의 오디오 콘텐츠(24), 즉,

로 필터링된 원래의 오디오 콘텐츠(24)와 같다.

이 여기 신호(92)에 기초하여, 현재 프레임(32)에 대한 공통 글로벌 이득은 현재 프레임(32) 내의 이 여기 신호(92)의 매 1024개 샘플에 대한 에너지를 계산함으로써 도출된다.

특히, 에너지 계산기(84)는 64개 샘플들의 세그먼트 당 신호(92)의 에너지를 로그 영역에서 아래 식에 의해 평균화한다:

그런 후 이득

은 평균 에너지 nrg에 기초하여 로그 영역에서 6 비트로 양자화 및 코딩 스테이지(86)에 의해 아래 식에 의해 양자화된다:

그런 후 이 인덱스는 구문 엘리먼트(80)로서, 즉 글로벌 이득으로서 비트스트림 내에 전달된다. 이것은 로그 영역에서 정의된다. 다시 말하면, 양자화 단계 크기는 지수함수적으로 증가한다. 양자화된 이득은

을 계산함으로써 디코딩 스테이지(88)에 의해서 획득된다.

여기서 이용된 양자화는 FD 모드의 글로벌 이득의 양자화와 동일한 입도(granularity)를 가지며, 이에 따라,

의 스케일링은 FD 프레임들(30)의 글로벌_이득 구문 엘리먼트의 스케일링과 동일한 방식으로 LPC 프레임들(32)의 음향크기를 스케일링하며, 이로써 디코딩 및 재인코딩 디투어를 수행할 필요없이 여전히 퀄리티를 유지하면서 멀티 모드 인코딩된 비트스트림(36)의 이득 제어의 손쉬운 방법을 달성한다.

디코더와 관련하여 아래에서 보다 자세하게 약술될 바와 같이, 디코더와 인코더 사이의 앞서 언급한 동시성 유지(여기 업데이트)를 위해, 여기 생성기(66)는, 코드북 인덱스들을 최적화할 때 또는 최적화한 후,

a) 글로벌_이득에 기초하여, 예측 이득

을 계산하고,

b) 예측 이득

에 혁신 코드북 정정 인자

를 곱하여 실제의 혁신 코드북 이득

을 산출하며,

c) 실제의 혁신 코드북 이득

으로 혁신 코드북 여기를 가중화하고 이러한 혁신 코드북 여기와 적응적 코드북 여기를 결합함으로써 코드북 여기를 실제로 생성할 수 있다.

특히, 본 대안구성에 따르면, 양자화 인코딩 스테이지(86)는 비트스트림 내에

를 전달하며 여기 생성기(66)는 혁신 코드북 여기를 최적화하기 위한 미리정의된 고정된 기준으로서 양자화된 이득

을 수용한다.

특히, 여기 생성기(66)는 혁신 코드북 이득 정정 인자인

를 또한 정의하는 혁신 코드북 인덱스만을 이용하여(즉, 최적화를 통해) 혁신 코드북 이득

을 최적화한다. 특히, 혁신 코드북 이득 정정 인자는 아래에서와 같이 혁신 코드북 이득

을 결정한다:

아래에서 보다 자세하게 설명될 바와 같이, TCX 이득은 5 비트로 코딩된 아래의 델타_글로벌_이득 엘리먼트를 전달함으로써 코딩된다:

이것은 다음과 같이 디코딩된다:

그러면,

이다.

CELP 서브프레임들과 TCX 서브프레임들이 관련되어 있는 한, 구문 엘리먼트

에 의해 제공된 이득 제어간의 조화를 완성하기 위해, 도 2와 관련하여 기술된 제1 대안구성에 따르면, 글로벌 이득

은 이에 따라 프레임 또는 수퍼프레임(32) 당 6 비트로 코딩된다. 이것은 FD 모드의 글로벌 이득 코딩에서와 동일한 이득 입도를 초래시킨다. 이 경우, 수퍼프레임 글로벌 이득

은 6 비트로만 코딩되지만, FD 모드에서의 글로벌 이득은 8 비트로 보내진다. 따라서, 글로벌 이득 엘리먼트는 LPD (선형 예측 영역) 모드와 FD 모드에서와 동일하지 않다. 하지만, 이득 입도는 유사하므로, 통합된 이득 제어가 손쉽게 적용될 수 있다. 특히, FD 및 LPD 모드에서 글로벌_이득을 코딩하기 위한 로그 영역은 동일한 로그 밑수 2로 유리하게 수행된다.

양쪽 글로벌 엘리먼트들을 완전하게 조화시키기 위해, LPD 프레임들이 관련되어 있는 한일지라도 코딩을 8비트로 확장시키는 것은 간단할 것이다. CELP 서브프레임들이 관련되어 있는 한, 구문 엘리먼트

는 이득 제어의 업무를 완전히 맡는다. 앞서 언급한 TCX 서브프레임들의 델타_글로벌_이득 엘리먼트들은 수퍼프레임 글로벌 이득과는 상이하게 5비트로 코딩될 수 있다. 위 멀티 모드 인코딩 방식이 보통의 AAC, ACELP 및 TCX에 의해 구현되는 경우와 비교하여, 도 2의 대안구성에 따른 상기 개념은 TCX 20 및/또는 ACELP 서브프레임들로만 구성된 수퍼프레임(32)의 경우에서의 코딩을 위해 2비트가 보다 적도록 야기시킬 것이며, TCX 40 및 TCX 80 서브프레임을 각각 포함한 각각의 수퍼프레임의 경우에서 수퍼프레임 당 2개 또는 4개의 추가적인 비트들을 소모할 것이다.

신호 처리의 측면에서, 수퍼프레임 글로벌 이득

은 수퍼프레임(32)에 걸쳐 평균화되고 로그 스케일로 양자화된 LPC 잔여 에너지를 나타낸다. (A)CELP에서, 이것은 혁신 코드북 이득을 추정하기 위해 ACELP에서 통상적으로 이용되는 "평균 에너지" 엘리먼트를 대신하여 이용된다. 도 2에 따른 제1 대안구성에 따라 새로운 추정은 ACELP 표준에서보다 큰 진폭 분해능을 갖지만,

은 단지 서브프레임보다는 수퍼프레임 마다 전달되므로 보다 적은 시간 분해능을 갖는다. 하지만, 잔여 에너지는 불량한 추정자이며 이득 범위의 원인 표시자로서 이용된다는 것이 발견되었다. 그 결과, 시간 분해능이 아마도 보다 중요하다. 과도 동안의 임의의 문제발생을 회피하기 위해, 여기 생성기(66)는 혁신 코드북 이득을 체계적으로 과소평가하고 이득 조정이 이러한 갭을 복구하도록 구성될 수 있다. 이러한 전략은 시간 분해능의 결여를 상쇄시킬 수 있다.

뿐만 아니라, 수퍼프레임 글로벌 이득은 또한 앞서 언급한 스케일링_이득을 결정하는 "글로벌 이득" 엘리먼트의 추정치로서 TCX에서 이용된다. 수퍼프레임 글로벌 이득

은 LPC 잔여 에너지를 나타내고 TCX 글로벌은 가중 신호의 에너지를 나타내므로, 델타_글로벌_이득의 이용에 의한 차별적 이득 코딩은 몇몇의 LP 이득들을 암시적으로 포함한다. 그럼에도 불구하고, 차별적 이득은 여전히 평면적인 "글로벌 이득"보다 훨씬 낮은 진폭을 보여준다.

12kbps 및 24kbps 모노의 경우, 청음(clean speech)의 퀄리티에 주로 촛점을 둔 몇몇의 청력 테스트가 수행되었다. 퀄리티는 AAC 및 ACELP/TCX 표준들의 일반적 이득 제어가 이용된다라는 점에서 상기 실시예와 상이한 현재의 USAC 중 하나와 매우 근접하다는 것이 발견되었다. 하지만, 일정한 음성 아이템들에 대해서는, 퀄리티가 약간 악화되는 경향이 있다.

도 2의 대안구성에 따라 도 1의 실시예를 설명한 후, 제2 대안구성을 도 1과 도 3을 참조하여 설명한다. LPD 모드에 대한 제2 접근법에 따르면, 제1 대안구성의 몇몇 결점들이 해결된다:

높은 진폭 동적 프레임들의 몇몇 서브프레임들에 대해 ACELP 혁신 이득의 예측은 실패했다. 이것은 기하학적으로 평균화되었던 에너지 계산에 주로 기인하였다. 평균 SNR은 원래의 ACELP보다 우수하였지만, 이득 조정 코드북은 보다 자주 포화되었다. 이것은 일정한 음성 아이템들에 대한 약간의 인지된 저하의 주원인인 것으로 여겨졌다.

뿐만 아니라, ACELP 혁신의 이득의 예측은 또한 최적화되지 않았다. 실제로, 이득은 가중화된 영역에서 최적화되는 반면에 이득 예측은 LPC 잔여 영역에서 계산된다. 다음의 대안구성의 아이디어는 가중화된 영역에서 예측을 수행하는 것이다.

TCX가 TCX 글로벌 이득을 가중화된 영역에서 계산하는 동안, 전달된 에너지는 LPC 잔여에 대해 계산되었으므로 개별적인 TCX 글로벌 이득들의 예측은 최적화되지 않았다.

이전 방식과의 주요한 차이는 글로벌 이득은 이제 여기의 에너지 대신에 가중화된 신호의 에너지를 나타낸다는 것이다.

비트스트림의 측면에서, 제1 접근법과 비교된 변경들은 다음과 같다:

글로벌 이득은 FD 모드에서와 동일한 양자화기로 8비트로 코딩되었다. 이제, LPD 모드와 FD 모드는 동일한 비트스트림 엘리먼트를 공유한다. AAC에서의 글로벌 이득은 이러한 양자화기로 8비트로 코딩될 양호한 이유들을 갖는 것으로 판명되었다. 8비트는 6비트로만 코딩될 수 있는 LPD 모드 글로벌 이득에 대해 결정적으로 너무 많다. 하지만, 이것은 통합을 위한 댓가이다.

다음을 이용하여 차별적 코딩으로 TCX의 개별적인 글로벌 이득들을 코딩한다:

TCX1024에 대해서는 1비트, 고정 길이 코드들.

TCX256 및 TCX 512에 대해서는 평균적으로 4비트, 가변적 길이 코드들(호프만).

비트 소모의 측면에서, 제2 접근법은 다음의 점에서 제1 접근법과는 상이하다:

ACELP의 경우: 이전과 동일한 비트 소모

TCX1024의 경우: +2 비트

TCX512의 경우 : 평균적으로 +2 비트

TCX256의 경우: 이전과 동일한 평균 비트 소모

퀄리티의 측면에서, 제2 접근법은 다음의 점에서 제1 접근법과는 상이하다:

전체적인 양자화 입도는 변경되지 않은 상태로 유지되었기 때문에 TCX 오디오 부분들은 동일하게 소리나야 한다.

예측이 강화되었으므로 ACELP 오디오 부분들은 약간 개선될 것으로 예상될 수 있다. 수집된 통계치들은 현재의 ACELP에서보다 이득 조정에서 이상값을 덜 보여준다.

예컨대, 도 3을 살펴봐라. 도 3은 가중 필터 W(z)(100), 그 뒤를 이어 에너지 계산기(102) 및 양자화 및 코딩 스테이지(104) 뿐만 아니라 디코딩 스테이지(106)를 포함하고 있는 여기 생성기(66)를 보여준다. 실제로, 이러한 엘리먼트들은 도 2에서의 엘리먼트들(82, 88)과 같이 서로에 대해 배열된다.

가중 필터는

로서 정의되며,

여기서,

는 0.92로 설정될 수 있는 지각적 가중 인자이다.

따라서, 제2 접근법에 따르면, TCX 및 CELP 서브프레임들(52)에 대한 글로벌 이득 공통은 가중 신호상의 2024개 샘플들 마다, 즉 LPC 프레임들(32)의 단위들로 수행된 에너지 계산으로부터 도출된다. 가중 신호는 LP 분석기(62)에 의해 출력된 LPC 계수들로부터 도출된 가중 필터 W(z) 에 의해 원래 신호(24)를 필터링함으로써 필터(100) 내의 인코더에서 계산된다. 그런데, 앞서 언급한 프리엠퍼시스는 W(z)의 일부가 아니다. 이것은 LPC 계수들을 계산하기 이전, 즉 LP 분석기(62)의 내부 또는 그 앞에서, 그리고 ACELP 이전, 즉 여기 생성기(66)의 내부 또는 그 앞에서 이용될 뿐이다. 이런 식으로 프리엠퍼시스는 이미 A(z)의 계수들에서 반영되어 있다.

그런 후 에너지 계산기(102)는 에너지를 다음과 같이 결정한다:

그런 후 양자화 및 코딩 스테이지(104)는

에 의해 평균 에너지 nrg에 기초하여 로그 영역에서 이득 글로벌_이득을 8 비트로 양자화한다.

그런 후 양자화된 글로벌 이득은 디코딩 스테이지(106)에 의해 획득된다:

a) 각각의 혁신 코드북 벡터를 LP 합성 필터로 필터링하고, 가중 필터 W(z)와 디엠퍼시스 필터, 즉 역 엠퍼시스 필터(필터 H2(z), 아래 참조바람)로 가중화하는 것과 함께, 임시적 후보 또는 최종적으로 전달된, 혁신 코드북 인덱스 내에 포함된 제1 정보, 즉 혁신 코드북 벡터 펄스들의 앞서 언급된 갯수, 위치 및 부호에 의해 결정된 혁신 코드북 여기 에너지를 추정하고, 그 결과의 에너지를 결정하며,

b) 예측 이득

을 획득하기 위해, 이에 따라 유도된 에너지와 글로벌_이득에 의해 결정된 에너지

간의 비율을 형성하고,

c) 예측 이득

에 혁신 코드북 정정 인자

를 곱하여 실제의 혁신 코드북 이득

을 산출하며,

d) 실제의 혁신 코드북 이득

특히, 이에 따라 달성된 양자화는 FD 모드의 글로벌 이득의 양자화와 동일한 입도를 갖는다. 다시, 여기 생성기(66)는 혁신 코드북 여기를 최적화할 때에 양자화된 글로벌 이득

을 채택하고 이것을 상수로서 취급할 수 있다. 특히, 여기 생성기(66)는 최적의 혁신 코드북 인덱스를 찾아냄으로써 최적으로 양자화된 고정형 코드북 이득이

에 따라 초래되도록, 혁신 코드북 이득 정정 인자

를 설정할 수 있고,

위 식은

을 따르며,

위에서, c_w는

에 따라 n = 0 에서 63 까지의 콘볼루션에 의해 획득된 가중화된 영역에서의 혁신 벡터 c[n]이고,

h2는 가중화된 합성 필터의 임펄스 응답이며,

여기서, 예를 들어

=0.92이고

=0.68이다.

가변 길이 코드들로 코딩된 엘리먼트 델타_글로벌_이득을 전달함으로써 TCX 이득은 코딩된다.

만약 TCX가 1024 크기를 가지면, 오직 1비트만이 델타_글로벌 이득 엘리먼트를 위해 이용되며, 글로벌_이득은 다음과 같이 재계산되고 재양자화된다:

이것은 다음과 같이 디코딩된다:

그렇지 않고, TCX의 다른 크기에 대해서는, 델타_글로벌_이득은 다음과 같이 코딩된다:

그런 후 TCX 이득은 다음과 같이 디코딩된다:

델타_글로벌_이득은 7비트로 곧바로 코딩될 수 있거나 또는 평균적으로 4비트를 산출시킬 수 있는 호프만 코드를 이용하여 코딩될 수 있다.

최종적으로 양쪽의 경우들에서, 최종적인 이득은 다음과 같이 도출된다:

이하에서, 도 2 및 도 3과 관련하여 설명한 두 개의 대안구성들에 관한 도 1의 실시예에 대응하는 대응 멀티 모드 오디오 디코더를 도 4와 관련하여 설명한다.

도 4의 멀티 모드 오디오 디코더는 일반적으로 참조부호 120으로 표시되며, 이것은 디멀티플렉서(122), FD 디코더(124), 및 TCX 디코더(128)와 CELP 디코더(130)로 구성된 LPC 디코더(126), 및 오버랩/천이 핸들러(132)를 포함한다.

디멀티플렉서는 멀티 모드 오디오 디코더(120)의 입력을 동시적으로 형성하는 입력(134)을 포함한다. 도 1의 비트스트림(36)은 입력(134)에 진입한다. 디멀티플렉서(122)는 디코더들(124, 128, 130)에 연결된 여러 개의 출력들을 포함하며, 비트스트림(134) 내에 포함된 구문 엘리먼트들을 개별적인 디코딩 머신에 분배한다. 실제로, 멀티플렉서(132)는 각각의 디코더(124, 128, 130)로 비트스트림(36)의 프레임들(34, 35)을 각각 분배한다.

디코더들(124, 128, 130) 각각은 오버랩/천이 핸들러(132)의 각각의 입력에 연결된 시간 영역 출력을 포함한다. 오버랩/천이 핸들러(132)는 연속적인 프레임들간의 천이시 각각의 오버랩/천이 핸들링을 수행하는 것을 담당한다. 예를 들어, 오버랩/천이 핸들러(132)는 FD 프레임들의 연속적인 윈도우들에 관한 오버랩/추가 프로시저를 수행할 수 있다. 오버랩/천이 핸들러(132)는 TCX 서브프레임들에도 적용된다. 도 1과 관련하여 자세하게 설명되지는 않았지만, 예컨대, 여기 생성기(60)는 또한 여기를 나타내기 위한 변환 계수들을 획득하기 위해 시간-스펙트럼 영역 변환이 뒤따르는 윈도우잉을 이용하며, 윈도우들은 서로 오버랩될 수 있다. CELP 서브프레임들로의 천이/이로부터의 천이 시에, 오버랩/천이 핸들러(132)는 얼라이어싱(aliasing)을 회피하기 위해 특정한 측정들을 수행할 수 있다. 이를 위해, 오버랩/천이 핸들러(132)는 비트스트림(36)을 통해 전달된 각각의 구문 엘리먼트들에 의해 제어될 수 있다. 하지만, 이러한 전달 측정들은 본 출원의 촛점을 벗어나는 것이기 때문에, 이와 관련해서는 예컨대, 예시적인 솔루션들을 위한 ACELP W+ 표준을 참조바란다.

FD 디코더(124)는 무손실 디코더(134), 역양자화 및 재스케일링 모듈(136), 및 재변환기(138)를 포함하며, 이것들은 디멀티플렉서(122)와 오버랩/천이 핸들러(132) 사이에서 이러한 순서로 직렬로 연결된다. 무손실 디코더(134)는, 예컨대 비트스트림 내에서 차별적으로 코딩된 비트스트림으로부터 스케일 인자들을 복구시킨다. 역양자화 및 재스케일링 모듈(136)은 예컨대, 개별적인 스펙트럼 라인들에 대한 변환 계수 값들을 이러한 변환 계수 값들이 속해 있는 스케일 인자 대역들의 대응하는 스케일 인자들로 스케일링함으로써 변환 계수들을 복구시킨다. 재변환기(138)는 오버랩/천이 핸들러(132)로 포워딩될 시간 영역 신호를 획득하기 위해, 역 MDCT와 같은 이에 따라 획득된 변환 계수들에 대해 스펙트럼-시간 영역 변환을 수행한다. 역양자화 및 재스케일링 모듈(136) 또는 재변환기(138)는 각각의 FD 프레임에 대한 비트스트림 내에서 전달된 글로벌_이득 구문 엘리먼트를 이용하며, 이로써 이러한 변환으로부터 야기된 시간 영역 신호는 구문 엘리먼트에 의해 스케일링된다(즉, 몇몇의 지수 함수로 선형적으로 스케일링된다). 실제로, 스케일링은 스펙트럼-시간 영역 변환에 앞서서 수행되거나 또는 그 후에 수행될 수 있다.

TCX 디코더(128)는 여기 생성기(140), 스펙트럼 형성기(142), 및 LP 계수 컨버터(144)를 포함한다. 여기 생성기(140)와 스펙트럼 형성기(142)는 디멀티플렉서(122)와 오버랩/천이 핸들러(132)의 또 다른 입력 사이에서 직렬로 연결되며, LP 계수 컨버터(144)는 비트스트림을 통해 전달된 LPC 계수들로부터 획득된 스펙트럼 가중 값들을 스펙트럼 형성기(142)의 추가적인 입력에 제공한다. 특히, TCX 디코더(128)는 서브프레임들(52) 중 TCX 서브프레임들에 대해 동작한다. 여기 생성기(140)는 FD 디코더(124)의 컴포넌트들(134, 136)과 마찬가지로 유입하는 스펙트럼 정보를 취급한다. 즉, 여기 생성기(140)는 스펙트럼 영역에서 여기를 나타내기 위해 비트스트림 내에서 전달된 변환 계수 값들을 역양자화하고 재스케일링한다. 이에 따라 획득된 변환 계수들은 현재의 TCX 서브프레임(52)에 대해 전달된 구문 엘리먼트 델타_글로벌_이득과 현재의 TCX 서브프레임(52)에 속해 있는 현재 프레임(32)에 대해 전달된 구문 엘리먼트 글로벌_이득과의 합에 대응하는 값으로 여기 생성기(140)에 의해 스케일링된다. 따라서, 여기 생성기(140)는 델타_글로벌_이득과 글로벌_이득에 따라 스케일링된 현재의 서브프레임에 대한 여기의 스펙트럼 표현을 출력한다. LPC 컨버터(134)는 예컨대 보간 및 차별적 코딩 등을 통해 비트스트림 내에서 전달된 LPC 계수들을 스펙트럼 가중 값들, 즉 여기 생성기(140)에 의해 출력된 여기의 스펙트럼의 변환 계수마다의 스펙트럼 가중 값으로 전환시킨다. 특히, LP 계수 컨버터(144)는 이러한 스펙트럼 가중 값들이 선형 예측 합성 필터 전달 함수와 유사하도록 이 값들을 결정한다. 다시 말하면, 이 값들은 LP 합성 필터

의 전달 함수와 유사하다. 스펙트럼 형성기(142)는, 재변환기(146)가 현재의 TCX 서브프레임의 오디오 콘텐츠의 재구축된 버전 또는 디코딩된 표현물을 출력하도록 스펙트럼적으로 가중화되고 그 후 재변환기(146)에서 스펙트럼-시간 영역 변환처리되는 변환 계수들을 획득하기 위해, 여기 생성기(140)에 의해 입력된 변환 계수들을 LP 계수 컨버터(144)에 의해 획득된 스펙트럼 가중치만큼 스펙트럼적으로 가중화한다. 하지만, 이미 위에서 언급한 바와 같이, 후처리는 시간 영역 신호를 오버랩/천이 핸들러(132)로 포워딩하기 전에 재변환기(146)의 출력상에서 수행될 수 있다는 것을 유념한다. 어떠한 경우든 간에, 재변환기(146)에 의해 출력된 시간 영역 신호의 레벨은 각각의 LPC 프레임(32)의 글로벌_이득 구문 엘리먼트에 의해 다시 제어된다.

도 4의 CELP 디코더(130)는 혁신 코드북 구축기(148), 적응적 코드북 구축기(150), 이득 아답터(152), 결합기(154), 및 LP 합성 필터(156)를 포함한다. 혁신 코드북 구축기(148), 이득 아답터(152), 결합기(154), 및 LP 합성 필터(156)는 디멀티플렉서(122)와 오버랩/천이 핸들러(132) 사이에서 직렬로 연결된다. 적응적 코드북 구축기(150)는 디멀티플렉서(122)에 연결된 입력과, 결합기(154)의 추가적인 입력에 연결된 출력을 가지며, 이 때 이 결합기(154)는 도 4에서 표시된 가산기로서 구현될 수 있다. 적응적 코드북 구축기(150)의 추가적인 입력은 가산기(154)로부터 과거 여기를 획득하기 위해 가산기(154)의 출력에 연결된다. 이득 아답터(152)와 LP 합성 필터(156)는 멀티플렉서(122)의 일정한 출력에 연결된 LPC 입력들을 갖는다.

TCX 디코더와 CELP 디코더의 구조를 설명해온 후에는 이것들의 기능에 대해 아래에서 보다 자세하게 설명한다. 본 설명은 먼저 TCX 디코더(128)의 기능부터 시작하고, 그런 다음에 CELP 디코더(130)의 기능의 설명으로 진행한다. 이미 위에서 설명한 바와 같이, LPC 프레임들(32)은 하나 이상의 서브프레임들(52)로 하위분할된다. 일반적으로, CELP 서브프레임들(52)은 256개의 오디오 샘플들의 길이를 갖는 것으로 제한된다. TCX 서브프레임들(52)은 상이한 길이들을 가질 수 있다. 예컨대, TCX 20 또는 TCX 256 서브프레임들(52)은 256개의 샘플 길이를 갖는다. 마찬가지로, TCX 40 (TCX 512) 서브프레임들(52)은 512개의 오디오 샘플들의 길이를 가지며, TCX 80 (TCX 1024) 서브프레임들은 1024개의 샘플 길이, 즉 전체 LPC 프레임(32)과 관계된다. TCX 40 서브프레임들은 단순히 현재의 LPC 프레임(32)의 4등분 중의 선두쪽 두 개에 위치할 수 있거나, 또는 4등분 중의 후미쪽 두 개에 위치할 수 있다. 따라서, 이 모두로, LPC 프레임(32)이 하위분할될 수 있는 상이한 서브프레임 유형들의 26개의 상이한 조합들이 존재한다.

따라서, 방금 언급한 바와 같이, TCX 서브프레임들(52)은 상이한 길이를 갖는다. 방금 설명한 샘플 길이들, 즉 256개, 512개, 및 1024개를 고려하면, 이러한 TCX 서브프레임들은 서로 오버랩하지 않는 것을 생각할 수 있다. 하지만, 이것은 샘플들에서 측정된 윈도우 길이 및 변환 길이가 관련되는 한 정확하지 않으며, 이것은 여기의 스펙트럼 분해를 수행하기 위해 이용된다. 윈도우어(38)에 의해 이용된 변환 길이들은, 예를 들어, FD 코딩으로부터 알려진 얼라이어싱 소거를 허용하기 위해 현재 서브프레임의 앞에 있는 연속적인 서브프레임들과 오버랩하는 비제로 부분들을 포함하기 위해, 예컨대 현재의 TCX 서브프레임 각각의 선두 끝과 후미 끝을 넘어서 연장되며 여기를 윈도우잉하기 위해 이용된 대응하는 윈도우는 현재의 각각의 TCX 서브프레임의 선두 끝과 후미 끝을 넘는 영역으로 손쉽게 연장되도록 적응된다. 따라서, 여기 생성기(140)는 비트스트림으로부터 양자화된 스펙트럼 계수들을 수신하고 이로부터 여기 스펙트럼을 재구축한다. 이 스펙트럼은 현재의 TCX 서브프레임의 델타_글로벌_이득과, 현재의 서브프레임이 속한 현재 프레임(32)의 글로벌_프레임의 결합에 의존하여 스케일링된다. 특히, 이 결합은 양쪽 이득 구문 엘리먼트들이 정의되어 있는, (로그 영역에서의 합에 대응하는) 선형 영역에서의 양쪽 값들간의 곱셈을 수반할 수 있다. 따라서, 여기 스펙트럼은 구문 엘리먼트 글로벌_이득에 따라 스케일링된다. 그런 후 스펙트럼 형성기(142)는 결과적인 스펙트럼 계수들에 대한 LPC 기반 주파수 영역 노이즈 셰이핑을 수행하고 이어서 재변환기(146)에 의해 수행되는 역 MDCT 변환이 뒤따라서 시간 영역 합성 신호를 획득한다. 오버랩/천이 핸들러(132)는 연속적인 TCX 서브프레임들간의 오버랩 추가 프로세스를 수행할 수 있다.

CELP 디코더(130)는, 위에서 언급한 바와 같이, 256개 오디오 샘플들의 길이를 각각 갖는 앞서 언급한 CELP 서브프레임들에 대해 작동한다. 이미 위에서 언급한 바와 같이, CELP 디코더(130)는 스케일링된 적응적 코드북 벡터 및 혁신 코드북 벡터의 결합 또는 가산으로서 현재의 여기를 구축하도록 구성된다. 적응적 코드북 구축기(150)는 피치 래그(pitch lag)의 정수와 소수부를 찾기 위해 디멀티플렉서(122)를 통해 비트스트림으로부터 검색된 적응적 코드북 인덱스를 이용한다. 그런 후 적응적 코드북 구축기(150)는 FIR 보간 필터를 이용하여, 피치 지연 및 위상, 즉 소수부에서 과거 여기 u(n)을 보간함으로써 초기 적응적 코드북 여기 벡터 v'(n)를 찾을 수 있다. 적응적 코드북 여기는 64개 샘플들의 크기에 대해 계산된다. 비트스트림에 의해 검색된 적응적 필터 인덱스라고 칭해지는 구문 엘리먼트에 의존하여, 적응적 코드북 구축기는 필터링된 적응적 코드북이

또는

인지 여부를 결정할 수 있다.

혁신 코드북 구축기(148)는 비트스트림으로부터 검색된 혁신 코드북 인덱스를 이용하여 대수적 코드벡터, 즉 혁신 코드벡터 c(n) 내에서 여기 펄스들의 위치 및 진폭, 즉 부호들을 추출한다. 즉,

이며,

여기서, m_i와 s_i는 펄스 위치와 부호이고, M은 펄스들의 갯수이다. 대수적 코드벡터 c(n) 이 디코딩되면, 피치 샤프닝 프로시저가 수행된다. 먼저 c(n) 은 다음과 같이 정의된 프리엠퍼시스 필터에 의해 필터링된다:

프리엠퍼시스 필터는 저주파수들에서 여기 에너지를 감소시키는 역할을 갖는다. 당연하게도, 프리엠퍼시스 필터는 다른 방법으로 정의될 수 있다. 다음으로, 혁신 코드북 구축기(148)에 의해 주기성이 수행될 수 있다. 이러한 주기성 강화는,

로서 정의된 전달 함수를 갖는 적응적 사전필터에 의해 수행될 수 있으며,

여기서, n은 64개 오디오 샘플들의 바로 연속적인 그룹들의 단위들에서의 실제 위치이며, T는

로 주어진 피치 래그의 라운딩 버전의 정수부 T₀와 소수부 T₀ _, _frac 이다.

적응적 사전 필터

는 음성 신호의 경우에서 사람의 귀에 거슬리는 고조파간 주파수들을 감쇠시킴으로써 스펙트럼을 컬러링(color)한다.

비트스트림 내에서 수신된 혁신 코드북 인덱스 및 적응적 코드북 인덱스는 적응적 코드북 이득

과 혁신 코드북 이득 정정 인자

를 직접적으로 제공한다. 그런 후 혁신 코드북 이득은 이득 정정 인자

에 추정된 혁신 코드북 이득

을 곱함으로써 계산된다. 이것은 이득 아답터(152)에 의해 수행된다.

앞서 언급한 제1 대안구성에 따르면, 이득 아답터(152)는 다음 단계들을 수행한다:

첫번째로, 전달된 글로벌_이득을 통해 전달되고 수퍼프레임(32) 마다의 평균 여기 에너지를 나타내는

는 아래와 같이 db로 추정된 이득

으로서 작용한다.

이에 따라 수퍼프레임(32)에서의 평균 혁신 여기 에너지

는 글로벌_이득에 의해 수퍼프레임 당 6비트로 인코딩되며,

는 글로벌_이득의 양자화된 버전

을 통해 다음과 같이 글로벌_이득으로부터 유도된다:

그런 후 선형 영역에서의 예측 이득이 이득 아답터(152)에 의해 다음과 같이 유도된다:

그런 후 양자화된 고정형 코드북 이득이 이득 아답터(152)에 의해 다음과 같이 계산된다:

설명한 바와 같이, 그 후 이득 아답터(152)는

로 혁신 코드북 여기를 스케일링하는 반면에, 적응적 코드북 구축기(150)는

로 적응적 코드북 여기를 스케일링하며, 양쪽 코드북 여기들 모두의 가중화된 합계는 결합기(154)에서 형성된다.

위에서 약술된 대안구성들 중 제2 대안구성에 따르면, 추정된 고정형 코드북 이득

은 다음과 같이 이득 아답터(152)에 의해 형성된다:

첫번째로, 평균 혁신 에너지가 발견된다. 평균 혁신 에너지 E_i는 가중화된 영역에서의 혁신 에너지를 나타낸다. 이것은 다음의 가중화된 합성 필터:

의 임펄스 응답 h2와 혁신 코드를 콘볼루션함으로써 계산된다.

그런 후 가중화된 영역에서의 혁신은 n=0 에서 63 까지의 콘볼루션에 의해 획득된다:

그러면 에너지는

이다.

그런 후, db로 추정된 이득

은

에 의해 발견되며,

여기서, 다시,

는 전달된 글로벌_이득을 통해 전달되고 수퍼프레임(32) 마다의 평균 여기 에너지를 가중화된 영역에서 나타낸다. 이에 따라 수퍼프레임(32)에서의 평균 에너지

는 글로벌_이득에 의해 수퍼프레임 당 8비트로 인코딩되며,

는 글로벌_이득의 양자화된 버전

을 통해 다음과 같이 글로벌_이득으로부터 유도된다:

그런 후 양자화된 고정형 코드북 이득이 이득 아답터(152)에 의해 다음과 같이 유도된다:

위에서 약술된 두 개의 대안구성들에 따른 여기 스펙트럼의 TCX 이득의 결정이 관련되어 있는 한 위 설명은 자세하게 들어가지 않았다. 스펙트럼을 스케일링할 때 이용되는 TCX 이득은, 이미 위에서 약술한 바와 같이,

에 따라 인코딩측에서 5비트로 코딩된 엘리먼트 델타_글로벌_이득을 전달함으로써 코딩된다.

이것은 예컨대, 아래와 같이 여기 생성기(140)에 의해 디코딩되며,

는 다음에 따른 글로벌_이득의 양자화된 버전이고,

이어서 현재의 TCX 프레임이 속하는 LPC 프레임(32)에 대한 비트스트림 내에 글로벌_이득은 제출된다.

그런 후, 여기 생성기(140)는 각각의 변환 계수에 다음의 g:

를 곱함으로써 여기 스펙트럼을 스케일링한다.

위에서 제시된 제2 접근법에 따르면, TCX 이득은 예컨대 가변 길이 코드들로 코딩된 엘리먼트 델타_글로벌_이득을 전달함으로써 코딩된다. 만약 현재 고려중인 TCX 서브프레임이 1024의 크기를 갖는 경우, 오직 1비트만이 델타_글로벌_이득 엘리먼트를 위해 이용되지만, 글로벌_이득은 다음에 따라 인코딩측에서 재계산되고 재양자화된다:

그런 후 여기 생성기(140)는,

에 의해 TCX 이득을 유도해낸다.

그 후,

를 계산한다.

그렇지 않고, TCX의 다른 크기에 대해서는, 델타_글로벌_이득은 다음과 같이 여기 생성기(140)에 의해 계산될 수 있다:

그런 후 TCX 이득은 다음과 같이 여기 생성기(140)에 의해 디코딩되며:

그런 후, 여기 생성기(140)가 각각의 변환 계수를 스케일링하기 위해 이용하는 이득을 획득하기 위해,

를 계산한다.

예를 들어, 델타_글로벌_이득은 7비트로 직접적으로 코딩될 수 있거나 또는 평균적으로 4비트를 산출시킬 수 있는 호프만 코드를 이용하여 코딩될 수 있다. 따라서, 위 실시예에 따르면, 다중 모드들을 이용하여 오디오 콘텐츠를 인코딩하는 것이 가능하다. 위 실시예에서는, 세 개의 코딩 모드들, 즉 FD, TCX, 및 ACELP이 이용되었다. 이러한 세 개의 상이한 모드들을 이용함에도 불구하고, 비트스트림(36)으로 인코딩된 오디오 콘텐츠의 각각의 디코딩된 표현물의 음향크기를 조정하는 것은 손쉬워진다. 특히, 상술한 양쪽의 접근법들에 따르면, 프레임들(30, 32) 각각 내에 포함된 글로벌_이득 구문 엘리먼트들을 각각 동등하게 증분/감분하는 것이 필요할 뿐이다. 예를 들어, 상이한 코딩 모드들에 걸쳐 음향크기를 균등하게 증가시키기 위해 이러한 모든 글로벌_이득 구문 엘리먼트들은 2만큼 증분될 수 있거나, 또는 상이한 코딩 모드 부분들에 걸쳐 음향크기를 균등하게 낮추기 위해 2만큼 감분될 수 있다.

본 출원의 실시예를 설명해온 후, 이하에서는 상술한 멀티 모드 오디오 인코더 및 디코더의 개별적인 유리한 양태들에 대해 보다 포괄적이고 이에 개별적으로 집중된 추가적인 실시예들을 설명한다. 다시 말하면, 상술한 실시예는 이후에 약술하는 세 개의 실시예들 각각에 대한 잠재적인 구현예를 나타낸다. 위 실시예는 아래에서 약술된 실시예들에서 개별적으로 단순히 언급된 모든 유리한 양태들을 병합한다. 후술하는 실시예들 각각은 이전 실시예에서 이용된 특정한 구현예를 능가하여 유리한, 즉 이전과는 상이하게 구혀될 수 있는, 상기에서 설명된 멀티 모드 오디오 코덱의 양태에 촛점을 맞춘다. 아래에서 약술되는 실시예들이 속한 양태들은 개별적으로 실현될 수 있으며 위에서 약술된 실시예와 관련하여 예시적으로 설명된 바와 같이 동시적으로 구현될 필요는 없다.

따라서, 아래의 실시예들을 설명할 때, 각각의 인코더 및 디코더 실시예들의 엘리먼트들은 새로운 참조 부호들의 이용을 통해 표시된다. 하지만, 이러한 참조 부호들 뒤에서, 도 1 내지 도 4의 엘리먼트들의 참조 번호들이 괄호로 제시되는데, 이 엘리먼트들은 이후에 설명하는 도면들 내에서의 각각의 엘리먼트의 잠재적인 구현예를 나타낸다. 다시 말하면, 아래에서 설명되는 도면들에서의 엘리먼트들은 아래에서 설명되는 도면들내에서의 엘리먼트의 각각의 참조 번호 뒤에서 괄호로 표시된 엘리먼트들에 대하여 상술한 바와 같이 개별적으로 구현되거나 또는 아래에서 설명된 각각의 도면의 모든 엘리먼트들에 대해 구현될 수 있다.

도 5a와 도 5b는 제1 실시예에 따른 멀티 모드 오디오 인코더 및 멀티 모드 오디오 디코더를 도시한다. 일반적으로 참조번호 300으로 표시된 도 5a의 멀티 모드 오디오 인코더는 오디오 콘텐츠(302)를 인코드 비트스트림(304)으로 인코딩하되 제1 서브세트의 프레임들(306)을 제1 코딩 모드(308)에서 인코딩하고, 제2 서브세트의 프레임들(310)을 제2 코딩 모드(312)에서 인코딩하도록 구성되고, 제2 서브세트의 프레임들(310)은 각각 하나 이상의 서브프레임들(314)로 구성되며, 멀티 모드 오디오 인코더(300)는 프레임마다의 글로벌 이득 값(글로벌_이득)을 결정하고 인코딩하며, 제2 서브세트의 서브프레임들의 적어도 서브세트의 서브프레임(316)마다, 대응하는 비트스트림 엘리먼트(델타_글로벌_이득)를 각각의 프레임의 글로벌 이득 값(318)에 대해 차별적으로 결정하고 인코딩하도록 구성되며, 멀티 모드 오디오 인코더(300)는 인코딩된 비트스트림(304) 내의 프레임들의 글로벌 이득 값(글로벌_이득)의 변경이 디코딩측에서의 오디오 콘텐츠의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 구성된다.

대응하는 멀티 모드 오디오 디코더(320)가 도 5b에서 도시된다. 디코더(320)는 인코딩된 비트스트림(304)에 기초하여 오디오 콘텐츠(302)의 디코딩된 표현물(322)을 제공하도록 구성된다. 이를 위해, 멀티 모드 오디오 디코더(320)는, 인코딩된 비트스트림(304)의 프레임(324, 326) - 제1 서브세트의 프레임들(324)은 제1 코딩 모드에서 코딩되고 제2 서브세트의 프레임들(326)은 제2 코딩 모드에서 코딩되며, 상기 제2 서브세트의 프레임(326) 각각은 하나 보다 많은 서브프레임(328)으로 구성됨 - 마다의 글로벌 이득 값(글로벌_이득)을 디코딩하고, 제2 서브세트의 프레임들(326)의 서브프레임들(328)의 적어도 서브세트의 서브프레임(328)마다, 대응하는 비트스트림 엘리먼트(델타_글로벌_이득)를 각각의 프레임의 글로벌 이득 값에 대해 차별적으로 디코딩하며, 제1 서브세트의 프레임들을 디코딩할 때 글로벌 이득 값(글로벌_이득)을 이용하고 제2 서브세트의 프레임들(326)의 서브프레임들의 적어도 서브세트의 서브프레임들을 디코딩할 때 글로벌 이득 값(글로벌_이득) 및 대응하는 비트스트림 엘리먼트(델타_글로벌_이득)을 이용하여 비트스트림을 완전히 코딩하며, 멀티 모드 오디오 디코더(320)는 인코딩된 비트스트림(304) 내의 프레임들(324, 326)의 글로벌 이득 값(글로벌_이득)의 변경이 오디오 콘텐츠의 디코딩된 표현물(322)의 출력 레벨(332)의 조정(330)을 야기시키도록 구성된다.

도 1 내지 도 4의 실시예들의 경우에서와 같이, 제1 코딩 모드는 주파수 영역 코딩 모드일 수 있는 반면에, 제2 코딩 모드는 선형 예측 코딩 모드이다. 하지만, 도 5a와 도 5b의 실시예는 이러한 경우로 제한되지 않는다. 하지만, 선형 예측 코딩 모드들은 글로벌 이득 제어가 관련되어 있는 한 보다 미세한 시간 입도를 필요로 하는 경향이 있으며, 이에 따라 프레임들(326)에 대해 선형 예측 코딩 모드를 이용하고 프레임들(324)에 대해 주파수 영역 코딩 모드를 이용하는 것은, 프레임들(326)에 대해 주파수 영역 코딩 모드가 이용되었고 프레임들(324)에 대해 선형 예측 코딩 모드가 이용되었던 반대의 경우에 비해 바람직할 것이다.

더군다나, 도 5a와 도 5b의 실시예는 TCX와 ACLEP 모드들이 서브프레임들(314)을 코딩하기 위해 존재하는 경우로 제한되지 않는다. 오히려, 도 1 내지 도 4의 실시예는 또한 예컨대 ACELP 코딩 모드가 생략된 경우, 도 5a와 도 5b의 실시예에 따라 구현될 수도 있다. 이 경우, 양쪽 엘리먼트들, 즉 글로벌_이득과 델타_글로벌_이득의 차별적 코딩은 디코딩과 재인코딩의 디투어(detour) 없이 그리고 필요한 부수적 정보의 불필요한 증가 없이 글로벌 이득 제어에 의해 제공된 장점들을 포기하는 것을 방지하도록 하는 이득 설정과 변동들에 대한 TCX 코딩 모드의 보다 높은 민감도를 설명가능하게 할 것이다.

그럼에도 불구하고, 멀티 모드 오디오 디코더(320)는 인코딩된 비트스트림(304)의 디코딩을 완료할 때에, 변환된 여기 선형 예측 코딩을 이용함으로써 제2 서브세트의 프레임들(326)의 서브프레임들의 적어도 서브세트의 서브프레임들(즉, 도 5b에서 좌측 프레임(326)의 네 개의 서브프레임들)을 디코딩하고, CELP의 이용에 의해 제2 서브세트의 프레임들(326)의 분리된 서브세트의 서브프레임들을 디코딩하도록 구성될 수 있다. 이와 관련하여, 멀티 모드 오디오 디코더(220)는 제2 서브세트의 프레임들의 프레임마다, 각각의 프레임의 분해를 나타내는 추가적인 비트스트림 엘리먼트를 하나 이상의 서브프레임들로 디코딩하도록 구성될 수 있다. 앞서언급한 실시예에서, 예컨대, 각각의 LPC 프레임은 그 내부에 구문 엘리먼트를 포함시킬 수 있으며, 이것은 현재의 LPC 프레임을 분해하는 앞서언급한 26개의 가능성들 중 하나를 TCX와 ACELP 프레임들로 확인시킨다. 하지만, 다시, 도 5a와 도 5b의 실시예는 ACELP와, 구문 엘리먼트 글로벌_이득에 따라 설정된 평균 에너지와 관련하여 상술한 특정한 두 개의 대안구성들로 한정되지 않는다.

도 1 내지 도 4의 상기 실시예와 마찬가지로, 프레임들(326)은 1024개 샘플들의 샘플 길이를 갖는 프레임들(310)에 대응할 수 있거나 또는 프레임들(326)은 1024개 샘플들의 샘플 길이를 가질 수 있으며, 비트스트림 엘리먼트 델타_글로벌_이득이 전달되는 제2 서브세트의 프레임들의 서브프레임들의 적어도 서브세트의 서브프레임은 256개 샘플, 512개 샘플 및 1024개 샘플로 구성된 그룹으로부터 선택된 가변적인 샘플 길이를 가질 수 있으며, 분리된 서브세트의 서브프레임들은 각각 256개 샘플의 샘플 길이를 가질 수 있다. 제1 서브세트의 프레임들(324)은 서로 동일한 샘플 길이를 가질 수 있다. 상술한 바와 같이, 멀티 모드 오디오 디코더(320)는 글로벌 이득 값을 8비트로 디코딩하고 비트스트림 엘리먼트를 가변적인 비트 수로 디코딩하도록 구성될 수 있으며, 이 비트 수는 각각의 서브프레임의 샘플 길이에 의존한다. 마찬가지로, 멀티 모드 오디오 디코더는 글로벌 이득 값을 6비트로 디코딩하고 비트스트림 엘리먼트를 5비트로 디코딩하도록 구성될 수 있다. 델타_글로벌_이득 엘리먼트들을 차별적으로 코딩하기 위한 여러 가능성들이 존재한다는 것을 유념해야 한다.

도 1 내지 도 4의 상기 실시예의 경우에서와 같이, 글로벌_이득 엘리먼트들은 로그 영역에서 정의될 수 있는데, 즉 오디오 샘플 세기에 대해 선형적으로 정의될 수 있다. 이것은 델타_글로벌_이득에 대해서도 적용된다. 델타_글로벌_이득을 코딩하기 위해, 멀티 모드 오디오 인코더(300)는, 구문 엘리먼트 델타_글로벌_이득을 로그 영역에서 획득하기 위해, (제1 차별적 코딩된 스케일 인자와 같은) 앞서 언급한 이득_TCX와 같은 각각의 서브프레임들(316)의 선형 이득 엘리먼트와, 대응 프레임(310)의 양자화된 글로벌_이득, 즉 (지수 함수에 적용된) 선형화된 버전의 글로벌_이득의 비율을 밑수 2의 로그와 같은 로그로 처리할 수 있다. 본 발명분야에서 알려진 바와 같이, 이와 동일한 결과는 로그 영역에서 감산을 수행함으로써 획득될 수 있다. 따라서, 멀티 모드 오디오 디코더(320)는 상술한 바와 같이 멀티 모드 오디오 디코더가 TCX 코딩된 여기와 같은 현재의 서브프레임들 및 그 스펙트럼 변환 계수들을 스케일링해야할 때 이용하는 이득을 획득하도록 선형 영역에서 결과물을 곰셈하기 위해, 먼저, 지수 함수에 의해 구문 엘리먼트들 델타_글로벌_이득과 글로벌_이득을 선형 영역으로 재전달하도록 구성될 수 있다. 본 발명분야에서 알려진 바와 같이, 이와 동일한 결과는 선형 영역으로 천이하기 전에 로그 영역에서 구문 엘리먼트들 모두를 가산함으로써 획득될 수 있다.

또한, 상술한 바와 같이, 도 5a와 도 5b의 멀티 모드 오디오 코덱은 글로벌 이득 값이 고정된 비트수, 예컨대 8비트로 코딩되고, 비트스트림 엘리먼트가 가변적인 비트수로 코딩되도록 구성될 수 있으며, 이 비트 수는 각각의 서브프레임의 샘플 길이에 의존한다. 대안적으로, 글로벌 이득 값은 고정된 비트수, 예컨대 6비트로 코딩될 수 있고 비트스트림 엘리먼트는 예컨대 5비트로 코딩될 수 있다.

따라서, 도 5a 및 도 5b의 실시예들은, 이득 제어에서 시간 및 비트 입도가 관련되어 있는 한 상이한 코딩 모드들의 상이한 요구들을 처리하기 위해 그리고 다른 한편으로는, 원치않는 퀄리티 결함들을 회피하고 글로벌 이득 제어로 수반된 장점들을 달성하기 위해, 즉 음향크기의 스케일링을 수행하기 위해 디코딩 및 재코딩할 필요성을 회피하기 위해, 서프프레임들의 이득 구문 엘리먼트들을 차별적으로 코딩하는 장점에 촛점을 두었다.

다음으로, 도 6a와 도 6b와 관련하여, 멀티 모드 오디오 코덱의 또 다른 실시예와 이에 대응하는 인코더 및 디코더를 설명한다. 도 6a는 도 6a에서 참조부호 406으로 표시된 오디오 콘텐츠(402)의 제1 서브세트의 프레임들을 CELP 인코딩(CELP encoding)하고 도 6a에서 참조부호 408로 표시된 제2 서브세트의 프레임들을 변환 인코딩(transform encoding)함으로써 오디오 콘텐츠(402)를 인코딩된 비트스트림(404)으로 인코딩하도록 구성된 멀티 모드 오디오 인코더(400)를 도시한다. 멀티 모드 오디오 인코더(400)는 CELP 인코더(410)와 변환 인코더(412)를 포함한다. 이어서 CELP 인코더(410)는 LP 분석기(414)와 여기 생성기(416)를 포함한다. CELP 인코더는 제1 서브세트의 현재 프레임을 인코딩하도록 구성된다. 이를 위해, LP 분석기(414)는 현재 프레임을 위한 LPC 필터 계수들(418)을 생성하고 이것을 인코딩된 비트스트림(404)으로 인코딩한다. 여기 생성기(416)는 제1 서브세트의 현재 프레임의 현재 여기를 결정하고, 인코딩된 비트스트림(404) 내에서 선형 예측 필터 계수들(418)에 기초하여 선형 예측 합성 필터에 의해 이 현재 여기가 필터링될 때, 제1 서브세트의 현재 프레임에 대한 코드북 인덱스와 과거 여기(420)에 의해 정의된, 제1 서브세트의 현재 프레임을 복구하며 코드북 인덱스(422)를 인코딩된 비트스트림(404)으로 인코딩한다. 변환 인코더(412)는 스펙트럼 정보를 획득하기 위해 현재 프레임에 대한 시간 영역 신호에 대해 시간-스펙트럼 영역 변환을 수행함으로써 제2 서브세트의 현재 프레임(408)을 인코딩하고, 스펙트럼 정보(424)를 인코딩된 비트스트림(404)으로 인코딩하도록 구성된다. 멀티 모드 오디오 인코더(400)는 글로벌 이득 값(426)을 인코딩된 비트스트림(404)으로 인코딩하도록 구성되며, 글로벌 이득 값(426)은 선형 예측 계수들, 또는 시간 영역 신호의 에너지에 의존하여 선형 예측 분석 필터로 필터링된 제1 서브세트의 현재 프레임(406)의 오디오 콘텐츠의 에너지 버전에 의존한다. 도 1 내지 도 4의 위 실시예의 경우에서, 예를 들어 변환 인코더(412)는 TCX 인코더로서 구현되었으며 시간 영역 신호는 각각의 프레임의 여기이였다. 마찬가지로, 선형 예측 계수(418)에 의존하여, 선형 예측 분석 필터 또는 가중 필터

의 형태의 수정 버전 필터로 (CELP) 필터링된 제1 서브세트의 현재 프레임의 오디오 콘텐츠(402)를 필터링한 결과는 여기의 표현물을 야기시킨다. 따라서, 글로벌 이득 값(426)은 양쪽 프레임들의 양쪽 여기 에너지들에 의존한다.

하지만, 도 6a와 도 6b의 실시예는 TCX 변환 코딩으로 제한되지 않는다. AAC와 같은 다른 변환 코딩 방식이 CELP 인코더(410)의 CELP 코딩과 혼합되는 것을 상상할 수 있다.

도 6b는 도 6a의 인코더에 대응하는 멀티 모드 오디오 디코더를 도시한다. 여기서 도시된 바와 같이, 일반적으로 참조번호 430으로 표시된 도 6b의 디코더는 인코딩된 비트스트림(434), 즉 CELP 코딩된 제1 서브세트의 프레임들(도 6b에서 "1"로 표시됨), 변환 코딩된 제2 서브세트의 프레임들(도 6b에서 "2"로 표시됨)에 기초하여 오디오 콘텐츠의 디코딩된 표현물(432)을 제공하도록 구성된다. 디코더(430)는 CELP 디코더(436)와 변환 디코더(438)를 포함한다. CELP 디코더(436)는 여기 생성기(440)와 선형 예측 합성 필터(442)를 포함한다.

CELP 디코더(440)는 제1 서브세트의 현재 프레임을 디코딩하도록 구성된다. 이를 위해, 여기 생성기(440)는 과거 여기(446)와, 인코딩된 비트스트림(434) 내의 제1 서브세트의 현재 프레임의 코드북 인덱스(448)에 기초하여 코드북 여기를 구축하고, 인코딩된 비트스트림(434) 내의 글로벌 이득 값(450)에 기초하여 코드북 여기의 이득을 설정함으로써 현재 프레임의 현재 여기(444)를 생성한다. 선형 예측 합성 필터는 인코딩된 비트스트림(434) 내의 현재 프레임의 선형 예측 필터 계수들(452)에 기초하여 현재 여기(444)를 필터링하도록 구성된다. 합성 필터링의 결과는 비트스트림(434) 내의 현재 프레임에 대응하는 프레임에서 디코딩된 표현물(432)을 획득하는 것을 나타내거나 또는 이를 위해 이용된다. 변환 디코더(438)는 인코딩된 비트스트림(434)으로부터 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보(454)를 구축하고, 시간 영역 신호의 레벨이 글로벌 이득 값(450)에 의존하도록 시간 영역 신호를 획득하기 위해 스펙트럼 정보에 대해 스펙트럼-시간 영역 변환을 수행함으로써, 제2 서브세트의 프레임들의 현재 프레임을 디코딩하도록 구성된다. 상기에서 언급한 바와 같이, 스펙트럼 정보는, 변환 디코더가 TCX 디코더인 경우에는 여기의 스펙트럼일 수 있거나, 또는 FD 디코딩 모드의 경우에서는 원래의 오디오 콘텐츠의 스펙트럼일 수 있다.

여기 생성기(440)는, 제1 서브세트의 현재 프레임의 현재 여기(444)를 생성할 때에, 인코딩된 비트스트림 내의 제1 서브세트의 현재 프레임의 적응적 코드북 인덱스와 과거 여기에 기초하여 적응적 코드북 여기를 구축하고, 인코딩된 비트스트림 내의 제1 서브세트의 현재 프레임에 대한 혁신 코드북 인덱스에 기초하여 혁신 코드북 여기를 구축하고, 인코딩된 비트스트림 내의 글로벌 이득 값에 기초하여 혁신 코드북 여기의 이득을 코드북 여기의 이득으로서 설정하며, 제1 서브세트의 현재 프레임의 현재 여기(444)를 획득하기 위해 혁신 코드북 여기와 적응적 코드북 여기를 결합시키도록 구성될 수 있다. 즉, 여기 생성기(444)는 도 4와 관련하여 상술한 대로 구체화될 수 있지만, 반드시 그렇게 할 필요는 없다.

또한, 변환 디코더는 스펙트럼 정보가 현재 프레임의 현재 여기와 관련되도록 구성될 수 있으며, 변환 디코더(438)는, 제2 서브세트의 현재 프레임을 디코딩할 때에, 인코딩된 비트스트림(434) 내의 제2 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들에 의해 정의된 선형 예측 합성 필터 전달 함수에 따라 제2 서브세트의 현재 프레임의 현재 여기를 스펙트럼적으로 형성하여, 스펙트럼 정보에 대한 스펙트럼-시간 영역 변환의 성능이 오디오 콘텐츠의 디코더 표현물(432)을 야기시키도록 구성될 수 있다. 다시 말하면, 변환 디코더(438)는 도 4와 관련하여 상술한 바와 같이, TCX 인코더로서 구체화될 수 있지만, 이것은 강제적이지는 않다.

변환 디코더(438)는 또한 선형 예측 필터 계수들을 선형 예측 스펙트럼으로 전환하고 이 선형 예측 스펙트럼으로 현재 여기의 스펙트럼 정보를 가중화함으로써 스펙트럼 정보를 수행하도록 구성될 수 있다. 이것은 참조부호 144와 관련하여 위에 설명되었다. 위에서 또한 설명한 바와 같이, 변환 디코더(438)는 스펙트럼 정보를 글로벌 이득 값(450)으로 스케일링하도록 구성될 수 있다. 따라서, 오디오 콘텐츠의 디코딩된 표현물(432)을 획득하기 위해, 변환 디코더(438)는 글로벌 이득 값에 기초하여 스케일 인자들로 스케일링하면서, 인코딩된 비트스트림 내의 스펙트럼 변환 계수들과, 스케일 인자 대역들의 스펙트럼 입도에서 스펙트럼 변환 계수들을 스케일링하기 위한 인코딩된 비트스트림 내의 스케일 인자들의 이용에 의해 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보를 구축하도록 구성될 수 있다.

도 6a 및 도 6b의 실시예는 도 1 내지 도 4의 실시예의 이로운 양태들을 부각시켰으며, 이에 따르면 이것은 CELP 코딩된 부분의 이득 조정이 변환 코딩된 부분의 이득 조정가능성 또는 제어 능력에 결합되도록 해주는 코드북 여기의 이득이다.

도 7a와 도 7b와 관련하여 다음에 설명할 실시예는 다른 코딩 모드의 존재의 필요없이 앞서언급한 실시예들에서 설명한 CELP 코덱 부분들에 촛점을 둔다. 오히려, 도 7a와 도 7b와 관련하여 설명된 CELP 코딩 개념은, 통상적인 CELP에서 달성할 가능성이 없는 미세 가능 입도로 디코딩된 재생의 이득 조정을 달성하기 위해, 이득 조정가능성을 가중화된 영역으로 구현함으로써 CELP 코딩된 데이터의 이득 조정가능성이 실현되는 도 1 내지 도 4와 관련하여 설명된 제2 대안구성에 촛점을 둔다. 또한, 가중화된 영역에서 앞서언급한 이득을 계산하는 것은 오디오 퀄리티를 향상시킬 수 있다.

다시, 도 7a는 인코더를 도시하고 도 7b는 대응하는 디코더를 도시한다. 도 7a의 CELP 인코더는 LP 분석기(502), 여기 생성기(504), 및 에너지 결정기(506)를 포함한다. 선형 예측 분석기는 오디오 콘텐츠(512)의 현재 프레임(510)에 대한 선형 예측 계수들(508)을 생성하고, 선형 예측 필터 계수들(508)을 비트스트림(514)으로 인코딩하도록 구성된다. 여기 생성기(504)는 적응적 코드북 여기(520)와 혁신 코드북 여기(522)의 결합(518)으로서 현재 프레임(510)의 현재 여기(516)를 결정하고, 선형 예측 필터 계수들(508)에 기초하여 선형 예측 합성 필터에 의해 현재 여기(516)가 필터링될 때, 현재 프레임(510)에 대한 적응적 코드북 인덱스(526)와 과거 여기(524)에 의해 적응적 코드북 여기(520)을 구축하고 적응적 코드북 인덱스(526)를 비트스트림(514)으로 인코딩하며, 현재 프레임(510)에 대한 혁신 코드북 인덱스(528)에 의해 정의된 혁신 코드북 여기를 구축하고 혁신 코드북 인덱스를 비트스트림(514)으로 인코딩함으로써, 현재 프레임(510)을 복구하도록 구성된다.

에너지 결정기(506)는 이득 값(530)을 획득하기 위해 선형 예측 분석으로부터 발생된(또는 이로부터 유도된) 가중 필터에 의해 필터링된 현재 프레임(510)의 오디오 콘텐츠(512)의 에너지 버전을 결정하고, 이득 값(530)을 비트스트림(514)으로 인코딩하도록 구성되며, 가중 필터는 선형 예측 계수들(508)로부터 해석된다.

상기 설명에 따르면, 여기 생성기(504)는, 적응적 코드북 여기(520)와 혁신 코드북 여기(522)를 구축할 때, 오디오 콘텐츠(512)에 대한 지각적 왜곡 수치를 최소화하도록 구성될 수 있다. 또한, 선형 예측 분석기(502)는 윈도우잉되고, 미리결정된 프리엠퍼시스 필터에 따라 프리엠퍼사이징된 버전의 오디오 콘텐츠상에 적용된 선형 예측 분석에 의해 선형 예측 필터 계수들(508)을 결정하도록 구성될 수 있다. 여기 생성기(504)는, 적응적 코드북 여기와 혁신 코드북 여기를 구축할 때, 지각적 가중 필터

를 이용하여 오디오 콘텐츠에 대한 지각적 가중화된 왜곡 수치를 최소화하도록 구성될 수 있으며, 여기서,

는 지각적 가중 인자이며 A(z)는 1/H(z)이며, H(z)는 선형 예측 합성 필터이며, 에너지 결정기는 가중 필터로서 지각적 가중 필터를 이용하도록 구성된다. 특히, 이러한 최소화는 지각적 가중 합성 필터:

를 이용하고 오디오 콘텐츠에 대한 지각적 가중화된 왜곡 수치를 이용하여 수행될 수 있으며,

여기서,

는 지각적 가중 인자이며,

는 선형 예측 합성 필터 A(z)의 양자화된 버전이며,

이고,

는 고주파수 엠퍼시스 인자이며, 에너지 결정기(506)는 가중 필터로서 지각적 가중 필터

를 이용하도록 구성된다.

또한, 인코더와 디코더간의 동시성 유지를 위해, 여기 생성기(504)는,

a) H2(z)로 각각의 혁신 코드북 벡터를 필터링하는 것과 함께, (비트스트림 내에서 전달된) 혁신 코드북 벡터 펄스들의 앞서 언급된 갯수, 위치 및 부호와 같은 혁신 코드북 인덱스 내에 포함된 제1 정보에 의해 결정된 혁신 코드북 여기 에너지를 추정하고, 그 결과의 에너지를 결정하고,

b) 예측 이득

을 획득하기 위해, 이에 따라 유도된 에너지와 글로벌_이득에 의해 결정된 에너지간의 비율을 형성하고,

c) 예측 이득

에 혁신 코드북 정정 인자, 즉 혁신 코드북 인덱스 내에 포함된 제2 정보를 곱하여 실제의 혁신 코드북 이득을 산출하며,

d) 실제의 혁신 코드북 여기로 혁신 코드북 여기를 가중화하고 이러한 혁신 코드북 여기와 적응적 코드북 여기를 결합함으로써, CELP 인코딩될 다음 프레임에 대한 과거 여기로서 역할을 하는 코드북 여기를 실제로 생성하는 것에 의해 여기 업데이트를 수행하도록 구성될 수 있다.

도 7b는 여기 생성기(450)와 LP 합성 필터(452)를 갖는 것으로서 대응하는 CELP 디코더를 도시한다. 여기 생성기(440)는, 비트스트림 내의, 현재 프레임(544)에 대한 적응적 코드북 인덱스(550)와 과거 여기(548)에 기초하여 적응적 코드북 여기(546)를 구축하고, 비트스트림 내의 현재 프레임(544)에 대한 혁신 코드북 인덱스(554)에 기초하여 혁신 코드북 여기(552)를 구축하고, 비트스트림 내의 선형 예측 필터 계수들(556)로부터 구축된 가중화된 선형 예측 합성 필터 H2에 의해 스펙트럼적으로 가중화된 혁신 코드북 여기의 에너지의 추정치를 계산하고, 비트스트림내의 이득 값(560)과 추정된 에너지간의 비율에 기초하여 혁신 코드북 여기(552)의 이득(558)을 설정하며, 현재 여기(542)를 획득하기 위해 적응적 코드북 여기와 혁신 코드북 여기를 결합함으로서, 현재 프레임(544)에 대한 현재 여기(542)를 생성하도록 구성될 수 있다. 선형 예측 합성 필터(542)는 선형 예측 필터 계수들(556)에 기초하여 현재 여기(542)를 필터링한다.

여기 생성기(440)는, 적응적 코드북 여기(546)를 구축할 때, 적응적 코드북 인덱스(546)에 의존하는 필터로 과거 여기(548)를 필터링하도록 구성될 수 있다. 또한, 여기 생성기(440)는, 혁신 코드북 여기(554)를 구축할 때, 혁신 코드북 여기(554)가 복수의 비제로 펄스들을 갖는 제로 벡터를 포함하도록 구성될 수 있으며, 비제로 펄스들의 갯수와 위치는 혁신 코드북 인덱스(554)에 의해 표시된다. 여기 생성기(440)는 혁신 코드북 여기(554)의 에너지의 추정치를 계산하고, 혁신 코드북 여기(554)를

로 필터링하도록 구성될 수 있으며,

선형 예측 합성 필터는

에 따라 현재 여기(542)를 필터링하도록 구성되고, 여기서,

이고,

는 지각적 가중 인자이며,

와

는 고주파수 엠퍼시스 인자이며, 여기 생성기(440)는 또한 필터링된 혁신 코드북 여기의 샘플들의 2차적 합산(quadratic sum)을 계산하여 에너지의 추정치를 획득하도록 구성된다.

여기 생성기(540)는, 적응적 코드북 여기(556)와 혁신 코드북 여기(554)를 결합할 때에, 적응적 코드북 인덱스(556)에 의존하여 가중 인자로 가중화된 적응적 코드북 여기(556)와 이득으로 가중화된 혁신 코드북 여기(554)의 가중화된 합을 형성하도록 구성될 수 있다.

LPD 모드에 대한 추가적인 고려들이 다음의 열거로 약술된다:

새로운 이득 조정의 통계치를 보다 정확하게 정합시키기 위해 ACELP에서 이득 VQ를 재트레이닝함으로써 퀄리티 향상이 달성될 수 있다.

AAC에서의 글로벌 이득 코딩은,

글로벌 이득 코딩이 TCX에서 행해지므로 글로벌 이득 코딩을 8비트 대신에 6/7비트로 코딩하는 것(이것은 현재의 동작점들에 대해서는 잘 동작되지만 오디오 입력이 16비트보다 큰 분해능을 갖는 경우에는 제한될 수 있다);

TCX 양자화를 정합시키기 위해 통합형 글로벌 이득의 분해능을 증가시키는 것(이것은 상술한 제2 접근법에 대응한다)에 의해 수정될 수 있으며; AAC에서 스케일 인자들이 적용되는 방법에서는, 이러한 정확한 양자화를 갖는 것이 필요하지는 않다. 또한 이것은 AAC 구조에서 많은 수정들 및 스케일 인자들에 대한 보다 큰 비트 소모를 암시할 것이다.

TCX 글로벌 이득은 스펙트럼 계수들을 양자화하기 전에 양자화될 수 있으며; 이것은 이러한 방식으로 AAC에서 행해지며, 스펙트럼 계수들의 양자화가 유일한 에러 원인이 되도록 하게 한다. 이러한 접근법은 보다 정연한 수행 방식인 것으로 보여진다. 그럼에도 불구하고, 코딩된 TCX 글로벌 이득은 현재의 에너지를 나타내고, 이러한 에너지의 양은 또한 ACELP에서 유용하다. 이 에너지는 이득을 코딩하기 위한 두 개의 코딩 방식들간의 교량역할로서 앞서 언급한 이득 제어 통합 접근법들에서 이용되었다.

위 실시예들은 SBR이 이용된 실시예들로 이전될 수 있다. SBR 에너지 엔벨로프 코딩은, 복제될 스펙트럼 대역의 에너지들이 기저 대역 에너지의 에너지, 즉 앞서 언급한 코덱 실시예들이 적용된 스펙트럼 대역의 에너지에 대해 상대적으로/차별적으로 전달/코딩되도록 수행될 수 있다.

통상적인 SBR에서, 에너지 엔벨로프는 코어 대역폭 에너지로부터 독립적이다. 그러면 확장 대역의 에너지 엔벨로프는 절대적으로 재구축된다. 다시 말하면, 코어 대역폭이 레벨 조정될 때, 이것은 변경되지 않은 채로 남아 있을 확장 대역에 영향을 미치지 않을 것이다.

SBR에서, 두 개의 코딩 방식들이 상이한 주파수 대역들의 에너지들을 전달하기 위해 이용될 수 있다. 제1 방식은 시간 방향으로의 차별적 코딩으로 구성된다. 상이한 대역들의 에너지들은 이전 프레임의 대응하는 대역들로부터 차별적으로 코딩된다. 이러한 코딩 방식의 이용에 의해, 이전 프레임 에너지들이 이미 처리되었던 경우에 현재 프레임 에너지들은 자동적으로 조정될 것이다.

제2 코딩 방식은 주파수 방향으로의 에너지들의 델타 코딩이다. 현재의 주파수 대역 에너지와 이전의 주파수 대역 에너지간의 차분은 양자화되어 전달된다. 일단 제1 대역의 에너지는 절대적으로 코딩된다. 이 제1 대역 에너지의 코딩은 수정될 수 있고 코어 대역폭의 에너지에 대해 상대적으로 행해질 수 있다. 이러한 방식으로, 확장 대역폭은 코어 대역폭이 수정될 때에 자동적으로 레벨 조정된다.

SBR 에너지 엔벨로프 코딩을 위한 또 다른 접근법은 코어 코더의 공통 글로벌 이득 엘리먼트에서와 동일한 입도를 얻기 위해 주파수 방향으로의 델타 코딩을 이용할 때 제1 대역 에너지의 양자화 단계를 변경하는 것을 이용할 수 있다. 이러한 방식으로, 주파수 방향으로의 델타 코딩이 이용될 때 코어 코더의 공통 글로벌 이득의 인덱스와 SBR의 제1 대역 에너지의 인덱스 모두를 수정함으로써 완전한 레벨 조정이 달성될 수 있다.

따라서 다시 말하면, SBR 디코더는 비트스트림의 코어 코더 부분을 디코딩하기 위한 코어 디코더로서 상기 디코더들 중 임의의 디코더를 포함할 수 있다. 그런 후 SBR 디코더는 복제될 스펙트럼 대역에 대한 엔벨로프 에너지들을 비트스트림의 SBR 부분으로부터 디코딩하고, 코어 대역 신호의 에너지를 결정하며, 코어 대역 신호의 에너지에 따라 엔벨로프 에너지들을 스케일링할 수 있다. 이렇게 함으로써, 오디오 콘텐츠의 재구축된 표현물의 복제된 스펙트럼 대역은 앞서 언급한 글로벌_이득 구문 엘리먼트들로 본질적으로 스케일링되는 에너지를 갖는다.

따라서, 상기 실시예들에 따르면, USAC에 대한 글로벌 이득의 통합은 다음 방식으로 작용할 수 있다: 각각의 TCX 프레임(256, 512 또는 1024개 샘플 길이)에 대해 7비트 글로벌 이득이 현재 존재하거나, 또는 대응적으로 각각의 ACELP 프레임(256개 샘플 길이)에 대해 2비트 평균 에너지 값이 존재한다. AAC 프레임들과는 대조적으로, 1024개 프레임 당 글로벌 이득은 없다. 이것을 통합하기 위해, TCX/ACELP 파트에 대해 8비트를 갖는 1024개 프레임 당 글로벌 값이 도입될 수 있으며, TCX/ACELP 프레임 당 대응하는 값들은 이러한 글로벌 값에 대해 차별적으로 코딩될 수 있다. 이러한 차별적 코딩으로 인해, 이러한 개별적인 차분들에 대한 비트 수는 감소될 수 있다.

비록 몇몇 양태들은 장치의 관점에서 설명되었지만, 이러한 양태들은 또한, 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하는 대응 방법의 설명을 나타낸다는 것은 명백하다. 마찬가지로, 방법 단계의 관점에서 설명된 양태들은 또한 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다. 방법 단계들 모두 또는 그 일부는 예컨대, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이것을 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 가장 중요한 방법 단계들 중의 몇몇의 하나 이상의 방법 단계들은 이러한 장치에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체상에 저장될 수 있거나 또는 인터넷과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.

일정한 구현 요건에 따라, 본 발명의 실시예들은 하드웨어나 소프트웨어로 구현될 수 있다. 이러한 구현은 전자적으로 판독가능한 제어 신호들이 저장되어 있으며, 각각의 방법이 수행되도록 프로그램가능한 컴퓨터 시스템과 협동하는(또는 이와 협동가능한) 디지털 저장 매체, 예컨대 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터로 판독가능할 수 있다.

본 발명에 따른 몇몇의 실시예들은 여기서 설명된 방법들 중 하나의 방법이 수행되도록, 프로그램가능한 컴퓨터 시스템과 협동할 수 있는 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 본 방법들 중 하나의 방법을 수행하기 위해 동작되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예컨대 머신 판독가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은 머신 판독가능한 캐리어 상에서 저장되는, 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말하면, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 상에서 컴퓨터 프로그램이 구동될 때, 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법들의 추가적인 실시예는, 이에 따라 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형적이며 및/또는 비일시적이다.

본 발명의 방법의 추가적인 실시예는, 이에 따라 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 나타낸 신호들의 시퀀스 또는 데이터 스트림이다. 신호들의 시퀀스 또는 데이터 스트림은 데이터 통신 접속, 예컨대 인터넷을 통해 전송되도록 구성될 수 있다.

추가적인 실시예는 여기서 설명된 방법들 중 하나의 방법을 수행하도록 구성되거나 적응된 프로세싱 수단, 예컨대 컴퓨터, 또는 프로그램가능 논리 디바이스를 포함한다.

추가적인 실시예는 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가적인 실시예는 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 (예컨대, 전자적으로 또는 광학적으로) 수신기에 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는, 예컨대 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예컨대 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

몇몇의 실시예들에서, 프로그램가능한 논리 디바이스(예컨대 필드 프로그램가능한 게이트 어레이)는 여기서 설명된 방법들의 기능들 모두 또는 그 일부를 수행하기 위해 이용될 수 있다. 몇몇의 실시예들에서, 여기서 설명된 방법들 중 하나의 방법을 수행하기 위해 필드 프로그램가능한 게이트 어레이가 마이크로프로세서와 협동할 수 있다. 일반적으로, 본 방법들은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

상술한 실시예들은 본 발명의 원리들에 대한 일례에 불과하다. 여기서 설명된 구성 및 상세사항의 수정 및 변형은 본 발명분야의 당업자에게 자명할 것으로 이해된다. 그러므로, 본 발명은 계류중인 본 특허 청구항들의 범위에 의해서만 제한이 되며 여기서의 실시예들의 설명 및 해설을 통해 제시된 특정한 세부사항들에 의해서는 제한되지 않는다는 것이 본 취지이다.

Claims

인코딩된 비트스트림(36; 304)에 기초하여 오디오 콘텐츠(24; 302)의 디코딩된 표현물(322)을 제공하기 위한 멀티 모드 오디오 디코더(120; 320)로서,
인코딩된 비트스트림(36; 304)의 프레임(324, 326) - 제1 서브세트의 프레임들(324)은 제1 코딩 모드에서 코딩되고 제2 서브세트의 프레임들(326)은 제2 코딩 모드에서 코딩되며, 상기 제2 서브세트의 프레임(326) 각각은 하나 보다 많은 서브프레임(328)으로 구성됨 - 마다의 글로벌 이득 값을 디코딩하고,
상기 제2 서브세트의 프레임들의 서브프레임들(328)의 적어도 서브세트의 서브프레임마다, 대응하는 비트스트림 엘리먼트를 각각의 프레임의 글로벌 이득 값에 대해 차별적으로 디코딩하며,
상기 제1 서브세트의 프레임들을 디코딩할 때에 상기 글로벌 이득 값을 이용하고 상기 제2 서브세트의 프레임들의 서브프레임들(328)의 적어도 서브세트의 서브프레임들을 디코딩할 때에 상기 글로벌 이득 값 및 대응하는 비트스트림 엘리먼트를 이용하여 비트스트림(36; 304)을 디코딩하는 것을 완료하도록 구성되며,
상기 멀티 모드 오디오 디코더는, 상기 인코딩된 비트스트림(36; 304) 내의 프레임들의 글로벌 이득 값의 변경이 상기 오디오 콘텐츠(24; 302)의 디코딩된 표현물(322)의 출력 레벨(332)의 조정(330)을 야기시키도록 구성된 것인, 멀티 모드 오디오 디코더.
제1항에 있어서, 상기 제1 코딩 모드는 주파수 영역 코딩 모드이며, 상기 제2 코딩 모드는 선형 예측 코딩 모드인 것인, 멀티 모드 오디오 디코더.
제2항에 있어서, 상기 멀티 모드 오디오 디코더는,
상기 인코딩된 비트스트림(36; 304)의 디코딩을 완료할 때에, 변환된 여기(excitation) 선형 예측 디코딩을 이용하여 제2 서브세트의 프레임들(310)의 서브프레임들(328)의 적어도 서브세트의 서브프레임들을 디코딩하며,
CELP의 이용에 의해 상기 제2 서브세트의 프레임들의 분리된 서브세트의 서브프레임들을 디코딩하도록 구성된 것인, 멀티 모드 오디오 디코더.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 멀티 모드 오디오 디코더는, 상기 제2 서브세트의 프레임들(326)의 프레임마다, 각각의 프레임의 분해(decomposition)를 나타내는 추가적인 비트스트림 엘리먼트를 하나 이상의 서브프레임들로 디코딩하도록 구성된 것인, 멀티 모드 오디오 디코더.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제2 서브세트의 프레임들은 동일한 길이를 가지며, 상기 제2 서브세트의 프레임들의 적어도 서브세트의 서브프레임들(328)은 256개, 512개 및 1024개의 샘플들로 구성된 그룹으로부터 선택된 가변적인 샘플 길이를 가지며, 분리된 서브세트의 서브프레임들(328)은 256개 샘플의 샘플 길이를 갖는 것인, 멀티 모드 오디오 디코더.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 멀티 모드 오디오 디코더는 상기 글로벌 이득 값을 고정된 비트수로 디코딩하고 상기 비트스트림 엘리먼트를 가변적인 비트수로 디코딩하도록 구성되며, 이 비트 수는 각각의 서브프레임의 샘플 길이에 의존하는 것인, 멀티 모드 오디오 디코더.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 멀티 모드 오디오 디코더는 상기 글로벌 이득 값을 고정된 비트수로 디코딩하고 상기 비트스트림 엘리먼트를 고정된 비트수로 디코딩하도록 구성되는 것인, 멀티 모드 오디오 디코더.
인코딩된 비트스트림(434), CELP 코딩된 제1 서브세트의 프레임들, 및 변환 코딩된 제2 서브세트의 프레임들에 기초하여 오디오 콘텐츠의 디코딩된 표현물(432)을 제공하기 위한 멀티 모드 오디오 디코더로서,
상기 제1 서브세트의 현재 프레임을 디코딩하도록 구성된 CELP 디코더(436)와,
변환 디코더(438)
를 포함하며,
상기 CELP 디코더(436)는,
인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임의 코드북 인덱스(448)와 과거 여기(past excitation)(446)에 기초하여 코드북 여기를 구축하고, 상기 인코딩된 비트스트림(434) 내의 글로벌 이득 값(450)에 기초하여 상기 코드북 여기의 이득을 설정함으로써 상기 제1 서브세트의 현재 프레임의 현재 여기(444)를 생성하도록 구성된 여기 생성기(440)와,
상기 인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들(452)에 기초하여 상기 현재 여기(444)를 필터링하도록 구성된 선형 예측 합성 필터(442)를 포함하며,
상기 변환 디코더(438)는 상기 인코딩된 비트스트림(434)으로부터 상기 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보를 구축하고 시간 영역 신호의 레벨이 상기 글로벌 이득 값(450)에 의존하도록 상기 시간 영역 신호를 획득하기 위해 상기 스펙트럼 정보에 대해 스펙트럼-시간 영역 변환(spectral to time domain transformation)을 수행함으로써, 상기 제2 서브세트의 현재 프레임을 디코딩하도록 구성된 것인, 멀티 모드 오디오 디코더.
제8항에 있어서, 상기 여기 생성기(440)는, 상기 제1 서브세트의 현재 프레임의 상기 현재 여기(444)를 생성할 때에,
상기 인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임의 적응적 코드북(adaptive codebook) 인덱스와 과거 여기에 기초하여 적응적 코드북 여기를 구축하고;
상기 인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임에 대한 혁신 코드북(innovation codebook) 인덱스에 기초하여 혁신 코드북 여기를 구축하고;
상기 인코딩된 비트스트림 내의 상기 글로벌 이득 값(450)에 기초하여 상기 혁신 코드북 여기의 이득을 코드북 여기의 이득으로서 설정하며;
상기 적응적 코드북 여기와 상기 혁신 코드북 여기를 결합하여 상기 제1 서브세트의 현재 프레임의 현재 여기(444)를 획득하도록 구성된 것인, 멀티 모드 오디오 디코더.
제8항 또는 제9항에 있어서,
상기 변환 디코더(438)는 상기 스펙트럼 정보가 상기 제2 서브세트의 현재 프레임의 현재 여기와 관련되도록 구성되며,
상기 변환 디코더(438)는 또한, 상기 제2 서브세트의 현재 프레임을 디코딩할 때에, 상기 인코딩된 비트스트림(434) 내의 상기 제2 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들(454)에 의해 정의된 선형 예측 합성 필터 전달 함수에 따라 상기 제2 서브세트의 현재 프레임의 현재 여기를 스펙트럼적으로 형성하여, 상기 스펙트럼 정보에 대한 스펙트럼-시간 영역 변환의 성능이 상기 오디오 콘텐츠(302, 402)의 디코딩된 표현물(432)을 야기시키도록 구성된 것인, 멀티 모드 오디오 디코더.
제10항에 있어서, 상기 변환 디코더(438)는 상기 선형 예측 필터 계수들(454)을 선형 예측 스펙트럼으로 전환하고 이 선형 예측 스펙트럼으로 현재 여기의 스펙트럼 정보를 가중화(weighting)함으로써 스펙트럼 형성을 수행하도록 구성된 것인, 멀티 모드 오디오 디코더.
제8항 내지 제11항 중 어느 한 항에 있어서, 상기 변환 디코더(438)는 상기 글로벌 이득 값으로 상기 스펙트럼 정보를 스케일링하도록 구성된 것인, 멀티 모드 오디오 디코더.
제8항 또는 제9항에 있어서, 상기 변환 디코더(438)는, 상기 오디오 콘텐츠의 디코딩된 표현물을 획득하기 위해, 상기 글로벌 이득 값에 기초하여 스케일 인자들(factors)을 스케일링하면서, 상기 인코딩된 비트스트림(434) 내의 스펙트럼 변환 계수들과, 스케일 인자 대역들의 스펙트럼 입도(spectral granularity)에서 스펙트럼 변환 계수들을 스케일링하기 위한 상기 인코딩된 비트스트림 내의 스케일 인자들의 이용에 의해 상기 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보를 구축하도록 구성된 것인, 멀티 모드 오디오 디코더.
CELP 디코더로서,
여기 생성기(540)와,
선형 예측 합성 필터(542)
를 포함하며,
상기, 여기 생성기(540)는,
상기 비트스트림(544) 내의 현재 프레임에 대한 적응적 코드북 인덱스(550)와 과거 여기(548)에 기초하여 적응적 코드북 여기(546)를 구축하고;
상기 비트스트림(544) 내의 현재 프레임에 대한 혁신 코드북 인덱스(554)에 기초하여 혁신 코드북 여기(552)를 구축하고;
비트스트림(36, 134, 304, 514) 내의 선형 예측 필터 계수들(556)로부터 구축된 가중화된 선형 예측 합성 필터에 의해 스펙트럼적으로 가중화된 혁신 코드북 여기(552)의 에너지의 추정치를 계산하고;
비트스트림(544)내의 글로벌 이득 값(560)과 추정된 에너지간의 비율에 기초하여 상기 혁신 코드북 여기(552)의 이득(558)을 설정하며;
현재 여기(542)를 획득하기 위해 상기 적응적 코드북 여기(546)와 혁신 코드북 여기(552)를 결합함으로써, 비트스트림(544)의 현재 프레임에 대한 현재 여기(542)를 생성하도록 구성되며,
상기 선형 예측 합성 필터(542)는 상기 선형 예측 필터 계수들(556)에 기초하여 현재 여기(542)를 필터링하도록 구성된 것인, CELP 디코더.
제14항에 있어서, 상기 여기 생성기(60, 66, 146, 416, 440, 444, 540)는, 상기 적응적 코드북 여기(556, 520, 546)를 구축할 때, 상기 적응적 코드북 인덱스(526, 550, 546, 556)에 의존하는 필터로 상기 과거 여기(420, 446, 524, 548)를 필터링하도록 구성된 것인, CELP 디코더.
제14항 또는 제15항에 있어서, 상기 여기 생성기(15)는 상기 혁신 코드북 여기(552)가 복수의 비제로 펄스들(non-zero pulses)을 갖는 제로 벡터(zero vector)를 포함하도록 상기 혁신 코드북 여기(552)를 구축하도록 구성되며, 상기 비제로 펄스들의 갯수와 위치는 상기 혁신 코드북 인덱스(554)에 의해 표시된 것인, CELP 디코더.
제14항 내지 제16항 중 어느 한 항에 있어서, 상기 여기 생성기(540)는, 상기 혁신 코드북 여기의 에너지의 추정치를 계산할 때, 상기 혁신 코드북 여기(552)를

로 필터링하도록 구성되고,
상기 선형 예측 합성 필터는
에 따라 현재 여기(542)를 필터링하도록 구성되며, 여기서,
이고,
는 지각적 가중 인자이며,
이며,
는 고주파수 엠퍼시스 인자이며, 상기 여기 생성기(540)는 또한 필터링된 혁신 코드북 여기의 샘플들의 2차적 합산(quadratic sum)을 계산하여 상기 에너지의 추정치를 획득하도록 구성된 것인, CELP 디코더.
제14항 내지 제17항 중 어느 한 항에 있어서, 상기 여기 생성기(540)는, 상기 적응적 코드북 여기(546)와 상기 혁신 코드북 여기(552)를 결합할 때에, 상기 적응적 코드북 인덱스(550)에 의존하여 가중 인자로 가중화된 상기 적응적 코드북 여기(546)와, 상기 이득으로 가중화된 상기 혁신 코드북 여기(552)의 가중화된 합(weighted sum)을 형성하도록 구성된 것인, CELP 디코더.
제1항 내지 제18항 중 어느 한 항에 따라 코어 대역 신호를 획득하기 위해 비트스트림의 코어 코더 부분을 디코딩하기 위한 코어 디코더를 포함한 SBR 디코더로서, 상기 SBR 디코더는 상기 비트스트림의 SBR 부분으로부터, 복제될 스펙트럼 대역에 대한 엔벨로프(envelope) 에너지들을 디코딩하고, 상기 코어 대역 신호의 에너지에 따라 상기 엔벨로프 에너지들을 스케일링하도록 구성된 것인, SBR 디코더.
오디오 콘텐츠(302)를 인코딩된 비트스트림(304)으로 인코딩하되 제1 서브세트의 프레임들(306)을 제1 코딩 모드(308)에서 인코딩하고, 제2 서브세트의 프레임들(310)을 제2 코딩 모드(312)에서 인코딩하도록 구성된, 멀티 모드 오디오 인코더로서,
상기 제2 서브세트의 프레임들(310)은 각각 하나 이상의 서브프레임들(314)로 구성되고,
상기 멀티 모드 오디오 인코더는, 프레임마다의 글로벌 이득 값을 결정하고 인코딩하며, 상기 제2 서브세트의 프레임들(310)의 서브프레임들(314)의 적어도 서브세트의 서브프레임들마다, 대응하는 비트스트림 엘리먼트를 결정하고 이 엘리먼트를 각각의 프레임의 글로벌 이득 값에 대해 차별적으로 인코딩하도록 구성되며,
상기 멀티 모드 오디오 인코더는 상기 인코딩된 비트스트림 내의 프레임들의 글로벌 이득 값의 변경이 디코딩측에서의 상기 오디오 콘텐츠(302)의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 구성된 것인, 멀티 모드 오디오 인코더.
오디오 콘텐츠(402)의 제1 서브세트의 프레임들(406)을 CELP 인코딩하고, 제2 서브세트의 프레임들(408)을 변환 인코딩(transform encoding)함으로써 상기 오디오 콘텐츠(402)를 인코딩된 비트스트림(404)으로 인코딩하기 위한 멀티 모드 오디오 인코더로서,
상기 제1 서브세트의 현재 프레임을 인코딩하도록 구성된 CELP 인코더와,
변환 인코더(412)
를 포함하며,
상기 CELP 인코더는,
상기 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들(418)을 생성하고, 상기 선형 예측 필터 계수들(418)을 상기 인코딩된 비트스트림(404)으로 인코딩하도록 구성된 선형 예측 분석기(414); 및
상기 제1 서브세트의 현재 프레임의 현재 여기(422)를 결정하고, 상기 인코딩된 비트스트림(404) 내의 선형 예측 필터 계수들(418)에 기초하여 현재 여기(422)가 선형 예측 합성 필터에 의해 필터링될 때, 상기 제1 서브세트의 현재 프레임에 대한 코드북 인덱스(422)와 과거 여기(420)에 의해 정의된, 상기 제1 서브세트의 현재 프레임을 복구(recover)하며 상기 코드북 인덱스(422)를 상기 인코딩된 비트스트림(404)으로 인코딩하도록 구성된 여기 생성기(416)를 포함하며,
상기 변환 인코더(412)는 스펙트럼 정보(424)를 획득하기 위해 상기 제2 서브세트의 현재 프레임에 대한 시간 영역 신호에 대해 시간-스펙트럼 영역 변환을 수행함으로써 상기 제2 서브세트의 현재 프레임을 인코딩하고, 상기 스펙트럼 정보를 상기 인코딩된 비트스트림(404)으로 인코딩하도록 구성되며,
상기 멀티 모드 오디오 인코더는 글로벌 이득 값(426)을 상기 인코딩된 비트스트림(404)으로 인코딩하도록 구성되며, 상기 글로벌 이득 값(426)은 선형 예측 계수들(418), 또는 시간 영역 신호의 에너지에 의존하여 선형 예측 분석 필터로 필터링된 상기 제1 서브세트의 현재 프레임의 오디오 콘텐츠(402)의 에너지 버전에 의존하는 것인, 멀티 모드 오디오 인코더.
CELP 인코더로서,
오디오 콘텐츠(512)의 현재 프레임(510)에 대한 선형 예측 필터 계수들(508)을 생성하고, 상기 선형 예측 필터 계수들(508)을 비트스트림(514)으로 인코딩하도록 구성된 선형 예측 분석기(502);
적응적 코드북 여기(520)와 혁신 코드북 여기(522)의 결합으로서 현재 프레임(510)의 현재 여기(516)를 결정하도록 구성된 여기 생성기(504);
및 에너지 결정기(506)
를 포함하며,
상기 여기 생성기(504)는, 현재 여기(516)가 상기 선형 예측 필터 계수들(508)에 기초하여 선형 예측 합성 필터에 의해 필터링될 때,
상기 현재 프레임(510)에 대한 적응적 코드북 인덱스(526)와 과거 여기(524)에 의해 정의된 적응적 코드북 여기(520)를 구축하고 상기 적응적 코드북 인덱스(526)를 상기 비트스트림(514)으로 인코딩하며,
상기 현재 프레임(510)에 대한 혁신 코드북 인덱스(528)에 의해 정의된 혁신 코드북 여기(522)를 구축하고 상기 혁신 코드북 인덱스(528)를 상기 비트스트림(514)으로 인코딩함으로써, 상기 현재 프레임(510)을 복구하도록 구성되며,
상기 에너지 결정기(506)는 글로벌 이득 값(530)을 획득하기 위해 가중 필터(weighting filter)로 필터링된 상기 현재 프레임의 오디오 콘텐츠의 에너지 버전을 결정하고, 상기 글로벌 이득 값(530)을 상기 비트스트림(514)으로 인코딩하도록 구성되며,
상기 가중 필터는 선형 예측 필터 계수들(508)로부터 해석되는 것인, CELP 인코더.
제22항에 있어서, 상기 선형 예측 분석기(502)는 윈도우잉되고, 미리결정된 프리엠퍼시스 필터에 따라 프리엠퍼사이징된 버전의 오디오 콘텐츠(512)상에 적용된 선형 예측 분석에 의해 상기 선형 예측 필터 계수들(508)을 결정하도록 구성된 것인, CELP 인코더.
제22항 또는 제23항에 있어서, 상기 여기 생성기(504)는, 상기 적응적 코드북 여기(520)와 상기 혁신 코드북 여기(522)를 구축할 때, 상기 오디오 콘텐츠(512)에 대한 지각적 가중화된 왜곡 수치를 최소화하도록 구성된 것인, CELP 인코더.
제22항 내지 제24항 중 어느 한 항에 있어서, 상기 여기 생성기(504)는, 상기 적응적 코드북 여기(520)와 상기 혁신 코드북 여기(522)를 구축할 때, 지각적 가중 필터

를 이용하여 상기 오디오 콘텐츠(512)에 대한 지각적 가중화된 왜곡 수치를 최소화하도록 구성되고,
여기서,
는 지각적 가중 인자이고, A(z)는 1/H(z)이며, H(z)는 선형 예측 합성 필터이며, 상기 에너지 결정기(506)는 가중 필터로서 상기 지각적 가중 필터를 이용하도록 구성된 것인, CELP 인코더.
제22항 내지 제25항 중 어느 한 항에 있어서, 상기 여기 생성기(504)는,
상기 혁신 코드북 인덱스(522) 내에 포함된 제1 정보에 의해 정의된 혁신 코드북 벡터를

로 필터링하고, 결과적인 필터링 결과의 에너지를 결정함으로써 혁신 코드북 여기 에너지를 추정하고, - 여기서,
는 선형 예측 합성 필터이고 선형 예측 필터 계수들에 의존하며,
이고
는 지각적 가중 인자이며,
이며,
는 고주파수 엠퍼시스 인자임 -;
예측 이득을 획득하기 위해 혁신 코드북 여기 에너지 추정치와 상기 글로벌 이득 값에 의해 결정된 에너지간의 비율을 형성하고;
상기 예측 이득에 제2 정보로서의 상기 혁신 코드북 인덱스(522) 내에 포함된 혁신 코드북 정정 인자를 곱하여 실제의 혁신 코드북 이득을 산출하며;
상기 실제의 혁신 코드북 이득으로 혁신 코드북 여기(522)를 가중화하는 것과 함께 상기 적응적 코드북 여기(520)와 상기 혁신 코드북 여기(522)를 결합함으로써 다음 프레임에 대한 과거 여기를 실제로 생성함으로써, 상기 다음 프레임의 과거 여기를 획득하도록 여기 업데이트를 수행하도록 구성된 것인, CELP 인코더.
인코딩된 비트스트림(36; 304)에 기초하여 오디오 콘텐츠(24; 302)의 디코딩된 표현물(322)을 제공하기 위한 멀티 모드 오디오 디코딩 방법으로서,
인코딩된 비트스트림(36; 304)의 프레임(324, 326) - 제1 서브세트의 프레임들(324)은 제1 코딩 모드에서 코딩되고 제2 서브세트의 프레임들(326)은 제2 코딩 모드에서 코딩되며, 상기 제2 서브세트의 프레임(326) 각각은 하나 보다 많은 서브프레임(328)으로 구성됨 - 마다의 글로벌 이득 값을 디코딩하는 단계;
상기 제2 서브세트의 프레임들의 서브프레임들(328)의 적어도 서브세트의 서브프레임마다, 대응하는 비트스트림 엘리먼트를 각각의 프레임의 글로벌 이득 값에 대해 차별적으로 디코딩하는 단계; 및
상기 제1 서브세트의 프레임들을 디코딩할 때에 상기 글로벌 이득 값을 이용하고 상기 제2 서브세트의 프레임들의 서브프레임들(328)의 적어도 서브세트의 서브프레임들을 디코딩할 때에 상기 글로벌 이득 값 및 대응하는 비트스트림 엘리먼트를 이용하여 비트스트림(36; 304)을 디코딩하는 것을 완료하는 단계
를 포함하며,
상기 멀티 모드 오디오 디코딩 방법은, 상기 인코딩된 비트스트림(36; 304) 내의 프레임들의 글로벌 이득 값의 변경이 상기 오디오 콘텐츠(24; 302)의 디코딩된 표현물(322)의 출력 레벨(332)의 조정(330)을 야기시키도록 수행되는 것인, 멀티 모드 오디오 디코딩 방법.
인코딩된 비트스트림(434), CELP 코딩된 제1 서브세트의 프레임들, 및 변환 코딩된 제2 서브세트의 프레임들에 기초하여 오디오 콘텐츠의 디코딩된 표현물(432)을 제공하기 위한 멀티 모드 오디오 디코딩 방법으로서,
상기 제1 서브세트의 현재 프레임을 CELP 디코딩하는 단계로서, 인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임의 코드북 인덱스(448)와 과거 여기(446)에 기초하여 코드북 여기를 구축하고, 상기 인코딩된 비트스트림(434) 내의 글로벌 이득 값(450)에 기초하여 상기 코드북 여기의 이득을 설정함으로써 상기 제1 서브세트의 현재 프레임의 현재 여기(444)를 생성하는 단계와; 상기 인코딩된 비트스트림 내의 상기 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들(452)에 기초하여 상기 현재 여기(444)를 필터링하는 단계를 포함한 것인, 상기 CELP 디코딩하는 단계; 및
상기 인코딩된 비트스트림(434)으로부터 상기 제2 서브세트의 현재 프레임에 대한 스펙트럼 정보를 구축하고, 시간 영역 신호의 레벨이 상기 글로벌 이득 값(450)에 의존하도록 상기 시간 영역 신호를 획득하기 위해 상기 스펙트럼 정보에 대해 스펙트럼-시간 영역 변환을 수행함으로써, 상기 제2 서브세트의 현재 프레임을 변환 디코딩하는 단계
를 포함한, 멀티 모드 오디오 디코딩 방법.
CELP 디코딩 방법으로서,
비트스트림(544) 내의 현재 프레임에 대한 적응적 코드북 인덱스(550)와 과거 여기(548)에 기초하여 적응적 코드북 여기(546)를 구축하는 단계; 상기 비트스트림(544) 내의 현재 프레임에 대한 혁신 코드북 인덱스(554)에 기초하여 혁신 코드북 여기(552)를 구축하는 단계; 비트스트림(36, 134, 304, 514) 내의 선형 예측 필터 계수들(556)로부터 구축된 가중화된 선형 예측 합성 필터에 의해 스펙트럼적으로 가중화된 혁신 코드북 여기(546)의 에너지의 추정치를 계산하는 단계; 비트스트림(544)내의 글로벌 이득 값(560)과 추정된 에너지간의 비율에 기초하여 상기 혁신 코드북 여기(552)의 이득을 설정하는 단계; 및 현재 여기(542)를 획득하기 위해 상기 적응적 코드북 여기(546)와 혁신 코드북 여기(552)를 결합하는 단계에 의해, 비트스트림(544)의 현재 프레임에 대한 현재 여기(542)를 생성하는 단계와,
선형 예측 합성 필터(542)에 의해 선형 예측 필터 계수들(556)에 기초하여 상기 현재 여기(542)를 필터링하는 단계
를 포함한, CELP 디코딩 방법.
오디오 콘텐츠(302)를 인코딩된 비트스트림(304)으로 인코딩하되 제1 서브세트의 프레임들(306)을 제1 코딩 모드(308)에서 인코딩하고, 제2 서브세트의 프레임들(310)을 제2 코딩 모드(312)에서 인코딩하는 단계를 포함한 멀티 모드 오디오 인코딩 방법으로서, 상기 제2 서브세트의 프레임들(310)은 각각 하나 이상의 서브프레임들(314)로 구성되고,
상기 멀티 모드 오디오 인코딩 방법은, 프레임마다의 글로벌 이득 값을 결정하고 인코딩하며, 상기 제2 서브세트의 프레임들(310)의 서브프레임들(314)의 적어도 서브세트의 서브프레임들마다, 대응하는 비트스트림 엘리먼트를 결정하고 이 엘리먼트를 각각의 프레임의 글로벌 이득 값에 대해 차별적으로 인코딩하는 단계를 더 포함하며,
상기 멀티 모드 오디오 인코딩 방법은 상기 인코딩된 비트스트림 내의 프레임들의 글로벌 이득 값의 변경이 디코딩측에서의 상기 오디오 콘텐츠(302)의 디코딩된 표현물의 출력 레벨의 조정을 야기시키도록 수행된 것인, 멀티 모드 오디오 인코딩 방법.
오디오 콘텐츠(402)의 제1 서브세트의 프레임들(406)을 CELP 인코딩하고, 제2 서브세트의 프레임들(408)을 변환 인코딩(transform encoding)함으로써 상기 오디오 콘텐츠(402)를 인코딩된 비트스트림(404)으로 인코딩하기 위한 멀티 모드 오디오 인코딩 방법으로서,
상기 제1 서브세트의 현재 프레임을 인코딩하는 단계로서, 상기 제1 서브세트의 현재 프레임에 대한 선형 예측 필터 계수들(418)을 생성하고, 상기 선형 예측 필터 계수들(418)을 상기 인코딩된 비트스트림(404)으로 인코딩하기 위해 선형 예측 분석을 수행하는 단계; 및 상기 제1 서브세트의 현재 프레임의 현재 여기(422)를 결정하고, 상기 인코딩된 비트스트림(404) 내의 선형 예측 필터 계수들(418)에 기초하여 현재 여기(422)가 선형 예측 합성 필터에 의해 필터링될 때, 상기 제1 서브세트의 현재 프레임에 대한 코드북 인덱스(422)와 과거 여기(420)에 의해 정의된, 상기 제1 서브세트의 현재 프레임을 복구(recover)하며 상기 코드북 인덱스(422)를 상기 인코딩된 비트스트림(404)으로 인코딩하는 단계를 포함한, 상기 현재 프레임 인코딩 단계와,
스펙트럼 정보(424)를 획득하기 위해 상기 제2 서브세트의 현재 프레임에 대한 시간 영역 신호에 대해 시간-스펙트럼 영역 변환을 수행함으로써 상기 제2 서브세트의 현재 프레임을 인코딩하고, 상기 스펙트럼 정보를 상기 인코딩된 비트스트림(404)으로 인코딩하는 단계
를 포함하며,
상기 멀티 모드 오디오 인코딩 방법은 글로벌 이득 값(426)을 상기 인코딩된 비트스트림(404)으로 인코딩하는 단계를 더 포함하며,
상기 글로벌 이득 값은 선형 예측 계수들(418), 또는 시간 영역 신호의 에너지에 의존하여 선형 예측 분석 필터로 필터링된 상기 제1 서브세트의 현재 프레임의 오디오 콘텐츠(402)의 에너지 버전에 의존하는 것인, 멀티 모드 오디오 인코딩 방법.
CELP 인코딩 방법으로서,
오디오 콘텐츠(512)의 현재 프레임(510)에 대한 선형 예측 필터 계수들(508)을 생성하고, 상기 선형 예측 필터 계수들(508)을 비트스트림(514)으로 인코딩하도록 선형 예측 분석을 수행하는 단계;
적응적 코드북 여기(520)와 혁신 코드북 여기(522)의 결합으로서 현재 프레임(510)의 현재 여기(516)를 결정하며, 현재 여기(516)가 상기 선형 예측 필터 계수들(508)에 기초하여 선형 예측 합성 필터에 의해 필터링될 때, 상기 현재 프레임(510)에 대한 적응적 코드북 인덱스(526)와 과거 여기(524)에 의해 정의된 적응적 코드북 여기(520)를 구축하고 상기 적응적 코드북 인덱스(526)를 상기 비트스트림(514)으로 인코딩하며, 상기 현재 프레임(510)에 대한 혁신 코드북 인덱스(528)에 의해 정의된 혁신 코드북 여기(522)를 구축하고 상기 혁신 코드북 인덱스(528)를 상기 비트스트림(514)으로 인코딩함으로써, 상기 현재 프레임(510)을 복구하는 단계; 및
글로벌 이득 값(530)을 획득하기 위해 가중 필터(weighting filter)로 필터링된 상기 현재 프레임의 오디오 콘텐츠의 에너지 버전을 결정하고, 상기 글로벌 이득 값(530)을 상기 비트스트림(514)으로 인코딩하는 단계
를 포함하며, 상기 가중 필터는 선형 예측 필터 계수들(508)로부터 해석되는 것인, CELP 인코딩 방법.
컴퓨터상에서 구동될 때, 제27항 내지 제32항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.