TWI486950B

TWI486950B - 用以針對聯合統一語音與音訊編解碼器處理音訊信號與提供較高時間粒度之裝置與方法

Info

Publication number: TWI486950B
Application number: TW100136050A
Authority: TW
Inventors: Markus Multrus; Bernhard Grill; Max Neuendorf; Nikolaus Rettelbach; Guillaume Fuchs; Philippe Gournay; Roch Lefebvre; Bruno Bessette; Stefan Wilde
Original assignee: Fraunhofer Ges Forschung; Voiceage Corp
Priority date: 2010-10-06
Filing date: 2011-10-05
Publication date: 2015-06-01
Also published as: US20130226570A1; AU2011311659B2; AR101853A2; CN103403799A; HK1190223A1; KR20130069821A; PL2625688T3; US9552822B2; CA2813859C; EP2625688A1; RU2562384C2; ES2530957T3; KR101407120B1; EP2625688B1; CA2813859A1; JP6100164B2; RU2013120320A; JP2013543600A; BR112013008463B8; AU2011311659A1

Description

用以針對聯合統一語音與音訊編解碼器處理音訊信號與提供較高時間粒度之裝置與方法

本發明係有關於音訊處理，及更明確言之係有關於用以針對聯合統一語音與音訊編解碼器(USAC)處理音訊與提供較高時間粒度之裝置及方法。

如同其它音訊編解碼器般，USAC具有固定框大小(USAV：2048樣本/框)。雖然可能在一個框內部切換成較短變換大小的有限集合，但框大小仍限制整個系統的時間性解析度。針對傳統音訊編解碼器，為了提高整個系統的時間粒度，取樣率增高，結果導致一個框的持續時間縮短(例如數毫秒)。但此點對USAC編解碼器並非容易可行。

USAC編解碼器包含得自傳統一般音訊編解碼器工具諸如AAC(高階音訊編碼)變換編碼器、SBR(譜帶複製)及MPEG環繞(MPEG=動畫專家群)，加得自傳統語音編解碼器工具諸如ACELP(ACELP=代數代碼激勵線性預測)的組合。ACELP及變換編碼器二者通常係在相同環境(亦即框大小、取樣率)內的相同時間運轉且容易地切換：通常用於清晰語音信號，使用ACELP工具；及用於音樂、混合信號，則係使用變換編碼器。

ACELP工具在相同時間係限於只在較低取樣率工作。對24千位元/秒，使用只有17075赫茲取樣率。對較高取樣率，ACELP工具效能開始顯著降低。變換編碼器以及SBR及MPEG環繞可由遠較高的取樣率獲益，例如針對變換編碼器的22050赫茲及針對SBR及MPEG環繞的44100赫茲。但至目前為止ACELP工具限制整個系統的取樣率，結果導致並非最佳的系統，特別對音樂信號而言尤為如此。

本發明之目的係提出處理音訊信號之裝置與方法之改良構思。本發明之目的係藉如申請專利範圍第1項之裝置、如申請專利範圍第15項之方法、如申請專利範圍第16項之裝置、如申請專利範圍第18項之方法、及如申請專利範圍第19項之電腦程式加以解決。

目前USAC RM於大量操作點，從極低位元率諸如8千位元/秒至於128千位元/秒及以上的位元率的透明品質之範圍提供高編碼效能。為了達成在如此寬廣位元率範圍之此種高品質，使用諸如MPEG環繞、SBR、ACELP及傳統變換編碼器等工具之組合此種工具之組合當然要求工具互動操作之聯合最佳化處理及置放此等工具之共用環境。

於此聯合最佳化處理程序中發現有些工具具有缺點在於重新再現信號，該等信號暴露在中間位元率範圍(24千位元/秒-32千位元/秒)之高時間結構。更明確言之，MPEG環繞、SBR、及FD變換編碼器(FD、TCX)(FD=頻域；TCX=變換編碼激勵)等工具，亦即於頻域操作的全部工具，當以較高時間粒度操作時具有較佳效能，係與時域的較短框大小相同。

比較最新技藝HE-AACv2編碼器(高效率AAC v2編碼器)，發現目前USAC參考品質編碼器係以顯著較低取樣率，但使用相同框大小(就樣本而言)，於諸如24千位元/秒及32千位元/秒之位元率操作。如此表示以毫秒計，框時間顯著較長。為了補償此等缺陷，須增加時間粒度。如此可藉提高取樣頻率或縮小框大小(例如用於使用固定框大小之系統)而予達成。

有鑑於提高取樣頻率乃朝向SBR及MPEG環繞提高時間動態信號效能之合理方式，如此無法用於全部核心編碼器工具：眾所周知較高取樣頻率有利於變換編碼器，但同時劇降ACELP工具效能。

提出一種用以處理音訊信號之裝置。該裝置包含信號處理器及組配器。該信號處理器係適用於接收具第一可組配數目之音訊信號樣本之第一音訊信號框。此外，該音訊信號係適用於藉可組配升頻取樣因數來升頻取樣該音訊信號而獲得已處理音訊信號。又復，該信號處理器係適用於輸出具第二可組配數目之該已處理音訊信號樣本之第二音訊信號框。

該組配器係適用於基於組配資訊而組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之第一比具有第一比值時，該可組配升頻取樣因數係等於第一升頻取樣值。此外，該組配器係適用於組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之不同第二比具有不同第二比值時，該可組配升頻取樣因數係等於不同第二升頻取樣值。該第一或第二比值係非為整數值。

依據前述實施例，信號處理器升頻取樣一音訊信號來獲得已處理已升頻取樣之音訊信號。於前述實施例中，升頻取樣因數為可組配且可以是個非整數值。組配能力及升頻取樣因數可以是個非整數值的事實增加了裝置的彈性。當該第二可組配樣本數目對該第一可組配樣本數目之不同第二比具有不同第二比值時，該可組配升頻取樣因數係等於不同第二升頻取樣值。如此，該裝置係適用於將該升頻取樣因數與第二對第一音訊信號框之框長度(亦即樣本數目)之比間之關係列入考慮。

於一實施例中，組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之第二比係大於該第二可組配樣本數目對該第一可組配樣本數目之第一比時，該不同第二升頻取樣值係大於該第一升頻取樣值。

依據一實施例，提示針對USAC編解碼器之新操作模式(後文稱作為「額外設定值」)，提升系統用於中間資料率諸如24千位元/秒及32千位元/秒之效能。發現針對此等操作點，目前USAC參考編解碼器的時間解析度過低。因而提示a)藉縮小核心編碼器框大小來提高此一時間解析度而未增加核心編碼器之取樣率，及又復b)增高SBR及MPEG環繞之取樣率而未改變此等工具之框大小。

所提示的額外設定值大為改進系統彈性，原因在於其允許包括ACELP工具的系統在較高取樣率操作，諸如44.1及48千赫茲。由於此等取樣率為市場上典型要求的取樣率，故預期如此將有助於USAC編解碼器的接受度。

目前MPEG統一語音與音訊編碼(USAC)工作項之新操作模式藉由增加整個音訊編解碼器之時間粒度而提高整個編解碼器之時間彈性。若(假設第二樣本數維持相同)第二比係大於第一比，則第一可組配樣本數目減少，亦即第一音訊信號框的框大小縮小。如此導致較高時間粒度，在頻率操作的且處理第一音訊信號框的全部工具之效能較佳。但於此種高度有效操作模式中，也期望提高處理包含升頻取樣音訊信號之第二音訊信號框的工具效能。此等工具的此種效能增高可藉升頻取樣音訊信號之較高取樣率，換言之，藉提高用於此種操作模式之升頻取樣因數而予實現。此外，存在有工具諸如於USAC之ACELP解碼器，該工具不在頻域操作，該工具處理第一音訊信號框，及當(原先)音訊信號的取樣率相對低時，該工具的操作最佳。此等工具可從高升頻取樣因數獲益，原因在於如此表示(原先)音訊信號的取樣率比較升頻取樣音訊信號的取樣率而言為相對地低。前述實施例提出一種裝置係適用於提供針對在此種環境有效操作模式之組態模式。

新操作模式藉增加整個音訊編解碼器之時間粒度而提高整個編解碼器之時間彈性。

於一實施例中，該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之第一比具有該第一比值時，該可組配升頻取樣因數係等於該第一比值，及其中該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之第二比具有該不同第二比值時，該可組配升頻取樣因數係等於該不同第二比值。

於一實施例中，該組配器係適用於組配該信號處理器使得當該第一比具有該第一比值時，該可組配升頻取樣因數係等於2，及其中該組配器係適用於組配該信號處理器使得當該第二比具有不同第二比值時，該可組配升頻取樣因數係等於8/3。

依據又一實施例，該組配器係適用於組配該信號處理器使得當該第一比具有該第一比值時，該第一可組配樣本數目係等於1024及該第二可組配樣本數目係等於2048，及其中該組配器係適用於組配該信號處理器使得當該第二比具有不同第二比值時，該第一可組配樣本數目係等於768及該第二可組配樣本數目係等於2048。

於一實施例中，提議導入USAC編解碼器之額外設定值，此處核心編碼器係在較短框大小(768而非1024樣本)操作。又復，提示於本脈絡中將SBR解碼器之重新取樣從2：1修改成8：3，來許可SBR及MPEG環繞在較高取樣率操作。

此外，依據一實施例，核心編碼器之時間粒度係藉將核心編碼器框大小從1024縮小成738樣本而予增高。藉此一步驟，核心編碼器之時間粒度係提高4/3而取樣率維持常數：如此允許ACELP在適當取樣頻率(Fs)運轉。

此外，於SBR工具，施加比值8/3(至目前為止：比值2)之重新取樣，將在3/8取樣頻率(Fs)的768核心編碼器框大小轉成在取樣頻率(Fs)2048的輸出框大小。如此允許SBR工具及MPEG環繞工具在傳統高取樣率(例如44100赫茲)運轉。如此，提供語音及音樂信號之良好品質，原因在於全部工具係在其最佳操作點運轉。

於一實施例中，一核心解碼器模組用以解碼該音訊信號來獲得一前處理音訊信號，具有多個分析濾波器排組通道之一分析濾波器組用以將該第一前處理音訊信號從一時域變換成一頻域來獲得包含多個子帶信號之一頻域前處理音訊信號，一子帶產生器用以針對該頻域前處理音訊信號製作及添加額外子帶信號，及具有多個合成濾波器排組通道之一合成濾波器組用以將該第一前處理音訊信號從頻域變換成時域來獲得該已處理音訊信號。該組配器可適用於藉組配該合成濾波器排組通道數目或該分析濾波器排組通道數目而組配該信號處理器來使得該可組配升頻取樣因數係等於該合成濾波器排組通道數目對該分析濾波器排組通道數目之一第三比。該子帶產生器可以是一譜帶複製器係適用於複製該前處理音訊信號產生器之子帶信號來針對該頻域前處理音訊信號製作該等額外子帶信號。該信號處理器又復可包含一MPEG環繞解碼器用以解碼該前處理音訊信號來獲得包含立體聲或環繞聲道之一前處理音訊信號。此外，該子帶產生器可適用於在針對該頻域前處理音訊信號之該等額外子帶信號已經製作且添加至該頻域前處理音訊信號後，將該頻域前處理音訊信號饋進該MPEG環繞解碼器。

該核心解碼器模組可包含一第一核心解碼器及一第二核心解碼器，其中該第一核心解碼器可適用於在一時域操作及其中該第二核心解碼器可適用於在一頻域操作。該第一核心解碼器可以是一ACELP解碼器及其中該第二核心解碼器可為一FD變換解碼器或一TCX變換解碼器。

於一實施例中，該ACELP編解碼器之超框大小係從1024縮減至768樣本。如此可藉組合四個大小192(三個大小64之子框)之ACELP框成一個大小768之核心編碼器框進行(先前：組合四個大小256之ACELP框成一個大小768之核心編碼器框)。另一項達成768樣本核心編碼器框大小的解決辦法例如係組合三個大小256(四個大小64之子框)之ACELP框。

依據又更一實施例，該組配器係適用於基於該組配資訊指示該音訊信號之第一可組配樣本數目或該已處理音訊信號之第二可組配樣本數目中之至少一者而組配該信號處理器。

於另一實施例中，該組配器係適用於基於該組配資訊而組配該信號處理器，其中該組配資訊指示該音訊信號之第一可組配樣本數目或該已處理音訊信號之第二可組配樣本數目，其中該組配資訊為一組配指數。

又復，提供一種用以處理一音訊信號之裝置。該裝置包含一信號處理器及一組配器。該信號處理器係適用於接收具一第一可組配數目之音訊信號樣本之一第一音訊信號框。此外，該信號處理器係適用於藉一可組配降頻取樣因數來降頻取樣該音訊信號而獲得一已處理音訊信號。此外，該信號處理器係適用於輸出具一第二可組配數目之該已處理音訊信號樣本之一第二音訊信號框。

該組配器係適用於基於組配資訊而組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一第一比具有一第一比值時，該可組配降頻取樣因數係等於一第一降頻取樣值。此外，該組配器係適用於組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一不同第二比具有一不同第二比值時，該可組配降頻取樣因數係等於一不同第二降頻取樣值。該第一或第二比值係非為整數值。

圖式簡單說

隨後將就附圖討論本發明之較佳實施例，附圖中：第1圖顯示依據一實施例用以處理音訊信號之裝置，第2圖顯示依據另一實施例用以處理音訊信號之裝置，第3圖顯示依據一實施例由裝置所進行的升頻取樣處理，第4圖顯示依據又更一實施例用以處理音訊信號之裝置，第5a圖顯示依據一實施例核心解碼器模組，第5b圖顯示依據第4圖實施例含依據第5a圖之核心解碼器模組的用以處理音訊信號之裝置，第6a圖顯示包含四個ACELP框之ACELP超框，第6b圖顯示包含三個ACELP框之ACELP超框，第7a圖顯示USAC之內設設定值，第7b圖顯示依據一實施例USAC之額外設定值，第8a、8b圖顯示依據MUSHRA方法之聽聞測驗結果，及第9圖顯示依據另一實施例用以處理音訊信號之裝置。

第1圖顯示依據一實施例用以處理音訊信號之裝置。該裝置包含信號處理器110及組配器120。信號處理器110係適用於接收具有第一可組配數目之音訊信號樣本145之第一音訊信號框140。此外，信號處理器110係適用於藉可組配升頻取樣因數來升頻取樣該音訊信號而獲得已處理的音訊信號。又復，信號處理器係適用於接收具有第二可組配數目之已處理音訊信號樣本155之第二音訊信號框150。

組配器120係適用於基於組配資訊ci來組配信號處理器110，使得當第二可組配樣本數目對第一可組配樣本數目的第一比具有第一比值時，可組配升頻取樣因數係等於第一升頻取樣值。此外，組配器120係適用於組配信號處理器110使得當第二可組配樣本數目對第一可組配樣本數目的不同第二比具有不同第二比值時，可組配升頻取樣因數係等於不同第二升頻取樣值。第一或第二比值並非整數值。

依據第1圖之裝置例如可採用於解碼處理程序。

依據一實施例，組配器120可適用於組配信號處理器110使得當該第二可組配樣本數目對第一可組配樣本數目的第二比係大於該第二可組配樣本數目對第一可組配樣本數目的第一比時，不同的第二升頻取樣值係大於第一不同升頻取樣值。於又一實施例中，組配器120係適用於基於組配資訊ci來組配信號處理器110，使得當第二可組配樣本數目對第一可組配樣本數目的第一比具有第一比值時，可組配升頻取樣因數係等於第一比值，及其中，組配器120係適用於組配信號處理器110使得當第二可組配樣本數目對第一可組配樣本數目的不同第二比具有不同第二比值時，可組配升頻取樣因數係等於不同第二比值。

於另一實施例中，組配器120係適用於組配信號處理器110使得當該第一比具有第一比值時，該可組配升頻取樣因數係等於2；及其中組配器120係適用於組配信號處理器110使得當該第二比具有不同第二比值時，該可組配升頻取樣因數係等於8/3。依據又一實施例，組配器120係適用於組配信號處理器110使得當該第一比具有第一比值時，該第一可組配樣本數係等於1024而該第二可組配樣本數係等於2048；及其中組配器120係適用於組配信號處理器110使得當該第二比具有不同第二比值時，該第一可組配樣本數係等於768而該第二可組配樣本數係等於2048。

於一實施例中，組配器120係適用於基於組配資訊ci來組配信號處理器110，其中該組配資訊ci指示升頻取樣因數、該音訊信號之第一可組配樣本數、及該已處理音訊信號之第二可組配樣本數，其中該組配資訊為組配指數。

下表例示說明組配指數作為組配資訊的實例：

其中「指數」指示組配指數，其中「coreCoderFrameLength」指示該音訊信號之第一可組配樣本數，其中「sbrRatio」指示升頻取樣因數，及其中「outputFrameLength」指示該已處理音訊信號之第二可組配樣本數。

第2圖例示說明依據另一實施例之裝置。該裝置包含信號處理器205及組配器208。該信號處理器205包含核心解碼器模組210、分析濾波器排組220、子帶產生器230、及合成濾波器排組240。

核心解碼器模組210係適用於接收音訊信號as1。於接收音訊信號as1之後，核心解碼器模組210解碼該音訊信號而獲得經前處理的音訊信號as2。然後，核心解碼器模組210將於時域表示的該經前處理的音訊信號as2饋進分析濾波器排組220。

分析濾波器排組220係適用於將經前處理的音訊信號as2從時域變換為頻域來獲得包含多個子帶信號之頻域經前處理的音訊信號as3。分析濾波器排組220具有可組配數目之分析濾波器排組通道(分析濾波器排組頻帶)。分析濾波器排組通道數目決定從該時域經前處理的音訊信號as2所產生的子帶信號數目。於一實施例中，分析濾波器排組通道數目可藉設定可組配參數c1值而予設定。舉例言之，分析濾波器排組220可經組配來具有32或24個分析濾波器排組通道。於第2圖之實施例中，分析濾波器排組通道數目可依據組配器208之組配資訊ci而予設定。將經前處理的音訊信號as2變換成頻域後，分析濾波器排組220將該頻域經前處理的音訊信號as3饋進子帶產生器230。

子帶產生器230係適用於針對頻域音訊信號as3產生額外子帶信號。此外，子帶產生器230係適用於修改經前處理的頻域音訊信號as3來獲得經修改之頻域音訊信號as4，該信號as4包含經前處理的頻域音訊信號as3之子帶信號及由子帶產生器230所產生的額外子帶信號。由該子帶產生器230所產生的額外子帶信號數目為可組配。於一實施例中，子帶產生器乃譜帶複製器(SBR)。然後子帶產生器230將經修改之頻域經前處理的音訊信號as4饋進合成濾波器排組。

合成濾波器排組240係適用於將經修改之頻域經前處理的音訊信號as4從頻域變換為時域來獲得時域已處理的音訊信號as5。合成濾波器排組240具有可組配數目的合成濾波器排組通道(合成濾波器排組頻帶)。合成濾波器排組通道數目為可組配。於一實施例中，合成濾波器排組通道數目可藉設定可組配參數c2值而予設定。舉例言之，合成濾波器排組240可經組配來具有64個合成濾波器排組通道。於第2圖之實施例中，組配器208的組配資訊ci可設定分析濾波器排組通道數目。藉將經修改之頻域經前處理的音訊信號as4變換成時域，獲得已處理的音訊信號as5。

於一實施例中，經修改之頻域經前處理的音訊信號as4之子帶通道數目係等於合成濾波器排組通道數目。於此一實施例中，組配器208係適用於組配由子帶產生器230所產生的額外子帶通道數目。組配器208可適用於組配由子帶產生器230所產生的額外子帶通道數目，使得藉組配器208所組配的合成濾波器排組通道c2數目係等於經前處理的頻域音訊信號as3加上由子帶產生器230所產生的額外子帶通道數目。藉此，合成濾波器排組通道數目係等於經修改之經前處理的頻域音訊信號as4的子帶信號數目。

假設音訊信號as1具有取樣率sr1，及假設分析濾波器排組220具有c1分析濾波器排組通道及合成濾波器排組240具有c2合成濾波器排組通道，已處理的音訊信號as5具有取樣率sr5：

sr5=(c2/c1)sr1。

c2/c1決定升頻取樣因數u：

u=c2/c1。

於第2圖之實施例中，升頻取樣因數u可設定為非為整數值。舉例言之，升頻取樣因數u可設定為8/3之值，藉設定分析濾波器排組通道數目：c1=24及藉設定合成濾波器排組通道數目：c2=64，使得：

u=8/3=64/24。

假設子帶產生器230為譜帶複製器，依據一實施例譜帶複製器可從原先子帶產生任意數目的額外子帶，其中所產生的額外子帶數目對已經可用子帶數目之比無需為整數。例如依據一實施例譜帶複製器可執行下列步驟：

於第一步驟中，譜帶複製器藉產生額外子帶數目而複製子帶信號數目，其中所產生的額外子帶數目可以是已經可用子帶數目的整數倍數。舉例言之，可從音訊信號的24原先子帶信號產生24(或例如48)額外子帶信號(例如子帶信號總數可以雙倍或三倍)。

於第二步驟中，假設所需子帶信號數目為c12而實際可用子帶信號數目為c11，則可區分三種不同情況：若c11等於c12，則可用子帶信號數目c11係等於需要的子帶信號數目c12。無需作子帶調整。

若c12小於c11，則可用子帶信號數目c11係大於需要的子帶信號數目c12。依據一實施例，可刪除最高頻率子帶信號。舉例言之，若有64子帶信號可資利用且若只需64子帶信號，則三個具最高頻率的子帶信號可被拋棄。

若c12大於c11，則可用子帶信號數目c11係小於需要的子帶信號數目c12。

依據一實施例，藉加上零信號亦即各個子帶樣本的振幅值係等於零之信號作為額外子帶信號，可產生額外子帶信號。依據另一實施例，藉加上偽隨機子帶信號亦即各個子帶樣本之值包含偽隨機資料的信號作為額外子帶信號，可產生額外子帶信號。於另一實施例中，藉拷貝最高子帶信號樣本值或最高子帶信號且用來作為額外子帶信號(拷貝子帶信號)之樣本值，可產生額外子帶信號。

依據一實施例於譜帶複製器中，可用基帶子帶可經拷貝且用作為最高子帶，使得全部子帶皆經填補。該基帶子帶可經拷貝兩次或多次來讓全部遺漏子帶皆以數值填補。

第3圖顯示依據一實施例由裝置所進行的升頻取樣處理。例示說明時域音訊信號310及數個音訊信號310樣本315。音訊信號於頻域變換例如時頻域來獲得包含三個子帶信號330的頻域音訊信號320。(於本簡化實例中，係假設分析濾波器排組包含三個通道。)然後頻域音訊信號之子帶信號330可經複製來獲得三個額外子帶信號335，因而頻域音訊信號320包含原先三個子帶信號330及所產生的三個額外子帶信號335。然後，又產生兩個額外子帶信號338，例如零信號、偽隨機子帶信號或拷貝子帶信號。然後頻域音訊信號變換回時域，結果獲得具原先時域音訊信號310之取樣率的8/3倍取樣率之時域音訊信號350。

第4圖例示說明依據又一實施例之裝置。該裝置包含信號處理器405及組配器408。信號處理器405包含核心解碼器模組210、分析濾波器排組220、子帶產生器230、及合成濾波器排組240，相對應於第2圖實施例中的個別單元。此外，信號處理器405包含MPEG環繞解碼器410(MPS解碼器)用以解碼經前處理的音訊信號而獲得具立體聲或環繞聲道之經前處理的音訊信號。子帶產生器230係適用於針對該頻域經前處理的音訊信號之額外子帶信號已經產生且已加至該頻域經前處理的音訊信號後，將頻域經前處理的音訊信號饋進MPEG環繞解碼器410。

第5a圖例示說明依據一實施例的核心解碼器模組。該核心解碼器模組包含第一核心解碼器510及第二核心解碼器520。第一核心解碼器510係適用於時域操作及其中第二核心解碼器520係適用於頻域操作。第5a圖中，第一核心解碼器510為ACELP解碼器及第二核心解碼器520為FD變換解碼器，例如AAC變換解碼器。於另一實施例中，第二核心解碼器520為TCX變換解碼器。取決於到達音訊信號部分asp是否含有語音資料或其它音訊資料，到達音訊信號部分asp係藉ACELP解碼器510或藉FD變換解碼器520處理。核心解碼器模組之輸出為該音訊信號之一前處理部分pp-asp。

第5b圖顯示依據第4圖實施例含依據第5a圖之核心解碼器模組的用以處理音訊信號之裝置。

於一實施例中，ACELP編解碼器之超框大小係從1024樣本縮小至768樣本。如此可藉將四個大小192之ACELP框(三個大小64之子框)組合成一個大小768的核心編碼器框而達成(先前：四個大小256之ACELP框組合成一個大小1024的核心編碼器框)。第6a圖例示說明包含四個ACELP框610之ACELP超框605。ACELP框610各自包含三個子框615。

達成768樣本大小的核心編碼器框之另一解決辦法例如係組合三個大小256之ACELP框(四個大小64之子框)。第6b圖例示說明包含三個ACELP框630之ACELP超框625。ACELP框630各自包含四個子框635。

第7b圖輪廓描繪從解碼器觀點所提示之額外設定且與傳統USAC設定作比較。第7a及7b圖輪廓描繪解碼器結構為典型用在操作點為24千位元/秒或32千位元/秒。

於第7a圖中，例示說明USAC RM9(USAC參考模型9)的內設設定音訊信號框係輸入QMF分析濾波器排組710。QMF分析濾波器排組710具有32通道。QMF分析濾波器排組710係適用於將時域音訊信號轉成頻域，其中該頻域音訊信號包含32子帶。然後頻域音訊信號輸入升頻取樣器720。升頻取樣器720係適用於藉升頻取樣因數2而升頻取樣該頻域音訊信號。如此，藉該升頻取樣器產生包含64子帶的頻域升頻取樣器輸出信號。升頻取樣器720為SBR(譜帶複製器)升頻取樣器。如前文已述，譜帶複製器係採用來從輸入譜帶複製器的較低頻子帶產生較高頻子帶。

然後經升頻取樣的頻域音訊信號饋進MPEG環繞(MPS)解碼器730。MPS解碼器730係適用於將降混環繞信號解碼來導出環繞信號之頻域通道。舉例言之，MPS解碼器730可適用於產生頻域環繞信號之兩個升混頻域環繞通道。於另一實施例中，MPS解碼器730可適用於產生頻域環繞信號之五個升混頻域環繞通道。然後頻域環繞信號之通道饋進QMF合成濾波器排組740。QMF合成濾波器排組740係適用於變換頻域環繞信號之通道成為時域來獲得環繞信號之時域通道。

如圖可知，USAC解碼器係以其內設設定操作為2：1系統。核心編解碼器係於一半輸出取樣率f_out 以1024樣本/框的粒度操作。藉組合32頻帶分析QMF濾波器排組與以相等速率運轉的64頻帶合成QMF排組，以因數2之升頻取樣係在SBR工具內部暗示性地執行。SBR工具係於f_out 輸出大小2048之框。

第7b圖例示說明所提示的針對USAC之額外設定。例示說明QMF分析濾波器排組750、升頻取樣器760、MPS解碼器770及合成濾波器排組780。

與內設設定相反，USAC編解碼器係以如同8/3系統所提示的額外設定操作。核心編碼器係以輸出取樣率f_out 的八分之三運轉。於相同上下文，核心編碼器框大小縮小3/4之因數。藉於SBR工具內部組合24頻帶分析QMF濾波器排組與64頻帶合成濾波器排組，可達成於2048樣本框長度之輸出取樣率f_out 。

此項設定允許針對核心編碼器及額外工具二者有遠更增加的時間性粒度：鑑於諸如SBR及MPEG環繞等工具可以較高取樣率操作，核心編碼器取樣率減低及反而框長度縮短。藉此方式，全部組件可於其最佳環境工作。

於一實施例中，採用作為核心編碼器的AAC編碼器仍然基於1/2 f_out 取樣率而決定定標因數，即便AAC編碼器係於輸出取樣率f_out 的八分之三操作時亦如此。

下表提供用在USAC參考品質編碼器針對USAC的取樣率及框持續時間的細節數字。如表可知，於所提示的新設定中的框持續時間可縮小達接近25%，結果導致針對全部非靜態信號的正面效果，原因在於編碼雜訊的擴展也可以相同比例減少。可達成此項減少而不增加核心編碼器取樣頻率，將使得ACELP工具移出其最佳操作範圍之外。

該表例示說明如以24千位元/秒用在參考品質編碼器之針對內設及所提示之新設定的取樣率及框持續時間。

後文中，為了體現所提示之新設定針對USAC解碼器所需修改係以進一步細節描述。

至於變換編碼器，藉以3/4因數定標變換及窗大小，容易達成較短的框大小。鑑於標準模式的FD編碼器以1024及128的變換大小操作，藉新設定而導入大小768及96之額外變換。對TCS需要大小768、384及192的額外變換。除了依窗係數載明新變換大小外，變換編碼器可維持不變。

有關ACELP工具，總框大小需調適為768樣本。達成此項目的的一個方式係讓框總體結構維持不變，四個192樣本的ACELP框匹配768樣本的各個框。調適為縮小的框大小係藉將每框的子框數目從4減至3而達成。ACELP子框長度係不變維持64樣本。為了允許子框數目減少，使用略為不同的體系編碼調性資訊：三個調性值係分別以9、6及6位元使用絕對-相對-相對體系編碼，替代於標準模型使用9、6、9及6位元的絕對-相對-絕對-相對體系。但編碼調性資訊之其它方式亦屬可能。ACELP編解碼器的其它元件諸如ACELP碼簿及多個量化器(LPC濾波器、增益等)維持不變。

達成768樣本的總框大小之另一種方式係將三個大小256之ACELP框組合成為一個大小768之核心編碼器框。

SBR工具之功能維持不變。但除了32頻帶分析帶QMF外，需要24頻帶分析QMF來允許因數8/3之升頻取樣。

後文中，將解釋所提示之額外操作點對計算複雜度的影響。此點首先係以基於編解碼器-工具基礎進行及於結束時摘述。複雜度係對內設低取樣率模式作比較及對較高取樣率模式作比較，如由USAC參考品質編碼器以較高位元率使用，此點可媲美針對此等操作點之相對應HE-AACv2設定。

有關變換編碼器，變換編碼器部件之複雜度隨著取樣率及變換長度而縮放。所提示的核心編碼器取樣率粗略保持不變。變換大小縮小3/4因數。藉此方式，計算複雜度減少接近相同因數，假設混合基數(radix)辦法用於潛在FFT。總而言之，基於變換之解碼器複雜度預期比較目前USAC操作點略減，及比較高取樣操作模式減少達3/4之因數。

至於ACELP，ACELP工具之複雜度主要為組合下列操作：

激勵的解碼：該項操作之複雜度係與每秒子框數目成正比，而其又係與核心編碼器取樣頻率直接成正比(子框大小於64樣本維持不變)。因而接近與新設定相同。

LPC濾波及其它合成操作，包括低音後濾波器：此項操作的複雜度係與核心編碼器取樣頻率直接成正比，因而接近相等。

總體而言，ACELP解碼器之預期複雜度係預期比較目前USAC操作點維持不變，及比較高取樣操作模式減少3/4因數。

有關SBR，對SBR複雜度的主要貢獻因子為QMF濾波器排組。此處複雜度隨取樣率及變換大小而縮放。更明確言之，分析濾波器排組之複雜度粗略減少3/4因數。

至於MPEG環繞，MPEG環繞部件的複雜度隨著取樣率而縮放。所提示的額外操作模式對MPEG環繞工具的複雜度無直接影響。

總而言之，發現所提示的新操作模式之複雜度比低取樣率模式略為更複雜，但當以較高取樣率模式(USAC RM9，高SR：13.4 MOPS，所提示的新操作點：12.8 MOPS)操作時係低於USAC解碼器的複雜度。

對所測試的操作點，複雜度評估如下：USAC RM9，於34.15千赫茲操作：約4.6 WMOPS；USAC RM9，於44.1千赫茲操作：約5.6 WMOPS；所提示的新操作點：約5.0 WMOPS。

因預期USAC解碼器在其內設組態中需要可處理高達48千赫茲的取樣率，預期藉此所提示的新操作點不會帶來缺點。

至於記憶體需求，所提示的額外操作模式要求額外MDCT窗原型的儲存，其加總成900字組(32位元)以下的額外ROM需求。鑑於總解碼器ROM需求約為25千字組，此一數字似乎可忽略不計。

收聽測試結果顯示音樂及混合測試項的顯著改良，而語音項的品質未降級。此種額外設定係意圖用作為USAC編解碼器的額外操作模式。

依據MUSHRA方法的收聽測試係進行來評估於24千位元/秒單聲道的所提示之新設定效能。下列條件含在該測試中：隱藏參考；3.5千赫茲低通錨定；USAC WD7參考品質(WD7＠34.15千赫茲)；於高取樣率操作之USAC WD7(WD7＠44.1千赫茲)；及USAC WD7參考品質，所提示之新設定(WD7_CE＠44.1千赫茲)。

測試涵蓋得自USAC測試集的12個測試項目，及下列額外項目：si02：響板；絲絨：電子音樂；及木琴：音樂盒。

第8a及8b圖例示說明測試結果。22人參與收聽測試。使用學生t機率分布進行評估。

用於平均分數的評估(95%顯著程度)，可觀察到於44.1千赫茲較高取樣率操作的WD7針對二項目(es01、哈利波特)的表現顯然比WD7差。而WD7與該技術之特徵性WD7間未觀察得顯著差異。

用於差異分數之評估，可觀察得於44.1千赫茲操作的WD7針對六項目(es01、louis_raquin、te 1、WeddingSpeech、哈利波特、SpeechOverMusic_4)及對全部項目求取平均的表現顯然比WD7差。表現較差的項目包括全部純語音項及其中兩個混合語音/音樂項。又復可觀察得於44.1千赫茲操作的WD7針對四項目(閃爍、拯救、si02、絲絨)表現顯著優於WD7。全部此等項目皆含有音樂信號的顯著部分或歸類為音樂。

針對接受測試的技術，可觀察得其效能針對五項(閃爍、拯救、te15、si02、絲絨)，及此外對全部各項求平均時係優於WD7。其表現較佳的全部項目含有音樂信號之顯著部分或歸類為音樂。未觀察得降級。

藉前述實施例提供中間USAC位元率之新設定。此項新設定允許USAC編解碼器增加其針對全部相關工具的時間性粒度，諸如變換編碼器、SBR及MPEG環繞而未犧牲ACELP工具的品質。藉此方式，可改良中間位元率範圍之品質，特別係針對具有高時間性結構的音樂及混合信號。又復，USAC系統彈性增益，原因在於包括ACELP工具的USAC編解碼器現在係用在較寬廣取樣率範圍，諸如44.1千赫茲。

第9圖例示說明用以處理音訊信號之裝置。該裝置包含信號處理器910及組配器920。信號處理器910係適用於接收具有該音訊信號之第一可組配樣本數目945的第一音訊信號框940。信號處理器910係適用於藉可組配的降頻取樣因數來降頻取樣該音訊信號而獲得已處理的音訊信號。此外，信號處理器係適用於接收具有該已處理之音訊信號之第二可組配樣本數目955的第二音訊信號框950。

組配器920係適用於基於組配資訊ci2而組配信號處理器910，使得當第二可組配樣本數目對第一可組配樣本數目具有第一比值時，可組配降頻取樣因數係等於第一降頻取樣值。此外，組配器920係適用於組配信號處理器910，使得當不同第二可組配樣本數目對第一可組配樣本數目具有不同第二比值時，可組配降頻取樣因數係等於不同第二降頻取樣值。第一或第二比值係非整數值。

依據第9圖之裝置例如可運用於編碼程序。

雖然已經就裝置脈絡描述若干構面，顯然此等構面也表示相對應方法的描述，此處區塊或裝置係相對應於方法步驟或方法步驟特徵。同理，以方法步驟脈絡描述的構面也表示相對應裝置的相對應區塊或項目或特徵之描述。

本發明分解信號可儲存在數位儲存媒體，或可在傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路上傳輸。

取決於某些體現要求，本發明之實施例可於硬體或於軟體體現。體現可使用數位儲存媒體進行，例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該等媒體具有可電子讀取控制信號儲存於其上，該等媒體與可規劃電腦系統協作(或可協作)因而執行個別方法。

依據本發明之若干實施例包含具有可電子讀取控制信號的非暫時性資料載體，其可與可規劃電腦系統協作，因而執行此處所述方法中之一者。

一般而言，本發明之實施例可體現為具有程式代碼的電腦程式產品，當該電腦程式產品於電腦上跑時，程式代碼可操作來執行該等方法中之一者。程式代碼例如可儲存在機器可讀取載體上。

其它實施例包含儲存在機器可讀取載體上用以執行此處所述方法中之一者的電腦系統。

換言之，因此本發明方法之實施例為具有程式代碼的電腦程式，當該電腦程式於電腦上跑時，程式代碼可操作來執行該等方法中之一者。

因此本發明方法之又一實施例為資料載體(或數位儲存媒體，或電腦可讀取媒體)包含用以執行此處所述方法中之一者的電腦程式記錄於其上。

因此本發明方法之又一實施例為表示用以執行此處所述方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列例如可經組配來透過資料通訊連結，例如透過網際網路傳輸。

又一實施例包含組配來或適用於執行此處所述方法中之一者的處理裝置，諸如電腦或可規劃邏輯裝置。

又一實施例包含電腦具有用以執行此處所述方法中之一者的電腦程式安裝於其上。

於若干實施例中，可規劃邏輯裝置(例如可現場規劃閘陣列(FPGA))可用來執行部分或全部此處所述方法功能。於若干實施例中，可現場規劃閘陣列可與微處理器協作來執行此處所述方法中之一者。一般而言，該等方法較佳係藉任一種硬體裝置執行。

前述實施例僅供舉例說明本發明原理。須瞭解此處所述配置之修改及變化及其細節為熟諳技藝人士顯然易知。因此意圖只受隨附之申請專利範圍之範圍所限而非受此處實施例藉描述與解說目的所呈現之特定細節所限。

110、205、405、910‧‧‧信號處理器

120、208、408、920‧‧‧組配器

140、150、940、950‧‧‧音訊信號框

145、155、315、945、955‧‧‧樣本

210‧‧‧核心解碼器模組

220‧‧‧分析濾波器排組

230‧‧‧子帶產生器

240‧‧‧合成濾波器排組

310、350‧‧‧時域音訊信號

320‧‧‧頻域音訊信號

330、335、338、340‧‧‧子帶信號

410‧‧‧MP解碼器

510‧‧‧第一核心解碼器、ACELP解碼器

520‧‧‧第二核心解碼器、FD變換解碼器

605、625‧‧‧ACELP超框

610、630‧‧‧ACELP框

615、635‧‧‧子框

710、750‧‧‧QMP分析濾波器排組

720、760‧‧‧升頻取樣器

730、770‧‧‧MPEG環繞(MPS)解碼器

740、780‧‧‧QMP合成濾波器排組

as1-5‧‧‧音訊信號

ci、ci2‧‧‧組配資訊

第1圖顯示依據一實施例用以處理音訊信號之裝置，第2圖顯示依據另一實施例用以處理音訊信號之裝置，第3圖顯示依據一實施例由裝置所進行的升頻取樣處理，第4圖顯示依據又更一實施例用以處理音訊信號之裝置，第5a圖顯示依據一實施例核心解碼器模組，第5b圖顯示依據第4圖實施例含依據第5a圖之核心解碼器模組的用以處理音訊信號之裝置，第6a圖顯示包含四個ACELP框之ACELP超框，第6b圖顯示包含三個ACELP框之ACELP超框，第7a圖顯示USAC之內設設定值，第7b圖顯示依據一實施例USAC之額外設定值，第8a、8b圖顯示依據MUSHRA方法之聽聞測驗結果，及第9圖顯示依據另一實施例用以處理音訊信號之裝置。

110‧‧‧信號處理器

120‧‧‧組配器

140、150‧‧‧音訊信號框

145、155‧‧‧樣本

ci‧‧‧組配資訊

Claims

一種用以處理一音訊信號之裝置，其係包含：一信號處理器，係適用於接收具一第一可組配樣本數目之音訊信號之一第一音訊信號框、係適用於藉一可組配升頻取樣因數來升頻取樣該音訊信號而獲得一已處理音訊信號、及係適用於輸出具一第二可組配樣本數目之該已處理音訊信號之一第二音訊信號框；及一組配器係適用於組配該信號處理器，其中該組配器係適用於基於組配資訊而組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一第一比具有一第一比值時，該可組配升頻取樣因數係等於一第一升頻取樣值，及其中該組配器係適用於組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一不同第二比具有一不同第二比值時，該可組配升頻取樣因數係等於一不同第二升頻取樣值，及其中該第一或第二比值係非為整數值。
如申請專利範圍第1項之裝置，其中該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之該第二比係大於該第二可組配樣本數目對該第一可組配樣本數目之該第一比時，該不同第二升頻取樣值係大於該第一升頻取樣值。
如申請專利範圍第1或2項之裝置，其中該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之該第一比具有該第一比值時，該可組配升頻取樣因數係等於該第一比值，及其中該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之該第二比具有該不同第二比值時，該可組配升頻取樣因數係等於該不同第二比值。
如申請專利範圍第1項之裝置，其中該組配器係適用於組配該信號處理器使得當該第一比具有該第一比值時，該可組配升頻取樣因數係等於2，及其中該組配器係適用於組配該信號處理器使得當該第二比具有該不同第二比值時，該可組配升頻取樣因數係等於8/3。
如申請專利範圍第1項之裝置，其中該組配器係適用於組配該信號處理器使得當該第一比具有該第一比值時，該第一可組配樣本數目係等於1024及該第二可組配樣本數目係等於2048，及其中該組配器係適用於組配該信號處理器使得當該第二比具有該不同第二比值時，該第一可組配樣本數目係等於768及該第二可組配樣本數目係等於2048。
如申請專利範圍第1項之裝置，其中該信號處理器係包含：一核心解碼器模組，用以解碼該音訊信號來獲得一前處理音訊信號，具有多個分析濾波器排組通道之一分析濾波器組，用以將該第一前處理音訊信號從一時域變換成一頻域來獲得包含多個子帶信號之一頻域前處理音訊信號，一子帶產生器，用以針對該頻域前處理音訊信號製作及添加額外子帶信號，及具有多個合成濾波器排組通道之一合成濾波器組，用以將該第一前處理音訊信號從頻域變換成時域來獲得該已處理音訊信號，其中該組配器係適用於藉組配該合成濾波器排組通道數目或該分析濾波器排組通道數目而組配該信號處理器來使得該可組配升頻取樣因數係等於該合成濾波器排組通道數目對該分析濾波器排組通道數目之一第三比。
如申請專利範圍第6項之裝置，其中該子帶產生器為一譜帶複製器係適用於複製該前處理音訊信號產生器之子帶信號來針對該頻域前處理音訊信號製作該等額外子帶信號。
如申請專利範圍第6項之裝置，其中該信號處理器進一步包含一MPEG環繞解碼器用以解碼該前處理音訊信號來獲得包含立體聲或環繞聲道之一前處理音訊信號，其中該子帶產生器係適用於在針對該頻域前處理音訊信號之該等額外子帶信號已經製作且添加至該頻域前處理音訊信號後，將該頻域前處理音訊信號饋進該MPEG環繞解碼器。
如申請專利範圍第6項之裝置，其中該核心解碼器模組包含一第一核心解碼器及一第二核心解碼器，其中該第一核心解碼器係適用於在一時域操作及其中該第二核心解碼器係適用於在一頻域操作。
如申請專利範圍第9項之裝置，其中該第一核心解碼器係為一ACELP解碼器及其中該第二核心解碼器係為一FD變換解碼器或一TCX變換解碼器。
如申請專利範圍第10項之裝置，其中該ACELP解碼器係適用於處理該第一音訊信號框，其中該第一音訊信號框具有4 ACELP框，及其中該等ACELP框中之各者具有192音訊信號樣本，此時該第一音訊信號框之該第一可組配樣本數目係等於768。
如申請專利範圍第10項之裝置，其中該ACELP解碼器係適用於處理該第一音訊信號框，其中該第一音訊信號框具有3 ACELP框，及其中該等ACELP框中之各者具有256音訊信號樣本，此時該第一音訊信號框之該第一可組配樣本數目係等於768。
如申請專利範圍第1項之裝置，其中該組配器係適用於基於該組配資訊指示該音訊信號之該第一可組配樣本數目或該已處理音訊信號之該第二可組配樣本數目中之至少一者而組配該信號處理器。
如申請專利範圍第1項之裝置，其中該組配器係適用於基於該組配資訊而組配該信號處理器，其中該組配資訊指示該音訊信號之第一可組配樣本數目或該已處理音訊信號之該第二可組配樣本數目，其中該組配資訊為一組配指數。
一種用以處理一音訊信號之方法，其係包含：組配一可組配升頻取樣因數，接收具有該音訊信號之一第一可組配樣本數目之一第一音訊信號框，及藉該可組配升頻取樣因數升頻取樣該音訊信號來獲得一已處理音訊信號，及係適用於輸出具有該已處理音訊信號之一第二可組配樣本數目之一第二音訊框；及其中該可組配升頻取樣因數係基於組配資訊而經組配使得當該第二可組配樣本數目對該第一可組配樣本數目之一第一比具有一第一比值時該可組配升頻取樣因數係等於一第一升頻取樣值，及其中該可組配升頻取樣因數係經組配使得當該第二可組配樣本數目對該第一可組配樣本數目之一不同第二比具有一不同第二比值時，該可組配升頻取樣因數係等於一不同第二升頻取樣值，及其中該第一或第二比值係非為整數值。
一種用以處理一音訊信號之裝置，其係包含：一信號處理器係適用於接收具一第一可組配樣本數目之音訊信號之一第一音訊信號框，係適用於藉一可組配降頻取樣因數來降頻取樣該音訊信號而獲得一已處理音訊信號，及係適用於輸出具一第二可組配樣本數目之該已處理音訊信號之一第二音訊信號框；及一組配器係適用於組配該信號處理器，其中該組配器係適用於基於組配資訊而組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一第一比具有一第一比值時，該可組配降頻取樣因數係等於一第一降頻取樣值，及其中該組配器係適用於組配該信號處理器，使得當該第二可組配樣本數目對該第一可組配樣本數目之一不同第二比具有一不同第二比值時，該可組配降頻取樣因數係等於一不同第二降頻取樣值，及其中該第一或第二比值係非為整數值。
如申請專利範圍第16項之裝置，其中該組配器係適用於組配該信號處理器使得當該第二可組配樣本數目對該第一可組配樣本數目之該第一比係小於該第二可組配樣本數目對該第一可組配樣本數目之該第二比時，該第一降頻取樣值係小於該不同第二降頻取樣值。
一種用以處理一音訊信號之方法，其係包含：組配一可組配降頻取樣因數，接收具有該音訊信號之一第一可組配樣本數目之一第一音訊信號框，及藉該可組配降頻取樣因數降頻取樣該音訊信號來獲得一已處理音訊信號，及係適用於輸出具有該已處理音訊信號之一第二可組配樣本數目之一第二音訊框；及其中該可組配降頻取樣因數係基於組配資訊而經組配使得當該第二可組配樣本數目對該第一可組配樣本數目之一第一比具有一第一比值時該可組配降頻取樣因數係等於一第一降頻取樣值，及其中該可組配降頻取樣因數係經組配使得當該第二可組配樣本數目對該第一可組配樣本數目之一不同第二比具有一不同第二比值時，該可組配降頻取樣因數係等於一不同第二降頻取樣值，及其中該第一或第二比值係非為整數值。
一種電腦程式，當該電腦程式係藉一電腦或處理器執行時係用以執行如申請專利範圍第15或18項之方法。