TWI588818B

TWI588818B - 使用零輸入響應以獲得平滑移轉的音訊解碼器、方法及電腦程式

Info

Publication number: TWI588818B
Application number: TW104123861A
Authority: TW
Inventors: 艾曼紐拉斐里; 古拉米福契斯; 薩斯洽迪斯曲; 馬庫斯穆爾特斯; 葛里構茲皮特札克; 班傑明休伯特
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2014-07-28
Filing date: 2015-07-23
Publication date: 2017-06-21
Also published as: US20200160874A1; JP2022174077A; EP2980797A1; US10325611B2; PT3175453T; CN106663442B; AU2015295588A1; SG11201700616WA; BR112017001143A2; KR101999774B1; ES2690256T3; US11922961B2; CN106663442A; AR101288A1; US20240046941A1; JP2019194711A; JP7128151B2; US20220076685A1; MX360729B; TW201618085A

Description

使用零輸入響應以獲得平滑移轉的音訊解碼器、方法及電腦程式

發明領域

根據本發明的一實施例係關於一種用於基於經編碼音訊資訊提供經解碼音訊資訊的音訊解碼器。

根據本發明的另一實施例係關於一種用於基於經編碼音訊資訊提供經解碼音訊資訊的方法。

根據本發明之另一實施例係關於一種用於執行該方法的電腦程式。

大體而言，根據本發明之實施例係關於處置在切換音訊寫碼中自CELP編解碼器至基於MDCT之編解碼器的移轉。

發明背景

近年來，對於傳輸及儲存經編碼音訊資訊已有提高需求。對於包含語音及一般音訊(如(例如)音樂、背景、雜訊及類似者)的音訊信號之音訊編碼及音訊解碼亦存在提高需求。

為了改良寫碼品質且亦為了改良位元速率效率，已引入經切換(或切換)音訊編解碼器，其在不同寫碼方案之間切換，使得(例如)使用第一編碼概念(例如，基於CELP的寫碼概念)來編碼第一訊框，且使得使用不同的第二寫碼概念(例如，基於MDCT的寫碼概念)來編碼隨後的第二音訊訊框。換言之，可存在在線性預測寫碼域中的編碼(例如，使用基於CELP的寫碼概念)與在頻域中的寫碼(例如，如同(例如)FFT變換、反向FFT變換、MDCT變換或反向MDCT變換的基於時域至頻域變換或頻域至時域變換的寫碼)之間的切換。舉例來說，第一寫碼概念可為基於CELP的寫碼概念、基於ACELP的寫碼概念、基於變換寫碼激勵線性預測域(transform-coded-excitation-linear-prediction-domain)的寫碼概念或類似者。第二寫碼概念可(例如)為基於FFT的寫碼概念、基於MDCT的寫碼概念、基於AAC的寫碼概念或可視為基於AAC的寫碼概念之後置概念的寫碼概念。

在下文中，將描述習知音訊寫碼器(編碼器及/或解碼器)之一些實例。

切換音訊編解碼器(如(例如)MPEG USAC)係基於兩個主音訊寫碼方案。一個寫碼方案為(例如)針對語音信號的CELP編解碼器。另一寫碼方案為(例如)針對全部其他音訊信號(例如，音樂、背景雜訊)的基於MDCT的編解碼器(下文簡稱為MDCT)。對於混合內容信號(例如，音樂內之語音)，編碼器(及因此解碼器亦)常常在兩個編碼方案之間切換。則需要在自一個模式(或編碼方案)切換至另一模式時避免任何偽訊(例如，歸因於不連續之點選)。

切換音訊編解碼器可(例如)包含由CELP至MDCT移轉引起的問題。

CELP至MDCT移轉大體上引入兩個問題。混疊可歸因於遺失先前MDCT訊框而引入。歸因於在低/中等位元速率下操作的兩個寫碼方案之不完美的波形寫碼本質，可在CELP訊框與MDCT訊框之間的邊界處引入不連續。

已存在解決由CELP至MDCT移轉引入的問題的若干方法，且將在下文論述該等方法。

在Jeremie Lecomte、Philippe Gournay、Ralf Geiger、Bruno Bessette及Max Neuendorf的文章「Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding」(呈現於第126期AES Convention,2009年5月，第771卷)中描述一種可能的方法。本文章在4.4.2章「ACELP to non-LPD mode」中描述一種方法。亦參考(例如)該文章之圖8。首先藉由增加MDCT長度(此處為自1024至1152)以使得MDCT左摺疊點在CELP訊框與MDCT訊框之間的邊界左邊移動，隨後藉由改變MDCT視窗之左部分以使得減少重疊，及最後藉由使用CELP信號及重疊與添加操作人工引入遺失混疊來解決混疊問題。藉由重疊與添加操作同時解決該不連續問題。

此方法起到良好作用，但具有在CELP解碼器中引入延遲的缺點，該延遲等於重疊長度(此處：128個樣本)。

另一方法描述於Bruno Bessette的日期為2014年5月13日且標題為「Forward time domain aliasing cancellation with application in weighted or original signal domain」的US 8,725,503 B2中。

在此方法中，未改變MDCT長度(亦不改變MDCT視窗形狀)。在此藉由使用單獨的基於變換的編碼器編碼混疊修正信號來解決混疊問題。將額外旁側資訊位元發送至位元串流中。該解碼器重建構混疊修正信號且將其添加至經解碼MDCT訊框。另外，CELP合成濾波器之零輸入響應(ZIR)用於降低混疊修正信號之振幅及改良寫碼效率。

ZIR亦有助於顯著減少不連續問題。

此方法亦起到良好作用，但缺點在於其需要大量額外旁側資訊且所需位元之數目大體上為不適合於恆定位元速率編解碼器的變數。

另一方法描述於Stephane Ragot、Balazs Kovesi及Pierre Berthet的日期為2013年10月31日及標題為「Low-delay sound-encoding alternating between predictive encoding and transform encoding」的美國專利申請案US 2013/0289981 A1中。根據該方法，MDCT不改變，但MDCT視窗之左部分改變以便降低重疊長度。為解決混疊問題，使用CELP編解碼器對MDCT訊框之開始進行寫碼，且隨後該CELP信號用於藉由完全替換MDCT信號抑或藉由人工引入遺失混疊分量取消混疊(類似於上文所提及的Jeremie Lecomte等人的文章)。當使用類似於Jeremie Lecomte等人之文章的方法時藉由重疊添加操作解決不連續問題，否則藉由CELP信號與MDCT信號之間的簡單交叉淡化操作來解決。

類似於US 8,725,503 B2，此方法大體上起到良好作用，但缺點在於其需要藉由額外CELP引入的大量旁側資訊。

鑒於上文所描述習知解決方案，需要具有包含用於在不同寫碼模式之間切換的改良特性(例如，在位元速率額外負荷、延遲及複雜度之間的改良取捨)的概念。

發明概要

根據本發明的一實施例產生一種用於基於經編碼音訊資訊提供經解碼音訊資訊的音訊解碼器。該音訊解碼器包含：線性預測域解碼器，其經組態以基於在線性預測域中經編碼之音訊訊框提供第一經解碼音訊資訊；及頻域解碼器，其經組態以基於在頻域中經編碼之音訊訊框提供第二經解碼音訊資訊。音訊解碼器亦包含移轉處理器。移轉處理器經組態以獲得線性預測濾波之零輸入響應，其中取決於第一經解碼音訊資訊及第二經解碼音訊資訊來界定線性預測濾波之初始狀態。移轉處理器亦經組態以取決於零輸入響應修改第二經解碼音訊資訊以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的一平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

此音訊解碼器係基於以下發現：可藉由使用線性預測濾波器之零輸入響應修改第二經解碼音訊資訊達成在線性預測域中經編碼之音訊訊框與在頻域中經編碼之隨後音訊訊框之間的平滑移轉，其條件為線性預測濾波之初始狀態考慮第一經解碼音訊資訊及第二經解碼音訊資訊兩者。因此，可調適(修改)第二經解碼音訊資訊，使得經修改第二經解碼音訊資訊之開始類似於第一經解碼音訊資訊之結束，其有助於減少或甚至避免第一音訊訊框與第二音訊訊框之間的實質不連續。在相較於上文所描述的音訊解碼器時，即使第二經解碼音訊資訊不包含任何混疊，概念亦為大體上可適用的。此外，應注意術語「線性預測濾波」可表示線性預測濾波器之單一應用程序及線性預測濾波器之多個應用程序兩者，其中應注意線性預測濾波之單一應用程序通常等效於同一線性預測濾波器之多個應用程序，因為線性預測濾波器通常為線性的。

得出結論，上文所提及音訊解碼器允許獲得在線性預測域中經編碼之第一音訊訊框與在頻域(或變換域)中經編碼之隨後第二音訊訊框之間的平滑移轉，其中不引入延遲，且其中計算工作量相對較小。

根據本發明的另一實施例產生一種用於基於經編碼音訊資訊提供經解碼音訊資訊的音訊解碼器。音訊解碼器包含線性預測域解碼器，其經組態以基於在線性預測域中(或，等效地在線性預測域表示中)經編碼之音訊訊框提供第一經解碼音訊資訊。音訊解碼器亦包含頻域解碼器，其經組態以基於在頻域中(或，等效地在頻域表示中)經編碼之音訊訊框提供第二經解碼音訊資訊。音訊解碼器亦包含移轉處理器。該移轉處理器經組態以響應於藉由第一經解碼音訊資訊界定的線性預測濾波器之第一初始狀態獲得線性預測濾波器之第一零輸入響應，且響應於藉由第一經解碼音訊資訊之經修改版本界定的線性預測濾波器之第二初始狀態獲得線性預測濾波器之第二零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。替代地，移轉處理器經組態以響應於藉由第一經解碼音訊資訊及第一經解碼音訊資訊之經修改版本的組合界定的線性預測濾波器之初始狀態獲得線性預測濾波器之組合零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。移轉處理器亦經組態以取決於第一零輸入響應及第二零輸入響應或取決於組合零輸入響應來修改第二經解碼音訊資訊，以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

根據本發明的本實施例係基於以下發現：可藉由基於為線性預測濾波器之零輸入響應的信號修改第二經解碼音訊資訊獲得在線性預測域中經編碼之音訊訊框與在頻域中(或，大體而言，在變換域中)經編碼之隨後音訊訊框之間的平滑移轉，該線性預測濾波器之初始狀態藉由第一經解碼音訊資訊及第二經解碼音訊資訊兩者界定。該線性預測濾波器之輸出信號可用於調適第二經解碼音訊資訊(例如，緊跟在第一音訊訊框與第二音訊訊框之間的移轉之後的第二經解碼音訊資訊之初始部分)，使得第一經解碼音訊資訊(與在線性預測域中經編碼之音訊訊框相關聯)與經修改第二經解碼音訊資訊(與在頻域或中在變換域中經編碼之音訊訊框相關聯)之間存在平滑移轉而無需修正第一經解碼音訊資訊。

已發現，線性預測濾波器之零輸入響應十分適合於提供平滑移轉，因為線性預測濾波器之初始狀態係基於第一經解碼音訊資訊及第二經解碼音訊資訊兩者，其中第二經解碼音訊資訊中所包括之混疊藉由人工混疊來補償，將該人工混疊引入至第一經解碼音訊資訊之經修改版本中。

又，已發現，藉由基於第一零輸入響應及第二零輸入響應或取決於組合零輸入響應來修改第二經解碼音訊資訊，同時使第一經解碼音訊資訊不變，則不需要解碼延遲，因為第一零輸入響應及第二零輸入響應或組合零輸入響應極其良好地適於使在線性預測域中經編碼之音訊訊框與在頻域(或變換域)中經編碼之隨後音訊訊框之間的移轉平滑化而無需改變第一經解碼音訊資訊，此係因為第一零輸入響應及第二零輸入響應或組合零輸入響應修改第二經解碼音訊資訊，使得第二經解碼音訊資訊至少在線性預測域中經編碼之音訊訊框與頻域中經編碼之隨後音訊訊框之間的移轉方面實質上類似於第一經解碼音訊資訊。

得出結論，根據本發明的上文所描述實施例允許提供在線性預測寫碼域中經編碼之音訊訊框與在頻域(或變換域)中經編碼之隨後音訊訊框之間的平滑移轉，其中避免引入額外延遲，因為僅修改第二經解碼音訊資訊(與在頻域中經編碼之隨後音訊訊框相關聯)，且其中可藉由使用第一零輸入響應及第二零輸入響應或組合零輸入響應達成移轉之良好品質(無實質偽訊)，所述使用導致對第一經解碼音訊資訊及第二音訊資訊兩者的考慮。

在一較佳實施例中，頻域解碼器經組態以執行反向交疊變換，使得第二經解碼音訊資訊包含混疊。已發現，即使在頻域解碼器(或變換域解碼器)引入混疊的情況下，以上發明概念亦起到尤其良好的作用。已發現，可藉由在第一經解碼音訊資訊之經修改版本中提供人工混疊以適中工作量及良好結果取消該混疊。

在一較佳實施例中，頻域解碼器經組態以執行反向交疊變換，使得第二經解碼音訊資訊在一時間部分中包含混疊，該時間部分在時間上與線性預測域解碼器提供第一經解碼音訊資訊之時間部分重疊，且使得第二經解碼音訊資訊在一時間部分中無混疊，該時間部分在線性預測域解碼器提供第一經解碼音訊資訊的該時間部分之後。根據本發明的本實施例係基於以下想法：有利的是使用交疊變換(或反向交疊變換)及保持該時間部分無混疊的視窗化，在該時間部分中不提供第一經解碼音訊資訊。已發現，若需要，則可以小計算工作量提供第一零輸入響應及第二零輸入響應或組合零輸入響應，以在不提供第一經解碼音訊資訊一段時間中提供混疊消除資訊。換言之，較佳的是基於初始狀態提供第一零輸入響應及第二零輸入響應或組合零輸入響應，在該初始狀態中，實質上取消混疊(例如，使用人工混疊)。因此，第一零輸入響應及第二零輸入響應或組合零輸入響應實質上無混疊，使得希望在線性預測域解碼器提供第一經解碼音訊資訊的時段之後的時段中，第二經解碼音訊資訊內不具有混疊。關於此問題，應注意，通常在線性預測域解碼器提供第一經解碼音訊資訊的時段之後的該時段中提供第一零輸入響應及第二零輸入響應或組合零輸入響應，因為考慮到第二經解碼音訊資訊及通常考慮到在「重疊」時段中補償第二經解碼音訊資訊中所包括之混疊的人工混疊，第一零輸入響應及第二零輸入響應或組合零輸入響應實質上為第一經解碼音訊資訊之衰減接續。

在一較佳實施例中，第二經解碼音訊資訊的用於獲得第一經解碼音訊資訊之經修改版本的部分包含混疊。藉由允許第二經解碼音訊資訊內的某一混疊，可使視窗化保持簡單，且可避免編碼在頻域中經編碼之音訊訊框所需的資訊之過量增加。第二經解碼音訊資訊的用於獲得第一經解碼音訊資訊之經修改版本的部分中所包括的混疊可藉由上文所提及之人工混疊補償，使得音訊品質不存在嚴重降級。

在一較佳實施例中，用於獲得第一經解碼音訊資訊之經修改版本的人工混疊至少部分補償第二經解碼音訊資訊的用於獲得第一經解碼音訊資訊之經修改版本的部分中所包括的混疊。因此，可獲得良好音訊品質。

在一較佳實施例中，移轉處理器經組態以對第一經解碼音訊資訊應用第一視窗化，以獲得第一經解碼音訊資訊之經視窗化版本，且對第一經解碼音訊資訊之時間鏡像版本應用第二視窗化，以獲得第一經解碼音訊資訊之時間鏡像版本之經視窗化版本。在此情況下該移轉處理器可經組態以組合第一經解碼音訊資訊之經視窗化版本及第一經解碼音訊資訊之時間鏡像版本之經視窗化版本，以便獲得第一經解碼音訊資訊之經修改版本。根據本發明的本實施例係基於以下想法：應應用一些視窗化以便獲得第一經解碼音訊資訊之經修改版本中之混疊的適當消除，該混疊用作用於提供零輸入響應之輸入。因此，可達成零輸入響應(例如，第二零輸入響應或組合零輸入響應)極其良好地適合於在線性預測寫碼域中經編碼之音訊資訊與在頻域中經編碼之隨後音訊訊框之間的移轉之平滑化。

在一較佳實施例中，移轉處理器經組態以將第二經解碼音訊資訊與第一零輸入響應及第二零輸入響應或與組合零輸入響應線性地組合以用於不由該線性預測域解碼器提供第一經解碼音訊資訊的一時間部分，以便獲得經修改第二經解碼音訊資訊。已發現，簡單線性組合(例如，簡單相加及/或減除，或加權線性組合，或交叉衰減線性組合)良好適合於平滑移轉之提供。

在一較佳實施例中，移轉處理器經組態以在提供用於在線性預測域中經編碼之音訊訊框的經解碼音訊資訊時使第一經解碼音訊資訊不被第二經解碼音訊資訊改變，使得獨立於經提供用於在頻域中經編碼之隨後音訊訊框的經解碼音訊資訊而提供經提供用於在線性預測域中經編碼之音訊訊框的經解碼音訊資訊。已發現，根據本發明的概念不需要基於第二經解碼音訊資訊改變第一經解碼音訊資訊以便獲得足夠平滑的移轉。因此藉由使第一經解碼音訊資訊不被第二經解碼音訊資訊改變，可避免延遲，因為即使在完成第二經解碼音訊資訊(與在頻域中經編碼之隨後音訊訊框相關聯)之解碼之前，第一經解碼音訊資訊亦可因此經提供用於再現(例如，至收聽者)。相反，一旦第二經解碼音訊資訊可用，即可計算零輸入響應(第一及第二零輸入響應，或組合零輸入響應)。因此，可避免延遲。

在一較佳實施例中，音訊解碼器經組態以在解碼在該頻域中經編碼之音訊訊框之前(或在完成解碼之前)提供用於在線性預測域中經編碼之音訊訊框的完全經解碼音訊資訊，在該線性預測域中經編碼之該音訊訊框後為在頻域中經編碼之音訊訊框。歸因於未基於第二經解碼音訊資訊修改第一經解碼音訊資訊之事實，此概念係可能的且有助於避免任何延遲。

在一較佳實施例中，移轉處理器經組態以視窗化第一零輸入響應及第二零輸入響應或組合零輸入響應，隨後取決於經視窗化第一零輸入響應及經視窗化第二零輸入響應，或取決於經視窗化組合零輸入響應修改第二經解碼音訊資訊。因此，可使移轉尤其平滑。又，可避免將由極長零輸入響應導致的任何問題。

在一較佳實施例中，移轉處理器經組態以使用線性視窗視窗化第一零輸入響應及第二零輸入響應，或組合零輸入響應。已發現，使用線性視窗為簡單概念，但其仍然帶來良好聽覺印象。

根據本發明的一實施例產生一種用於基於經編碼音訊資訊提供經解碼音訊資訊的方法。該方法包含執行線性預測域解碼以基於在線性預測域中經編碼之音訊訊框提供第一經解碼音訊資訊。該方法亦包含執行頻域解碼以基於在頻域中經編碼之音訊訊框提供第二經解碼音訊資訊。該方法亦包含響應於藉由第一經解碼音訊資訊界定的線性預測濾波之第一初始狀態獲得線性預測濾波之第一零輸入響應，及響應於藉由第一經解碼音訊資訊之經修改版本界定的線性預測濾波之第二初始狀態獲得線性預測濾波之第二零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。替代地，該方法包含響應於藉由第一經解碼音訊資訊及第一經解碼音訊資訊之經修改版本的組合界定的線性預測濾波之初始狀態獲得線性預測濾波之組合零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。該方法進一步包含取決於第一零輸入響應及第二零輸入響應或取決於組合零輸入響應修改第二經解碼音訊資訊，以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。此方法係基於與上文所描述音訊解碼器類似的考慮因素且帶來相同優勢。

本發明之另一實施例產生一種電腦程式，其用於在該電腦程式於電腦上執行時執行該方法。

根據本發明的另一實施例產生一種用於基於經編碼音訊資訊提供經解碼音訊資訊的方法。該方法包含基於在線性預測域中經編碼之音訊訊框提供第一經解碼音訊資訊。該方法亦包含基於在頻域中經編碼之音訊訊框提供第二經解碼音訊資訊。該方法亦包含獲得線性預測濾波之零輸入響應，其中取決於第一經解碼音訊資訊及第二經解碼音訊資訊來界定線性預測濾波之初始狀態。該方法亦包含取決於零輸入響應修改第二經解碼音訊資訊以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

此方法係基於與上文所描述音訊解碼器相同的考慮因素。

根據本發明之另一實施例包含一種用於執行該方法的電腦程式。

100、200、300‧‧‧音訊解碼器

110、210、310‧‧‧經編碼音訊資訊

112、212、312‧‧‧經解碼音訊資訊

120、220、320‧‧‧線性預測域解碼器

122、222、322‧‧‧第一經解碼音訊資訊

130‧‧‧變換域解碼器

132、232、332‧‧‧第二經解碼音訊資訊

140、240、340‧‧‧移轉處理器

142、342‧‧‧經修改第二經解碼音訊資訊

144、242‧‧‧初始狀態判定

146‧‧‧初始狀態資訊

148、246、346‧‧‧線性預測濾波

150‧‧‧零輸入響應

152、258、350‧‧‧修改

230、330‧‧‧頻域解碼器

244‧‧‧第一初始狀態資訊

248‧‧‧第一零輸入響應

250、342‧‧‧修改/混疊相加/組合

252‧‧‧第二初始狀態資訊

254‧‧‧第二線性預測濾波

256‧‧‧第二零輸入響應

344‧‧‧組合初始狀態資訊

348‧‧‧組合零輸入響應

410、430、710、720、730、810、820、830‧‧‧橫座標

412、432、712、722、732、812、822、832‧‧‧縱座標

420、422、440‧‧‧視窗

442‧‧‧第一視窗斜率

444‧‧‧第二視窗斜率

900、1000‧‧‧方法

910、920、930、940、1010、1020、1030、1040、1050、1060‧‧‧步驟

隨後將參考所附圖式描述根據本發明的實施例，在該等圖式中：圖1展示根據本發明的實施例的音訊解碼器之示意方塊圖；圖2展示根據本發明之另一實施例的音訊解碼器之示意方塊圖；圖3展示根據本發明之另一實施例的音訊解碼器之示意方塊圖；圖4a展示在自MDCT編碼音訊訊框至另一MDCT編碼音訊訊框的移轉處的視窗之示意性表示；圖4b展示用於自CELP編碼音訊訊框至MDCT編碼音訊訊框之移轉的視窗之示意性表示；圖5a、圖5b及圖5c展示習知音訊解碼器中之音訊信號之圖形表示；圖6a、圖6b、圖6c及圖6d展示習知音訊解碼器中之音訊信號之圖形表示；圖7a展示基於先前CELP訊框及第一零輸入響應獲得的音訊信號之圖形表示；圖7b展示為先前CELP訊框及第二零輸入響應之第二版本的音訊信號之圖形表示；圖7c展示當自當前MDCT訊框之音訊信號減除第二零輸入響應時獲得的音訊信號之圖形表示；圖8a展示基於先前CELP訊框獲得的音訊信號之圖形表示；圖8b展示作為當前MDCT訊框之第二版本獲得的音訊信號之圖形表示；及圖8c展示為基於先前CELP訊框獲得的音訊信號與作為MDCT訊框之第二版本的音訊信號之組合的音訊信號之圖形表示；圖9展示根據本發明之實施例的用於提供經解碼音訊資訊的方法之流程圖；及圖10展示根據本發明之另一實施例的用於提供經解碼音訊資訊的方法之流程圖。

較佳實施例之詳細說明

根據圖1的音訊解碼器

圖1展示根據本發明之實施例的音訊解碼器100之示意方塊圖。音訊編碼器100經組態以接收經編碼音訊資訊110，其可(例如)包含在線性預測域中經編碼之第一訊框及在頻域中經編碼之隨後第二訊框。音訊解碼器100亦經組態以基於經編碼音訊資訊110提供經解碼音訊資訊112。

音訊解碼器100包含線性預測域解碼器120，其經組態以基於在線性預測域中經編碼之音訊訊框提供第一經解碼音訊資訊122。音訊解碼器100亦包含頻域解碼器(或變換域解碼器130)，其經組態以基於在頻域中(或在變換域中)經編碼之音訊訊框提供第二經解碼音訊資訊132。舉例而言，線性預測域解碼器120可為CELP解碼器、ACELP解碼器或基於激勵信號及基於線性預測濾波器特性(或濾波器係數)之經編碼表示執行線性預測濾波的類似解碼器。

頻域解碼器130可(例如)為AAC型解碼器或基於AAC型解碼之任何解碼器。舉例而言，頻域解碼器(或變換域解碼器)可接收頻域參數(或變換域參數)之經編碼表示及基於該表示提供第二經解碼音訊資訊。舉例而言，頻域解碼器130可解碼頻域係數(或變換域係數)，取決於比例因數按比例調整頻域係數(或變換域係數)(其中比例因數可提供用於不同頻帶，且可以不同形式表示)及執行頻域至時域轉化(或變換域至時域轉化)，如(例如)反向快速傅里葉變換或反向修改離散餘弦變換(反向MDCT)。

音訊解碼器100亦包含移轉處理器140。移轉處理器140經組態以獲得線性預測濾波之零輸入響應，其中取決於第一經解碼音訊資訊及第二經解碼音訊資訊來界定線性預測濾波之初始狀態。此外，移轉處理器140經組態以取決於零輸入響應修改第二經解碼音訊資訊132以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊132。

舉例而言，移轉處理器140可包含初始狀態判定144，其接收第一經解碼音訊資訊122及第二經解碼音訊資訊132且基於該資訊提供初始狀態資訊146。移轉處理器140亦包含線性預測濾波148，其接收初始狀態資訊146且基於該資訊提供零輸入響應150。舉例而言，線性預測濾波可由線性預測濾波器執行，該線性預測濾波器基於初始狀態資訊146經初始化且具備零輸入。因此，線性預測濾波提供零輸入響應150。移轉處理器140亦包含修改152，其取決於零輸入響應150修改第二經解碼音訊資訊132以藉此獲得經修改第二經解碼音訊資訊142，該經修改第二經解碼音訊資訊構成移轉處理器140之輸出資訊。經修改第二經解碼音訊資訊142通常與第一經解碼音訊資訊122串接以獲得經解碼音訊資訊112。

關於音訊解碼器100之功能性，應考慮以下情況：在線性預測域中經編碼之音訊訊框(第一音訊訊框)之後為在頻域中經編碼之音訊訊框(第二音訊訊框)。在線性預測域中經編碼之第一音訊訊框將由線性預測域解碼器120解碼。因此，獲得第一經解碼音訊資訊122，其與第一音訊訊框相關聯。然而，與第一音訊訊框相關聯的經解碼音訊資訊122通常保持不受基於第二音訊訊框經解碼之任何音訊資訊影響，該第二音訊訊框在頻域中經編碼。然而，由頻域解碼器130基於在頻域中經編碼之第二音訊訊框提供第二經解碼音訊資訊132。

令人遺憾的是，與第二音訊訊框相關聯的第二經解碼音訊資訊132通常不包含與關聯於第一經解碼音訊資訊的第一經解碼音訊資訊122的平滑移轉。

然而，應注意在亦與關聯於第一音訊訊框的時段重疊的時段中提供第二經解碼音訊資訊。藉由初始狀態判定144評估在第一音訊訊框之一段時間中提供的第二經解碼音訊資訊之部分(亦即第二經解碼音訊資訊132之初始部分)。此外，初始狀態判定144亦評估第一經解碼音訊資訊的至少一部分。因此，初始狀態判定144基於第一經解碼音訊資訊之一部分(該部分與第一音訊訊框之時間相關聯)及基於第二經解碼音訊資訊之一部分(第二經解碼音訊資訊130該部分亦與第一音訊訊框之該時間相關聯)來獲得初始狀態資訊146。因此，初始狀態資訊146取決於第一經解碼資訊132且亦取決於第二經解碼音訊資訊而提供。

應注意，一旦第二經解碼音訊資訊132(或初始狀態判定144所需的其至少一初始部分)可用，即可提供初始狀態資訊146。一旦初始狀態資訊146可用，即亦可執行線性預測濾波148，因為線性預測濾波使用已根據第一音訊訊框之解碼已知的濾波係數。因此，一旦第二經解碼音訊資訊132(或初始狀態判定144所需的其至少該初始部分)可用，即可提供零輸入響應150。此外，零輸入響應150可用於修改與第二音訊訊框之時間(而非第一音訊訊框之時間)相關聯的第二經解碼音訊資訊132的部分。因此，修改通常處於與第二音訊訊框相關聯的時間之開始的第二經解碼音訊資訊之部分。因此，達成第一經解碼音訊資訊122(其通常在與第一音訊訊框相關聯的時間末端結束)與經修改第二經解碼音訊資訊142之間的平滑移轉(其中較佳地捨棄具有與第一音訊訊框相關聯的時間的第二經解碼音訊資訊132之時間部分，且因此該時間部分較佳地僅用於提供用於線性預測濾波之初始狀態資訊)。因此，整體經解碼音訊資訊112可不具備延遲，此係因為未延遲第一經解碼音訊資訊122之提供(因為第一經解碼音訊資訊122獨立於第二經解碼音訊資訊132)，且因為一旦第二經解碼音訊資訊132可用，即可提供經修改第二經解碼音訊資訊142。因此，即使存在自在線性預測域中經編碼之音訊訊框(第一音訊訊框)朝向在頻域中經編碼之音訊訊框(第二音訊訊框)的切換，亦可在經解碼音訊資訊112內達成不同音訊訊框之間的平滑移轉。

然而，應注意，可藉由本文中所描述的特徵及功能性中的任一者補充音訊解碼器100。

根據圖2的音訊解碼器

圖2展示根據本發明之另一實施例的音訊解碼器之示意方塊圖。音訊解碼器200經組態以接收經編碼音訊資訊210，其可(例如)包含在線性預測域中(或等效地，在線性預測域表示中)經編碼之一或多個訊框，及在頻域中(或等效地，在變換域中，或等效地在頻域表示中，或等效地在變換域表示中)經編碼之一或多個音訊訊框。音訊解碼器200經組態以基於經編碼音訊資訊210提供經解碼音訊資訊212，其中經解碼音訊資訊212可(例如)處於時域表示中。

音訊解碼器200包含線性預測域解碼器220，其實質上等同於線性預測域解碼器120，使得上文之解釋適應。因此，線性預測域解碼器220接收包括在經編碼音訊資訊210中的在線性預測域表示中經編碼之音訊訊框，且基於在線性預測域表示中經編碼之音訊訊框提供第一經解碼音訊資訊222，其通常呈時域音訊表示的形式(且其通常對應於第一經解碼音訊資訊122)。音訊解碼器200亦包含實質上等同於頻率解碼器130的頻域解碼器230，使得以上解釋適用。因此，頻域解碼器230接收在頻域表示中(或在變換域表示中)經編碼之音訊訊框且基於該訊框提供通常呈時域表示形式的第二經解碼音訊資訊232。

音訊解碼器200亦包含移轉處理器240，其經組態以修改第二經解碼音訊資訊232以藉此推導經修改第二經解碼音訊資訊242。

移轉處理器240經組態以響應於藉由第一經解碼音訊資訊222界定的線性預測濾波器之初始狀態來獲得線性預測濾波器之第一零輸入響應。移轉處理器亦經組態以響應於藉由第一經解碼音訊資訊之經修改版本界定的線性預測濾波器之第二初始狀態來獲得線性預測濾波器之第二零輸入響應，該經修改版本具備人工混疊且該經修改版本包含第二經解碼音訊資訊232之一定份額的部分。舉例而言，移轉處理器240包含初始狀態判定242，其接收第一經解碼音訊資訊222且其基於該資訊提供第一初始狀態資訊244。舉例而言，第一初始狀態資訊244可僅反映第一經解碼音訊資訊222之一部分，例如鄰近與第一音訊訊框相關聯的時間部分之結束的部分。移轉處理器240還可包含(第一) 線性預測濾波246，其經組態以接收第一初始狀態資訊244作為初始線性預測濾波器狀態，且基於第一初始狀態資訊244提供第一零輸入響應248。移轉處理器240亦包含修改/混疊相加/組合250，其經組態以接收第一經解碼音訊資訊222或其至少一部分(例如，鄰近與第一音訊訊框相關聯的時間部分之結束的部分)，且亦接收第二經解碼資訊232或其至少一部分(例如，在時間上佈置在與第一音訊訊框相關聯的時間部分末端的第二經解碼音訊資訊232之時間部分，其中第二經解碼音訊資訊經提供(例如)主要以用於與第二音訊訊框相關聯的時間部分，而且在某種程度上，以用於與在線性預測域表示中經編碼的第一音訊訊框相關聯的時間部分之結束)。修改/混疊相加/組合可(例如)修改第一經解碼音訊資訊之時間部分，基於第一經解碼音訊資訊之時間部分添加人工混疊及亦添加第二經解碼音訊資訊之時間部分，以藉此獲得第二初始狀態資訊252。換言之，修改/混疊相加/組合可為第二初始狀態判定的部分。第二初始狀態資訊確定經組態以基於第二初始狀態資訊提供第二零輸入響應256的第二線性預測濾波254之初始狀態。

舉例而言，第一線性預測濾波及第二線性預測濾波可使用濾波器設定(例如，濾波器係數)，其由線性預測域解碼器220針對第一音訊訊框(其在線性預測域表示中經編碼)提供。換言之，第一線性預測濾波246及第二線性預測濾波254可執行亦由線性預測域解碼器220執行以獲得與第一音訊訊框相關聯的第一經解碼音訊資訊222的同一線性預測濾波。然而，第一線性預測濾波246及第二線性預測濾波254之初始狀態可設定為藉由第一初始狀態判定244及藉由第二初始狀態判定250(其包含修改/混疊相加/組合)判定之值。然而，可將線性預測濾波器246、254之輸入信號設定為零。因此，獲得第一零輸入響應248及第二零輸入響應256，使得第一零輸入響應及第二零輸入響應係基於第一經解碼音訊資訊及第二經解碼音訊資訊，且係使用線性預測域解碼器220所使用的同一線性預測濾波器形成的。

移轉處理器240亦包含修改258，其接收第二經編碼音訊資訊232及取決於第一零輸入響應248及取決於第二零輸入響應256修改第二經解碼音訊資訊232，以藉此獲得經修改第二經解碼音訊資訊242。舉例而言，修改258可將第一零輸入響應248添加至第二經解碼音訊資訊232及/或自第二經解碼音訊資訊232減除第一零輸入響應248，且可將第二零輸入響應256添加至第二經解碼音訊資訊或自第二經解碼音訊資訊減除第二零輸入響應256，以獲得經修改第二經解碼音訊資訊242。

舉例而言，可提供第一零輸入響應及第二零輸入響應以用於與第二音訊訊框相關聯的時段，使得僅修改與第二音訊訊框之時段相關聯的第二經解碼音訊資訊之部分。此外，可在最終提供經修改第二經解碼音訊資訊(基於零輸入回應)時捨棄與關聯於第一音訊訊框的時間部分相關聯的第二經解碼音訊資訊232之值。

此外，音訊解碼器200較佳地經組態以串接第一經解碼音訊資訊222及經修改第二經解碼音訊資訊242，以藉此獲得整體經解碼音訊資訊212。

關於音訊解碼器200之功能性，參考以上對音訊解碼器100之解釋。此外，將在下文參考其他圖式來描述額外細節。

根據圖3的音訊解碼器

圖3展示根據本發明之實施例的音訊解碼器300之示意方塊圖。音訊解碼器300類似於音訊解碼器200，使得將僅詳細地描述差異。否則，參考以上關於音訊解碼器200提出之解釋。

音訊解碼器300經組態以接收經編碼音訊資訊310，其可對應於經編碼音訊資訊210。此外，音訊解碼器300經組態以提供經解碼音訊資訊312，其可對應於經解碼音訊資訊212。

音訊解碼器300包含可對應於線性預測域解碼器220的線性預測域解碼器320及對應於頻域解碼器230的頻域解碼器330。線性預測域解碼器320(例如)基於在線性預測域中經編碼之第一音訊訊框提供第一經解碼音訊資訊322。此外，頻域音訊解碼器330(例如)基於在頻域中(或在變換域中)經編碼的第二音訊訊框(其在第一音訊訊框之後)提供第二經解碼音訊資訊332。第一經解碼音訊資訊322可對應於第一經解碼音訊資訊222，且第二經解碼音訊資訊332可對應於第二經解碼音訊資訊232。

音訊解碼器300亦包含移轉處理器340，其在其整體功能性方面可對應於移轉處理器340，且其可基於第二經解碼音訊資訊332提供經修改第二經解碼音訊資訊342。

移轉處理器340經組態以響應於藉由第一經解碼音訊資訊及第一經解碼音訊資訊之經修改版本的組合界定的線性預測濾波器之(組合)初始狀態獲得線性預測濾波器之組合零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。此外，移轉處理器經組態以取決於組合零輸入響應修改第二經解碼音訊資訊以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

舉例而言，移轉處理器340包含修改/混疊相加/組合342，其接收第一經解碼音訊資訊322及第二經解碼音訊資訊332且基於該等資訊提供組合初始狀態資訊344。舉例而言，修改/混疊相加/組合可被視為初始狀態判定。亦應注意，修改/混疊相加/組合342可執行初始狀態判定242及初始狀態判定250之功能性。組合初始狀態資訊344可(例如)，等於(或至少對應於)第一初始狀態資訊244及第二初始狀態資訊252之總和。因此，修改/混疊相加/組合342可(例如)將第一經解碼音訊資訊322之部分與人工混疊組合且亦將其與第二經解碼音訊資訊332之部分組合。此外，修改/混疊相加/組合342還可修改第一經解碼音訊資訊之部分及/或添加第一經解碼音訊資訊322之經視窗化複本，如下文將更詳細地描述。因此，獲得組合初始狀態資訊344。

移轉處理器340亦包含線性預測濾波346，其接收組合初始狀態資訊344及基於該資訊提供組合零輸入響應348至修改350。線性預測濾波346可(例如)執行實質上等同於由線性預測解碼器320執行以獲得第一經解碼音訊資訊322的線性預測濾波的線性預測濾波。然而，線性預測濾波346之初始狀態可由組合初始狀態資訊344判定。用於提供組合零輸入響應348之輸入信號可設定為零，使得線性預測濾波344基於組合初始狀態資訊344提供零輸入響應，(其中濾波參數或濾波係數(例如)等同於線性預測域解碼器320用於提供與第一音訊訊框相關聯的第一經解碼音訊資訊322的濾波參數或濾波係數。此外，組合零輸入響應348用於修改第二經解碼音訊資訊332，以藉此導出經修改第二經解碼音訊資訊342。舉例而言，修改350可添加組合零輸入響應348至第二經解碼音訊資訊332，或可自第二經解碼音訊資訊減除組合零輸入響應。

然而，對於進一步細節，參考對音訊解碼器100、200之解釋及亦參考以下詳細解釋。

移轉概念之論述

在下文中，將描述關於自CELP訊框至MDCT訊框之移轉的一些細節，其在音訊解碼器100、200、300中可適用。

又，將描述相較於習知概念的差異。

MDCT及視窗化概述

在根據本發明之實施例中，藉由增加MDCT長度(例如，用於在線性預測域中經編碼之音訊訊框之後的在MDCT域中經編碼之音訊訊框)。以使得左摺疊點(例如，基於MDCT係數集合使用反向MDCT變換重建構之時域音訊信號之摺疊點)在CELP訊框與MDCT訊框之間的邊界之左邊移動來為混疊問題。亦改變(例如，相較於「正常」MDCT視窗)MDCT視窗的左部分(例如，應用於基於MDCT係數集合使用反向MDCT變換重建構之時域音訊信號的視窗之左部分)，以使得減少重疊。

作為一實例，圖4a及圖4b展示不同視窗之圖形表示，其中圖4a展示用於自第一MDCT訊框(亦即在頻域中經編碼之第一音訊訊框)至另一MDCT訊框(亦即在頻域中經編碼之第二音訊訊框)的移轉的視窗。相反，圖4b展示用於自CELP訊框(亦即在線性預測域中經編碼之第一音訊訊框)至MDCT訊框(亦即在頻域中經編碼之隨後第二音訊訊框)的移轉的視窗。

換言之，圖4a展示可視為比較實例之音訊訊框序列。相反，圖4b展示一序列，其中第一音訊訊框在線性預測域中經編碼，且繼之以在頻域中經編碼之第二音訊訊框，其中藉由本發明的實施例以尤其有利的方式處置根據圖4b之情況。

現參考圖4a，應注意橫座標410以毫秒描述時間，且縱座標412以任意單位描述視窗之振幅(例如，視窗之標準化振幅)。如可見，訊框長度等於20ms，使得與第一音訊訊框相關聯的時段在t=-20ms及t=0之間擴展。與第二音訊訊框相關聯的時段自時間t=0擴展至t=20ms。然而，可見用於視窗化由反向修改離散餘弦變換基於經解碼MDCT係數提供的時域音訊樣本的第一視窗在時間t=-20ms及t=8.75ms之間擴展。因此，第一視窗420之長度比該訊框長度(20ms)長。因此，即使t=-20ms及t=0之間的時間與第一音訊訊框相關聯，亦即與第一音訊訊框之解碼在t=-20ms與t=8.75ms之間的時間提供時域音訊樣本。因此，基於第一經編碼音訊訊框提供之時域音訊樣本與基於第二經解碼音訊訊框提供之時域音訊樣本之間存在大約8.75ms之重疊。應注意，第二視窗由422表示且在時間t=0與t=28.75ms之間擴展。

此外，應注意，提供用於第一音訊訊框及提供用於第二音訊訊框之經視窗化時域音訊信號不為無混疊的。確切而言，提供用於第一音訊訊框之經視窗化(第二)經解碼音訊資訊包含在時間t=-20ms與t=-11.25ms之間且亦在時間t=0與t=8.75ms之間的混疊。類似地，提供用於第二音訊訊框之經視窗化經解碼音訊資訊包含在時間t=0與t=8.75ms之間且亦在時間t=20ms與t=28.75ms之間的混疊。然而，舉例而言，在時間t=0與t=8.75ms之間的時間部分中，提供用於第一音訊訊框之經解碼音訊資訊中所包括的混疊與提供用於隨後第二音訊訊框之經解碼音訊資訊中所包括的混疊抵消。

此外，應注意，對於視窗420及422，MDCT摺疊點之間的持續時間等於20ms，其等於訊框長度。

現參考圖4b，將描述不同情況，亦即可在音訊解碼器100、200、300中用於提供第二經解碼音訊資訊的用於自CELP訊框至MDCT訊框之移轉的視窗。在圖4b中，橫座標430以毫秒描述時間，且縱座標432以任意單位描述視窗之振幅。

如圖4b中可見，第一訊框在時間t₁=-20ms時間t₂=0ms之間擴展。因此，第一音訊訊框(其為CELP音訊訊框)之訊框長度為20ms。此外，第二隨後音訊訊框在時間t_2與t₃=20ms之間擴展。因此，第二音訊訊框(其為MDCT音訊訊框)之訊框長度亦為20ms。

在下文中，將描述關於視窗440的一些細節。

視窗440包含在時間t₄=-1.25ms與時間t₂=0ms之間擴展的第一視窗斜率442。第二視窗斜率444在時間t₃=20ms與時間t₅=28.75ms之間擴展。應注意，提供用於第二音訊訊框的(或與第二音訊訊框(相關聯的)(第二)經解碼音訊資訊的經修改離散餘弦變換在時間t_4與t₅之間提供時域樣本。然而，經修改離散餘弦變換(或，更精確地，反向修改離散餘弦變換)(若在頻域(例如MDCT域)中經編碼之音訊訊框處於在線性預測域中經編碼之音訊訊框之後，則其可用於頻域解碼器130、230、330中)基於第二音訊訊框之頻域表示提供時域樣本，包含用於t_4與t₂之間的時間及用於時間t_3與時間t₅之間的時間的混疊。相反，反向修改離散餘弦變換基於第二音訊訊框之頻域表示在時間t_2與t₃之間的時段中提供無混疊時域樣本。因此，第一視窗斜率442與包含某一混疊的時域音訊樣本相關聯，且第二視窗斜率444亦與包含某一混疊的時域音訊樣本相關聯。

又，應注意，對於第二音訊訊框，MDCT摺疊點之間的時間等於25ms，其暗示經編碼MDCT係數之數目在圖4b中所展示之情況下應大於圖4a中所展示之情況。

得出結論，音訊解碼器100、200、300可在第一音訊訊框及第一音訊訊框之後的第二音訊訊框兩者在頻域中(例如，在MDCT域中)經編碼的情況下應用視窗420、422(例如，用於頻域解碼器中反向修改離散餘弦變換之輸出之視窗化)。相反，音訊解碼器100、200、300可在第二音訊訊框在頻域中(例如，在MDCT域中)經編碼的情況下切換頻域解碼器之操作，該第二音訊訊框處於在線性預測域中經編碼之第一音訊訊框之後。舉例而言，若第二音訊訊框在MDCT域中經編碼且處於在CELP域中經編碼之先前第一音訊訊框之後，則可使用使用增加數目之MDCT係數的反向修改離散餘弦變換(其暗示，在相較於亦在頻域中經編碼之先前音訊訊框之後的經編碼音訊訊框之頻域表示時，在於線性預測域中經編碼之先前音訊訊框之後的音訊訊框之頻域表示中以經編碼形式包括增加數目之MDCT係數)。此外，在於頻域中經編碼之第二(當前)音訊訊框處於在線性預測域中經編碼之音訊訊框之後的情況下(在相較於第二(當前)音訊訊框處於亦在頻域中經編碼之先前音訊訊框之後的情況時)，不同的視窗(亦即視窗440)適用於視窗化反向修改離散餘弦變換之輸出(亦即，由反向修改離散餘弦變換提供之時域音訊表示)以獲得第二經解碼音訊資訊132。

進一步得出結論，在於頻域中經編碼之音訊訊框處於在線性預測域中經編碼之音訊訊框之後的情況下，頻域解碼器130可應用具有增加長度(在相較於正常情況時)之反向修改離散餘弦變換。此外，視窗440可用於此情況(而視窗420、422可用於「正常」情況，其中在頻域中經編碼之音訊訊框處於在頻域中經編碼之先前音訊域之後)。

關於本發明概念，應注意，未修改CELP信號以免引入任何額外延遲，如將在下文更詳細地展示。實情為，根據本發明的實施例產生用於移除可在CELP與MDCT訊框之間的邊界處引入的任何不連續的機構。此機構使用CELP合成濾波器(其(例如)由線性預測域解碼器使用)之零輸入響應將不連續平滑化。在下文中給出細節。

逐步描述-概述

在下文中，將提供簡短的逐步描述。隨後，將給出更多細節。

編碼器側

1.當先前訊框(有時亦用「第一訊框」表示)為CELP(或，大體而言，在線性預測域中經編碼)時，當前MDCT訊框(有時亦表示為「第二訊框」)(其可被視為在頻域中或在變換域中經編碼之訊框之實例)編碼有不同MDCT長度及不同MDCT視窗。舉例而言，在此情況下可使用視窗440(而非「正常」視窗422)。

2.增加MDCT長度(例如自20ms至25ms，參看圖4a及4b)，使得左摺疊點在CELP訊框與MDCT訊框之間的邊界之左邊處移動。舉例而言，可選擇MDCT長度(其可藉由MDCT係數之數目界定)，使得在相較於20ms的MDCT摺疊點之間的「正常」長度(如圖4a中所展示)時，MDCT摺疊點之(或之間的)長度等於25ms(如圖4b中所展示)。亦可見，MDCT變換之「左」摺疊點處於時間t₄與t₂之間(而非在時間t=0與t=8.75ms之間的中點)，此在圖4b中可見。然而，右MDCT摺疊點之位置可保持不變(例如，在時間t₃與t₅之間的中點)，此可根據圖4a與圖4b之(或，更精確地，視窗422與440之)比較可見。

3.改變MDCT視窗之左部分，使得減少重疊長度(例如自8.75ms至1.25ms)。舉例而言，在先前音訊訊框在線性預測域中經編碼的情況下，包含混疊之部分處於時間t₄=-1.25ms與t₂=0之間(亦即在開始於t=0處且結束於t=20ms處的與第二音訊訊框相關聯的時段之前)。相反，在前述音訊訊框在頻域中(例如，在MDCT域中)經編碼的情況下，包含混疊之信號部分處於時間t=0與t=8.75ms之間。

解碼器側

1.當先前訊框(亦表示為「第一音訊訊框」)為CELP(或，大體而言，在線性預測域中經編碼)時，當前MDCT訊框(亦表示為「第二音訊訊框」)(其可被視為在頻域中或在變換域中經編碼之訊框之實例)經解碼具有與用於編碼器側相同的MDCT長度及相同的MDCT視窗。換言之，將圖4b中所展示的視窗化應用於提供第二經解碼音訊資訊，且亦可應用上文所提及之關於反向修改離散餘弦變換之特性(其對應於在編碼器側處使用之經修改離散餘弦變換之特性)。

2.為了移除可出現在CELP訊框與MDCT訊框之間的邊界處(例如，在上文所提及的第一音訊訊框與第二音訊訊框之間的邊界處)的任何不連續，使用以下機構：

a)藉由使用CELP信號(例如，使用第一經解碼音訊資訊)及重疊與添加操作人工地引入MDCT信號之重疊部分(例如，由反向修改離散餘弦變換提供之時域音訊信號的時間t_4與t₂之間的信號部分)之遺失混疊來構造信號之第一部分。信號之第一部分之長度(例如)等於重疊長度(例如，1.25ms)。

b)藉由自信號之第一部分減除對應CELP信號(剛好位於(例如)第一音訊訊框與第二音訊訊框之間的訊框邊界之前的部分)來構造信號之第二部分。

c)藉由濾波零之訊框及使用信號之第二部分作為記憶體狀態(或作為初始狀態)來產生CELP合成濾波器之零輸入響應。

d)零輸入響應(例如)經視窗化，使得其在大量樣本(例如，64個樣本)之後減小為零。

e)將經視窗化零輸入響應添加至MDCT信號之開始部分(例如，起始於時間t₂=0處之音訊部分)。

逐步描述-解碼器功能性之詳細描述

在下文中，將更詳細地描述解碼器之功能性。

將應用以下標註：訊框長度標註為N，經解碼CELP信號標註為S _C(n)，經解碼MDCT信號(包括經視窗化重疊信號)標註為S _M(n)，用於視窗化MDCT信號之左部分的視窗為w(n)，以L表示視窗長度，且CELP合成濾波器標註為，其中且M為濾波器階數。

步驟1之詳細描述

在解碼器側步驟1(使用用於編碼器側之相同MDCT長度及相同MDCT視窗解碼當前MDCT訊框)之後，吾人獲得當前經解碼MDCT訊框(例如，構成上文所提及之第二經解碼音訊資訊之「第二音訊訊框」之時域表示。此訊框(例如，第二訊框)並不含有任何混疊，因為左摺疊點在CELP訊框與MDCT訊框之間的邊界之左邊處移動(例如，使用如參考圖4b詳細描述之概念)。此意味著吾人可以足夠高之位元速率在當前訊框(例如，在時間t₂=0與t₃=20ms之間)中獲得完美重建構。然而，在低位元速率下，信號不必匹配輸入信號，且因此可在CELP與MDCT之間的邊界處(例如，在時間t=0處，如圖4b中所展示)引入不連續。

為了促進理解，將參考圖5說明此問題。上部曲線(圖5a)展示經解碼CELP信號S _C(n)，中間曲線(圖5b)展示經解碼MDCT信號(包括經視窗化重疊信號)S _M(n)，且下部曲線(圖5c)展示藉由丟棄經視窗化重疊信號及串接CELP訊框及MDCT訊框獲得的輸出信號。在輸出信號中兩個訊框之間的邊界處(例如，在時間t=0處)明顯地存在不連續(圖 5c中所展示)。

進一步處理之比較實例

對此問題之一個可能解決方案為在上文提及之參考1(J.Lecomte等人之「Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding」)中提出之方法，其描述用於MPEG USAC中之概念。在下文中，將提供對該參考方法之簡要描述。

經解碼CELP信號之第二版本(n)首先經初始化為等於經解碼CELP信號 ,n=-N,...,-1

隨後將遺失混疊人工地引入重疊區域中 n=-L,...,-1

最後，使用重疊與添加操作獲得經解碼CELP信號之第二版本 ,n=-L,...,-1

如圖6a至圖6d中可見，此比較方法移除不連續(詳言之，參見圖6d)。此方法的問題在於其引入額外延遲(等於重疊長度)，因為在已解碼當前訊框之後修改了上一訊框。在一些應用中，如低延遲音訊寫碼，需要(或甚至要求)具有儘可能小的延遲。

處理步驟之詳細描述

與上文所提及之習知方法相反，本文中提出之移除不連續的方法並不具有任何額外延遲。其並不修改上一CELP訊框(亦表示為第一音訊訊框)，但實情為修改當前MDCT訊框(亦表示為在線性預測域中經編碼之第一音訊訊框之後的在頻域中經編碼之第二音訊訊框)。

步驟a)

在第一步驟中，如先前所描述計算上一ACELP訊框之「第二版本」(n)。舉例而言，可使用以下計算：經解碼CELP信號之第二版本(n)首先經初始化為等於經解碼CELP信號 ,n=-N,...,-1

隨後將遺失混疊人工地引入重疊區域中 n=-L,...,-1

然而，與參考1(J.Lecomte等人之「Efficient cross-fade windows for transitions between LPC-based and non-LPC-based audio coding」)相反，不由上一ACELP訊框之此版本替換上一經解碼ACELP信號，以便不引入任何額外延遲。如接下來之步驟中所描述，其僅用作用於修改當前MDCT訊框之中間信號。

換言之，初始狀態判定144、修改/混疊相加/組合250或修改/混疊相加/組合342可(例如)提供信號(n) 來作為初始狀態資訊146或組合初始狀態資訊344之份額，或作為第二初始狀態資訊252。因此，初始狀態判定144、修改/混疊相加/組合250或修改/混疊相加/組合342可(例如)對經解碼CELP信號S _C應用視窗化(與視窗值w(-n-1)w(-n-1)相乘)、添加用視窗化(w(n+L)w(-n-1))按比例調整經解碼CELP信號(S _C(-n-L-1))之時間鏡像版本及添加經解碼MDCT信號S _M(n)，以藉此獲得初始狀態資訊146、344之一份額或甚至以獲得第二初始狀態資訊252。

步驟b)

該概念亦包含藉由使用CELP合成濾波器之兩個不同記憶體(亦表示為初始狀態)計算CELP合成濾波器(其可大體上被視為線性預測濾波器)之零輸入響應(ZIR)來產生兩個信號。

藉由將先前經解碼CELP信號S _C(n)用作用於CELP合成濾波器之記憶體來產生第一ZIR (n)。

,n=-L,...,-1

,n=0,...,N-1

其中M L

藉由將先前經解碼CELP信號之第二版本(n)用作用於CELP合成濾波器之記憶體來產生第二ZIR (n)。

,n=-L,...,-1

,n=0,...,N-1

其中M L

應注意，可分別地計算第一零輸入響應及第二零輸入響應，其中第一零輸入響應可基於第一經解碼音訊資訊(例如，使用初始狀態判定242及線性預測濾波246)來獲得，且其中第二零輸入響應可(例如)使用可取決於第一經解碼音訊資訊222及第二經解碼音訊資訊232且亦使用第二線性預測濾波254提供「上一CELP訊框(n)之第二版本」的修改/混疊相加/組合250來計算。然而，替代地，可應用單一CELP合成濾波。舉例而言，可應用線性預測濾波148、346，其中(n)及(n)之總和用作該(組合)線性預測濾波之輸入。

此係因為線性預測濾波為線性操作，使得可在濾波之前抑或在濾波之後執行組合而不改變結果。然而，取決於該跡象，(n)與(n)之間的差異亦可用作(組合)線性預測濾波之初始狀態(其中n=-L,...,-1)。

得出結論，第一初始狀態資訊(n)(n=-L,...,-1)及第二初始狀態資訊(n)(n=-L,...,-1)可個別地抑或以組合方式獲得。又，第一及第二零輸入回應可藉由個別初始狀態資訊之個別線性預測濾波抑或使用(組合)線性預測濾波基於組合初始狀態資訊來獲得。

如將在下文中詳細解釋的圖7之曲線圖中所展示，S _C(n)及(n)連續，(n)及(n)連續。此外，由於(n)及S _M(n)亦連續，S _M(n)-(n)為自非常接近0之值開始的信號。

現參考圖7，將解釋一些細節。

圖7a展示先前CELP訊框及第一零輸入響應之圖形表示。橫座標710以毫秒描述時間，且縱座標712以任意單位描述振幅。

舉例而言，提供用於先前CELP訊框(亦表示為第一音訊訊框)之音訊信號展示於時間t₇₁與t₇₂之間。舉例而言，信號S _C(n)(其中n<0)可展示於時間t₇₁與t₇₂之間。此外，第一零輸入響應可展示於時間t₇₂與t₇₃之間。舉例而言，第一零輸入響應(n)可展示於時間t₇₂與t₇₃之間。

圖7b展示先前CELP訊框之第二版本及第二零輸入響應之圖形表示。用720表示橫座標，且橫座標以毫秒展示時間。用722表示縱座標，且縱座標以任意單位展示振幅。先前CELP訊框之第二版本展示於時間t₇₁(-20ms)與t₇₂(0ms)之間，且第二零輸入響應展示於時間t₇₂與t₇₃(+20ms)之間。舉例而言，信號(n)(n<0)可展示於時間t₇₁與t₇₂之間。舉例而言，信號(n)(其中n0)可展示於時間t₇₂與t₇₃之間。

此外，S _M(n)與(n)之間的差異展示於圖7c中，其中橫座標730以毫秒表示時間，且其中縱座標732以任意單位表示振幅。

此外，應注意，第一零輸入響應(n)(其中n0)為信號S _C(n)(其中n<0)之(實質上)穩定的接續。類似地，第二零輸入響應(n)(其中n0)為信號(n)(其中n<0)之實質上實質上)穩定的接續。

步驟c)

當前MDCT信號(例如，第二經解碼音訊資訊132、232、332)由當前MDCT之(亦即，與當前第二音訊訊框相關聯的MDCT信號之)第二版本142、242、342替換。

隨後直接展示S _C(n)及(n)為連續的：S _C(n)及(n)為連續的，S _M(n)-(n)自非常接近0之值開始。

舉例而言，(n)可取決於第二經解碼音訊資訊132、232、323及取決於第一零輸入響應(n)及第二零輸入響應(n)(例如如圖2中所展示)或取決於組合零輸入響應(例如，組合零輸入響應(n)-(n)、150、348)藉由修改152、258、350來判定。如圖8之曲線圖中可見，所提出之方法移除不連續。

舉例而言，圖8a展示(例如，第一經解碼音訊資訊之)用於先前CELP訊框之信號之圖形表示，其中橫座標810以毫秒描述時間，且其中縱座標812以任意單位描述振幅。如可見，於時間t₈₁(-20ms)與t₈₂(0ms)之間提供(例如，藉由線性預測域解碼)第一經解碼音訊資訊。

此外，如圖8b中可見，即使通常起始於時間t₄而提供第二經解碼音訊資訊132、232、332(如圖4b中所展示)，仍僅自時間t₈₂(0ms)起始提供當前MDCT訊框之第二版本(例如，經修改第二經解碼音訊資訊142、242、342)。應注意，時間t₄與t₂之間提供之第二經解碼音訊資訊132、232、332(如圖4b中所展示)並非直接用於提供當前MDCT 訊框之第二版本(信號(n))，而是僅用於提供信號分量(n)。為清楚起見，應注意，橫座標820以毫秒表示時間，且縱座標822依據任意單位表示振幅。

圖8c展示先前CELP訊框(如圖8a中所展示)及當前MDCT訊框之第二版本(如圖8b中所展示)之串接。橫座標830以毫秒描述時間，且縱座標832依據任意單位描述振幅。如可見，先前CELP訊框(在時間t₈₁與t₈₂之間與當前MDCT訊框之第二版本(起始於時間t₈₂處且結束於(例如)時間t₅處，如圖4b中所展示)之間存在實質上連續移轉。因此，避免在自第一訊框(其在線性預測域中經編碼)至第二訊框(其在頻域中經編碼)之移轉處的聲訊失真。

亦直接展示在高速率下達成完美的重建構：在高速率下，S_C(n)及(n)極其類似且兩者均極其類似於輸入信號，而且兩個ZIR極其類似，因此兩個ZIR之差異非常接近0，且最後(n)極其類似於S_M(n)並且兩者均極其類似於輸入信號。

步驟d)

視情況，可將視窗應用於兩個ZIR，以便不影響整個當前MDCT訊框。此(例如)可用於降低複雜度，或當ZIR並非在MDCT訊框末端接近0時可用。

視窗之一個實例為長度P之簡單線性視窗v(n) ,n=0,...,P-1

其中，例如P=64。

舉例而言，視窗可處理零輸入響應150、零輸入回應248、256或組合零輸入響應348。

根據圖9之方法

圖9展示用於基於經編碼音訊資訊提供經解碼音訊資訊的方法之流程圖。該方法900包含基於在線性預測域中經編碼之音訊訊框提供910第一經解碼音訊資訊。該方法900亦包含基於在頻域中經編碼之音訊訊框提供920第二經解碼音訊資訊。該方法900亦包含獲得930線性預測濾波之零輸入響應，其中取決於第一經解碼音訊資訊及第二經解碼音訊資訊來界定線性預測濾波之初始狀態。

該方法900亦包含取決於零輸入響應修改940第二經解碼音訊資訊以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

該方法900可藉由本文中亦關於音訊解碼器所描述的特徵及功能性中的任一者補充。

根據圖10之方法

圖10展示用於基於經編碼音訊資訊提供經解碼音訊資訊的方法1000之流程圖。T

該方法1000包含執行1010線性預測域解碼以基於在線性預測域中經編碼之音訊訊框提供第一經解碼音訊資訊。

該方法1000亦包含執行1020頻域解碼以基於在頻域中經編碼之音訊訊框提供第二經解碼音訊資訊。

該方法1000亦包含響應於藉由第一經解碼音訊資訊界定的線性預測濾波之第一初始狀態獲得1030線性預測濾波之第一零輸入響應，及響應於藉由第一經解碼音訊資訊之經修改版本界定的線性預測濾波之第二初始狀態獲得1040線性預測濾波之第二零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。

替代地，該方法1000包含響應於藉由第一經解碼音訊資訊及第一經解碼音訊資訊之經修改版本的組合界定的線性預測濾波之初始狀態獲得1050線性預測濾波之組合零輸入響應，該經修改版本具備人工混疊，且該經修改版本包含第二經解碼音訊資訊之一定份額的部分。

該方法1000亦包含取決於第一零輸入響應及第二零輸入響應或取決於組合零輸入響應修改1060第二經解碼音訊資訊以獲得第一經解碼音訊資訊與經修改第二經解碼音訊資訊之間的平滑移轉，基於在線性預測域中經編碼之音訊訊框之後的在頻域中經編碼之音訊訊框提供該第二經解碼音訊資訊。

應注意，方法1000可藉由本文中亦關於音訊解碼器所描述的特徵及功能性中的任一者補充。

結論

得出結論，根據本發明之實施例係關於CELP至MDCT移轉。所述移轉大體上引入兩個問題： 1.歸因於遺失先前MDCT訊框之混疊；及2.歸因於在低/媒體位元速率下操作的兩個寫碼方案之不完美的波形寫碼本質的在CELP訊框與MDCT訊框之間的邊界處的不連續。

在根據本發明之實施例中，藉由增加MDCT長度使得左摺疊點在CELP訊框與MDCT訊框之間的邊界之左邊處移動來解決混疊問題。亦改變MDCT視窗之左部分，使得減少重疊。與習知解決方案相反，不修改CELP信號以免引入任何額外延遲。實情為，產生一機構來移除可在CELP訊框與MDCT訊框之間的邊界處引入的任何不連續。此機構使用CELP合成濾波器之零輸入響應將不連續平滑化。本文中描述額外細節。

實施替代方案

儘管已在裝置之上下文中描述一些態樣，但顯而易見，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(類似於(例如)微處理器、可程式化電腦或電子電路)執行方法步驟中之一些或所有。在一些實施例中，可由此裝置執行最重要之方法步驟中之某一者或多者。

本發明經編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。

取決於某些實施要求，本發明之實施例可在硬體或軟體中實施。實施可使用數位儲存媒體來執行，該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該媒體上儲存有電子可讀控制信號，該電子可讀控制信號與可程式化電腦系統協作(或能夠協作)，使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，其能夠與可程式化電腦系統協作，使得執行本文中所描述之方法中的一者。

大體而言，本發明之實施例可實施為具有程式碼之電腦程式產品，當電腦程式產品執行於電腦上時，程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上、用於執行本文中所描述之方法中的一者的電腦程式。

換言之，因此，本發明方法之實施例為具有當電腦程式執行於電腦上時，用於執行本文中所描述之方法中的一者的程式碼的電腦程式。

因此，本發明方法之另一實施例為資料載體(或數位儲存媒體，或電腦可讀媒體)，該資料載體包含記錄於其上的用於執行本文中所描述之方法中的一者之電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非瞬變的。

因此，本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者的電腦程式之資料串流或信號序列。資料流或信號序列可(例如)經組態以經由資料通信連接(例如，經由網際網路)而傳送。

另一實施例包含處理構件，例如，經組態以或經調適以執行本文中所描述之方法中的一者的電腦或可程式化邏輯器件。

另一實施例包含電腦，其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。

根據本發明之另一實施例包含經組態以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如，用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可程式化邏輯器件(例如，場可程式化閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中，場可程化閘陣列可與微處理器合作，以便執行本文中所描述之方法中的一者。大體而言，較佳地由任何硬體裝置執行該等方法。

本文中所描述之裝置可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施。

本文中所描述之方法可使用硬體裝置或使用電腦或使用硬體裝置與電腦的組合來執行。

上文所描述之實施例僅說明本發明之原理。應理解，對本文中所描述之配置及細節的修改及變化將對熟習此項技術者顯而易見。因此，其僅意欲由接下來之申請專利範圍之範疇限制，而非由藉助於本文中實施例之描述及解釋所呈現的特定細節限制。

100‧‧‧音訊解碼器

110‧‧‧經編碼音訊資訊

112‧‧‧經解碼音訊資訊

120‧‧‧線性預測域解碼器

122‧‧‧第一經解碼音訊資訊

130‧‧‧變換域解碼器

132‧‧‧第二經解碼音訊資訊

140‧‧‧移轉處理器

142‧‧‧經修改第二經解碼音訊資訊

144‧‧‧初始狀態判定

146‧‧‧初始狀態資訊

148‧‧‧線性預測濾波

150‧‧‧零輸入響應

152‧‧‧修改

Claims

一種用以基於經編碼音訊資訊提供經解碼音訊資訊的音訊解碼器，該音訊解碼器包含：一線性預測域解碼器，其經組態以基於在一線性預測域中經編碼之一音訊訊框提供一第一經解碼音訊資訊(S_C(n))；一頻域解碼器，其經組態以基於在一頻域中經編碼之一音訊訊框提供一第二經解碼音訊資訊(S_M(n))；及一移轉處理器，其中該移轉處理器經組態以獲得一線性預測濾波之一零輸入響應，其中該線性預測濾波之一初始狀態係取決於該第一經解碼音訊資訊及該第二經解碼音訊資訊而被界定，且其中該移轉處理器亦經組態以取決於該零輸入響應修改該第二經解碼音訊資訊(S_M(n))以獲得該第一經解碼音訊資訊(S_C(n))與該經修改第二經解碼音訊資訊((n))之間的一平滑移轉，而其中該第二經解碼音訊資訊係基於在該線性預測域中經編碼的一音訊訊框之後的在該頻域中經編碼的一音訊訊框來提供。
如請求項1之音訊解碼器，其中該移轉處理器經組態以響應於由該第一經解碼音訊資訊(S_C(n))界定的一線性預測濾波器之一第一初始狀態(S_C(n))獲得該線性預測濾波器之一第一零輸入響應((n))，且其中該移轉處理器經組態以響應於藉由該第一經解碼音訊資訊(S_C(n))之一經修改版本((n))界定的該線性預測濾波器之一第二初始狀態獲得該線性預測濾波器之一第二零輸入響應((n))，該經修改版本具備一人工混疊，且該經修改版本包含該第二經解碼音訊資訊(S_M(n))之一定份額的一部分，或其中該移轉處理器經組態以響應於藉由該第一經解碼音訊資訊(S_C(n))及該第一經解碼音訊資訊(S_C(n))之一經修改版本((n))的一組合界定的該線性預測濾波器之一初始狀態來獲得該線性預測濾波器之一組合零輸入響應，該經修改版本具備一人工混疊，且該經修改版本包含該第二經解碼音訊資訊(S_M(n))之一定份額的一部分；其中該移轉處理器經組態以取決於該第一零輸入響應((n))及該第二零輸入響應((n))或取決於該組合零輸入響應((n)-(n))修改該第二經解碼音訊資訊(S_M(n))以獲得該第一經解碼音訊資訊(S_C(n))與該經修改第二經解碼音訊資訊((n))之間的一平滑移轉，而該第二經解碼音訊資訊係基於在該線性預測域中經編碼的一音訊訊框之後的在該頻域中經編碼的一音訊訊框來提供。
如請求項1之音訊解碼器，其中該頻域解碼器經組態以執行一反向交疊變換，使得該第二經解碼音訊資訊包含一混疊。
如請求項1之音訊解碼器，其中該頻域解碼器經組態以執行一反向交疊變換，使得該第二經解碼音訊資訊包含在一時間部分中的一混疊，該時間部分係在時間上與該線性預測域解碼器提供一第一經解碼音訊資訊的一時間部分重疊者；且使得該第二經解碼音訊資訊在一時間部分中無混疊，此時間部分係在該線性預測域解碼器提供一第一經解碼音訊資訊的該時間部分之後。
如請求項1之音訊解碼器，其中該第二經解碼音訊資訊的用於獲得該第一經解碼音訊資訊之該經修改版本((n))的該部分包含一混疊。
如請求項5之音訊解碼器，其中用於獲得該第一經解碼音訊資訊之該經修改版本((n))的該人工混疊至少部分補償該第二經解碼音訊資訊的用於獲得該第一經解碼音訊資訊之該經修改版本的該部分中包括的一混疊。
如請求項1之音訊解碼器，其中該移轉處理器經組態以根據,n=0,...,N-1或根據,n=0,...,N-1獲得該第一零輸入響應(n)或該組合零輸入響應之一第一分量(n)，其中 M L 其中n表示一時間索引，其中n=0、...、N-1的(n)表示針對時間索引n的該第一零輸入響應或針對時間索引n的該組合零輸入響應之一第一分量；其中n=-L、...、-1的(n)表示針對時間索引n的該第一初始狀態或針對時間索引n的該初始狀態之一第一分量；其中m表示一執行變量，其中M表示該線性預測濾波器之一濾波器長度；其中a_m表示該線性預測濾波器之濾波器係數；其中S_c(n)表示針對時間索引n的該第一經解碼音訊資訊之一先前經解碼值；其中N表示一處理長度。
如請求項1之音訊解碼器，其中該移轉處理器經組態以對該第一經解碼音訊資訊(S_C(n))應用一第一視窗化((w(-n-1)w(-n-1))以獲得該第一經解碼音訊資訊之一經視窗化版本，及對該第一經解碼音訊資訊(S_C(n))之一時間鏡像版本(S_C(-n-L-1)應用一第二視窗化(w(n+L)w(-n-1)，以獲得該第一經解碼音訊資訊之該時間鏡像版本之一經視窗化版本，且其中該移轉處理器經組態以組合該第一經解碼音訊資訊之該經視窗化版本及該第一經解碼音訊資訊之該時間鏡像版本之該經視窗化版本，以便獲得該第一經解碼音訊資訊之該經修改版本((n))。
如請求項1之音訊解碼器，其中該移轉處理器經組態以根據下式獲得該第一經解碼音訊資訊S_C(n)之該經修改版本(n)： n=-L,...,-1，其中N表示一時間索引，其中w(-n-1)表示針對時間索引(-n-1)的一視窗函數之一值；其中w(n+L)表示針對時間索引(n+L)的一視窗函數之一值；其中S_c(n)表示針對時間索引n的該第一經解碼音訊資訊之一先前經解碼值；其中S_c(-n-L-1)表示針對時間索引(-n-L-1)的該第一經解碼音訊資訊之一先前經解碼值；其中S_M(n)表示針對時間索引n的該第二經解碼音訊資訊之一經解碼值；及其中L描述一視窗之一長度。
如請求項1之音訊解碼器，其中該移轉處理器經組態以根據,n=0,...,N-1或根據,n=0,...,N-1獲得該第二零輸入響應((n))或該組合零輸入響應之一第二分量(n)，其中 M L其中n表示一時間索引，其中n=0、...、N-1的(n)表示針對時間索引n的該第二零輸入響應或針對時間索引n的該組合零輸入響應之一第二分量；其中n=-L、...、-1的(n)表示針對時間索引n的該第二初始狀態或針對時間索引n的該初始狀態之一第二分量；其中m表示一執行變量，其中M表示該線性預測濾波器之濾波器長度；其中a_m表示該線性預測濾波器之濾波器係數；其中(n)表示針對時間索引n的該第一經解碼音訊資訊之該經修改版本之值；其中N表示一處理長度。
如請求項1之音訊解碼器，其中該移轉處理器經組態以針對不由該線性預測域解碼器提供第一經解碼音訊資訊的一時間部分，將該第二經解碼音訊資訊與該第一零輸入響應及該第二零輸入響應、或與該組合零輸入響應線性地組合，以便獲得該經修改第二經解碼音訊資訊。
如請求項1之音訊解碼器，其中該移轉處理器經組態以根據n=0、...、N-1的或根據n=0、...、N-1的獲得該經修改第二經解碼音訊資訊(n)，其中：其中n表示一時間索引；其中S_M(n)表示針對時間索引n的該第二經解碼音訊資訊之值；其中n=0、...、N-1的(n)表示針對時間索引n的該第一零輸入響應或針對時間索引n的該組合零輸入響應之一第一分量；及其中n=0、...、N-1的(n)表示針對時間索引n的該第二零輸入響應或針對時間索引n的該組合零輸入響應之一第二分量；其中v(n)表示一視窗函數之值；其中N表示一處理長度。
如請求項1之音訊解碼器，其中該移轉處理器經組態以在提供用於在一線性預測域中經編碼之一音訊訊框的一經解碼音訊資訊時使該第一經解碼音訊資訊不被該第二經解碼音訊資訊改變，使得針對在該線性預測域中經編碼之一音訊訊框提供的該經解碼音訊資訊，係獨立於針對在該頻域中經編碼之一隨後音訊訊框提供的經解碼音訊資訊來提供。
如請求項1之音訊解碼器，其中該音訊解碼器經組態以在解碼在該頻域中經編碼之一音訊訊框之前提供用於在該線性預測域中經編碼之一音訊訊框的一完全經解碼音訊資訊，而其中在該頻域中經編碼之該音訊訊框係位於在該線性預測域中經編碼之該音訊訊框之後。
如請求項1之音訊解碼器，其中該移轉處理器經組態以視窗化該第一零輸入響應及該第二零輸入響應或該組合零輸入響應，隨後才取決於該經視窗化第一零輸入響應及該經視窗化第二零輸入響應或取決於該經視窗化組合零輸入響應來修改該第二經解碼音訊資訊。
如請求項15之音訊解碼器，其中該移轉處理器經組態以使用一線性視窗來視窗化該第一零輸入響應及該第二零輸入響應或該組合零輸入響應。
一種用以基於經編碼音訊資訊提供經解碼音訊資訊的方法，該方法包含：基於在一線性預測域中經編碼之一音訊訊框提供一第一經解碼音訊資訊(S_C(n))；基於在一頻域中經編碼之一音訊訊框提供一第二經解碼音訊資訊(S_M(n))；及獲得一線性預測濾波之一零輸入響應，其中取決於該第一經解碼音訊資訊及該第二經解碼音訊資訊來界定該線性預測濾波之一初始狀態，及取決於該零輸入響應修改該第二經解碼音訊資訊(S_M(n))以獲得該第一經解碼音訊資訊(S_C(n))與經修改第二經解碼音訊資訊(((n))之間的一平滑移轉，而其中該第二經解碼音訊資訊係基於在該線性預測域中經編碼之一音訊訊框之後的在該頻域中經編碼之一音訊訊框來提供。
一種電腦程式，該電腦程式用於在該電腦程式於一電腦上執行時執行如請求項17之方法。