TWI463484B

TWI463484B - 時間扭曲致動信號提供器、音訊信號編碼器、用以提供時間扭曲致動信號之方法、用以編碼音訊信號之方法及電腦程式

Info

Publication number: TWI463484B
Application number: TW098123433A
Authority: TW
Inventors: Stefan Bayer; Sascha Disch; Ralf Geiger; Guillaume Fuchs; Max Neuendorf; Gerald Schuller; Bernd Edler
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-07-11
Filing date: 2009-07-10
Publication date: 2014-12-01
Also published as: KR20130093671A; CA2836871A1; JP5567192B2; EP2410520B1; KR101400588B1; HK1182212A1; US9015041B2; EP2410521B1; AR097965A2; HK1155551A1; PT2410521T; US9263057B2; US20150066490A1; US9502049B2; KR101400535B1; US9466313B2; JP2013242599A; JP2014002404A; US20150066491A1; PL2410521T3

Description

時間扭曲致動信號提供器、音訊信號編碼器、用以提供時間扭曲致動信號之方法、用以編碼音訊信號之方法及電腦程式

本發明係有關於音訊編碼及解碼，且特別針對具有一諧波或語音內容的音訊信號之編碼/解碼，該諧波或語音內容可受到一時間扭曲處理。

在下文中，將給出時間扭曲音訊編碼之領域的一簡要說明，該編碼之概念可連同本發明一些實施例被應用。

近年來，技術上的發展可將一音訊信號變換為一頻域表示，且例如考慮到感知遮蔽臨界值，有效地編碼該頻域表示。如果一組編碼頻譜係數被發送的塊長度很長，且如果僅相當小數目的頻譜係數遠在該整體遮蔽臨界值之上，同時一很大數目的頻譜係數在該整體遮蔽臨界附近或之下且可能因此被忽略(或以最小碼長被編碼)時，此一音訊信號編碼之概念特別有效。

例如，基於餘弦或基於正弦的調處重疊變換通常由於它們的能量集中性質被用於源編碼之應用。即，對於帶有恒定基本頻率(音距)的諧音而言，它們將信號能量集中於一小數目的頻譜成份(子頻帶)，這產生一有效的信號表示。

大體而言，一信號的(基本)音距應被理解成可與該信號頻譜區別的最低主頻率。在普通語音模型中，該音距是由人喉調處的激勵信號之頻率。如果僅一個單一基本頻率存在，該頻譜將極其簡單，僅包含該基本頻率及泛音。此一頻譜可被高效地編碼。然而，對於具有變化音距的信號，對應每一諧波成份的能量分佈於數個變換係數，因此導致編碼效率的降低。

為了克服編碼效率的降低，要被編碼的音訊信號在一不均勻時間網格上被有效地重新取樣。在隨後的處理中，由不均勻重新取樣獲得的取樣位置如同它們表示一均勻時間網格上之值一般地被處理。該操作由詞組「時間扭曲」表示。取樣時間可依據該音距的時間變化被有利地選擇，使得該音訊信號的時間扭曲版本中的一音距變化小於該音訊信號的原始版本(時間扭曲前)中的一音距變化。該音距變化也可用詞組「時間扭曲輪廓」表示。在該音訊信號的時間扭曲之後，該音訊信號的時間扭曲版本被轉換為頻域。該依賴於音距的時間扭曲具有如下效果：該時間扭曲音訊信號之頻域表示典型地顯示一能量集中成遠小於該原始音訊信號(未被時間扭曲)之一頻域表示的頻譜成份數目。

在解碼器端，該時間扭曲音訊信號的頻域表示被轉換回時域，使得該時間扭曲音訊信號的一時域表示可在該解碼器端得到。然而，在解碼器端重建時間扭曲音訊信號的時域表示中，該編碼器端輸入音訊信號的原始音距變化不包括在內。因此，藉由重新取樣時間扭曲音訊信號之解碼器端重建時域表示的另一時間扭曲被施用。為了獲得該解碼器處的編碼器端輸入音訊信號的一良好重建，需要該解碼器端時間扭曲為至少近似對編碼器端時間扭曲的反操作。為了獲得一合適的時間扭曲，需要有一可在解碼器處取得、允許調整該解碼器端時間扭曲的一資訊。

因為典型地需要將此一資訊從該音訊信號編碼器傳送至該音訊信號解碼器，需要保持該傳送所需的位元率小，同時仍允許所需之時間扭曲資訊在解碼器端可靠重建。

鑑於上述討論，希望能建立一概念，該概念允許一音訊編碼器中時間扭曲概念的一位元率有效應用。

本發明之一目的是建立概念，基於可在一時間扭曲音訊信號編碼器或一時間扭曲音訊信號解碼器中利用之資訊改進由一編碼音訊信號所提供的聽覺印象。

此目的藉由以下被實現：一依據申請專利範圍第1項的一時間扭曲致動信號提供器，基於一音訊信號之表示提供一時間扭曲致動信號；一依據申請專利範圍第12項用於編碼一輸入音訊信號的音訊信號編碼器；一依據申請專利範圍第14項用於提供一時間扭曲致動信號的方法；一依據申請專利範圍第15項用於提供一輸入音訊信號之一編碼表示的方法；或一依據申請專利範圍第16項的電腦程式。

本發明之另一目的是提供一改進的音訊編碼/解碼方案，該方案提供一較高的品質或一較低的位元率。

此目的由以下被實現：一依據申請專利範圍第17項、第26項、第32項、第37項的音訊編碼器、一依據申請專利範圍第20項的音訊解碼器、一依據申請專利範圍第23項、第30項、第35項或第37項的音訊編碼方法、一依據申請專利範圍第24項的解碼方法，或一依據申請專利範圍第25項、第31項、第36項或第43項的電腦程式。

依據本發明之諸實施例係有關於一時間扭曲MDCT變換編碼器之方法。一些實施例係有關於僅編碼器工具。然而，其他實施例也有關於解碼器工具。

本發明之一實施例建立一時間扭曲致動信號提供器，基於一音訊信號的一表示提供一時間扭曲致動信號。該時間扭曲致動信號提供器包含一能量集中資訊提供器，被設定組態以提供一能量集中資訊，該資訊描述該音訊信號之一時間扭曲變換頻譜表示中的一能量集中。該時間致動信號提供器也包含一比較器，被設定組態以將該能量集中資訊與一參考值相比較，且依據該比較之結果提供該時間扭曲致動信號。

該實施例基於如下發現：如果該音訊信號的時間扭曲變換頻譜表示由於能量被集中於一個或多個頻譜區域(或頻譜線)而包含一充分集中的能量分佈，那麼從該編碼音訊信號的位元率降低的意義上來說，一音訊信號編碼器中一時間扭曲功能性的使用典型地帶來一改進。這是由於如下之事實：一成功的時間扭曲藉由將一模糊頻譜，例如一音訊框之模糊頻譜變換為具有一個或多個可辨別波峰，且因此具有比原始(未時間扭曲)音訊信號頻譜較高的能量集中頻譜，而帶來減少位元率的效果。

關於此問題，應理解一音訊信號之音距顯著地變化的音訊信號框包含一模糊頻譜。該音訊信號之時間變化音距具有如下效果：在該音訊信號框上被執行的一時域到頻域變換導致該信號能量在頻域，特定地在較高頻域上的一模糊分佈。因此，此一原始(未時間扭曲)音訊信號之一頻譜表示包含一低能量集中，且典型地在該頻譜的一較高頻率部份未顯示頻譜波峰，或僅在頻譜中較高頻率部份顯示相當小的頻譜波峰。相比之下，如果時間扭曲成功(就提供該編碼效率的一改進而言)，該原始音訊信號之時間扭曲產生具有一相對較高且清晰波峰之頻譜(尤其在該頻譜之較高頻譜部份中)的一時間扭曲音訊信號。這是由於以下事實：具有一時間變化音距的一音訊信號被變換為具有一較小音距變化或甚至一近似恒定音距的一時間扭曲音訊信號。因此，該時間扭曲音訊信號之頻譜表示(其可被看做該音訊信號的一時間扭曲變換頻譜表示)包含一個或多個清晰頻譜波峰。換句話說，該原始音訊信號(具有在時間上變化的音距)頻譜的模糊藉由一成功的時間扭曲操作被降低，使得該音訊信號之時間扭曲變換頻譜表示包含比原始音訊信號之頻譜較高的能量集中。然而，時間扭曲在改進編碼效率中並不總是成功。例如，如果輸入音訊信號包含很多的雜訊成份，或如果所擷取的時間扭曲輪廓不精確，那麼時間扭曲未改進編碼效率。

鑑於此一情況，由能量集中資訊提供器提供的能量集中資訊就減少位元率而言是判定該時間扭曲是否成功的一有價值指標。

本發明之一實施例建立一時間扭曲致動信號提供器，基於一音訊信號之一表示提供一時間扭曲致動信號。該時間扭曲致動提供器包含兩個時間扭曲表示提供器，被設定組態以使用不同的時間扭曲輪廓資訊提供該相同音訊信號的兩個時間扭曲表示。因此，該等時間扭曲表示提供器可以相同的方式被設定組態(在結構上或功能上)，且使用相同音訊信號但是不同的時間扭曲輪廓資訊。該時間扭曲致動信號提供器也包含兩個能量集中資訊提供器，被設定組態以基於該第一時間扭曲表示提供一第一能量集中資訊，且基於該第二時間扭曲表示提供一第二能量集中資訊。該等能量集中資訊提供器可以相同方式被設定組態以使用不同的時間扭曲表示。另外，該時間扭曲致動信號提供器包含一比較器，將兩個不同能量集中資訊進行比較，且提供相關於一比較結果的時間扭曲致動信號。

在一較佳實施例中，該能量集中資訊提供器被設定組態以提供頻譜平坦度的一量度作為該能量集中資訊，該量度描述該音訊信號之時間扭曲變換頻譜表示。已發現如果時間扭曲將一輸入音訊信號變換為表示該輸入音訊信號的一時間扭曲版本的一較不平坦的時間扭曲頻譜時，就減少一位元率而言，時間扭曲是成功的。因此，頻譜平坦度之量度可被用以判定時間扭曲應被致動還是停用，而不需執行一全頻譜編碼處理。

在一較佳實施例中，該能量集中資訊提供器被設定組態以計算該時間扭曲變換功率頻譜的一幾何平均與該時間扭曲變換功率頻譜的一算術平均之商，以獲得該頻譜平坦度之量度。已發現該商是非常適於描述由一時間扭曲可獲得的可能位元率節約之頻譜平坦度的一量度。

在另一較佳實施例中，該能量集中資訊提供器被設定組態以當與時間扭曲變換頻譜表示的一較低頻率部份相比時，強調時間扭曲變換頻譜表示的一較高頻率部份，以獲得該能量集中資訊。該概念基於如下發現：該時間扭曲在較高頻率範圍上典型地比在較低頻率範圍上具有更大的影響。因此，為使用一頻譜平坦度量測判定時間扭曲之有效性而主要評估該較高頻率範圍是適當的。另外，典型的音訊信號顯示一諧波內容(包含一基本頻率之諧波)，其隨頻率之增加在強度上衰減。當與該時間扭曲變換頻譜表示的一較低頻率部份相比時，強調該時間扭曲變換頻譜表示的一較高頻譜部份也有助於補償該等頻譜線隨頻率增加的此一典型衰減。總而言之，該頻譜之較高頻率部份之被強調的考慮帶來能量集中資訊的一增加可靠性，且因此允許更可靠地提供該時間扭曲致動信號。

在另一較佳實施例中，該能量集中資訊提供器被設定組態以提供頻譜平坦度之複數分頻段量度，且計算頻譜平坦度的複數分頻段量度的一平均，以獲得該能量集中資訊。已發現分頻段頻譜平坦度量度之考慮帶來一有關該時間扭曲是否可有效降低一編碼音訊信號位元率的特別可靠資訊。首先，該時間扭曲變換頻譜表示之編碼典型地以一分頻段方式被執行，使得頻譜平坦度之該等分頻段量度的一組合非常適於該編碼，且因此以良好精確度表示可獲得的位元率改進。另外，頻譜平坦度之量度的一分頻段計算實質上消除該能量集中資訊與一諧波分佈之相依性。例如，即使一較高頻帶包含一相對小的能量(小於較低頻帶之能量)，該較高頻帶可能仍然在感知上是相關的。然而，如果該頻譜平坦度量度不以一分頻段方式被計算，在該較高頻帶上的一時間扭曲之積極影響(從該等頻譜線之模糊的一降低的意義上說)可能僅因該較高頻帶上的能量小而被看成是微小的。相比之下，藉由施用該分頻段計算，該時間扭曲的一積極影響可以一適當的權重被考慮到，因為該等分頻段頻譜平坦度量度獨立於各自頻帶中的絕對能量之外。

在另一較佳實施例中，該時間扭曲致動信號提供器包含一參考值計算器，被設定組態以計算頻譜平坦度之一量度，以獲得該參考值，該量度描述該音訊信號的一未時間扭曲的頻譜表示。因此，該時間扭曲致動信號可基於該輸入音訊信號的一未時間扭曲(或「未扭曲的」)版本之頻譜平坦度與該輸入音訊信號的一時間扭曲版本的一頻譜平坦度之比較而被提供。

在另一較佳實施例中，該能量集中資訊提供器被設定組態以提供感知熵的一量度，作為該能量集中資訊，該量度描述該音訊信號之時間扭曲變換頻譜表示。此概念基於下述發現：該時間扭曲變換頻譜表示的感知熵是編碼該時間扭曲變換頻譜需要的位元數目(或一位元率)的一良好估計。因此，甚而由於如果使用時間扭曲一附加時間扭曲資訊必須被編碼，該時間扭曲變換頻譜表示的感知熵量度是位元率減少是否可藉由時間扭曲被預期的一良好量度。

在另一較佳實施例中，該能量集中資訊提供器被設定組態以提供一自動相關量度作為該能量集中資訊，該量度描述該音訊信號的一時間扭曲表示的一自動相關。該概念基於如下發現：該時間扭曲之效率(就減少位元率而言)可基於一時間扭曲(或一不均勻重新取樣)的時域信號被量度(或至少被估計)。已發現如果該時間扭曲時域信號包含一由自動相關量度反映相對高度的週期性，那麼時間扭曲是有效的週期性。相比之下，如果時間扭曲時域信號不包含一相當的週期性，可以推斷該時間扭曲無效。

該發現基於如下事實：一有效時間扭曲將一變化頻率(不包含一週期性)的一正弦信號的一部份變換為接近恒定頻率(包含一高度的週期性)的一正弦信號的一部份。相比之下，如果時間扭曲不能提供具有一高度週期性的時域信號，那麼可預期時間扭曲也不提供一可證明其施用可行的重要位元率節約。

在一較佳實施例中，該能量集中資訊提供器被設定組態以判定音訊信號之時間扭曲表示的一正規化自動相關函數的絕對值總和(對多個滯後值)，以獲得該能量集中資訊。已發現在估計該時間扭曲之效率上不需要一計算複雜的自動相關峰值判定。另外，已發現一(大)範圍的自動相關滯後值上的自動相關之一總評估也產生可靠的結果。這是由於如下事實：時間扭曲實際上將變化頻率的多個信號成份(例如，一基本頻率及其諧波)變換為週期信號成份。因此，此一時間扭曲信號的自動相關顯示多個自動相關滯後值的峰值。因此，一總和形式是從自動相關擷取能量集中資訊的一計算上高效率方式。

在另一較佳實施例中，該時間扭曲致動信號提供器包含一參考值計算器，被設定組態以基於該音訊信號的一未時間扭曲頻譜表示，或基於該音訊信號的一未時間扭曲時域表示，計算該參考值。在此一情況中，該比較器典型地被設定組態以使用能量集中資訊及該參考值形成一比值，該能量集中資訊描述該音訊信號的一時間扭曲變換頻譜的能量集中。該比較器也被設定組態以將該比值與一個或多個臨界值進行比較，以獲得該時間扭曲致動信號。已發現一未時間扭曲情況中的一能量集中資訊與在時間扭曲情況中的能量集中資訊之比允許一計算上高效率但仍充分可靠的時間扭曲致動信號產生。

本發明之另一較佳實施例建立一音訊信號編碼器用於編碼一輸入音訊信號，以獲得該輸入音訊信號的一編碼表示。該音訊信號編碼器包含一時間扭曲變壓器，被設定組態以基於該輸入音訊信號，提供一時間扭曲變換頻譜表示。該音訊信號編碼器也包含一時間扭曲致動信號提供器，如上所述。該時間扭曲致動信號提供器被設定組態以接收該輸入音訊信號，且提供該能量集中資訊，使得該能量集中資訊描述該輸入音訊信號的時間扭曲變換頻譜表示中之一能量集中。該音訊信號編碼器進一步包含一控制器，被設定組態以相關於該時間扭曲致動信號，向該時間扭曲變換器選擇性地提供一發現之非恒定(變化)時間扭曲輪廓部份或時間扭曲資訊，或一標準恒定(不變)時間扭曲輪廓部份或時間扭曲資訊。以此方法，選擇性地接收或拒絕由該輸入音訊信號的編碼音訊信號表示導出中的一發現非恒定時間扭曲輪廓部份是可能的。

該概念基於下述發現：將一時間扭曲資訊引入該輸入音訊信號的一編碼表示並不總是有效，因為編碼該時間扭曲資訊需要一相當可觀數目的位元被。另外，已發現由該時間扭曲致動信號提供器計算的能量集中資訊，是判定將該發現之變化(非恒定)時間扭曲估計部份抑或一標準(不變、恒定)時間扭曲輪廓提供至該時間扭曲變換器是否有利的一種計算上高效率量度。已注意到當該時間扭曲變換器包含一重疊變換時，一發現之時間扭曲輪廓部份可用在兩個或更多隨後的變換塊的計算中。特別地，已發現為能做出該時間扭曲是否允許位元率之一節約的判定並無必要使用新發現的變化時間扭曲輪廓部份完全編碼該輸入音訊信號的時間扭曲變換頻譜表示版本，及使用一標準(不變)時間扭曲輪廓部份完全編碼該輸入音訊信號的時間扭曲變換頻譜表示版本。已發現該輸入音訊信號的時間扭曲變換頻譜表示之能量集中的一評估形成該判定的一可靠基礎。因此，一必需的位元率可保持小。

在又一較佳實施例中，該音訊信號編碼器包含一輸出介面，被設定組態以相關於該時間扭曲致動信號，選擇性地包括一時間扭曲輪廓資訊，該資訊將一發現之變化時間扭曲輪廓表示成該音訊信號編碼的表示。因此，一高效之音訊信號編碼可被獲得，不管該輸入信號是否非常適合於時間扭曲。

依據本發明之另一實施例建立一種基於一音訊信號提供一時間扭曲致動信號的方法。該方法實現該時間扭曲致動信號提供器之功能，且可由本文中有關該時間扭曲致動信號提供器所描述的任何特徵及功能補充。

依據本發明之另一實施例建立一種用於編碼一輸入音訊信號，以獲得該輸入音訊信號的一編碼表示的方法。該方法可由本文中有關該音訊信號編碼器所描述的任何特徵及功能補充。

依據本發明之另一實施例建立一種用於執行本文所提到方法之電腦程式。

依據本發明之一第一層面，一種音訊信號分析，有關具有一諧波特性抑或一語音特性的之一音訊信號分析被有利地用於控制編碼器端及/或解碼器端之雜訊注入處理。該音訊信號分析在一時間扭曲功能被使用的系統中易於獲得，因為該時間扭曲功能上典型地包含一音距追蹤器及/或一信號分類器，用於區分語音與音樂，及/或區分有聲語音與無聲語音。因為該資訊可在此一場合中獲取而不需任何另外的成本，故可取用之資訊被有利地用於控制該雜訊注入特徵，使得尤其對於語音信號，諧波線之間的一雜訊注入可被降低，或特別是甚至消除語音信號間的雜訊注入。甚至在獲得一強諧波內容但是沒有被直接檢測到一語音的情況中，雜訊注入之降低仍然將產生一較高的感知品質。雖然該特徵在至少執行該諧波/語音分析被的系統中特別有用，且因此該一資訊的取用不需任何附加成，甚至當一指定信號分析器必須被插入該系統中時，控制基於一信號具有一諧波抑或語音特性之信號分析的雜訊注入方案也有效益，因為品質被增強而位元率沒有增加，或換言之位元率減少而品質沒有損失，因為當可從一編碼器被發送到一解碼器的雜訊注入位準本身被降低時，用於編碼該雜訊注入位準所需之位元被減少。

在本發明一進一步的層面中，該信號分析結果，即該信號是一諧波信號抑或一語音信號，被用於控制一音訊編碼器的視窗功能處理。已發現在一語音信號或一諧波信號開始的情況中，一簡單編碼器將從長視窗切換至短視窗的可能性是很高的。然而該等短視窗具有一對應地降低的頻譜解析度，另一方面，該頻率解析度將減少強諧波信號的編碼增益，且因此增加編碼此一信號部份所需的位元數目。鑑於此，當檢測到一語音或諧波信號開始時，本發明在此一層面界定使用長於一短視窗的視窗。或者，具有一大體相似於該等長視窗的長度但具有一較短重疊的視窗被選擇以有效地減少前回音。大體上，一音訊信號的時框具有一諧波抑或一語音特性的信號特性被用於選擇此一時框的一視窗功能。

依據本發明之一進一步的層面，TNS(時域雜訊修整)工具基於該基礎信號基於一時間扭曲操作抑或是在一線性域中而被控制。典型地，已藉由一時間扭曲操作處理的一信號將具有一強諧波內容。否則，與一時間扭曲級相關聯的一音距追蹤器不會輸出一有效音距輪廓，且在缺少此一有效音距輪廓時，一時間扭曲功能會對該音訊信號的時框被停用。然而，通常諧波信號將不適於接受TNS處理。當由TNS級處理的信號具有一相當平坦的頻譜時，TNS處理特別有用且產生位元率/品質上的一重要增益。然而，當該信號之外觀是音調的，即非平坦的，如同在具有一諧波內容或有聲內容之頻譜的情況中，由TNS工具提供的品質/位元率上增益將被減少。因此，不使用該TNS工具之發明改良，時間扭曲部份典型地不被TNS處理，但是會在不使用一TNS濾波下被處理。另一方面，TNS的雜訊修整特徵仍然提供一改進的品質，特別是該信號在振幅/功率上變化的情況中。在一諧波信號或語音信號之起始存在，及塊切換特徵被實施，使得長視窗或者至少長於短視窗的視窗、而非該起始被維持的情況中，該訊框的時域雜訊修整特徵之致動將導致圍繞該語音啟動之雜訊的一集中，這有效地減少前回音，該等前回音可能由於在一隨後的編碼器處理中之訊框量化而在語音開始之前發生。

依據本發明之另一層面，一可變數目之線在一音訊編碼設備中由一量化器/熵編碼器處理以計入該可變帶寬，該帶寬藉由以一可變時間扭曲特性/扭曲輪廓執行一時間扭曲操作而從訊框到訊框地被引入。當該時間扭曲操作導致包括在一時間扭曲訊框中的訊框時間(以線性)增加時，一單一頻率線之帶寬被減少，且，就一恒定總帶寬而言，要被處理的頻譜線數目將在一非時間扭曲情況增加。另一方面，當該時間扭曲操作導致在該時間扭曲域中音訊信號的實際時間相對於在線性域中的音訊信號塊長度被減少時，一單一頻率線的頻率帶寬被增加，且因此由一源編碼器處理的線數目必須相對一非時間扭曲情況被減少，以具有一減少的帶寬變化或，最好沒有帶寬變化。

圖式簡單說明

第1圖繪示依據本發明一實施例的一時間扭曲致動信號提供器的一方塊示意圖；第2a圖繪示依據本發明一實施例的一音訊信號編碼器的一方塊示意圖；第2b圖繪示依據本發明一實施例的一時間扭曲致動信號提供器的另一方塊示意圖；第3a圖繪示一音訊信號的一未時間扭曲版本的一頻譜之圖解表示；第3b圖繪示該音訊信號的一時間扭曲版本的一頻譜之圖解表示；第3c圖繪示針對不同頻帶的頻譜平坦度量度的一個別計算之圖解表示；第3d圖繪示僅考慮該頻譜之較高頻帶的一頻譜平坦度量度的一計算之圖解表示；第3e圖繪示使用一頻譜表示的一頻譜平坦度量度的一計算之圖解表示，在該頻譜表示中，一較高頻率部份在一較低頻率部份上被強調；第3f圖繪示依據本發明另一實施例的一能量集中資訊提供器的方塊示意圖；第3g圖繪示在該時域中具有一時間上可變音距的一音訊信號之圖解表示；第3h圖繪示第3g圖音訊信號的一時間扭曲(不均勻重新取樣的)版本之圖解表示；第3i圖繪示依據第3g圖的音訊信號的一自動相關函數之圖解表示；第3j圖繪示依據第3h圖的音訊信號的一自動相關函數的圖解表示；第3k圖繪示依據本發明另一實施例的一能量集中資訊提供器的方塊示意圖；第4a圖繪示一種用於基於一音訊信號提供一時間扭曲致動信號的方法的流程圖；第4b圖繪示依據本發明一實施例，一種用於編碼一輸入音訊信號，以獲得該輸入音訊信號的一編碼表示的方法的流程圖；第5a圖繪示具有發明之層面的一音訊編碼器的一較佳實施例；第5b圖繪示具有發明之層面的一音訊解碼器的一較佳實施例；第6a圖繪示本發明之雜訊注入層面的一較佳實施例；第6b圖繪示界定由該雜訊注入位準調處器執行的控制操作的一表格；第7a圖繪示依據本發明用於執行一基於時間扭曲的塊切換的較佳實施例；第7b圖繪示影響該視窗功能的一可供選擇的實施例；第7c圖繪示用於基於時間扭曲資訊說明該視窗功能的另一可供選擇的實施例；第7d圖繪示在一有聲啟動處的一正常AAC行為的一視窗順序；第7e圖繪示依據本發明之一較佳實施例獲得的可供選擇的視窗順序；第8a圖繪示TNS(時域雜訊整修)工具的一基於時間扭曲的控制的較佳實施例；第8b圖繪示界定第8a圖的臨界控制信號產生器中被執行的控制步驟的一表格；第9a-9e圖繪示不同的時間扭曲特性，及繼一解碼器端時間扭曲操作之後發生的相對應的音訊信號的帶寬上的影響；第10a圖繪示用於控制一編碼處理器中的線之數目的一控制器之一較佳實施例；第10b圖繪示要針對一取樣率被廢除/加入的線之數目之間的一依賴性；第11圖繪示一線性時間標度與一經扭曲時間標度之間的一比較；第12a圖繪示帶寬延伸在該內文中的一實施；及第12b圖繪示描繪在時間扭曲域中的局部取樣率與頻譜係數的控制之間的依賴性的一表格。

第1圖繪示依據本發明之一實施例的時間扭曲致動信號提供器的一方塊示意圖。該時間扭曲致動信號提供器100被設定組態以接收一音訊信號的一表示110，且基於該表示110，提供一時間扭曲致動信號112。時間扭曲致動信號提供器100包含一能量集中資訊提供器120，被設定組態以提供一能量集中資訊122，該資訊122描述該音訊信號的一時間扭曲變換頻譜表示的能量之一集中。時間扭曲致動信號提供器100進一步包含一比較器130，被設定組態以將能量集中資訊122與一參考值132作比較，以依據該比較之結果提供時間扭曲致動信號112。

如上所述，已發現能量集中資訊是允許一時間扭曲是否帶來一位元節約的計算上高效率評估的有價值的資訊。已發現一位元節約的存在與該時間扭曲是否導致一能量集中之問題密切相關。

第2a圖繪示依據本發明一實施例的一音訊信號編碼器200的方塊示意圖。音訊信號編碼器200被設定組態以接收一輸入音訊信號210(也以a(t)標明)，且基於該輸入音訊信號210提供其之編碼表示212。音訊信號編碼器200包含一時間扭曲變換器220，被設定組態以接收輸入音訊信號210(可在一時域中被表示)，且基於輸入音訊信號210提供其之一時間扭曲變換頻譜表示222。音訊信號編碼器200進一步包含一時間扭曲分析器284，被設定組態以分析輸入音訊信號 210，且基於其，提供一時間扭曲輪廓資訊286(例如絕對或相對時間扭曲輪廓資訊)。

音訊信號編碼器200進一步包含一切換機制，例如以一受控開關240的形式，以判定找出之時間扭曲輪廓資訊286抑或一標準時間扭曲輪廓資訊288被用於進一步的處理。因此，該切換機制240被設定組態以相關於一時間扭曲致動資訊，選擇性地將找出之時間扭曲輪廓資訊286或一標準時間扭曲輪廓資訊288作為一新時間扭曲輪廓資訊242，例如提供給時間扭曲變換器220用於一進一步的處理。應注意，時間扭曲變換器220例如可就一音訊訊框的時間扭曲使用新時間扭曲輪廓資訊242(例如一新時間扭曲輪廓部份)，且另外使用一先前獲得的時間扭曲資訊(例如一個或多個先前獲得的時間扭曲輪廓部份)。該可任選頻譜後處理例如可包含一時域雜訊整修及/或一雜訊注入分析。音訊信號編碼器200也包含一量化器/編碼器260，被設定組態以接收頻譜表示222(可選擇地由頻譜後處理250處理)，且量化及編碼該變換頻譜表示222。為此，量化器/編碼器260可與一感知模型270耦接，且從感知模型270接收一感知關聯資訊272，以考慮一感知遮蔽且依據人類感知以不同的頻率槽調整量化精確度。音訊信號編碼器200進一步包含一輸出介面280，被設定組態以基於由量化器/編碼器260提供的已量化且編碼頻譜表示262，提供該音訊信號的編碼表示212。

音訊信號編碼器200進一步包含一時間扭曲致動信號提供器230，被設定組態以提供一時間扭曲致動信號232。時間扭曲致動信號232例如可，被用於控制切換機制240，以判定新發現時間扭曲輪廓資訊286抑或一標準時間扭曲輪廓資訊288被用於進一步的處理步驟中(例如藉由時間扭曲轉換器220)。另外，時間扭曲致動資訊232可被用於一開關280中，以判定已選擇新時間扭曲輪廓資訊242(從新發現時間扭曲輪廓資訊286及標準時間扭曲輪廓資訊中選擇)是否被包括在輸入音訊信號210的編碼表示212中。典型地，如果已選擇時間扭曲輪廓資訊描述一非恒定(變化)時間扭曲輪廓，那麼時間扭曲輪廓資訊僅被包括在該音訊信號的編碼表示212中。同樣，時間扭曲致動資訊232其本身可包括在編碼表示212中，例如以指示該時間扭曲致動或停用的一個一位元旗標的形式。

為利於理解，應注意時間扭曲變換器220典型地包含一分析視窗器220a、一重新取樣器或「時間扭曲器」220b及一頻譜域變換器(或時間/頻率轉換器)220c。然而，視該實施而定，時間扭曲器220b可被放置於-以一信號處理方向-分析視窗器220a之前。然而，時間扭曲及時域到頻譜域變換在一些實施例中可被合併在一單一單元中。

在下文中，關於時間扭曲致動信號提供器230之操作的細節將被描述。應注意時間扭曲致動信號提供器230可等同於時間扭曲致動信號提供器100。

時間扭曲致動信號提供器230較佳地被設定組態以接收時域音訊信號表示210(也以a(t)標明)、新發現時間扭曲輪廓資訊286，及標準時間扭曲輪廓資訊288。時間扭曲致動信號提供器230也被設定組態以使用時域音訊信號210，獲得新發現時間扭曲輪廓資訊286及標準時間扭曲輪廓資訊288，描述由於新發現時間扭曲輪廓資訊286之一能量集中的一能量集中資訊，且基於該能量集中資訊提供時間扭曲致動信號232。

第2b圖繪示依據本發明之一實施例的一時間扭曲致動信號提供器234的方塊示意圖。時間扭曲致動信號提供器234可發揮一些實施例中的時間扭曲致動信號提供器230的作用。時間扭曲致動信號提供器234被設定組態以接收一輸入音訊信號210，及兩個時間扭曲輪廓資訊286與288，且基於其提供一時間扭曲致動信號234p。時間扭曲致動信號234p可發揮時間扭曲致動信號232的作用。時間扭曲致動信號提供器包含兩個相同時間扭曲表示提供器234a、234g，被設定組態以分別接收輸入音訊信號210及時間扭曲輪廓資訊286與288，且基於其分別提供兩個時間扭曲表示234e及234k。時間扭曲致動信號提供器234進一步包含兩個相同能量集中資訊提供器234f及234l，被設定組態以分別接收時間扭曲表示234e及234k，且基於其分別提供能量集中資訊234m及234n。時間扭曲致動信號提供器進一步包含一比較器2340，被設定組態以接收能量集中資訊234m及234n，且基於其提供時間扭曲致動信號234p。

為了利於理解，應注意時間扭曲表示提供器234a與234g典型地包含(可選)相同的分析視窗器234b及234h、相同的重新取樣器或時間扭曲器234c及234i，及(可選)相同的頻譜域變換器234d及234j。

在下文中，用於獲得能量集中資訊的不同概念將被討論。事先將做一介紹以說明一典型音訊信號上之時間扭曲效果。

在下文中，一音訊信號上時間扭曲之效果將參考第3a圖及第3b圖被描述。第3a圖繪示一音訊信號的一頻譜的圖解表示。一橫座標301描述一頻率，一縱座標302描述該音訊信號之強度。一弧線303以頻率f的一函數描述未時間扭曲音訊信號的強度。

第3b圖繪示第3a圖中表示的音訊信號的一時間扭曲版本的一頻譜之圖解表示。同樣，一橫座標306描述一頻率，一縱座標307描述該音訊信號之經扭曲版本之強度。一弧線308描述該音訊信號在頻率上的時間扭曲版本強度。從第3a圖與第3b圖的圖解表示的一比較可看出，該音訊信號的未時間扭曲(「未扭曲」)版本包含一模糊頻譜，特別在一較高頻域中。相比之下，該輸入音訊信號的時間扭曲版本包含具有清晰可區分頻譜波峰的一頻譜，甚至在較高頻域中。另外，該等頻譜波峰的一中等銳化甚至可在該輸入音訊信號的時間扭曲版本的較低頻譜域中被看到。

應注意第3b圖中所示的該輸入音訊信號的時間扭曲版本之頻譜可，例如由量化器/編碼器260以比第3a圖所示的未扭曲輸入音訊信號的頻譜較低的位元率被量化及編碼。這是由於如下事實：一模糊頻譜典型地包含一很大數目的感知相關頻譜係數(即一相對很小數目的被量化為零或被量化為很小值的頻譜係數)，同時如第3圖所示的一「較不平坦」頻譜典型地包含一較大數目被量化為零或被量化為很小值的頻譜係數。被量化為零或被量化為很小值的頻譜係數可以比被量化為較高值的頻譜係數較少的位元被編碼，使得第3b圖的頻譜可使用比第3a圖的頻譜較少的位元被編碼。

然而，也應注意到一時間扭曲的使用不總是產生該時間扭曲信號的編碼效率的一重要的改進。因此，在一些情況中，依據位元率，被需要用於該時間扭曲資訊(例如時間扭曲輪廓)之編碼的價格可能超出就位元率而言的節約，用於編碼時間扭曲變換頻譜(當較之於編碼未時間扭曲變換頻譜時)。在此情況中，較佳地，使用一標準(不變)時間扭曲輪廓提供該音訊信號之編碼表示，以控制該時間扭曲變換。因此，任何時間扭曲資訊(即時間扭曲輪廓資訊)之發送可被忽略(除指示該時間扭曲之停用的一旗標之外)，由此保持該位元率很低。

在下文中，用於一時間扭曲致動信號112、232、234p的一可靠且計算上高效率的計算之不同概念將參考第3c-3k圖被描述。然而，在這之前，所發明的概念之背景將被簡短概括。

基本假定是以一變化音距將時間扭曲施用於一諧波信號使該音距恒定，且使該音距恒定改進由一隨後的時間頻率變化獲得的頻譜之編碼，因為僅一有限數目的重要的線餘留(見第3b圖)，而不是數個頻譜容量上不同諧波之模糊 (見第3a圖)。然而，甚至當一音距變化被檢測到時，編碼增益上的改進(即所節約的位元之數量)可被忽略(例如，如果在諧波信號下有強雜訊，或如果該變化太小以至較高諧波之模糊沒有問題)，或可少於需要將時間扭曲輪廓發送至該解碼器的位元之數量，或可簡單地是錯的。在該等情況中，較佳地，拒絕由一時間扭曲輪廓編碼器產生的變化時間扭曲輪廓(例如286)，而相反使用一有效的一位元發信，發信一標準(不變)時間扭曲輪廓。

本發明之範圍包含一種判定一已獲得的時間扭曲輪廓部份是否提供足夠的編碼增益(例如足以補償時間扭曲輪廓編碼所需要成本的編碼增益)的方法之建立。

如上所述，時間扭曲之最重要的層面是一較少數目線的頻譜能量集中(見第3a圖及第3b圖)。它們繪示一能量集中也相對應於一較「不平」的頻譜(見第3a圖及第3b圖)，因為該頻譜之波峰與波谷之差被增加。該能量被集中於少數線上，該等線在具有比之前較少的能量的線之間。

第3a圖與第3b圖繪示具有強諧波及音距變化的一訊框的一未扭曲頻譜(第3a圖)與該相同訊框的時間扭曲版本的頻譜(第3b圖)的一示意性範例。

考慮到該情況，已發現將頻譜平坦度量度用作該時間扭曲效率的一可能的量度是有利的。

該頻譜平坦度可例如，由該功率頻譜之算術平均除功率頻譜之幾何平均被計算。例如，該頻譜平坦度(也以「平坦度」簡短地標明)可依據如下方程式被計算：

在上式中，x(n)表示一容量號碼n的大小。另外，在上式中，N表示該頻譜平坦度量度之計算考慮到的頻譜容量之總數目。

在本發明之一實施例中，可用作一能量集中資訊的上述「平坦度」的計算可使用時間扭曲變換頻譜表示234e、234k被執行，使得如下關係被保持：x(n)=| X |_tw (n)

在此情況中，N可以等於由頻譜域變換器234d、234j提供的頻譜線之數目，| X |_tw (n)是一经時間扭曲變換頻譜表示234e、234k。

儘管該頻譜量度是用於該時間扭曲致動信號之提供的一有用的量，該頻譜平坦度量度的一個缺點，如信號對雜訊比(SNR)量度，是如果被施用於整個頻譜，其以較高能量強調部份頻譜。通常，諧波頻譜具有一定頻譜傾斜，意指大部份該能量集中於前面的少數部份音調，且接著随增加的頻率而減少，導致該測量中較高部份的一代表性不足。這在一些實施例中是不想要的，由於希望改進此等較高部份的品質，因為它們變得最模糊(見第3a圖)。在下文中，該頻譜平坦度量度之關聯性的改進之數個可選概念將被討論。

在依據本發明一實施例中，一種與所謂的「分段式 SNR」量度相似的方法被選擇，產生一分頻段頻譜平坦度量度。該頻譜平坦度量度的一計算在許多頻帶中被(例如個別地)執行，且主要部份(或平均)被採用。該等不同頻帶可具有相等的帶寬。然而，較佳地，該等帶寬將跟隨一感知標度，如臨界頻帶，或相對應於，例如所謂的「先進音訊編碼」，也稱為AAC的量尺因子頻帶。

上述概念將在下文參考第3c圖被簡短的解釋，第3c圖繪示不同頻帶的頻譜平坦度量度的一個別計算的圖解表示。如圖所示，該頻譜可被分為不同的頻帶311、312、313，它們可具有一相等的帶寬或可具有不同的帶寬。例如，一第一頻譜平坦度量度可針對第一頻帶311，例如使用上文給出的「平坦度」方程式被計算。在該計算中，該第一頻帶的頻率槽可被考慮(遊動變量n可採用該第一頻帶的頻率槽的頻率槽指數)，且該第一頻帶311的寬度可被考慮(可變N可採用依據該第一頻帶的頻帶容量的寬度)。因此，針對第一頻帶311的一平坦度量度被獲得。相似地，針對第二頻帶312的一平坦度量度，可考慮到第二頻帶312的頻率槽及第二頻帶的寬度而被計算。另外，附加頻帶如第三頻帶312的平坦度量度可以相同方法被計算。

隨後，對不同頻帶311、312、313的平坦度量度的一平均可被計算，且該平均可用作能量集中資訊。

另一方法(用於該時間扭曲致動信號的導出之改進)是將該頻譜平坦度量度僅施用於某一頻率。此一方法在第3d圖中說明。如圖所示，僅在頻譜的一高頻部份316中的頻率槽針對該頻譜坦平度量度的計算被考慮。該頻譜的一低頻部份對於該頻譜平坦度兩次的計算被忽略。高頻部份316對於該頻譜平坦度量度的計算可被考慮frequency-分頻段。可供選擇地，全部高頻部份316可針對該頻譜平坦度量度的計算在其整體中被考慮。

綜上所述，可以說頻譜平坦度的降低(由時間扭曲之施用產生)可被考慮為該時間扭曲的效果的一第一量度。

例如，時間扭曲致動信號提供器100、230、234(或其比較器130、234o)可使用一標準時間扭曲輪廓資訊，將時間扭曲變換頻譜表示234e的頻譜平坦度量度與時間扭曲變換頻譜表示234k的一頻譜平坦度量度進行比較，且基於該比較判定該施加扭曲致動信號是有效還是無效的。例如，當與沒有時間扭曲的情況相比時，如果該時間扭曲產生該頻譜平坦度量度的一充分的降低，那麼該時間扭曲藉由該時間扭曲致動信號的一適當的設定被致動。

除上述方法以外，該頻譜的高頻部份可在低頻部份上針對該頻譜平坦度的計算被強調(例如藉由一適當的定標)。第3e圖繪示一時間扭曲變換頻譜的圖解表示，在該時間扭曲變換頻譜中，一高頻部份在一低頻部份上被強調。因此，該頻譜中的高頻部份的一代表性不足被補償。因此，該平坦度度量度可在該被完整定標的頻譜中被計算，在該頻譜中高頻率槽在低頻率槽上被強調，如第3e圖所示。

就位元節約而言，編碼效率的一典型量度將是感知熵，可以一種方式被界定，使得其與被需要以編碼在下述文獻中描述的某一頻譜的位元之實際數目很好的聯繫起來：3GPP TS 26.403 V7.0.0：3^rd Generation Partnership Project；Technical Specification Group Services and System Aspects；General audio codec audio processing functions；Enhanced aacPlus general audio codec；Encoder specification AAC part：Section 5.6.1.1.3 Relation between bit demand and perceptual entropy。所以，該感知熵的減少是該時間扭曲之效率的另一量度。

第3f圖繪示一能量集中資訊提供器325，可取代能量集中資訊提供器120、234f、234l，且可被用在時間扭曲致動信號提供器100、290、234中。能量集中資訊提供器325被設定組態以接收該音訊信號的一表示，例如，以一時間扭曲變換頻譜表示234e、234k的形式，也以| X |_tw 標明。能量集中資訊提供器325也被設定組態以提供一感知熵資訊326，可取代能量集中資訊122、234m、234n。

能量集中資訊提供器325包含一形式因子計算器327，被設定組態以接收時間扭曲變換頻譜表示234e、234k，且基於其提供一形式因子資訊328，該形式因子資訊328可與一頻帶相關聯。能量集中資訊提供器325也包含一頻帶能量計算器329，被設定組態以基於時間扭曲頻譜表示234e、234k，計算一頻帶能量資訊en(n)(330)。能量集中資訊提供器325同樣包含許多線估計器331，被設定組態以對具有指數n的頻帶提供一經估計數目的線資訊nl(332)。另外，能量集中資訊提供器325包含一感知熵計算器333，被設定組態以基於頻帶能量資訊330及該等經估計數目的線資訊332，計算感知熵資訊326。例如，形式因子計算器327可被設定組態以依據下述方程式計算形式因子：

在上述方程式中，ffac(n)表示具有一頻帶指數n的頻帶之形式因子。k表示一遊動變量，在量尺因子頻帶(或頻帶)n的頻譜容量指數上遊動。X(k)表示具有一頻譜容量指數(或一頻率槽指數)k的頻譜容量(或頻率槽)的一頻譜值。

線估計器之數目可被設定組態以依據如下方程式估計非零線之數目，由nl表示：

在上述方程式中，en(n)表示具有指數n的頻帶或量尺因子頻帶的一能量。kOffset(n+1)-kOffset(n)表示一具頻譜容量的具指數n的頻帶或量尺因子頻帶的一寬度。

另外，感知熵計算器332可被設定組態以依據如下方程式計算感知熵資訊sfbPe：

在上文中，下述關係將被保持：c 1=log₂ (8)c 2=log₂ (2.5)c 3=1-c 2/c 1 (4)

一總的感知熵pe可被計算為多個頻帶或量尺因子頻帶的感知熵之總和。

如上所述，感知熵資訊326可被用作一能量集中資訊。

對於關於感知熵之計算的進一步細節，參考國際標準「3GPP TS 26.403 V7.0.0(2006-06)」的第5.6.1.1.3節。

在下文中，一概念將針對時域中的能量集中資訊之計算被描述。

再看TW-MDCT(時間扭曲改良型離散餘弦轉換)是以一種方式改變該信號，以具有一個方塊中的一恒定或幾乎恒定音距的基本觀念。如果一恒定音距被實現，意味著一個處理塊的自動相關之最大值增加。既然找到對於時間扭曲及未時間扭曲情況之相對應的自動相關中的最大值沒有意義，正規化自動相關的絕對值之總和可被用作該改進的一量度。該總和的一增加相對應於該能量集中的一增加。

該概念將在下文中參考第3g圖、第3h圖、第3i圖、第3j圖及第3k圖被詳細描述。

第3g圖繪示時域中一未時間扭曲信號的一圖解表示。一橫座標350描繪時間，一縱座標351描繪該未時間扭曲時間信號的一位準a(t)。一弧線352描繪未時間扭曲時間信號的時間上的演變。假定由弧線352描繪的該未時間扭曲時間信號之頻率隨時間增加，如第3g圖所示。

第3h圖繪示第3g圖的時間信號的一時間扭曲版本的圖解表示。一橫座標355繪示經扭曲時間(例如以一正規化的形式)，一縱座標356繪示信號a(t)的時間扭曲版本a(t_w )的位準。如第3h圖所示，未時間扭曲時間信號a(t)的時間扭曲版本a(t_w )包含(至少近似地)在經扭曲時域中一時間上恒定的頻率。

換句話說，第3h圖繪示如下事實：一時間上變化的頻率的一時間信號藉由一適當的時間扭曲操作被變換為一時間上恒定頻率的一時間信號，該變換可包含一時間扭曲重新取樣。

第3i圖繪示未扭曲時間信號a(t)的一自動相關函數的一圖解表示。一橫座標360繪示一自動相關滯後τ，一縱座標361繪示該自動相關函數的一大小。標記362繪示自動相關函數R_uw (τ)的一演變，作為自動相關滯後τ的一函數。如第3i圖所示，未扭曲時間信號a(t)的自動相關函數R_uw 包含一τ=0的峰值(由信號a(t)的能量反映)，且τ≠0時為很小值。

第3j圖繪示時間扭曲施加信號a(t_w )的自動相關函數R_tw 的圖解表示。如第3j圖所示，自動相關函數R_tw 包含τ=0的一峰值，且也包含自動相關滯後τ的其他值τ₁ 、τ₂ 、τ₃ 的峰值。此等τ₁ 、τ₂ 、τ₃ 的附加峰值由時間扭曲之效果獲得，以增加時間扭曲時間信號a(t_w )的週期性。當與自動相關函數R_uw (τ)相比時，該週期性由自動相關函數R_tw (τ)的附加波峰反映。因此，當較之於原始音訊信號的自動相關函數時，時間扭曲音訊信號的自動相關函數之附加波峰(或波峰之增加的強度)的存在，可被用作時間扭曲的效能(就一位元率減少而言)的一指示。

第3k圖繪示一能量集中資訊提供器370的一方塊示意圖，其被設定組態以接收該音訊信號，例如時間扭曲信號 234e、234k的一時間扭曲時域表示(頻譜域變換234d、234j及可選擇的分析視窗器234b及234h被忽略)，且，基於其提供一能量集中資訊374，該資訊374可發揮能量集中資訊122的作用。第3k圖的能量集中資訊提供器370包含一自動相關計算器371，被設定組態以計算時間扭曲信號a(t_w )在離散值τ的一預定範圍上的自動相關函數R_tw (τ)。能量集中資訊提供器370也包含一自動相關加法器372，被設定組態以將自動相關函數R_tw (τ)的多個值(例如，在離散值τ的一預定範圍上)相加，且提供所獲得的總和作為能量集中資訊122、234m、234n。

因此，能量集中資訊提供器370允許提供指示該時間扭曲效果的一可靠資訊，而不需實際上執行輸入音訊信號210的時間扭曲時域版本的頻譜域變換。因此，只要發現基於由能量集中資訊提供器370提供的能量集中資訊122、234m、234n，時間扭曲實際產生一改進的編碼效率，則執行輸入音訊信號310之時間扭曲版本的一頻譜域變換即為可行。

綜上所述，依據本發明之實施例建立用於最終品質檢測的一概念。一產生的音距輪廓(用於一時間扭曲音訊信號編碼器中)依據其編碼增益被評估，且被接收或拒絕。數個關於該頻譜之稀疏或編碼增益之量度可被該判定考慮，例如，一頻譜平坦度量度、一分頻段分段頻譜平坦度量度，及/或一感知熵。

不同頻譜集中資訊的使用被討論，例如，一頻譜平坦度量度的使用，一感知熵量度的使用，及一時域自動相關量度的使用。然而，仍有顯示一時間扭曲頻譜中之一能量集中的其他量度。

所有的該等量度可被使用。較佳地，對於所有該等量度而言，一未扭曲與一時間扭曲頻譜的量度之比被界定，且一臨界值對於該編碼器中的該比被設定，以判定已獲得的時間扭曲輪廓在編碼中是否有利。

所有該等量度可被施用於一全訊框中，在該訊框中僅三分之一該音距輪廓是新的(其中，例如，該音距輪廓的三部份與該全訊框相關聯)，或較佳地僅對於部份該信號，對於部份該信號，該新部份例如使用以位於該(各自)信號部份中心的一低重疊視窗的變換被獲得。

自然，一單一量度或上述量度的一合併可被使用，如所希望的。

第4a圖繪示一種用於基於一音訊信號提供一時間扭曲致動信號之方法的流程圖。第4a圖的方法400包含提供一能量集中資訊的一步驟410，該能量集中資訊描述該音訊信號的一時間扭曲變換頻譜表示中之一能量集中。方法400進一步包含將該能量集中資訊與一參考值相比較的一步驟420。方法400也包含依據該比較之結果提供時間扭曲致動信號的一步驟430。

方法400可由本文描述的任何特徵及功能關於該時間扭曲致動信號的提供而被補充。

第4b圖繪示一種用於編碼一輸入音訊信號以獲得該輸入音訊信號的一編碼表示之方法的流程圖。方法450可選擇地包含基於該輸入音訊信號提供一時間扭曲變換頻譜表示的一步驟460。方法450也包含提供一時間扭曲致動信號的一步驟470。步驟470可，例如包含方法400之功能。因此，該能量集中資訊可被提供，使得該能量集中資訊描述該輸入音訊信號的時間扭曲變換頻譜中之一能量集中。方法450也包含一步驟480，依據該時間扭曲致動信號，使用一新發現時間扭曲輪廓資訊提供該輸入音訊信號的時間扭曲變換頻譜表示的一描述，或使用一標準(不變)時間扭曲輪廓資訊提供該輸入音訊信號的一未時間扭曲變換頻譜表示的描述，以包含在該輸入信號的編碼表示中。

方法450可藉由本文討論的任何特徵及功能關於該輸入音訊信號之編碼被補充。

第5圖繪示依據本發明的一音訊編碼器的一較佳實施例，其中本發明的數個層面被實施。一音訊信號被提供於一編碼器輸入500處。該音訊信號將典型地是一離散音訊信號，該離散音訊信號使用被稱作正常取樣率的一取樣率從一類比音訊信號被導出。該正常取樣率不同於在一時間扭曲操作中產生的一局部取樣率，且輸入500處的音訊信號之正常取樣率是產生由一恒定時間部份分離的音訊樣本的恒定取樣率。該信號被輸入一分析視窗器502，在該實施例中，分析視窗器502被連接至一視窗功能控制器504。分析視窗器502被連接至一時間扭曲器506。然而，依據該實施，時間扭曲器506可被置於-以一信號處理方向-分析視窗器502之前。當一時間扭曲特性被需要用於方塊502的分析視窗化時，且當該時間扭曲操作要被執行於時間扭曲樣本上而非未扭曲樣本上時，該實施是較佳的。特別在國際專利申請案PCT/EP2009/002118，Bernd Edler等人的「Time Warped MDCT」所描述的基於MDCT的時間扭曲之內文中。對於其他時間扭曲施用諸如L.Villemoes在2005年11月提出的國際專利申請案PCT/EP2006/010246，「Time Warped Transform Coding of Audio Signals」中描述的，時間扭曲器506與分析視窗器502之間的佈置可依據所需被設定。此外，一時間/頻率轉換器508被提供用於執行一時間扭曲音訊信號到一頻譜表示的一時間/頻率轉換。該頻譜表示可被輸入至一TNS(時域雜訊修整)級510，其提供TNS資訊作為一輸出510a，且提供頻譜殘餘值作為一輸出510b。輸出510b被耦接至一量化器及編碼器塊512，該量化器及編碼器塊512可由一感知模型514控制，用於量化一信號，使得該量化雜訊被隱藏在該音訊信號的感知遮蔽臨界值之下。

此外，第5a圖繪示的編碼器包含一時間扭曲分析器516，可作為一音距追蹤器被實施，其在輸出518處提供一時間扭曲資訊。線518上之信號可包含一時間扭曲特性、一音距特性、一音距輪廓，或由時間扭曲分析器分析的信號是一諧波信號抑或一非諧波信號的資訊。該時間扭曲分析器也可實施區別有聲語音與無聲語音的功能。然而，依據該實施，及一信號分類器520是否被實施，該有聲/無聲判定也可由信號分類器520完成。在此情況中，該時間扭曲分析器沒必要必須執行相同的功能。時間扭曲分析器輸出518被連接至包含視窗功能控制器504、時間扭曲器506、TNS級510、量化器與編碼器512及一輸出介面522的功能組中的至少一個且較佳地多於一個的功能。

類似地，信號分類器520的一輸出522可被連接至包含視窗功能控制器504、TNS級510、一雜訊注入分析器524或輸出介面522的功能組中的至少一個且較佳地多於一個的功能。此外，時間扭曲分析器輸出518也可被連接至雜訊注入分析器524。

雖然第5a圖繪示分析視窗器輸入500上的該音訊信號被輸入至時間扭曲分析器516及信號分類器520的情況，該等功能的輸入信號也可擷取自分析視窗器502對於信號分類器之輸出，甚至可擷取自時間扭曲器506、時間/頻率轉換器508的輸出或TNS級510的輸出。

除由量化器編碼器512在526處指示的一信號輸出外，輸出介面522接收TNS旁資訊510a、一感知模型旁資訊528，其可包括編碼形式的量尺因子，針對較先進時間扭曲旁資訊諸如線518上之音距輪廓及線522上之信號分類資訊的時間扭曲指示資料。此外，雜訊注入分析器524也可將輸出530上的輸出雜訊注入資料輸出至輸出介面522中。輸出介面522被設定組態以在線532上產生編碼音訊輸出資料，以發送至一解碼器，或儲存在一儲存裝置諸如記憶體裝置中。依據該實施，輸出資料532可包括到輸出介面522的所有輸入，或如果該資訊不被一相對應的具有一減少的功能的解碼器所需要，或如果該資訊由於經由一不同發送通道的一發送已在該解碼器處可用時，可包含較少資訊。

第5a圖繪示的編碼器可被實施成MPEG-4標準中所定義的，除第5圖中發明的編碼器中說明的，由較之於MPEG-4標準，具有一先進功能的視窗功能控制器504、雜訊注入分析器524、量化器編碼器512及TNS級510所表示的功能之外。一進一步描述在AAC標準(國際標準13818-7)或3GPP TS 26.403 V7.0.0：Third generation partnership project；technical specification group services and system aspect；general audio codec audio processing functions；enhanced AAC plus general audio codec。

隨後，第5b圖被討論，第5b圖繪示用於經由輸入540解碼一編碼的音訊信號的一音訊解碼器的一較佳實施例。該輸入介面540作用以處理該編碼的音訊信號，使得資訊的不同資訊項從線540上之信號被擷取。該資訊包含信號分類資訊541、時間扭曲資訊542、雜訊注入資料543、量尺因子544、TNS資料545及編碼頻譜資訊546。該編碼頻譜資訊被輸入至一熵解碼器547，熵解碼器547可包含一霍夫曼解碼器或一算術解碼器，假如第5a圖的方塊512中的編碼器功能被實施成一相對應的編碼器，諸如一霍夫曼編碼器或一算術編碼器。該解碼頻譜資訊被輸入至一重新量化器550中，該重新量化器550被連接至一雜訊注入器552。雜訊注入器552的輸出被輸入至一反TNS級554中，反TNS級554另外接收線545上之TNS資料。依據該實施，雜訊注入器552及TNS 級554可以不同的順序被施用，使得雜訊注入器552操作於TNS級554輸出資料上而不是在TNS輸入資料上。此外，一頻率/時間轉換器556被提供，其饋送一時間解扭器558。在信號處理鏈的輸出，較佳地執行一重疊/加入處理的一合成視窗器被施用成在560處指示的。時間解扭器558與合成級560的順序可被改變，但是，在較佳實施例中，較佳地，執行如在AAC標準(AAC=先進音訊編碼)中定義的一基於MDCT的編碼/解碼演算法。接著，由於重疊/加入步驟從一個方塊到下一個的固有交叉淡入淡出操作被有利地用作該等處理鏈中最後的操作，使得所有的區塊效應被有效地避免。

此外，一雜訊注入分析器562被提供，被設定組態以控制雜訊注入器552，且接收時間扭曲資訊542及/或信號分類資訊541及在重新量化頻譜上的資訊，依據可能的情況，作為一輸入。

較佳地，此後所描述的全部功能被一起施用於一編碼音訊編碼器/解碼器方案中。然而，此後所描述的功能也可被獨立地施用於彼此，即，使得僅一個或一組但非全部該等功能在某一編碼器/解碼器中被實施。

隨後，本發明之雜訊注入層面被詳細地描述。

在一實施例中，由第5a圖的時間扭曲/音距輪廓工具516提供的附加資訊被有利地用於控制其他編碼解碼工具，且特定地，由編碼器端雜訊注入分析器524實施及/或由解碼器端雜訊注入分析器562及雜訊注入器552實施的雜訊注入工具。

AAC結構中的數個編碼器工具諸如一雜訊注入工具由音距輪廓分析收集的資訊及/或由信號分類器520提供的一信號分類的一附加知識被控制。

一發現的音距輪廓以一清晰諧波結構指示信號段，所以雜訊注入諧波線之間可能降低感知品質，特別是語音信號上的，因此當找出一音距輪廓時，雜訊位準被降低。否則，在部份音調之間會有雜訊，此與對一模糊頻譜增加量化雜訊具有相同的效果。另外，雜訊位準降低量可藉由使用信號分類器資訊被進一步精化，所以，例如對於語音信號將不會有雜訊注入，且一中度雜訊注入將以一強諧波結構被施加於通用信號。

大體上，在複數個零已從一編碼器被發送至一解碼器，即，第5a圖中的量化器512將頻譜線量化為零的情況，雜訊注入器552用於將頻譜線插入一解碼頻譜。當然，將頻譜線量化為零大大降低了已發送信號的位元率，且理論上，當該等頻譜線由感知模型514判定在感知遮蔽臨界值之下時，該等(小)頻譜線的消除是不可聽見的。然而，已發現可包括許多相鄰頻譜線的該等「頻譜孔」產生一相當不自然的聲音。因此，一雜訊注入工具被提供以在線由一編碼器端量化器量化為零的位置處插入頻譜線。該等頻譜線可具有一隨機振幅或相位，且該等解碼器端綜合頻譜線使用如第5a圖所示在編碼器端被判定的一雜訊注入量度，或依第5b圖所示在解碼器端由可選方塊562判定的一量度而定被比例調整。因此，第5a圖中的雜訊注入分析器524被設定組態以對於該音訊信號的一時框，估計被量化為零的音訊值的一能量之一雜訊注入量度。

在本發明之一實施例中，用於編碼一線500上之音訊信號的音訊編碼器包括量化器512，被設定組態以量化音訊值，此外量化器512被設定組態以將在一量化臨界值之下的音訊值量化為零。該量化臨界值可以是一基於階的量化器的第一階，用於判定是否某一音訊信號被量化為零，即，被量化為一零的量化指數，抑或被量化為一，即，指示該音訊值在該第一臨界值以上之「一」的量化指數。雖然第5a圖的量化器被繪示成執行頻域值之量化，該量化器也可被用於在一可供選擇的實施例中量化時域值，在該實施例中，雜訊注入在時域而非在頻域中被執行。

雜訊注入分析器524被實施成一雜訊注入計算器，用於估計該音訊信號的一時框之由量化器512量化為零的音訊值的一能量之一雜訊注入量度。此外，該音訊編碼器包含第6a圖所示的一音訊信號分析器600，被設定組態以分析該音訊信號的時框具有一諧波特性抑或一語音特性。信號分析器600可，例如包含第5a圖的方塊516或第5a圖的方塊520，或可包含用於分析一信號是一諧波信號抑或一語音信號的任何其他裝置。因為時間扭曲分析器516被實施以總是尋找一音距輪廓，且因為一音距輪廓的存在指示該信號的一諧波結構，第6a圖中的信號分析器600可被實施成一音距追蹤器或一時間扭曲分析器的一時間扭曲輪廓計算器。

該音訊編碼器另包含第6a圖所示的一雜訊注入位準調處器602，其輸出一經調處雜訊注入量度/位準以被輸出至第5a圖的530處所指示的輸出介面522。雜訊注入量度調處器602被設定組態以依據該音訊信號的諧波或語音特性調處該雜訊注入量度。該音訊編碼器另包含輸出介面522用於產生一編碼信號供發送或儲存之用，該編碼信號包含由線530上的方塊602輸出的經調處雜訊注入量度。該值相對應於由第5b圖所示的解碼器端實施中的方塊562輸出的值。

如第5a圖及第5b圖所示，雜訊注入位準調處可在一編碼器中被實施或在一解碼器中被實施，或在該等兩個裝置中被實施。在一解碼器端實施中，用於解碼一編碼音訊信號的解碼器包含輸入介面539，用於處理該線540上編碼信號，以獲得一雜訊注入量度，即線543上雜訊注入資料，及線546上之編碼音訊資料。該解碼器另包含一解碼器547及重新量化器550用於產生一重新量化的資料。

此外，該解碼器包含一信號分析器600(第6a圖)，可在第5b圖雜訊注入分析器562中被實施成檢索該音訊資料的一時框具有一諧波抑或語音特性的資訊。

另外，雜訊注入器552被提供以產生雜訊注入音訊資料，其中雜訊注入器552被設定組態以產生雜訊注入資料，以回應經由編碼信號發送且由線543上之輸入介面產生的雜訊注入量度，及由信號分析器516及/或550在編碼器端定義的或項562在解碼器端定義的，經由處理及解釋指示某一時框是否受到一時間扭曲處理的時間扭曲資訊542的音訊資料的諧波或語音特性。

此外，該解碼器包含一處理器，用於處理重新量化的資料及雜訊注入音訊資料，以獲得一解碼音訊信號。該處理器可依據可能的情況包括第5b圖中的項554、556、558、560。此外，依據該編碼器/解碼器演算法的特定實施，該處理器可包括由，例如在一時域編碼器中，諸如AMR WB+編碼器或其他語音編碼器中提供的其他處理塊。

因此，發明的雜訊注入調處可在該編碼器端，僅藉由計算該簡單雜訊量度，及藉由基於一諧波/語音資訊調處該雜訊量度，及藉由發送已被正確調處，可接著由一解碼器以一簡單方式被施用的雜訊注入量度被實施。可供選擇地，該未調處雜訊注入量度可從一編碼器被發送至一解碼器，且該解碼器將進而分析一音訊信號的實際時框是否已被時間扭曲，即，具有一諧波抑或語音特性，使得該雜訊注入量度的實際調處在該解碼器端發生。

隨後，第6b圖被討論以解釋用於調處該雜訊位準估計的較佳實施例。

在第一實施例中，當該信號不具有一諧波或語音特性時，一正常雜訊位準被施用。這是當沒有時間扭曲被施用的情況。此外，當一信號分類器被提供時，那麼區分語音與無語音的信號提供器將指示該情況無語音，在該情況中，時間扭曲無效，即，沒有音距輪廓被發現。

然而，當時間扭曲有效時，即，當指示一諧波內容的一音距輪廓被發現時，那麼該雜訊注入位準將被調處為低於正常情況。當一附加信號分類器被提供時，那麼該信號分類器指示語音，且同時當該時間扭曲資訊指示一音距輪廓時，那麼一較低或甚至為零的雜訊注入位準被發信。因此，第6a圖的雜訊注入位準調處器602將降低調處雜訊位準至零，或至少為低於第6b圖中指示的很低值的一值。較佳地，該信號分類器另具有第6b圖左邊指示的一有聲/無聲檢測器。在有聲語音的情況中，一很低的或零雜訊注入位準被發信/施用。然而，在無聲音訊的情況中，時間扭曲指示由於沒有音距被發現而不指示一時間扭曲處理，但是信號分類器發信語音內容的情況中，該雜訊注入量度不被調處，但是一正常雜訊注入位準被施用。

較佳地，該音訊信號分析器包含一音距追蹤器用於產生該音距的一指示，諸如一音距輪廓或該音訊信號的一時框之一絕對音距。接著，該調處器被設定組態以當一音距被發現時，降低該雜訊注入量度，且當一音距未被發現時不降低該雜訊注入量度。

如第6a圖所示，一信號分析器600當被施用於該解碼器端時，不像一音距追蹤器或一有聲/無聲檢測器那樣執行一實際信號分析，但是該信號分析器剖析該編碼音訊信號，以擷取一時間扭曲資訊或一信號分類資訊。因此，信號分析器600可在第5b圖解碼器的輸入介面539中被實施。

本發明之一進一步的實施例將參考第7a-7e圖被隨後討論。

對於一有聲語音部份在一相對安靜信號部份後開始的語音之起始點而言，塊切換演算法可將其分類成一起始(attack)，且可以具有一清晰諧波結構的一信號段上編碼增益損失選擇該特定訊框的短塊。因此，該音距追蹤器的有聲/無聲分類被用於檢測有聲起始，且避免該塊切換演算法指示圍繞該發現起始點的一暫態起始。該特徵也可與該信號分類器耦接以防止語音信號上的塊切換，且允許它們針對所有的其他信號。另外，該塊切換的一更精細控制可藉由不僅允許或不允許起始檢測，且亦使用一基於有聲起始及信號分類資訊的起始檢測可變臨界值被實施。另外，該資訊可被用以檢測類似上述有聲起始的能量突升，而不切換至短塊，使用仍是較佳頻譜解析度的具短重疊的長視窗，但是減少前後回音可產生的時間區域。第7d圖繪示未匹配的典型行為，第7e圖繪示匹配的兩個不同可能性(防止及低重疊視窗)。

依據本發明一實施例的一音訊編碼器操作以產生一音訊信號，諸如由第5a圖的輸出介面522輸出的信號。該音訊編碼器包含一音訊信號分析器，諸如第5a圖的時間扭曲分析器516或一信號分類器520。大體上，該音訊信號分析器分析該音訊信號的一時框具有一諧波抑或語音特性。為此，第5a圖的信號分類器520可包括一有聲/無聲檢測器520a或一語音/無語音檢測器520b。雖然未示於第7a圖，可包括一音距追蹤器的一時間扭曲分析器，諸如第5a圖的時間扭曲分析器516也可被提供以不用項520a及520b，或與該等功能一起被提供。此外，該音訊編碼器包含視窗功能控制器 504，用於依據由該音訊信號分析器判定的該音訊信號之一諧波或語音特性，選擇一視窗功能。視窗器502進而視窗化該音訊信號，或依據該某一實施，使用已選擇視窗功能視窗化該時間扭曲音訊信號，以獲得一視窗型訊框。該視窗訊框接著進一步被一處理器處理，以獲得一編碼音訊信號。該處理器可包含第5a圖所示的項508、510、512，或習知的音訊編碼器諸如基於變換音訊編碼器，或包含一LPC濾波器，諸如語音編碼器及，特定地依據AMR-WB+標準被實施的語音編碼器的基於時域音訊編碼器之差不多的功能。

在一較佳實施例中，視窗功能控制器504包含一暫態檢測器700，用於檢測該音訊信號中的一暫態，其中該視窗功能控制器被設定組態以當一暫態被檢測到，且一諧波或語音特性沒有被該音訊信號分析器發現時，將一長塊的一視窗功能切換至一短塊的一視窗功能。然而，當一暫態被檢測到，且一諧波或語音特性被該音訊信號分析器發現時，那麼視窗功能控制器504不將該視窗功能切換至短塊。指示沒有暫態被獲得時的一長視窗及一暫態被該暫態檢測器檢測到時的一短視窗之視窗功能輸出如第7a圖的701及702所示。由習知AAC編碼器執行的該正常步驟在第7d中被說明。在該有聲起始的位置上，暫態檢測器700檢測到能量從一個訊框到下一訊框的增加，且因此，從一長視窗710切換至短視窗712。為了順應該切換，一長終止視窗714被使用，其具有一第一重疊部份714a、一非頻疊部份714b、一第二較短重疊部份714c，及在由2048個樣本指示的時間軸上的點與點之間延伸的一零值點716。接著，在712被指示的短視窗之順序被執行，接著由具有與未示於第7d圖中的下一個長視窗重疊的一長重疊部份718a的一長起始視窗718被終止。另外，該視窗具有一非頻疊部份718b、一短重疊部份718c及一在時間軸上在點之間延伸直到第2048點的一零值部份720。該部份是一零值部份。

通常，至短視窗的切換是有用的，以避免會在該暫態時間前在一訊框中發生的前回音，該訊框是有聲起始，或一般而言，是該語音之開始或具有一諧波內容的一信號之開始的位置。大體上，當一音距追蹤器判定一信號具有一音距時，該信號具有一諧波內容。可供選擇地，有其他的諧波量度，諸如在某一最小位準之上的一音調量度與凸出波峰在一彼此的一諧波關係中的特性。多個進一步的技術存在以判定一信號是否為諧波的。

短視窗的一缺點是頻率解析度被降低，因為該時間解析度被增加。對於語音，且特別地，有聲語音部份或具有一很強諧波內容的高品質編碼而已，一好的解析度被需要。因此，在516、520或520a、520b處所示的音訊信號分析器操作以將一停用信號輸出至暫態檢測器700，使得當一有聲語音段或具有一很強諧波特性的一信號段被檢測到時，到短視窗的一切換被防止。這保證，對於編碼這樣的信號部份而言，一高頻解析度被維持。這是一方面的前回音與另一方面對於該語音信號的音距或一諧波非語音信號的音距之高品質且高解析度編碼之間的一折中。已發現當諧波頻譜較之於會發生的任何前回音沒有被精確地編碼時更加令人煩擾。為了進一步降低前回音，一TNS處理有利於此一情況，該TNS處理將連同第8a圖與第8b圖被討論。

在第7b圖所示的一可供選擇的實施例中，該音訊信號分析器包含一有聲/無聲及/或語音/非語音檢測器520a、520b。然而，包括在該視窗功能控制器中的暫態檢測器700如第7a圖所示被完全致能/去能，但是包括在該暫態檢測器中的臨界值使用一臨界值控制信號704被控制。在該實施例中，暫態檢測器700被設定組態以判定該音訊信號的一定量特性，且將該定量特性與該可控的臨界值相比較，其中當該定量特性具有與該可控臨界值的一預定關係時，一暫態被檢測到。該定量特性可以是指示從一個方塊到下一個方塊的能量增加的一數字，且該臨界值可以是一一定臨界能量增加。當從一個方塊到下一個的能量增加高於該臨界值能量增加時，那麼一暫態被檢測到，使得，在這種情況中，該預定關係是一「高於」關係。在其他實施例中，該預定關係也可以是一「低於」關係，例如當該定量特性是一反能量增加時。在第7b圖的實施例中，該可控臨界值被控制，使得當該音訊信號分析器已發現一諧波或語音特性時，一視窗功能到一短塊的切換之或然率被降低。在該能量增加實施例中，臨界值控制信號704將產生該臨界值的一增加，使得到短塊的切換僅當從一個方塊到下一個的能量增加是一特別高的能量增加時發生。

在一可供選擇地實施例中，來自有聲/無聲檢測器520a或語音/非語音檢測器520b的輸出信號也可被用以用如下方法控制視窗功能控制器504；切換至長於該視窗功能的的一視窗功能，而不是切換至一語音起始處的一短塊，因為該短塊被執行。該視窗功能保證比一短視窗功能較高的一頻率解析度，但是具有一比長視窗功能較短的長度，使得一方面的前回音與另一方面的充分的頻率解析度之間的獲得一良好折衷。在一可供選擇的實施例中，到具有一較小重疊的視窗功能的一切換可如第7e圖中706處的剖面綫所指示的被執行。視窗功能706具有如長塊的一2048個樣本的長度，但是該視窗具有一零值部份708及一非頻疊部份710，使得從視窗706到一相對應視窗707的一短重疊長度712被獲得。視窗功能707再具有區域712的左邊的一零值部份，及區域712右邊的一非頻疊部份，與視窗功能710相似。該低重疊實施例，有效地產生一較短時間長度用於降低由於視窗706與707的零值部份的前回音，但是另一方面具有由於重疊部份714及非頻疊部份710的一充分的長度，使得一充足的頻率解析度被維持。

在由AAC編碼器實施的較佳MDCT實施中，維持某一重疊提供如下附加優勢：在該解碼器端，一重疊/加入處理可被執行，這意味著塊之間的一種交叉淡入淡出被執行。這有效地避免了區塊效應。此外，該重疊/加入特徵提供該交叉淡入淡出特性，而不增加位元率，即，一精密的經取樣交叉淡入淡出被獲得。在正對長視窗或短視窗中，該重疊部份是由重疊部份714指示的一50%的重疊。在視窗功能為2048個樣本長的實施例中，該重疊部份是50%，即1024個樣本。具有一較短重疊的視窗功能較佳地少於50%，且在第7e圖實施例中，僅為128個樣本，是整個視窗長度的1/16，該較短重疊被用於有效地視窗化一語音起始或一諧波信號的起始。較佳地，在全部視窗功能長度的1/4與1/32之間的重疊部份被使用。

第7c圖繪示該實施例，其中一示範性有聲/無聲檢測器520a控制包括在視窗功能控制器504中的一視窗形狀選擇器，以用749處指示的一短重疊選擇一視窗形狀，或用如750處指示的一長重疊選擇一視窗形狀。當有聲/無聲檢測器500a在751處發出一有聲檢測信號時，該等兩個形狀之一的選擇被實施，用於分析的音訊信號可以是第5a圖的輸入500處的音訊信號，或是諸如一時間扭曲信號或已受到任何其他預處理功能的一音訊信號的一預處理音訊信號。較佳地，當包括在該視窗功能控制器中的一暫態檢測器將檢測到一暫態，且如連同第7a圖所討論的將命令從一長視窗功能到一短視窗功能的切換時包括在第5a圖的視窗功能控制器504中的第7c圖中的視窗形狀選擇器504僅使用信號751。較佳地，該視窗功能切換實施例與連同第8a圖與第8b圖所討論的一時域雜訊整修實施例結合。然而，該TNS(時域雜訊修整)實施例也可被實施，而不需要塊切換實施例。

時間扭曲MDCT的頻譜能量集中性質也影響時域雜訊修整(TNS)工具，因為該TNS增益趨於減少時間扭曲訊框，尤其是一些語音信號。然而希望致動TNS，以例如在不需要塊切換，但是該語音信號的時間包絡顯示迅速改變的情況下減少有聲起始或偏移(參考塊切換匹配)的前回音。典型地，一編碼器使用某一量度以查看TNS對一特定訊框之應用，例如當應用至頻譜時TNS濾波器之預測增益是否有成效。所以一可變TNS增益臨界值是較佳地，其對具有一有效音距輪廓的片段較低，因此確保TNS對這種類似有聲起始的重要信號部份更經常地有效。當用其他工具時，此亦可將信號分類計入考慮而被實施。

依據本實施例用於產生一音訊信號的音訊編碼器包含一可控時間扭曲，諸如扭曲506用於時間扭曲該音訊信號，以獲得一時間扭曲音訊信號。此外，用於將至少一部份的時間扭曲音訊信號轉換至一頻譜表示的一時間/頻率轉換器508被提供。時間/頻率轉換器508如從AAC編碼器習知的實施一MDCT變換，但是該時間/頻率轉換器也可執行任何其他種類的變化，諸如一DCT、DST、DFT，FFT或MDST變換，或可包含一濾波器組諸如一QMF濾波器組。

此外，該編碼器包含一時域雜訊修整級510，用於依據該時域雜訊修整控制指令執行該頻譜表示的頻率上的一預測濾波，其中當該時域雜訊修整控制指令不存在時，該預測濾波不被執行。

此外，該編碼器包含一時域雜訊修整控制器，用於基於該頻譜表示產生該時域雜訊修整控制指令。

特定地，該時域雜訊修整控制器被設定組態以當該頻譜表示是基於一時間扭曲信號上時，增加該或然率，用於執行頻率上之預測濾波，或當該頻譜表示不是基於一時間扭曲信號上時，減少該或然率，以執行頻率上之預測濾波。該時域雜訊修整控制器的說明連同第8圖被討論。

該音訊編碼器另又包含一處理器，用於進一步處理頻率上之預測濾波的一結果，以獲得編碼的信號。在一實施例中，該處理器包含第5a圖中繪示的量化器編碼器級512。

第5a圖中繪示的一TNS級510在第8圖中被詳細說明。較佳地，包含在級510中的該時域雜訊修整控制器包含一TNS增益計算器800、一隨後被連接的TNS判定器802及一臨界值控制信號產生器804。依據來自時間扭曲分析器516或信號分類器520或兩者的一信號，該臨界值控制信號產生器804輸出一臨界值控制信號806至該TNS判定器。TNS判定器802具有一可控臨界值，依據臨界值控制信號806被增加或減少。在本實施例中，在TNS判定器802中的該臨界值是一TNS增益臨界值。當由塊800輸出的實質上以計算的TNS增益超出該臨界值，接著該TNS控制指令需要一TNS處理作為輸出，而在其他情況中，當TNS增益在TNS增益臨界值之下時，沒有TNS指令被輸出，或沒有一指示該TNS處理沒用且在該特定時框中將不被執行的信號被輸出。

TNS增益計算器800接收從該時間扭曲信號導出的頻譜表示作為一輸入。典型地，一時間扭曲信號將具有一較低TNS增益，但是另一方面，由於時域中時域雜訊修整特徵的一TNS處理是該特定情況中的受益者，存在受到一時間扭曲操作的一有聲/諧波信號。另一方面，該TNS處理在TNS增益很低的情況中沒用，意指線510b上的TNS殘餘信號具有與TNS級510之前的信號相同的或較高的能量。在線510d上TNS殘餘信號的能力稍微低於TNS級510之前的能量的情況中，該TNS處理也可能不具優勢，因為由於量化器/熵編碼器級512高效地使用的信號中稍小的能量之位元減少小於由地5a圖中510a處指示的TNS旁資訊的必要發送引入的位元增加。雖然一個實施例自動對所有的訊框在TNS處理上切換，其中一時間扭曲信號是由來自塊516的音距資訊或來自塊520的信號分類器資訊指示的輸入，一較佳實施例同樣維持停用TNS處理的可能性，但僅當該增益確實很低或至少低於沒有諧波/語音信號被處理的情況。

第8b圖繪示不同的臨界值設定有臨界值控制信號產生器804/TNS判定器802實施的一實施。當一音距輪廓不存在時，且當一信號分類器指示一無聲語音或沒有語音時，那麼該TNS判定臨界值被設定在需要一相對高的TNS增益用於致動TNS的一正常狀態中。然而，當一音距輪廓被檢測到，但是該信號分類器指示沒有語音或該有聲/無聲檢測器檢測到一無聲語音時，那麼該TNS判定臨界值被設定至一較低位準，意指甚至當相對低的TNS增益被第8a圖的塊800計算時，TNS處理仍被致動。

在一有效音距輪廓被檢測到且有聲語音被發現的情況中，那麼該TNS判定臨界值被設定為相同較低值，或被設定為一甚至更低的狀態，使得甚至很小TNS增益就足以致動一TNS處理。

在一實施例中，當該音訊信號受到頻率上的預測濾波時，TNS增益控制器800被設定組態以在位元率或品質上估計一增益。一TNS判定器802將該估計增益與一判定臨界值進行比較，且有利於該預測濾波的一TNS控制資訊被塊802輸出，當已估計增益與該判定臨界值為一預定關係時，該預定關係可以是一「高於」關係，例如對於一反TNS增益也可以是一「低於」。正如所討論的，該時域雜訊修整控制器被進一步設定組態以較佳地使用臨界值控制信號806改變該判定臨界值，使得對於相同的已估計增益，當該頻譜表示是基於該時間扭曲音訊信號時，該預測濾波被致動，當該頻譜表示不是基於該時間扭曲音訊信號時，該預測濾波不被致動。

通常，有聲語音將顯示一音距輪廓，且無聲語音諸如摩擦音或齒音不被顯示一音距輪廓。然而確實存在無語音信號，且因此強諧波內容具有一音距輪廓，雖然該語音檢測器沒有檢測到語音。此外，存在音樂上是一定的語音或語音信號上的音樂，由該音訊信號分析器(例如第5a圖的516)判定，以具有一諧波內容，但是沒有作為一語音信號被信號分類器520檢測到。在此一情況中，對於有聲語音信號的所有處理操作也可被施用，且也將產生一優勢。

隨後，本發明關於用於編碼一音訊信號的一音訊編碼器的一進一步較佳實施例被描述。該音訊編碼器在帶寬延伸的內文中特別有用，且在獨立編碼器施用中也是有用的，在獨立編碼器施用中，該音訊編碼器被設定以編碼一定數目的線，以獲得某一帶寬限制/低通濾波操作。在未時間扭曲施用中，藉由選擇一某一預定數目線的該帶寬限制將產生一恒定帶寬，因為該音訊信號之取樣頻率是恒定的。然而，在諸如藉由塊506的一時間扭曲處理被執行的情況中，依靠一固定數目線的一編碼器將產生一變化帶寬，該變化的帶寬引入不僅可由經過訓練的收聽者感知且可由未經訓練收聽者感知的很強的人工因子。

該AAC核心編碼器通常編碼一固定數目的線，將所有其他在最大線之上的設為零。在該未扭曲情況中，這產生帶有一恒定截止頻率的一低通影響，且因此產生該解碼AAC信號的一恒定帶寬。在時間扭曲的情況中，該帶寬由於該局部取樣頻率、局部時間扭曲估計的一函數的變化而變化，產生可聞人工因子。該等人工因素可藉由適當地選擇線之數目-以該局部時間扭曲的一函數及其已獲得的平均取樣率被減少-以在該核心編碼器中依據該局部取樣頻率被編碼，使得一恒定平均帶寬在該解碼器中對所有訊框時間重新扭曲后被獲得。一附加益處是該編碼器中的位元節約。

依據該實施例的音訊編碼器包含時間扭曲器506，用於使用一可變時間扭曲特性將一音訊信號時間扭曲。此外，用於將一時間扭曲音訊信號轉換至具有若干頻譜係數的一頻譜表示的一時間/頻率轉換器508被提供。此外，用於處理一可變數目的頻譜係數以產生編碼音訊信號的一處理器被使用，該處理器包含第5a圖的量化器/編碼器塊512，被設定組態以基於開訊框的時間扭曲特性，對該音訊信號的時框設定若干頻譜係數，使得由從訊框到訊框的已處理數目的頻譜係數表示的一帶寬變化被減少或消除。

由塊512實施的該處理器包含一控制器1000，用於控制該等數目的線，控制器1000的結果是，關於被編碼而沒有任何時間扭曲的一時框的情況所設定的許多線，某一變化數目的線在該頻譜的上端被加入或被廢除。依據該實施，控制器1000可接收某一訊框1001中的一音距輪廓資訊，及/或在1002處指示的訊框中的一局部平均取樣頻率。

在第9(a)圖至第(e)圖中，右邊圖片繪示在一訊框上的某些音距輪廓的某一帶寬情況，在該訊框上的音距輪廓針對時間扭曲被繪示於各自的左邊圖片中，且在時間扭曲後被繪示於中間圖片中，在此處一實質上恒定的音距特性被獲得。時間扭曲功能的目標是，在時間扭曲後，該音距特性盡可能的恒定。

帶寬900繪示，當由第5a圖的一時間/頻率轉換器508輸出或由一TNS級510輸出的某一數目的線被採用時，且當一時間扭曲操作被執行時，即，當時間扭曲器506如由剖面綫507所指示的被停用時，所獲得的帶寬。然而，當一非恒定時間扭曲輪廓被獲得，且當該時間扭曲輪廓被帶至引起一取樣率增加的一較高音距時(第9(a)、(c)圖)，該頻譜之帶寬關於一正常，未時間扭曲的情況被減少。這意指要對該訊框發送的線之數目必須被增加，以平衡該帶寬之損失。

可供選擇地，將音距帶至第9(b)圖或第9(d)圖所示的一較低恒定音距中導致一取樣率的降低。該取樣率降低導致關於該線性標度的該訊框之頻譜的一帶寬增加，且該帶寬增加必須使用關於正常未時間扭曲情況的線之數目值的某一數目線的一刪除或廢除而被平衡。

第9(e)圖繪示一特定情況，其中一音距輪廓被帶至一中間位準，使得一訊框中的平均取樣頻率與沒有任何時間扭曲的取樣頻率相同，而不是執行該時間扭曲操作。因此，該信號之帶寬不受影響，且要針對正常情況使用而不需要時間扭曲的該簡單數目之線可被處理，雖然該時間扭曲操作被執行。從第9圖，執行一時間扭曲操作沒必要影響該頻帶變得清晰，但是帶寬之影響取決於該音距輪廓及路線，該時間扭曲如何在一訊框中被執行。因此，較佳地使用一局部或平均取樣率作為控制值。該局部取樣率的決定繪示於第11圖中。第11圖的上部繪示具有等距取樣值的一時間部份。一訊框包括，例如在較高圖中由T_n 指示的七個取樣值。較低圖繪示一時間扭曲操作之結果，其中一取樣率增強發生。這意指該時間扭曲訊框的時間長度小於未時間扭曲訊框的時間長度。然而，因為要被引入該時間/頻率轉換器的時間扭曲訊框的時間長度是固定的，一取樣率增加的情況導致不屬於由T_n 指示的訊框的該時間信號的一附加部份被引入該時間扭曲訊框，如線1100所指示的。因此，一時間扭曲訊框覆蓋有T_lin 指示的音訊信號的一時間部份，T_lin 長於時間T_n 。如此看來，兩條頻譜線之間的有效距離或線性域中的一單一線的頻率帶寬(是該解析度之相反值)減少，且當乘以減少的頻率距離時，針對一未時間扭曲情況設定的該等數目的線N_n 導致一較小帶寬，即，一帶寬減小。

未示於第11圖中，一取樣率減少由該時間扭曲器執行的其他情況，在時間扭曲域中的一訊框的有效時間長度小於該未時間扭曲域中的時間長度，使得一單一線的頻率帶寬或兩個頻率線之間的距離減少。現在對於正常情況，以線之數目N_N 乘以增加的△f將導致由於兩個相鄰頻率係數之間的減少的頻率解析度/增加的頻率距離而增加的帶寬。

第11圖另又繪示一平均取樣率f_SR 如何被計算。為此，兩個時間扭曲樣本之間的時間距離被判定且該相反值被採用，該相反值被定義為兩個時間扭曲樣本之間的局部取樣率。此一值可在每對相鄰樣本中被計算，且該算術平均值可被計算，且該值最終產生該平均局部取樣率，該平均局部取樣率被較佳地用於被輸入至第10a圖的控制器1000中。

第10b圖繪示指示多少線必須依據該局部取樣頻率被加入或廢除的圖表，其中未扭曲情況的取樣頻率f_N 與未時間扭曲情況的線之數目N_N 界定該預期的帶寬，對於一系列時間扭曲訊框或一系列時間扭曲級未時間扭曲訊框，該帶寬應被盡可能的保持為恒定。

第12b圖繪示連同第9b圖、第10b圖及第11圖所討論的不同參數之間的依賴。在根本上，當取樣率，即平均取樣率f_SR 關於未時間扭曲情況降低時，線必須被刪除，而當取樣率關於該常規取樣率f_N 增加時，線必須被加入，使得從訊框到訊框的帶寬被減少，或較佳地甚至盡可能地被消除。

由該等數目的線N_N 及取樣率f_N 產生帶寬較佳地對一音訊編碼器界定交叉頻率為1200，該音訊編碼器除一源核心音訊編碼器外，具有一帶寬延伸編碼器(BWE編碼器)。如該該技藝中所習知的，一帶寬延伸編碼器僅以一高位元率編碼一頻譜直到該交叉頻率，且以一低位元率編碼該高頻帶，即交叉頻率1200與頻率f_MAX 之間的頻譜，其中該低位元率典型地甚至低於一頻率0與交叉頻率1200之間的低頻帶所需的位元率的1/10或更少。第12a圖進一步繪示一簡單AAC音訊編碼器的帶寬BW_AAC ，其高於該交叉頻率。因此，線不僅可被廢除，也可被加入。另外，對於一恒定數目線依據局部取樣率f_SR 的變化也被說明。較佳地，與正常情況的線之數目有關的要被加入或要被刪除的線之數目被設定，使得AAC進編碼資料的每一訊框具有盡可能接近交叉頻率1200的一最大頻率。因此，由於一方面一帶寬減少，或由於一低頻帶編碼訊框中，在交叉頻率之上的一頻率上發送資訊的一間接費用造成的任何頻譜孔被避免。這一方面增加解碼音訊信號的品質，且另一方面降低了位元率。

與線之一設定數目有關的實際加入線，或與該設定數目線有關的刪除線可在量化該等線之前，即，在塊512的輸入處被執行，或可在量化之後被執行，或依據特定熵編碼，也可在熵編碼後被執行。

另外，較佳地，將該等帶寬變化達到一最小位準，且甚至消除該等帶寬變化，但是在其他實施例中，藉由依據該等時間扭曲特性判定線之數目的帶寬變化的一降低，較之於一恒定數目線被施加而不管某一時間扭曲特性的情況，提高了該音訊品質，且減少了所需要的位元元率。

雖然一些層面已在一設備的內文中被描述，很明顯，該等層面也表示相對應的方法之描述，其中一方塊或設備相對應於一方法步驟或一方法步驟的一特徵。類似地，在一方法步驟的內文中描述的層面也表示一相對應的方塊或項，或一相對應設備的特徵的一描述。

依據某些實施要求，本發明之實施例可在硬體或軟體中被實施。該實施可使用一數位儲存媒體，例如一磁片、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一FLASH記憶體被執行，該數位儲存媒體具有電子可讀控制信號被儲存於其上，該信號與(或能夠與)一可程式電腦系統配合，使得各自方法被執行。依據本發明的一些實施例包含一具有電子可讀控制信號的資料載體，該等信號能夠與一可程式電腦系統配合，使得本文描述的方法之一可用一程式碼以一電腦程式產品被實施，檔該電腦程式產品在一電腦上運行時，該程式碼操作以執行該等方法之一。該程式碼可，例如被儲存於一機器可讀載體上。其他實施例包含儲存於一機器可讀載體上的電腦程式，用於執行本文所描述的方法之一。因此，換句話說，該發明的方法的一實施例是具有一程式碼的一電腦程式，當該電腦程式運行於一電腦上時，該程式碼用於執行本文所描述的方法之一。因此，該發明的方法之一進一步的實施例是一資料載體(或一數位儲存媒體，或一電腦可讀媒體)，其包含記錄於其上的電腦程式，用於執行本文所描述的該等方法之一。因此，該發明的方法之一進一步的實施例是表示該電腦程式的一資料串流或一系列信號，用於執行本文所描述的該等方法之一。該資料串流或該系列信號可，例如被設定組態以經由一資料通信連接，例如經由網際網路被傳送。一進一步的實施例包含一處理裝置，例如一電腦，或一可程式邏輯裝置，被設定組態以或適於執行本文所描述的方法之一。一進一步的實施例包含一電腦，具有安裝於其上的電腦程式，用於執行本文所描述的方法之一。在一些實施例中，一可程式邏輯裝置(例如一現場可程式閘陣列)可被用於本文所描述的該等方法之一些或全部功能。在一些實施例中，一現場可程式閘陣列可與一微處理器配合，以執行本文所描述的該等方法之一。

100、230、234‧‧‧時間扭曲致動信號提供器

110‧‧‧音訊信號表示

112、232‧‧‧時間扭曲致動信號

120、234f、2341、325‧‧‧能量集中提供器

122、234m、234n、374‧‧‧能量集中資訊

130、234o‧‧‧比較器

132‧‧‧參考值

200‧‧‧音訊信號編碼器

210‧‧‧輸入音訊信號

212‧‧‧編碼表示

234a、234g‧‧‧時間扭曲表示提供器

234b、234h、220a‧‧‧(可選)分析視窗器

234c、234i、220b‧‧‧重新取樣器或時間扭曲器

234d、234j‧‧‧(可選)頻譜域變換器

234e、234k‧‧‧時間扭曲表示

234p‧‧‧時間扭曲致動信號

220‧‧‧時間扭曲變換器

220c‧‧‧頻域變換器(時間/頻率轉換器例如MDCT)

222‧‧‧時間扭曲頻譜表示

240‧‧‧受控開關(切換機制)

242‧‧‧新時間扭曲輪廓資訊

250‧‧‧頻譜後處理

260‧‧‧量化器/編碼器

262‧‧‧已量化且編碼頻譜表示

270‧‧‧感知模型

272‧‧‧感知關聯資訊

280‧‧‧輸出介面

284‧‧‧時間扭曲分析器

286‧‧‧時間扭曲輪廓資訊

288‧‧‧標準時間扭曲輪廓資訊

301、350、355、360‧‧‧橫座標

302、351、356、361‧‧‧縱座標

303、308、352‧‧‧弧線

311、312、313‧‧‧頻帶

316‧‧‧高頻譜的一高頻部份

326‧‧‧感知熵資訊

327‧‧‧形式因子計算器

328‧‧‧形式因子資訊

329‧‧‧頻帶能量計算器

330‧‧‧頻帶能量資訊en(n)

331‧‧‧線估計器

332‧‧‧經估計數目的線資訊nl

333‧‧‧感知熵計算器

362‧‧‧標記

370‧‧‧能量集中資訊提供器

371‧‧‧自動相關計算器

372‧‧‧自動相關加法器

400、450‧‧‧方法

410~430、460~480‧‧‧步驟

500‧‧‧編碼器輸入

502‧‧‧分析視窗器

504‧‧‧視窗功能(形狀)控制器

506‧‧‧時間扭曲器

507‧‧‧剖面綫

508、556‧‧‧時間/頻率轉換器

510T‧‧‧NS級

510a、510b、526、528、530‧‧‧輸出

512‧‧‧量化器及編碼器

514‧‧‧感知模型

516‧‧‧時間扭曲分析器

518‧‧‧時間扭曲分析器輸出

520‧‧‧信號分類器

520a‧‧‧有聲/無聲檢測器

520b‧‧‧語音/無語音檢測器

522‧‧‧輸出介面

524、562‧‧‧雜訊注入分析器

530‧‧‧輸出

539‧‧‧輸入介面

540‧‧‧輸入

541‧‧‧信號分類資訊

542‧‧‧時間扭曲資訊

543‧‧‧雜訊注入資料

544‧‧‧量尺因子

545‧‧‧TNS資料

546‧‧‧編碼頻譜資訊

547‧‧‧熵解碼器

550‧‧‧重新量化器

552‧‧‧雜訊注入器

554‧‧‧反TNS級

558‧‧‧時間解扭器

560‧‧‧合成視窗器

564‧‧‧音訊信號

600‧‧‧信號分析器

602‧‧‧雜訊注入位準調處器

700‧‧‧暫態檢測器

701‧‧‧長視窗功能(無暫態)

702‧‧‧短視窗功能(暫態)

704‧‧‧臨界值控制信號

706、707‧‧‧視窗功能

708、720‧‧‧零值部份

710‧‧‧長視窗

712‧‧‧短視窗

714‧‧‧長終止視窗

714a‧‧‧第一重疊部份

714b、718b‧‧‧非頻疊部份

714c‧‧‧第二較短重疊部份

716‧‧‧零值點

718‧‧‧長起始視窗

718a‧‧‧長重疊部份

718c‧‧‧短重疊部份

749‧‧‧具短重疊視窗形狀

750‧‧‧具長重疊視窗形狀

751‧‧‧信號

800‧‧‧TNS增益計算器

802‧‧‧TNS判定器

803‧‧‧TNS控制資訊

804‧‧‧臨界值控制信號產生器

806‧‧‧臨界值控制信號

1000‧‧‧控制器

1001、1002‧‧‧訊框

1100‧‧‧線

1200‧‧‧交叉頻率

f‧‧‧頻率

H‧‧‧高頻

L‧‧‧低頻