TWI492223B

TWI492223B - 音訊編碼器、音訊解碼器、用以編碼及解碼音訊信號之方法、音訊串流與電腦程式

Info

Publication number: TWI492223B
Application number: TW098122400A
Authority: TW
Inventors: Nikolaus Rettelbach; Bernhard Grill; Guillaume Fuchs; Stefan Geyersberger; Markus Multrus; Harald Popp; Juergen Herre; Stefan Wabnik; Gerald Schuller; Jens Hirschfeld
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-07-11
Filing date: 2009-07-02
Publication date: 2015-07-11
Also published as: KR101582057B1; CA2730536A1; CA2730361A1; AU2009267459B2; BR122021003097B1; US20110170711A1; US11869521B2; AR072482A1; ZA201100091B; ES2422412T3; CA2730536C; BR122021003142B1; EP2304719B1; ES2642906T3; EP3246918A1; BRPI0910522A2; KR20140036042A; HK1160285A1; EG26480A; KR20160004403A

Description

音訊編碼器、音訊解碼器、用以編碼及解碼音訊信號之方法、音訊串流與電腦程式

依據本發明的實施例係有關於一種基於一輸入音訊信號的一轉換域表示提供一音訊串流的編碼器。依據本發明進一步的實施例係有關於一種基於一編碼音訊串流提供一音訊信號的一解碼表示的解碼器。依據本發明進一步的實施例提供用於編碼一音訊信號及解碼一音訊信號的方法。依據本發明進一步的實施例提供一音訊串流。依據本發明進一步的實施例提供用於編碼一音訊信號及解碼一音訊信號的電腦程式。

一般而言，依據本發明的實施例係有關於一種雜訊注入。

發明背景

音訊編碼概念通常在頻域中編碼一音訊信號。例如，所謂的「進階音訊編碼」(AAC)概念將一心理聲學模型計入考慮編碼不同頻譜容量(或頻率槽)之內容。為此，不同頻譜容量的強度資訊被編碼。然而，用於編碼不同的頻譜容量中的強度的解析度依據不同頻譜容量的心理聲學關聯性被調整。藉此，一些被認為心理聲學關聯低的頻譜容量以一非常低的強度解析度被編碼，使得被認為具有低心理聲學關聯的部分或甚至於支配性數量之頻譜容量量化為零。將一頻譜容量的強度量化為零帶來量化的零值可用一非常節省位元的方法被編碼的優勢，這有助於保持位元率盡可能小。然而，量化為零的頻譜容量有時產生可聽見的人工失真，即便該心理聲學模型指示該等頻譜容量是低心理聲學關聯性時亦然。

因此，一音訊編碼器及一音訊解碼器中有處理量化為零的頻譜容量的需求。

有不同的習知方法可供在轉換域音訊編碼系統及語言編碼器中處理被編碼為零的頻譜容量。

例如，MPEG-4「AAC」(進階音訊編碼)使用感知雜訊替代(PNS)之概念。該感知雜訊替代僅以雜訊注入全部的量尺因子頻帶。有關MPEG-4 AAC之細節例如可在國際標準ISO/IEC 14496-3(資訊技術-視聽對象之編碼-第3部份：音訊)中找到。另外，AMR-WB+語言編碼器以一隨機雜訊向量替代量化為零的向量量化向量(VQ向量)，在該隨機雜訊向量中，每一複雜頻譜值具有一恒定振幅及一隨機相。該振幅由以位元流被傳送的一個雜訊值控制。有關AMR-WB+語言編碼器之細節例如可在名為「Third Generation Partnership Project；Technical Specification Group Services and System Aspects；Audio Codec Processing Functions；Extended Adaptive Multi-Rate-Wide Band(AMR-WB+)Codec；Transcoding Functions(Release Six)」的技術規範說明中找到，該規範說明亦稱為「3GPP TS 26.290 V6.3.0(2005-06)-Technical Specification」。

另外，EP 1 395 980 B1描述一音訊編碼概念。該公開案描述一種方法，藉由該方法可聽見但感知上關聯較低之原始音訊信號資訊之選擇頻帶不需被編碼，但是可能由一雜訊注入參數替代。相反地，那些感知上關聯較高的內容的信號頻帶被完全編碼。編碼位元以此方式被節省，而在該已接收信號的頻譜中未留下虛值。該雜訊注入參數是所討論頻帶中的RMS信號值的量測，且藉由一解碼演算法被用在接收端以指示要注入所討論頻帶中的雜訊之總數。

其他方法提供一種將發送頻譜的音調計入考慮下將非導引性雜訊插入編碼器。

然而，習知概念典型地帶來的問題是它們包含一有關雜訊注入之粒度的低解析度而典型地降級聽覺印象，或需要一相當大量的雜訊注入旁資訊，這需要額外的位元率。

鑑於以上所述，需要一種改進的雜訊注入概念，該概念在可實現的聽覺印象與要求位元率之間提供一改進的折衷方案。

發明概要

依據本發明的一實施例建立一種基於一輸入音訊信號的一轉換域表示提供一音訊串流的編碼器。該編碼器包含一量化誤差計算器，被設定組態以判定該輸入音訊信號對複數頻帶(例如多個量尺因子頻帶上)的一多頻帶量化誤差，個別頻帶增益資訊(例如個別量尺因子)可供該複數頻帶之用。該編碼器也包含一音訊串流提供器，被設定組態以提供該音訊串流，使得該音訊串流包含一描述該等頻帶的一音訊內容的資訊及一描述該多頻帶量化誤差的資訊。

上述編碼器所依據的發現是，使用多頻帶量化誤差資訊帶來基於相當小量旁資訊獲得一良好聽覺印象的可能性。詳言之，使用一涵蓋個別頻帶增益資訊可利用之複數頻帶的多頻帶量化誤差資訊，可容許考慮基於多頻帶量化誤差之該雜訊值的解碼器端依頻帶增益資訊比例調整。因此，由於該頻帶增益資訊典型地與該等頻帶的一心理聲學關聯性或與被施加於該等頻帶的一量化精確度相關，該多頻帶量化誤差資訊被識別為一旁資訊，這允許考慮提供一良好的聽覺印象的一合成注入雜訊，同時保持該旁資訊位元率的低成本。

在一較佳實施例中，該編碼器包含一量化器，被設定組態以取決於不同頻帶的心理聲學關聯性，使用不同的量化精確度量化該轉換域表示的不同頻帶的頻譜成份(例如，頻譜係數)，以獲得量化的頻譜成份，其中該等不同的量化精確度由該頻帶增益資訊反映。並且，該音訊串流提供器被設定組態以提供該音訊串流，使得該音訊串流包含一描述該頻帶增益資訊的資訊(例如以量尺因子的形式)，且使得該音訊串流也包含描述該多頻帶量化誤差的資訊。

在一較佳實施例中，該量化誤差計算器被設定組態以判定在該量化域中的量化誤差，使得一取決於該頻譜成份的頻帶增益資訊、在一整數值量化前被執行的比例調整被計入考慮。考慮該量化域中的量化誤差，當計算該多頻帶量化誤差時將頻譜容量的心理聲學關聯性計入考慮。例如，對於低感知關聯性的頻帶而言，該量化可能是粗略的，因此絕對量化誤差(在非量化域中)很大。相較之下，對於高心理聲學關聯性的頻帶而言，該量化是精細的，且該量化誤差在非量化域中很小。為了使高心理聲學關聯性及低心理聲學關聯性的頻帶中的量化誤差具可比較性，以獲得一有意義的多頻帶量化誤差資訊，在一較佳實施例中該量化誤差在該量化域中(而不是在非量化域中)被計算。

在一另外較佳實施例中，該編碼器被設定組態以將量化為零的一頻帶(例如，該頻帶的所有頻譜容量量化為零)的一頻帶增益資訊(例如，一量尺因子)設定為表示量化為零的頻帶之一能量與該多頻帶量化誤差的一能量之間的一比率的一值。藉由將量化為零的一頻帶的一量尺因子設定為一定義明確的值，以一雜訊注入該量化為零的頻帶是可能的，使得該雜訊的能量至少大約等於該量化為零的頻帶之原始信號能量。藉由調整該編碼器中的該量尺因子，一解碼器可用與任何其他未量化為零的頻帶之相同方法處理該量化為零的頻帶，使得不需要一複雜異常處理(典型地需要一額外發信)。另外，藉由調整該頻帶增益資訊(例如量尺因子)，該頻帶增益值與該多頻帶量化誤差資訊的一組合允許注入雜訊的一便利判定。

在一較佳實施例中，該量化誤差計算器被設定組態以判定複數頻帶上的該多頻帶量化誤差，該複數頻帶包含至少一個量化為一非零值的頻率成份(例如頻率槽)，而避免頻帶被全部量化為零。已發現如果全部量化為零的頻帶從計算中被省去，一多頻帶量化誤差資訊尤其重要。在全部量化為零的頻帶中，該量化典型地非常粗略，使得從此一頻帶獲得的量化誤差資訊典型地不特別重要。另外，心理聲學上較關聯的，沒有全部量化為零的頻帶中的量化誤差提供一較重要的資訊，該資訊允許在解碼器側適於人類聽覺的一雜訊注入。

依據本發明的一實施例建立一種基於表示該音訊信號的頻帶之頻譜成份的一編碼串流，提供一音訊信號的解碼表示的解碼器。該解碼器包含一雜訊注入器，被設定組態以將雜訊引入複數頻帶的頻譜成份中(例如，頻譜線值，或較一般地，頻譜容量值)，個別頻帶增益資訊(例如，量尺因子)基於一共同多頻帶雜訊強度值與該複數頻帶相關聯。

該解碼器基於一項發現，即如果個別頻帶增益資訊與不同的頻帶相關聯，那麼一單一多頻帶雜訊強度值可被施用於一具有良好結果的雜訊注入。因此，被引入不同頻帶中的雜訊之一個別比例調整可能是基於該頻帶增益資訊，使得，例如，當與個別頻帶增益資訊結合時，該單一共同多頻帶雜訊強度值提供足夠的資訊，以用適配於人類心理聲學的方法引入雜訊。因此，本文所描述的概念允許在量化(但是非重調整)域中施加一雜訊注入。加入該解碼器中的雜訊可以該頻帶的心理聲學關聯性依比例調整，而不需要額外的旁資訊(除了無論如何在依據頻帶的心理聲學關聯性依比例調整該等頻帶的非雜訊音訊內容時需要的旁資訊以外)。

在一較佳實施例中，該雜訊注入器被設定組態以取決於各自的個別頻譜容量是否量化為零，選擇性地基於按每一頻譜容量決定是否將一雜訊引入一頻帶的個別頻譜容量。因此，保持所需旁資訊的量小的同時獲得雜訊注入的一細粒度是可能的。事實上，不需要發送任何特定頻帶雜訊注入旁資訊，然而仍具有關於該雜訊注入的一優良粒度。例如，典型地需要對一頻帶發送一頻帶增益因數(例如量尺因子)，即使該頻帶的僅一單一頻譜線(或一單一頻譜容量)量化為一非零強度值。因此，可以說，如果該頻帶的至少一個頻譜線(或一頻譜容量)量化為一非零強度，量尺因子資訊可無額外成本地供雜訊注入之用(依據位元率)。然而，依據本發明的一發現，沒有必要傳送特定頻帶雜訊資訊以獲得一頻帶中的一合適的雜訊注入，在此一頻帶中，至少一個非零頻譜容量強度值存在。另外，已發現心理聲學上的良好結果可藉由使用與特定頻帶的頻帶增益資訊(例如量尺因子)結合的多頻帶雜訊強度值而獲得。因此，不需要在一特定頻帶雜訊注入資訊上浪費位元。另外，一單一多頻帶雜訊強度值的發送是充分的，因為該多頻帶雜訊注入資訊可與不論以何種方式被發送的頻帶增益資訊結合，以獲得非常適合於人類聽覺期望的特定頻帶雜訊注入資訊。

在另一較佳實施例中，該雜訊注入器被設定組態以接收多個表示一頻域音訊信號表示的第一頻帶之不同重疊或不重疊頻率部份的頻譜容量值，且接收多個表示該頻域音訊信號表示的第二頻帶之不同重疊或不重疊頻率部份的頻譜容量值。另外，該雜訊注入器被設定組態以用一第一頻譜容量雜訊值替代該複數頻帶的第一頻帶之一個或多個頻譜容量值，其中該第一頻譜容量雜訊值的大小由該多頻帶雜訊強度值決定。另外，該雜訊注入器被設定組態以用具有與第一頻譜容量雜訊值相同大小的一第二頻譜容量雜訊值替代第二頻帶的一個或多個頻譜容量值。該解碼器也包含一比例調整器，被設定組態以用第一頻帶增益值依比例調整該第一頻帶的頻譜容量值，以獲得該第一頻帶的頻譜容量值，且用一第二頻帶增益值依比例調整該第二頻帶的頻譜容量值，以獲得該第二頻帶依比例調整的頻譜容量值，使得用第一及第二頻譜容量雜訊值替代的頻譜容量值以不同的頻帶增益值依比例調整，且使得用第一頻譜容量雜訊值替代的頻譜容量值、表示該第一頻帶的一音訊內容的該第一頻帶的一非替代頻譜容量值用該第一頻帶增益值依比例調整，且使得用第二頻譜容量雜訊值替代的頻譜容量值、表示該第二頻帶的一音訊內容的第二頻帶的一非替代頻譜容量值以該第二頻帶增益值依比例調整。

在依據本發明的一實施例中，該雜訊注入器被可選擇地設定組態以，如果一特定頻帶量化為零，使用一雜訊偏移值選擇性地修改該特定頻帶的一頻帶增益值。因此，該雜訊偏移用於將許多旁資訊位元最小化。就該最小化而言，應注意在一AAC音訊編碼器中量尺因子(scf)的編碼使用隨後的量尺因子(scf)之差的一霍夫曼編碼被執行。微小差獲得最短的編碼(而較大差獲得較大編碼)。該雜訊偏移在從習知量尺因子(未量化為零的頻帶的量尺因子)到雜訊量尺因子且返回的過渡中最小化該「平均差」，且因此最優化該旁資訊的位元需求。這是由於通常該等「雜訊量尺因子」大於習知量尺因子的事實，因為所包括的線不>=1，但是相當於平均量化誤差e(其中典型地，0<e<0.5)。

在一較佳實施例中，該雜訊注入器被設定組態以用頻譜容量雜訊值(頻譜容量雜訊值的大小取決於多頻帶雜訊強度值)替代量化為零的頻譜容量的頻譜容量值，以獲得最低頻譜容量係數在一預定頻譜容量指數之上的頻帶的替代頻譜容量值一的，而最低頻譜容量係數在預定頻譜容量指數之下的頻帶之頻譜容量值不受影響。另外，該雜訊注入器較佳地被設定組態以選擇性地，對於最低頻譜容量係數在預定頻譜容量指數之上的頻帶，如果一特定頻帶完全量化為零，取決於一雜訊偏移值而修改該特定頻帶之頻帶增益值(例如一量尺因子值)。較佳地，該雜訊注入僅在預定頻譜容量指數之上被執行。並且，該雜訊偏移較佳地僅被施加於量化為零的頻帶，且較佳地在預定頻譜容量指數之下不被施加。另外，該解碼器較佳地包含一比例調整器，被設定組態以將該被選擇性地修改的或未修改的頻帶增益值施加於被選擇性地替代或未替代的頻譜容量值，以獲得依比例調整的頻譜資訊，該資訊表示該音訊信號。使用此方法，該解碼器達到一非常平衡的聽覺印象，該聽覺印象並未由該雜訊注入被嚴重降級。雜訊注入僅施加於該等較高頻帶(具有一預定頻譜容量指數之上的一最低頻譜容量係數)，因為在較低頻帶中的一雜訊注入將帶來不希望的聽覺印象之降級。另一方面，較佳地在較高頻帶中執行該雜訊注入。應注意在一些情況中，較低量尺因子頻帶(sfb)被量化得更細(相較於較高量尺因子頻帶)。

依據本發明的另一實施例建立一種基於該輸入音訊信號的一轉換域表示提供一音訊串流的方法。

依據本發明的另一實施例建立一種基於一編碼音訊串流提供一音訊信號的一解碼表示的方法。

依據本發明的又一實施例建立一種用於執行一個或多個上述方法的電腦程式。

依據本發明的再一實施例建立一種表示音訊信號的音訊串流。該音訊串流包含描述該音訊信號的頻譜成份之強度的頻譜資訊，其中該頻譜資訊在不同的頻帶中以不同的量化精確度量化。計入不同的量化精確度，該音訊串流也包含描述在複數頻帶上的一多頻帶量化誤差的一雜訊位準。如上所述，此一音訊串流允許該音訊內容的一有效解碼，其中在一可實現的聽覺印象與一所要求的位元流之間的獲得一良好折衷。

圖式簡單說明

第1圖繪示依據本發明一實施例的一編碼器的方塊示意圖；第2圖繪示依據本發明另一實施例的一編碼器的方塊示意圖；第3a圖及第3b圖繪示依據本發明一實施例的一擴展進階音訊編碼(AAC)的方塊示意圖；第4a圖及第4b圖繪示被執行供一音訊信號的編碼之用的演算法之偽碼程式列表；第5圖繪示依據本發明一實施例的一解碼器的方塊示意圖；第6圖繪示依據本發明另一實施例的一解碼器的方塊示意圖；第7a圖及第7b圖繪示依據本發明一實施例的一擴展AAC(進階音訊編碼)解碼器的方塊示意圖；第8a圖繪示一反向量化的數學表示，該反向量化可在第7圖中的擴展AAC解碼器中被執行；第8b圖繪示反向量化的一演算法之偽碼程式列表，該反向量化可由第7圖中的擴展AAC解碼器被執行；第8c圖繪示該反向量化的一流程圖表示；第9圖繪示一雜訊注入器及一重調整器的方塊示意圖，它們可用在第7圖的擴展AAC解碼器中；第10a圖繪示一演算法的偽程式碼表示，該演算法可由第7圖繪示的雜訊注入器或由第9圖繪示的雜訊注入器執行；第10b圖繪示第10a圖的偽程式碼的元素之圖例；第11圖繪示一種方法的流程圖，該方法可在第7圖的雜訊注入器或第9圖的雜訊注入器中被實施；第12圖繪示第11圖之方法的一圖式說明；第13a圖及第13b圖繪示演算法的偽程式碼表示，該等演算法可由地7圖的雜訊注入器或第9圖的雜訊注入器執行；第14a圖至第14d圖繪示依據本發明一實施例的一音訊串流的位元串流元素的表示；及第15圖繪示依據本發明另一實施例的一位元串流的一圖式表示。

較佳實施例之詳細說明 1.編碼器 1.1.依據第1圖之編碼器

第1圖繪示依據本發明一實施例的一種基於一輸入音訊信號的轉換域表示提供一音訊串流的編碼器的方塊示意圖。

第1圖的編碼器100包含一量化誤差計算器110及一音訊串流提供器120。該量化誤差計算器110被設定組態以接收於一第一頻帶有關的一資訊112(一第一頻帶增益資訊可供其用)，及關於一第二頻帶的一資訊114(一第二頻帶增益資訊可供其用)。該量化誤差計算器被設定組態以判定該輸入音訊信號的複數頻帶上的一多頻帶量化誤差，個別的頻帶增益資訊可供其利用。例如，量化誤差計算器110被設定組態以使用資訊112、114判定第一頻帶及第二頻帶上的一多頻帶量化誤差。因此，量化誤差計算器110被設定組態以向音訊串流提供器120提供描述多頻帶量化誤差的資訊116。音訊串流提供器120被設定組態以同樣接收一描述第一頻帶的資訊122及一描述第二頻帶的資訊124。另外，該音訊串流提供器120被設定組態以提供一音訊串流126，使得音訊串流126包含資訊116的一表示及第一頻帶與第二頻帶的音訊內容的一表示。

因此，編碼器110提供包含一資訊內容的一音訊串流126，該資訊內容允許使用一雜訊注入有效解碼該頻帶的音訊內容。特定地，由編碼器提供的音訊串流126帶來位元率與雜訊注入解碼彈性之間的一良好折衷。

1.2.依據第2圖之編碼器 1.2.1.編碼器概觀

在下文中，依據本發明一實施例的一改進的音訊編碼器將被描述，該音訊編碼器基於在國際標準ISO/IEC 14496-3：2005(E),Information Technology-Coding of Audio-Visual Objects-Part 3：Audio,Sub-part 4：General Audio Coding(GA)-AAC,Twin VQ,BSAC中表述的音訊編碼器。

依據第2圖的音訊編碼器200特別基於在ISO/IEC 14496-3：2005(E)，第3部份：音訊，第4子部份、第4.1節中描述的音訊編碼器。然而，音訊編碼器200不需要實施ISO/IEC 14496-3：2005(E)的音訊編碼器的精確功能性。

音訊編碼器200例如可被設定組態以接收一輸入時間信號210，且據以提供一編碼音訊串流212。一信號處理路徑可包含一可選降低取樣頻率取樣器220、一可選AAC增益控制222、一塊交換濾波器組224、一可選信號處理226、一擴展AAC編碼器228及一位元串流付載格式器230。然而，編碼器200典型地包含一心理聲學模型240。

在一非常簡單的情況中，編碼器200僅包含塊交換/濾波器組224、擴展AAC編碼器228、位元串流付載格式器230及心理聲學模型224，而其他組件(特別地，組件220、222、226)應被看作僅是任選的。

在一簡單的情況中，塊交換/濾波器組224，接收輸入時間信號210(可選擇地由降低取樣頻率取樣器220降低頻率取樣，且可選擇地由AAC增益控制器222依比例調整增益)，且據以提供一頻域表示224a。頻域表示224a例如可包含描述輸入時間信號210的頻譜容量值強度(例如，振幅或能量)的一資訊。例如，塊交換/濾波器組224可被設定組態以執行一改良型離散餘弦轉換(MDCT)以從輸入時間信號210導出頻域值。頻域表示224a可邏輯上被分為不同的頻帶，該等頻帶也被稱為「量尺因子頻帶」。例如，假定塊交換/濾波器組224對大量不同的頻率槽提供頻譜值(也稱為頻率槽值)。此外，頻率槽的數目由輸入進濾波器組224的一窗口長度決定，且也取決於取樣率(及位元率)。然而，該等頻帶或量尺因子頻帶定義由塊交換/濾波器組提供的頻譜值的子集。關於該等量尺因子頻帶的定義之細節對該技藝中具有通常知識者是習知的，且也在ISO/IEC 14496-3：2005(E),Part 3,Sub-part 4中被描述。

擴展AAC編碼器228基於輸入時間信號210(或該信號的一預處理版本)接收由塊交換/濾波器組224提供的頻譜值224a，作為一輸入資訊228a。如第2圖所示，擴展AAC編碼器228的輸入資訊228a可使用可選頻譜處理226的一個或多個處理步驟從頻譜值224a導出。對於有關頻譜處理226的可選預處理步驟而言，參考ISO/IEC 14496-3：2005(E)，及其中參考的另外標準。

擴展AAC編碼器228被設定組態以接收多個頻譜容量的頻譜值形式的輸入資訊228a，且基於該輸入資訊提供該頻譜的一量化且無雜訊編碼的表示228b。為此，擴展AAC編碼器228例如可使用藉由使用心理聲學模型240從輸入音訊信號210(或其的一預處理版本)導出的資訊。大體而言，擴展AAC編碼器228可使用由心理聲學模型240提供的一資訊以決定何種精確度應被用於頻譜輸入資訊228a的不同頻帶(或量尺因子頻帶)之編碼。因此，擴展AAC編碼器228可大體使其不同頻帶的量化精確度適配於輸入時間信號210的特定特徵，且也適配於位元的可用數目。因此，擴展AAC編碼器例如可調整其量化精確度，使得表示量化且無雜訊編碼的頻譜之資訊包含一合適的位元率(或平均位元率)。

位元串流付載格式器230被設定組態以包括表示量化及依據一預定語法無雜訊地編碼成編碼音訊串流212的頻譜的資訊228b。

對於有關本文所描述的該等編碼器組件之功能性的進一步的細節而言，參考ISO/IEC 14496-3：2005(E)(包括其之附件4.B)，且也參考ISO/IEC 13818-7：2003。

另外，參考ISO/IEC 13818-7：2005,Sub-clauses C1 to C9。

另外，關於術語特別參ISO/IEC 14496-3：2005(E),Part 3：Audio,Sub-part 1：Main。

另外，特別參考ISO/IEC 14496-3：2005(E),Part 3：Audio,Sub-part 4：General Audio Coding(GA)-AAC,Twin VQ,BSAC。

1.2.2.編碼器細節

在下文中，關於該編碼器的細節將參考第3a圖、第3b圖、第4a圖及第4b圖被描述。

第3a圖及第3b圖繪示依據本發明一實施例的一擴展AAC編碼器的方塊示意圖。該擴展AAC編碼器以228標示，且可替代第2圖的擴展AAC編碼器228。該擴展AAC編碼器228被設定組態以接收頻譜線大小的一向量，作為一輸入資訊228a，其中該頻譜線向量有時以mdct_line(0...1023)標示。擴展AAC編碼器228也接收編碼解碼臨限資訊228c，該資訊描述一MDCT水準上的一最大允許誤差能量。該編碼解碼臨界資訊228c典型地針對不同量尺因子頻帶被個別提供，且使用心理聲學模型240被產生。該編碼解碼臨界資訊228c有時以x_min (sb)標示，其中參數sb表示量尺因子頻帶相依。擴展AAC編碼器228也接收一位元數目資訊228d，該資訊描述許多用於編碼由頻譜值大小向量228a表示的頻譜的可用位元。例如，位元數目資訊228d可包含一平均位元資訊(以mean_bits標示)及一附加位元資訊(以more_bits標示)。擴展AAC編碼器228也被設定組態以接收一量尺因子頻帶資訊228e，該資訊描述，例如量尺因子頻帶的一數目及寬度。

該擴展AAC編碼器包含一頻譜值量化器310，被設定組態以提供頻譜線之量化值的一向量312，該向量312也以x_quant(0...1023)標示。包括一依比例調整的頻譜值量化器310也被設定組態以提供可表示每一量尺因子頻帶的一個量尺因子，及一共同量尺因子資訊的一量尺因子資訊314。另外，該頻譜值量化器310可被設定組態以提供一位元使用資訊316，該資訊可描述許多用於量化頻譜值大小向量228a的位元。事實上，頻譜值量化器310被設定組態以依據不同頻譜值的心理聲學關聯性以不同的精確度量化向量228a的不同頻譜值。為此，頻譜值量化器310使用不同的、依據量尺因子頻帶的量尺因子依比例調整向量228a的頻譜值，且量化產生的比例調整頻譜值。典型地，與心理聲學上重要的量尺因子頻帶相關聯的頻譜值將以大量尺因子依比例調整，使得心理聲學上重要的量尺因子頻帶之比例調整頻譜值覆蓋一大範圍的值。相較之下，心理聲學上較不重要的量尺因子頻帶之頻譜值以較小的量尺因子依比例調整，使得心理聲學上較不重要的量尺因子頻帶之比例調整頻譜值僅覆蓋一較小範圍的值。該等比例調整頻譜值進而量化至例如一整數值。在此量化中，心理聲學上較不重要的量尺因子頻帶的大多數比例調整頻譜值量化為零，因為心理聲學上較不重要的量尺因子頻帶之頻譜值僅以一小量尺因子依比例調整。

因此，可以說心理聲學上較關聯的量尺因子頻帶之頻譜值以高精確度量化(因為該等較關聯量尺因子頻帶的比例調整頻譜線包含一大範圍的值，且因此包含許多量化步長)，同時心理聲學上較不重要的量尺因子頻帶的頻譜值以較低的量化精確度量化(因為該等較不重要量尺因子頻帶的比例調整頻譜值包含一較小範圍的值且，因此量化為較少的不同量化步長)。

該頻譜值量化器310被典型地設定組態以使用編碼解碼臨界228c及位元數目資訊228d判定合適的量尺因子。典型地，頻譜值量化器310也被設定組態以藉由其本身判定合適的量尺因子。有關頻譜值量化器310的一可能的實施之細節在ISO/IEC 14496-3：2001，第4.B.10.章中被描述。另外，該頻譜值量化器的事實對於MPEG4編碼之技藝中具有通常知識者是習知的。

該擴展AAC編碼器228也包含一多頻帶量化誤差計算器330，被設定組態以接收，例如頻譜值大小向量228a、頻譜線的量化值向量312及量尺因子資訊314。多頻帶量化誤差計算器330，例如被設定組態以判定向量228a的頻譜值的一非量化比例調整版本(例如，使用一非線性比例調整操作及一量尺因子比例調整)與該等頻譜值的一比例調整及量化版本(例如，使用一非線性比例調整操作及一量尺因子依比例調整，且使用一「整數」捨入操作量化)之間的一偏差。另外，多頻帶量化誤差計算器330可被設定組態以計算多個量尺因子頻帶上的一平均量化誤差。應注意該多頻帶量化誤差計算器330較佳地計算一量化域中(較精確地在一心理聲學比例調整域中)的多頻帶量化誤差，使得在心理聲學上關聯的量尺因子頻帶中的一量化誤差當與在心理聲學上較不關聯的量尺因子帶中的一量化誤差比較時在權數上被強調。關於該多頻帶量化誤差計算器之操作的細節將隨後參考第4a圖及第4b圖被描述。

擴展AAC編碼器228也包含一量尺因子配接器340，被設定組態以接收量化值向量312、量尺因子資訊314及由多頻帶量化誤差計算器330提供的多頻帶量化誤差資訊332。量尺因子配接器340被設定組態以識別「量化為零」的量尺因子頻帶，例如所有的頻譜值(或頻譜線)都量化為零的量尺因子頻帶。對於這種完全量化為零的量尺因子頻帶而言，量尺因子配接器340配合各自的量尺因子。例如，量尺因子配接器340可將完全量化為零的一量尺因子頻帶的量尺因子設定為一值，該值表示各自的量尺因子頻帶的一殘餘能量(量化前)與多頻帶量化誤差332的一能量之間的一比率。因此，量尺因子配接器340提供適合的量尺因子342。應注意由頻譜值量化器310提供的量尺因子與由量尺因子配接器提供的適合量尺因子在文獻中及該申請案中以「量尺因子(sb)」、「scf[band]」、「sf[g][sfb]」、「scf[g][sfb]」標示。有關該量尺因子配接器340之操作的細節將隨後參考第4a圖及第4b圖被描述。

擴展AAC編碼器228也包含一無雜訊編碼350，該無雜訊編碼350例如在ISO/IEC 14496-3：2001,Chapter 4.B.11中被說明。簡而言之，該無雜訊編碼350接收頻譜線的量化值(也稱為「頻譜的量化值」)向量312，量尺因子的整數表示342(由頻譜值量化器310提供，或由量尺因子配接器340適合)，及由多頻帶量化誤差計算器330提供的一雜訊注入參數332(例如，以一雜訊位準資訊的形式)。

無雜訊編碼350包含一頻譜係數編碼350a以編碼該等頻譜線的量化值312，且提供該等頻譜線的量化且編碼值352。有關該頻譜係數編碼之細節例如在ISO/IEC 14496-3：2001的sections 4.B.11.2,4.B.11.3,4.B.11.4 and 4.B.11.6中被描述。無雜訊編碼350也包含一量尺因子編碼350b，用於編碼該量尺因子的整數表示342，以獲得一編碼量尺因子資訊354。無雜訊編碼350也包含一雜訊注入參數編碼350c，以編碼一個或多個雜訊注入參數332，以獲得一個或多個編碼雜訊注入參數356。因此，擴展AAC編碼器提供描述該量化且無雜訊編碼頻譜的一資訊，其中該資訊包含該等頻譜線的量化且編碼的值、編碼量尺因子資訊及編碼雜訊注入參數資訊。

在下文中，多頻帶量化誤差計算器330及量尺因子配接器340的功能性將參考第4a圖及第4b圖被描述，其中計算器330及配接器340是發明的擴展AAC編碼器228的關鍵組件。為此，第4a圖繪示由多頻帶量化誤差計算器330及量尺因子配接器340執行的一演算法的一程式列表。

該演算法的第一部份，由第4a圖的第1行至第12行的偽碼表示，包含一平均誤差的計算，該計算由多頻帶量化誤差計算器330執行。該平均量化誤差的計算例如在除了那些量化為零的之外所有量尺因子頻帶上被執行。如果一量尺因子頻帶全部量化為零(例如該量尺因子頻帶的所有頻譜線都量化為零)，那麼該量尺因子頻帶被跳過平均量化誤差的計算。然而，如果一量尺因子頻帶未被完全量化為零(例如包含至少一個未量化為零的頻譜線)，該量尺因子頻帶的所有頻譜線在該平均量化誤差的計算中被考慮。該平均量化誤差在一量化域中(或更精確地，在一比例調整域中)被計算。對平均誤差的一貢獻的計算可見於第4a圖的偽碼之第7行。特別，第7行顯示一單一頻譜線對平均誤差的貢獻，其中該平均在所有頻譜線(其中nLines表示全部考慮到的線的數目)上被執行。

如偽碼的第7行所示，一頻譜線對平均誤差的貢獻是一非量化、比例調整頻譜線大小值與一量化、比例調整頻譜線大小值之間的一差的絕對值(「fabs」-運算符)。在非量化、比例調整頻譜線大小值中，大小值「line」(其可等於mdct_line)使用一冪函數(pow(line,0.75)=line^0.75 )及使用一量尺因子(例如由頻譜值量化器310提供的一量尺因子314)被非線性地依比例調整。在量化、比例調整頻譜線大小值的計算中，頻譜線大小值「line」可使用上述冪函數被非線性地依比例調整且使用上述量尺因子依比例調整。該非線性及線性比例調整之結果可使用一整數運算符「(INT)」量化。使用偽碼的第7行中表述的計算，在心理聲學上較重要的及在心理聲學上較不重要的頻帶上的量化之不同影響被考慮到。

在(平均)多頻帶量化誤差(avgError)的計算之後，該平均量化誤差可選擇性地量化，如偽碼的第13行及第14行所示。應注意本文所示的多頻帶量化誤差之量化特別適於該量化誤差的期望範圍值及統計特徵，使得該量化誤差可以一有效位元方式表示。然而，該多頻帶量化誤差的其他量化可被應用。

該演算法的一第三部份，由第15行至第25行表示，可由量尺因子配接器340執行。該演算法的第三部份用於將已被完全量化為零的量尺因子頻帶的量尺因子設定為一定義明確的值，這允許一簡單的雜訊注入，該雜訊注入帶來一良好的聽覺印象。該演算法的第三部份可選擇地包含雜訊位準的一反向量化(例如，由多頻帶量化誤差332表示)。該演算法的第三部份也包含對於量化為零的量尺因子頻帶的一替代量尺因子值的一計算(同時未量化為零的量尺因子頻帶的量尺因子將不受影響)。例如，用於一定量尺因子頻帶(「band」)的替代量尺因子值使用第4a圖的演算法的第20行所示方程式被計算。在該方程式中，「(INT)」表示一整數運算符，「2.f」表示在一浮點表示中的數字「2」，「log」表示一對數運算符，「energy」表示考慮中的量尺因子頻帶的一能量(在量化前)，「(float)」表示一浮點運算符，「sfbWidth」表示依據頻譜線(或頻譜容量)的一定量尺因子的寬度，及「noiseVal」表示描述該多頻帶量化誤差的一雜訊值。因此，該替代量尺因子描述考慮中的該一定量尺因子頻帶的一平均每頻率槽能量(energy/sfbWidth)，與多頻帶量化誤差的一能量(noiseVal² )之間的一比率。

1.2.3.編碼器結論

依據本發明的實施例建立一種具有一新類型的雜訊位準計算的編碼器。該雜訊位準基於平均量化誤差在量化域中被計算。

在量化域中計算量化誤差帶來顯著的優勢，例如，因為不同的頻帶(量尺因子頻帶)之心理聲學關聯性被考慮到。量化域中每條線(例如每頻譜線，或頻譜容量)的量化誤差典型地在一具有平均絕對誤差0.25(對於通常大於1的常態分配輸入值)之範圍[-0.5；0.5](1量化位階)中。使用提供關於一多頻帶量化誤差的資訊的一編碼器，在量化域中的雜訊注入之優勢可在一編碼器中被開發，隨後將會描述。

編碼器中的雜訊位準計算及雜訊替代檢測可包含以下步驟：

．檢測及標記在解碼器中可由雜訊替代複製的感知上相等的頻帶。例如，一音調或一頻譜平度量測可因此被核對；

．計算及量化平均量化誤差(其可在所有未量化為零的量尺因子頻帶上被計算)；及

．對於量化為零的頻帶計算量尺因子(scf)，使得該引入雜訊的(decoder)與原始能量匹配。

一適合的雜訊位準量化可有助於產生傳送描述多頻帶量化誤差的資訊所需的位元數目。例如，該雜訊位準計入響度的人類感知在對數域中以8量化位階量化。例如，第4b圖中所示演算法可被使用，其中「(INT)」表示一整數運算符，「LD」表示底數為2的一對數運算符，及「meanLineError」表示一每頻率線的量化誤差，「min(.,.)」表示一最小值運算符，「max(.,.)」表示一最大值運算符。

2.解碼器 2.1.依據第5圖的解碼器

第5圖繪示依據本發明一實施例的一解碼器的方塊示意圖。解碼器500被設定組態以接收一編碼的音訊資訊，例如，以一編碼音訊串流510的形式，且基於該編碼的音訊資訊提供該音訊信號的一解碼的表示，例如，基於一第一頻帶的頻譜成份522及一第二頻帶的頻譜成份524。解碼器500包含一雜訊注入器520，該雜訊注入器520被設定組態以接收一第一頻帶的頻譜成份的表示522，第一頻帶增益資訊與其相關聯，及一第二頻帶的頻譜成份的表示524，第二頻帶增益資訊與其相關。另外，雜訊注入器520被設定組態以接收一多頻帶雜訊強度值的一表示526。另外，該雜訊注入器被設定組態以將雜訊引入複數頻帶的頻譜成份中(例如引入頻譜線值或頻譜容量值中)，個別頻帶增益資訊(例如以量尺因子的形式)基於共同多頻帶雜訊強度值526與該等頻帶相關聯。例如，雜訊注入器520可被設定組態以將雜訊引入第一頻帶的頻譜成份522中，以獲得第一頻帶的雜訊影響頻譜成份512，且也將雜訊引入第二頻帶的頻譜成份524，以獲得第二頻帶的雜訊影響頻譜成份514。

藉由將由一單一多頻帶雜訊強度值526描述的雜訊施加於與不同頻帶增益資訊相關聯之不同頻帶的頻譜成份，雜訊可以一非常精細的調諧方式、將一不同頻帶的不同心理聲學關聯性計入考慮而被引入至不同的頻帶中，該心理聲學關聯性由頻帶增益資訊表示。因此，解碼器500能夠基於一非常小的(有效位元)的雜訊注入旁資訊，執行一時間調諧雜訊注入。

2.2.依據第6圖之解碼器 2.2.1.解碼器概觀

第6圖繪示依據本發明一實施例的一解碼器600的方塊示意圖。

解碼器600與ISO/IEC 14496.3：2005(E)中所揭露的解碼器相似，故參考該國際標準。解碼器600被設定組態以接收一編碼的音訊串流610，且據以提供輸出時間信號612。該編碼音訊串流可包含ISO/IEC 14496.3：2005(E)中所描述的一些或全部資訊，且額外包含描述一多頻帶雜訊強度值的資訊。解碼器600進一步包含一位元串流付載變形項620，被設定組態以從該編碼音訊串流610擷取多個編碼音訊參數，該等參數中的一些將在下文中被詳細說明。解碼器600進一步包含一擴展「進階音訊編碼」(AAC)解碼器630，其功能性將參考第7a圖、第7b圖、第8a圖至第8c圖、第9圖、第10a圖、第10b圖、第11圖、第12圖、第13a圖及第13b圖被詳細描述。擴展AAC解碼器630被設定組態以接受一輸入資訊630a，該輸入資訊630a包含，例如一量化且編碼頻譜線資訊、一編碼量尺因子資訊及一編碼雜訊注入參數資訊。例如，擴展AAC解碼器630的輸入資訊630a可與參考第2圖描述的擴展AAC編碼器220a提供的輸出資訊228b相同。

擴展AAC解碼器630可被設定組態以基於輸入資訊630a，提供一比例調整的及反向量化的頻譜的表示630b，例如對於多個頻率槽(例如1024個頻率槽)以比例調整、反向量化的頻譜線值的形式提供。

可選擇地，解碼器600可包含附加頻譜解碼器，例如，一TwinVQ頻譜解碼器及/或一BSAC頻譜解碼器，它們可二者擇一地在一些情況中被用於擴展AAC頻譜解碼器630。

解碼器600可選擇性地包含一頻譜處理640，被設定組態以處理擴展AAC解碼器630的輸出資訊630b，以獲得一塊交換/濾波器組640的一輸入資訊640a。可選頻譜處理640可包含功能性M/S、PNS、預測、強度、長期預測、依賴交換耦接、TNS、依賴交換耦接中的一個或多個，或甚至全部，該等功能性參考ISO/IEC 14493.3：2005(E)及其中的文件被詳細描述。然而，如果頻譜處理630被省略，擴展AAC解碼器630的輸出資訊630b可直接用作塊交換/濾波器組640的輸入資訊640。因此，擴展AAC解碼器630可提供比例調整及反向量化頻譜作為輸出資訊630b。塊交換/濾波器組640使用反向量(選擇性預處理的)頻譜作為輸入資訊640a，且據以提供一個或多個時域重建音訊信號作為一輸出資訊640b。該濾波器組/塊交換可例如，被設定組態以施加在編碼器中(例如在塊交換/濾波器組224中)被實現的頻率映射之反。例如，一改良型離散餘弦反轉換(IMDCT)可由該濾波器組使用。例如，該IMDCT可被設定組態以支援一組120、128、480、512、960或1024，或四組32或256的頻譜係數。

細節上而言，參考例如國際標準ISO/IEC 14496-3：2005(E)。解碼器600可選擇性地進一步包含一AAC增益控制650、一SBR解碼器652及一獨立切換耦接654，以從塊交換/濾波器組640的輸出信號640b導出輸出時間信號612。

然而，塊交換/濾波器組640的輸出信號640b當沒有650、652、654功能時，也可用作輸出時間信號612。

2.2.2.擴展AAC解碼器細節

在下文中，關於擴展AAC解碼器之細節將參考第7a圖及第7b圖被描述。第7a圖及第7b圖繪示第6圖的AAC解碼器630與第6圖的位元串流付載變形項620結合的方塊示意圖。

位元串流付載變形項620接收一解碼的音訊串流610，該音訊串流例如可包含一編碼的音訊資料串流，該音訊資料串流包含一名為「ac_raw_data_block」的語法元素，該語法元素是一音訊編碼器原始資料塊。然而，位元串流付載變形項620被設定組態以向擴展AAC解碼器630提供一量化且經無雜訊編碼頻譜或一表示，其包含一量化且經算術編碼頻譜線資訊630aa(例如，以ac_spectral_data表示)、一量尺因子資訊630ab(例如以scale_factor_data表示)及一雜訊注入參數資訊630ac。雜訊注入參數資訊630ac包含，例如一雜訊偏移值(以noise_offset表示)及一雜訊位準值(以noise_level表示)。

關於擴展AAC解碼器，應注意擴展AAC解碼器630與國際標準ISO/IEC 14496-3：2005(E)的AAC解碼器非常相似，使得可參考該標準的詳細說明。

擴展AAC解碼器630包含一量尺因子解碼器740(也以量尺因子無雜訊解碼工具表示)，被設定組態以接收量尺因子資訊630ab，且據以提供該等量尺因子之一解碼的整數表示742(也以sf[g][sfb]或scf[g][sfb]表示)。關於該量尺因子解碼器740，參考ISO/IEC 14496-3：2005，第4.6.2章及第4.6.3章。應注意該等量尺因子的解碼的整數表示742反映一量化精確度，一音訊信號的不同的頻帶(也以量尺因子頻帶表示)以該量化精確度量化。較大的量尺因子表示相對應的量尺因子頻帶以高精確度量化，且較小量尺因子表示相對應的量尺因子頻帶以低精確度量化。

擴展AAC解碼器630也包含一頻譜解碼器750，被設定組態以接收量化且熵編碼(例如經霍夫曼編碼或算術編碼)的頻譜線資訊630aa，且據以提供一個或多個頻譜的量化值752(例如以x_ac_quant或x_quant表示)。關於該頻譜解碼器，參考例如上述國際標準的第4.6.3節。然而，該頻譜解碼器可供選擇實施可自然地被應用。例如，如果頻譜線資訊630aa被算術地編碼，ISO/IEC 14496-3：2005的霍夫曼解碼器可由一算術解碼器替代。

擴展AAC解碼器630進一步包含一反向量化器760，該反向量化器760可以是一非均勻反向量化器。例如，反向量化器760可提供未比例調整反向量化頻譜值762(例如以x_ac_invquant，或x_invquant表示)。例如，反向量化器760可包含ISO/IEC 14496-3：2005，第4.6.2章中描述的功能性。可選擇地，反向量化器760可包含參考第8a圖至第8c圖的功能性。

擴展AAC解碼器630也包含一雜訊注入器770(也以雜訊注入工具表示)，從量尺因子解碼器740接收量尺因子之解碼整數表示742，從反向量化器760接收未比例調整反向量化頻譜值762，且從位元串流付載變形項620接收雜訊注入參數資訊630ac。該雜訊注入器被設定組態以據以提供該等量尺因子(在本文中以sf[g][sfb]或scf[g][sfb]表示)的改良的(典型地整數的)表示772。雜訊注入器770也被設定組態以據以輸入資訊提供未比例調整、反向量化的頻譜值774，以x_ac_invquant或x_invquant表示。關於該雜訊注入器的功能性的細節將隨後參考第9圖、第10a圖、第10b圖、第11圖、第12圖、第13a圖及第13b圖被描述。

擴展AAC解碼器630也包含一重調整器780，被設定組態以接收量尺因子的改良整數表示772及未比例調整反向量化頻譜值774，且據以提供比例調整、反向量化頻譜值782，該頻譜值782也可以x_rescal表示，且可用作擴展AAC解碼器630的輸出資訊630b。重調整器780例如可包含ISO/IEC 14496-3：2005，4.6.2.3.3中描述的功能性。

2.2.3.反向量化器

在下文中，反向量化器760的功能性將參考第8a圖、第8b圖及第8c圖被描述。第8a圖繪示用於從量化頻譜值752導出未比例調整反向量化頻譜值762的一方程式的一表示。在第8a圖的可選擇的方程式中，「sign(.)」表示一符號運算符，「.」表示一絕對值運算符。第8b圖繪示表示反向量化器760之功能的一偽程式碼。可以看到，依據第8a圖中算術映射規則的反向量化針對所有的視窗組(由游動變量g表示)、所有的量尺因子頻帶(由游動變量sfb表示)，所有的視窗(由巡標win表示)及所有的頻譜線(或頻譜容量)(由游動變量bin表示)被執行。第8c圖繪示第8b圖的演算法的一流程圖表示。對於一預定最大量尺因子頻帶(以max_sfb表示)之下的量尺因子頻帶而言，未比例調整反向量化的頻譜值以未比例調整量化頻譜值的一函數被獲得。一非線性反向量化規則被應用。

2.2.4.雜訊注入器 2.2.4.1.依據第9圖至第12圖之雜訊注入器

第9圖繪示依據本發明一實施例的一雜訊注入器900的方塊示意圖。雜訊注入器900例如可替代第7A圖及第7B圖描述的雜訊注入器770。

雜訊注入器900接收可被視為做頻帶增益值的量尺因子之解碼整數表示742。雜訊注入器900也接收未比例調整反向量化頻譜值762。另外，雜訊注入器900接收，例如包含雜訊注入參數noise_value及noise_offset的雜訊注入參數資訊630ac。雜訊注入器900進一步提供該等量尺因子的改良整數表示772及未比例調整反向量化頻譜值774。雜訊注入器900包含一頻譜線量化為零檢測器910，被設定組態以判定一頻譜線(頻譜容量)是否量化為零(及可能滿足進一步的注入要求)。為此，頻譜線量化為零檢測器910直接接收未比例調整反向量化頻譜762作為輸出資訊。雜訊注入器900進一步包含一選擇性的頻譜線替代器920，被設定組態以依據頻譜線量化為零檢測器910的判定，用頻譜線替代值922替代輸入資訊762的頻譜值。因此，如果頻譜線量化為零檢測器910指示輸入資訊762的某一頻譜線應由一替代值替代，那麼選擇性頻譜線替代器920以頻譜線替代值922替代該某一頻譜線，以獲得輸出資訊774。否則，選擇性頻譜線替代器920不改變地發送該某一頻譜線值以獲得輸出資訊774。雜訊注入器900也包含一選擇性量尺因子修正器930，被設定組態以選擇性地改良輸入資訊742的量尺因子。例如，選擇性量尺因子修正器930被設定組態以增加量尺因子頻帶的量尺因子，該等量尺因子頻帶由一預定值量化為零，該預定值以「noise_offset」表示。因此，在輸出資訊772中，量化為零的頻帶之量尺因子當與輸入資訊742中相對應的量尺因子值相比時被增加。相較之下，未量化為零的量尺因子頻帶之相對應的量尺因子值在輸入資訊742與輸出資訊772中是相同的。

為了判定一量尺因子頻帶是否量化為零，雜訊注入器900也包含一頻帶量化為零檢測器940，被設定組態以藉由基於輸入資訊762提供一「致能量尺因子改良」信號或旗標942來控制選擇性的量尺因子修正器930。例如，如果一量尺因子頻帶的所有的頻率槽(也稱為頻譜容量)量化為零，頻帶量化為零檢測器940可向選擇性量尺因子修正器930提供一指示需要一量尺因子增加的信號或旗標。

應注意該選擇性量尺因子修正器也可採用一選擇性量尺因子替代器的形式，該量尺因子替代器被設定組態以將完全量化為零之量尺因子頻帶的量尺因子設定為一預定值，不考慮輸入資訊742。

在下文中，一重調整器950將被描述，其可執行重調整器780的功能。重調整器950被設定組態以接收由該雜訊注入器提供的量尺因子之改良整數表示772，且同樣接收由雜訊注入器提供的未比例調整、反向量化頻譜值774。重調整器950包含一量尺因子增益電腦960，被設定組態以接收每量尺因子頻帶該量尺因子的一個整數表示，且提供每量尺因子頻帶一個增益值。例如，量尺因子增益電腦960可被設定組態以基於一第i量尺因子頻帶的量尺因子之一改良整數表示772，計算該第i量尺因子頻帶的一增益值962。因此，量尺因子增益電腦960對不同的量尺因子頻帶提供個別增益值。重調整器950也包含一多工器970，被設定組態以接收增益值962及未比例調整、反向量化頻譜值774。應注意各該未比例調整、反向量化頻譜值774與一量尺因子頻帶(sfb)相關聯。因此，多工器970被設定組態以用與相同量尺因子頻帶相關聯的一相對應的增益值依比例調整各未比例調整、反向量化頻譜值774。換句話說，所有與一特定量尺因子頻帶相關聯的未比例調整、反向量化頻譜值774以與該特定量尺因子頻帶相關聯的增益值依比例調整。因此，與不同量尺因子頻帶相關聯的未比例調整、反向量化頻譜值以與該等不同量尺因子頻帶相關聯的典型不同增益值依比例調整。

因此，不同的未比例調整、反向量化頻譜值依據它們相關聯的量尺因子頻帶，以不同的增益值依比例調整。

偽程式碼表示

在下文中，雜訊注入器900的功能性將參考第10a圖及第10b圖被描述，該兩圖繪示一偽程式碼表示(第10a圖)及一相對應的圖例(第10b圖)。注解以「--」開始。

由第10圖的偽碼程式列表表示的雜訊注入演算法包含一第一部份(第1行至第8行)，該部份從一雜訊位準表示(noise_level)導出一雜訊值(noiseVal)。另外，一雜訊偏移(noise_offset)被導出。從該雜訊位準導出該雜訊值包含一非線性比例調整，其中該雜訊值依據如下方程式被計算：noiseVal=2^{((noise_level-14)/3)} 。

另外，該雜訊值的一範圍移位被執行，使得範圍移位的雜訊偏移值可取正值及負值。

該演算法的一第二部份(第9行至第29行)負責用頻譜線替代值對未比例調整、反向量化頻譜值的一選擇性替代，且負責該等量尺因子的一選擇性改良。如該偽程式碼所示，該演算法可針對所有可用視窗組被執行(從第9行至第29行循環)。另外，零與一最大量尺因子頻帶(max_sfb)之間的所有量尺因子頻帶可被處理，即使該處理對於不同的量尺因子頻帶可能是不同的(在第10行與第28行之間循環)。一個重要層面是通常假定一量尺因子量化為零，除非發現因數未量化為零的事實(參看第11行)。然而，對一量尺因子頻帶是否量化為零的核對僅針對量尺因子頻帶被執行，該等量尺因子頻帶的一起始頻譜線(swb_offset[sfb])在一預定頻譜係數指數(noiseFillingStartOffset)之上。第13行與第24行之間的一條件程式僅當量尺因子頻帶sfb之最低頻譜係數的一指數大於雜訊注入起始偏移時被執行。相較之下，對於最低頻譜係數(swb_offset[sfb])的一指數小於或等於一預定值(noiseFillingStartOffset)的任何量尺因子頻帶而言，假定該等頻帶未量化為零，獨立於該等實際頻譜線值(見第24a行、第24b行及第24c行)。

然而，如果某一量尺因子頻帶的最低頻譜係數之指數大於該預定值(noiseFillingStartOffset)，那麼該某一量尺因子頻帶僅當該某一量尺因子頻帶之所有頻譜線量化為零時，被看作量化為零的(如果該量尺因子頻帶的一單一頻譜容量未量化為零，旗標「band_quantized_to_zero」由第15行與第12行之間的循環被從新設定)。

因此，如果最初由預設(第11行)設定的旗標「band_quantized_to_zero」在第12行與第24行之間的程式碼之執行期間未被刪除，一特定量尺因子頻帶之一量尺因子使用該雜訊偏移被修改。如上所述，該旗標的一重置可僅發生於量尺因子頻帶，對於該等量尺因子頻帶而言，最低頻譜係數的一指數在該預定值(noiseFillingStartOffset)之上。另外，第10a圖的演算法包含，如果頻譜線量化為零時，頻譜線替代值對頻譜線值的一替代(第16行的條件及第17行的替代操作)。然而，該替代僅針對量尺因子頻帶被執行，對於該等量尺因子頻帶而言，最低頻譜係數的一指數在該預定值(noiseFillingStartOffset)之上。對於較低頻譜頻帶而言，用替代頻譜值對量化為零的頻譜值的替代被忽略。

應進一步注意到該等替代值可以一簡單的方法被計算，因為，一隨機或偽隨機符號被施加於在該演算法的第一部份中(參看第17行)被計算的雜訊值(noiseVal)。

應注意第10b圖繪示在第10a圖的偽程式碼中使用的相關符號的一圖例，以利於該偽程式碼的一更好的理解。

該雜訊注入器之功能性的重要層面在第11圖中被說明。如圖所示，該雜訊注入器的功能性選擇性地包含，基於該雜訊位準計算一雜訊值1110。該雜訊注入器的功能性也包含依據雜訊值，用頻譜線替代值對量化為零的頻譜線之頻譜線值的替代1120，以獲得替代的頻譜線值。然而，替代1120僅針對具有在一預定頻譜係數指數之上的一最低頻譜係數的量尺因子頻帶被執行。

該雜訊注入器的功能性也包含，若且惟若一量尺因子量化為零時，取決於該雜訊偏移值改良1130一頻帶量尺因子。然而，改良1130以具有在預定頻譜係數指數之上的一最低頻譜係數的量尺因子形式被執行。

該雜訊注入器也包含1140使頻帶量尺因子不受影響的功能，對於具有在預定頻譜係數指數之下的一最低頻譜係數的量尺因子頻帶而言，與該量尺因子頻帶是否量化為零無關。

另外，該重調整器包含向未替代或替代(都是可以的)頻譜線值施加未改良或改良的(都是可以的)頻帶量尺因子之功能性1150，以獲得比例調整及反向量化的頻譜。

第12圖繪示參考第10a圖、第10b圖及第11圖描述的概念的一示意性表示。特別地，不同功能的表示取決於一量尺因子頻帶起始容量。

2.2.4.2依據第13A圖與第13B圖之雜訊注入器

第13A圖及第13B圖繪示演算法的偽碼程式列表，該等演算法可以雜訊注入器770的一可供選擇的實施被執行。第13A圖描述一種用於從一雜訊位準資訊導出一雜訊值(以供在該雜訊注入器中使用)的演算法，該雜訊位準資訊可由雜訊注入參數資訊630ac表示。

因為平均量化誤差大部份時間大約為0.25，noiseVal範圍[0,0.5]很大且可被最佳化。

第13B表示一演算法，可由雜訊注入器770執行。第13B圖的演算法包含判定該雜訊值的一第一部份(以「noiseValue」或「noiseVal」-第1行至第4行表示)。該演算法的一第二部份包含一量尺因子的一選擇性改良(第7行至第9行)及用頻譜線替代值對頻譜線值的一選擇性替代(第10行至第14行)。

然而，依據第13B圖，每當一頻帶量化至零時，量尺因子(scf)使用雜訊偏移(noise_offset)被改良(見第7行)。在本實施例中在較低頻帶與較高頻帶之間無差別。

另外，雜訊僅針對較高頻帶被引入量化為零的頻譜線(如果該線在一某一預定臨界「noiseFillingStartOffset」之上)。

2.2.5.解碼器結論

總而言之，依據本發明之解碼器的實施例可包含一個或多個如下特徵：

．從一「noise filling start line」開始(其可以是一固定偏移或表示以一替代值替代每一個0的一起始頻率之行)

．該替代值是在該量化域中(以一隨機符號)指示的雜訊值，且進而以針對該實際量尺因子頻帶發送的量尺因子(「scf」)依比例調整該「替代值」；及

．該等「隨機」替代值也可從例如一雜訊分佈或一組由已發信雜訊位準加權的交替值導出。

3.音訊串流 3.1.依據第14A圖及第14B圖之音訊串流

在下文中，依據本發明一實施例的一音訊串流將被描述。在下文中，一所謂的「usac位元串流付載」將被描述。該「usac位元串流付載」攜有付載資訊以表示一個或多個單一通道(付載「single_channel_element( )」)及/或一個或多個通道對(channel_pair_element( ))，如第14A圖所示。一單一通道資訊(single_channel_element( ))，除了其他可選資訊外，包含一頻域通道串流(fd_channel_stream)，如第14B圖所示。

一通道對資訊(channel_pair_element)除附加元素之外，包含多個，例如，兩個頻域通道串流(fd_channel_stream)，如第14C所示。

一頻域通道串流之資料內容例如可取決於一雜訊注入是否被使用(可以本文未繪示的一發信資料部份發信)。在下文中，將假定一雜訊注入被使用。在該情況中，該頻域通道串流包含，例如，第14D圖中所示的資料元素。例如，一全域增益資訊(global_gain)，如在ISO/IEC 14496-3：2005所定義的，可存在。另外，該頻域通道串流可包含一雜訊偏移資訊(noise_offset)及一雜訊位準資訊(noise_level)，如本文所述。該雜訊偏移資訊例如可使用3位元被編碼，且該雜訊位準資訊例如可使用5位元被編碼。

另外，該頻域通道串流可包含編碼的量尺因子資訊(一scale_factor_data( ))及經算術編碼的頻譜資料(AC_spectral_data( ))，如本文所述及在ISO/IEC 14496-3中定義。

選擇性地，該頻域通道串流也包含時序雜訊整型資料(tns_data( ))，如在ISO/IEC 14496-3中所定義。

自然，該頻域通道串流如果需要可包含其他資訊。

3.2.依據第15圖之音訊串流

第15圖繪示表示一個別通道的一通道串流(individual_channel_stream( ))之語法的示意性表示。

該個別通道串流可包含使用例如8位元被編碼的一全域增益資訊(global_gain)、使用例如5位元被編碼的雜訊偏移資訊(noise_offset)，及使用例如3位元編碼的一雜訊位準資訊(noise_level)。

該個別通道串流進一步包含節資料(section_data( ))，量尺因子資料(scale_factor_data( ))及頻譜資料(spectral_data( ))。

另外，該個別通道串流可包含其他的可選資訊，如第15圖所示。

3.3.音訊串流結論

綜上所述，在依據本發明的一些實施例中，下述位元串流語法元素被使用：

．表示一雜訊量尺因子偏移以最佳化要發送該等量尺因子的位元之值；

．表示該雜訊位準的值；及/或

．可選值，以在該雜訊替代的不同型之間選擇(統一分佈雜訊而非恒定值，或多個離散位準而非只有一個)。

4.結論

在低位元率編碼中，雜訊注入可被用於兩個目的：

．低位元率音訊編碼中的頻譜值之粗略量化可導致反向量化後的一非常稀疏的頻譜，因許多頻譜線可能已量化為零。稀疏的頻譜將導致解碼的信號聽起來尖銳或不穩定(雜音)。藉由在該解碼器中以「小」值替代被調至零點的行，遮蔽或減少此等非常明顯的人工失真而不加入明顯的新雜訊人工失真是可能的。

．如果在原始頻譜中沒有類雜訊信號部份，此等有噪音信號部份之一感知上相等的表示可僅基於微少的參數資訊，如有噪音信號部份之能量在該解碼器被複製，。該參數資訊較之於要被發送編碼波形的位元數目可以較少的位元被發送。

本文描述的新提議的雜訊注入編碼方案，有效地將上述目的併入一單一應用中。

作為一比較，在MPEG-4音訊中，感知雜訊替代(PNS)被用以僅發送類雜訊信號部份的一參數化資訊，及在解碼器中複製感知上相等的信號部份。

作為一進一步的比較，在AMR-WB+中，量化為零的向量量化向量(VQ向量)以一隨機雜訊向量替代，每一複合頻譜值具有恒定振幅及隨機相位。該振幅由一個以該位元串流發送的一個雜訊值控制。

然而，該等比較概念提供相當的優勢。PNS可僅被用以用雜訊注入全部量尺因子頻帶，而AMR-WB+僅試圖在產生自大部份被量化為零之信號的解碼信號中遮蔽人工失真。相較之下，該提議的雜訊注入編碼方案有效地將雜訊注入的兩個層面併入一單一應用。

依據一層面，本發明包含雜訊位準計算的一新形式。

該雜訊位準在量化域中基於該平均量化誤差被計算。

在該量化域中的量化誤差與其他形式的量化誤差不同。在該量化域中每行的量化誤差在範圍[-0.5；0.5](1量化位階)中，具有一0.25的平均絕對誤差(對於正常分佈輸入值而言通常大於1)。

在下文中，該量化域中雜訊注入的一些優勢將被總結。將雜訊加入該量化域之優勢是，加入該解碼器的雜訊不僅以一特定頻帶中的平均能量，且亦以一頻帶的心理聲學關聯性依比例調整的事實。

通常，感知上最相關的(音頻)頻帶將是最精確地量化的頻帶，意思是多個量化位階(量化值大於1)將被用於該等頻帶。現在在這些頻帶中加入帶有一平均量化誤差位準的雜訊將僅在此一頻帶的感知上具有非常有限的影響。

感知上不那麼相關或較像雜訊的頻帶可以一較低數目的量化位階量化。雖然該頻帶中更多的頻譜線將量化為零，所得的平均量化誤差將與精細量化頻帶者相同(在兩個頻帶中採一常態分配量化誤差)，但該頻帶中的相對誤差可能要高得多。

在這些粗略量化頻帶中，該雜訊注入將有助於感知上遮蔽由於該粗略量化的頻譜空洞產生的人工失真。

該量化域中的雜訊注入考量可藉由上述編碼器及上述解碼器被實現。

5.實施選擇

視某些實施要求而定，本發明之實施例可在硬體或軟體中被實施。該實施使用具有電子可讀的控制信號儲存於其上的一數位儲存媒體，例如一軟碟、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一FLASH記憶體被執行，該等電子可讀控制信號與一可程式電腦系統配合(或能夠與其配合)，使得各自的方法可被執行。

依據本發明的一些實施例包含具有電子可讀控制信號的一資料載體，該等電子可讀控制信號能夠與一可程式電腦系統配合，使得本文所描述的方法其中之一被執行。

大體上，本發明之實施例可作為一電腦程式產品以一程式碼被實施，當該電腦程式產品在一電腦上運行時，該程式碼可用於執行該等方法其中之一。該程式碼例如可被儲存於一機器可讀載體上。

其他實施例包含該電腦程式供執行本文所描述的方法其中之一，該電腦程式被儲存於一機器可讀載體上。

換句話說，因此，當該電腦程式在一電腦上運行時，本發明方法的一實施例是具有供執行本文所描述的方法其中之一的一程式碼的一電腦程式。

因此，本發明方法一進一步的實施例是一資料載體(或一數位儲存媒體，或一電腦可讀媒體)，其包含被記錄於該載體上供執行本文所述諸方法中之一的電腦程式。

因此，本發明方法一進一步實施例是表示供執行本文所描述諸方法中之一的程式碼的一資料串流或一序列信號。該資料串流或信號序列例如可被設定組態以經由一資料通信連接，例如經由網際網路被傳送。

一進一步的實施例包含一處理裝置，例如一電腦，或一可程式邏輯裝置，被設定組態成或適於執行本文所述諸方法之一。

一進一步的實施例包含一電腦，該電腦具有安裝於其上的電腦程式供執行本文所述諸方法其中之一。

100．．．編碼器

110．．．量化誤差計算器

112．．．(關於第一頻帶之)資訊

114．．．(關於第二頻帶之)資訊

116．．．描述多頻帶量化誤差之資訊

120．．．音訊串流提供器

122．．．(描述第一頻帶之)資訊

124．．．(描述第二頻帶之)資訊

126．．．音訊串流

200．．．音訊編碼器

210．．．輸入時間信號

212．．．編碼音訊串流

220．．．(可選)降低取樣頻率取樣器

222．．．(可選)AAC增益控制

224．．．塊交換濾波器組

224a．．．頻域表示(頻譜值)

226．．．(可選)信號處理

228．．．擴展AAC編碼器

228a．．．輸入資訊(頻譜線大小向量)

228b．．．量化且無雜訊編碼之表示

228c．．．編碼解碼臨界資訊

228d．．．位元數目資訊

228e．．．量尺因子頻帶資訊

230．．．位元串流付載格式器

240．．．心理聲學模型

310．．．頻譜值量化器

312．．．頻譜線量化值的一向量(量化值向量)

314．．．量尺因子資訊

316．．．位元使用資訊

330．．．多頻帶量化誤差計算器

332．．．多頻帶量化誤差資訊(雜訊注入參數)

340．．．量尺因子配接器

342．．．適合的量尺因子(量尺因子之整數表示)

350．．．無雜訊編碼

350a．．．頻譜係數編碼

350b．．．量尺因子編碼

350c．．．雜訊注入參數編碼

354．．．編碼量尺因子資訊

500、600．．．解碼器

510、610．．．編碼音訊串流

512．．．第一頻帶之雜訊影響頻譜成份

514．．．第二頻帶之雜訊影響頻譜成份

522．．．第一頻帶之頻譜成份表示

524．．．第二頻帶之頻譜成份表示

520、770、900．．．雜訊注入器

526．．．多頻帶雜訊強度值(表示)

612．．．輸出時間信號

620．．．位元串流付載變形項

630．．．擴展AAC解碼器

630a、640a．．．輸入資訊

630b．．．比例調整反向量化頻譜(輸出資訊)

640．．．頻譜處理(塊交換/濾波器組)

640b．．．輸出資訊

650．．．AAC增益控制值

652．．．SBR解碼器

654．．．獨立交換耦接

630aa．．．量化且經算術編碼頻譜資訊(頻譜線資訊)

630ab．．．量尺因子資訊

630ac．．．雜訊注入資訊

740．．．量尺因子解碼器

750．．．頻譜解碼器

752．．．頻譜之量化值

760．．．反向量化器

762．．．未比例調整反向量化頻譜值

772．．．量尺因子之改良整數表示(輸出資訊)

774．．．未比例調整反向量化頻譜值(輸出資訊)

780、950．．．重調整器

782．．．比例調整反向量化頻譜

910．．．頻譜線量化為零之檢測器

920．．．選擇性頻譜線替換器

922．．．頻譜線替代值

930．．．選擇性量尺因子修正器

940．．．頻帶量化為零之檢測器

942．．．致能量尺因子改良信號或旗標

960．．．量尺因子增益電腦

962．．．增益值

970．．．多工器

1110．．．計算

1120．．．替代

1130．．．改良

1140．．．使頻帶量尺因子不受影響

1150．．．功能性

600．．．解碼器

610．．．編碼音訊串流