TW201443883A

TW201443883A - 音訊編碼器、音訊解碼器、用以提供編碼及解碼音訊資訊之方法、電腦程式及使用信號適應性頻寬擴展之編碼表示技術

Info

Publication number: TW201443883A
Application number: TW103103514A
Authority: TW
Inventors: Sascha Disch; Christian Helmrich; Johannes Hilpert; Julien Robilliard; Konstantin Schmidt; Stephan Wilde
Original assignee: Fraunhofer Ges Forschung
Priority date: 2013-01-29
Filing date: 2014-01-29
Publication date: 2014-11-16
Also published as: PL3067890T3; CN105264599B; PT3067890T; HK1218179A1; CA2985121A1; AU2014211479B2; EP3054446A1; JP6239007B2; ES2664185T3; EP3070713A1; WO2014118185A1; TWI533288B; EP3070713B1; EP2951822A1; CA2898637C; US20150332702A1; CN105264599A; PL3054446T3; AR115823A2; CA2985121C

Abstract

一種用於基於一輸入音訊資訊提供一編碼音訊資訊之音訊編碼器包含：一低頻編碼器，其經組配以編碼該輸入音訊資訊之一低頻部分以獲得該低頻部分之一編碼表示；及一頻寬擴展資訊提供器，其經組配以基於該輸入音訊資訊提供頻寬擴展資訊。該音訊編碼器經組配而以一信號適應性方式將頻寬擴展資訊選擇性地包括至該編碼音訊資訊中。一種音訊解碼器包含：一低頻解碼器，其經組配以解碼一低頻部分之一編碼表示以獲得該低頻部分之一解碼表示；及一頻寬擴展，其經組配以針對一音訊內容之無頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一盲頻寬擴展來獲得一頻寬擴展信號，且針對該音訊內容之有頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一參數導引式頻寬擴展來獲得該頻寬擴展信號。

Description

音訊編碼器、音訊解碼器、用以提供編碼及解碼音訊資訊之方法、電腦程式及使用信號適應性頻寬擴展之編碼表示技術

發明領域

根據本發明之實施例係關於一種用於基於一輸入音訊資訊來提供一編碼音訊資訊的音訊編碼器。

根據本發明之其他實施例係關於一種用於基於一編碼音訊資訊來提供一解碼音訊資訊的音訊解碼器。

根據本發明之其他實施例係關於一種用於基於一輸入音訊資訊來提供一編碼音訊資訊的方法。

根據本發明之其他實施例係關於一種用於基於一編碼音訊資訊來提供一解碼音訊資訊的方法。

根據本發明之其他實施例係關於一種用於執行該等方法中之一者的電腦程式。

根據本發明之其他實施例係關於一種表示一音訊資訊之編碼音訊表示。

根據本發明之一些實施例係關於一種將信號適應性旁側資訊速率用於極低位元速率音訊寫碼之一般音訊頻寬擴展。

發明背景

近年來，已顯現對音訊內容之編碼及解碼的增加需求。雖然用於編碼音訊內容之傳輸及儲存的可用位元速率及儲存容量實質上已增加，但仍存在對在合理品質下之音訊內容(尤其在通信情形中為語音信號)之位元速率有效編碼、傳輸、儲存及解碼的需求。

同期語音寫碼系統能夠以低達6kbps之位元速率編碼寬頻(WB)數位音訊內容，亦即，具有高達7至8kHz之頻率的信號。最廣泛論述之實例為ITU-T標準G.722.2(例如，參見參考案[1])以及最近開發之G.718(例如，參見參考案[4]及[10])及MPEG統一語音及音訊編碼解碼器xHE-AAC(例如，參見參考案[8])。亦稱為AMR-WB之G.722.2與G.718兩者使用在6.4kHz與7kHz之間的頻寬擴展(BWE)技術，以允許基礎ACELP核心寫碼器「專注」於感知上更相關之較低頻率(尤其為人類聽覺系統為相位敏感情況下之頻率)，且藉此達成足夠品質，尤其在極低位元速率下。在xHE-AAC中，將增強型頻帶複製(eSBR)用於頻寬擴展(BWE)。可一般將頻寬擴展程序分成兩個概念性方法：

●「盲」或「人工」BWE，其中單獨地自解碼低頻(LF)核心寫碼器信號(亦即，不需要自編碼器傳輸之旁側資訊) 重建構高頻(HF)分量。此方案由AMR-WB及G.718在16kbps及低於16kbps下使用，以及一些回溯相容頻寬擴展後處理系統對傳統窄頻帶電話語音操作(例如，參見參考案[5]及[9])。

●「導引式」BWE，其與盲頻寬擴展的不同之處在於，將用於高頻(HF)內容重建構之參數中之一些作為旁側資訊傳輸至解碼器，而非自解碼核心信號估計該等參數。AMR-WB、G.718、xHE-AAC以及一些其他編碼解碼器(例如，參見參考案[2]、[7]及[11])使用此方法，但並非在極低位元速率下使用。

然而，業已發現，難以在低位元速率下提供適當頻寬擴展，低位元速率在音訊內容之重建構時提供足夠良好之品質。

因此，存在對帶來位元速率與音訊品質之間的改良取捨之頻寬擴展概念的需要。

發明概要

根據本發明之實施例建立一種用於基於輸入音訊資訊來提供編碼音訊資訊的音訊編碼器。該音訊編碼器包含低頻編碼器，其經組配以編碼該輸入音訊資訊之低頻部分以獲得該低頻部分之編碼表示。該音訊編碼器亦包含頻寬擴展資訊提供器，其經組配以基於該輸入音訊資訊來提供頻寬擴展資訊。該音訊編碼器經組配而以信號適應性方式選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。

根據本發明之此實施例係基於以下發現：對於一些類型之音訊內容，且甚至對於連續音訊內容片段之一些部分，可在不使用任何頻寬擴展旁側資訊或僅使用少量頻寬擴展旁側資訊(例如，包括至該編碼音訊資訊中之少量頻寬擴展參數)之情況下基於該低頻部分之該編碼表示來達成一良好品質之頻寬擴展。然而，該概念亦基於以下發現：因為解碼器側頻寬擴展不提供令人滿意之音訊品質，所以對於其他類型之音訊內容，且甚至對於連續音訊內容片段之其他部分，可能有必要(或至少非常需要)將頻寬擴展旁側資訊(例如，專用頻寬擴展參數)或增加量之頻寬擴展旁側資訊(例如，當與先前提及之狀況相比時)包括至編碼音訊資訊中。

藉由選擇性地將頻寬擴展資訊包括至編碼音訊資訊中(例如，藉由選擇性地使包括至編碼音訊資訊中之頻寬擴展資訊或頻寬擴展參數的量變化，或藉由選擇性地在頻寬擴展資訊至編碼音訊資訊中之包括與頻寬擴展資訊至編碼音訊資訊中之該包括的省略之間切換)，可避免在解碼器側頻寬擴展事實上不需要頻寬擴展資訊之狀況下，「不必要的」頻寬擴展資訊消耗寶貴的位元速率，且仍可確保在解碼器側頻寬擴展實際上需要頻寬擴展資訊之情況下，亦即，對於音訊內容之解碼器側重建構，將頻寬擴展資訊(或增加量之頻寬擴展資訊)包括至編碼音訊資訊中。

因此，藉由以信號適應性方式選擇性地將頻寬擴展資訊包括至編碼音訊資訊中，亦即，當頻寬擴展資訊實際上為達成解碼音訊信號表示之足夠良好品質所需的時，可減小平均位元速率，同時仍維持獲得良好音訊品質之可能性。

換言之，音訊編碼器可(例如)在頻寬擴展資訊之提供(其允許在音訊解碼器側獲得參數導引式頻寬擴展)與頻寬擴展資訊之提供的省略(其使在音訊解碼器側使用盲頻寬擴展成為必要)之間切換。

因此，可使用上述概念獲得位元速率與音訊品質之間的尤其良好之取捨。

在較佳實施例中，音訊編碼器包含偵測器，其經組配以識別輸入音訊資訊之不可基於低頻部分之編碼表示且使用盲頻寬擴展以足夠或所要品質(例如，就預定品質度量而言)解碼的部分。在此狀況下，音訊編碼器經組配以針對輸入音訊資訊之由偵測器識別的部分而選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。藉由判定或估計(例如，基於輸入音訊資訊之特徵，或基於音訊資訊在音訊編碼器側上之部分或完整重建構)輸入音訊資訊之哪些部分不可基於低頻部分之編碼表示且使用盲頻寬擴展以足夠(或所要)品質解碼，獲得有意義的準則以針對輸入音訊資訊之部分(例如，訊框)(或等效地，針對編碼音訊資訊之訊框或部分)決定是否將頻寬擴展資訊包括至編碼音訊資訊中。換言之，藉由偵測器評估之上文所提及之準則允許可藉由解碼編碼音訊資訊達成之收聽印象與編碼音訊資訊之位元速率之間的良好取捨。

在較佳實施例中，音訊編碼器包含偵測器，其經組配以識別輸入音訊資訊之不可以足夠或所要準確度來基於低頻部分估計頻寬擴展參數的部分。在此狀況下，音訊編碼器經組配以針對輸入音訊資訊之由偵測器識別的部分而選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。根據本發明之此實施例係基於以下發現：關於是否可以足夠或所要準確度來基於低頻部分估計頻寬擴展參數的判定構成可以適度計算努力來評估且仍構成用於決定是否將頻寬擴展資訊包括至編碼音訊資訊中之良好準則的準則。

在較佳實施例中，音訊編碼器包含偵測器，其經組配以取決於輸入音訊資訊之部分是否為時間上穩定之部分且取決於該等部分是否具有低通性質而識別該等部分。此外，音訊編碼器經組配以針對輸入音訊資訊之由偵測器識別為具有低通性質之時間上穩定之部分的部分而選擇性地省略頻寬擴展資訊至編碼音訊資訊中之包括。

根據本發明之此實施例係基於以下發現：對於輸入音訊資訊之在時間上穩定且包含低通性質的部分，通常不必將頻寬擴展資訊包括至編碼音訊資訊中，此係因為盲頻寬擴展(其不依賴於來自位元串流之頻寬擴展資訊或參數)通常允許此等信號部分之足夠良好之重建構。因此，存在可以計算有效方式評估且仍實現良好結果(就位元速率與音訊品質之間的取捨而言)的準則。

在較佳實施例中，偵測器經組配以取決於輸入音訊資訊之部分是否包含有聲語音及/或取決於該等部分是否包含環境(例如，汽車)雜訊及/或取決於該等部分是否包含無打擊樂器聲之音樂而識別該等部分。已發現，可通常以足夠音訊品質使用盲頻寬擴展來重建構包含有聲語音或包含環境雜訊或包含無打擊樂器聲之音樂的此等部分，使得對於此等部分，可推薦省略頻寬擴展資訊至編碼音訊資訊中之包括。

在較佳實施例中，音訊編碼器包含偵測器，其經組配以取決於低頻部分之頻譜包絡與高頻部分之頻譜包絡之間的差是否大於或等於預定差度量而識別輸入音訊資訊之部分。在此狀況下，音訊編碼器經組配以針對輸入音訊資訊之由偵測器識別的部分而選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。

已發現，通常可能不可使用盲頻寬擴展來良好地重建構輸入音訊資訊的包含低頻部分之頻譜包絡與高頻部分之頻譜包絡之間的大差值的部分，此係因為在與各別低頻部分相比時，盲頻寬擴展常常在高頻部分中(亦即，在頻寬擴展信號中)提供類似頻譜包絡。因此已發現，對低頻部分之頻譜包絡與高頻部分之頻譜包絡之間的差的評定構成用於決定是否將頻寬擴展資訊包括至編碼音訊資訊中的良好準則。

在較佳實施例中，偵測器經組配以取決於輸入音訊資訊之部分是否包含無聲語音及/或取決於該等部分是否包含打擊聲而識別該等部分。已發現，包含無聲語音之部分及包含打擊聲之部分通常包含以下頻譜：其中低頻部分之頻譜包絡實質上不同於高頻部分之頻譜包絡。因此，已發現對無聲語音及/或打擊聲之偵測為用於決定是否將頻寬擴展資訊包括至編碼音訊資訊中的良好準則。

在較佳實施例中，音訊編碼器包含偵測器，其經組配以判定輸入音訊資訊之部分的頻譜傾斜量，且取決於所判定頻譜傾斜量是否大於或等於固定或可變傾斜量臨限值而識別輸入音訊資訊之部分。在此狀況下，音訊編碼器經組配以針對輸入音訊資訊之由偵測器識別的部分而選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。已發現，可藉由適度計算努力來導出頻譜傾斜量，且該頻譜傾斜量仍提供用於關於是否將頻寬擴展資訊包括至編碼音訊資訊中之決策的良好準則。舉例而言，若頻譜傾斜量達到或超過傾斜量臨限值，則可推斷頻譜具有高通性質且不可藉由盲頻寬擴展來良好地建構。詳言之，盲頻寬擴展通常不可以良好準確度來重建構包含正傾斜量(其中相比於低頻部分，著重強調高頻部分)之頻譜。此外，由於在正傾斜量之狀況下，高頻部分具有特定感知相關性，因此在此等狀況下可推薦將頻寬擴展資訊包括至編碼音訊表示中。

在較佳實施例中，偵測器經進一步組配以判定輸入音訊資訊之部分的過零率，且亦取決於所判定過零率是否大於或等於固定或可變過零率臨限值而識別輸入音訊資訊之部分。已發現，過零率亦為用以偵測輸入音訊資訊之不可使用盲頻寬擴展來良好地重建構使得將頻寬擴展資訊包括至編碼音訊資訊中有意義(就達成位元速率與音訊品質之間的良好取捨而言)之部分的良好準則。

在較佳實施例中，偵測器經組配以應用滯後以用於識別輸入音訊資訊之信號部分，以減少在所識別信號部分(對於該等部分，將頻寬擴展資訊包括至編碼音訊表示中)與未識別信號部分(對於該等部分，不將頻寬擴展資訊包括至編碼音訊表示中)之間的轉變之數目。已發現，避免以下兩者之間的過多切換係有利的：頻寬擴展資訊至編碼音訊資訊中之包括，及頻寬擴展資訊至編碼音訊表示中之包括的省略，此係因為此等轉變可帶來一些偽訊，尤其在轉變之數目極高的情況下係如此。因此，使用可(例如)應用於傾斜量臨限值(其接著為可變傾斜量臨限值)或過零率臨限值(其接著為可變過零率臨限值)之滯後，可達成此目標。

在較佳實施例中，音訊編碼器經組配而以信號適應性方式選擇性地將表示輸入音訊資訊之高頻部分之頻譜包絡的參數作為頻寬擴展資訊包括至編碼音訊資訊中。此實施例係基於以下想法：表示高頻部分之頻譜包絡的參數在參數導引式頻寬擴展中尤其重要，使得包括表示輸入音訊資訊之高頻部分之頻譜包絡的該等參數允許在不引起高位元速率之情況下達成良好品質的頻寬擴展。

在較佳實施例中，低頻編碼器經組配以編碼輸入音訊資訊之低頻部分，該低頻部分包含高達位於6kHz與7kHz之間的範圍中之最大頻率的頻率。此外，音訊編碼器經組配以選擇性地將描述具有在300Hz與500Hz之間的頻寬的高頻信號部分或子部分(例如，具有高於大約6至7kHz之頻率的信號部分)之強度的在三個與五個之間的數目個參數包括至編碼音訊表示中。已發現，此概念導致良好音訊品質而實質上不損害位元速率努力。

在較佳實施例中，音訊編碼器經組配以選擇性地將描述四個高頻信號部分(或子部分)之強度的3至5個純量量化參數包括至編碼音訊表示中，該等高頻信號部分(或子部分)涵蓋高於低頻部分之頻率範圍。已發現，使用描述四個高頻信號部分之強度的3至5個純量量化參數通常足以達成參數導引式頻寬擴展，該參數導引式頻寬擴展勝過可由盲頻寬擴展針對相同信號部分而獲得之相對較低音訊品質。因此，無關於經重建構音訊信號係使用盲頻寬擴展抑或導引式頻寬擴展來重建構，經重建構音訊信號部分之間不存在大的品質差異。因此，上文所提及之概念良好地適於允許盲頻寬擴展與參數導引式頻寬擴展之間的切換之概念。

在較佳實施例中，音訊編碼器經組配以選擇性地將描述頻譜相鄰之頻率部分的能量之間的關係的複數個參數包括至編碼音訊表示中，其中該等參數中之一者描述第一頻寬擴展高頻部分與低頻部分之能量之間的比率，且其中該等參數中之其他者描述(多對)其他頻寬擴展高頻部分之能量之間的比率。已發現，描述不同(較佳相鄰)頻率部分之能量(或等效地，強度)之間的比率(或差)的此概念允許頻寬擴展資訊之有效編碼。亦已發現，可通常藉由僅少量位元來量化描述頻譜相鄰之頻率部分的能量之間的關係的此等參數，而實質上不損害可由頻寬擴展達成之音訊品質。

根據本發明之另一實施例建立一種用於基於一編碼音訊資訊來提供一解碼音訊資訊的音訊解碼器。該音訊解碼器包含低頻解碼器，其經組配以解碼(音訊內容之)低頻部分之編碼表示以獲得低頻部分之解碼表示。音訊解碼器亦包含頻寬擴展，其經組配以針對音訊內容之無頻寬擴展參數包括於編碼音訊資訊中的部分而使用盲頻寬擴展來獲得頻寬擴展信號，且針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊中的部分而使用參數導引式頻寬擴展來獲得頻寬擴展信號。

此音訊編碼器係基於以下想法：若甚至在連續音訊內容片段內仍有可能在盲頻寬擴展與參數導引式頻寬擴展之間切換，則可達成音訊品質與位元速率之間的良好取捨，此係因為已發現，許多典型之音訊內容片段包含可使用盲頻寬擴展來獲得良好音訊品質的區段與需要參數導引式頻寬擴展以便達成足夠音訊品質的區段兩者。此外，應顯而易見，上文關於音訊編碼器所解釋之相同考慮亦適用於音訊解碼器。

在較佳實施例中，音訊解碼器經組配以在逐訊框基礎上決定使用盲頻寬擴展抑或使用參數導引式頻寬擴展來獲得頻寬擴展信號。已發現，盲頻寬擴展與參數導引式頻寬擴展之間的此精細粒度級(逐訊框)切換有助於將位元速率保持為合理地低的，即使有規律地存在需要參數導引式頻寬擴展以避免音訊內容之過度降級的一些訊框亦如此。

在較佳實施例中，音訊解碼器經組配以在連續音訊內容片段內在使用盲頻寬擴展與使用參數導引式頻寬擴展之間切換。此實施例係基於以下發現：甚至單一(連續)音訊內容片段常常仍包含不同種類之分段(或部分，或訊框)，應使用參數導引式頻寬擴展編碼(及因此，解碼)其中之一些，而可使用盲頻寬擴展解碼其他分段或訊框，而無音訊品質之顯著降級。

在較佳實施例中，音訊解碼器經組配以針對音訊內容之不同部分(例如，訊框)而評估包括於編碼音訊資訊中之旗標，以決定使用盲頻寬擴展抑或參數導引式頻寬擴展(例如，對於與旗標相關聯之訊框)。因此，應使用盲頻寬擴展抑或參數導引式頻寬擴展之決策保持為簡單的，且音訊解碼器無需具有決定使用盲頻寬擴展抑或參數導引式頻寬擴展的顯著智慧。

然而，在另一較佳實施例中，音訊解碼器經組配以在不評估頻寬擴展模式發信號旗標之情況下基於低頻部分之編碼表示來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。因此，藉由在音訊解碼器中提供智慧性，可省略頻寬擴展模式發信號旗標，此減小位元速率。

在較佳實施例中，音訊解碼器經組配以基於(音訊內容之)低頻部分之解碼表示的一或多個特徵來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。已發現，低頻部分之解碼表示的特徵構成多個量，可以良好準確度來使用該等量以決定使用盲頻寬擴展抑或參數導引式頻寬擴展。若在音訊編碼器側處使用相同特徵，則尤其為如此狀況。因此，不再有必要評估頻寬擴展模式發信號旗標，其又允許減小位元速率，此係因為在音訊編碼器側處不必將頻寬擴展模式發信號旗標包括至編碼音訊表示中。

在較佳實施例中，音訊解碼器經組配以基於量化線性預測係數及/或(音訊內容之)低頻部分之解碼表示的時域統計來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。已發現，可易於在音訊解碼器側處獲得量化線性預測係數，且藉由允許導出頻譜傾斜量，量化線性預測係數可因此充當使用盲頻寬擴展抑或參數導引式頻寬擴展之良好指示。此外，亦可易於在音訊編碼器側處存取量化線性預測係數，使得有可能容易地在音訊編碼器側處及在音訊解碼器側處協調盲頻寬擴展與參數導引式頻寬擴展之間的切換。類似地，已發現低頻部分之解碼表示的時域統計(諸如，過零率)為用於在音訊解碼器側處決定使用盲頻寬擴展抑或參數導引式頻寬擴展之可靠量。

在較佳實施例中，頻寬擴展經組配以針對輸入音訊資訊(或內容)之無頻寬擴展參數包括於編碼音訊資訊中的時間部分而使用低頻部分之解碼表示的一或多個特徵及/或使用低頻解碼器之一或多個參數來獲得頻寬擴展信號。已發現，此盲頻寬擴展導致良好音訊品質。

在較佳實施例中，頻寬擴展經組配以針對輸入音訊資訊(或內容)之無頻寬擴展參數包括於編碼音訊資訊中的時間部分而使用頻譜矩心資訊及/或使用能量資訊及/或使用(頻譜)傾斜量資訊及/或使用寫碼濾波器係數來獲得頻寬擴展信號。已發現，使用此等量得到獲得良好品質之頻寬擴展的有效方式。

在較佳實施例中，頻寬擴展經組配以針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊中的時間部分而使用描述高頻部分之頻譜包絡的位元串流參數來獲得頻寬擴展信號。已發現，使用描述高頻部分之頻譜包絡的位元串流參數允許具有良好品質之位元速率有效參數導引式頻寬擴展，其中描述頻譜包絡之位元串流參數通常不需要高位元速率，但每音訊訊框可僅藉由相對少量之位元來編碼。因此，甚至朝向參數導引式頻寬擴展之切換仍不導致位元速率之顯著增加。

在較佳實施例中，頻寬擴展經組配以評估在三個與五個之間的數目個位元串流參數，以便獲得頻寬擴展信號，該等位元串流參數描述具有在300Hz與500Hz之間的頻寬之高頻信號部分的強度。已發現，相對少量之位元串流參數足以獲得在感知上重要之範圍上的頻寬擴展，使得可以小的位元速率增加來獲得良好音訊品質。

在較佳實施例中，以2或3個位元之解析度純量量化描述具有在300Hz與500Hz之間的頻寬的高頻信號部分之強度的在三個與五個之間的數目個位元串流參數，使得每音訊訊框存在6個與15個之間的數目個位元之頻寬擴展頻譜成形參數。已發現，此選擇允許參數導引式頻寬擴展之極高位元速率效率，同時頻寬擴展品質通常與可針對音訊內容之「非關鍵」部分使用盲頻寬擴展獲得之頻寬擴展品質相當，在該等「非關鍵」部分中，盲頻寬擴展提供良好結果。因此，在應用盲頻寬擴展之狀況與應用參數導引式頻寬擴展之狀況兩者下，存在平衡品質。

在較佳實施例中，頻寬擴展經組配以在自盲頻寬擴展切換至參數導引式頻寬擴展及/或在自參數導引式頻寬擴展切換至盲頻寬擴展時執行頻寬擴展信號之能量的平滑。因此，可避免可由盲頻寬擴展及參數導引式頻寬擴展之不同特性引起的卡嗒聲或「區塊偽訊」。

在較佳實施例中，頻寬擴展經組配以針對在音訊內容之應用有盲頻寬擴展的部分之後的音訊內容之應用有參數導引式頻寬擴展之部分而使頻寬擴展信號之高頻部分衰減。此外，頻寬擴展經組配以針對在音訊內容之應用有參數導引式頻寬擴展的部分之後的音訊內容之應用有盲頻寬擴展之部分而減少對頻寬擴展信號之高頻部分的衰減。因此，可將盲頻寬擴展通常展示低通特性(而對於參數導引式頻寬擴展未必為如此狀況)之效應補償至某一程度。因此，減少了音訊內容之使用盲頻寬擴展及使用參數導引式頻寬擴展解碼的部分之間的轉變處的偽訊。

根據本發明之另一實施例建立一種用於基於一輸入音訊資訊來提供一編碼音訊資訊的方法。該方法包含編碼輸入音訊資訊之低頻部分以獲得低頻部分之編碼表示。該方法亦包含基於輸入音訊資訊提供頻寬擴展資訊。以信號適應性方式選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。此方法係基於與上述音訊編碼器相同之考慮。

根據本發明之另一實施例建立一種用於基於一編碼音訊資訊來提供一解碼音訊資訊的方法。該方法包含解碼低頻部分之編碼表示以獲得低頻部分之解碼表示。該方法進一步包含針對音訊內容之無頻寬擴展參數包括於編碼音訊資訊中的部分而使用盲頻寬擴展來獲得頻寬擴展信號。該方法進一步包含針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊中的部分而使用參數導引式頻寬擴展來獲得頻寬擴展信號。此方法係基於與上述音訊解碼器相同之考慮。

根據本發明之另一實施例建立一種電腦程式，其用於在該電腦程式在電腦上執行時執行上文所提及之方法中的一者。

根據本發明之另一實施例建立一種表示一音訊資訊之編碼音訊表示。該編碼音訊表示包含音訊資訊及頻寬擴展雜訊之低頻部分的編碼表示。針對音訊資訊之一些但非所有部分而以信號適應性方式將頻寬擴展資訊包括於編碼音訊表示中。藉由上文所描述之音訊編碼器提供此編碼音訊資訊，且可藉由上文所描述之音訊解碼器評估此編碼音訊資訊。

100、200‧‧‧音訊編碼器

110、210‧‧‧輸入音訊資訊

112、212、410、510‧‧‧編碼音訊資訊

120、220‧‧‧低頻編碼器

122、222、810‧‧‧編碼表示

130、230‧‧‧頻寬擴展資訊提供器

132、232、812‧‧‧頻寬擴展資訊

224‧‧‧控制資訊或中間資訊

240‧‧‧偵測器

242‧‧‧控制信號

310‧‧‧橫座標

312‧‧‧縱座標

320‧‧‧頻譜包絡

330‧‧‧第二頻譜包絡

400、500‧‧‧音讯解码器

412、512‧‧‧解碼音訊資訊

420、520‧‧‧低頻解碼器

422、522‧‧‧解碼表示

430、530‧‧‧頻寬擴展

432、532‧‧‧頻寬擴展信號

524‧‧‧輔助資訊/控制資訊/中間資訊

540‧‧‧控制部分

542‧‧‧盲/參數導引式控制資訊

600‧‧‧用於基於輸入音訊資訊提供編碼音訊資訊的方法

700‧‧‧用於提供解碼音訊資訊的方法

800‧‧‧編碼音訊表示

隨後將參看隨附諸圖來描述根據本發明之實施例，其中：圖1展示根據本發明之實施例的音訊編碼器之方塊示意圖；圖2展示根據本發明之另一實施例的音訊編碼器之方塊示意圖；圖3展示頻率部分及與其相關聯之編碼音訊資訊的圖形表示；圖4展示根據本發明之實施例的音訊解碼器之方塊示意圖；圖5展示根據本發明之另一實施例的音訊解碼器之方塊示意圖；圖6展示根據本發明之實施例的用於提供編碼音訊表示的方法之流程圖；圖7展示根據本發明之實施例的用於提供解碼音訊表示的方法之流程圖；圖8展示根據本發明之實施例的編碼音訊表示之示意說明。

較佳實施例之詳細說明

1.根據圖1之音訊編碼器

圖1展示根據本發明之實施例的音訊編碼器之方塊示意圖。

根據圖1之音訊編碼器100接收輸入音訊資訊110，且基於輸入音訊資訊提供編碼音訊資訊112。音訊編碼器100包含低頻編碼器120，其經組配以編碼該輸入音訊資訊110之低頻部分以獲得該低頻部分之編碼表示122。該音訊編碼器100亦包含頻寬擴展資訊提供器130，其經組配以基於輸入音訊資訊110來提供頻寬擴展資訊132。該音訊編碼器100經組配而以信號適應性方式選擇性地將頻寬擴展資訊132包括至編碼音訊資訊112中。

關於音訊編碼器100之功能性，可據稱音訊編碼器100提供對輸入音訊資訊110之位元速率有效編碼。使用低頻編碼器120編碼(例如)在高達大約6或7kHz之頻率範圍中的低頻部分，其中可使用已知音訊編碼概念中之任一者。舉例而言，低頻編碼器120可為「一般音訊」編碼器(例如，如AAC音訊編碼器)或語音類型之音訊編碼器(例如，如基於線性預測之音訊編碼器、CELP音訊編碼器、ACELP音訊編碼器或其類似者)。因此，使用習知概念中之任一者編碼輸入音訊資訊之低頻部分。然而，將低頻部分之編碼表示122的位元速率保持為合理地低的，此係因為僅編碼高達大約6至7kHz之頻率分量。此外，音訊編碼器100能夠提供頻寬擴展資訊，例如，呈描述輸入音訊資訊110之高頻部分(例如，如包含高於由低頻編碼器120編碼之頻率區域的頻率之頻率區域)的頻寬擴展參數之形式。因此，頻寬擴展資訊提供器130能夠提供編碼音訊資訊112之旁側資訊，其可控制在圖1中未展示之音訊解碼器側處執行的頻寬擴展。頻寬擴展資訊(或頻寬擴展旁側資訊)可(例如)表示輸入音訊資訊之高頻部分(亦即，輸入音訊資訊之未由低頻編碼器120涵蓋的頻率範圍)的頻譜形狀(或頻譜包絡)。

然而，音訊編碼器100經組配而以信號適應性方式決定是否應將頻寬擴展資訊包括至編碼音訊資訊112中。因此，音訊編碼器100能夠僅在音訊資訊於音訊解碼器側處之重建構要求(或至少需要)頻寬擴展資訊的情況下才將頻寬擴展資訊包括至編碼音訊資訊112中。在此情境中，音訊編碼器亦可針對輸入音訊資訊之部分(或等效地，編碼音訊資訊之部分)而控制是否由頻寬擴展資訊提供器130提供頻寬擴展資訊132，此係因為若不應將頻寬擴展資訊包括至編碼音訊資訊中，則當然不必為輸入音訊資訊(或編碼音訊資訊)之部分提供頻寬擴展資訊。因此，若基於由音訊編碼器100執行之一些分析程序及/或決策程序而發現，當在音訊解碼器處重建構音訊內容之對應部分時不需要頻寬擴展資訊來獲得某一音訊品質，則音訊編碼器100能夠藉由避免將頻寬擴展資訊132包括至編碼音訊資訊112中而將編碼音訊資訊112之位元速率保持為儘可能小。

因此，音訊編碼器100僅在音訊解碼器側處需要頻寬擴展資訊(以獲得某一音訊品質)之情況下才將頻寬擴展資訊包括至編碼音訊資訊中，此情形一方面有助於減小編碼音訊資訊112之位元速率，且另一方面確保，若在於音訊解碼器側處解碼編碼音訊資訊時需要頻寬擴展資訊以避免不良音訊品質，則將適當頻寬擴展資訊132包括於編碼音訊資訊112中。因此，當與習知解決方案相比時，藉由音訊編碼器100達成位元速率與音訊品質之間的改良取捨。

舉例而言，音訊解碼器可每音訊訊框決定是否應將頻寬擴展資訊包括至編碼音訊資訊112中(或甚至是否應判定頻寬擴展資訊)。然而替代地，音訊解碼器可每「輸入」(例如，每音訊檔案或每音訊串流)決定是否應將頻寬擴展資訊包括至編碼音訊資訊112中，為此目的，可分析(例如，在編碼之前)輸入使得以信號適應性方式作出決策。

2.根據圖2之音訊編碼器

圖2展示根據本發明之實施例的音訊編碼器之方塊示意圖。音訊編碼器200接收輸入音訊資訊210，且基於輸入音訊資訊提供編碼音訊資訊212。音訊編碼器200包含低頻編碼器220，其可實質上與上文所描述之低頻編碼器120相同。低頻編碼器220提供輸入音訊資訊(或等效地，由輸入音訊資訊210表示之音訊內容)之低頻部分的編碼表示222。音訊編碼器200亦包含頻寬擴展資訊提供器230，其可實質上與上文所描述之頻寬擴展資訊提供器130相同。頻寬擴展資訊提供器230通常接收輸入音訊資訊210。然而，頻寬擴展資訊提供器230亦可自低頻編碼器220接收控制資訊(或中間資訊)，其中該控制資訊(或中間資訊)可(例如)包含關於輸入音訊資訊210之低頻部分之頻譜(或頻譜形狀或頻譜包絡)的資訊。然而，控制資訊(或中間資訊)亦可包含編碼參數(例如，LPC濾波器係數或變換域值，如MDCT係數或QMF係數)或其類似者。此外，頻寬擴展資訊提供器230可視情況接收低頻部分之編碼表示222或其至少一部分。此外，音訊編碼器200包含偵測器240，其經組配以針對輸入音訊資訊210之給定部分(或編碼音訊資訊212之給定部分)而決定是否將頻寬擴展資訊包括至編碼音訊資訊212中。視情況，偵測器240亦可針對輸入音訊資訊210(或編碼音訊資訊212)之該給定部分而判定是否由頻寬擴展資訊提供器230判定該頻寬擴展資訊。因此，偵測器240可接收輸入音訊資訊210，及/或來自低頻編碼器220之控制資訊或中間資訊224(例如，如上文所描述)，及/或低頻部分之編碼表示222。此外，偵測器240經組配以提供控制信號242，其控制頻寬擴展資訊之選擇性提供及/或頻寬擴展資訊至編碼音訊資訊212中之選擇性包括。

關於音訊編碼器200之功能性，參考上文關於音訊編碼器100而進行之解釋。

此外，應注意，偵測器240包含中心作用，此係因為偵測器240決定是否將頻寬擴展資訊包括至編碼音訊資訊212中，且因此決定接收編碼音訊資訊212之音訊解碼器使用盲頻寬擴展抑或使用參數導引式頻寬擴展(其中頻寬擴展資訊表示導引參數導引式頻寬擴展之參數)來重建構由輸入音訊資訊210描述之音訊內容。

一般而言，偵測器基於使用盲頻寬擴展之低頻部分的編碼表示222來識別輸入音訊資訊之不可以足夠或所要品質解碼的部分。換言之，偵測器240應辨識何時低頻部分之編碼表示222單獨地不允許具有足夠品質之盲頻寬擴展。不同而言，偵測器240較佳識別輸入音訊資訊之部分，對於該等部分，不可以足夠(或所要)準確度來基於低頻部分估計頻寬擴展參數從而達成可接受(或所要)音訊品質。因此，偵測器240可針對輸入音訊資訊之不可基於使用盲頻寬擴展(亦即，不自編碼器接收任何頻寬擴展資訊)之低頻部分的編碼表示222以足夠或所要品質解碼的部分而使用控制信號242判定應將頻寬擴展資訊包括至編碼音訊資訊中。等效地，偵測器可針對輸入音訊資訊之不可以足夠或所要準確度來基於低頻部分(或等效地，低頻部分之編碼表示222)估計頻寬擴展參數的部分而使用控制信號242判定應將頻寬擴展資訊包括至編碼音訊資訊中。

為了識別應將頻寬擴展資訊包括至編碼音訊資訊中之此等部分(或等效地，為了識別輸入音訊資訊之不必將頻寬擴展資訊包括至編碼音訊資訊212中的部分)，偵測器240可使用不同策略。如上文所提及，偵測器240可接收不同類型之輸入資訊。在一些狀況下，是否應將頻寬擴展資訊包括至編碼音訊資訊212中之偵測器決策可僅基於輸入音訊資訊210。換言之，偵測器240可(例如)經組配以分析輸入音訊資訊210以發現，對於輸入音訊資訊之哪些部分(其對應於編碼音訊資訊212之部分)，有必要將頻寬擴展資訊232包括至編碼音訊資訊212中以達成可接受(或所要)音訊品質。然而，偵測器240之決策可替代地基於由低頻編碼器200提供之一些控制資訊或中間資訊224。替代地或另外，偵測器240之決策可基於輸入音訊資訊210之低頻部分的編碼表示222。因此，偵測器可評估不同量以判定(或估計)音訊解碼器側處之盲頻寬擴展是否將導致足夠音訊品質(或可能導致足夠音訊品質，或預期導致足夠音訊品質)。

舉例而言，偵測器可判定輸入音訊資訊210之部分是否為時間上穩定之部分，且輸入音訊資訊210之部分是否具有低通性質。舉例而言，偵測器240可推斷，對於被發現為時間上穩定之部分且具有低通性質的部分，不必將頻寬擴展資訊包括至編碼音訊資訊212中，此係因為已認識到，通常可在音訊解碼器側處甚至使用盲頻寬擴展以足夠良好之音訊品質來再現輸入音訊資訊210之此等部分。此係歸因於如下事實：盲頻寬擴展通常對輸入音訊資訊(或內容)的不包含音訊內容之強改變(或不包含音訊內容之任何瞬變或其他強變化)且可因此被視為在時間上穩定的部分良好地起作用。此外，已發現，盲頻寬擴展對音訊內容之包含低通性質的部分(亦即，對音訊內容的低頻部分之強度高於高頻部分之強度的部分)良好地起作用，此係因為此情形為大多數盲頻寬擴展概念之基礎假定。因此，對於具有低通性質之此等時間上穩定之部分，偵測器240可使用控制信號242來用信號通知選擇性地省略頻寬擴展資訊至編碼音訊資訊212中之包括。

舉例而言，偵測器240可經組配以識別輸入音訊資訊之包含有聲語音的部分，及/或輸入音訊資訊之包含環境雜訊的部分，及/或輸入音訊資訊之包含無打擊樂器聲之音樂的部分。輸入音訊資訊之此等部分通常為時間上穩定的且包含低通性質，使得對於此等部分，偵測器240通常用信號通知省略頻寬擴展資訊至編碼音訊資訊中之包括。

替代地或另外，偵測器240可分析是否可基於低頻部分之頻譜包絡以合理準確度(例如，使用由盲頻寬擴展應用之概念)預測輸入音訊資訊之高頻部分中的頻譜形狀。因此，偵測器可(例如)經組配以判定低頻部分之頻譜包絡(例如，其可由中間資訊224或由低頻部分之編碼表示222描述)與高頻部分之頻譜包絡(例如，其可由偵測器240基於輸入音訊資訊210判定)之間的差是否大於或等於預定義差度量。舉例而言，偵測器240可依據強度差或依據形狀差異或依據隨頻率之變化或依據頻譜包絡之任何其他特性特徵來判定該差。因此，偵測器240可回應於發現低頻部分之頻譜包絡與高頻部分之頻譜包絡之間的差大於或等於預定義差度量而決定(及用信號通知)將頻寬擴展資訊232包括至輸入音訊資訊中。換言之，偵測器240可判定可基於低頻部分之頻譜包絡預測高頻部分之頻譜包絡的良好程度，且若該預測不可能伴隨有良好結果(例如，其為若高頻部分之所預測頻譜包絡與高頻部分之實際頻譜包絡存在很大不同的狀況)，則可推斷在音訊解碼器側處將需要頻寬擴展資訊232。然而，替代比較高頻部分之所預測頻譜包絡與高頻部分之實際頻譜包絡，偵測器240可替代地比較低頻部分之頻譜包絡與高頻部分之頻譜包絡。若假定在應用盲頻寬估計時高頻部分之頻譜包絡通常類似於低頻部分之頻譜包絡，則此比較有意義。

替代地或另外，偵測器240可識別包含無聲語音之部分及/或包含打擊聲之部分。由於在此等狀況下，高頻部分之頻譜包絡通常與低頻部分之頻譜包絡存在很大不同，因此偵測器可針對輸入音訊資訊(或編碼音訊資訊)的包含無聲語音或包含打擊聲之此等部分而用信號通知將頻寬擴展資訊包括至編碼音訊表示中。

然而，替代地或另外，偵測器240可分析輸入音訊資訊210之部分的頻譜傾斜量。又，偵測器240可使用關於輸入音訊資訊之部分之頻譜傾斜量的資訊以決定是否應將頻寬擴展資訊232包括至編碼音訊資訊212中。此概念係基於以下想法：盲頻寬擴展對音訊內容之在與高頻範圍相比時在低頻範圍中存在更多能量(或大體上為強度)的部分良好地起作用。相比之下，若高頻部分(亦指定為高頻範圍)為「佔優勢的」，亦即，包含大量能量，則盲頻寬擴展通常不可良好地再現音訊內容，使得應將頻寬擴展資訊包括至編碼音訊資訊中。因此，在一些實施例中，偵測器判定頻譜傾斜量(其描述能量或大體上強度在頻率上之分佈)是否大於或等於固定或可變傾斜量臨限值。若頻譜傾斜量大於或等於固定或可變傾斜量臨限值(其意謂至少在與能量或強度隨頻率增加而減小之「正常」狀況相比時在音訊內容之高頻部分中存在相對大的能量或強度)，則偵測器可決定將頻寬擴展資訊包括至編碼音訊資訊中。

除上文所提及之特徵中的一些或全部外，偵測器亦可評估輸入音訊資訊之部分的過零率。此外，是否包括頻寬擴展資訊之偵測器決策亦可基於所判定過零率是否大於或等於固定或可變過零率臨限值。此概念係基於以下考慮：高過零率通常指示高頻在輸入音訊資訊中起重要作用，此又指示應在音訊解碼器側處使用參數導引式頻寬擴展。

此外，應注意，偵測器240可較佳使用一些滯後以避免在以下兩者之間的過多切換：頻寬擴展資訊232至編碼音訊資訊中之包括，及該包括之省略。舉例而言，可將滯後應用於可變傾斜量臨限值、可變過零率臨限值或用以關於自頻寬擴展資訊之包括至該包括之避免或自該包括之避免至該包括的轉變而作出決策的任何其他臨限值。因此，滯後可使臨限值變化，以便減小在針對輸入音訊資訊之當前部分而包括頻寬擴展資訊時切換至頻寬擴展資訊之包括之省略的機率。類似地，可使臨限值變化，以減少在針對輸入音訊資訊之當前部分而避免頻寬擴展資訊之包括時切換至頻寬擴展資訊之包括的機率。因此，可減少可由不同模式之間的轉變引起的偽訊。

在下文中，將論述關於頻寬擴展資訊提供器230 之一些細節。詳言之，將解釋回應於偵測器用信號通知應將頻寬擴展資訊232包括至編碼音訊資訊中而將哪一資訊包括至編碼音訊資訊212中。出於解釋之目的，亦將參看圖3，其展示輸入音訊資訊之頻率部分及包括至編碼音訊表示中之參數的示意性表示。橫座標310描述頻率，且縱座標312描述不同頻譜頻格(例如，如MDCT係數、QMF係數、FFT係數或其類似者)之強度(例如，如振幅或能量之強度)。如可見的，輸入音訊資訊之低頻部分可(例如)涵蓋自較低頻率邊界(例如，0或50Hz，或300Hz，或任何其他合理的較低頻率邊界)直至大約6.4kHz之頻率的頻率範圍。如可見的，可為此低頻部分(例如，自300Hz至6.4kHz，或其類似者)提供編碼表示222。此外，存在(例如)範圍為自6.4kHz至8kHz之高頻部分。然而，高頻部分當然可涵蓋通常由人類接聽者可感知之頻率範圍限制的不同頻率範圍。然而，在圖3中可見，作為一實例，以參考數字320展示之頻譜包絡在高頻部分中包含不規則形狀。此外，可見頻譜包絡320在高頻部分中包含相對大之能量，且甚至包含在7.2kHz與7.6kHz之間的相對高之能量。作為比較，亦在圖3中展示第二頻譜包絡330，其中第二頻譜包絡330展示高頻部分中之強度或能量(例如，每單位頻率)的減退。因此，頻譜包絡320通常將使偵測器針對包含頻譜包絡320之部分而決定將頻寬擴展資訊包括至編碼音訊表示中，而頻譜包絡330通常將使偵測器針對音訊內容之包含頻譜包絡330之部分而決定省略頻寬擴展資訊之包括。

如進一步可見的，對於音訊內容之包含頻譜包絡 320之部分，四個純量參數將作為頻寬擴展資訊包括至編碼音訊表示中。第一純量參數可(例如)描述在6.4kHz與6.8kHz之間的頻率區域之頻譜包絡(或頻譜包絡之平均值)，第二純量參數可描述在6.8kHz與7.2kHz之間的頻率區域之頻譜包絡320(或其平均值)，第三純量參數可描述在7.2kHz與7.6kHz之間的頻率區域之頻譜包絡320(或其平均值)，且第四純量參數可描述在7.6kHz與8kHz之間的頻率區域之頻譜包絡(或其平均值)。該等純量參數可以絕對或相對方式描述(例如)關於頻譜上先前之頻率範圍(或區域)的頻譜包絡。舉例而言，第一純量參數可描述以下兩者之間的強度比率(例如，其可經正規化至某一量)：在6.4kHz與6.8kHz之間的頻率區域中之頻譜包絡，及在較低頻率區域(例如，低於6.4kHz)中之頻譜包絡。第二、第三及第四純量參數可(例如)描述鄰近頻率範圍中之頻譜包絡(的強度)之間的差(或比率)，使得(例如)第二純量參數可描述以下兩者之間的比率：在6.8kHz與7.2kHz之間的頻率範圍中之頻譜包絡(的平均值)，及在6.4kHz與6.8kHz之間的頻率範圍中之頻譜包絡。

此外，應注意到，在任何狀況下可包括低頻部分之編碼表示，亦即，低於6.4kHz之頻率部分。可使用熟知編碼概念中之任一者來編碼低於6.4kHz之頻率部分(低頻部分)，例如，使用如AAC(或其衍生編碼)之「一般音訊」編碼或語音寫碼(例如，如CELP、ACELP或其衍生編碼)。因此，對於音訊內容之包含頻譜包絡320的部分，低頻部分之編碼表示與四個純量頻寬擴展參數(可使用相對少量位元來量化該等參數)兩者將包括至編碼音訊表示中。相比之下，對於音訊內容之包含頻譜包絡330的部分，僅低頻部分之編碼表示將包括至編碼音訊表示中，但無(純量)頻寬擴展參數將包括至編碼音訊表示中(然而，此情形不會引起嚴重問題，此係因為頻譜包絡330展現可使用盲頻寬擴展來良好地再現的規則及減退(低通)特性)。

總之，音訊編碼器200經組配而以信號適應性方式選擇性地將表示輸入音訊資訊之高頻部分之頻譜包絡的參數作為頻寬擴展資訊包括至編碼音訊資訊中。舉例而言，可以信號適應性方式將參看圖3所提及之純量頻寬擴展參數包括至編碼音訊資訊中。一般而言，較低頻率編碼器220可經組配以編碼輸入音訊資訊210之低頻部分，該低頻部分包含高達位於6kHz與7kHz之間的範圍中之最大頻率(其中已在圖3之實例中使用6.4kHz之邊界)的頻率。此外，音訊編碼器可經組配以選擇性地將在三個與五個之間的數目個參數包括至編碼音訊表示中，該等參數描述具有在300Hz與500Hz之間的頻寬的高頻信號部分之強度。在圖3之實例中，已展示描述具有大約400Hz之頻寬的高頻信號部分之強度的四個純量參數。換言之，音訊編碼器可經組配以將描述四個高頻信號部分之強度的四個純量量化參數包括至編碼音訊表示中，該等高頻信號部分涵蓋高於低頻部分(例如，如參看圖3所解釋)之頻率範圍(例如，如圖3中所展示)。舉例而言，音訊編碼器可經組配以選擇性地將描述頻譜上鄰近之頻率部分的能量或強度之間的關係的複數個參數包括至編碼音訊表示中，其中該等參數中之一者描述第一頻寬擴展高頻部分之能量或強度與低頻部分之能量或強度之間的比率，且其中該等參數中之其他者描述其他頻寬擴展高頻部分(其中該等頻寬擴展高頻部分可為在6.4kHz與6.8kHz之間、在6.8kHz與7.2kHz之間、在7.2kHz與7.6kHz之間及在7.6kHz與8kHz之間的頻率部分之能量或強度之間的比率。替代地，可向量量化在三個與五個之間的數目個包絡形狀參數(描述高頻信號部分之強度)。向量量化通常稍微比純量量化更有效。另一方面，向量量化比純量量化更複雜。換言之，可替代地使用向量量化(而非使用純量量化)執行四個頻寬擴展能量值之量化。

總之，音訊編碼器可經組配以將相對簡單的頻寬擴展資訊包括至編碼音訊表示中，使得僅對於輸入音訊資訊(或編碼音訊表示)之由偵測器發現將需要參數導引式頻寬擴展的部分，稍微增加編碼音訊表示之位元速率。

3.根據圖4之音訊解碼器

圖4展示根據本發明之實施例的音訊解碼器之方塊示意圖。根據圖4之音訊解碼器400接收編碼音訊資訊410(例如，其可由音訊編碼器100或音訊編碼器200提供)，且基於編碼音訊資訊提供解碼音訊資訊412。

音訊解碼器400包含低頻解碼器420，其接收編碼音訊資訊410(或至少包括於其中之低頻部分之編碼表示)，解碼低頻部分之編碼表示且獲得低頻部分之解碼表示422。音訊解碼器400亦包含頻寬擴展430，其經組配以針對(編碼)音訊內容(由編碼音訊資訊410表示)之無頻寬擴展參數包括於編碼音訊資訊410中的部分而使用盲頻寬擴展來獲得頻寬擴展信號432，且針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊(或編碼音訊表示)410中的部分而使用參數導引式頻寬擴展(使用包括於編碼音訊資訊410中之頻寬擴展資訊或頻寬擴展參數)來獲得頻寬擴展信號432。

因此，音訊解碼器400能夠無關於頻寬擴展參數是否包括於編碼音訊資訊410中而執行頻寬擴展。因此，音訊解碼器可適於編碼音訊資訊410，且考慮存在盲頻寬擴展與參數導引式頻寬擴展之間的切換的概念。因此，音訊解碼器400能夠處置編碼音訊資訊410，其中僅針對音訊內容之不可使用盲頻寬擴展以足夠品質重建構的部分(例如，訊框)而包括頻寬擴展參數。因此，可提供解碼音訊資訊412，其包含低頻部分之解碼表示及頻寬擴展信號(其中，可(例如)將頻寬擴展信號添加至低頻部分之解碼表示422以藉此獲得解碼音訊資訊412)。

因此，音訊解碼器400有助於獲得音訊品質與位元速率之間的良好取捨。

下文將(例如)參看圖5來描述音訊解碼器400之另一可選改良。

4.根據圖5之音訊解碼器

圖5展示根據本發明之另一實施例的音訊解碼器500之方塊示意圖。音訊解碼器500接收編碼音訊資訊(亦指定為編碼音訊表示)510，且基於編碼音訊資訊提供解碼音訊資訊(亦指定為解碼音訊表示)512。音訊解碼器500包含低頻解碼器520，其可相當於低頻解碼器420且可實現相當的功能性。因此，低頻解碼器500提供由編碼音訊資訊510表示之音訊內容的低頻部分之解碼表示522。音訊解碼器500亦包含頻寬擴展530，其可實現與頻寬擴展430相同之功能性。

因此，頻寬擴展530可提供頻寬擴展信號532，其通常與低頻部分之解碼表示522組合(例如，添加至該解碼表示)以藉此獲得解碼音訊資訊512。頻寬擴展530可(例如)接收低頻部分522之解碼表示522。然而替代地，頻寬擴展532可接收由低頻解碼器520提供之控制資訊(其亦將被視為輔助資訊或中間資訊)524。輔助資訊或控制資訊或中間資訊524可(例如)表示音訊內容之低頻部分的頻譜形狀、低頻部分之解碼表示的過零率，或由低頻解碼器520使用之有助於頻寬擴展程序的任何其他中間量。此外，音訊解碼器包含控制部分540，其經組配以提供指示應由頻寬擴展530執行盲頻寬擴展抑或參數導引式頻寬擴展的控制資訊542。控制部分540可使用不同類型之資訊以用於提供控制資訊542。舉例而言，控制部分540可接收可包括於編碼音訊資訊510中之頻寬擴展模式位元串流旗標。舉例而言，針對編碼音訊資訊之每一部分(例如，訊框)可存在一個頻寬擴展模式位元串流旗標，該頻寬擴展模式位元串流旗標可由控制部分540自編碼音訊資訊擷取且可用以導出控制資訊542(或可直接構成控制資訊542)。然而替代地，控制部分540可接收表示低頻部分及/或描述如何解碼低頻部分(且因此亦指定為「低頻部分解碼資訊」)之資訊。替代地或另外，控制部分540可自低頻解碼器接收控制資訊或輔助資訊或中間資訊524，其可(例如)攜載關於低頻部分之頻譜包絡的資訊及/或關於低頻部分之解碼表示之過零率的資訊。然而，控制資訊或輔助資訊或中間資訊524亦可攜載關於低頻部分之解碼表示522之統計的資訊，或可表示由低頻解碼器520自低頻部分之解碼表示(亦指定為低頻部分解碼資訊)導出的任何其他中間資訊。

替代地或另外，控制部分540可接收低頻部分之解碼表示522，且自身可自低頻部分之解碼表示522導出特徵值(例如，過零率資訊、頻譜包絡資訊、頻譜傾斜量資訊，或其類似者)。

因此，若位元串流旗標(用信號通知應使用盲頻寬擴展抑或參數導引式頻寬擴展)包括於編碼音訊資訊510中，則控制部分540可評估此位元串流旗標以提供盲/參數導引式控制資訊542。然而，若此位元串流旗標不包括於編碼音訊資訊510中(例如，以減小位元速率)，則控制部分540通常基於其他資訊判定使用盲頻寬擴展抑或參數導引式頻寬擴展。為此目的，可由控制部分540評估低頻部分解碼資訊(其可等於低頻部分之編碼表示，或其子集)。替代地或另外，控制部分可考慮低頻部分之解碼表示522以用於作出使用盲頻寬擴展抑或參數導引式頻寬擴展之決策，亦即，用於提供控制資訊542。此外，控制部分540可視情況使用由低頻解碼器520提供之控制資訊或輔助資訊或中間資訊524，其限制條件為低頻解碼器520提供可由控制部分540使用之任何中間量。

因此，控制部分540可在盲頻寬擴展與參數導引式頻寬擴展之間切換頻寬擴展。

在盲頻寬擴展之狀況下，頻寬擴展530可在不評估任何額外位元串流參數之情況下基於低頻部分之解碼表示522來提供頻寬擴展信號532。相比之下，在參數導引式頻寬擴展之狀況下，頻寬擴展530可提供考慮額外(專用)頻寬擴展位元串流參數之頻寬擴展信號532，該等參數輔助判定音訊內容之高頻部分的特性(亦即，頻寬擴展信號之特性)。然而，頻寬擴展530亦可使用由低頻解碼器520提供的低頻部分之解碼表示522及/或控制資訊或輔助資訊或中間資訊524，以提供頻寬擴展信號532。

因此，在使用盲頻寬擴展與使用參數導引式頻寬擴展之間的決策有效地判定是否應用專用頻寬擴展參數(其通常不由低頻解碼器520使用以提供低頻部分之解碼表示)以獲得頻寬擴展信號(其通常描述由編碼音訊資訊表示之音訊內容之高頻部分)。

為概述以上內容，音訊解碼器500可經組配以在逐訊框基礎上(其中「訊框」為音訊內容之部分之實例，且其中訊框可(例如)包含在10ms與40ms之間的持續時間，且可較佳具有大約20ms±2ms之持續時間)決定使用盲頻寬擴展抑或使用參數導引式頻寬擴展來獲得頻寬擴展信號532。因此，音訊解碼器可經組配而以極精細時間粒度在盲頻寬擴展與參數導引式頻寬擴展之間切換。

又，應注意音訊解碼器500通常能夠在連續音訊內容片段內在使用盲頻寬擴展與使用參數導引式頻寬擴展之間切換。因此，可在連續音訊內容片段內實質上在任何時間(當然考慮成框)執行盲頻寬擴展與參數導引式頻寬擴展之間的切換，以使頻寬擴展適於單一音訊內容片段之不同部分的(改變)特性。

如上文所提及，音訊解碼器(較佳控制部分540) 可經組配以針對音訊內容之不同部分(例如，訊框)而評估包括於編碼音訊資訊510中之旗標(例如，每訊框一個單一位元旗標)，以決定使用盲頻寬擴展抑或參數導引式頻寬擴展。在此狀況下，控制部分540可保持為極簡單的，代價為針對音訊內容之每一部分必須將發信號旗標包括於編碼音訊資訊中。然而替代地，控制部分540可經組配以在不評估(專用)頻寬擴展模式發信號旗標之情況下基於低頻部分之編碼表示(其可包括使用由低頻解碼器520自低頻部分之該編碼表示導出的控制資訊或輔助資訊或中間資訊524，且亦可包括使用由低頻解碼器520自低頻部分之編碼表示導出的解碼表示522)來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。因此，甚至在位元串流中無發信號附加項之情況下仍可執行盲頻寬擴展與參數導引式頻寬擴展之間的切換。

音訊解碼器(或控制部分540)可經組配以基於低頻部分之解碼表示的一或多個特徵來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。可自低頻部分之解碼表示522擷取此等特徵(例如，如頻譜傾斜量資訊、過零率資訊或其類似者)，抑或可由控制資訊/輔助資訊/中間資訊524來用信號通知此等特徵。舉例而言，音訊解碼器(或控制部分540)可經組配以基於量化線性預測係數(例如，其可包括於控制資訊/輔助資訊/中間資訊524中)及/或取決於低頻部分之解碼表示522的時域統計來決定使用盲頻寬擴展抑或參數導引式頻寬擴展。

在下文中，將描述如何達成頻寬擴展之一些概念。舉例而言，頻寬擴展可經組配以針對(輸入)音訊內容之無頻寬擴展參數包括於編碼音訊資訊中的時間部分而使用低頻部分之解碼表示522的一或多個特徵及/或低頻解碼器520之一或多個參數(其可由控制資訊/輔助資訊/中間資訊524用信號通知)來獲得頻寬擴展信號532。因此，頻寬擴展530可執行盲頻寬擴展，其係基於自低頻部分之解碼表示推斷由編碼音訊資訊表示之音訊內容之高頻部分的想法。舉例而言，頻寬擴展530可經組配以針對輸入音訊內容之無頻寬擴展參數包括於編碼音訊資訊510中的時間部分而使用頻譜矩心資訊及/或使用能量資訊及/或使用(例如，寫碼)濾波器係數來獲得頻寬擴展信號532。因此，可達成良好的盲頻寬擴展。

然而，當然亦可應用不同的盲頻寬擴展概念。

然而，頻寬擴展可經組配以針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊中的時間部分而使用描述高頻部分之頻譜包絡的位元串流參數來獲得頻寬擴展信號532。換言之，可使用描述高頻部分之頻譜包絡的位元串流參數來執行參數導引式頻寬擴展。描述高頻部分之頻譜包絡的位元串流參數可支援參數導引式頻寬擴展(然而，其可另外依賴於由盲頻寬擴展使用之量中的一些或全部)。

舉例而言，已發現，頻寬擴展較佳應經組配以評估三個與五個之間的數目個位元串流參數，以便獲得頻寬擴展信號，該等位元串流參數描述具有在300Hz與500Hz之間的頻寬之高頻信號部分的強度。使用此等相對少量之位元串流參數並不實質上增加位元速率，但在「困難」信號部分之狀況下仍帶來頻寬擴展之足夠改良，使得可針對「困難」信號部分而由因此導引之頻寬擴展達成的品質與可針對「容易」信號部分而使用盲頻寬擴展獲得的品質相當(其中「困難」信號部分為盲頻寬擴展將不導致良好或可接受音訊品質的信號部分，而「容易」信號部分為盲頻寬擴展帶來足夠結果的信號部分)。

因此，較佳以兩個或三個位元之解析度純量量化描述具有在300Hz與500Hz之間的頻寬的高頻信號部分之強度的在三個與五個之間的數目個位元串流參數，使得每訊框存在6個與15個之間的數目個位元之頻寬擴展頻譜成形參數。已發現，頻寬擴展資訊之此低位元速率已足以在音訊內容之「困難」部分的狀況下獲得合理的良好頻寬擴展。

視情況，頻寬擴展530可經組配以在自盲頻寬擴展切換至參數導引式頻寬擴展及/或在自參數導引式頻寬擴展切換至盲頻寬擴展時執行頻寬擴展信號之能量的平滑。因此，減少在盲頻寬擴展與參數導引式頻寬擴展之間切換時的頻譜形狀之不連續性。舉例而言，頻寬擴展可經組配以針對在音訊內容之應用有盲頻寬擴展的部分之後的音訊內容之應用有參數導引式頻寬擴展之部分使頻寬擴展信號之高頻部分衰減。又，頻寬擴展可經組配以針對在音訊內容之應用有參數導引式頻寬擴展的部分之後的音訊內容之應用有盲頻寬擴展之部分減少對頻寬擴展信號之高頻部分的衰減(亦即，稍微著重強調頻寬擴展信號之高頻部分)。然而，亦可藉由減少在頻寬擴展模式之間切換時的高頻部分之頻譜形狀之不連續性的任何其他操作來執行平滑。因此，藉由減少偽訊來改良音訊品質。

總之，音訊解碼器500允許在頻寬擴展資訊提供於編碼音訊資訊中之狀況與無頻寬擴展資訊提供於編碼音訊資訊中之狀況兩者下對音訊內容之良好品質解碼。音訊解碼器可以精細時間粒度(例如，在逐訊框基礎上)而在盲頻寬擴展與參數導引式頻寬擴展之間切換，其中偽訊保持為小的。

5.根據圖6之用於基於輸入音訊資訊提供編碼音訊資訊的方法

圖6展示用於基於輸入音訊資訊提供編碼音訊資訊的方法600之流程圖。該方法600包含編碼610輸入音訊資訊之低頻部分以獲得低頻部分之編碼表示。該方法600亦包含基於輸入音訊資訊提供620頻寬擴展資訊，其中以信號適應性方式選擇性地將頻寬擴展資訊包括至編碼音訊資訊中。

應注意，可藉由本文中關於音訊編碼器(且亦關於音訊解碼器)所描述之特徵及功能性中的任一者補充根據圖6之方法600。

6.根據圖7之用於提供解碼音訊資訊的方法

圖7展示根據本發明之實施例的用於提供解碼音訊資訊的方法之流程圖。該方法700包含解碼710低頻部分之編碼表示以獲得低頻部分之解碼表示。該方法700亦包含針對音訊內容之無頻寬擴展參數包括於編碼音訊資訊中的部分而使用盲頻寬擴展來獲得720頻寬擴展信號。此外，該方法700包含針對音訊內容之有頻寬擴展參數包括於編碼音訊資訊中的部分而使用參數導引式頻寬擴展來獲得730頻寬擴展信號。

應注意，可藉由本文中關於音訊解碼器(且亦關於音訊編碼器)所描述之特徵及功能性中的任一者補充根據圖7之方法700。

7.根據圖8之編碼音訊表示

圖8展示表示音訊資訊之編碼音訊表示800的示意性說明。

編碼音訊表示(亦指定為編碼音訊資訊)包含音訊資訊之低頻部分的編碼表示。舉例而言，針對音訊資訊之第一部分(例如，針對音訊資訊之第一訊框)而提供音訊資訊之低頻部分的編碼表示810。此外，亦針對音訊資訊之第二部分(例如，第二訊框)而提供音訊資訊之低頻部分的編碼表示。然而，編碼音訊表示800亦包含頻寬擴展資訊，其中針對音訊資訊之一些但非所有部分而以信號適應性方式將頻寬擴展資訊包括於編碼音訊表示中。舉例而言，針對音訊資訊之第一部分而包括頻寬擴展資訊812。相比之下，針對音訊資訊之第二部分而不提供頻寬擴展資訊。

總之，通常藉由本文中所描述之音訊編碼器提供且藉由本文中所描述之音訊解碼器評估編碼音訊表示800。當然，編碼音訊表示可儲存於非暫時性電腦可讀媒體或其類似者上。此外，應注意，可藉由關於音訊編碼器及音訊解碼器所描述之特徵、資訊項目等中的任一者補充編碼音訊表示800。

8.結論及其他態樣

根據本發明之實施例藉由提議作為盲頻寬擴展與參數導引式頻寬擴展之組合的「微導引式」頻寬擴展來處理在極低位元速率音訊寫碼中之習知頻寬擴展的問題及現有習知頻寬擴展技術之缺點，該「微導引式」頻寬擴展滿足以下情形：●僅在不可自低頻音訊(例如，音訊內容之低頻部分)足夠良好地重建構輸入音訊之高頻內容(例如，高頻部分)之情況下才使用導引式頻寬擴展，亦即，每20ms(例如，每音訊訊框)傳輸數位元之旁側資訊，●否則使用盲頻寬擴展，亦即，高頻分量(例如，高頻部分)自諸如頻譜矩心、能量、傾斜量、編碼濾波器係數之低頻核心特徵(例如，重建構低頻部分之特徵)的經典重建構，●藉由利用旁側資訊之純量而非向量量化且藉由避免涉及大量資料點之操作(諸如，傅立葉變換及自相關及/或濾波器計算)來展現極低計算複雜度，●關於輸入信號特性為穩固的，亦即，並未針對諸如安靜環境中之成人語音的特定輸入信號而最佳化，以便對所有類型之語音以及音樂良好地起作用。

仍待解決在根據本發明之實施例的導引式頻寬擴展部分中將哪一(哪些)參數作為旁側資訊來傳輸及何時傳輸該等參數的問題。

已發現，在諸如AMR-WB之寬頻編碼解碼器中，在核心寫碼器區域上方之高頻區域的頻譜包絡表示以適當品質執行頻寬擴展所必要(或所需)的最關鍵資料。諸如頻譜精細結構及時間包絡之所有其他參數可相當準確地自解碼核心信號導出或具有低感知重要性。因此，此處所描述之微導引式頻寬擴展的導引式部分僅將高頻頻譜包絡作為旁側資訊(例如，作為頻寬擴展資訊)來傳輸。此情形輔助將頻寬擴展旁側資訊速率保持為低的。此外，已用試驗發覺，盲頻寬擴展對具有或多或少明顯之低通性質的時間上穩定之信號分段提供足夠(亦即，至少可接受)品質。有聲語音、環境雜訊及無打擊樂器聲之音樂區段為常見實例。事實上，至寬頻語音及音訊寫碼系統之大多數輸入通常屬於此種類。

然而，較佳經由將高頻頻譜包絡之量化表示作為旁側資訊(例如，作為頻寬擴展資訊)來傳輸的導引式頻寬擴展來寫碼信號段，該等信號段之瞬時頻譜在高頻區域中(例如，在高頻部分中)展現與在低頻(核心寫碼器)區域(或低頻部分)中非常不同之包絡。原因為，關於此等頻譜構造，盲頻寬擴展一般不能自如由寫碼濾波器係數或頻譜成形殘餘信號(亦稱為語音寫碼器中之激勵)核心信號包絡預測高頻頻譜包絡發展。突出實例為無聲語音，尤其為強摩擦音及塞擦音(如「s」或德語「z」)，以及主要在現代音樂中之某些打擊聲。在根據本發明之實施例中，因此僅針對此等「不可預測的」高頻頻譜來啟動導引式頻寬擴展。

在LD-USAC、xHE-AAC之低延遲版本之背景下實施根據本發明之微導引式頻寬擴展，以便按13.2kbit/s將寬頻寫碼(WB寫碼)信號頻寬自6.4kHz擴展至8.0kHz。在編碼器側上，每20ms之編碼解碼器訊框自輸入信號在感知頻率標度上之頻譜傾斜量(現有特徵亦用於ACELP寫碼路徑中)以及如由現有暫態偵測器提供之輸入信號的過零率之改變的時域特徵(亦用於其他寫碼模式決策)來計算盲/導引式決策。更具體而言，若頻譜傾斜量為正(意謂頻譜能量傾向於隨頻率增加而增加)並高於指定臨限值，且同時過零率已增加某一比率或高於某一臨限值(意謂當前訊框表示有雜訊波形分段之開始或位於有雜訊波形分段內)，則選擇及用信號通知導引式頻寬擴展。否則，選擇盲頻寬擴展。關於前述臨限值，進一步應用簡單的滯後，以便減小在導引式頻寬擴展與盲頻寬擴展之間反覆切換的機率。一旦將導引式頻寬擴展模式用於訊框，則稍微降低用於隨後的訊框中之決策臨限值，使得編碼解碼器更有可能保持於導引式模式中。一旦已決定切換回至盲模式，則恢復原始臨限值，使得頻寬擴展決策不太可能即刻轉換回至導引式模式。

如下概述每訊框頻寬擴展程序之剩餘內容：

1.若頻寬擴展為盲擴展，則使用位元串流中之一個位元傳輸「0」以將此模式用信號通知解碼器。視情況，不傳輸任何位元，且令解碼器藉由對核心信號之解碼器側分析將訊框識別為使用盲頻寬擴展模式。

2.若頻寬擴展處於導引式模式下，則使用位元串流中之一個位元傳輸「1」。接著，編碼器計算各自涵蓋輸入信號之400Hz的四個頻率增益索引，以允許在解碼器中對6.4至8kHz頻寬擴展區域的準確頻譜成形。在低延遲USAC實現方案中，四個索引中之每一者為四個頻寬擴展區域QMF能量中之每一者相對於先前QMF能量(或在第一頻寬擴展增益之狀況下，相對於4.8至6.4kHz QMF頻譜之能量)的純量量化之結果。由於使用具有2dB之步階大小的2位元中升型量化器，因此該等增益涵蓋-3dB至3dB之值範圍且每訊框消耗8位元。此情形得到每導引式頻寬擴展訊框9位元之總旁側資訊，或若排除如步驟1中之發信號，則視情況為8位元。

3.在對應解碼器中，讀取第一頻寬擴展位元。若該位元為「0」，則使用盲頻寬擴展，否則，多讀取8個位元且使用導引式頻寬擴展。視情況，跳過第一頻寬擴展位元之讀取(此係因為此位元不存在於位元串流中)，且藉由核心信號分析在本端執行盲/導引式決策，如步驟1中所提及。

4.若在解碼器中判定盲頻寬擴展模式，則執行僅使用解碼核心信號之特徵的頻寬擴展。此頻寬擴展本質上遵循在參考案[2]、[3]、[6]及[9]中之一者中描述的頻寬擴展概念，但在QMF而非DFT域中，且僅具有自核心QMF頻譜導出之低複雜度特徵(例如，頻譜矩心/傾斜量)。

5.若在解碼器中選擇導引式頻寬擴展模式，則將四個2位元增益索引反量化成QMF能量增益，且適用於如在步驟4中重建構之QMF頻寬擴展區域頻帶的頻譜成形。換言之，此處亦使用盲頻寬擴展，以下情形除外：經由在位元串流中傳輸之按比例調整因子而非經由自核心信號外插之按比例調整(結果，其構成參數導引式頻寬擴展)進行頻譜成形。

6.當自一個訊框至下一訊框而在盲頻寬擴展與導引式頻寬擴展之間切換時，執行高頻能量之簡單平滑，以最少化由盲頻寬擴展之類低通行為引起的切換偽訊(高頻能量不連續性)。平滑本質上充當盲頻寬擴展與導引式頻寬擴展之間的平滑轉換衰減器(cross-fader)：使在某一(一些)盲頻寬擴展訊框之後的第一導引式頻寬擴展訊框在其高頻區域中稍微衰減，而使在一些導引式頻寬擴展之後的第一盲頻寬擴展訊框的高頻衰減稍微減少。

關於典型的電話語言內容及風行音樂，試驗已展示所有20ms訊框之約13%在LD-USAC中正利用導引式頻寬擴展。因此，平均頻寬擴展旁側資訊速率達到每訊框約略2位元或0.1kbit/s。此速率遠小於(e)SBR(例如，參見參考案[8])或本文中參考之導引式語音寫碼器頻寬擴展中之任一者的速率。

應進一步注意，如早先在此部分中建議為逐步描述中之可選方法，若編碼器與解碼器兩者可以位元精確方式自核心寫碼信號導出彼決策，則可避免頻寬擴展模式決策至解碼器之1位元發信號。若編碼器基於自本端解碼之核心信號導出的一些特徵而選擇頻寬擴展模式，則可達成此發信號，此係因為此為解碼器中可用之僅有信號。假定在某一訊框中未出現傳輸錯誤且編碼器與解碼器兩者自完全相同之核心信號特徵(諸如，量化LPC係數或來自解碼殘餘信號之時域統計，如過零率，如上文所提到)判定頻寬擴展模式，則模式決策在編碼器及解碼器中相同。

根據本發明之實施例克服可在9至13kbit/s之位元速率下觀測到的寬頻編碼解碼器中之某一品質難題。一方面已發現，此等速率已太低而無法證明甚至適度量之頻寬擴展資料的傳輸為正當的，從而排除使用1kbit/s或更多旁側資訊之典型導引式頻寬擴展系統。另一方面已發現，由於不能進行自核心信號之適當參數預測，因此發現可行的盲頻寬擴展對於至少一些類型之語音或音樂材料的作用顯著較差。已發現，因此需要將導引式頻寬擴展方案之旁側資訊速率減小至遠低於1kbit/s之等級，其允許甚至在極低位元速率寫碼中仍採用導引式頻寬擴展方案。用於根據本發明之實施例中的方法為識別典型輸入信號之由盲頻寬擴展不良地或次最佳地重建構的多個段，且僅針對此等段傳輸將高頻重建構品質改良至可接受等級(或至少在關於彼信號之平均盲頻寬擴展品質之範圍中的等級)所必要的旁側資訊。換言之：應藉由極少頻寬擴展旁側資訊或不藉由頻寬擴展旁側資訊來寫碼高頻輸入信號之可由盲頻寬擴展良好地合理重建立的部分，且僅盲頻寬擴展將使編碼解碼器品質之總體印象降級的分段應使其高頻分量由導引式頻寬擴展來再現。以信號適應性方式調整旁側資訊速率之此頻寬擴展設計為本發明之目標，且被稱作「微導引式頻寬擴展」。

根據本發明之實施例優於近年來在文件(例如，參見參考案[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]及[10])中描述之多個頻寬擴展方法。一般而言，所有此等方法在給定操作點處為完全盲抑或完全導引式的，而無關於輸入信號之瞬時特性。此外，對於語音信號，排他性地最佳化盲頻寬擴展之所有實施(例如，參見參考案[1]、[3]、[4]、[5]、[9]及[10])，且因而該等實施不可能關於諸如音樂之其他輸入而得到令人滿意之品質(甚至在一些公開案中提到)。最後，大多數習知頻寬擴展實現方案相對複雜，其使用傅立葉變換、LPC濾波器計算，或旁側資訊之向量量化。假定大多數行動器件提供非常有限之計算能力，則此複雜性可使得在行動電信市場中採用新寫碼技術時存在缺點。

為了進一步得出推斷，根據本發明之實施例建立如上文所描述的用於音訊編碼之音訊編碼器或方法，或相關電腦程式。

根據本發明之其他實施例建立如上文所描述的用於音訊解碼之音訊解碼器或方法，或相關電腦程式。

根據本發明之額外實施例建立如上文所描述的編碼音訊信號或儲存有編碼音訊信號之儲存媒體。

9.實施替代例

儘管已在裝置之背景下描述一些態樣，但顯而易見，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，在方法步驟之背景下描述的態樣亦表示對應裝置之對應區塊或項目或特徵的描述。可藉由(或使用)如(例如)微處理器、可規劃電腦或電子電路之硬體裝置來執行方法步驟中之一些或全部。在一些實施例中，可藉由此裝置來執行最重要方法步驟中之某一或多者。

本發明之編碼音訊信號可儲存於數位儲存媒體上，或可在諸如無線傳輸媒體或有線傳輸媒體(諸如，網際網路)之傳輸媒體上加以傳輸。

取決於某些實施要求，可以硬體或以軟體來實施本發明之實施例。可使用例如以下各者之上面儲存有電子可讀控制信號的數位儲存媒體來執行該實施：軟性磁碟、DVD、藍光光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該數位儲存媒體與可規劃電腦系統合作(或能夠與可規劃電腦系統合作)以使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，該等電子可讀控制信號能夠與可規劃電腦系統合作以使得執行本文中所描述之方法中之一者。

大體而言，本發明之實施例可實施為具有程式碼之電腦程式產品，當該電腦程式產品在電腦上執行時，該程式碼可操作以用於執行方法中之一者。舉例而言，該程式碼可儲存於機器可讀載體上。

其他實施例包含用於執行本文中所描述之方法中之一者、儲存於機器可讀載體上的電腦程式。

換言之，本發明方法之實施例因此為具有程式碼之電腦程式，當該電腦程式在電腦上執行時，該程式碼用於執行本文中所描述之方法中之一者。

本發明方法之另一實施例因此為資料載體(或數位儲存媒體或電腦可讀媒體)，其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形及/或非暫時性的。

本發明方法之另一實施例因此為表示用於執行本文中所描述之方法中之一者的電腦程式的資料串流或信號序列。舉例而言，該資料串流或信號序列可經組配以經由資料通訊連接(例如，經由網際網路)而傳送。

另一實施例包含經組配以或用以執行本文中所描述之方法中之一者的處理構件，例如，電腦或可規劃邏輯器件。

另一實施例包含電腦，其具有安裝於其上的執行本文中所描述之方法中之一者的電腦程式。

根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如，以電子方式或光學方式)至接收器的裝置或系統。舉例而言，接收器可為電腦、行動器件、記憶體器件或其類似者。舉例而言，裝置或系統可包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯器件(例如，場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作以便執行本文中所描述之方法中之一者。大體而言，較佳藉由任何硬體裝置來執行方法。

可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施本文中所描述之裝置。

可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施本文中所描述之方法。

上述實施例僅說明本發明之原理。據瞭解，本文中所描述之配置及細節的修改及變化對於熟習此項技術者而言將為顯而易見的。因此，其意欲僅由即將給出之申請專利範圍之範疇來限制，而非由借助於本文中之實施例之描述及解釋而呈現之特定細節來限制。

參考文獻

[1]B. Bessette et al., “The Adaptive Multi-rate Wideband Speech Codec (AMR-WB),” IEEE Trans. on Speech and Audio Processing, Vol. 10, No. 8, Nov. 2002.

[2]B. Geiser et al., “Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 8, Nov. 2007.

[3]B. Iser, W. Minker, and G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, New York, 2008.

[4]M. Jelínek and R. Salami, “Wideband Speech Coding Advances in VMR-WB Standard,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 4, May 2007.

[5]I. Katsir, I. Cohen, and D. Malah, “Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation,” in Proc. EUSIPCO 2011, Barcelona, Spain, Sep. 2011.

[6]E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design, Wiley, New York, 2004.

[7]J. Mäkinen et al., “AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services,” in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005.

[8]M. Neuendorf et al., “MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also appears in the Journal of the AES, 2013.

[9]H. Pulakka and P. Alku, “Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 19, No. 7, Sep. 2011.

[10]T. Vaillancourt et al., “ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels,” in Proc. EUSIPCO 2008, Lausanne, Switzerland, Aug. 2008.

[11]L. Miao et al., “G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs,” in Proc. ICASSP 2011, Prague, Czech Republic, May 2011.

100‧‧‧音訊編碼器

110‧‧‧輸入音訊資訊

112‧‧‧編碼音訊資訊

120‧‧‧低頻編碼器

122‧‧‧編碼表示

130‧‧‧頻寬擴展資訊提供器

132‧‧‧頻寬擴展資訊

Claims

一種用於基於一輸入音訊資訊提供一編碼音訊資訊之音訊編碼器，該音訊編碼器包含：一低頻編碼器，其經組配以編碼該輸入音訊資訊之一低頻部分以獲得該低頻部分之一編碼表示；及一頻寬擴展資訊提供器，其經組配以基於該輸入音訊資訊提供頻寬擴展資訊；其中該音訊編碼器經組配而以一信號適應性方式選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項1之音訊編碼器，其中該音訊編碼器包含一偵測器，其經組配以識別該輸入音訊資訊的不可基於該低頻部分之該編碼表示且使用一盲頻寬擴展以一足夠或所要品質解碼的部分；且其中該音訊編碼器經組配以針對該輸入音訊資訊之由該偵測器識別的部分而選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項1或2之音訊編碼器，其中該音訊編碼器包含一偵測器，其經組配以識別該輸入音訊資訊之不可以一足夠或所要準確度來基於該低頻部分估計頻寬擴展參數的部分；且其中該音訊編碼器經組配以針對該輸入音訊資訊之由該偵測器識別的部分而選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項1至3中任一項之音訊編碼器，其中該音訊編碼器包含一偵測器，其經組配以取決於該輸入音訊資訊之部分是否為時間上穩定之部分且取決於該等部分是否具有一低通性質而識別該等部分；且其中該音訊編碼器經組配以針對該輸入音訊資訊之由該偵測器識別為具有一低通性質之時間上穩定之部分的部分而選擇性地省略頻寬擴展資訊至該編碼音訊資訊中之一包括。
如請求項4之音訊編碼器，其中該偵測器經組配以取決於該輸入音訊資訊之部分是否包含有聲語音及/或取決於該等部分是否包含環境雜訊及/或取決於該等部分是否包含無打擊樂器聲之音樂而識別該等部分。
如請求項1至5中任一項之音訊編碼器，其中該音訊編碼器包含一偵測器，其經組配以取決於一低頻部分之一頻譜包絡與一高頻部分之一頻譜包絡之間的一差是否大於或等於一預定差度量而識別該輸入音訊資訊之部分；且其中該音訊編碼器經組配以針對該輸入音訊資訊之由該偵測器識別的部分而選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項6之音訊編碼器，其中該偵測器經組配以取決於部分是否包含無聲語音而識別該等部分，及/或其中該偵測器經組配以取決於部分是否包含打擊聲而識別該等部分。
如請求項1至7中任一項之音訊編碼器，其中該音訊編碼器包含一偵測器，其經組配以判定該輸入音訊資訊之部分的一頻譜傾斜量，且取決於該所判定頻譜傾斜量是否大於或等於一固定或可變傾斜量臨限值而識別該輸入音訊資訊之部分；且其中該音訊編碼器經組配以針對該輸入音訊資訊之由該偵測器識別的部分而選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項8之音訊編碼器，其中該偵測器經進一步組配以判定該輸入音訊資訊之部分的一過零率，且亦取決於該所判定過零率是否大於或等於一固定或可變過零率臨限值或取決於該過零率是否包含超過一過零率改變臨限值之一時間改變而識別該輸入音訊資訊之部分。
如請求項2至9中任一項之音訊編碼器，其中該偵測器經組配以應用一滯後以用於識別該輸入音訊資訊之信號部分，以減少在所識別信號部分與未識別信號部分之間的轉變之一數目。
如請求項1至10中任一項之音訊編碼器，其中該音訊編碼器經組配而以一信號適應性方式選擇性地將表示該輸入音訊資訊之一高頻部分之一頻譜包絡的參數作為該頻寬擴展資訊包括至該編碼音訊資訊中。
如請求項1至11中任一項之音訊編碼器，其中該低頻編碼器經組配以編碼該輸入音訊資訊之一低頻部分，該低頻部分包含高達位於6kHz與7kHz之間的一範圍中的一最大頻率的頻率，且其中該音訊編碼器經組配以選擇性地將在三個與五個之間的數目個參數包括至該編碼音訊表示中，該等參數描述具有在300Hz與500Hz之間的頻寬的高頻信號部分之強度。
如請求項12之音訊編碼器，其中該音訊編碼器經組配以選擇性地將描述四個高頻信號部分之強度的4個純量量化參數包括至該編碼音訊表示中，該等高頻信號部分涵蓋高於該低頻部分之頻率範圍。
如請求項12或13之音訊編碼器，其中該音訊編碼器經組配以選擇性地將描述頻譜相鄰之頻率部分的能量或強度之間的一關係的複數個參數包括至該編碼音訊表示中，其中該等參數中之一者描述一第一頻寬擴展高頻部分與一低頻部分之一能量或強度之間的一比率或差，且其中該等參數中之其他者描述其他頻寬擴展高頻部分之能量或強度之間的比率或差。
一種用於基於一編碼音訊資訊提供一解碼音訊資訊之音訊解碼器，該音訊解碼器包含：一低頻解碼器，其經組配以解碼一低頻部分之一編碼表示以獲得該低頻部分之一解碼表示；一頻寬擴展，其經組配以針對一音訊內容之無頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一盲頻寬擴展來獲得一頻寬擴展信號，且針對該音訊內容之有頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一參數導引式頻寬擴展來獲得該頻寬擴展信號。
如請求項15之音訊解碼器，其中該音訊解碼器經組配以在一逐訊框基礎上決定使用一盲頻寬擴展抑或使用一參數導引式頻寬擴展來獲得該頻寬擴展信號。
如請求項15或16之音訊解碼器，其中該音訊解碼器經組配以在一連續音訊內容片段內在一盲頻寬擴展之一使用與一參數導引式頻寬擴展之一使用之間切換。
如請求項15至17中任一項之音訊解碼器，其中該音訊解碼器經組配以針對該音訊內容之不同部分而評估包括於該編碼音訊資訊中之旗標，以決定使用一盲頻寬擴展抑或一參數導引式頻寬擴展。
如請求項15至17中任一項之音訊解碼器，其中該音訊解碼器經組配以在不評估一頻寬擴展模式發信號旗標之情況下基於該低頻部分之該編碼表示來決定使用一盲頻寬擴展抑或一參數導引式頻寬擴展。
如請求項19之音訊解碼器，其中該音訊解碼器經組配以基於該低頻部分之該解碼表示的一或多個特徵來決定使用一盲頻寬擴展抑或一參數導引式頻寬擴展。
如請求項19或20之音訊解碼器，其中該音訊解碼器經組配以基於線性預測係數及/或基於該低頻部分之該解碼表示的時域統計來決定使用一盲頻寬擴展抑或一參數導引式頻寬擴展。
如請求項15至21中任一項之音訊解碼器，其中該頻寬擴展經組配以針對該輸入音訊內容之無頻寬擴展參數包括於該編碼音訊資訊中的時間部分而使用該低頻部分之該解碼表示的一或多個特徵及/或使用該低頻解碼器之一或多個參數來獲得該頻寬擴展信號。
如請求項15至22中任一項之音訊解碼器，其中該頻寬擴展經組配以針對該輸入音訊內容之無頻寬擴展參數包括於該編碼音訊資訊中的時間部分而使用一頻譜矩心資訊及/或使用一能量資訊及/或使用一傾斜量資訊及/或使用濾波器係數來獲得該頻寬擴展信號。
如請求項15至23中任一項之音訊解碼器，其中該頻寬擴展經組配以針對該音訊內容之有頻寬擴展參數包括於該編碼音訊資訊中的時間部分而使用描述一高頻部分之一頻譜包絡的位元串流參數來獲得該頻寬擴展信號。
如請求項24之音訊解碼器，其中該頻寬擴展經組配以評估在三個與五個之間的數目個位元串流參數，以便獲得該頻寬擴展信號，該等位元串流參數描述具有在300Hz與500Hz之間的頻寬之高頻信號部分的強度。
如請求項25之音訊解碼器，其中以2或3個位元之解析度純量量化描述高頻信號部分之強度的在三個與五個之間的該數目個位元串流參數，使得每音訊訊框存在6個與15個之間的數目個位元之頻寬擴展頻譜成形參數。
如請求項15至26中任一項之音訊解碼器，其中該頻寬擴展經組配以在自盲頻寬擴展切換至參數導引式頻寬擴展及/或在自參數導引式頻寬擴展切換至盲頻寬擴展時執行該頻寬擴展信號之能量的一平滑。
如請求項27之音訊解碼器，其中該頻寬擴展經組配以針對在該音訊內容之應用有一盲頻寬擴展的一部分之後的該音訊內容之應用有一參數導引式頻寬擴展之一部分而使該頻寬擴展信號之一高頻部分衰減；且其中該頻寬擴展經組配以針對在該音訊內容之應用有一參數導引式頻寬擴展的一部分之後的該音訊內容之應用有一盲頻寬擴展之一部分而減少對該頻寬擴展信號之一高頻部分的一衰減或增加該高頻部分之一位準。
一種用於基於一輸入音訊資訊提供一編碼音訊資訊之方法，該方法包含：編碼該輸入音訊資訊之一低頻部分以獲得該低頻部分之一編碼表示；及基於該輸入音訊資訊提供頻寬擴展資訊；其中以一信號適應性方式選擇性地將頻寬擴展資訊包括至該編碼音訊資訊中。
一種用於基於一編碼音訊資訊提供一解碼音訊資訊之方法，該方法包含：解碼一低頻部分之一編碼表示以獲得該低頻部分之一解碼表示；及針對一音訊內容之無頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一盲頻寬擴展來獲得一頻寬擴展信號，及針對該音訊內容之有頻寬擴展參數包括於該編碼音訊資訊中的部分而使用一參數導引式頻寬擴展來獲得該頻寬擴展信號。
一種電腦程式，其用於在該電腦程式執行於一電腦上時執行如請求項29或30之方法。
一種表示一音訊資訊之編碼音訊表示，該編碼音訊表示包含：該音訊資訊之一低頻部分的一編碼表示；及一頻寬擴展資訊；其中針對該音訊資訊之一些但非所有部分而以一信號適應性方式將該頻寬擴展資訊包括於該編碼音訊表示中。