TWI381368B

TWI381368B - Coding mode selection device

Info

Publication number: TWI381368B
Application number: TW98142149A
Authority: TW
Inventors: Mu Liang Wang
Original assignee: Univ Shu Te
Priority date: 2009-12-09
Filing date: 2009-12-09
Publication date: 2013-01-01
Also published as: TW201120873A

Description

編碼模式選擇裝置

本發明係有關於一種編碼模式選擇裝置，尤其是一種針對不同的音訊訊號形式而選擇不同編碼核心進行編碼的編碼模式選擇裝置。

隨著行動通訊的普及，許許多多的多媒體服務也為目前的行動通訊裝置所支援，使得所需處理的音訊訊號的形式趨於多元化。

主要而言，目前音訊訊號的形式可區分為語音、音樂、語音及音樂混合(speech over music)，以及語音及音樂交錯(speech between music)等四種類型的音訊訊號。為達到有效率之傳送，必須在中/低位元率之下對各種型態之音訊做有效率之編碼。由於音訊訊號形式的不同具備特性上之差異，因此需採用不同的編碼核心進行音訊編碼。舉例來說，第3代合作夥伴計畫(3^rd Generation Partnership Project,3GPP)選定延伸型寬頻適應性多位元率(Extended Adaptive Multi-rate Wideband,AMR-WB+)作為多媒體服務之編解碼標準。而AMR-WB+針對不同的音訊訊號形式，對語音訊號傾向採用代數型碼激式線性預估(Algebraic Code Excited Linear Prediction,ACELP)(時域編碼)之編碼核心進行編碼，而對音樂訊號採用轉換編碼激發訊號(Transform Coding eXcitation,TCX)(頻域編碼)之編碼核心進行編碼。

在進行音訊訊號的編碼時，需具備時域及頻域編碼模式之選擇機制，針對不同的音訊訊號形式，採用不同的編碼核心進行編碼，使得編碼後的訊號品質為最佳。基於上述原因，需要一種能針對不同的音訊訊號形式，而選擇不同編碼核心進行編碼的編碼模式選擇裝置。

本發明係提供一種編碼模式選擇裝置，其主要係當需要對不同形式的音訊訊號編碼時，能提供一種可選擇不同編碼核心進行編碼的裝置，為其發明目的。

本發明係提供一種編碼模式選擇裝置，其主要係當需要對不同形式的音訊訊號編碼時，能提供一種可選擇不同編碼核心進行編碼，且執行速度較快的裝置，為其發明次一目的。

為達到前述發明目的，本發明所運用之技術手段及藉由該技術手段所能達到之功效包含有：一種編碼模式選擇裝置，用以提供一編碼代號至一複合式音訊編碼器，且該編碼代號對應於該複合式音訊編碼器之複數編碼核心之一。該編碼模式選擇裝置包含一參數擷取模組、一類神經網路模組和一編碼模式映射模組。參數擷取模組係供接收一輸入音訊訊號，並產生該輸入音訊訊號之複數特徵參數。類神經網路模組耦接至該參數擷取模組，並根據該特徵參數產生一浮點值。編碼模式映射模組耦接於該類神經網路模組和該複合式音訊編碼器之間，並根據該浮點值產生該編碼代號，使得該複合式音訊編碼器使用該編碼代號所對應之該編碼核心對該輸入音訊訊號進行編碼。

一種編碼模式選擇裝置，用以提供一編碼代號至一複合式音訊編碼器，且該編碼代號對應於該複合式音訊編碼器之複數編碼核心之一。該編碼模式選擇裝置包含一參數擷取模組、一類神經網路模組和一編碼模式映射模組。參數擷取模組係供接收一輸入音訊訊號，並與該複合式音訊編碼器共同產生該輸入音訊訊號之複數特徵參數。類神經網路模組耦接至該參數擷取模組，並根據該特徵參數產生一浮點值。編碼模式映射模組耦接於該類神經網路模組和該複合式音訊編碼器之間，並根據該浮點值產生該編碼代號，使得該複合式音訊編碼器使用該編碼代號所對應之該編碼核心對該輸入音訊訊號進行編碼。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：請參照第1圖，其係繪示採用本發明一較佳實施例所述之編碼模式選擇裝置之編碼系統的方塊圖。編碼系統1包含一複合式音訊編碼器11和一編碼模式選擇裝置12。編碼模式選擇裝置12包含一參數擷取模組121、一類神經網路模組122和一編碼模式映射模組123。參數擷取模組121係耦接至類神經網路模組122，類神經網路模組122係耦接至編碼模式映射模組123，而編碼模式映射模組123係耦接至複合式音訊編碼器11。在本發明之較佳實施例中，複合式音訊編碼器11係為一延伸型寬頻適應性多位元率編碼解碼器(AMR-WB+ codec)，但並不以此為限。

在第1圖中，複合式音訊編碼器11和編碼模式選擇裝置12同時接收一輸入音訊訊號x (n )。編碼模式選擇裝置12根據所接收的輸入音訊訊號x (n )輸出一編碼代號至複合式音訊編碼器11，使得複合式音訊編碼器11選擇編碼代號所對應的編碼核心(ACELP或TCX)對輸入音訊訊號x (n )進行編碼。編碼模式選擇裝置12產生編碼代號之過程將於稍後敘述。對延伸型寬頻適應性多位元率編碼解碼器而言，編碼核心ACELP和TCX更可分成數個編碼模式，如表1所示。

在第1圖中，複合式音訊編碼器11所接收的每一段輸入音訊訊號x (n )可由1024個資料樣本組成。該1024個資料樣本被均勻切割成四個音框f₀ 、f₁ 、f₂ 和f₃ ，每個音框包含256個資料樣本。在表1中，當編碼模式選擇裝置12所輸出之編碼代號與複合式音訊編碼器11之預設編碼代號0至3的任一者對應時，複合式音訊編碼器11即採用相應之編碼核心和編碼模式對輸入音訊訊號x (n )進行資料編碼。舉例來說，若編碼模式選擇裝置12輸出之編碼代號為0，則複合式音訊編碼器11使用編碼模式0(ACELP之編碼核心)對輸入音訊訊號x (n )進行資料編碼。又若編碼模式選擇裝置12輸出之編碼代號為2，則複合式音訊編碼器11使用編碼模式2(TCX之編碼核心)對輸入音訊訊號x (n )進行資料編碼。

當複合式音訊編碼器11之編碼模式選擇為模式0時，代表複合式音訊編碼器11較適合以ACELP之編碼核心對輸入音訊訊號x (n )進行資料編碼，其中該四個音框f₀ 、f₁ 、f₂ 和f₃ 係各個音框分開各自編碼，因此一筆1024樣本的資料需分四次編碼。

當複合式音訊編碼器11之編碼模式選擇為模式1時，代表複合式音訊編碼器11較適合以TCX之編碼核心對輸入音訊訊號x (n )進行資料編碼，其中該四個音框f₀ 、f₁ 、f₂ 和f₃ 係各個音框分開編碼，因此一筆1024樣本的資料亦需分四次編碼。

當複合式音訊編碼器11之編碼模式選擇為模式2或3時，與模式1相同，代表複合式音訊編碼器11以TCX之編碼核心對輸入音訊訊號x (n )進行資料編碼較合適，然而兩種類型訊號(模式2和3)之特性隨時間變化較為緩和，所以在進行資料編碼時，可以一次取較長時間(較多聲音樣本)作編碼，以提高編碼效率。舉例來說，模式2代表複合式音訊編碼器11根據TCX之編碼核心對輸入音訊訊號x (n )進行資料編碼，其中該四個音框f₀ 、f₁ 、f₂ 和f₃ 係每兩個音框一起編碼，亦即512個樣本資料一起編碼。因此，在模式2中，一筆1024樣本的資料係分二次編碼。當複合式音訊編碼器11之編碼模式選擇為模式3時，代表複合式音訊編碼器11根據TCX之編碼核心對輸入音訊訊號x (n )進行資料編碼，其中該四個音框f₀ 、f₁ 、f₂ 和f₃ 四個音框一起編碼，因此一筆1024樣本的資料係一次編碼完畢。

在上述的說明中，顯示複合式音訊編碼器11係根據編碼模式選擇裝置12所輸出之編碼代號來決定該採用何種編碼核心及編碼模式對輸入音訊訊號x (n )進行編碼。以下，本發明將敘述編碼模式選擇裝置12如何產生編碼代號。

在編碼模式選擇裝置12運作之前，類神經網路模組122必須先經過模型訓練的步驟。在訓練過程中，本發明以約300,000個音框之語音(speech)、音樂(music)、語音及音樂混合(speech over music)，以及語音及音樂交錯(speech between music)等四種類型的音訊訊號，將音訊訊號以採用延伸型寬頻適應性多位元率(AMR-WB+)之複合式音訊編碼器11作編碼，編碼過程中以3GPP編碼標準所使用之閉迴路(close loop)模式決定每一段音框訊號之最終編碼模式，並改寫其部份程式碼，使得編碼過程中複合式音訊編碼器11能取得每一音框之參數、編碼模式之編碼代號c _i 及輸出訊號品質。本發明將3GPP模式選擇中所決定之編碼模式視為正確之編碼模式，並分別將編碼過程中所取得每一音框之參數、編碼模式之編碼代號c _i 及輸出訊號品質輸出，作為類神經網路模組122之訓練資料。

類神經網路模組122訓練完畢之後，即可進行系統中輸入音訊訊號x (n )的判別。請參照第1圖，參數擷取模組121接收輸入音訊訊號x (n )，並產生輸入音訊訊號x (n )之特徵參數。參數擷取模組121所產生之特徵參數可至少包含訊號能量、頻帶能量標準差、高低頻帶能量比、低頻帶能量比、正規化基週差、基週增益和第一反射係數等。該特徵參數之意義分別解說如下。

訊號能量參數代表輸入音訊訊號x (n )中，音框訊號之音訊取樣點的總能量。

頻帶能量標準差參數代表將輸入音訊訊號x (n )之音框訊號取快速傅立葉轉換(Fast Fourier Transform,FFT)，並求出其頻譜振幅。訊號經過快速傅立葉轉換後之輸出頻譜，以非均勻方式切割成複數頻帶，計算各個頻帶之能量準位，並統計各個頻帶能量之標準差(standard deviation)，如表2所示。

如表2所示，在本發明的較佳實施例中，係將快速傅立葉轉換之索引值分成12個頻譜，每個頻譜之索引值的數目不同，因此稱為非均勻方式。在頻率較低的頻帶(如頻帶0,1...)中，其索引值的數目較少，而在頻率較高的頻帶(如頻帶10,11...)中，其索引值的數目較多。這樣的分配方式乃係基於人耳對低頻之音訊的頻率鑑別度較高，而隨著人耳對高頻之音訊的頻率鑑別度較低，頻率愈高其每個頻帶的索引值數目亦漸增。

高低頻帶能量比參數係將輸入音訊訊號x (n )之音框訊號的頻譜分成低頻帶與高頻帶兩部份，並分別計算其能量以取得高/低頻帶能量之比值。

低頻帶能量比係將輸入音訊訊號x (n )之音框訊號的低頻帶能量以該音框之總能量作正規化(normalization)。

正規化基週差參數係將輸入音訊訊號x (n )之各音框訊號求得的基週值(pitch)，計算前後兩個相鄰音框訊號之基週差值，並以基週值作正規化。

基週增益參數係輸入音訊訊號x (n )各音框訊號求得基週之過程中，所得到之預估增益(prediction gain)。

第一反射係數參數係於線性預估分析(LPC analysis)過程中，所求得之第一階反射係數。

上述特徵參數求得之後，即傳送至類神經網路模組122進行分析。類神經網路模組122針對上述輸入特徵參數進行加權運算，並得到一浮點值傳送至編碼模式映射模組123。根據浮點值，編碼模式映射模組123將其與複合式音訊編碼器11表1中的預設編碼代號作對應(mapping)，並產生最終之編碼代號。其中，預設編碼代號的對應係以”最小損失準則”為準。詳言之，本發明以分段雜訊比(segmental signal to noise ratio，SEGSNR)作客觀品質測量。

在量測分段雜訊比SEGSNR時係以音框為單位，若以表示原始輸入音訊訊號x (n )的第i個音框經過聽覺加權後之訊號，而以表示合成音訊第i個音框經過聽覺加權後之訊號，則分段雜訊比SEGSNR之計算公式如下：

其中SEGSNR_i 代表第i個音框之分段雜訊比，N代表音框之資料樣本數。若N _F 代表測試音訊之音框數目，則可求得各音框之分段雜訊比SEGSNR_i 的平均值SEGSNR如下：

假設第i個音框編碼模式判別正確時之分段雜訊比為，而該音框以編碼代號之編碼模式作編碼產生之分段雜訊比為，則編碼模式映射模組123可根據以下公式作浮點值和預設編碼代號的對應：

總而言之，根據以上(1)、(2)和(3)等三個公式，編碼模式映射模組123即可將類神經網路模組122輸出的浮點值映射到複合式音訊編碼器11之預設編碼代號之一者，使得複合式音訊編碼器11採用相應的編碼核心和模式進行輸入音訊訊號x (n )的編碼。

值得注意的是，輸入音訊訊號x (n )之七個特徵參數(訊號能量、頻帶能量標準差、高低頻帶能量比、低頻帶能量比、正規化基週差、基週增益和第一反射係數)除了可以由參數擷取模組121單獨產生之外，也可部分由複合式音訊編碼器11提供，如第2圖所示。換句話說，在第2圖的架構中，參數擷取模組121係與該複合式音訊編碼器11共同產生輸入音訊訊號x (n )之所有特徵參數。這是因為在複合式音訊編碼器11於編碼輸入音訊訊號x (n )，選擇複合式編碼核心進行編碼之前，已經由輸入音訊訊號x (n )擷取相關參數，因此可從中獲得一些資訊而能提供部份的特徵參數。藉著複合式音訊編碼器11提供部份特徵參數的方式，可降低參數擷取模組121之運算量，增進編碼系統1的執行速度。

本發明之編碼模式選擇裝置，主要係當需要對不同形式的音訊訊號編碼時，能提供一種可選擇不同編碼核心進行編碼的裝置，以達到編碼模式選擇的功效。

本發明之編碼模式選擇裝置，其主要係當需要對不同形式的音訊訊號編碼時，能提供一種不但可選擇不同編碼核心進行編碼，且執行速度更為快速的裝置，以達到快速編碼的功效。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

[本發明]

1．．．編碼系統

11．．．複合式音訊編碼器

12．．．編碼模式選擇裝置

121．．．參數擷取模組

122．．．類神經網路模組

123．．．編碼模式映射模組

第1圖：本發明較佳實施例之編碼系統的方塊圖。

第2圖：本發明另一較佳實施例之編碼系統的方塊圖。