TW201415457A

TW201415457A - 在自相關域中利用代數碼激發線性預測（ａｃｅｌｐ）編碼語音信號之裝置

Info

Publication number: TW201415457A
Application number: TW102128480A
Authority: TW
Inventors: Tom Baeckstroem; Markus Multrus; Guillaume Fuchs; Christian Helmrich; Martin Dietz
Original assignee: Fraunhofer Ges Forschung
Priority date: 2012-10-05
Filing date: 2013-08-08
Publication date: 2014-04-16
Also published as: KR101691549B1; EP2904612B1; CA2979948A1; PT2904612T; CA2979857C; AU2013327192B2; SG11201502613XA; EP4213146A1; US20150213810A1; CA2979948C; AR092875A1; CA2887009A1; US11264043B2; PL2904612T3; US20180218743A9; ES2948895T3; US20190115035A1; TWI529702B; JP2015532456A; HK1213359A1

Abstract

本發明提供一種用以藉由確定一語音編碼演算法之一碼簿向量來編碼一語音信號的裝置。該裝置包含一用以確定一自相關矩陣R之矩陣確定器(110)，以及一用以根據該自相關矩陣R來確定該碼簿向量之碼簿向量確定器(120)。該矩陣確定器(110)經組配來藉由確定一向量r之向量係數來確定該自相關矩陣R，其中該自相關矩陣R包含多個列及多個行，其中該向量r指示該自相關矩陣R的該等行中之一個或該等列中之一個，其中R(i,j)=r(| i-j |)，其中R(i,j)指示該自相關矩陣R的係數，其中i係一第一索引，其指示該自相關矩陣R之多個列中之一個，且其中j係一第二索引，其指示該自相關矩陣R的該等多個行中之一個。

Description

在自相關域中利用代數碼激發線性預測(ACELP)編碼語音信號之裝置

發明領域

本發明係關於音訊信號編碼，且詳言之，係關於在自相關域中利用代數碼激發線性預測(ACELP)編碼語音信號之裝置。

發明背景

在藉由碼激發線性預測(CELP)的語音編碼中，藉由線性預測(LP)模型來描述語音信號的頻譜包絡(或等效地，短時時間結構)，且藉由長時預測器(LTP，亦稱為自適應碼簿)將預測殘餘模型化，且藉由碼簿(亦稱為固定碼簿)來表示殘餘信號。後者，即固定碼簿，通常係應用為代數碼簿，其中藉由代數公式或演算法來表示碼簿，因此不需要儲存整個碼簿，而僅需儲存演算法，同時允許一種快速搜尋演算法。針對殘餘應用代數碼簿的CELP編碼解碼器被稱為代數碼激發線性預測(ACELP)編碼解碼器(見[1]、[2]、[3]、4])。

在語音編碼中，利用代數殘餘碼簿係在諸如[17]、[13]、[18]之主流編碼解碼器中選擇的方法。ACELP係基於：藉由線性預測(LP)濾波器將頻譜包絡模型化、藉由長時預測器(LTP)將濁音的基頻模型化以及藉由代數碼簿將預測殘餘模型化。在感知域中藉由最小平方演算法來最佳化LTP參數及代數碼簿參數，其中該感知域由濾波器指定。

ACELP式演算法中計算起來最為複雜的部分，即瓶頸，係殘餘碼簿的最佳化。目前唯一已知的最佳演算法將係針對每個子圖框對大小為N ^p的空間之窮舉式搜尋，其中在每個點上，需要複雜性為(N ²)的評估。因為典型值為子圖框長度N=64(亦即，5ms)，其中p=8個脈衝，所以此意味每秒有超過10²⁰次的運算。顯然此並非可行選擇。為保持在硬體需求所設定的複雜性限制內，碼簿最佳化方法必須使用非最佳反覆演算法來操作。過去已提出許多此類演算法以及對最佳化過程的改良，例如[17]、[19]、[20]、[21]、[22]。

明確而言，ACELP最佳化係基於將語音信號x(n)描述為線性預測模型的輸出，以使得所評估的語音信號為其中a(k)為LP係數且ê(k)為殘餘信號。此方程式可以向量的形式表示為其中矩陣H經定義為具有對角線h(0)及較低對角線h(1),...,h(39)的下三角Toeplitz捲積矩陣，且向量h(k)係LP模型的脈衝響應。應注意，在此標記法中，省略了感知模型(其通常對應於加權的LP模型)，但是假定感知模型包括在脈衝響應h(k)中。此省略不影響結果的一般性，但是簡化了標記法。如在[1]中，應用對感知模型的包括。

藉由平方誤差來量測模型的適合度。亦即，

此平方誤差用來找到最佳的模型參數。此處，假定LTP及脈衝碼簿均用來將向量e模型化。實際應用可在相關出版物(見[1-4])中找到。

在實踐中，可將上述適合度量測簡化如下。假設矩陣B=H^TH包含h(n)的相關，假設c_k係第k個固定碼簿向量，且設定，其中g係增益因數。藉由假定g係最佳選擇，則藉由使搜尋準則最大化來搜尋碼簿其中d=H^Tx係包含目標向量與脈衝響應h(n)之間的相關之向量，且上標T表示轉置。在碼簿搜尋之前計算向量d及矩陣B。此公式通常用於LTP及脈衝碼簿的最佳化中。

已投入大量的研究來最佳化上述公式的使用。例如，1)僅計算矩陣B中實際上由搜尋演算法取用之元素。或：2)基於先前篩選(見例如[1,5])，減少脈衝搜尋的試誤演算法以便僅嘗試具有高成功機率的此等碼簿向量。

ACELP演算法的實際細節與零脈衝響應(ZIR)的概念相關。當相較於合成殘餘來考慮原始域合成信號時，該概念出現。將殘餘編碼於對應於圖框大小或子圖框大小的區塊中。然而，當將原始域信號與方程式1的LP模型合成時，固定長度殘餘將具有無限長度的「尾端」，其對應於LP濾波器的脈衝響應。亦即，儘管殘餘碼簿向量的長度有限，但其對合成信號的影響將遠遠超出當前的圖框或子圖框。可藉由用零擴展該碼簿向量以及針對此擴展信號計算方程式1的合成輸出來計算圖框進入未來的影響。合成信號的擴展被稱為零脈衝響應。然後，為在編碼當前圖框時將先前圖框的影響考慮在內，自當前圖框的目標中減去前一個圖框的ZIR。因此，在編碼當前圖框時僅考慮該信號尚未被前一個圖框模型化的部分。

在實踐中，將ZIR考慮如下：當(子)圖框N-1已經編碼時，用零將量化殘餘擴展至下一個(子)圖框N的長度。藉由LP對經擴展的量化殘餘進行濾波來獲得量化信號的ZIR。然後自原始(未量化的)信號中減去量化信號的ZIR，且此修改後的信號形成在編碼(子)圖框N時的目標信號。以此方式，在量化(子)圖框N時，在(子)圖框N-1中形成的所有量化誤差都將考慮在內。此實作大大改良了輸出信號的感知品質。

然而，若能提供用於音訊編碼之進一步改良的概念將受到高度讚賞。

發明概要

本發明的目的在於提供用於音訊物件編碼之此等改良的概念。藉由以下各者來解決本發明的目的：如請求項1之裝置、如請求項15之編碼方法、如請求項16之解碼器、如請求項17之解碼方法、如請求項18之系統、如請求項19之方法以及如請求項20之電腦程式。

提供一種用以藉由確定語音編碼演算法的碼簿向量來編碼語音信號的裝置。該裝置包含一用以確定一自相關矩陣R的矩陣確定器(determiner)，以及一用以根據該自相關矩陣R來確定該碼簿向量的碼簿向量確定器。該矩陣確定器經組配來藉由確定一向量r的向量係數來確定該自相關矩陣R，其中該自相關矩陣R包含多個列及多個行，其中該向量r指示該自相關矩陣R的該等行中之一個或該等列中之一個，其中R(i,j)=r(| i-j |)，其中R(i,j)指示該自相關矩陣R的係數，其中i係第一索引，其指示該自相關矩陣R的多個列中之一個，且其中j係第二索引，其指示該自相關矩陣R的該等多個行中之一個。

該裝置經組配來使用該碼簿向量來編碼該語音信號。例如，該裝置可產生經編碼的語音信號以使得經編碼的語音信號包含多個線性預測係數、濁音之基頻的指示(例如音高參數)以及該碼簿向量的指示(例如該碼簿向量的索引)。

另外，提供一種用以解碼經編碼的語音信號來獲得經解碼的語音信號之解碼器，該經編碼的語音信號係藉由根據上述實施例之裝置來編碼的。

此外，提供一種系統。該系統包含根據上述實施例之用以編碼輸入語音信號來獲得經編碼的語音信號之裝置。另外，該系統包含根據上述實施例之用以解碼經編碼的語音信號來獲得經解碼的語音信號之解碼器。

提供用於該語音編碼演算法ACELP之目標函數的改良的概念，當最佳化當前圖框的參數時，該等概念不僅考慮前一個圖框之脈衝響應對當前圖框的影響，而且考慮當前圖框之脈衝響應對下一個圖框的影響。一些實施例藉由改變相關矩陣來實現此等改良，此係至一自相關矩陣的常規ACELP最佳化的核心，該自相關矩陣具有Hermitian Toeplitz結構。藉由利用此結構，有可能使ACELP最佳化在計算複雜性以及記憶體需求方面更高效。同時，所應用之感知模型亦變得更一致，且可避免圖框間相依性，從而改良在封包丟失的影響下的性能。

在感知域中使用ACELP範例的語音編碼係基於最小平方演算法，其中該感知域由濾波器指定。根據實施例，可藉由考慮進入下一個圖框之零脈衝響應之影響來降低最小平方問題的常規定義的計算複雜性。所提供的修改將Toeplitz結構引入至目標函數中出現的相關矩陣，此簡化了該結構且減少計算。所提出的概念在不降低感知品質的情況下使計算複雜性降低了17%之多。

實施例係基於以下發現：藉由稍微修改該目標函數，可進一步降低該殘餘碼簿之最佳化的複雜性。此複雜性降低在不降低感知品質的情況下發生。作為替代，因為就所提出的修改而言，ACELP殘餘最佳化係基於反覆搜尋演算法，所以有可能在不增加複雜性的情況下增加反覆次數，且以此方式獲得改良的感知品質。

常規目標函數模型感知以及修改後的目標函數模型感知均力圖將感知失真最小化。然而，常規方法的最佳解決方案相對於修改後的目標函數不一定係最佳的，且反之亦然。此本身並不意味一種方法將優於另一種方法，但是分析性論證確實顯示修改後的目標函數係更一致的。具體而言，與常規目標函數相比，所提供的概念使用一致的且定義良好的感知模型及信號模型來均等地處理子圖框內之所有樣本。

在實施例中，可應用所提出的修改以使得其僅改變殘餘碼簿的最佳化。因此，其不改變位元串流結構且可以回溯相容的方式應用於現有的ACELP編碼解碼器。

另外，提供一種用以藉由確定語音編碼演算法之碼簿向量來編碼語音信號的方法。該方法包含：- 確定一自相關矩陣R。以及：- 根據該自相關矩陣R來確定該碼簿向量。

確定一自相關矩陣R包含確定一向量r的向量係數。該自相關矩陣R包含多個列及多個行。該向量r指示該自相關矩陣R之該等行中之一個或該等列中之一個，其中R(i,j)=r(| i-j |)。

R(i,j)指示該自相關矩陣R的係數，其中i係第一索引，其指示該自相關矩陣R的多個列中之一個，且其中j係第二索引，其指示該自相關矩陣R的該等多個行中之一個。

此外，提供一種用以解碼經編碼的語音信號來獲得經解碼的語音信號的方法，該經編碼的語音信號係根據用以根據上述實施例來編碼語音信號之方法來編碼的。

另外，提供一種方法。該方法包含：- 根據用以編碼一語音信號以便獲得經編碼的語音信號之上述方法來編碼一輸入語音信號。以及：- 根據用以解碼一語音信號的上述方法來解碼該經編碼的語音信號以便獲得一經解碼的語音信號。

此外，提供一種電腦程式，其用以在電腦或信號處理器上執行時實施上述方法。

在附屬請求項中將提供較佳實施例。

110‧‧‧矩陣確定器

120‧‧‧碼簿向量確定器

210‧‧‧用以編碼語音信號的裝置

220‧‧‧解碼器

在下文中，將參照附圖更詳細地描述本發明之實施例，其中：圖1例示根據一個實施例之用以藉由確定語音編碼演算法的碼簿向量來編碼語音信號的，圖2例示根據一個實施例之解碼器及解碼器，且圖3例示一種系統，該系統包含根據一個實施例之用以解碼語音信號之裝置及解碼器。

詳細說明

圖1例示根據一個實施例之用以藉由確定語音編碼演算法的碼簿向量來編碼語音信號的裝置。

該裝置包含用以確定自相關矩陣R的矩陣確定器(110)，以及用以根據自相關矩陣R來確定碼簿向量的碼簿向量確定器(120)。

矩陣確定器(110)經組配來藉由確定向量r的向量係數來確定自相關矩陣R。

自相關矩陣R包含多個列及多個行，其中向量r指示自相關矩陣R之多個行中之一個或多個列中之一個，其中R(i,j)=r(| i-j |)。

R(i,j)指示自相關矩陣R的係數，其中i係第一索引，其指示自相關矩陣R的多個列中之一個，且其中j係第二索引，其指示自相關矩陣R的多個行中之一個。

該裝置經組配來使用碼簿向量來編碼語音信號。例如，該裝置可產生經編碼的語音信號以使得經編碼的語音信號包含多個線性預測係數、濁音之基頻的指示(例如，音高參數)以及碼簿向量的指示。

例如，根據用以編碼語音信號之特定實施例，該裝置可經組配來根據語音信號來確定多個線性預測係數(a(k))。另外，該裝置經組配來根據多個線性預測係數(a(k))來確定殘餘信號。此外，矩陣確定器110可經組配來根據殘餘信號來確定自相關矩陣R。

在下文中，描述本發明之另一些實施例。

返回至方程式3及方程式4，其中方程式3將指示感知模型適合度之平方誤差定義為：且其中方程式4 指示搜尋準則，該搜尋準則將要被最大化。

ACELP演算法以方程式4為中心，方程式4又基於方程式3。

實施例係基於以下發現：此等方程式的分析顯示，取決於索引k，量化殘餘值e(k)對於誤差能量具有非常不同的影響。例如，當考慮索引k=1及k=N時，若在k=1時僅出現殘餘碼簿的非零值，則誤差能量的結果為：而就k=N而言，誤差能量的結果為：換言之，使用在範圍1至N上的脈衝響應h(k)來加權e(1)，而僅使用h(1)來加權e(N)。就頻譜加權而言，此意味使用不同的頻譜加權函數來加權每一個e(k)，以使得在極端情況下線性加權e(N)。自感知模型化的觀點來看，針對圖框內之所有樣本應用相同的感知權重係可行的。因此，應擴展方程式3以使得其將進入下一個圖框的ZIR考慮在內。應注意，此處，尤其不同於先前技術的是，來自前一個圖框的ZIR及進入下一個圖框的ZIR均被考慮在內。

假設e(k)為原始的、未經量化的殘餘且ê(k)為量化殘餘。此外，假設兩個殘餘在1至N的範圍中均為非零且在其他範圍中為零。則

等效地，可以矩陣的形式將相同的關係表示為：其中係對應於脈衝響應h(k)的無限維度捲積矩陣。插入方程式3中得出其中為有限大小，Hermitian Toeplitz矩陣對應於h(n)的自相關。藉由對於方程式4的類似推導，得到目標函數：

此目標函數與方程式4非常類似。主要的區別在於，此處在分母中的是Hermitian Toeplitz矩陣R而不是相關矩陣B。

如上文所闡述，此新穎的公式化具有如下益處：圖框內之殘餘e的所有樣本將受到相同的感知加權。然而，重要的是，此公式化給計算複雜性以及記憶體需求帶來相當多的益處。因為R為Hermitian Toeplitz矩陣，所以第一行r(0)..r(N-1)完全定義了該矩陣。換言之，代替儲存整個NxN的矩陣，僅需儲存Nx1的向量r(k)，因此在記憶體分配中產生相當多的節約。另外，亦降低了計算複雜性，因為不必確定所有NxN個元素，而僅需確定第一個Nx1的行。在矩陣內編索引亦係簡單的，因為可藉由R(i,j)=r(| i-j |)找到元素(i,j)。

因為方程式10中之目標函數與方程式4中之目標函數如此的相似，所以可保留一般ACELP的結構。具體而言，可使用兩者中之任一目標函數來執行以下操作中之任一個，其中僅需對演算法稍作修改：

1.最佳化LTP滯後(自適應碼簿)

2.最佳化用以將殘餘模型化之脈衝碼簿(固定碼簿)

3.分開地或聯合地最佳化LTP及脈衝的增益

4.最佳化可藉由方程式3的平方誤差來量測其性能之任何其他參數。

在常規ACELP應用中唯一必須修改的部分係相關矩陣B的處置以及目標，該相關矩陣B被矩陣R替換，該目標必須包括進入下一個圖框的ZIR。

一些實施例藉由用自相關矩陣R替換ACELP演算法中之任何地方出現的相關矩陣B來利用本發明之概念。若省略矩陣B的所有實例，則可避免計算矩陣B的值。

例如，藉由確定自相關矩陣R的第一行r(0),..,r(N-1)的係數來確定自相關矩陣R。

在方程式9中藉由R=H^TH來定義矩陣R，其中可藉由以下方程式來計算矩陣R的元素R _ij=r(i-j)

亦即，序列r(k)係h(k)的自相關。

然而，通常可藉由更高效的手段獲得r(k)。具體而言，在諸如AMR及G.718的語音編碼標準中，序列h(k)係藉由感知加權函數W(z)進行濾波後之線性預測濾波器A(z)的脈衝響應，該脈衝響應被視為包括預強調。換言之，h(k)指示線性預測模型的感知加權脈衝響應。

通常根據語音信號的自相關r_X(k)來估計濾波器A(z)，亦即，r_X(k)係已知的。因為H(z)=A^-1(u)W(z)，所以可藉由使用以下方程式計算w(k)的自相關來確定自相關序列r(k)

因此h(k)的自相關為

在一些實施例中，可根據整個系統的設計來相應地修改此等方程式。

例如，隨後可基於自相關矩陣R來確定碼簿的碼簿向量。詳言之，根據一些實施例，可使用方程式10來確定碼簿的碼簿向量。

在此情境下，方程式10以的形式定義目標函數，該形式與語音編碼標準AMR及G.718中之形式相同，但使得矩陣R此時具有對稱的Toeplitz結構。目標函數基本上係目標向量d與碼簿向量ê之間的正規化相關，且最可能的碼簿向量係給出正規化相關f(ê)之最高值的那一個，例如，使正規化相關f(ê)最大化的那一個。

因此可使用與所提及的標準相同的方法來最佳化碼簿向量。具體而言，例如，可應用非常簡單的演算法來找到用於殘餘的最佳代數碼簿(亦即，固定碼簿)向量ê，如下所述。然而應注意，高效搜尋演算法(參見AMR及G.718)的設計中已投入大量努力，且此搜尋演算法僅係應用的例示性實例。

1.定義初始碼簿向量且將脈衝的數目設定為p=0。

2.將初始碼簿品質量測設定為f ₀=0。

3.將臨時碼簿品質量測設定為。

4.就碼簿向量中之每一個位置k而言：

(i)將p加上1。

(ii)若位置k已含有負脈衝，則繼續步驟vii。

(iii)創建臨時碼簿向量，且在位置k中添加一個正脈衝。

(iv)藉由來評估臨時碼簿向量的品質。

(v)若臨時碼簿向量優於先前任何一個，，則保存此碼簿向量，設定且繼續下一個反覆。

(vi)若位置k已含有正脈衝，則繼續下一個反覆。

(vii)創建臨時碼簿向量，且在位置k中添加一個負脈衝。

(viii)藉由來評估臨時碼簿向量的品質。

(ix)若臨時碼簿向量勝於先前任何一個，，則保存此碼簿向量，設定且繼續下一個反覆。

5.將碼簿向量定義為所保存之碼簿向量中之最後一個(亦即，最佳的)。

6.若脈衝p的數目已達到所需之脈衝數目，則將輸出向量定義為，且停止。否則，繼續步驟4。

如已指出，相較於常規ACELP應用，在一些實施例中，修改目標以使得其包括進入下一個圖框的ZIR。

方程式1描述ACELP型編碼解碼器中所使用的線性預測模型。零脈衝響應(ZIR，有時亦稱為零輸入響應)係指在當前圖框(及所有未來的圖框)的殘餘被設定為零時，線性預測模型的輸出。可藉由將自位置N向前為零的殘餘定義為如下方程式來容易地計算ZIR

因此可將ZIR定義為

由自輸入信號中減去此ZIR，獲得一信號，其取決於僅自當前圖框向前的殘餘。

等效地，可藉由對過去的輸入信號進行濾波來將ZIR確定為

通常將已移除了ZIR之輸入信號稱為目標，且可針對在位置K處開始之圖框將該輸入信號定義為d(n)=x(n)-ZIR _K(n).。原則上此目標與AMR及G.718標準中之目標完全相等。在量化信號時，在圖框K n<K+N.的持續時間內將量化信號與d(n)相比較。

相反地，當前圖框的殘餘會影響後續的圖框，因此在量化信號時考慮其影響係有用的，亦即，因此可能亦想要評估超出當前圖框(n>K+N)之差。然而，為此，可能想要僅藉由將後續圖框的殘餘設定為零來考慮當前圖框之殘餘的影響。因此，可比較進入下一個圖框的ZIR。換言之，獲得修改後的目標。

等效地，使用A(z)的脈衝響應h(n)，則

此公式可以簡易矩陣形式寫成d'=He，其中如方程式2中那樣定義H及e。可以看出，修改後的目標恰好為公式2的x。

在矩陣R的計算中請注意，理論上，脈衝響應h(k)係無限序列，但是在實際系統中不可能實現。

然而，1)將脈衝響應截斷或定窗為有限長度且確定經截斷的脈衝響應的自相關，或2)使用相關的LP及感知濾波器的傅立葉(Fourier)頻譜來計算脈衝響應的功率譜，且藉由傅立葉(Fourier)逆變換來獲得自相關係可能的。

現在描述利用LTP的擴展。

長時預測器(LTP)實際上亦係線性預測器。

根據一個實施例，矩陣確定器110可經組配來根據感知加權的線性預測器，例如根據長時預測器，來確定自相關矩陣R。

可將LP及LTP捲積至一個聯合預測器中，該聯合預測器包括頻譜包絡形狀以及諧波結構。此預測器的脈衝響應將會非常長，因此更難以用先前技術處置。然而，若已知線性預測器的自相關，則可藉由使用向前及向後的LTP或使用頻域中之類似過程簡單地對自相關進行濾波來計算聯合預測器的自相關。

請注意，利用LTP的先前方法在LTP滯後短於圖框長度時出現問題，因為LTP將導致圖框內之回饋迴路。將LTP包括在目標函數中之益處為，當LTP的滯後短於圖框長度時，則在最佳化中將此回饋明確考慮在內。

在下文中，描述用於不相關域中之快速最佳化的擴展。

ACELP系統的設計中之核心挑戰係降低計算複雜性。ACELP系統係複雜的，因為藉由LP進行的濾波導致殘餘樣本之間的複雜相關，藉由矩陣B或在當前情境下藉由矩陣R來描述該等複雜相關。因為e(n)的樣本係相關的，所以不可能正好用所需的精度來量化e(n)，而是必須使用試誤法來嘗試不同量化的許多組合，以便分別相對於方程式3或方程式10的目標函數找到最佳量化。

藉由引入矩陣R，獲得對此等相關之新觀點。亦即，因為R具有Hermitian Toeplitz結構，所以可應用若干高效的矩陣分解，諸如Hankel矩陣的奇異值分解、Cholesky分解或Vandermonde分解(Hankel矩陣係Toeplitz矩陣的倒置，因此可將相同的分解應用於Toeplitz矩陣及Hankel矩陣)(見[6]及[7])。假設R=E D E ^H為R的分解，以使得D為大小及秩與R相同的對角矩陣。於是可將方程式9修改如下：

其中。因為D為對角矩陣，所以f(k)的每一個樣本的殘餘與其他樣本f(i)無關。在方程式10中，假定藉由最佳增益來縮放碼簿向量，因此新的目標函數為

此處，樣本再次相關(因為改變一條線的量化改變了所有線的最佳增益)，但是相較於方程式10，此處相關的效果有限。然而，即使將相關考慮在內，此目標函數的最佳化相較於方程式3或方程式10的最佳化仍簡單得多。

使用此分解方法，有可能1.應用具有所需精度的常規純量量化技術或向量量化技術，或2.使用任何常規ACELP脈衝搜尋演算法來將方程式12用作目標函數。

上述兩種方法給出了相對於方程式12的近似最佳量化。因為常規量化技術通常不要求任何蠻力方法(除可能的速率迴路之外)，且因為矩陣D比B或R簡單，所以兩種量化方法的複雜性均小於常規ACELP脈衝搜尋演算法。因此，此方法中計算複雜性的主要來源係矩陣分解的計算。

一些實施例利用方程式12來確定碼簿的碼簿向量。

例如，存在針對形式為R=E ^H DE的R的若干矩陣分解。例如，

(a)例如可藉由使用GNU科學圖書館(http：//www.gnu.org/software/gsl/manual/html_node/Real-Symmetric-Matrices.html)來計算固有值分解。矩陣R係真實的且對稱的(以及Toeplitz)，因此可使用函數「gsl_eigen_symm()」來確定矩陣E及D。相同固有值分解的其他實行方案容易在文獻[6]中獲得。

(b)可使用[8]中所描述之演算法來使用Toeplitz矩陣的Vandermonde分解[7]。此演算法返回矩陣E及D以使得E為Vandermonde矩陣，其等效於具有非均勻頻率分佈之離散傅立葉(Fourier)變換。

使用此分解，可藉由f=E ^H e或f'=D ^1/2 E ^H e將殘餘向量e變換至變換域。在此域中可應用任何常見的量化方法，例如，

1.可藉由代數碼簿來量化向量f’，與在ACELP的常見實行方案中完全一樣。然而，因為f’的元素係不相關的，所以不需要如在ACELP中之複雜的搜尋功能，而是可應用簡單的演算法，諸如

(a)將初始增益設定為g=1

(b)藉由量化f’。

(c)若f'中之脈衝數目大於預定義數量p，，則增加增益g且返回至步驟b。

(d)否則，若中之脈衝數目小於預定義數量p，，則減少增益g且返回至步驟b。

(e)否則，中之脈衝數目等於預定義數量p，，且可停止處理。

2.可使用算術編碼器，其類似於在標準AMR-WB+或MPEG USAC中之TCX的頻譜線之量化中所使用的編碼器。

應注意，因為f’的元素係正交的(如自方程式12可看出)且其在方程式12之目標函數中具有相同的權重，所以可分開地且使用相同的量化步長對其進行量化。該量化將自動找到方程式12中之目標函數的最佳(最大)值，此係在該量化精度下可能的。換言之，以上呈現之量化演算法均將返回相對於方程式12的最佳量化。

最佳化之此優勢與可分開地處理f’的元素之事實相關聯。若使用碼簿方法，其中碼簿向量c _k係非平凡向量具有一個以上的非零元素)，則此等碼簿向量將不再具有獨立的元素且喪失矩陣分解的優勢。

注意，可選擇Toeplitz矩陣的Vandermonde分解以使得Vandermonde矩陣為傅立葉(Fourier)變換矩陣但是頻率分佈不均勻。換言之，Vandermonde矩陣對應於經頻率變形的傅立葉(Fourier)變換。因此在此情況下，向量f對應於殘餘信號在變形頻率尺度上之頻域表示(見[8]中之「根交換性質」)。

重要的是，請注意此結果並非眾所周知的。在實踐中，此結果表明，若使用捲積矩陣C對信號x進行濾波，則∥Cx∥²=∥DVx∥² (13)其中V為(例如經變形的)傅立葉(Fourier)變換(其為具有在單位圓上之元素的Vandermonde矩陣)且D為對角矩陣。亦即，若需要量測經濾波信號的能量，則可等效地量測經頻率變形的信號的能量。相反地，將在經變形的傅立葉(Fourier)域中做出之任何評估可在經濾波的時域中等效地做出。由於時間及頻率的對偶性，時域定窗與時間變形之間亦存在等效性。然而，實際問題是，找到滿足上述關係之捲積矩陣C為數值敏感問題，因此通常更容易替代地找到近似解。

可利用關係∥Cx∥²=∥DVx∥²來確定碼簿的碼簿向量。

為此，首先應注意，此處將藉由H來表示如方程式2中之捲積矩陣而不是C。若想要將量化雜訊最小化，則可量測其能量：

現在描述用於圖框獨立之擴展。

當經編碼的語音信號在諸如無線電波之非理想傳輸線上傳輸時，資料封包必定有時將會丟失。若圖框彼此相依，以使得需要封包N來完全解碼N-1，則丟失封包N-1將破壞封包N-1的合成及封包N的合成。另一方面，若圖框係獨立的，則丟失封包N-1將僅破壞封包N-1的合成。因此，對於不存在圖框間相依性之設備及方法而言，此係重要的。

在常規ACELP系統中，圖框間相依性的主要來源係LTP且在某種程度上亦係LP。具體而言，因為兩者均為無限脈衝響應(IIR)濾波器，所以受到破壞的圖框將導致受到破壞的樣本之「無限」尾端。在實踐中，此尾端的長度可能為若干圖框，此係令人討厭的。

使用本發明之框架，實現可藉由自當前圖框進入下一個圖框之ZIR來量化圖框間相依性藉以產生之路徑。為避免此圖框間相依性，需要對常規ACELP作出三個修改。

1.當計算自前一個圖框進入當前(子)圖框之ZIR時，應自用零擴展後之原始(未經量化的)殘餘計算ZIR，而不是自量化殘餘計算。以此方式，來自前一個(子)圖框之量化誤差將不會傳播至當前(子)圖框中。

2.當量化當前圖框時，必須將在原始信號與量化信號之間進入下一個圖框之ZIR中的誤差考慮在內。此可藉由用自相關矩陣R替換相關矩陣B來完成，如上文所闡述。此確保將進入下一個圖框之ZIR中的誤差與當前圖框內之誤差一起最小化。

3.因為誤差傳播係由於LP及LTP，所以兩個組件都必須包括在ZIR中。此與常規方法不同，常規方法中僅針對LP計算ZIR。

若在量化當前圖框時不將前一個圖框的量化誤差考慮在內，則會喪失輸出的感知品質中之效率。因此，當不存在誤差傳播的風險時，有可能選擇將誤差考慮在內。例如，常規ACELP系統應用每20ms圖框被細分為4個或5個子圖框之定框。針對每一個子圖框分開地量化並編碼LTP及殘餘，但是將整個圖框作為一個資料區塊來傳輸。因此，不可能丟失個別子圖框，而是僅可能丟失完整的圖框。因此，僅需要在圖框邊界處使用圖框獨立的ZIR，但是可在剩餘子圖框之間使用具有圖框間相依性的ZIR。

實施例藉由將當前圖框進入下一個圖框之脈衝響應的影響包含在當前圖框之目標函數中來修改常規ACELP演算法。在最佳化問題的目標函數中，此修改對應於用具有Hermitian Toeplitz結構之自相關矩陣來替換相關矩陣。此修改具有以下益處：

1.由於添加了自相關矩陣的Hermitian Toeplitz結構，計算複雜性及記憶體需求得以降低。

2.相同的感知模型將應用於所用樣本，使得感知模型的設計及調諧更簡單且其應用更高效且更一致。

3.藉由僅將來自前一個圖框之未經量化的脈衝響應及進入下一個圖框之量化脈衝響應考慮在內，在當前圖框之量化中可完全避免圖框間相關。此改良了預計會發生封包丟失之系統的穩健性。

圖2例示用以解碼經編碼的語音信號來獲得經解碼的語音信號之解碼器220，該經編碼的語音信號係藉由根據上述實施例之裝置來編碼的。解碼器220經組配來接收經編碼的語音信號，其中該經編碼的語音信號包含碼簿向量的指示，該碼簿向量係藉由根據上述實施例中之一個之用以編碼語音信號的裝置來確定，例如，經確定的碼簿向量的索引。此外，解碼器220經組配來解碼經編碼的語音信號以便根據碼簿向量來獲得經解碼的語音信號。

圖3例示根據一個實施例之系統。該系統包含根據上述實施例中之一個之用以編碼輸入語音信號來獲得經編碼的語音信號之裝置210。經編碼的語音信號包含經確定的碼簿向量的指示，該碼簿向量係藉由用以編碼語音信號之裝置210來確定，例如，經編碼的語音信號包含該碼簿向量的索引。另外，該系統包含根據上述實施例之用以解碼經編碼的語音信號來獲得經解碼的語音信號之解碼器220。解碼器220經組配來接收經編碼的語音信號。另外，解碼器220經組配來解碼經編碼的語音信號以便根據經確定的碼簿向量來獲得經解碼的語音信號。

儘管已在裝置的情境下描述一些態樣，但是此等態樣亦表示對應的方法之描述，其中區塊或設備對應於方法步驟或方法步驟的特徵件。類似地，在方法步驟之情境下描述之態樣亦表示對應的區塊或項目或對應的裝置之特徵件的描述。

本發明的分解信號可儲存在數位儲存媒體上或可在諸如無線傳輸媒體或有線傳輸媒體(諸如網際網路)之傳輸媒體上傳輸。

取決於特定實行方案的需求，可在硬體中或軟體中實施本發明的實施例。可使用數位儲存媒體，例如軟碟片、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，來執行實施方案，該數位儲存媒體上儲存有電子可讀控制信號，該等信號與可規劃電腦系統協作(或能夠協作)來執行相應的方法。

根據本發明之一些實施例包含具有電子可讀控制信號之非暫時性資料載體，該等信號能夠與可規劃電腦系統協作以便執行本文所述之方法中之一種。

大體而言，可將本發明之實施例實施為具有程式碼之電腦程式產品，當該電腦程式產品在電腦上運行時，該程式碼可操作來執行該等方法中之一種。該程式碼可例如儲存在機器可讀載體上。

其他實施例包含用以執行本文所述之方法中之一種的電腦程式，其儲存在機器可讀載體上。

換言之，因此，本發明的方法的一個實施例為具有程式碼的電腦程式，當該電腦程式在電腦上運行時，該程式碼用以執行本文所述之方法中之一種。

因此，本發明的方法的另一實施例為資料載體(或數位儲存媒體，或電腦可讀媒體)，其包含記錄在其上的電腦程式，該電腦程式用以執行本文所述之方法中之一種。

因此，本發明的方法之另一實施例為資料串流或信號序列，其表示用以執行本文所述之方法中之一種的的電腦程式。該資料串流或信號序列可例如經組配來經由資料通訊連接被傳遞，例如經由網際網路。

另一實施例包含處理構件，例如電腦或可規劃邏輯設備，其經組配來執行或適於執行本文所述之方法中之一種。

另一實施例包含安裝有電腦程式之電腦，該電腦程式用以執行本文所述之方法中之一種。

在一些實施例中，可使用可規劃邏輯設備(例如現場可規劃閘陣列)來執行本文所述之方法的功能性之一些或全部。在一些實施例中，現場可規劃閘陣列可與微處理器協作來執行本文所述之方法中之一種。大體而言，較佳地藉由任何硬體裝置來執行該等方法。

上述實施例僅僅例示出本發明之原理。應理解，本文所述之配置及細節上的修改及變化對於熟習此項技術者而言將顯而易見。因此，本發明意欲僅受即將列出之專利請求項的限制，且不受特定細節的限制，該等細節係藉由本文中對實施例之描述及闡述來呈現的。

參考文獻

[1] Salami, R. and Laflamme, C. and Bessette, B. and Adoul, J.P., “ITU-T G. 729 Annex A: reduced complexity 8 kb/s CS-ACELP codec for digital simultaneous voice and data“, Communications Magazine, IEEE, vol 35, no 9, pp 56-63, 1997.

[2] 3GPP TS 26.190 V7.0.0, “Adaptive Multi-Rate (AMR-WB) speech codec“, 2007.

[3] ITU-T G.718, “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s“, 2008.

[4] Schroeder, M. and Atal, B., “Code-excited linear prediction (CELP): High-quality speech at very low bit rates“, Acoustics, Speech, and Signal Processing, IEEE Int Conf, pp 937-940, 1985.

[5] Byun, K.J. and Jung, H.B. and Hahn, M. and Kim, K.S., “A fast ACELP codebook search method“, Signal Processing, 2002 6th International Conference on, vol 1, pp 422-425, 2002.

[6] G. H. Golub and C. F. van Loan, “Matrix Computations“, 3rd Edition, John Hopkins University Press, 1996.

[7] Boley, D.L. and Luk, F.T. and Vandevoorde, D., “Vandermonde factorization of a Hankel matrix“, Scientific computing, pp 27-39, 1997.

[8] Bäckström, T. and Magi, C., “Properties of line spectrum pair polynomials - A review”, Signal processing, vol. 86, no. 11,pp. 3286-3298, 2006.

[9] A. Härmä, M. Karjalainen, L. Savioja, V. Välimäki, U. Laine, and J. Huopaniemi, “Frequencywarped signal processing for audio applications,” J. Audio Eng. Soc, vol. 48, no. 11, pp. 1011-1031, 2000.

[10] T. Laakso, V. Välimäki, M. Karjalainen, and U. Laine, “Splitting the unit delay [FIR/all pass filters design],” IEEE Signal Process. Mag.,vol. 13, no. 1, pp. 30-60, 1996.

[11] J. Smith III and J. Abel, “Bark and ERB bilinear transforms,” IEEE Trans. Speech Audio Process., vol. 7, no. 6, pp. 697-708, 1999.

[12] R. Schappelle, “The inverse of the confluent Vandermonde matrix,” IEEE Trans. Autom. Control, vol. 17, no. 5, pp. 724-725, 1972.

[13] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, “The adaptive multirate wideband speech codec (AMR-WB),” Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002.

[14] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003.

[15] B. Edler, S. Disch, S. Bayer, G. Fuchs, and R. Geiger, “A time-warped MDCT approach to speech transform coding,” in Proc 126th AES Convention, Munich, Germany, May 2009.

[16] J. Makhoul, “Linear prediction: A tutorial review,” Proc. IEEE, vol. 63, no. 4, pp. 561-580, April 1975.

[17] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, “Fast CELP coding based on algebraic codes,” in Acoustics, Speech, and Signal Processing, IEEE Int Conf (ICASSP’87), April 1987, pp. 1957-1960.

[18] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012.

[19] F.-K. Chen and J.-F. Yang, “Maximum-take-precedence ACELP: a low complexity search method,” in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696.

[20] R. P. Kumar, “High computational performance in code exited linear prediction speech model using faster codebook search techniques,” in Proceedings of the International Conference on Computing: Theory and Applications. IEEE Computer Society, 2007, pp. 458-462.

[21] N. K. Ha, “A fast search method of algebraic codebook by reordering search sequence,” in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24.

[22] M. A. Ramirez and M. Gerken, “Efficient algebraic multipulse search,” in Telecommunications Symposium, 1998. ITS’98 Proceedings. SBT/IEEE International. IEEE, 1998,pp.231-236.

[23] ITU-T Recommendation G.191, “Software tool library 2009 user’s manual,” 2009.

[24] ITU-T Recommendation P.863, “Perceptual objective listening quality assessment,” 2011.

[25] T. Thiede, W. Treurniet, R. Bitto, C. Schmidmer, T. Sporer, J. Beerends, C. Colomes, M. Keyhl, G. Stoll, K. Brandeburg et al., “PEAQ - the ITU standard for objective measurement of perceived audio quality,” Journal of the Audio Engineering Society, vol. 48, 2012.

[26] ITU-R Recommendation BS.1534-1, “Method for the subjective assessment of intermediate quality level of coding systems,” 2003.

110‧‧‧矩陣確定器

120‧‧‧碼簿向量確定器

Claims

一種用以藉由確定一語音編碼演算法之一碼簿向量來編碼一語音信號的裝置，其中該裝置包含：一矩陣確定器(110)，其用以確定一自相關矩陣R，以及一碼簿向量確定器(120)，其用以根據該自相關矩陣R來確定該碼簿向量，其中該矩陣確定器(110)經組配來藉由確定一向量r之向量係數來確定該自相關矩陣R，其中該自相關矩陣R包含多個列及多個行，其中該向量r指示該自相關矩陣R的該等行中之一個或該等列中之一個，其中R(i,j)=r(| i-j |)，其中R(i,j)指示該自相關矩陣R的該等係數，其中i係一第一索引，其指示該自相關矩陣R之多個列中之一個，且其中j係一第二索引，其指示該自相關矩陣R之該等多個行中之一個。
如請求項1之裝置，其中該矩陣確定器(110)經組配來藉由應用以下公式來確定該向量r之該等向量係數：其中h(k)指示一線性預測模型之一感知加權脈衝響應，且其中k係一為整數之索引且其中l係一為整數之索引。
如請求項1或2之裝置，其中該矩陣確定器(110)經組配來根據一感知加權線性預測器來確定該自相關矩陣R。
如前述請求項中之一項之裝置，其中該碼簿向量確定器(120)經組配來藉由應用以下公式來確定該碼簿向量其中R係該自相關矩陣，且其中係該語音編碼演算法之碼簿向量中之一個，且其中係一正規化f(ê)相關。
如請求項4之裝置，其中該碼簿向量確定器(120)經組配來確定該語音編碼演算法之該碼簿向量，該碼簿向量ê將以下正規化相關最小化
如前述請求項中之一項之裝置，其中該碼簿向量確定器(120)經組配來藉由進行一矩陣分解來分解該自相關矩陣R。
如請求項6之裝置，其中該碼簿向量確定器(120)經組配來進行該矩陣分解以便確定一對角矩陣D，用來確定該碼簿向量。
如請求項7之裝置，其中該碼簿向量確定器(120)經組配來藉由利用以下公式來確定該碼簿向量其中D係該對角矩陣，其中f係一第一向量，且其中係一第二向量。
如請求項7或8之裝置，其中該碼簿向量確定器(120)經組配來對該自相關矩陣R進行一Vandermonde分解來分解該自相關矩陣R，以便進行該矩陣分解來確定該對角矩陣D，用來確定該碼簿向量。
如請求項7至9中之一項之裝置，其中該碼簿向量確定器(120)經組配來利用以下方程式∥Cx∥²=∥DVx∥²來確定該碼簿向量，其中C指示一捲積矩陣，其中V指示一傅立葉(Fourier)變換，且其中x指示該語音信號。
如請求項7至10中之一項之裝置，其中該碼簿向量確定器(120)經組配來對該自相關矩陣R進行一奇異值分解來分解該自相關矩陣R，以便進行該矩陣分解來確定該對角矩陣D，用來確定該碼簿向量。
如請求項7至10中之一項之裝置，其中該碼簿向量確定器(120)經組配來對該自相關矩陣R進行一Cholesky分解來分解該自相關矩陣R，以便進行該矩陣分解來確定該對角矩陣D，用來確定該碼簿向量。
如前述請求項中之一項之裝置，其中該碼簿向量確定器(120)經組配來根據該語音信號之一零脈衝響應來確定該碼簿向量。
如前述請求項中之一項之裝置，其中該裝置係一編碼器，其用以藉由利用代數碼激發線性預測語音編碼來編碼該語音信號，以及其中該碼簿向量確定器(120)經組配來基於該自相關矩陣R將該碼簿向量確定為一代數碼簿之一碼簿向量。
一種用以藉由確定一語音編碼演算法之一碼簿向量來編碼一語音信號的方法，其中該方法包含：確定一自相關矩陣R，以及根據該自相關矩陣R來確定該碼簿向量，其中確定一自相關矩陣R包含確定一向量r的向量係數，其中該自相關矩陣R包含多個列及多個行，其中該向量r指示該自相關矩陣R的該等行中之一個或該等列中之一個，其中R(i,j)=r(| i-j |)，其中R(i,j)指示該自相關矩陣R的該等係數，其中i係一第一索引，其指示該自相關矩陣R之多個列中之一個，且其中j係一第二索引，其指示該自相關矩陣R之該等多個行中之一個。
一種用以解碼一經編碼的語音信號來獲得一經解碼的語音信號之解碼器(220)，該經編碼的語音信號係藉由如請求項1之裝置來編碼的。
一種用以解碼一經編碼的語音信號來獲得一經解碼的語音信號之方法，該經編碼的語音信號係根據如請求項15之方法來編碼的。
一種系統，其包含：如請求項1至14中之一項之用以編碼一輸入語音信號來獲得一經編碼的語音信號之裝置(210)，以及如請求項16之用以解碼該經編碼的語音信號來獲得一經解碼的語音信號之解碼器(220)。
一種方法，其包含：根據如請求項15之方法來編碼一輸入語音信號來獲得一經編碼的語音信號，以及根據如請求項17之方法來解碼該經編碼的語音信號來獲得一經解碼的語音信號。
一種電腦程式，當在一電腦或信號處理器上執行該電腦程式時，該電腦程式用以實施如請求項15、17或19之方法。