TWI601130B

TWI601130B - 音訊編碼裝置

Info

Publication number: TWI601130B
Application number: TW105134207A
Authority: TW
Inventors: 維多羅維奇普羅夫安東; 薩基維奇奧斯普夫康斯坦丁; 朱基峴
Original assignee: 三星電子股份有限公司
Priority date: 2011-06-01
Filing date: 2012-06-01
Publication date: 2017-10-01
Also published as: JP2018067008A; EP2717264A2; US9361895B2; US20140156284A1; KR102044006B1; US20170178637A1; KR20190128126A; PL2717264T3; AU2017228519A1; CN103733257A; MX2013014152A; AU2016256685B2; TW201303852A; TWI616869B; EP2717264B1; AU2016256685A1; CA2838170C; AU2017228519B2; RU2464649C1; CA2838170A1

Description

音訊編碼裝置

本發明是關於音訊編碼/解碼，且更特定言之，是關於能夠藉由在有限位元範圍中減小對音訊頻譜之包絡資訊進行編碼所需之位元之數目來增大對實際頻譜分量進行編碼所需之位元之數目而不會提高複雜性以及使復原聲音品質劣化的音訊編碼方法與裝置、音訊解碼方法與裝置、記錄媒體以及使用上述方法裝置之多媒體元件。

當對音訊信號進行編碼時，在位元串流中，除包含實際頻譜分量之外，亦可能包含額外資訊，諸如，包絡。在此狀況下，藉由在使損失最小化的同時減小對額外資訊之編碼分配的位元之數目，可增大對實際頻譜分量之編碼分配的位元之數目。

亦即，當對音訊信號進行編碼或解碼時，需要藉由按照尤其低之位元率有效地使用有限數目之位元來在對應位元範圍中重新建構具有最佳聲音品質之音訊信號。

本發明提供能夠在有限位元範圍中減小對音訊頻譜之包絡資訊進行編碼所需之位元之數目的同時增大對實際頻譜分量進行編碼所需之位元之數目而不會提高複雜性以及使復原聲音品質劣化的音訊編碼方法與裝置、音訊解碼方法與裝置、記錄媒體以及使用上述方法裝置之多媒體元件。

根據本發明之一態樣，提供一種音訊編碼方法，包含：基於音訊頻譜之預定次頻帶而獲取包絡；基於所述預定次頻帶而對所述包絡進行量化；以及獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。

根據本發明之另一態樣，提供一種音訊編碼裝置，包含：包絡獲取單元，其基於音訊頻譜之預定次頻帶而獲取包絡；包絡量化器，其基於所述預定次頻帶而對所述包絡進行量化；包絡編碼器，其獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼；以及頻譜編碼器，其對所述音訊頻譜進行量化及無損編碼。

根據本發明之另一態樣，提供一種音訊解碼方法，包含：自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼；以及藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化。

根據本發明之另一態樣，提供一種音訊解碼裝置，包含：包絡解碼器，其自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼；包絡解量化器，其藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化；以及頻譜解碼器，其對所述位元串流中所包含之頻譜分量進行無損解碼及解量化。

根據本發明之另一態樣，提供一種多媒體元件，包含編碼模組，所述編碼模組基於音訊頻譜之預定次頻帶而獲取包絡，基於所述預定次頻帶而對所述包絡進行量化，且獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。

所述多媒體元件可更包含解碼模組，所述解碼模組自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼，且藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化。

藉由參看隨附圖式詳細描述本發明之例示性實施例，本發明之以上以及其他特徵以及優勢將變得更加顯而易見。

本發明可允許進行各種種類之改變或修改以及各種形式改變，且具體實施例將說明於圖式中且詳細描述於本說明書中。然而，應理解，具體實施例並不將本發明限於具體揭露形式，而是將每一經修改的、等效的或經替換的實施例包含於本發明之精神以及技術範疇內。在下文描述中，並不會詳細描述熟知功能或構造，此是因為熟知功能或構造會以不必要之細節混淆本發明。

雖然若干術語（諸如，「第一」以及「第二」）可用來描述各種部件，但所述部件可並不受所述術語限制。所述術語可用來區分某一部件與另一部件。

本申請案中所使用之術語僅用來描述具體實施例，而並不具有限制本發明之任何意圖。雖然考慮到本發明中之功能而選擇當前儘可能廣泛使用之一般術語作為本發明中所使用之術語，但此等術語可根據一般熟習此項技術者之意圖、司法判例或新技術的出現而發生變化。此外，在具體狀況下，可使用本申請人故意選擇之術語，且在此狀況下，將在本發明之對應描述中揭露此等術語之涵義。因此，本發明中所使用之術語並不是由此等術語之簡單名來定義，而是由術語之涵義以及本發明全文之內容來定義。

單數形式之表達包含複數形式之表達，除非在上下文中，兩種表達明顯不同。在本申請案中，應理解，諸如「包含」以及「具有」之術語用來表示所實施之特徵、數目、步驟、操作、部件、零件或其組合之存在，而並不會預先排除一或多個其他特徵、數目、步驟、操作、部件、零件或其組合之存在或添加的可能性。

下文中，將參看附圖來更全面地描述本發明，在附圖中，圖示了本發明之例示性實施例。圖中相似參考數字表示相似部件，且因此其重複描述將加以省略。

在一列部件之前的諸如「……中之至少一者」之表達修飾整列部件，而不是修飾整列部件中之個別部件。

圖1為根據本發明之一實施例之數位信號處理裝置100的方塊圖。

圖1所示之數位信號處理裝置100可包含變換器110、包絡獲取單元120、包絡量化器130、包絡編碼器140、頻譜正規器150以及頻譜編碼器160。數位信號處理裝置100之組件可整合於至少一個模組中且由至少一個處理器實施。此處，數位信號可表示媒體信號，諸如，視訊、影像、音訊或語音或表示藉由合成音訊以及語音而獲得之信號的聲音，但下文中，為了便於描述，數位信號大體上表示音訊信號。

參看圖1，變換器110可藉由將音訊信號自時域變換至頻域而產生音訊頻譜。可藉由使用各種熟知之方法（諸如，修改型離散餘弦變換（Modified Discrete Cosine Transform；MDCT））來執行時域至頻域變換。舉例而言，可使用方程式1來執行時域中之音訊信號之MDCT。

(1)

在方程式1中，N表示單個訊框中所包含之樣本之數目（即，訊框大小），h_j 表示所應用窗制，s_j 表示時域中之音訊信號，且x_i 表示MDCT係數。或者，可使用正弦窗制（例如，）來代替方程式1中之餘弦窗制。

變換器110所獲得之音訊頻譜之變換係數（例如，MDCT係數x_i ）提供至包絡獲取單元120。

包絡獲取單元120可自變換器110所提供之變換係數基於預定次頻帶而獲取包絡值。次頻帶為將音訊頻譜之樣本分組之單位且可藉由反映臨界頻帶而具有均勻或非均勻長度。當次頻帶具有非均勻長度時，次頻帶可經設定以使得每一次頻帶中所包含之樣本之數目（自起始樣本至最後樣本）針對一個訊框而逐漸增大。此外，當支援多種位元率時，次頻帶可經設定以使得不同位元率之對應次頻帶中之每一者中所包含的樣本之數目相同。可先前確定一個訊框中所包含之次頻帶之數目或每一次頻帶中所包含之樣本之數目。包絡值可表示每一次頻帶中所包含之變換係數之平均振幅、平均能量、功率或範數值。

可使用方程式2來計算每一次頻帶之包絡值，但不限於此。

(2)

在方程式2中，w表示次頻帶中所包含之變換係數之數目（即，次頻帶大小）、x_i 表示變換係數，且n表示次頻帶之包絡值。

包絡量化器130可按照經最佳化之對數尺度對每一次頻帶之包絡值n進行量化。可例如使用方程式3來獲得包絡量化器130所獲得的每一次頻帶之包絡值n之量化索引n_q 。

(3)

在方程式3中，b表示捨入係數，且其最佳化之前之初始值為r/2。此外，c表示對數尺度之底數，且r表示量化解析度。

根據一實施例，包絡量化器130可不定地改變對應於每一量化索引之量化區域之左邊界與右邊界，使得對應於每一量化索引之量化區域中之總量化誤差最小化。為此，捨入係數b可經調整以使得在量化索引與對應於每一量化索引之量化區域之左邊界與右邊界之間獲得的左量化誤差與右量化誤差彼此相同。下文將描述包絡量化器130之詳細操作。

可藉由方程式4來執行每一次頻帶之包絡值n之量化索引n_q 的解量化。

(4)

在方程式4中，表示每一次頻帶之經解量化之包絡值，r表示量化解析度，且c表示對數尺度之底數。

包絡量化器130所獲得的每一次頻帶之包絡值n之量化索引n_q 可提供至包絡編碼器140，且每一次頻帶之經解量化之包絡值可提供至頻譜正規器150。

雖然未繪示，但基於次頻帶而獲得之包絡值可用於對經正規化之頻譜（即，經正規化之係數）進行編碼所需之位元分配。在此狀況下，基於次頻帶而量化且無損編碼之包絡值可包含於位元串流中且提供至解碼裝置。結合使用基於次頻帶而獲得之包絡值來進行的位元分配，可應用經解量化之包絡值而在編碼裝置以及對應之解碼裝置中使用相同程序。

舉例而言，當包絡值為範數值時，可基於次頻帶使用範數值來計算遮蔽臨限值，且可使用遮蔽臨限值來預測位元之感知上所需之數目。亦即，遮蔽臨限值為對應於臨界可視失真（Just Noticeable Distortion；JND）之值，且當量化雜訊小於遮蔽臨限值時，可不會感測到感知雜訊。因此，可使用遮蔽臨限值來計算為了不會感測到感知雜訊而需要之位元之最小數目。舉例而言，可基於次頻帶使用範數值對遮蔽臨限值之比率來計算信號遮蔽比（Signal-to-Mask Ratio；SMR），可針對SMR使用6.025分貝≒1個位元之關係式來預測滿足遮蔽臨限值之位元之數目。雖然位元之預測數目是為了不會感測到感知雜訊而需要之位元之最小數目，但就壓縮而言，不需要使用超過預測數目之位元，因此，可將位元之預測數目視為基於次頻帶而允許之位元之最大數目（下文中，稱為位元之允許數目）。可按照十進制單位（decimal point unit）來表示每一次頻帶之位元之允許數目，但不限於此。

此外，可使用十進制單位之範數值來執行基於次頻帶而進行之位元分配，但不限於此。位元從具有最大範數值之次頻帶順序地分配，且所分配之位元可經調整以使得藉由基於每一次頻帶之感知重要性來權衡每一次頻帶之範數值，較多位元分配給感知上較重要之次頻帶。可例如經由ITU-T G.719中所定義之心理聲學權衡（psycho-acoustic weighting）而確定感知重要性。

包絡編碼器140可獲得自包絡量化器130提供的每一次頻帶之包絡值n之量化索引n_q 的量化差分值，可基於量化差分值之內容脈絡（context）而執行無損編碼，可將無損編碼結果包含至位元串流中，且可傳輸以及儲存位元串流。先前次頻帶之量化差分值可用作內容脈絡。下文將描述包絡編碼器140之詳細操作。

頻譜正規器150藉由使用每一次頻帶之經解量化之包絡值來按照對變換係數進行正規化而使頻譜平均能量為1。

頻譜編碼器160可執行經正規化之變換係數之量化以及無損編碼，可將量化以及無損編碼結果包含至位元串流中，且可傳輸以及儲存位元串流。此處，頻譜編碼器160可藉由使用最終基於次頻帶之包絡值而確定的位元之允許數目來執行經正規化之變換係數之量化以及無損編碼。

經正規化之變換係數之無損編碼可使用例如階乘脈衝寫碼（Factorial Pulse Coding；FPC）。FPC為藉由使用單位量值之脈衝來有效地對資訊信號進行編碼之方法。根據FPC，可藉由四個分量來表示資訊內容，即，非零脈衝位置之數目、非零脈衝之位置、非零脈衝之量值以及非零脈衝之正負號。詳言之，FPC可基於均方誤差（Mean Square Error；MSE）標準來確定之最佳解，其中次頻帶之原始向量y與FPC向量之間的差最小化，同時滿足（m表示單位量值之脈衝的總數）。

可藉由使用如方程式5所示之拉格朗日（Lagrangian）函數來尋找條件極值（conditional extreme value）而獲得最佳解。

(5)

在方程式5中，L表示拉格朗日（Lagrangian）函數，m表示次頻帶中之單位量值之脈衝的總數，λ表示用於尋找給定函數之最小值作為拉格朗日乘數（其為最佳化係數）的控制參數，y_i 表示經正規化之變換係數，且表示位置i處所需之脈衝之最佳數目。

當使用FPC執行無損編碼時，基於次頻帶而獲得之總集合之可包含於位元串流中且加以傳輸。此外，用於使每一次頻帶中之量化誤差最小化且執行平均能量之對準之最佳乘數亦可包含於位元傳輸中且加以傳輸。可藉由方程式6來獲得最佳乘數。

(6)

在方程式6中，D表示量化誤差，且G表示最佳乘數。

圖2為根據本發明之另一實施例之數位信號解碼裝置200的方塊圖。

圖2所示之數位信號解碼裝置200可包含包絡解碼器210、包絡解量化器220、頻譜解碼器230、頻譜解正規器240以及逆變換器250。數位信號解碼裝置200之組件可整合於至少一個模組中且由至少一個處理器實施。此處，數位信號可表示媒體信號，諸如，視訊、影像、音訊或語音或表示藉由合成音訊以及語音而獲得之信號的聲音，但下文中，數位信號大體上表示對應於圖1之編碼裝置的音訊信號。

參看圖2，包絡解碼器210可經由通信頻道或網路接收位元串流，對位元串流中所包含之每一次頻帶之量化差分值進行無損解碼，且重新建構每一次頻帶之包絡值之量化索引n_q 。

包絡解量化器220可藉由對每一次頻帶之包絡值之量化索引n_q 解量化而獲得經解量化之包絡值。

頻譜解碼器230可藉由對所接收之位元串流進行無損解碼以及解量化來重新建構經正規化之變換係數。舉例而言，包絡解量化器220可在編碼裝置已使用FPC時對每一次頻帶之總集合之進行無損解碼以及解量化。可藉由方程式7使用最佳乘數G來執行每一次頻帶之平均能量對準。

(7)

頻譜解碼器230可如同在圖1之頻譜編碼器160中般藉由使用最終基於每一次頻帶之包絡值而確定之位元之允許數目來執行無損解碼以及解量化。

頻譜解正規器240可藉由使用自包絡解量化器220提供之經解量化之包絡值而對自包絡解碼器210提供之經正規化之變換係數進行解正規化。舉例而言，當編碼裝置已使用FPC時，藉由使用經解量化之包絡值而對執行了能量對準之進行解正規化。藉由執行解正規化，重新建構每一次頻帶之原始頻譜平均能量。

逆變換器250可藉由對自頻譜解正規器240提供之變換係數進行逆變換而重新建構時域中之音訊信號。舉例而言，可藉由使用對應於方程式1之方程式8對頻譜分量進行逆變換而獲得時域中之音訊信號s_j 。

(8)

下文中，將更詳細描述圖1之包絡量化器130之操作。

當包絡量化器130按照底數為c之對數尺度對每一次頻帶之包絡值進行量化時，對應於量化索引之量化區域之邊界B_i 可由表示，近似點（即，量化索引）A_i 可由表示，量化解析度r可由表示，且量化步階大小可由表示。可藉由方程式3來獲得每一次頻帶之包絡值n之量化索引n_q 。

在未經最佳化之線性尺度之狀況下，對應於量化索引n_q 之量化區域之左邊界與右邊界與近似點相隔不同距離。歸因於此差，用於量化之信號雜訊比（Signal-to-Noise Ratio；SNR）量度（即，量化誤差）相對於近似點針對左邊界與右邊界而具有不同值，如圖3A以及圖4A所示。圖3A圖示按照未經最佳化之對數尺度（底數為2）進行之量化，其中，量化解析度為0.5且量化步階大小為3.01。如圖3A所示，量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNR_L 以及SNR_R 分別為14.46分貝以及15.96分貝。圖4A圖示按照未經最佳化之對數尺度（底數為2）進行之量化，其中，量化解析度為1且量化步階大小為6.02。如圖4A所示，量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNR_L 以及SNR_R 分別為7.65分貝以及10.66分貝。

根據一實施例，藉由不定地改變對應於量化索引之量化區域之邊界，可將對應於每一量化索引之量化區域中之總量化誤差最小化。在量化區域中之左邊界與右邊界處相對於近似點而獲得之量化誤差相同時，可將量化區域中之總量化誤差最小化。可藉由不定地改變捨入係數b來獲得量化區域之邊界移位。

在對應於量化索引i之量化區域中之左邊界與右邊界處相對於近似點而獲得之量化誤差SNR_L 以及SNR_R 可由方程式9表示。

(9)

在方程式9中，c表示對數尺度之底數，且S_i 表示對應於量化索引i之量化區域中之邊界的指數。

可使用由方程式10定義之參數b_L 以及b_R 來表示對應於量化索引之量化區域中之左邊界與右邊界的指數移位。

(10)

在方程式10中，S_i 表示對應於量化索引i之量化區域中之邊界處的指數，且b_L 以及b_R 表示量化區域中之左邊界與右邊界相對於近似點的指數移位。

量化區域中之左邊界與右邊界處相對於近似點的指數移位的總和與量化解析度相同，且因此可由方程式11表示。

(11)

捨入係數基於量化之一般特性與對應於量化索引之量化區域中之左邊界處相對於近似點的指數移位相同。因此，方程式9可由方程式12表示。

(12)

藉由使對應於量化索引之量化區域中之左邊界與右邊界處相對於近似點的量化誤差SNR_L 以及SNR_R 相同，可藉由方程式13來確定參數b_L 。

(13)

因此，捨入係數b_L 可由方程式14表示。

(14)

圖3B圖示按照經最佳化之對數尺度（底數為2）進行之量化，其中，量化解析度為0.5且量化步階大小為3.01。如圖3B所示，量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNR_L 以及SNR_R 兩者為15.31分貝。圖4B圖示按照經最佳化之對數尺度（底數為2）進行之量化，其中，量化解析度為1且量化步階大小為6.02。如圖4B所示，量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNR_L 以及SNR_R 兩者為9.54分貝。

捨入係數b=b_L 確定自對應於量化索引i之量化區域中的左邊界與右邊界中之每一者至近似點之指數距離。因此，可藉由方程式15來執行根據一實施例之量化。

(15)

藉由按照底數為2之對數尺度執行量化而獲得之測試結果圖示於圖5A以及圖5B中。根據資訊理論，位元率失真函數H(D)可用作可藉以比較與分析各種量化方法之參考。量化索引集合之熵可視為位元率且具有尺寸位元/秒（b/s），且按照分貝尺度的SNR可視為失真量度。

圖5A為在常態分佈中執行之量化的比較曲線圖。在圖5A中，實線表示按照未經最佳化之對數尺度進行之量化的位元率失真函數，且虛線表示按照經最佳化之對數尺度進行之量化的位元率失真函數。圖5B為在均勻分佈中執行之量化的比較曲線圖。在圖5B中，實線表示按照未經最佳化之對數尺度進行之量化的位元率失真函數，且虛線表示按照經最佳化之對數尺度進行之量化的位元率失真函數。根據對應分佈法則、零期望值以及單個方差使用隨機數目之感測器而產生常態分佈以及均勻分佈中之樣本。可針對各種量化解析度來計算位元率失真函數H(D)。如圖5A以及圖5B所示，虛線位於實線之下，此情形表示按照經最佳化之對數尺度進行之量化的效能好於按照未經最佳化之對數尺度進行之量化的效能

亦即，根據按照經最佳化之對數尺度進行之量化，可在相同位元率下以較小量化誤差來執行量化，或在相同位元率下以相同量化誤差使用較少數目之位元來執行量化。測試結果展示於表1以及表2中，其中表1展示按照未經最佳化之對數尺度進行之量化，且表2展示按照經最佳化之對數尺度進行之量化。

表1<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 量化解析度（r） </td><td> 2.0 </td><td> 1.0 </td><td> 0.5 </td></tr><tr><td> 捨入係數（b/r） </td><td> 0.5 </td><td> 0.5 </td><td> 0.5 </td></tr><tr><td> 常態分佈 </td></tr><tr><td> 位元率（H），位元/秒 </td><td> 1.6179 </td><td> 2.5440 </td><td> 3.5059 </td></tr><tr><td> 量化誤差（D），分貝 </td><td> 6.6442 </td><td> 13.8439 </td><td> 19.9534 </td></tr><tr><td> 均勻分佈 </td></tr><tr><td> 位元率（H），位元/秒 </td><td> 1.6080 </td><td> 2.3227 </td><td> 3.0830 </td></tr><tr><td> 量化誤差（D），分貝 </td><td> 6.6470 </td><td> 12.5018 </td><td> 19.3640 </td></tr></TBODY></TABLE>

表2<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 量化解析度（r） </td><td> 2.0 </td><td> 1.0 </td><td> 0.5 </td></tr><tr><td> 捨入係數（b/r） </td><td> 0.3390 </td><td> 0.4150 </td><td> 0.4569 </td></tr><tr><td> 常態分佈 </td></tr><tr><td> 位元率（H），位元/秒 </td><td> 1.6069 </td><td> 2.5446 </td><td> 3.5059 </td></tr><tr><td> 量化誤差（D），分貝 </td><td> 8.2404 </td><td> 14.2284 </td><td> 20.0495 </td></tr><tr><td> 均勻分佈 </td></tr><tr><td> 位元率（H），位元/秒 </td><td> 1.6345 </td><td> 2.3016 </td><td> 3.0449 </td></tr><tr><td> 量化誤差（D），分貝 </td><td> 7.9208 </td><td> 12.8954 </td><td> 19.4922 </td></tr></TBODY></TABLE>

根據表1以及表2，特性值SNR在0.5之量化解析度下改良達0.1分貝，在1.0之量化解析度下改良達0.45分貝，且在2.0之量化解析度下改良達1.5分貝。

因為根據一實施例之量化方法僅基於捨入係數更新量化索引之搜尋表，所以複雜性並未提高。

現將更詳細描述圖1之包絡解碼器140之操作。

使用差分寫碼來執行包絡值的基於內容脈絡之編碼。當前次頻帶之包絡值與先前次頻帶之包絡值之間的量化差分值可由方程式16表示。

(16)

在方程式16中，d(i)表示次頻帶(i+1)之量化差分值，n_q (i)表示次頻帶(i)之包絡值之量化索引，且n_q (i+1)表示次頻帶(i+1)之包絡值之量化索引。

每一次頻帶之量化差分值d(i)限於範圍[-15, 16]內，且如下所述，首先調整負的量化差分值，且接著調整正的量化差分值。

首先，使用方程式16，按照自高頻次頻帶至低頻次頻帶之次序獲得量化差分值d(i)。在此狀況下，若d(i)＜-15，則藉由n_q (i)=n_q (i+1) + 15 (i=42, …, 0)來執行調整。

接著，使用方程式16，按照自低頻次頻帶至高頻次頻帶之次序獲得量化差分值d(i)。在此狀況下，若d(i)＞16，則藉由d(i) = 16、n_q (i+1)=n_q (i) + 16 (i=0, …, 42)來執行調整。

最終，藉由將偏移15與所有所獲得之量化差分值d(i)相加而產生在範圍[0, 31]內之量化差分值。

根據方程式16，當在單個訊框中存在N個次頻帶時，獲得n_q (0)、d(0)、d(1)、d(2)、……、d(N-2)。使用內容脈絡模型來編碼當前次頻帶之量化差分值，且根據一實施例，先前次頻帶之量化差分值可用作內容脈絡。因為在範圍[0, 31]中存在第一次頻帶之n_q (0)，所以藉由使用5個位元來按照原狀對量化差分值n_q (0)進行無損編碼。當第一次頻帶之n_q (0)用作d(0)之內容脈絡時，可使用藉由使用預定參考值而自n_q (0)獲得之值。亦即，當執行d(i)之霍夫曼（Huffman）寫碼時，d(i-1)可用作內容脈絡，且當執行d(0)之霍夫曼寫碼時，藉由自n_q (0)減去預定參考值而獲得之值可用作內容脈絡。預定參考值可為（例如）預定恆定值，其可預先經由模擬或實驗作為最佳值來設定。參考值可包含在位元串流中且加以傳輸或預先提供於編碼裝置或解碼裝置中。

根據一實施例，包絡編碼器140可將用作內容脈絡之先前次頻帶之量化差分值的範圍劃分為多個群組且基於對多個群組預先定義之霍夫曼表來對當前次頻帶之量化差分值執行霍夫曼寫碼。可例如使用大資料庫經由訓練程序而產生霍夫曼表。亦即，基於預定準則來收集資料，且基於所收集之資料而產生霍夫曼表。根據一實施例，在先前次頻帶之量化差分值之範圍內收集當前次頻帶之量化差分值之頻率的資料，且可針對多個群組而產生霍夫曼表。

可使用當前次頻帶之量化差分值（其是藉由將先前次頻帶之量化差分值用作內容脈絡而獲得）之機率分佈的分析結果而選擇各種分佈模型，且因此，可執行具有類似分佈模型之量化階層之分組。三個群組之參數展示於表3中。

表3<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 群組號 </td><td> 量化差分值之下限 </td><td> 量化差分值之上限 </td></tr><tr><td> #1 </td><td> 0 </td><td> 12 </td></tr><tr><td> #2 </td><td> 13 </td><td> 17 </td></tr><tr><td> #3 </td><td> 18 </td><td> 31 </td></tr></TBODY></TABLE>

三個群組之機率分佈圖示於圖6中。群組#1之機率分佈類似於群組#3之機率分佈，且群組#1之機率分佈與群組#3之機率分佈基於x軸實質上顛倒（或倒轉）。此情形表示相同機率模型可用於兩個群組#1及#3，而不會存在編碼效率之任何損失。亦即，兩個群組#1及#3可使用相同霍夫曼表。因此，可使用供群組#2使用之第一霍夫曼表以及由群組#1及#3共用之第二霍夫曼表。在此狀況下，群組#1中之碼之索引可與群組#3相反地得以表示。亦即，在當前次頻帶之量化差分值d(i)之霍夫曼表由於先前次頻帶之量化差分值（其為內容脈絡）而確定為群組#1時，當前次頻帶之量化差分值d(i)可藉由編碼端中之相反處理程序而改變為d’(i)=A-d(i)，藉此，藉由參考群組#3之霍夫曼表而執行霍夫曼寫碼。在解碼端中，藉由參考群組#3之霍夫曼表而執行霍夫曼解碼，且經由轉換程序d(i)=A-d’(i)而自d’(i)提取最終值d(i)。此處，值A可經設定以使得群組#1及#3之機率分佈彼此對稱。值A可預先作為最佳值來設定，而不是在編碼以及解碼程序中提取。或者可使用群組#1之霍夫曼表來代替群組#3之霍夫曼表，且有可能改變群組#3中之量化差分值。根據一實施例，當d(i)具有在範圍[0, 31]內之值時，值A可為31。

圖7為說明根據本發明之一實施例的圖1之數位信號處理裝置100之包絡編碼器140中的基於內容脈絡之霍夫曼編碼程序的流程圖。在圖7中，使用根據三個群組中之量化差分值之機率分佈而確定之兩個霍夫曼表。此外，在對當前次頻帶之量化差分值d(i)執行霍夫曼寫碼時，將先前次頻帶之量化差分值d(i-1)用作內容脈絡，且例如使用供群組#2使用之第一霍夫曼表以及供群組#3使用之第二霍夫曼表。

參看圖7，在操作710中，判定先前次頻帶之量化差分值d(i-1)是否屬於群組#2。

若在操作710中判定先前次頻帶之量化差分值d(i-1)屬於群組#2，則在操作720中，自第一霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。

若實際上在操作710中判定先前次頻帶之量化差分值d(i-1)不屬於群組#2，則在操作730中，判定先前次頻帶之量化差分值d(i-1)是否屬於群組#1。

若在操作730中判定先前次頻帶之量化差分值d(i-1)不屬於群組#1（即，若先前次頻帶之量化差分值d(i-1)屬於群組#3），則在操作740中，自第二霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。

若實際上在操作730中判定先前次頻帶之量化差分值d(i-1)屬於群組#1，則在操作750中，顛倒當前次頻帶之量化差分值d(i)，且自第二霍夫曼表選擇當前次頻帶之顛倒之量化差分值d’(i)的碼。

在操作760中，使用操作720、740或750中選擇之碼來執行當前次頻帶之量化差分值d(i)之霍夫曼寫碼。

圖8為說明根據本發明之一實施例的圖2之數位信號解碼裝置200之包絡解碼器210中的基於內容脈絡之霍夫曼解碼程序的流程圖。與圖7中相似，在圖8中，使用根據三個群組中之量化差分值之機率分佈而確定之兩個霍夫曼表。此外，在對當前次頻帶之量化差分值d(i)執行霍夫曼寫碼時，將先前次頻帶之量化差分值d(i-1)用作內容脈絡，且例如使用供群組#2使用之第一霍夫曼表以及供群組#3使用之第二霍夫曼表。

參看圖8，在操作810中，判定先前次頻帶之量化差分值d(i-1)是否屬於群組#2。

若在操作810中判定先前次頻帶之量化差分值d(i-1)屬於群組#2，則在操作820中，自第一霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。

若實際上在操作810中判定先前次頻帶之量化差分值d(i-1)不屬於群組#2，則在操作830中，判定先前次頻帶之量化差分值d(i-1)是否屬於群組#1。

若在操作830中判定先前次頻帶之量化差分值d(i-1)不屬於群組#1（即，若先前次頻帶之量化差分值d(i-1)屬於群組#3），則在操作840中，自第二霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。

若實際上在操作830中判定先前次頻帶之量化差分值d(i-1)屬於群組#1，則在操作850中，顛倒當前次頻帶之量化差分值d(i)，且自第二霍夫曼表選擇當前次頻帶之顛倒之量化差分值d’(i)的碼。

在操作860中，使用操作820、840或850中選擇之碼來執行當前次頻帶之量化差分值d(i)之霍夫曼解碼。

每訊框之位元成本差分析展示於表4中。如表4所示，相比原始霍夫曼寫碼演算法，根據圖7之實施例之編碼效率平均提高9%。

表4<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 演算法 </td><td> 位元率，千位元/秒 </td><td> 增益，% </td></tr><tr><td> 霍夫曼寫碼 </td><td> 6.25 </td><td> - </td></tr><tr><td> 內容脈絡+霍夫曼寫碼 </td><td> 5.7 </td><td> 9 </td></tr></TBODY></TABLE>

圖9為根據本發明之一實施例的包含編碼模組930之多媒體元件900的方塊圖。

圖9之多媒體元件900可包含通信單元910以及編碼模組930。此外，根據作為編碼結果而獲得之音訊位元串流之用途，圖9之多媒體元件900可更包含用以儲存音訊位元串流之儲存單元950。此外，圖9之多媒體元件900可更包含麥克風970。亦即，儲存單元950以及麥克風970是任選的。圖9之多媒體元件900可更包含解碼模組（未繪示），例如，用以執行一般解碼功能之解碼模組或根據本發明之一實施例之解碼模組。編碼模組930可與多媒體元件900中所包含之其他組件（未繪示）整合且由至少一個處理器實施。

參看圖9，通信單元910可接收自外部提供之音訊信號以及經編碼之位元串流中之至少一者，或可傳輸經重新建構之音訊信號以及作為編碼模組930之編碼之結果而獲得的音訊位元串流中之至少一者。

通信單元910經組態以經由無線網路或有線網路將資料傳輸至外部多媒體元件以及自外部多媒體元件接收資料，無線網路諸如為無線網際網路（wireless Internet）、無線企業內部網路（wireless intranet）、無線電話網路（wireless telephone network）、無線區域網路（Local Area Network；LAN）、Wi-Fi、Wi-Fi直連（Wi-Fi Direct；WFD）、第三代（third generation；3G）、第四代（fourth generation；4G）、藍牙（Bluetooth）、紅外線資料協會（Infrared Data Association；IrDA）、射頻識別（Radio Frequency Identification；RFID）、超寬頻（Ultra WideBand；UWB）、紫蜂（Zigbee）或近場通信（Near Field Communication；NFC），有線網路諸如為有線電話網路（wired telephone network）或有線網際網路（wired Internet）。

根據一實施例，編碼模組930可藉由如下方式而產生位元串流：將時域中之音訊信號（其經由通信單元910或麥克風970而提供）變換為頻域中之音訊頻譜；基於音訊頻譜之預定次頻帶而獲取包絡；基於預定次頻帶而對包絡進行量化；以及獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。

根據另一實施例，當對包絡進行量化時，編碼模組930可調整對應於預定量化索引之量化區域之邊界以使得量化區域中之總量化誤差最小化，且可使用藉由調整而更新之量化表來執行量化。

儲存單元950可儲存由編碼模組930產生之經編碼之位元串流。此外，儲存單元950可儲存操作多媒體元件900所需之各種程式。

麥克風970可將音訊信號自使用者或外部提供至編碼模組930。

圖10為根據本發明之一實施例的包含解碼模組1030之多媒體元件1000的方塊圖。

圖10之多媒體元件1000可包含通信單元1010以及解碼模組1030。此外，根據作為解碼結果而獲得之經重新建構之音訊信號的用途，圖10之多媒體元件1000可更包含用以儲存經重新建構之音訊信號之儲存單元1050。此外，圖10之多媒體元件1000可更包含揚聲器1070。亦即，儲存單元1050以及揚聲器1070是任選的。圖10之多媒體元件1000可更包含編碼模組（未繪示），例如，用於執行一般編碼功能之編碼模組或根據本發明之一實施例之編碼模組。解碼模組1030可與多媒體元件1000中所包含之其他組件（未繪示）整合且由至少一個處理器實施。

參看圖10，通信單元1010可接收自外部提供之音訊信號以及經編碼之位元串流中之至少一者，或可傳輸作為解碼模組1030之解碼之結果而獲得的經重新建構之音訊信號以及作為編碼之結果而獲得之音訊位元串流中之至少一者。通信單元1010可實質上與圖9之通信單元910相同地加以實施。

根據一實施例，解碼模組1030可藉由如下方式執行解量化：接收經由通信單元1010而提供之位元串流；自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值；藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼；以及自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶而獲得經量化之包絡。

儲存單元1050可儲存由解碼模組1030產生之經重新建構之音訊信號。此外，儲存單元1050可儲存操作多媒體元件1000所需之各種程式。

揚聲器1070可將由解碼模組1030產生之經重新建構之音訊信號輸出至外部。

圖11為根據本發明之一實施例的包含編碼模組1120以及解碼模組1130之多媒體元件1100的方塊圖。

圖11之多媒體元件1100可包含通信單元1110、編碼模組1120以及解碼模組1130。此外，根據作為編碼結果而獲得之音訊位元串流或作為解碼結果而獲得之經重新建構之音訊信號的用途，圖11之多媒體元件1100可更包含用於儲存音訊位元串流或經重新建構之音訊信號之儲存單元1140。此外，圖11之多媒體元件1100可更包含麥克風1150或揚聲器1160。編碼模組1120以及解碼模組1130可與多媒體元件1100中所包含之其他組件（未繪示）整合且由至少一個處理器實施。

因為圖11之多媒體元件1100中之組件與圖9之多媒體元件900中之組件或圖10之多媒體元件1000中之組件相同，因此，省略了其詳細描述。

圖9、圖10或圖11之多媒體元件900、1000或1100可包含唯語音通信終端（包含電話或行動電話）、廣播或唯音樂元件（包含TV或MP3播放器）或唯語音通信終端與廣播或唯音樂元件之混合終端元件，但不限於此。此外，圖9、圖10或圖11之多媒體元件900、1000或1100可用作用戶端、伺服器或安置於用戶端與伺服器之間的變換器。

舉例而言，若多媒體元件900、1000或1100為行動電話，則雖然未繪示，但行動電話可更包含：使用者輸入單元，諸如，小鍵盤；使用者介面或顯示單元，其用於顯示由行動電話處理之資訊；以及處理器，其用於控制行動電話之一般功能。此外，行動電話可更包含：相機單元，其具有影像拾取功能；以及用於執行行動電話所需之功能的至少一個組件。

作為另一實例，若多媒體元件900、1000或1100為TV，則雖然未繪示，但TV可更包含：使用者輸入單元，諸如，小鍵盤；顯示單元，其用於顯示所接收之廣播資訊；以及處理器，其用於控制TV之一般功能。此外，TV可更包含用於執行TV所需之功能的至少一個組件。

根據本發明之實施例之方法可編寫為電腦程式，且可實施於使用電腦可讀記錄媒體來執行程式的通用數位電腦中。此外，可用於本發明之實施例中之資料結構、程式指令或資料檔案可按照各種方式記錄在電腦可讀記錄媒體中。電腦可讀記錄媒體為可儲存可之後由電腦系統讀取之資料的任何資料儲存元件。電腦可讀記錄媒體之實例包含：磁性媒體，諸如，硬碟（hard disk）、軟碟（floppy disk）以及磁帶（magnetic tape）；光學媒體，諸如，CD-ROM以及DVD；磁光媒體，諸如，軟磁光碟（floptical disk）；以及硬體元件，諸如，ROM、RAM以及快閃記憶體，上述媒體經特定組態以儲存並執行程式指令。此外，電腦可讀記錄媒體可為用於傳輸指定了程式指令以及資料結構之信號的傳輸媒體。程式指令可包含由編譯器編輯之機器語言碼以及可由電腦使用解譯器來執行之高階語言碼。

雖然已特定參考本發明之例示性實施例而展示並描述了本發明，但一般熟習此項技術者應理解，可對本發明進行形式以及細節之各種改變，而不偏離隨附申請專利範圍所定義之本發明之精神以及範疇。

100‧‧‧數位信號處理裝置
110‧‧‧變換器
120‧‧‧包絡獲取單元
130‧‧‧包絡量化器
140‧‧‧包絡編碼器
150‧‧‧頻譜正規器
160‧‧‧頻譜編碼器
200‧‧‧數位信號解碼裝置
210‧‧‧包絡解碼器
220‧‧‧包絡解量化器
230‧‧‧頻譜解碼器
240‧‧‧頻譜解正規器
250‧‧‧逆變換器
710～760、810～860‧‧‧操作
900‧‧‧多媒體元件
910‧‧‧通信單元
930‧‧‧編碼模組
950‧‧‧儲存單元
970‧‧‧麥克風
1000‧‧‧多媒體元件
1010‧‧‧通信單元
1030‧‧‧解碼模組
1050‧‧‧儲存單元
1070‧‧‧揚聲器
1100‧‧‧多媒體元件
1110‧‧‧通信單元
1120‧‧‧編碼模組
1130‧‧‧解碼模組
1140‧‧‧儲存單元
1150‧‧‧麥克風
1160‧‧‧揚聲器

圖1為根據本發明之一實施例之數位信號處理裝置的方塊圖。圖2為根據本發明之另一實施例之數位信號處理裝置的方塊圖。圖3A以及圖3B分別圖示在量化解析度為0.5且量化步階大小為3.01時彼此比較的未經最佳化之對數尺度以及經最佳化之對數尺度。圖4A以及圖4B分別圖示在量化解析度為1且量化步階大小為6.02時彼此比較的未經最佳化之對數尺度以及經最佳化之對數尺度。圖5A以及圖5B分別圖示彼此比較的未經最佳化之對數尺度之量化結果以及經最佳化之對數尺度之量化結果的曲線圖。圖6為圖示在先前次頻帶之量化差分值用作內容脈絡時選擇之三個群組的機率分佈的曲線圖。圖7為說明根據本發明之一實施例的圖1中之數位信號處理裝置之包絡編碼器中的基於內容脈絡之編碼程序的流程圖。圖8為說明根據本發明之一實施例的圖2中之數位信號處理裝置之包絡解碼器中的基於內容脈絡之解碼程序的流程圖。圖9為根據本發明之一實施例的包含編碼模組之多媒體元件的方塊圖。圖10為根據本發明之一實施例的包含解碼模組之多媒體元件的方塊圖。圖11為根據本發明之一實施例的包含編碼模組以及解碼模組之多媒體元件的方塊圖。

710~760‧‧‧操作

Claims

一種音訊編碼裝置，包括：至少一個處理元件，經組態以：以次頻帶為單位對音訊頻譜的包絡進行量化以獲得多個量化索引，所述多個量化索引包含先前次頻帶的量化索引以及當前次頻帶的量化索引，其中所述音訊頻譜包括多個次頻帶；自所述先前次頻帶的所述量化索引以及所述當前次頻帶的所述量化索引以獲得所述當前次頻帶的差分量化索引；藉由使用所述先前次頻帶的差分量化索引以獲得所述當前次頻帶的內容脈絡；以及基於所述當前次頻帶的所述內容脈絡以對所述當前次頻帶的所述差分量化索引進行無損編碼。
如申請專利範圍第1項所述的音訊編碼裝置，其中所述次頻帶的包絡為由所述次頻帶之平均能量、平均振幅、功率以及範數值中的一者獲得。
如申請專利範圍第1項所述的音訊編碼裝置，其中所述處理元件經組態在將所述差分量化索引調整為具有具體範圍之後，以對所述當前次頻帶的所述差分量化索引進行無損編碼。
如申請專利範圍第1項所述的音訊編碼裝置，其中所述處理元件經組態藉由將與所述內容脈絡對應的所述差分量化分組為多個群組中的一者且藉由使用對每一群組定義的霍夫曼表來對所述當前次頻帶的所述差分量化索引執行霍夫曼寫碼，以對所述當前次頻帶的所述差分量化索引進行無損編碼。
如申請專利範圍第1項所述的音訊編碼裝置，其中所述處理元件經組態藉由將與所述內容脈絡對應的所述差分量化分組為第一群組、第二群組及第三群組中的一者且分配兩個霍夫曼表，所述兩個霍夫曼表包含供所述第二群組的第一霍夫曼表以及由所述第一群組和所述第三群組共用的第二霍夫曼表，以對所述當前次頻帶的所述差分量化索引進行無損編碼。
如申請專利範圍第5項所述的音訊編碼裝置，其中所述處理元件經組態藉由按照原狀使用所述先前次頻帶的所述差分量化索引或在所述第二霍夫曼表被共用時在顛倒之後用作所述內容脈絡，以對所述當前次頻帶的所述差分量化索引進行無損編碼。
如申請專利範圍第1項所述的音訊編碼裝置，其中所述處理元件經組態藉由針對不存在所述先前次頻帶的第一次頻帶時按照原狀對所述量化索引進行霍夫曼寫碼，且藉由使用所述第一次頻帶的所述量化索引與預定參考值之間的差值用作所述內容脈絡時對跟在所述第一次頻帶之後的第二次頻帶的所述差分量化索引執行霍夫曼寫碼，以對所述當前次頻帶的所述差分量化索引進行無損編碼。