TWI612518B

TWI612518B - 編碼模式決定方法、音訊編碼方法以及音訊解碼方法

Info

Publication number: TWI612518B
Application number: TW102141400A
Authority: TW
Inventors: 朱基峴; 安東維多羅維奇普羅夫; 康斯坦丁薩基維奇奧斯普夫; 李男淑
Original assignee: 三星電子股份有限公司
Priority date: 2012-11-13
Filing date: 2013-11-13
Publication date: 2018-01-21
Also published as: US20180322887A1; CN104919524A; CN108074579A; AU2017206243B2; PH12015501114A1; AU2013345615B2; RU2015122128A; SG11201503788UA; EP3933836A1; TW201805925A; WO2014077591A1; BR112015010954B1; EP3933836C0; KR20150087226A; ES2900594T3; MX349196B; CN108074579B; CN104919524B; JP2017167569A; EP2922052B1

Abstract

本發明提供一種用於決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置。一種決定編碼模式的方法包含：將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式；以及若在初始編碼模式的決定中存在錯誤，則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式。

Description

編碼模式決定方法、音訊編碼方法以及音訊解碼方法

依據例示性實施例的裝置與方法是關於音訊編碼以及解碼，且更特定言之，是關於一種用於藉由決定適於音訊信號的特性的編碼模式來決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置、一種用於編碼音訊信號的方法與裝置，以及一種用於解碼音訊信號的方法與裝置。

眾所周知，在頻域(frequency domain)中編碼音樂信號較為有效，且在時域(time domain)中編碼語音信號較為有效。因此，已建議用於進行如下操作的各種技術：將音訊信號的類型分類，音訊信號中混合有音樂信號以及語音信號；以及決定對應於經分類的類型的編碼模式。

然而，由於不存在用於修改經起初決定的編碼模式的技術，故若在編碼模式的決定期間發生錯誤，則經重新建構的音訊信號的品質會劣化。

一或多個例示性實施例的態樣提供一種用於藉由決定適於音訊信號的特性的編碼模式來決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置、一種用於編碼音訊信號的方法與裝置，以及一種用於解碼音訊信號的方法與裝置。

一或多個例示性實施例的態樣提供一種用於決定適於音訊信號的特性的編碼模式且減少歸因於頻繁編碼模式切換的延遲的方法與裝置、一種用於編碼音訊信號的方法與裝置，以及一種用於解碼音訊信號的方法與裝置。

額外態樣將部分地在以下描述中被闡述，且部分地將自描述顯而易見或可藉由所呈現實施例的實踐被獲悉。

根據一或多個例示性實施例的態樣，存在一種決定編碼模式的方法，方法包含：將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式；以及若在初始編碼模式的決定中存在錯誤，則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式。

根據一或多個例示性實施例的態樣，存在一種編碼音訊信號的方法，方法包含：將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式；若在初始編碼模式的決定中存在錯誤，則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式；以及基於經決定的最終編碼模式而對音訊信號執行不同編碼程序(encoding process)。

根據一或多個例示性實施例的態樣，存在一種解碼音訊信號的方法，方法包含：剖析包含最終編碼模式的位元流(bitstream)；以及基於最終編碼模式而對位元流執行不同解碼程序(decoding process)，最終編碼模式是藉由如下操作而獲得：將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式；以及若在初始編碼模式的決定中存在錯誤，則將初始編碼模式修改至第三編碼模式。

100‧‧‧音訊編碼裝置

110‧‧‧編碼模式決定單元

120‧‧‧切換單元

130‧‧‧頻譜域編碼單元

140‧‧‧線性預測域編碼單元

141‧‧‧時域激勵編碼單元

143‧‧‧頻域激勵編碼單元

150‧‧‧位元流產生單元

200‧‧‧音訊編碼裝置

205‧‧‧共同預處理模組

210‧‧‧編碼模式決定單元

220‧‧‧切換單元

230‧‧‧頻譜域編碼單元

240‧‧‧線性預測域編碼單元

241‧‧‧時域激勵編碼單元

243‧‧‧頻域激勵編碼單元

250‧‧‧位元流產生單元

300‧‧‧編碼模式決定單元

310‧‧‧初始編碼模式決定單元

330‧‧‧編碼模式修改單元

410‧‧‧特徵參數提取單元

430‧‧‧決定單元

500‧‧‧特徵參數提取單元/初始編碼模式決定單元

510‧‧‧變換單元

520‧‧‧頻譜參數提取單元

530‧‧‧時間參數提取單元

610~640、700~710‧‧‧操作

800‧‧‧音訊解碼裝置

810‧‧‧位元流剖析單元

820‧‧‧頻譜域解碼單元

830‧‧‧線性預測域解碼單元

831‧‧‧時域激勵解碼單元

833‧‧‧頻域激勵解碼單元

840‧‧‧切換單元

900‧‧‧音訊解碼裝置

910‧‧‧位元流剖析單元

920‧‧‧頻譜域解碼單元

930‧‧‧線性預測域解碼單元

931‧‧‧時域激勵解碼單元

933‧‧‧頻域激勵解碼單元

940‧‧‧切換單元

950‧‧‧共同後處理模組

此等及/或其他態樣將結合隨附圖式而自實施例的以下描述變得顯而易見且更易於被瞭解，在圖式中：

圖1為根據例示性實施例的說明音訊編碼裝置(audio encoding apparatus)的組態的方塊圖。

圖2為根據另一例示性實施例的說明音訊編碼裝置的組態的方塊圖。

圖3為根據例示性實施例的說明編碼模式決定單元(encoding mode determining unit)的組態的方塊圖。

圖4為根據例示性實施例的說明初始編碼模式決定單元(initial encoding mode determining unit)的組態的方塊圖。

圖5為根據例示性實施例的說明特徵參數提取單元(feature parameter extracting unit)的組態的方塊圖。

圖6為根據例示性實施例的說明線性預測域編碼(linear prediction domain encoding)與頻譜域(spectrum domain)之間的適應性切換方法(adaptive switching method)的圖解。

圖7為根據例示性實施例的說明編碼模式修改單元(encoding mode modifying unit)的操作的圖解。

圖8為根據例示性實施例的說明音訊解碼裝置(audio decoding apparatus)的組態的方塊圖。

圖9為根據另一例示性實施例的說明音訊解碼裝置的組態的方塊圖。

現在將詳細地參考實施例，隨附圖式中說明實施例的實例，在圖式中，類似圖式元件符號始終是指類似元件。在此方面，本實施例可具有不同形式，且不應被認作限於本文所闡述的描述。因此，下文僅僅藉由參看諸圖來描述實施例以解釋本描述的態樣。

諸如「連接(connected)」以及「鏈接(linked)」的術語可用以指示直接連接或鏈接狀態，但應理解，另一組件可介入於此等狀態之間。

諸如「第一(first)」以及「第二(second)」的術語可用以描述各種組件，但此等組件不應限於此等術語。此等術語可僅用以區分一個組件與另一組件。

獨立地說明例示性實施例中描述的單元以指示不同特性功能，且並不意謂每一單元是由一個單獨硬體或軟體組件形成。出於解釋便利起見而說明每一單元，且多個單元可形成一個單元，且可將一個單元劃分成多個單元。

圖1為根據例示性實施例的說明音訊編碼裝置100的組態的方塊圖。

圖1所展示的音訊編碼裝置100可包含編碼模式決定單元110、切換單元(switching unit)120、頻譜域編碼單元(spectrum domain encoding unit)130、線性預測域編碼單元(linear prediction domain encoding unit)140，以及位元流產生單元(bitstream generating unit)150。線性預測域編碼單元140可包含時域激勵編碼單元(time domain excitation encoding unit)141以及頻域激勵編碼單元(frequency domain excitation encoding unit)143，其中線性預測域編碼單元140可被體現為兩個激勵編碼單元141以及143中的至少一者。除非有必要被體現為分開的硬體，否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。此處，術語音訊信號可指音樂信號、語音信號或其混合式信號。

參看圖1，編碼模式決定單元110可分析音訊信號的特性以將音訊信號的類型分類，且決定對應於分類的結果的編碼模式。可以超訊框(superframe)、訊框(frame)或頻帶(band)為單位來執行編碼模式的決定。或者，可以多個超訊框群組(superframe group)、多個訊框群組(frame group)或多個頻帶群組(band group)為單位來執行編碼模式的決定。此處，編碼模式的實例可包含頻譜域以及時域或線性預測域，但不限於此情形。若處理器的效能以及處理速度是足夠的，且可解決歸因於編碼模式切換的延遲，則可細分編碼模式，且亦可對應於編碼模式來細分編碼方案。根據例示性實施例，編碼模式決定單元110可將音訊信號的初始編碼模式決定為頻譜域編碼模式以及時域編碼模式中的一者。根據另一例示性實施例，當將初始編碼模式決定為時域編碼模式(亦即，時域激勵編碼模式)時，編碼模式決定單元110可藉由將初始編碼模式修改為時域激勵編碼模式以及頻域激勵編碼模式中的一者來決定音訊信號的最終編碼模式。另外，當將初始編碼模式決定為頻譜域編碼模式時，編碼模式決定單元110可藉由將初始編碼模式修改為頻譜域編碼模式以及頻域激勵編碼模式中的一者來決定音訊信號的最終編碼模式。

對應於由編碼模式決定單元110決定的編碼模式，切換單元120可將音訊信號提供至頻譜域編碼單元130抑或線性預測域編碼單元140。若線性預測域編碼單元140被體現為時域激勵編碼單元141，則切換單元120可包含總共兩個分支。若線性預測域編碼單元140被體現為時域激勵編碼單元141以及頻域激勵編碼單元143，則切換單元120可具有總共3個分支。

頻譜域編碼單元130可在頻譜域中編碼音訊信號。頻譜域可指頻域或變換域(transform domain)。適用於頻譜域編碼單元130的寫碼方法(coding method)的實例可包含進階音訊寫碼(advance audio coding，ACC)，或修改型離散餘弦變換(modified discrete cosine transform，MDCT)與階乘脈衝寫碼(factorial pulse coding，FPC)的組合，但不限於此情形。詳細地，可使用其他量化技術(quantizing technique)以及熵寫碼技術(entropy coding technique)來代替階乘脈衝寫碼。可能有效的是在頻譜域編碼單元130中編碼音樂信號。

線性預測域編碼單元140可在線性預測域中編碼音訊信號。線性預測域可指激勵域(excitation domain)或時域。線性預測域編碼單元140可被體現為時域激勵編碼單元141，或可被體現為包含時域激勵編碼單元141以及頻域激勵編碼單元143。適用於時域激勵編碼單元141的寫碼方法的實例可包含碼激勵線性預測(code excited linear prediction，CELP)或代數碼激勵線性預測(algebraic CELP，ACELP)，但不限於此情形。適用於頻域激勵編碼單元143的寫碼方法的實例可包含一般信號寫碼(general signal coding，GSC)或變換寫碼激勵(transform coded excitation，TCX)，但不限於此情形。可能有效的是在時域激勵編碼單元141中編碼語音信號，而可能有效的是在頻域激勵編碼單元143中編碼諧波信號。

位元流產生單元150可產生位元流以包含由編碼模式決定單元110提供的編碼模式、由頻譜域編碼單元130提供的編碼結果，以及由線性預測域編碼單元140提供的編碼結果。

圖2為根據另一例示性實施例的說明音訊編碼裝置200的組態的方塊圖。

圖2所展示的音訊編碼裝置200可包含共同預處理模組(common pre-processing module)205、編碼模式決定單元210、切換單元220、頻譜域編碼單元230、線性預測域編碼單元240，以及位元流產生單元250。此處，線性預測域編碼單元240可包含時域激勵編碼單元241以及頻域激勵編碼單元243，且線性預測域編碼單元240可被體現為時域激勵編碼單元241抑或頻域激勵編碼單元243。與圖1所展示的音訊編碼裝置100相比較，音訊編碼裝置200可更包含共同預處理模組205，且因此將省略與音訊編碼裝置100的組件相同的組件的描述。

參看圖2，共同預處理模組205可執行立體聲合併處理(joint stereo processing)、環繞處理(surround processing)及/或頻寬延伸處理(bandwidth extension processing)。立體聲合併處理、環繞處理以及頻寬延伸處理可與由特定標準(例如，MPEG標準)使用的處理相同，但不限於此情形。共同預處理模組205的輸出可為單聲道頻道(mono channel)、立體聲頻道(stereo channel)或多頻道(multi channel)。根據由共同預處理模組205輸出的信號的頻道的數目，切換單元220可包含至少一個開關。舉例而言，若共同預處理模組205輸出兩個或大於兩個頻道(亦即，立體聲頻道或多頻道)的信號，則可配置對應於各別頻道的開關。舉例而言，立體聲信號的第一頻道可為語音頻道，且立體聲信號的第二頻道可為音樂頻道。在此狀況下，可將音訊信號同時地提供至兩個開關。可將由共同預處理模組205產生的額外資訊提供至位元流產生單元250且將額外資訊包含於位元流中。額外資訊可為在解碼端(decoding end)中執行立體聲合併處理、環繞處理及/或頻寬延伸處理所必要，且可包含空間參數(spatial parameter)、包絡資訊(envelope information)、能量資訊(energy information)等等。然而，基於此處所應用的處理技術可存在各種額外資訊。

根據例示性實施例，在共同預處理模組205處，可基於編碼域來不同地執行頻寬延伸處理。可藉由使用時域激勵編碼模式或頻域激勵編碼模式來處理核心頻帶(core band)中的音訊信號，而可在時域中處理頻寬延伸頻帶中的音訊信號。時域中的頻寬延伸處理可包含多個模式，多個模式包含有聲模式(voiced mode)或無聲模式(unvoiced mode)。或者，可藉由使用頻譜域編碼模式來處理核心頻帶中的音訊信號，而可在頻域中處理頻寬延伸頻帶中的音訊信號。頻域中的頻寬延伸處理可包含多個模式，多個模式包含暫態模式(transient mode)、正常模式(normal mode)或諧波模式(harmonic mode)。為了在不同域中執行頻寬延伸處理，可將由編碼模式決定單元110決定的編碼模式提供至共同預處理模組205作為傳信資訊(signaling information)。根據例示性實施例，核心頻帶的最後部分與頻寬延伸頻帶的開始部分可在某種程度上彼此重疊。

圖3為根據例示性實施例的說明編碼模式決定單元300的組態的方塊圖。

圖3所展示的編碼模式決定單元300可包含初始編碼模式決定單元310以及編碼模式修改單元330。

參看圖3，初始編碼模式決定單元310可藉由使用自音訊信號提取的特徵參數來決定音訊信號為音樂信號抑或語音信號。若將音訊信號決定為語音信號，則線性預測域編碼可能是合適的。同時，若將音訊信號決定為音樂信號，則頻譜域編碼可能是合適的。可基於音訊信號的類型來決定對應編碼模式。若切換單元(圖1的120)具有兩個分支，則可以1位元來表達編碼模式。若切換單元(圖1的120)具有三個分支，則可以2位元來表達編碼模式。初始編碼模式決定單元310可藉由使用此項技術中所知的各種技術中的任一者來決定音訊信號為音樂信號抑或語言信號。技術的實例可包含USAC標準的編碼器部分中揭示的分類，但不限於此情形。

編碼模式修改單元330可藉由使用修改參數(modification parameter)來修改由初始編碼模式決定單元310決定的初始編碼模式來決定最終編碼模式。最終編碼模式可用以控制切換單元(圖1的120)。根據例示性實施例，若將頻譜域編碼模式決定為初始編碼模式，則可基於修改參數將初始編碼模式修改至頻域激勵編碼模式。此外，若將時域編碼模式決定為初始編碼模式，則可基於修改參數將初始編碼模式修改至頻域激勵編碼模式。

圖4為根據例示性實施例的說明初始編碼模式決定單元400的組態的方塊圖。

圖4所展示的初始編碼模式決定單元400可包含特徵參數提取單元410以及決定單元430。

參看圖4，特徵參數提取單元410可自音訊信號提取為決定編碼模式所必要的特徵參數。經提取的特徵參數的實例包含來自間距參數(pitch parameter)、發聲參數(voicing parameter)、相關性參數(correlation parameter)以及線性預測誤差(linear prediction error)當中的至少一者或兩者，但不限於此情形。下文將給出個別參數的詳細描述。

首先，第一特徵參數F₁是關於間距參數，其中可藉由使用在當前訊框以及至少一個先前訊框中偵測的N個間距值來決定間距的行為。為了防止來自隨機偏差或錯誤間距值的效應，可移除顯著地不同於N個間距值的平均值的M個間距值。此處，N以及M可為預先經由實驗或模擬而獲得的值。此外，可預先設定N，且可預先經由實驗或模擬來決定待移除的間距值與N個間距值的平均值之間的差。可藉由使用平均值m_p，以及相對於(N-M)個間距值的方差σ_p，而如以下方程式1所展示來表達第一特徵參數F₁。

第二特徵參數F₂亦是關於間距參數，且可指示在當前訊框中偵測的間距值的可靠性。可藉由使用在當前訊框的兩個子訊框SF₁以及SF₂中分別偵測的間距值的方差σ_SF1以及σ_SF2而如以下方程式2所展示來表達第二特徵參數F₂。

此處，cov(SF₁,SF₂)表示子訊框SF₁與子訊框SF₂之間的協方差。換言之，第二特徵參數F₂將兩個子訊框之間的相關性指示為間距距離(pitch distance)。根據例示性實施例，當前訊框可包含兩個或大於兩個子訊框，且可基於子訊框的數目來修改方程式2。

可基於發聲參數Voicing以及相關性參數Corr而如以下方程式3所展示來表達第三特徵參數F₃。

此處，發聲參數Voicing是關於聲音的發音特徵(vocal feature)，且可藉由此項技術中所知的各種方法中的任一者來獲得發聲參數Voicing，而可藉由將用於每一頻帶的訊框之間的相關性求和來獲得相關性參數Corr。

第四特徵參數F₄是關於線性預測誤差E_LPC，且可如以下方程式4所展示來表達第四特徵參數F₄。

此處，M(E_LPC)表示N個線性預測誤差的平均值。

決定單元430可藉由使用由特徵參數提取單元410提供的至少一個特徵參數來決定音訊信號的類型，且可基於經決定的類型來決定初始編碼模式。決定單元430可使用軟決策機制(soft decision mechanism)，其中每特徵參數可形成至少一個混合物。根據例示性實施例，可藉由基於混合物機率(mixture probability)而使用高斯混合物模型(Gaussian mixture model，GMM)來決定音訊信號的類型。可根據以下方程式5來計算關於一個混合物的機率f(x)。

此處，x表示特徵參數的輸入向量(input vector)，m表示混合物，且c表示協方差矩陣(covariance matrix)。

決定單元430可藉由使用以下方程式6來計算音樂機率 Pm以及語音機率Ps。

此處，可藉由將與對於音樂決定優良的特徵參數相關的M個混合物的機率Pi相加來計算音樂機率Pm，而可藉由將與對於語音決定優良的特徵參數相關的S個混合物的機率Pi相加來計算語音機率Ps。

同時，為了改良精確度，可根據以下方程式7來計算音樂機率Pm以及語音機率Ps。

此處，

表示每一混合物的錯誤機率(error probability)。可藉由使用每一混合物將包含清潔語音信號以及清潔音樂信號的訓練資料分類且對錯誤分類的數目計數來獲得錯誤機率。

接下來，可根據以下方程式8來計算所有訊框相對於多達恆定滯留長度(constant hangover length)的多個訊框僅包含音樂信號的機率P^M，以及所有訊框相對於此多個訊框僅包含語音信號的語音機率P^S。滯留長度可被設定為8，但不限於此情形。八個訊框可包含當前訊框以及7個先前訊框。

【方程式8】

接下來，可藉由使用音樂機率Pm或語音機率Ps來計算多個條件集合{

}以及{

}，音樂機率Pm或語音機率Ps是使用方程式5或方程式6而獲得。下文將參看圖6來給出計算的詳細描述。此處，計算可經設定成使得每一條件對於音樂具有值1且對於語音具有值0。

參看圖6，在操作610以及操作620中，可自藉由使用音樂機率Pm以及語音機率Ps而計算的多個條件集合{

}以及{

}獲得音樂條件總和M以及話音條件總和S。換言之，可如以下方程式9所展示來表達音樂條件總和M以及語音條件總和S。

在操作630中，比較音樂條件總和M與指定臨限值Tm。若音樂條件總和M大於臨限值Tm，則將當前訊框的編碼模式切換至音樂模式，亦即，頻譜域編碼模式。若音樂條件總和M小於或等於臨限值Tm，則不改變當前訊框的編碼模式。

在操作640中，比較語音條件總和S與指定臨限值Ts。若語音條件總和S大於臨限值Ts，則將當前訊框的編碼模式切換至語音模式，亦即，線性預測域編碼模式。若語音條件總和S小於或等於臨限值Ts，則不改變當前訊框的編碼模式。

可將臨限值Tm以及臨限值Ts設定為預先經由實驗或模擬而獲得的值。

圖5為根據例示性實施例的說明特徵參數提取單元500的組態的方塊圖。

圖5所展示的初始編碼模式決定單元500可包含變換單元(transform unit)510、頻譜參數提取單元(spectral parameter extracting unit)520、時間參數提取單元(temporal parameter extracting unit)530以及決定單元540。

在圖5中，變換單元510可將原始音訊信號自時域變換至頻域。此處，變換單元510可應用用於表示自時域至頻譜域的音訊信號的各種變換技術中的任一者。技術的實例可包含快速傅立葉變換(fast Fourier transform，FFT)、離散餘弦變換(discrete cosine transform，DCT)或修改型離散餘弦變換(MDCT)，但不限於此情形。

頻譜參數提取單元520可自由變換單元510提供的頻域音訊信號提取至少一個頻譜參數。可將頻譜參數分類成短期特徵參數(short-term feature parameter)以及長期特徵參數(long-term feature parameter)。短期特徵參數是可自當前訊框獲得，而長期特徵參數是可自包含當前訊框以及至少一個先前訊框的多個訊框獲得。

時間參數提取單元530可自時域音訊信號提取至少一個時間參數。亦可將時間參數分類成短期特徵參數以及長期特徵參數。短期特徵參數是可自當前訊框獲得，而長期特徵參數是可自包含當前訊框以及至少一個先前訊框的多個訊框獲得。

決定單元(圖4的430)可藉由使用由頻譜參數提取單元520提供的頻譜參數以及由時間參數提取單元530提供的時間參數來決定音訊信號的類型，且可基於經決定的類型來決定初始編碼模式。決定單元(圖4的430)可使用軟決策機制。

圖7為根據例示性實施例的說明編碼模式修改單元330的操作的圖解。

參看圖7，在操作700中，接收由初始編碼模式決定單元310決定的初始編碼模式，且可決定編碼模式為時域模式(亦即，時域激勵模式)抑或頻譜域模式。

在操作701中，若在操作700中決定出初始編碼模式為頻譜域(state_TS==1)，則可檢查指示頻域激勵編碼是否更適當的索引state_TTSS。可藉由使用不同頻帶的調性(tonality)來獲得指示頻域激勵編碼(例如，一般信號寫碼)是否更適當的索引state_TTSS。下文將給出此操作的詳細描述。

可獲得低頻帶信號的調性作為具有包含最小值的小值的多個頻譜係數的總和與具有相對於給定頻帶的最大值的頻譜係數之間的比率。若給定頻帶為0kHz至1kHz、1kHz至2kHz以及2kHz至4kHz，則可如以下方程式10所展示來表達各別頻帶的調性t₀₁、t₁₂與t₂₄以及低頻帶信號(亦即，核心頻帶)的調性t_L。

【方程式10】

同時，可藉由使用線性預測寫碼(linear prediction coding，LPC)濾波器來獲得線性預測誤差err，且可使用線性預測誤差err以移除強音調分量(tonal component)。換言之，關於強音調分量，頻譜域編碼模式相比於頻域激勵編碼模式可更有效。

可如以下方程式11所展示來表達用於藉由使用如上文所描述而獲得的調性以及線性預測誤差而切換至頻域激勵編碼模式的前條件(front condition)cond_front。

【方程式11】cond _front=t ₁₂>t _12front且t ₂₄>t _24front且t _L>t _Lfront且err>err _front

此處，t_12front、t_24front、t_Lfront以及err_front為臨限值，且可具有預先經由實驗或模擬而獲得的值。

同時，可如以下方程式12所展示來表達用於藉由使用如上文所描述而獲得的調性以及線性預測誤差而結束頻域激勵編碼模式的後條件(back condition)cond_back。

【方程式12】cond _back=t ₁₂<t _12back且t ₂₄<t _24back且t _L<t _Lback

此處，t_12back、t_24back、t_Lback為臨限值，且可具有預先經由實驗或模擬而獲得的值。

換言之，藉由決定方程式11所展示的前條件被滿足抑或方程式12所展示的後條件未被滿足，可決定指示頻域激勵編碼(例如，一般信號寫碼)相比於頻譜域編碼是否更適當的索引state_TTSS是否為1。此處，方程式12所展示的後條件的決定可為可選的。

在操作702中，若索引state_TTSS為1，則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下，將為初始編碼模式的頻譜域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。

在操作705中，若在操作701中決定出索引state_TTSS為0，則可檢查用於決定音訊信號是否包含強語音特性的索引state_SS。若在頻譜域編碼模式的決定中存在錯誤，則頻域激勵編碼模式相比於頻譜域編碼模式可更有效。可藉由使用發聲參數與相關性參數之間的差vc來獲得用於決定音訊信號是否包含強語音特性的索引state_SS。

可如以下方程式13所展示來表達用於藉由使用發聲參數與相關性參數之間的差vc而切換至強語音模式的前條件cond_front。

【方程式13】cond _front=vc>vc _front

此處，vc_front為臨限值，且可具有預先經由實驗或模擬而獲得的值。

同時，可如以下方程式14所展示來表達用於藉由使用發聲參數與相關性參數之間的差vc而結束強語音模式的後條件cond_back。

【方程式14】cond _back=vc<vc _back

此處，vc_back為臨限值，且可具有預先經由實驗或模擬而獲得的值。

換言之，在操作705中，藉由決定方程式13所展示的前條件被滿足抑或方程式14所展示的後條件未被滿足，可決定指示頻域激勵編碼(例如，一般信號寫碼)相比於頻譜域編碼是否更適當的索引state_SS是否為1。此處，方程式14所展示的後條件的決定可為可選的。

在操作706中，若在操作705中決定出索引state_SS為0，亦即，音訊信號不包含強語音特性，則可將頻譜域編碼模式決定為最終編碼模式。在此狀況下，將為初始編碼模式的頻譜域編碼模式維持為最終編碼模式。

在操作707中，若在操作705中決定出索引state_SS為1，亦即，音訊信號包含強語音特性，則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下，將為初始編碼模式的頻譜域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。

藉由執行操作700、701以及705，可校正在將頻譜域編碼模式決定為初始編碼模式時的錯誤。詳細地，可將為初始編碼模式的頻譜域編碼模式維持或切換至作為最終編碼模式的頻域激勵編碼模式。

同時，若在操作700中決定出初始編碼模式為線性預測域編碼模式(state_TS==0)，則可檢查用於決定音訊信號是否包含強音樂特性的索引state_SM。若在線性預測域編碼模式(亦即，時域激勵編碼模式)的決定中存在錯誤，則頻域激勵編碼模式相比於時域激勵編碼模式可更有效。可藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc來獲得用於決定音訊信號是否包含強音樂特性的state_SM。

可如以下方程式15所展示來表達用於藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc而切換至強音樂模式的前條件cond_front。

【方程式15】cond _front=1-vc>vcm _front

此處，vcm_front為臨限值，且可具有預先經由實驗或模擬而獲得的值。

同時，可如以下方程式16所展示來表達用於藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc而結束強音樂模式的後條件cond_back。

【方程式16】cond _back=1-vc<vcm _back

此處，vcm_back為臨限值，且可具有預先經由實驗或模擬而獲得的值。

換言之，在操作709中，藉由決定方程式15所展示的前條件被滿足抑或方程式16所展示的後條件未被滿足，可決定指示頻域激勵編碼(例如，一般信號寫碼)相比於時域激勵編碼是否更適當的索引state_SM是否為1。此處，方程式16所展示的後條件的決定可為可選的。

在操作710中，若在操作709中決定出索引state_SM為0，亦即，音訊信號不包含強音樂特性，則可將時域激勵編碼模式決定為最終編碼模式。在此狀況下，將為初始編碼模式的線性預測域編碼模式切換至作為最終編碼模式的時域激勵編碼模式。根據例示性實施例，可考慮到，若線性預測域編碼模式對應於時域激勵編碼模式，則維持初始編碼模式而無需修改。

在操作707中，若在操作709中決定出索引state_SM為1，亦即，音訊信號包含強音樂特性，則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下，將為初始編碼模式的線性預測域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。

藉由執行操作700以及709，可校正初始編碼模式的決定中的錯誤。詳細地，可將為初始編碼模式的線性預測域編碼模式(例如，時域激勵編碼模式)維持或切換至作為最終編碼模式的頻域激勵編碼模式。

根據例示性實施例，用於決定音訊信號是否包含強音樂特性以用於校正線性預測域編碼模式的決定中的錯誤的操作709可為可選的。

根據另一例示性實施例，可顛倒執行用於決定音訊信號是否包含強語音特性的操作705以及用於決定頻域激勵編碼模式是否適當的操作701的順序。換言之，在操作700之後，首先可執行操作705，接著可執行操作701。在此狀況下，可在必要時改變用於決定的參數。

圖8為根據例示性實施例的說明音訊解碼裝置800的組態的方塊圖。

圖8所展示的音訊解碼裝置800可包含位元流剖析單元(bitstream parsing unit)810、頻譜域解碼單元(spectrum domain decoding unit)820、線性預測域解碼單元(linear prediction domain decoding unit)830，以及切換單元840。線性預測域解碼單元830 可包含時域激勵解碼單元(time domain excitation decoding unit)831以及頻域激勵解碼單元(frequency domain excitation decoding unit)833，其中線性預測域解碼單元830可被體現為時域激勵解碼單元831以及頻域激勵解碼單元833中的至少一者。除非有必要被體現為單獨硬體，否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。

參看圖8，位元流剖析單元810可剖析經接收的位元流以及關於編碼模式與經編碼資料的單獨資訊。

頻譜域解碼單元820可解碼來自分離的經編碼資料的在頻譜域中編碼的資料。

線性預測域解碼單元830可解碼來自分離的經編碼資料的在線性預測域中編碼的資料。若線性預測域解碼單元830包含時域激勵解碼單元831以及頻域激勵解碼單元833，則線性預測域解碼單元830可執行關於分離的經編碼資料的時域激勵解碼或頻域激勵解碼。

切換單元840可切換由頻譜域解碼單元820重新建構的信號抑或由線性預測域解碼單元830重新建構的信號，且可提供經切換的信號作為最終經重新建構的信號。

圖9為根據另一例示性實施例的說明音訊解碼裝置900的組態的方塊圖。

音訊解碼裝置900可包含位元流剖析單元910、頻譜域解碼單元920、線性預測域解碼單元930、切換單元940，以及共同後處理模組(common post-processing module)950。線性預測域解碼單元930可包含時域激勵解碼單元931以及頻域激勵解碼單元933，其中線性預測域解碼單元930可被體現為時域激勵解碼單元931以及頻域激勵解碼單元933中的至少一者。除非有必要被體現為單獨硬體，否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。與圖8所展示的音訊解碼裝置800相比較，音訊解碼裝置900可更包含共同後處理模組950，且因此將省略與音訊解碼裝置800的組件相同的組件的描述。

參看圖9，對應於共同預處理模組(圖2的205)，共同後處理模組950可執行立體聲合併處理、環繞處理及/或頻寬延伸處理。

根據例示性實施例的方法可被撰寫為電腦可執行程式(computer-executable program)，且可藉由使用非暫時性電腦可讀記錄媒體(non-transitory computer-readable recording medium)而實施於執行此等程式的通用數位電腦(general-use digital computer)中。另外，可在實施例中使用的資料結構、程式指令或資料檔案可以各種方式記錄於非暫時性電腦可讀記錄媒體上。非暫時性電腦可讀記錄媒體為可儲存資料的任何資料儲存器件，資料此後是可由電腦系統(computer system)讀取。非暫時性電腦可讀記錄媒體的實例包含：磁性儲存媒體(magnetic storage medium)，諸如，硬碟、軟式磁碟以及磁帶；光學記錄媒體(optical recording medium)，諸如，CD-ROM以及DVD；磁光媒體(magneto-optical medium)，諸如，光碟；以及經特殊地組態以儲存並執行程式指令的硬體器件(hardware device)，諸如，ROM、RAM以及快閃記憶體。另外，非暫時性電腦可讀記錄媒體可為用於傳輸指定程式指令、資料結構或類似者的信號的傳輸媒體 (transmission medium)。程式指令的實例可不僅包含由編譯器建立的機械語言碼(mechanical language code)，而且包含可由電腦使用解譯器或類似者而執行的高階語言碼(high-level language code)。

雖然上文已特定地展示並描述例示性實施例，但於本領域具有通常知識者將理解，在不脫離如由附加申請專利範圍界定的本發明概念的精神以及範疇的情況下，可在例示性實施例中進行各種形式以及細節改變。應僅在描述性意義上而不出於限制目的來考慮例示性實施例。因此，本發明概念的範疇不是由例示性實施例的詳細描述界定，而是由附加申請專利範圍界定，且在範疇內的所有差異將被認作包含於本發明概念中。

700~710‧‧‧操作

Claims

一種決定編碼模式的方法，包含：基於信號特性以在包括音樂分類及語音分類的多個分類當中決定當前訊框的分類；基於包括所述當前訊框的多個訊框以獲得包括調性以及線性預測誤差的特徵參數；基於所述特徵參數來決定在所述當前訊框中的經決定分類中是否發生錯誤；當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述音樂分類時，將所述經決定分類校正為所述語音分類；以及當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述語音分類時，將所述經決定分類校正為所述音樂分類。
如申請專利範圍第1項所述的決定編碼模式的方法，其中所述特徵參數還包含發聲參數與相關性參數之間的差。
一種音訊編碼方法，包含：基於信號特性以在包括音樂分類及語音分類的多個分類當中決定當前訊框的分類；基於包括所述當前訊框的多個訊框以獲得包括調性以及線性預測誤差的特徵參數；基於所述特徵參數來決定在所述當前訊框中的經決定分類中是否發生錯誤；當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述音樂分類時，將所述經決定分類校正為所述語音分類；當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述語音分類時，將所述經決定分類校正為所述音樂分類；以及基於所述當前訊框的所述經決定分類或是所述當前訊框的經校正訊框而對所述當前訊框執行不同編碼程序。