TWI564883B

TWI564883B - 用於自位元串流產生音訊信號之音訊解碼器設備及方法

Info

Publication number: TWI564883B
Application number: TW103121378A
Authority: TW
Inventors: 傑瑞米列康提; 法比恩鮑爾; 雷夫史派史奈德; 亞瑟翠特哈特
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-06-21
Filing date: 2014-06-20
Publication date: 2017-01-01
Also published as: MX358362B; SG11201510458UA; PT3011560T; CA2915001C; EP3011560A1; US10096322B2; MY169410A; RU2642894C2; KR20170124590A; AU2014283285A1; HK1224368A1; BR112015031605B1; TW201513097A; EP3011560B1; US20190027153A1; JP2016530548A; BR112015031605A2; CN105431898B; RU2016101607A; KR20160024920A

Description

用於自位元串流產生音訊信號之音訊解碼器設備及方法

本發明係有關於具有含能量調整模組之頻寬擴展模組的音訊解碼器。

發明背景

類似於其他頻寬擴展技術之譜帶複製(Spectral Band Replication，SBR)意欲在核心寫碼器級之上編碼及解碼音訊信號之頻譜高頻帶部分。SBR在[ISO09]中標準化，且聯合MPEG-4設定檔HE-AAC中之AAC來使用，該AAC用於各種應用標準中，例如3GPP[3GP12a]、DAB+[EBU10]及DRM[EBU12]。

在[ISO09，4.6.18節]中描述結合AAC解碼之SBR的現有技術水平。

圖1說明包含分析及合成濾波器組、SBR資料解碼、HF產生器及HF調製器之SBR解碼器的現有技術水平：

‧在現有技術水平之SBR解碼中，核心寫碼器之輸出為原始信號之低通濾波表示。其為SBR解碼器之QMF分析濾波器組的輸入x_{pcm_in}。

‧此濾波器組之輸出x_{QMF_ana}經交遞至HF產生器，在該HF產生器中發生修補。修補基本上為將低頻帶頻譜向上複製至高頻帶中。

‧經修補頻譜x_{HF_patched}現與自SBR資料解碼獲得之高頻帶(包絡)的頻譜資訊一起給定至HF調製器。包絡資訊將經霍夫曼(Huffman)解碼，接著經差分解碼且最終經解量化，以便獲得包絡資料(參見圖2)。所獲得包絡資料為涵蓋特定時間量(例如，其全訊框或部分)之比例因數的集合。HF調整器適當地調整經修補高頻帶之能量以便在編碼器側針對每個頻帶k而儘可能好地匹配原始高頻帶能量。方程式1及圖2闡明此：g_sbr[k]=E_Ref[k]/E_EstAvg[l] E_Adj[k]=E_Est[k] x g_sbr[k] (1)

其中E_Ref[k]表示在SBR位元串流中以經編碼形式傳輸之針對一個頻帶k的能量；E_Est[k]表示藉由HF產生器修補之來自一個高頻帶k的能量；E_EstAvg[1]表示經定義為開始頻帶與停止頻帶之間的頻帶範圍的一個比例因數頻帶1內部之平均高頻帶能量：

E_Adj[k]表示藉由HF調整器使用增益_sbr調整之來自一個高頻帶k的能量；g_sbr[k]表示由方程式(1)中所展示之除法產生的一個增益因數。

‧合成QMF濾波器組將經處理QMF樣本xHF_adj解碼為PCM音訊

xpcm_out。

若經重建頻譜缺少雜訊(該雜訊曾經存在於原始高頻帶中但未由HF產生器修補)，則存在針對每一頻帶k添加具有特定雜訊底限Q之某一額外雜訊的可能性。

此外，現有技術水平之SBR允許在每個訊框之特定限值及多個包絡內移動SBR訊框邊界。

在[EBU12，5.6.2.2節]中描述結合CELP/HVXC之SBR解碼。DRM中之CELP/HVXC+SBR解碼器與1.1.1節中所描述之HEAAC中的現有技術水平之SBR解碼緊密相關。基本上，圖1適用。

包絡資訊之解碼適合於類話音信號之頻譜性質，如[EBU12，5.6.2.2.4節]中所描述。

在規則AMR-WB解碼中，高頻帶激勵藉由產生白雜訊u_HB1(n)而獲得。將高頻帶激勵之功率設定為等於低頻帶激勵u₂(n)之功率，此意謂

最後高頻帶激勵藉由下式得到

其中為增益因數。

在23.85kbit/s模式中，自所接收增益索引(旁側資訊)解碼。

在6.60、8.85、12.65、14.25、15.85、18.25、19.85及23.05kbit/s模式中，使用邊界為[0.1,1.0]之語音資訊來估計g_HB。首先，獲得合成之傾斜性e_tilt

其中為高通濾波低頻帶話音合成(n)，其截至頻率為400Hz。接著由下式獲得g_HB g _HB=w _SP．g _SP+(1-w _SP)．g _BG (7)

其中g_SP=1-e_tilt為話音信號之增益，g_BG=1.25 g_SP為背景雜訊信號之增益，且w_SP為加權函數，其在語音活動偵測(VAD)為ON時設定為1且在VAD為OFF時設定為0。g_HB邊界在[0.1,1.0]之間。在較少能量存在於高頻處的有聲區段的狀況下，e_tilt近似為1，從而產生較低增益g_HB。此減少了在有聲區段狀況中所產生雜訊的能量。

接著自經加權低頻帶LP合成濾波器導出高頻帶 LP合成濾波器A_HB(z)：

其中Â(z)為內插LP合成濾波器。Â(z)已藉由用12.8kHz之取樣速率(但其現在用於16kHz信號)來分析信號而計算。此意謂12.8kHz域中之頻帶5.1-5.6kHz將映射至16kHz域中之6.4-7.0kHz。

接著經由A_HB(z)對u_HB(n)進行濾波。此高頻帶合成之輸出s_HB(n)經由帶通FIR濾波器H_HB(z)來濾波，該帶通FIR濾波器H_HB(z)具有自6至7kHz的通帶。最後，將s_HB加至經合成話音以產生經合成輸出話音信號。

在AMR-WB+中，HF信號由輸入信號之(fs/4)以上的頻率分量構成。為了以低速率表示HF信號，使用頻寬擴展(BWE)方法。在BWE中，以頻譜包絡及訊框能量的形式來將能量資訊發送至解碼器，但信號之精細結構根據LF信號中之所接收(經解碼)激勵信號而在解碼器處外插。

可將減少取樣信號之頻譜s_HF看作高頻帶在減少取樣之前的摺疊版本。對s_HF(n)執行LP分析以獲得係數集合，該係數集合將此信號之頻譜包絡模型化。通常，比在LF信號中少的參數為必要的。此處，使用8階濾波器。接著將LP係數變換為ISP表示且進行量化以用於傳輸。

HF信號之合成實施一種頻寬擴展(BWE)機制，且使用來自LF解碼器之某一資料。其為在AMR-WB話音解碼器(參見上文)中使用之BWE機制的演進。圖3中詳細描述HF解碼器。

在以下2步驟中合成HF信號：1. HF激勵之計算；2. 來自HF激勵之HF信號的計算。

HF激勵藉由基於64樣本子訊框而用比例因數(或增益)在時域中塑形LF激勵信號而獲得。此HF激勵經後處理以減少輸出之「嗡嗡聲(buzziness)」，且接著藉由HF線性預測性合成濾波器1/A_HF(z)而濾波。該結果經進一步後處理以使能量變化平滑。請參考[3GP09]來獲得進一步資訊。

SBR中結合AAC之封包遺失隱藏經指定於3GPP TS 26.402[3GP12a，5.2節]中，且隨後在DRM[EBU12，5.6.3.1節]及DAB[EBU10，A2節]中重新使用。

在訊框遺失之狀況下，將每訊框之包絡數目設定為一，且最後有效接收之包絡資料經重新使用且針對每個隱藏訊框而能量降低恆定的比。

接著將所得包絡資料饋送至正常解碼過程中，在該正常解碼過程中HF調製器使用該等包絡資料來計算增益，該等增益用於調整來自HF產生器之經修補高頻帶。剩餘SBR解碼照常發生。

此外，將經寫碼雜訊底限差量值設定為零，其使得差量經解碼雜訊底限保持穩定。在解碼過程之末尾，此意謂雜訊底限之能量跟隨HF信號之能量。

此外，用於加上正弦之旗標經清零。

現有技術水平之SBR隱藏亦處理恢復。其預期自隱藏信號至正確解碼信號的在可由於失配訊框邊界而引起的能量間隙方面的平滑過渡。

結合CELP/HVXC的現有技術水平之SBR隱藏描述於[EBU12，5.6.3.2節]中且在下文簡要概述：每當偵測到破壞之訊框時，將資料值之預定集合應用到SBR解碼器。此得到「在低的相對播放音量處之靜態高頻帶頻譜包絡，從而展現朝向較高頻率之滾降」。[EBU12，5.6.3.2節]。此處，SBR隱藏插入某種舒適雜訊，其在SBR域中沒有專用衰落。此防止收聽者的耳朵免受潛在大聲音突發的影響且保持恆定頻寬之印象。

現有技術水平之G.718之BWE的隱藏描述於[ITU08，7.11.1.7.1]中且在下文簡要概述：在低延遲模式中，其僅僅可用於層1及2，正好以與未發生訊框擦除時的相同方式來執行高頻帶6000-7000Hz之隱藏。針對層1、2及3之乾淨頻道解碼器操作如下：應用盲頻道擴展。範圍6400-7000Hz中之頻譜填滿在激勵域(高頻帶之能量必須匹配低頻帶能量)中適當按比例調整之白雜訊信號。接著與藉由自與在12.8kHz域中使用之相同LP合成濾波器之加權而導出的濾波器合成。對於未執行頻寬擴展之層4及5，此係因為彼等層覆蓋高達8kHz之全頻帶。

在預設操作中，執行低複雜性處理以在16kHz取樣頻率下重建構合成信號之高頻帶。首先，按比例調整之高頻帶激勵u"_HB(n)由於下式而在整個循環中線性衰減

其中訊框長度為320個樣本，且g_att(n)為由下式給定之衰減因數

在以上方程式中，為平均音高增益(pitch gain)。其為與在自適應碼簿之隱藏期間使用的相同增益。接著，頻率範圍6000-7000Hz中之帶通濾波器之記憶體使用如在方程式10中導出之g_att(n)而衰減，以防止任何不連續性。最後，高頻激勵信號u'''(n)經由合成濾波器而濾波。接著將合成信號加至在16kHz取樣頻率下之隱藏合成。

現有技術水平之AMR-WB中之盲頻寬擴展之隱藏在[3GP12b，6.2.4]中概述且在此處簡要總結：當訊框遺失或部分遺失時，未接收到高頻帶增益參數且替代使用高頻帶增益之估計。此意謂在不良/遺失話音訊框之狀況下，高頻帶重建構按針對所有不同模式之相同方式操作。

在訊框遺失之狀況下，高頻帶LP合成濾波器像往常一樣自來自核心頻帶之LPC係數導出。唯一例外在於：LPC係數尚未自位元串流解碼，但是用規則AMR-WB隱藏方法來外插。

現有技術水平之AMR-WB+中之頻寬擴展之隱藏在[3GP09，6.2]中概述且在此處簡要總結：在封包遺失之狀況下，在HF解碼器內部之控制資料自不良訊框指示符向量BFI=(bfi0,bfi1,bfi2,bfi3)而產生。此等資料為、BFI_GAIN及ISF內插之子訊框的數目。在下文更詳細定義此等資料之性質：為指示ISF參數之遺失的二進位旗標。由於HF信號之ISF參數總是在為HF20、40或80中任一者的第一封包(含有第一子訊框)中傳輸，所以總是將遺失旗標設定為第一子訊框之bfi指示符(bfi0)。此同樣針對遺失HF增益之指示而成立。若當前模式之第一封包/子訊框遺失(HF20、40或80)，則增益遺失且需要被隱藏。

HF ISF向量之隱藏非常類似於核心ISF之ISF隱藏。主要思想為重新使用最後良好之ISF向量，但將其移位朝向平均ISF向量(其中該平均ISF向量經離線訓練)：isf _q[i]=0.9．isf _q[i]+0.1．mean_isf_hf[i] (11)

BWE增益(、...、)根據以下原始程式碼來估計(在該程式碼中：gain_q[i]；2.807458為解碼器常數)。

為了導出「用以匹配fs/4下之量值的增益」，執行與在乾淨頻道解碼中相同的演算法，但不同之處在於用於HF及/或LF部分之ISF可能已經隱藏。所有以下步驟如linear！dB內插、求和及增益應用與乾淨頻道狀況中相同。

為了導出激勵，應用與正確接收之訊框中相同的程序，其中在以下步驟之後使用較低頻帶激勵：

‧其經隨機化

‧其在時域中藉由子訊框增益而放大

‧其在頻域中藉由LP濾波器而塑形

‧能量隨著時間而平滑

接著根據圖3來執行合成。

AES會議論文6789：Schneider、Krauss及Ehret[SKE06]描述重新使用最後有效之SBR包絡資料的隱藏技術。若一個以上SBR訊框遺失，則應用淡出。「基本原理為僅鎖定最後已知有效SBR包絡值，直至SBR處理可藉由新近傳輸之資料繼續為止。另外，若一個以上SBR訊框不可解碼，則執行淡出。」

AES會議論文6962：Sang-Uk Ryu及Kenneth Rose[RR06]描述利用來自前一及下一訊框之SBR資料來估計參數資訊的隱藏技術。根據周圍訊框中之能量演變來自適應地估計高頻帶包絡。

封包遺失隱藏概念可在封包遺失期間產生感知降級之音訊信號。

發明概要

本發明之目標為提供音訊解碼器及具有改良之封包遺失隱藏概念的方法。

此目標可藉由經組配以自含有音訊訊框之位元串流產生音訊信號的音訊解碼器來達成，該音訊解碼器包含：核心頻帶解碼模組，其經組配以自位元串流導出直接解碼之核心頻帶音訊信號；頻寬擴展模組，其經組配以自核心頻帶音訊信號及自位元串流導出參數式解碼之頻寬擴展音訊信號，其中該頻寬擴展音訊信號係基於具有至少一頻帶之頻域信號；以及組合器，其經組配以組合核心頻帶音訊信號與頻寬擴展音訊信號以便產生音訊信號；其中該頻寬擴展模組包含能量調整模組，該能量調整模組經組配成使得在發生音訊訊框遺失之當前音訊訊框中，基於以下各者來設定至少一頻帶之當前音訊訊框的經調整信號能量

基於當前音訊訊框之當前增益因數，其中該當前增益因數係自來自前一音訊訊框或來自位元串流之增益因數導出，以及基於至少一頻帶之估計信號能量，其中該估計信號能量係自核心頻帶音訊信號之當前音訊訊框之頻譜導出。

根據本發明之音訊解碼器在能量方面將頻寬擴展模組鏈接至核心頻帶解碼模組，或換言之確保頻寬擴展模組在隱藏期間在能量方面(energy-wise)跟隨核心頻帶解碼模組而不管哪一核心頻帶解碼模組在操作。

此方法之創新在於：在隱藏狀況下，高頻帶產生再也不嚴格適合於包絡能量。藉由增益鎖定之技術，高頻帶能量在隱藏期間適合於低頻帶能量，且因此不再僅依賴於最後良好訊框中之所傳輸資料。此行動採用使用低頻帶資訊用於高頻帶重新建構的想法。

藉由此方法，沒有額外資料(例如，淡出因數)需要自核心寫碼器傳送至頻寬擴展寫碼器。此使得該技術容易適用於具有頻寬擴展之任何寫碼器(尤其適用於SBR)，在該寫碼器中已固有地執行增益計算(方程式1)。

本發明之音訊解碼器之隱藏顧及核心頻帶解碼模組之衰落斜率。此整體導致淡出之預期行為：避免了以下情形：其中核心頻帶解碼模組之頻帶之能量相比頻寬擴展模組之頻帶之能量淡出地較慢，其將變得可感知且引起有限頻帶信號之不可愛印象。

此外，亦避免了以下情形：其中核心頻帶解碼模組之頻帶中能量相比頻寬擴展模組之頻帶之能量淡出地較快，其將由於頻寬擴展模組之頻帶與核心頻帶解碼模組之頻帶相比放大地太多而引入假影。

與具有有預界定能量位準之頻寬擴展之非衰落解碼器(例如，CELP/HVXC+SBR解碼器)(其僅保留特定信號類型之頻譜傾斜性)相比，本發明之音訊解碼器與信號之頻譜特性獨立地工作，使得避免音訊信號之感知解碼之降級。

所提出技術可供除了核心頻帶解碼模組(下文中之核心寫碼器)之外的任何頻寬擴展(BWE)方法使用。大多數頻寬擴展技術係基於原始能量位準與在複製核心頻譜之後的能量位準之間的每頻帶增益。所提出技術並不像現有技術水平一樣對前一音訊訊框之能量起作用，而是對前一音訊訊框之增益起作用。

當音訊訊框遺失或不可讀取(或者換言之，若發生音訊訊框遺失)時，來自最後良好訊框之增益饋送至核心頻帶解碼模組之正常解碼過程，其調整頻寬擴展模組之頻帶之能量(參考方程式1)。此形成隱藏。藉由核心頻帶解碼模組隱藏而應用至核心頻帶解碼模組上的任何淡出將藉由鎖定低頻帶與高頻帶之間的能量比率而自動應用至頻寬擴展模組之頻帶之能量。

具有至少一頻帶之頻域信號可為(例如)代數碼激勵線性預測激勵信號(ACELP激勵信號)。

在一些實施例中，頻寬擴展模組包含增益因數提供模組，其經組配以將至少在發生音訊訊框遺失之當前音訊訊框中之當前增益因數轉遞至能量調整模組。

在較佳實施例中，增益因數提供模組經組配成使得在發生音訊訊框遺失之當前音訊訊框中，當前增益因數為前一音訊訊框之增益因數。

此實施例藉由僅鎖定針對最後良好訊框中之最後包絡而導出之增益來完全停止頻寬擴展解碼模組中所含的淡出：

其中，E_Adj[k]表示來自頻寬擴展模組之一個頻帶k之能量，經調整以儘可能好地表達原始能量分佈；[k]、g_bwe[k]表示當前訊框之增益因數；以及[k]表示前一訊框之增益因數。

在另一較佳實施例中，增益因數提供模組經組配成使得在發生訊框遺失之當前音訊訊框中，自前一音訊訊框之增益因數以及自前一音訊訊框之信號類別來計算當前增益因數。

此實施例使用信號分類器開基於過去增益以及亦基於先前接收訊框之信號類別來計算增益：

其中f(，)表示取決於前一音訊訊框之增益因數及前一音訊訊框之信號類別的函數。信號類別可指話音聲之類別，諸如：阻塞音(具有子類別：塞音、塞擦音、擦音)、響音(此子類別：鼻音、閃音、近音、元音)、邊音、顫音。

在較佳實施例中，增益因數提供模組經組配以計算發生音訊訊框遺失之後續音訊訊框的數目，且經組配以在發生音訊訊框遺失之後續音訊訊框之數目超過預界定數目的狀況下執行增益因數降低程序。

若擦音直接在叢發訊框遺失(後續音訊訊框中之多個訊框遺失)之前發生，則核心頻帶解碼模組之固有預設淡出可能太慢而不能結合增益鎖定來確保令人愉快且自然的聲音。此問題之感知結果可為延長擦音，其在頻寬擴展模組之頻帶中具有太多能量。為此原因，可執行多個訊框遺失之檢查。若此檢查為肯定的，則可執行增益因數降低程序。

在較佳實施例中，增益因數降低程序包含在當前增益因數超過第一臨限值的狀況下藉由將當前增益因數除以第一數字而降低當前增益因數的步驟。藉由此等特徵，超過第一臨限值(其可根據經驗來判定)之增益得以降低。

在較佳實施例中，增益因數降低程序包含在當前增益因數超過大於第一臨限值之第二臨限值的狀況下藉由將當前增益因數除以大於第一數字之第二數字而降低當前增益因數的步驟。此等特徵確保極高的增益降低地甚至更快。所有超過第二臨限值之增益將降低地較快。

在一些實施例中，增益因數降低程序包含在降低之後的當前臨限值低於第一臨限值的狀況下將當前增益因數設定為第一臨限值的步驟。藉由此等特徵，防止所降低增益降至第一臨限值以下。

可在偽碼1內看見實例：

其中previousFrameErrorFlag為旗標，其指示是否存在多個訊框遺失，BWE_GAINDEC表示第一臨限值，50* BWE_GAINDEC表示第二臨限值，且gain[k]表示頻帶k之當前增益因數。

在一些實施例中，頻寬擴展模組包含雜訊產生器模組，其經組配以將雜訊加至至少一頻帶，其中在發生音訊訊框遺失之當前音訊訊框中，使用信號能量對前一音訊訊框之至少一頻帶之雜訊能量的比率來計算當前音訊訊框之雜訊能量。

在存在實施於頻寬擴展中之雜訊底限特徵(亦即，用以保留原始信號之噪度之額外雜訊分量)的狀況下，有必要採用亦朝向雜訊底限之增益鎖定的想法。為達成此，可藉由慮及頻寬擴展模組之頻帶之能量而將非隱藏訊框之雜訊底限能量位準轉換為雜訊比率。該比率經儲存至緩衝器且將為隱藏狀況中雜訊位準之基數。主要優點在於歸因於比率prev_noise[k]之計算而較佳地將雜訊底限耦合至核心寫碼器能量。

偽碼2展示此：

其中frameErrorFlag為指示是否存在訊框遺失之旗標，且prev_noise[k]為頻帶k之能量nrgHighband[k]與頻帶k之雜訊位準noiseLevel[k]之間的比率。

在較佳實施例中，音訊解碼器包含頻譜分析模組，其經組配以建立核心頻帶音訊信號之當前音訊訊框之頻譜且自該核心頻帶音訊信號之當前音訊訊框之頻譜導出至少一頻帶之當前訊框的估計信號能量。

在一些實施例中，增益因數提供模組經組配成使得在未發生音訊訊框遺失之當前音訊訊框隨後緊跟著發生音訊訊框遺失之前一音訊訊框的狀況下，若頻寬擴展模組之音訊訊框相對於核心頻帶解碼模組之音訊訊框之間的延遲小於延遲臨限值，則針對當前音訊訊框接收之增益因數用於當前訊框，而若頻寬擴展模組之音訊訊框相對於核心頻帶解碼模組之音訊訊框之間的延遲大於延遲臨限值，則來自前一音訊訊框之增益因數用於當前訊框。

除了隱藏之外，在頻寬擴展模組中，需要特殊關注成框。頻寬擴展模組之音訊訊框與核心頻帶解碼模組之音訊訊框常常未準確對準但可具有特定延遲。因此可能發生以下情況：一個遺失封包含有相對於同一封包中所含之核心信號延遲的頻寬擴展資料。

此狀況中之結果為：遺失之後的第一良好封包可含有擴展資料以創建前一核心頻帶解碼模組音訊訊框之頻寬擴展模組之頻帶的已在解碼器中隱藏的部分。

為此，需要在恢復期間取決於核心及解碼模組及頻寬擴展模組之各別性質來考慮成框。此可意謂：將頻寬擴展模組中第一音訊訊框或其部分視為錯誤的，且不立刻應用最新增益而是保持來自第一音訊訊框之鎖定增益持續一個額外訊框。

是否將鎖定增益保持第一良好訊框取決於該延遲。對具有不同延遲之編碼解碼器之實驗應用展示針對具有不同延遲之編碼解碼器的不同益處。對於具有相當小延遲(例如，1ms)之編碼解碼器，較佳使用針對第一良好音訊訊框之最新增益。

在較佳實施例中，頻寬擴展模組包含信號產生器模組，其經組配以基於核心頻帶音訊信號及位元串流而創建具有至少一頻帶之原始頻域信號，該原始頻域信號經轉遞至能量調整模組。

在較佳實施例中，頻寬擴展模組包含信號合成模組，其經組配以自頻域信號產生頻寬擴展音訊信號。

本發明之目標可藉由用於自含有音訊信號之位元串流產生音訊信號的方法來達成。該方法包含以下步驟：自位元串流導出直接解碼之核心頻帶音訊信號；自核心頻帶音訊信號及自位元串流導出參數式解碼之頻寬擴展音訊信號，其中該頻寬擴展音訊信號係基於具有至少一頻帶之頻域信號；以及組合核心頻帶音訊信號與頻寬擴展音訊信號以便產生音訊信號；其中在發生音訊訊框遺失之當前音訊訊框中，基於以下各者來設定至少一頻帶之當前音訊訊框的經調整信號能量

本發明之目標可進一步藉由電腦程式而達成，該電腦程式在執行於電腦或處理器上時用於執行上述方法。

1‧‧‧音訊解碼器

2‧‧‧核心頻帶解碼模組

3‧‧‧頻寬擴展模組

4‧‧‧組合器

5‧‧‧能量調整模組

6‧‧‧增益因數提供模組

7‧‧‧雜訊產生器模組

8‧‧‧頻譜分析模組

9‧‧‧信號產生器模組

10‧‧‧信號合成模組

AS‧‧‧音訊信號

BS‧‧‧位元串流

AF‧‧‧音訊訊框

CBS‧‧‧核心頻帶音訊信號

BES‧‧‧頻寬擴展音訊信號

FDS‧‧‧頻域信號

FB‧‧‧頻帶

AFL‧‧‧音訊訊框遺失

CGF‧‧‧當前增益因數

EE‧‧‧估計信號能量

NOI‧‧‧雜訊

DEL‧‧‧延遲

RFS‧‧‧原始頻域信號

隨後關於附圖來論述本發明之較佳實施例，其中：圖1說明包含分析及合成濾波器組、SBR資料解碼、HF產生器及HF調製器之SBR解碼器的現有技術水平；圖2繪示一SBR解碼器，其中SBR信號的產生及調整來自編碼包絡資訊及核心編碼器信號；圖3繪示在現有技術水平之AMR-WB+解碼器中頻寬擴展；圖4在示意圖中說明根據本發明之音訊解碼器之實施例；以及圖5說明根據本發明之音訊解碼器之實施例的成框。

較佳實施例之詳細說明

圖4在示意圖中說明根據本發明之音訊解碼器1之實施例。音訊解碼器1經組配以自含有音訊訊框AF之位元串流BS產生音訊信號AS。音訊解碼器1包含：核心頻帶解碼模組，其經組配以自位元串流BS導出直接解碼之核心頻帶音訊信號CBS；頻寬擴展模組2，其經組配以自核心頻帶音訊信號及自位元串流BS導出參數式解碼之頻寬擴展音訊信號BES，其中該頻寬擴展音訊信號BES係基於具有至少一頻帶FB之頻域信號FDS；以及組合器4，其經組配以組合核心頻帶音訊信號CBS與頻寬擴展音訊信號BES以便產生音訊信號AS；其中該頻寬擴展模組3包含能量調整模組5，該能量調整模組5經組配成使得在發生音訊訊框遺失AFL之當前音訊訊框AF2中，基於以下各者來設定至少一頻帶FB之當前音訊訊框AF2的經調整信號能量基於當前音訊訊框AF2之當前增益因數CGF，其中該當前增益因數CGF係自來自前一音訊訊框AF1或來自位元串流BS之增益因數導出，以及基於至少一頻帶FB之估計信號能量EE，其中該估計信號能量EE自核心頻帶音訊信號CBS之當前音訊訊框AF2之頻譜導出。

根據本發明之音訊解碼器1在能量方面將頻寬擴展模組3鏈接至核心頻帶解碼模組，或換言之確保頻寬擴展模組3在隱藏期間在能量方面跟隨核心頻帶解碼模組2而不管哪一核心頻帶解碼模組2在操作。

此方法之創新在於：在隱藏狀況下，高頻帶產生再也不嚴格適合於包絡能量。藉由增益鎖定之技術，高頻帶能量在隱藏期間適合於低頻帶能量，且因此不再僅依賴於最後良好訊框AF1中之所傳輸資料。此行動採用使用低頻帶資訊用於高頻帶重新建構的想法。

藉由此方法，沒有額外資料(例如，淡出因數)需要自核心寫碼器2傳送至頻寬擴展寫碼器3。此使得該技術容易適用於具有頻寬擴展3之任何寫碼器1(尤其適用於SBR)，在該寫碼器中已固有地執行增益計算(方程式1)。

本發明之音訊解碼器1之隱藏顧及核心頻帶解碼模組2之衰落斜率。此整體導致淡出之預期行為：避免了以下情形：其中核心頻帶解碼模組2之頻帶FB之能量相比頻寬擴展模組3之頻帶FB之能量淡出地較慢，其將變得可感知且引起有限頻帶信號之不可愛印象。

此外，亦避免了以下情形：其中核心頻帶解碼模組2之頻帶FB中能量相比頻寬擴展模組3之頻帶FB之能量淡出地較快，其將由於頻寬擴展模組3之頻帶FB與核心頻帶解碼模組2之頻帶FB相比放大地太多而引入假影。

與具有有預界定能量位準之頻寬擴展之非衰落解碼器(例如，CELP/HVXC+SBR解碼器)(其僅保留特定信號類型之頻譜傾斜性)相比，本發明之音訊解碼器1與信號之頻譜特性獨立地工作，使得避免音訊信號AS之感知解碼之降級。

所提出技術可供除了核心頻帶解碼模組2(下文中之核心寫碼器)之外的任何頻寬擴展(BWE)方法使用。大多數頻寬擴展技術係基於原始能量位準與在複製核心頻譜之後的能量位準之間的每頻帶增益。所提出技術並不像現有技術水平一樣對前一音訊訊框之能量起作用，而是對前一音訊訊框AF1之增益起作用。

當音訊訊框AF2遺失或不可讀取(或者換言之，若發生音訊訊框遺失AFL)時，來自最後良好訊框之增益饋送至核心頻帶解碼模組2之正常解碼過程，其調整頻寬擴展模組3之頻帶FB之能量(參考方程式1)。此形成隱藏。藉由核心頻帶解碼模組隱藏而應用至核心頻帶解碼模組2上的任何淡出將藉由鎖定低頻帶與高頻帶之間的能量比率而自動應用至頻寬擴展模組3之頻帶FB之能量。

在一些實施例中，頻寬擴展模組3包含增益因數提供模組6，其經組配以將至少在發生音訊訊框遺失AFL之當前音訊訊框AF2中之當前增益因數CGF轉遞至能量調整模組5。

在較佳實施例中，增益因數提供模組6經組配成使得在發生音訊訊框遺失AFL之當前音訊訊框AF2中，當前增益因數CGF為前一音訊訊框AF1之增益因數。

此實施例藉由僅鎖定針對最後良好訊框中之最後包絡而導出之增益來完全停止頻寬擴展解碼模組3中所含的淡出。

在另一較佳實施例中，增益因數提供模組6經組配成使得在發生訊框遺失AFL之當前音訊訊框AF2中，自前一音訊訊框之增益因數以及自前一音訊訊框之信號類別來計算當前增益因數CGS。

此實施例使用信號分類器開基於過去增益以及亦基於先前接收訊框AF1之信號類別來計算增益GCS。信號類別可指話音聲之類別，諸如：阻塞音(具有子類別：塞音、塞擦音、擦音)、響音(此子類別：鼻音、閃音、近音、元音)、邊音、顫音。

在較佳實施例中，增益因數提供模組6經組配以計算發生音訊訊框遺失AFL之後續音訊訊框的數目，且經組配以在發生音訊訊框遺失AFL之後續音訊訊框之數目超過預界定數目的狀況下執行增益因數降低程序。

若擦音直接在叢發訊框遺失(後續音訊訊框AF 中之多個訊框遺失AFL)之前發生，則核心頻帶解碼模組2之固有預設淡出可能太慢而不能結合增益鎖定來確保令人愉快且自然的聲音。此問題之感知結果可為延長擦音，其在頻寬擴展模組3之頻帶FB中具有太多能量。為此原因，可執行多個訊框遺失AFL之檢查。若此檢查為肯定的，則可執行增益因數降低程序。

在一些實施例中，頻寬擴展模組3包含雜訊產生器模組7，其經組配以將雜訊NOI加至至少一頻帶FB，其中在發生音訊訊框遺失AFL之當前音訊訊框AF2中，使用信號能量對前一音訊訊框AF1之至少一頻帶FB之雜訊能量的比率來計算當前音訊訊框AF2之雜訊能量。

在存在實施於頻寬擴展3中之雜訊底限特徵(亦即，用以保留原始信號之噪度之額外雜訊分量)的狀況下，有必要採用亦朝向雜訊底限之增益鎖定的想法。為達成此，可藉由慮及頻寬擴展模組之頻帶之能量而將非隱藏訊框之雜訊底限能量位準轉換為雜訊比率。該比率經儲存至緩衝器且將為隱藏狀況中雜訊位準之基數。主要優點在於歸因於比率之計算而較佳地將雜訊底限耦合至核心寫碼器能量。

在較佳實施例中，音訊解碼器1包含頻譜分析模組8，其經組配以建立核心頻帶音訊信號CBS之當前音訊訊框AF2之頻譜且自該核心頻帶音訊信號CBS之當前音訊訊框AF2之頻譜導出至少一頻帶FB之當前訊框AF2的估計信號能量EE。

在較佳實施例中，頻寬擴展模組3包含信號產生器模組9，其經組配以基於核心頻帶音訊信號CBS及位元串流BS而創建具有至少一頻帶FB之原始頻域信號RFS，該原始頻域信號經轉遞至能量調整模組5。

在較佳實施例中，頻寬擴展模組3包含信號合成模組10，其經組配以自頻域信號FDS產生頻寬擴展音訊信號BES。

圖5說明根據本發明之音訊解碼器1之實施例的成框。

在一些實施例中，增益因數提供模組6經組配成使得在未發生音訊訊框遺失AFL之當前音訊訊框AF2隨後緊跟著發生音訊訊框遺失AFL之前一音訊訊框AF1的狀況下，若頻寬擴展模組3之音訊訊框AF相對於核心頻帶解碼模組2之音訊訊框AF'之間的延遲DEL小於延遲臨限值，則針對當前音訊訊框AF2接收之增益因數用於當前訊框AF2，而若頻寬擴展模組3之音訊訊框AF相對於核心頻帶解碼模組3之音訊訊框AF'之間的延遲DEL大於延遲臨限值，則來自前一音訊訊框AF1之增益因數用於當前訊框AF2。

除了隱藏之外，在頻寬擴展模組3中，需要特殊關注成框。頻寬擴展模組之音訊訊框AF與核心頻帶解碼模組3之音訊訊框AF'常常未準確對準但可具有特定延遲DEL。因此可能發生以下情況：一個遺失封包含有相對於同一封包中所含之核心信號延遲的頻寬擴展資料。

此狀況中之結果為：遺失之後的第一良好封包可含有擴展資料以創建前一核心頻帶解碼模組音訊訊框AF'之頻寬擴展模組3之頻帶FB的已在解碼器2中隱藏的部分。

為此，需要在恢復期間取決於核心解碼模組及頻寬擴展模組之各別性質來考慮成框。此可意謂：將頻寬擴展模組3中第一音訊訊框或其部分視為錯誤的，且不立刻應用最新增益因數而是保持來自第一音訊訊框之鎖定增益持續一個額外訊框。

是否將鎖定增益保持第一良好訊框取決於該延遲。對具有不同延遲之編碼解碼器之實驗應用展示針對具有不同延遲之編碼解碼器的不同益處。對於具有相當小延遲(例如，1ms)之編碼解碼器，較佳使用針對第一良好音訊訊框之最新增益因數。

儘管一些態樣已在裝置之上下文中進行描述，但明顯地，此等態樣亦表示對應方法之描述，其中一區塊或器件對應於一方法步驟或方法步驟之特徵。類似地，在方法步驟之上下文中描述之態樣亦表示對應區塊之描述或對應裝置之項目或特徵。該等方法步驟中之一些或全部可藉由(或使用)硬體裝置來執行，例如微處理器、可規劃電腦或電子電路。在一些實施例中，可藉由此類裝置來執行最重要方法步驟中之某一者或多者。

取決於特定實施需求，本發明之實施例可以硬體或以軟體來實施。可使用其上儲存有電子可讀控制信號之例如數位儲存媒體之非暫時性儲存媒體來執行實施，例如軟碟、DVD、藍光、CD、ROM、PROM、及EPROM、EEPROM或FLASH記憶體，該等媒體與一可規劃電腦系統合作(或能夠合作)而使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含一具有電子可讀控制信號之資料載體，該等電子可讀控制信號能夠與可規劃電腦系統合作，使得本文描述之方法之一得以執行。

大體而言，本發明之實施例可經實施為具有程式碼之電腦程式產品，該程式碼係操作的以用於當電腦程式產品執行於電腦上時執行該等方法之一。程式碼可例如儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上之電腦程式，其用於執行本文所描述方法之一。

換言之，本發明方法之一實施例因此為一電腦程式，其具有在電腦程式執行於電腦上時用於執行本文所描述方法之一的程式碼。

本發明方法之另一實施例因此為一資料載體(或數位儲存媒體，或電腦可讀媒體)，其包含(在其上記錄)用於執行本文描述之方法之一的電腦程式。資料載體、數位儲存媒體或所記錄媒體通常為有形的及/或非過渡性的。

本發明方法之另一實施例因此為一資料串流或信號序列，其表示用於執行本文描述之方法之一的電腦程式。資料串流或信號序列可例如經組配以經由資料通信連接來傳送，例如經由網際網路。

另一實施例包含一處理構件，例如電腦或可規劃邏輯器件，其經組配以或經調適以執行本文描述之方法之一。

另一實施例包含一電腦，其上安裝用於執行本文描述之方法之一的電腦程式。

根據本發明之另一實施例包含一裝置或一系統，其經組配以將用於執行本文所描述之方法之一的電腦程式傳送(例如，電子地或光學地)至接收器。舉例而言，接收器可為電腦、行動器件、記憶體器件或類似物。該裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯器件(例如，場可規劃閘陣列)可用以執行本文描述方法之功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作以便執行本文所描述方法之一。大體而言，該等方法較佳由任何硬體裝置來執行。

上述實施例僅說明本發明之原理。應理解，熟習此項技術者將顯而易見本文所描述之配置及細節的修改及變化。因此，本發明意欲僅由即將到來的專利申請專利範圍之範疇限制，而非由藉由本文實施例之描述及解釋所呈現之具體細節來限制。

參考文獻：

[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.

[3GP12a] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.

[3GP12b] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012.

[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102 563, European Broadcasting Union, May 2010.

[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.

[ISO09] ISO/IEC JTC1/SC29/WG11, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.

[ITU08] ITU-T, G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.

[RR06] Sang-Uk Ryu and Kenneth Rose, Frame loss concealment for audio decoders employing spectral band replication, Convention Paper 6962, Electrical and Computer Engineering, University of California, Oct 2006, AES.

[SKE06] Andreas Schneider, Kurt Krauss, and Andreas Ehret, Evaluation of real-time transport protocol configurations using aacplus, Convention paper 6789, AES, May 2006, Presented at the 120th Convention 2006 May 20-23.