TWI536368B

TWI536368B - 用於似編碼激發線性預測編碼器之無旁側資訊的雜訊填充技術

Info

Publication number: TWI536368B
Application number: TW103103527A
Authority: TW
Inventors: 古拉米福契斯; 克里斯汀赫姆瑞區; 曼紐貞德; 班傑明休伯特; 橫谷義一
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-01-29
Filing date: 2014-01-29
Publication date: 2016-06-01
Also published as: HK1218181A1; EP3121813A1; MX347080B; WO2014118192A3; PT3121813T; CA2960854C; PL3121813T3; PT2951816T; EP3121813B1; EP2951816B1; SG10201806073WA; CN110827841A; AU2014211486A1; TR201908919T4; TW201443880A; CN117392990A; BR112015018020B1; CA2899542C; MX2015009750A; JP2016504635A

Description

用於似編碼激發線性預測編碼器之無旁側資訊的雜訊填充技術

發明領域

本發明之實施例係關於：一種用以基於包含線性預測係數(LPC)的已編碼音訊資訊來提供已解碼音訊資訊之音訊解碼器；一種用以基於包含線性預測係數(LPC)的已編碼音訊資訊來提供已解碼音訊資訊之方法；一種用以執行此方法之電腦程式，其中該電腦程式在一電腦上運行；以及一種音訊信號或儲存有此音訊信號之儲存媒體，該音訊信號已經用此方法加以處理。

發明背景

當位元速率降低至每個樣本約0.5至1個位元以下時，基於編碼激發線性預測(CELP)編碼原理的低位元速率數位語音編碼器通常會遭受信號稀疏假影，從而引起略為人工的金屬聲。尤其當輸入語音中具有背景中的環境雜訊時，低速率假影明顯可聽見：背景雜訊在作用中語音區段期間將會衰減。本發明描述用於諸如AMR-WB[1]及G.718[4,7]之(A)CELP編碼器之雜訊插入方案，該方案與在諸如xHE-AAC[5,6]之基於變換的編碼器中所使用的雜訊填充技術類似，將隨機雜訊產生器之輸出添加至已解碼語音信號來重新建構背景雜訊。

國際公開案WO 2012/110476 A1展示出一種基於線性預測且使用頻譜域雜訊整形的編碼技術。對音訊輸入信號之頻譜分解(分解成包含一連串頻譜之頻譜圖)被用於以下兩者：線性預測係數計算，以及用於基於線性預測係數的頻域整形之輸入。根據引用的文獻，音訊編碼器包含線性預測分析器，其用以分析輸入音訊信號以便由此導出線性預測係數。音訊編碼器之頻域整形器經組配來基於藉由線性預測分析器提供的線性預測係數在頻譜上整形該頻譜圖之該等一連串頻譜之當前頻譜。將已量化且已在頻譜上整形的頻譜連同在頻譜整形時使用的線性預測係數一起插入至資料串流中，以使得在解碼側可執行去除整形(de-shaping)及去除量化(de-quantization)。亦可存在用以執行時間雜訊整形之時間雜訊整形模組。

鑒於先前技術，仍然需要一種改良式音訊解碼器、一種改良式方法、一種用以執行此方法的改良式電腦程式，以及一種改良式音訊信號或儲存有此音訊信號之儲存媒體，該音訊信號已經用此方法加以處理。更具體而言，需要找到改良在已編碼位元串流中傳遞的音訊資訊之聲音品質的解決方案。

發明概要

在申請專利中及本發明之實施例之詳細描述中的參考符號僅僅為了改良可讀性而添加且絕不意味著有限制性。

本發明之目標係藉由一種用以基於一包含線性預測係數(LPC)的已編碼音訊資訊來提供一已解碼音訊資訊之音訊解碼器來解決，該音訊解碼器包含：一傾斜調整器，其經組配來使用一當前訊框之線性預測係數獲得一傾斜資訊，來調整一雜訊之傾斜；以及一雜訊插入器，其經組配來取決於藉由傾斜計算器獲得的該傾斜資訊來將該雜訊添加至該當前訊框。另外，本發明之目標係藉由一種用以基於一包含線性預測係數(LPC)的已編碼音訊資訊來提供一已解碼音訊資訊之方法來解決，該方法包含：使用一當前訊框之線性預測係數獲得一傾斜資訊，來調整一雜訊之傾斜；以及取決於所獲得的傾斜資訊來將該雜訊添加至該當前訊框。

作為本發明之第二種解決方案，本發明建議一種用以基於一包含線性預測係數(LPC)的已編碼音訊資訊來提供一已解碼音訊資訊之音訊解碼器，該音訊解碼器包含：一雜訊位準估計器，其經組配來使用至少一個先前訊框之一線性預測係數來估計一當前訊框之一雜訊位準，以便獲得一雜訊位準資訊；以及一雜訊插入器，其經組配來取決於藉由該雜訊位準估計器提供的該雜訊位準資訊來將一雜訊添加至該當前訊框。此外，本發明之目標係藉由一種用以基於一包含線性預測係數(LPC)的已編碼音訊資訊來提供一已解碼音訊資訊之方法來解決，該方法包含：使用至少一個先前訊框之一線性預測係數來估計一當前訊框之一雜訊位準，以便獲得一雜訊位準資訊；以及取決於藉由該雜訊位準估計提供的該雜訊位準資訊來將一雜訊添加至該當前訊框。另外，本發明之目標係藉由以下兩者來解決：一種用以執行此方法之電腦程式，其中該電腦程式在一電腦上運行；以及一種音訊信號或儲存有此音訊信號之儲存媒體，該音訊信號已經用此方法加以處理。

所建議的解決方案避免了必須在CELP位元串流中提供旁側資訊以便調整在雜訊填充過程期間在解碼器側所提供的雜訊。此意味著，可減小將要用位元串流輸送之資料的量，而可僅僅基於當前或先前已解碼之訊框之線性預測係數來增加所插入雜訊之品質。換言之，可省略關於雜訊之旁側資訊，該旁側資訊將會增加將要用位元串流傳遞之資料的量。本發明允許提供低位元速率數位編碼器及方法，其與先前技術的解決方案相比而言可佔用關於位元串流之較少的頻寬並且提供背景雜訊之改良的品質。

較佳的是，音訊解碼器包含一用以判定當前訊框之訊框類型的訊框類型判定器，該訊框類型判定器經組配來在偵測到當前訊框之訊框類型為語音類型時，啟動傾斜調整器來調整雜訊之傾斜。在一些實施例中，訊框類型判定器經組配來在訊框經ACELP或CELP編碼時，將該訊框辨識為語音類型訊框。根據當前訊框之傾斜來對雜訊加以整形可提供更自然的背景雜訊且可減少音訊壓縮對於編碼於位元串流中的所要信號之背景雜訊之不良效應。因為彼等不良的壓縮效應及假影對於語音資訊之背景雜訊常常變得顯著，所以有利之舉可為：藉由在將雜訊添加至當前訊框之前調整雜訊之傾斜，來增強將要添加至此類語音類型訊框之雜訊之品質。因此，雜訊插入器可經組配來僅在當前訊框為語音訊框的情況下將雜訊添加至當前訊框，因為其在藉由雜訊填充來處理僅語音訊框的情況下可減少解碼器側的工作負載。

在本發明之一較佳實施例中，傾斜調整器經組配來使用對當前訊框之線性預測係數之一階分析(first-order analysis)的結果來獲得傾斜資訊。藉由使用對線性預測係數此一階分析，省略位元串流中的用以表徵雜訊之旁側資訊成為可能。此外，對將要添加之雜訊的調整可基於當前訊框之線性預測係數，該等線性預測係數必須用位元串流以任何方式加以傳遞來允許對當前訊框之音訊資訊的解碼。此意味著在調整雜訊之傾斜的過程中有利地再使用當前訊框之線性預測係數。另外，一階分析相當簡單，因此音訊解碼器之計算複雜性不會顯著增加。

在本發明之一些實施例中，傾斜調整器經組配來使用對當前訊框之線性預測係數之增益g的計算作為該一階分析來獲得傾斜資訊。更佳地，藉由公式g=Σ[a_k．a_k+1]/Σ[a_k．a_k]給出增益g，其中a_k為當前訊框之LPC係數。在一些實施例中，在該計算中使用兩個或兩個以上LPC係數a_k。較佳地，使用總共16個LPC係數，因此k=0....15。在本發明之實施例中，位元串流可編碼有多於或少於16個LPC係數。因為當前訊框之線性預測係數已經存在於位元串流中，所以可在不利用旁側資訊的情況下獲得傾斜資訊，從而減小將要在位元串流中傳遞之資料的量。可僅僅藉由使用對已編碼音訊資訊加以解碼所必需的線性預測係數來調整將要添加之雜訊。

較佳地，傾斜調整器可經組配來使用對用於當前訊框的直接形式濾波器x(n)-g．x(n-1)之傳遞函數的計算來獲得傾斜資訊。此種類型之計算相當容易且不需要解碼器側的高計算能力。如上文所展示，可易於根據當前訊框之LPC係數計算出增益g。此允許在僅僅使用對已編碼音訊資訊加以解碼所必需的位元串流資料的同時改良低位元速率數位編碼器之雜訊品質。

在本發明之一較佳實施例中，雜訊插入器經組配來在將雜訊添加至當前訊框之前，將當前訊框之傾斜資訊應用於雜訊以便調整雜訊之傾斜。若雜訊插入器經相應地組配，則可提供簡化的音訊解碼器。藉由首先應用傾斜資訊且隨後將已調整的雜訊添加至當前訊框，可提供音訊解碼器之簡單且有效的方法。

在本發明之一實施例中，音訊解碼器另外包含：一雜訊位準估計器，其經組配來使用至少一個先前訊框之一線性預測係數來估計一當前訊框之一雜訊位準，以便獲得一雜訊位準資訊；以及一雜訊插入器，其經組配來取決於藉由該雜訊位準估計器提供的該雜訊位準資訊來將一雜訊添加至該當前訊框。藉此，因為可根據可能存在於當前訊框中之雜訊位準來調整將要添加至當前訊框之雜訊，所以可增強背景雜訊之品質且因此增強整個音訊傳輸之品質。例如，若因為根據先前訊框估計了高雜訊位準，所以在當前訊框中預期為高雜訊位準，則雜訊插入器可經組配來在將雜訊添加至當前訊框之前增加將要添加至當前訊框之雜訊之位準。因此，將要添加之雜訊可被調整成與當前訊框中之預期雜訊位準相比而言太安靜或太大聲。此調整同樣並非基於位元串流中之專用旁側資訊，而是僅僅使用在位元串流中傳遞的必要資料之資訊，在此情況下為至少一個先前訊框之線性預測係數，該線性預測係數亦提供關於先前訊框中之雜訊位準的資訊。因此，較佳的是，使用g導出的傾斜對將要添加至當前訊框之雜訊加以整形且根據雜訊位準估計來縮放該雜訊。最佳地，在當前訊框為語音類型時，調整將要添加至當前訊框之雜訊之傾斜及雜訊位準。在一些實施例中，在當前訊框為例如TCX類型或DTX類型之一般音訊類型時，亦調整將要添加至當前訊框之傾斜及/或雜訊位準。

較佳地，音訊解碼器包含一用以判定當前訊框之訊框類型的訊框類型判定器，該訊框類型判定器經組配來識別當前訊框之訊框類型為語音還是一般音訊，因此可取決於當前訊框之訊框類型來執行雜訊位準估計。例如，訊框類型判定器可經組配來偵測當前訊框為CELP或ACELP訊框(其係語音訊框類型)，還是TCX/MDCT或DTX訊框(其係一般音訊訊框類型)。因為彼等編碼格式遵循不同原理，所以需要在執行雜訊位準估計之前判定訊框類型，以使得可取決於訊框類型來選擇適合的計算。

在本發明之一些實施例中，音訊解碼器適於：計算表示當前訊框之未在頻譜上整形的激發之第一資訊，且計算關於當前訊框之頻譜縮放的第二資訊，以便計算第一資訊及第二資訊之商來獲得雜訊位準資訊。藉此，可在不利用任何旁側資訊的情況下獲得雜訊位準資訊。因此，可保持編碼器之位元速率較低。

較佳地，音訊解碼器適於：在當前訊框為語音類型的條件下，解碼當前訊框之激發信號，且根據當前訊框之時域表示來計算該激發信號之均方根e_rms來作為第一資訊，以便獲得雜訊位準資訊。對此實施例較佳的是，音訊解碼器適於在當前訊框為CELP或ACELP類型的情況下相應地執行。自位元串流解碼已在頻譜上整平的激發信號(在感知域中)且將其用來更新雜訊位準估計。在讀取位元串流之後計算當前訊框之激發信號之均方根e_rms。此種類型之計算可能不需要高計算能力，且因此甚至可由具有較低計算能力之音訊解碼器執行。

在一較佳實施例中，音訊解碼器適於：在當前訊框為語音類型的條件下，計算當前訊框之LPC濾波器之傳遞函數的峰值位準p來作為第二資訊，從而使用線性預測係數來獲得雜訊位準資訊。同樣，較佳的是，當前訊框為CELP或ACELP類型。計算峰值位準p的成本相當低，且藉由再使用當前訊框之線性預測係數(亦用來解碼該訊框中所含的音訊資訊)，可省略旁側資訊，且仍可增強背景雜訊而不增加位元串流之資料速率。

在本發明之一較佳實施例中，音訊解碼器適於：在當前訊框為語音類型的條件下，藉由計算均方根e_rms及峰值位準p之商來計算當前音訊訊框之頻譜最小值m_f，以便獲得雜訊位準資訊。此計算相當簡單且可提供可用於估計在多個音訊訊框之範圍內之雜訊位準的數值。因此，可使用一系列當前音訊訊框之頻譜最小值m_f來估計在該等一系列音訊訊框所涵蓋的時段期間的雜訊位準。此可允許在保持複雜性相當低的同時獲得對當前訊框之雜訊位準之良好估計。較佳地使用公式p=Σ|a_k|來計算峰值位準p，其中a_k為線性預測係數，較佳地，k=0....15。因此，若訊框包含16個線性預測係數，則在一些實施例中可藉由對較佳為16個的a_k之振幅求和來計算p。

較佳地，音訊解碼器適於：在當前訊框為一般音訊類型的情況下，解碼當前訊框之未整形的MDCT激發，且根據當前訊框之頻譜域表示來計算其均方根e_rms，以便獲得雜訊位準資訊來作為第一資訊。每當當前訊框並非語音訊框，而是一般音訊訊框時，此係本發明之較佳實施例。在MDCT或DTX訊框中的頻譜域表示很大程度上等效於在例如CELP或(A)CELP訊框之語音訊框中的時域表示。差別在於，MDCT未考慮帕斯瓦爾定理(Parseval’s theorem)。因此，較佳地，計算一般音訊訊框之均方根e_rms的方式類似於計算語音訊框之均方根e_rms的方式。然後，較佳地，如WO 2012/110476 A1中所述，例如使用MDCT功率譜來計算一般音訊訊框之LPC係數等效物，該MDCT功率譜指代巴克尺度上的MDCT值的平方。在替代實施例中，MDCT功率譜之頻帶具有恆定的寬度，因此該功率譜之尺度對應於線性尺度。在此線性尺度的情況下，計算出之LPC係數等效物類似於例如針對ACELP或CELP訊框所計算出之相同訊框之時域表示中的LPC係數。另外，較佳的是，若當前訊框為一般音訊類型，則計算如WO 2012/110476 A1中所述根據MDCT訊框所計算出之當前訊框之LPC濾波器的傳遞函數之峰值位準p來作為第二資訊，從而在當前訊框為一般音訊類型的條件下使用線性預測係數來獲得雜訊位準資訊。然後，若當前訊框為一般音訊類型，則較佳地藉由計算均方根e_rmS及峰值位準p的商來計算當前音訊訊框之頻譜最小值，以便在當前訊框為一般音訊類型的條件下獲得雜訊位準資訊。因此，無論當前訊框為語音類型還是一般音訊類型，均可獲得描述當前訊框之頻譜最小值m_f的商。

在一較佳實施例中，音訊解碼器適於：無論訊框類型如何，在雜訊位準估計器中將自當前音訊訊框獲得的商加入佇列，該雜訊位準估計器包含用於自不同音訊訊框獲得的兩個或兩個以上商之雜訊位準儲存器。若音訊解碼器適於在語音訊框的解碼與一般音訊訊框的解碼之間切換，例如在應用低延遲統一語音及音訊解碼(LD-USAC、EVS)時，此可為有利的。藉此，無論訊框類型如何，均可獲得多個訊框之平均雜訊位準。較佳地，雜訊位準儲存器可保存自十個或十個以上先前音訊訊框獲得的十個或十個以上商。例如，雜訊位準儲存器可含有英語30個訊框之商的空間。因此，可針對在當前訊框前面的擴展時間計算出雜訊位準。在一些實施例中，僅在偵測到當前訊框為語音類型時，可在雜訊位準估計器中將商加入佇列。在其他實施例中，僅在偵測到當前訊框為一般音訊類型時，可在雜訊位準估計器中將商加入佇列。

較佳的是，雜訊位準估計器適於基於不同音訊訊框之兩個或兩個以上商之統計分析來估計雜訊位準。在本發明之一實施例中，音訊解碼器適於使用基於最小均方誤差的雜訊功率頻譜密度追蹤來對該等商進行統計分析。在Hendriks、Heusdens以及Jensen之公開案[2]中描述了此追蹤。若將應用根據[2]之方法，則音訊解碼器適於在統計分析時使用軌跡值之平方根，因為在目前的情況下直接搜尋振幅譜。在本發明之另一實施例中，使用自[3]得知的最小值統計資料來分析不同音訊訊框之兩個或兩個以上商。

在一較佳實施例中，音訊解碼器包含一解碼器核心，其經組配來使用當前訊框之線性預測係數來解碼當前訊框之音訊資訊，以便獲得已解碼的核心編碼器輸出信號，且雜訊插入器取決於在解碼當前訊框之音訊資訊時所使用且/或在解碼一或多個先前訊框之音訊資訊時所使用的線性預測係數來添加雜訊。因此，雜訊插入器利用用來解碼當前訊框之音訊資訊的相同線性預測係數。可省略用來指導雜訊插入器之旁側資訊。

較佳地，音訊解碼器包含一用以將當前訊框去除加重的去除加重濾波器(de-emphasis filter)，該音訊解碼器適於在雜訊插入器將雜訊添加至當前訊框之後對當前訊框應用去除加重濾波器。因為去除加重係提升低頻的一階IIR，所以此允許對所添加雜訊之低複雜性、陡峭IIR高通濾波，從而避免在低頻處的可聽見之雜訊假影。

較佳地，音訊解碼器包含一雜訊產生器，該雜訊產生器適於產生將由雜訊插入器添加至當前訊框的雜訊。使音訊解碼器包括雜訊產生器可提供更方便的音訊解碼器，因為不需要外部雜訊產生器。在替選方案中，雜訊可由外部雜訊產生器供應，外部雜訊產生器可經由介面連接至音訊解碼器。例如，取決於在當前訊框中將要增強的背景雜訊，可應用特殊類型之雜訊產生器。

較佳地，雜訊產生器經組配來產生隨機白色雜訊。此雜訊與常見的背景雜訊充分相似，且此雜訊產生器可易於提供。

在本發明之一較佳實施例中，雜訊插入器經組配來在已編碼音訊資訊之位元速率小於每個樣本1個位元的條件下將雜訊添加至當前訊框。較佳地，已編碼音訊資訊之位元速率小於每個樣本0.8個位元。甚至更佳的是，雜訊插入器經組配來在已編碼音訊資訊之位元速率小於每個樣本0.5個位元的條件下將雜訊添加至當前訊框。

在一較佳實施例中，音訊解碼器經組配來使用基於編碼器AMR-WB、G.718或LD-USAC(EVS)中之一或多者的編碼器來解碼已編碼音訊資訊。彼等編碼器係熟知的且分佈廣泛的(A)CELP編碼器，在此等編碼器中對此雜訊填充方法之額外使用可極為有利。

以下關於諸圖來描述本發明之實施例。

圖1展示出根據本發明之音訊解碼器之第一實施例；圖2展示出根據本發明之用以執行音訊解碼之第一種方法，該方法可由根據圖1之音訊解碼器執行；圖3展示出根據本發明之音訊解碼器之第二實施例；圖4展示出根據本發明之用以執行音訊解碼之第二種方法，該方法可由根據圖3之音訊解碼器執行；圖5展示出根據本發明之音訊解碼器之第三實施例；圖6展示出根據本發明之用以執行音訊解碼之第三種方法，該方法可由根據圖5之音訊解碼器執行；圖7展示出用以計算用於雜訊位準估計的頻譜最小值m_f之方法的例示；圖8展示出例示了自LPC係數導出的傾斜的圖；以及圖9展示出例示了如何根據MDCT功率譜判定LPC濾波器等效物的圖。

較佳實施例之詳細說明

關於圖1至圖9來詳細描述本發明。本發明絕不意味著限於所展示及描述之實施例。

圖1展示出根據本發明之音訊解碼器之第一實施例。音訊解碼器適於基於已編碼音訊資訊來提供已解碼音訊資訊。音訊解碼器經組配來使用可基於AMR-WB、G.718及LD-USAC(EVS)的編碼器來解碼已編碼音訊資訊。已編碼音訊資訊包含可分別表示為係數a_k的線性預測係數(LPC)。音訊解碼器包含：傾斜調整器，其經組配來使用當前訊框之線性預測係數獲得傾斜資訊，來調整雜訊之傾斜；以及雜訊插入器，其經組配來取決於藉由傾斜計算器獲得的傾斜資訊來將雜訊添加至當前訊框。雜訊插入器經組配來在已編碼音訊資訊之位元速率小於每個樣本1個位元的條件下將雜訊添加至當前訊框。另外，雜訊插入器可經組配來在當前訊框為語音訊框的條件下將雜訊添加至當前訊框。因此，可將雜訊添加至當前訊框以便改良已解碼音訊資訊之總體聲音品質，該品質可因編碼假影而受損，尤其就語音資訊之背景雜訊而言。當根據當前音訊訊框之傾斜來調整雜訊之傾斜時，可在不取決於位元串流中之旁側資訊的情況下改良總體聲音品質。因此，可減小將要用位元串流傳遞之資料的量。

圖2展示出根據本發明之用以執行音訊解碼之第一種方法，該方法可由根據圖1之音訊解碼器執行。連同方法特徵一起描述了圖1中所描繪的音訊解碼器之技術細節。音訊解碼器適於讀取已編碼音訊資訊之位元串流。音訊解碼器包含用以判定當前訊框之訊框類型的訊框類型判定器，該訊框類型判定器經組配來在偵測到當前訊框之訊框類型為語音類型時，啟動傾斜調整器來調整雜訊之傾斜。因此，音訊解碼器藉由應用訊框類型判定器來判定當前訊框之訊框類型。若當前訊框為ACELP訊框，則訊框類型判定器啟動傾斜調整器。傾斜調整器經組配來使用對當前訊框之線性預測係數之一階分析的結果來獲得傾斜資訊。更具體而言，傾斜調整器使用公式g=Σ[a_k．a_k+1]/Σ[a_k．a_k]來計算增益g，來作為一階分析，其中a_k為當前訊框之LPC係數。圖8展示出例示了自LPC係數導出的傾斜的圖。圖8展示出單詞「see」的兩個訊框。對於具有大量高頻的字母「s」，傾斜向上。對於具有大量低頻的字母「ee」，傾斜向下。圖8所示的頻譜傾斜係直接形式濾波器x(n)-g．x(n-1)的傳遞函數，其中g係如上文所給出來定義。因此，傾斜調整器利用在位元串流中所提供且用來解碼已編碼音訊資訊的LPC係數。因此可省略旁側資訊，從而可減小將要用位元串流傳遞之資料的量。另外，傾斜調整器經組配來使用直接形式濾波器x(n)-g．x(n-1)的傳遞函數來獲得傾斜資訊。因此，傾斜調整器藉由使用先前計算出之增益g計算出直接形式濾波器x(n)-g．x(n-1)的傳遞函數來計算當前訊框中的音訊資訊之傾斜。在獲得傾斜資訊之後，傾斜調整器取決於當前訊框之傾斜資訊來調整將要添加至當前訊框之雜訊的傾斜。在此之後，將已調整的雜訊添加至當前訊框。另外，圖2中未展示，音訊解碼器包含用以將當前訊框去除加重的去除加重濾波器，音訊解碼器適於在雜訊插入器將雜訊添加至當前訊框之後對當前訊框應用去除加重濾波器。在將該訊框去除加重(此去除加重亦充當對所添加雜訊之低複雜性、陡峭IIR高通濾波)之後，音訊解碼器提供已解碼音訊資訊。因此，根據圖2之方法允許藉由調整將要添加至當前訊框之雜訊之傾斜以便改良背景雜訊之品質來增強音訊資訊之聲音品質。

圖3展示出根據本發明之音訊解碼器之第二實施例。音訊解碼器同樣適於基於已編碼音訊資訊來提供已解碼音訊資訊。音訊解碼器經組配來使用可基於AMR-WB、G.718及LD-USAC(EVS)的編碼器來解碼已編碼音訊資訊。已編碼音訊資訊同樣包含可分別表示為係數a_k的線性預測係數(LPC)。根據第二實施例之音訊解碼器包含：雜訊位準估計器，其經組配來使用至少一個先前訊框之線性預測係數來估計當前訊框之雜訊位準，以便獲得雜訊位準資訊；以及雜訊插入器，其經組配來取決於藉由雜訊位準估計器提供的雜訊位準資訊來將雜訊添加至當前訊框。雜訊插入器經組配來在已編碼音訊資訊之位元速率小於每個樣本0.5個位元的條件下將雜訊添加至當前訊框。另外，雜訊插入器可經組配來在當前訊框為語音訊框的條件下將雜訊添加至當前訊框。因此，同樣可將雜訊添加至當前訊框以便改良已解碼音訊資訊之總體聲音品質，該品質可因編碼假影而受損，尤其就語音資訊之背景雜訊而言。當根據當前音訊訊框之傾斜來調整雜訊之傾斜時，可在不取決於位元串流中之旁側資訊的情況下改良總體聲音品質。因此，可減小將要用位元串流傳遞之資料的量。

圖4展示出根據本發明之用以執行音訊解碼之第二種方法，該方法可由根據圖3之音訊解碼器執行。連同方法特徵一起描述了圖3中所描繪的音訊解碼器之技術細節。根據圖4，音訊解碼器經組配來讀取位元串流以便判定當前訊框之訊框類型。另外，音訊解碼器包含用以判定當前訊框之訊框類型的訊框類型判定器，該訊框類型判定器經組配來識別當前訊框之訊框類型為語音還是一般音訊，以使得可取決於當前訊框之訊框類型來執行雜訊位準估計。一般而言，音訊解碼器適於：計算表示當前訊框之未在頻譜上整形的激發之第一資訊，且計算關於當前訊框之頻譜縮放的第二資訊，以便計算第一資訊及第二資訊之商來獲得雜訊位準資訊。例如，若訊框類型為ACELP(其係語音訊框類型)，則音訊解碼器解碼當前訊框之激發信號，且根據該激發信號之時域表示來針對當前訊框f計算其均方根e_rms。此意味著，音訊解碼器適於：在當前訊框為語音類型的條件下，解碼當前訊框之激發信號，且根據當前訊框之時域表示來計算其均方根e_rms來作為第一資訊，以便獲得雜訊位準資訊。在另一種情況下，若訊框類型為MDCT或DTX(其係一般音訊訊框類型)，則音訊解碼器解碼當前訊框之激發信號，且根據該激發信號之時域表示等效物來針對當前訊框f計算其均方根e_rms。此意味著，音訊解碼器適於：在當前訊框為一般音訊類型的條件下，解碼當前訊框之未整形的MDCT激發，且根據當前訊框之頻譜域表示來計算其均方根e_rms來作為第一資訊，以便獲得雜訊位準資訊。WO 2012/110476 A1中描述了具體如何完成上述操作。另外，圖9展示出例示了如何根據MDCT功率譜判定LPC濾波器等效物的圖。雖然所描繪之尺度為巴克尺度，但亦可自線性尺度獲得LPC係數等效物。尤其當自線性尺度獲得LPC係數等效物時，計算出之LPC係數等效物非常類似於根據例如以ACELP加以編碼的相同訊框之時域表示所計算出之LPC係數。

另外，如圖4之方法圖所例示，根據圖3之音訊解碼器適於：在當前訊框為語音類型的條件下，計算當前訊框之LPC濾波器之傳遞函數的峰值位準p來作為第二資訊，從而使用線性預測係數來獲得雜訊位準資訊。此意味著，音訊解碼器根據公式p=Σ|a_k|來計算當前訊框之LPC分析濾波器之傳遞函數的峰值位準p，其中a_k為線性預測係數，其中k=0....15。若訊框為一般音訊資訊，則自當前訊框之頻譜域表示獲得LPC係數等效物，如圖9所示以及WO 2012/110476 A1中及上文所描述。如圖4中所看出，在計算峰值位準p之後，藉由將e_rms除以p來計算當前訊框之頻譜最小值m_f。因此，音訊解碼器適於：計算表示當前訊框之未在頻譜上整形的激發之第一資訊，該第一資訊在此實施例中為e_rms，且計算關於當前訊框之頻譜縮放的第二資訊，該第二資訊在此實施例中為峰值位準p，以便計算第一資訊及第二資訊之商來獲得雜訊位準資訊。然後在雜訊位準估計器中將當前訊框之頻譜最小值加入佇列，音訊解碼器適於：無論訊框類型如何，在雜訊位準估計器中將自當前音訊訊框獲得的商加入佇列，且雜訊位準估計器包含用於自不同音訊訊框獲得的兩個或兩個以上商(在此情況下為頻譜最小值m_f)之雜訊位準儲存器。更具體而言，雜訊位準儲存器可儲存來自50個訊框之商以便估計雜訊位準。另外，雜訊位準估計器適於基於不同音訊訊框之兩個或兩個以上商(因此對頻譜最小值m_f之集合)之統計分析來估計雜訊位準。在例示出必需的計算步驟之圖7中詳細描繪用以計算商m_f的步驟。在第二實施例中，雜訊位準估計器基於自[3]得知的最小值統計資料來操作。若當前訊框為語音訊框，則根據基於最小值統計資料的當前訊框之所估計雜訊位準來縮放雜訊，然後將雜訊添加至當前訊框。最後，將當前訊框去除加重(圖4中未展示)。因此，此第二實施例亦允許省略用於雜訊填充的旁側資訊，從而允許減小將要用位元串流傳遞之資料的量。因此，藉由在解碼階段期間增強背景雜訊而不增加資料速率，可改良音訊資訊之聲音品質。請注意，因為無需時間/頻率變換，且因為雜訊位準估計器每個訊框僅運行一次(而不是對多個子頻帶運行)，所以所描述之雜訊填充在能夠改良有雜訊的語音之低位元速率編碼的同時表現出極低的複雜性。

圖5展示出根據本發明之音訊解碼器之第三實施例。

音訊解碼器適於基於已解碼音訊資訊來提供已解碼音訊資訊。音訊解碼器經組配來使用基於LD-USAC之編碼器來解碼已編碼音訊資訊。已編碼音訊資訊包含可分別表示為係數a_k的線性預測係數(LPC)。音訊解碼器包含：傾斜調整器，其經組配來使用當前訊框之線性預測係數獲得傾斜資訊，來調整雜訊之傾斜；以及雜訊位準估計器，其經組配來使用至少一個先前訊框之線性預測係數來估計當前訊框之雜訊位準，以便獲得雜訊位準資訊。另外，音訊解碼器包含雜訊插入器，其經組配來取決於藉由傾斜計算器獲得的傾斜資訊且取決於藉由雜訊位準估計器提供的雜訊位準資訊來將雜訊添加至當前訊框。因此，取決於藉由傾斜計算器獲得的傾斜資訊且取決於藉由雜訊位準估計器提供的雜訊位準資訊，可將雜訊添加至當前訊框以便改良已解碼音訊資訊之總體聲音品質，該品質可因編碼假影而受損，尤其就語音資訊之背景雜訊而言。在此實施例中，音訊解碼器所包含的隨機雜訊產生器(未展示)產生頻譜白色雜訊，隨後根據雜訊位準資訊來縮放該雜訊並且使用g導出的傾斜對其加以整形，如先前所描述。

圖6展示出根據本發明之用以執行音訊解碼之第三種方法，該方法可由根據圖5之音訊解碼器執行。讀取位元串流，且被稱為訊框類型偵測器的訊框類型判定器判定當前訊框為語音訊框(ACELP)還是一般音訊訊框(TCX/MDCT)。無論訊框類型如何，解碼訊框標頭，且解碼感知域中之已在頻譜上整平的未整形的激發信號。在語音訊框的情況下，此激發信號係時域激發，如先前所描述。若訊框為一般音訊訊框，則解碼MDCT域殘餘(頻譜域)。分別使用時域表示及頻譜域表示來估計雜訊位準，如圖7中所例示且先前所描述，從而使用亦用來解碼位元串流之LPC係數而不是使用任何旁側資訊或額外的LPC係數。將兩種類型之訊框之雜訊資訊加入佇列，以便調整在當前訊框為語音訊框的條件下將要添加至當前訊框之雜訊的雜訊位準。在將雜訊添加至ACELP語音訊框(應用ACELP雜訊填充)之後，藉由IIR將該ACELP語音訊框去除加重，且在表示已解碼音訊資訊的時間信號中組合語音訊框與一般音訊訊框。圖6中藉由小插圖I、II及III描繪了去除加重對所添加雜訊之頻譜的陡峭高通效應。

換言之，根據圖6，在LD-USAC(EVS)解碼器中實行上文所描述之ACELP雜訊填充系統，該解碼器係xHE-AAC[6]之低延遲變體，其可基於每個訊框在ACELP(語音)與MDCT(音樂/雜訊)編碼之間切換。將根據圖6之插入過程概述如下：

1.讀取位元串流，且判定當前訊框為ACELP還是MDCT或DTX訊框。無論訊框類型如何，解碼已在頻譜上整平的激發信號(在感知域中)且將其用來更新雜訊位準估計，如下文所詳細描述。然後，直至為最後一個步驟的去除加重，信號得以完全重新建構。

2.若訊框經ACELP編碼，則藉由對LPC過濾器係數之一階LPC分析來計算用於雜訊插入之傾斜(總體頻譜形狀)。該傾斜係自16個LPC係數a_k之增益g導出，增益g係由g=Σ[a_k．a_k+1]/Σ[a_k．a_k]給出。

3.若訊框經ACELP編碼，則使用雜訊整形位準及傾斜來執行對已解碼訊框的雜訊添加：隨機雜訊產生器產生頻譜白色雜訊信號，然後縮放該信號且使用g導出的傾斜對其加以整形。

4.緊接在最後的去除加重填充步驟之前，將用於ACELP訊框之已整形且已調平的雜訊信號添加至已解碼信號。因為去除加重係提升低頻的一階IIR，所以此允許對所添加雜訊之低複雜性、陡峭IIR高通濾波，如同圖6中一樣，從而避免在低頻處的可聽見之雜訊假影。

步驟1中之雜訊位準估計係藉由以下操作來執行：計算當前訊框之激發信號的均方根e_rms(或在MDCT域激發的情況下為時域等效物，其意味著在訊框為ACELP訊框的情況下，將針對該訊框來計算之e_rms)，以及隨後將e_rms除以LPC分析濾波器之傳遞函數的峰值位準p。此操作得出訊框f之頻譜最小值的位準m_f，如同圖7中一樣。最後在基於例如最小值統計資料來操作的雜訊位準估計器中將m_f加入佇列[3]。請注意，因為不需要時間/頻率變換，且因為位準估計器每個訊框僅運行一次(而不是對多個子頻帶運行)，所以所描述之CELP雜訊填充系統在能夠改良有雜訊的語音之低位元速率編碼的同時表現出極低的複雜性。

雖然已就音訊解碼器之情境來描述一些態樣，但顯然此等態樣亦表示對應的方法之描述，其中方塊或設備對應於方法步驟或方法步驟之特徵。類似地，就方法步驟之情境所描述的態樣亦表示對應的方塊或對應的音訊解碼器的項目或特徵之描述。該等方法步驟中之一些或全部可藉由(或使用)例如為微處理器、可規劃電腦或電子電路之硬體裝置來執行。在一些實施例中，最重要的方法步驟中之某一或多者可藉由此裝置來執行。

本發明之已編碼音訊信號可儲存於數位儲存媒體上或可在傳輸媒體上加以傳輸，傳輸媒體諸如無線傳輸媒體或有線傳輸媒體(諸如網際網路)。

取決於特定的實行方案要求，本發明之實施例可在硬體或軟體中實行。可使用儲存有電子可讀控制信號的數位儲存媒體來執行實行方案，數位儲存媒體例如軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該等電子可讀控制信號與可規劃電腦系統合作(或能夠與可規劃電腦系統合作)以使得個別方法得以執行。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含一種具有電子可讀控制信號的資料載體，該等電子可讀控制信號能夠與可規劃電腦系統合作以使得本文中所描述之方法中之一者得以執行。

一般而言，本發明之實施例可實行為一種具有程式碼的電腦程式產品，當該電腦程式產品在電腦上運行時，該程式碼可操作來執行該等方法中之一者。該程式碼可例如儲存於機器可讀載體上。

其他實施例包含用以執行本文中所描述之方法中之一者的電腦程式，其儲存於機器可讀載體上。

換言之，本發明之方法之一實施例因此係一種具有程式碼的電腦程式，當該電腦程式在電腦上運行時，該程式碼用以執行本文中所描述之方法中之一者。

本發明之方法之另一實施例因此係一種資料載體(或數位儲存媒體或電腦可讀媒體)，其包含記錄於其上的用以執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形的及/或非暫時性的。

本發明之方法之另一實施例因此係一種資料串流或一種信號序列，其表示用以執行本文中所描述之方法中之一者的電腦程式。該資料串流或該信號序列可例如經組配來經由資料通訊連接(例如經由網際網路)加以傳遞。

另一實施例包含一種處理構件，例如電腦或可規劃邏輯設備，其經組配來執行或適於執行本文中所描述之方法中之一者。

另一實施例包含一種電腦，其上安裝有用以執行本文中所描述之方法中之一者的電腦程式。

根據本發明之另一實施例包含一種裝置或一種系統，其經組配來將用以執行本文中所描述之方法中之一者的電腦程式傳遞(例如，電子地或光學地)至一接收器。該接收器可例如為電腦、行動設備、記憶體設備或類似物。該裝置或系統可例如包含一用以將電腦程式傳遞至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯設備(例如場可規劃閘陣列)可用來執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作以便執行本文中所描述之方法中之一者。一般而言，較佳藉由任何硬體裝置來執行該等方法。

可使用硬體裝置，或使用電腦，或使用硬體裝置與電腦之組合來實行本文中所描述之裝置。

可使用硬體裝置，或使用電腦，或使用硬體裝置與電腦之組合來實行本文中所描述之方法。

上述實施例僅例示出本發明之原理。應理解，本文中所描述之配置及細節的修改及變化對熟習此項技術者而言將顯而易見。因此，意欲僅受以下申請專利範圍之範疇限制，而不受本文中經由對實施例之描述及闡釋所呈現的特定細節限制。

非專利文獻引用清單

[1] B. Bessette等人, 「The Adaptive Multi-rate Wideband Speech Codec (AMR-WB),」 IEEE Trans. On Speech and Audio Processing, 第10卷, 第8期, 2002年11月.

[2] R. C. Hendriks, R. Heusdens and J. Jensen, 「MMSE based noise PSD tracking with low complexity,」 in IEEE Int. Conf. Acoust., Speech, Signal Processing, 第4266-4269頁, 2010年3月.

[3] R. Martin, 「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics,」 IEEE Trans. On Speech and Audio Processing, 第9卷, 第5期, 2001年7月.

[4] M. Jelinek and R. Salami, 「Wideband Speech Coding Advances in VMR-WB Standard,」 IEEE Trans. On Audio, Speech, and Language Processing, 第15卷, 第4期, 2007年5月.

[5] J. Mäkinen等人, 「AMR-WB+: A New Audio Coding Standard for 3^rd Generation Mobile Audio Services,」 in Proc. ICASSP 2005, Philadelphia, USA, 2005年3月.

[6] M. Neuendorf等人, 「MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,」 in Proc. 132^nd AES Convention, Budapest, Hungary, Apr. 2012. Also appears in the Journal of the AES, 2013.

[7] T. Vaillancourt等人, 「ITU-T EV-VBR: A Robust 8 - 32 kbit/s Scalable Coder for Error Prone Telecommunications Channels,」 in Proc. EUSIPCO 2008, Lausanne, Switzerland, 2008年8月.

Claims

一種用以基於包含線性預測係數(LPC)的已編碼音訊資訊來提供已解碼音訊資訊之音訊解碼器，該音訊解碼器包含：一傾斜調整器，組配來調整一背景雜訊之一傾斜，其中該傾斜調整器組配來使用一當前訊框之線性預測係數以獲得一傾斜資訊；以及一解碼器核心，組配來使用該當前訊框之該等線性預測係數解碼該當前訊框之一音訊資訊，以獲得一已解碼之核心編碼器輸出信號；以及一雜訊插入器，組配來將該已調整之背景雜訊添加至該當前訊框，以執行一雜訊填充。
如請求項1之音訊解碼器，其中該音訊解碼器包含一用以判定該當前訊框之一訊框類型的訊框類型判定器，該訊框類型判定器組配來在偵測到該當前訊框之該訊框類型為一語音類型時，啟動該傾斜調整器來調整該背景雜訊之該傾斜。
如請求項1之音訊解碼器，其中該傾斜調整器組配來使用對該當前訊框之該等線性預測係數之一階分析的一結果來獲得該傾斜資訊。
如請求項3之音訊解碼器，其中該傾斜調整器組配來使用對該當前訊框之該等線性預測係數之一增益g的一計算，作為該一階分析，來獲得該傾斜資訊。
如請求項4之音訊解碼器，其中該傾斜調整器組配來使用對針對該當前訊框之直接形式濾波器x(n)-g．x(n-1)之一傳遞函數的一計算來獲得該傾斜資訊。
如請求項1之音訊解碼器，其中該雜訊插入器組配來在將該背景雜訊添加至該當前訊框之前，將該當前訊框之一傾斜資訊應用於該雜訊，以便調整該背景雜訊之該傾斜。
如請求項1之音訊解碼器，其中該音訊解碼器另外包含：一雜訊位準估計器，其組配來使用至少一個先前訊框之一線性預測係數來估計一當前訊框之一雜訊位準，以便獲得一雜訊位準資訊；以及其中該雜訊插入器組配來取決於藉由該雜訊位準估計器提供的該雜訊位準資訊來將一雜訊添加至該當前訊框。
如請求項7之音訊解碼器，其中該音訊解碼器包含一用以判定該當前訊框之一訊框類型的訊框類型判定器，該訊框類型判定器組配來識別該當前訊框之該訊框類型為語音還是一般音訊，以使得可取決於該當前訊框之該訊框類型來執行雜訊位準估計。
如請求項7之音訊解碼器，其中該音訊解碼器適於：計算一表示一當前訊框之一未在頻譜上整形的激發之一第一資訊，且計算一關於該當前訊框之頻譜縮放的第二資訊，且計算該第一資訊及該第二資訊之一商來獲得該雜訊位準資訊。
如請求項9之音訊解碼器，其中該音訊解碼器適於：在該當前訊框為一語音類型的條件下，解碼該當前訊框之一激發信號，且根據該當前訊框之時域表示來計算該激發信號之均方根e_rms來作為該第一資訊，以便獲得該雜訊位準資訊。
如請求項9之音訊解碼器，其中該音訊解碼器適於：在該當前訊框為一語音類型的條件下，計算一當前訊框之一LPC濾波器之一傳遞函數的一峰值位準p來作為一第二資訊，從而使用一線性預測係數來獲得該雜訊位準資訊。
如請求項10之音訊解碼器，其中該音訊解碼器適於：在該當前訊框為一語音類型的條件下，藉由計算該均方根e_rms及該峰值位準p之該商來計算該當前音訊訊框之一頻譜最小值m_f，以便獲得該雜訊位準資訊。
如請求項9之音訊解碼器，其中該音訊解碼器適於：在該當前訊框為一一般音訊類型的情況下，解碼該當前訊框之一未整形的MDCT激發，且根據該當前訊框之頻譜域表示來計算其均方根e_rms來作為該第一資訊，以便獲得該雜訊位準資訊。
如請求項9之音訊解碼器，其中該音訊解碼器適於：無論該訊框類型如何，在該雜訊位準估計器中將自該當前音訊訊框獲得的該商加入佇列，該雜訊位準估計器包含一用於自不同音訊訊框獲得的兩個或兩個以上商之雜訊位準儲存器。
如請求項6之音訊解碼器，其中該雜訊位準估計器適於：基於對不同音訊訊框的兩個或兩個以上商之統計分析來估計該雜訊位準。
如請求項1之音訊解碼器，其中該音訊解碼器包含一解碼器核心，其組配來使用該當前訊框之線性預測係數來解碼該當前訊框之一音訊資訊，以便獲得一已解碼的核心編碼器輸出信號，且其中該雜訊插入器取決於在解碼該當前訊框之該音訊資訊時所使用且/或在解碼一或多個先前訊框之音訊資訊時所使用的線性預測係數來添加該雜訊。
如請求項1之音訊解碼器，其中該音訊解碼器包含一用以將該當前訊框去除加強的去除加強濾波器，該音訊解碼器適於在該雜訊插入器將該雜訊添加至該當前訊框之後對該當前訊框應用該去除加強濾波器。
如請求項1之音訊解碼器，其中該音訊解碼器包含一雜訊產生器，該雜訊產生器適於產生將由該雜訊插入器添加至該當前訊框的該雜訊。
如請求項18之音訊解碼器，其中該雜訊產生器組配來產生隨機白色雜訊。
如請求項1之音訊解碼器，其中該雜訊插入器組配來在該已編碼音訊資訊之位元速率小於每個樣本1個位元的條件下將該雜訊添加至該當前訊框。
如請求項1之音訊解碼器，其中該音訊解碼器組配來使用一基於編碼器AMR-WB、G.718或LD-USAC(EVS)中之一或多者的編碼器來解碼該已編碼音訊資訊。
一種用以基於包含線性預測係數(LPC)的已編碼音訊資訊來提供已解碼音訊資訊之方法，該方法包含：調整一背景雜訊之一傾斜，其中一當前訊框之線性預測係數被使用來獲得一傾斜資訊；以及使用該當前訊框之該等線性預測係數解碼該當前訊框之一音訊資訊，以獲得一已解碼之核心編碼器輸出信號；以及將已調整之背景雜訊添加至該當前訊框，以執行一雜訊填充。
一種電腦程式，其用以執行如請求項22之方法，其中該電腦程式在一電腦上運行。
一種儲存有音訊信號之儲存媒體，該音訊信號係經利用如請求項22之方法加以處理者。