TWI590237B

TWI590237B - 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統

Info

Publication number: TWI590237B
Application number: TW104123864A
Authority: TW
Inventors: 班傑明休伯特; 曼紐貞德; 安東尼隆巴德; 馬汀迪茲; 馬庫斯穆爾特斯
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2014-07-28
Filing date: 2015-07-23
Publication date: 2017-07-01
Also published as: US20210035591A1; CA2956019C; SG11201700701TA; MX2017001241A; EP3614384B1; JP2020170190A; CN112309422A; BR112017001520A2; WO2016016051A1; ZA201700532B; US20190198033A1; MX363349B; RU2017106161A3; CN106716528A; TW201606753A; PT3614384T; CA2956019A1; PL3175457T3; KR101907808B1; JP2019023742A

Description

用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統

發明領域

本發明係關於處理音訊信號之領域，更具體言之，係關於一種用於估計音訊信號中(例如，待編碼之音訊信號中或已經解碼之音訊信號中)之雜訊之方法。實施例描述一種用於估計音訊信號中之雜訊之方法、一種雜訊估計器、一種音訊編碼器、一種音訊解碼器及一種用於傳送音訊信號之系統。

發明背景

在處理音訊信號之領域(例如，用於編碼音訊信號或用於處理經解碼音訊信號)中，存在需要估計雜訊之情形。舉例而言，被以引用的方式併入本文中之PCT/EP2012/077525及PCT/EP2012/077527描述使用雜訊估計器(例如，最小統計雜訊估計器)估計頻域中的背景雜訊之頻譜。饋入至演算法內的信號已經(例如)藉由快速傅立葉變換(FFT)或任一其他合適的濾波器組逐塊變換成頻域。成框通常等同於編碼解碼器之成框，亦即，可再使用編碼解碼器中已存在之變換，例如，在EVS(增強型話音服務)編碼器中，FFT用於預處理。出於雜訊估計之目的，計算FFT之功率頻譜。將頻譜分群成心理聲學激勵之頻帶，且在一頻帶內之功率頻譜區間經累積以每一頻帶形成一能量值。最後，藉由此方法達成一組能量值此方法亦常用於以心理聲學方式處理音訊信號。每一頻帶具有其自身的雜訊估計演算法，亦即，在每一訊框中，使用雜訊估計演算法處理彼訊框之能量值，該雜訊估計演算法隨著時間過去分析信號且針對在任一給定訊框處之每一頻帶給出估計之雜訊級。

用於高品質語音及音訊信號之樣本分辨率可為 16個位元，亦即，該信號具有96dB之信雜比(SNR)。計算功率頻譜意謂將信號變換成頻域且計算每一頻率區間之平方。歸因於平方函數，此需要32個位元之動態範圍。至頻帶內的若干功率頻譜區間之求和需要用於動態範圍之額外容許度，此係因為頻帶內之能量分佈實際上未知。結果，需要支援大於32個位元(通常，大約40個位元)之動態範圍以在處理器上執行雜訊估計器。

在處理音訊信號之裝置(其基於自如電池之能量儲存單元接收之能量操作，例如，如行動電話之攜帶型裝置)中，為了保存能量，音訊信號之高功率效率處理對於電池使用期限係至關重要的。根據已知方法，音訊信號之處理由固定點處理器(其通常支援呈16或32個位元固定點格式的資料之處理)執行。藉由處理16個位元資料達成針對處理之最低複雜度，而處理32個位元資料已需要某一附加項。處理具有40個位元動態範圍之資料需要將該資料分裂成兩個，即，尾數及指數，必須當修改資料時處置其中之兩者，此又導致甚至更高的計算複雜度及甚至更高的儲存需求。

發明概要

從上文所論述之先前技術開始，本發明之一目標為提供一種用於使用固定點處理器以高效方式估計音訊信號中之雜訊以用於避免不必要的計算附加項之方法。

此目標係藉由如在獨立請求項中定義之標的物達成。

本發明提供一種用於估計一音訊信號中之雜訊之方法，該方法包含判定用於該音訊信號之一能量值，將該能量值轉換成對數域及基於該經轉換之能量值估計用於該音訊信號之一雜訊級。

本發明提供一種雜訊估計器，該雜訊估計器包含：一偵測器，其經組配以判定用於該音訊信號之一能量值；一轉換器，其經組配以將該能量值轉換成對數域；一估計器，其經組配以基於該經轉換之能量值估計用於該音訊信號之一雜訊級。

本發明提供一種雜訊估計器，其經組配以根據本發明之方法操作。

根據實施例，對數域包含log2域。

根據實施例，估計雜訊級包含直接在對數域中基於經轉換之能量值執行預定義之雜訊估計演算法。可基於由R.Martin描述之最小統計演算法進行雜訊估計(「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」，2001)。在其他實施例中，可使用替代性雜訊估計演算法，如由T.Gerkmann及R.C.Hendriks描述的基於MMSE之雜訊估計器(「Unbiased MMSE-based noise power estimation with low complexity and low tracking delay」，2012)，或由L.Lin、W.Holmes及E.Ambikairajah描述的演算法(「Adaptive noise estimation algorithm for speech enhancement」，2003)。

根據實施例，判定該能量值包含藉由將該音訊信號變換成該頻域來獲得該音訊信號之一功率頻譜，將該功率頻譜分群成心理聲學激勵之頻帶，及聚積一頻帶內之功率頻譜區間以針對每一頻帶形成一能量值，其中將用於每一頻帶之能量值轉換成對數域，且其中基於對應的經轉換之能量值針對每一頻帶估計一雜訊級。

根據實施例，該音訊信號包含多個訊框，且針對每一訊框，判定能量值且將其轉換成對數域，且基於經轉換之能量值針對針對每一頻帶估計雜訊級。

根據實施例，將能量值轉換成對數域，如下：

floor(x)，E _{n_log} log2域中的頻帶n之能量值，E _{n_lin} 線性域中的頻帶n之能量值，N 解析度/精確度。

根據實施例，基於經轉換之能量值估計雜訊級產生對數資料，且該方法進一步包括將對數資料直接用於進一步處理，或將對數資料轉換回成線性域供進一步處理。

根據實施例，倘若在對數域中進行傳送，則將對數資料直接轉換成傳送資料，且將對數資料直接轉換成傳送資料使用移位函數，連同查找表或近似法，例如，。

本發明提供一種非暫時性電腦程式產品，其包含存儲指令之一電腦可讀媒體，該等指令當在一電腦上執行時進行本發明之方法。

本發明提供一種音訊編碼器，其包含本發明之雜訊估計器。

本發明提供一種音訊解碼器，其包含本發明之雜訊估計器。

本發明提供一種用於傳送音訊信號之系統，該系統包含：一音訊編碼器，其經組配以基於一接收之音訊信號產生經寫碼音訊信號；及一音訊解碼器，其經組配以接收該經寫碼音訊信號，解碼該經寫碼音訊信號，且輸出該經解碼音訊信號，其中該音訊編碼器及該音訊解碼器中之至少一者包含本發明之雜訊估計器。

本發明係基於本發明者之發現，與對線性能量資料執行雜訊估計演算法之習知方法相反，出於估計音訊/語音材料中之雜訊級之目的，亦基於對數輸入資料執行演算法係可能的。為了雜訊估計，對資料精確度之需求並不非常高，例如，當將估計之值用於舒適雜訊產生時，如在PCT/EP2012/077525或PCT/EP2012/077527中所描述，兩者皆被以引用的方式併入本文中，已發現，估計每頻帶之大致正確的雜訊級係足夠的，亦即，不管雜訊級經估計為(例如)0.1dB高或是將不在最終信號中可辨。因此，雖然可能需要40個位元來涵蓋資料之動態範圍，但在習知方法中，對於中階/高階信號之資料精確度比實際上所必要高得多。基於此等發現，根據實施例，本發明之關鍵要素為將每頻帶之能量值轉換成對數域(較佳地，log2域)，且直接在對數域中(例如)基於最小統計演算法或任一其他合適演算法進行雜訊估計，此允許按16個位元表達能量值，此又允許更高效之處理，例如，使用固定點處理器。

100‧‧‧編碼器

102、152‧‧‧輸入端

104‧‧‧音訊信號

106‧‧‧編碼處理器

108、160‧‧‧輸出端

110、154‧‧‧天線

112‧‧‧無線傳送

114‧‧‧有線連接線/有線線

150‧‧‧解碼器

156‧‧‧解碼處理器

158‧‧‧經解碼音訊信號

170‧‧‧雜訊估計器

172‧‧‧偵測器

174‧‧‧能量值

176‧‧‧轉換器

178‧‧‧經轉換之能量值

180‧‧‧估計器

182‧‧‧對數資料

S100-S112‧‧‧步驟

在下文中，將參考隨附圖式，描述本發明之實施例，其中：圖1展示實施用於估計待編碼之音訊信號中或經解碼音訊信號中之雜訊的本發明之方法的用於傳送音訊信號之系統之簡化方塊圖，圖2展示根據一實施例的雜訊估計器之簡化方塊圖，該雜訊估計器可用於音訊信號編碼器及/或音訊信號解碼器中，以及圖3展示根據一實施例的描繪用於估計音訊信號中之雜訊的本發明之方法之流程圖。

較佳實施例之詳細說明

在下文中，將更詳細地描述本發明方法之實施例，且應注意，在隨附圖式中，具有相同或類似功能性之元件由相同參考標號表示。

圖1展示在編碼器側及/或在解碼器側實施本發明之方法的用於傳送音訊信號之系統之簡化方塊圖。圖1之系統包含在輸入端102接收音訊信號104之編碼器100。該編碼器包括一編碼處理器106，其接收音訊信號104且產生在編碼器之輸出端108提供的經編碼音訊信號。編碼處理器可經規劃或建置以用於處理音訊信號之連續音訊訊框及用於實施用於估計待編碼之音訊信號104中之雜訊的本發明之方法。在其他實施例中，編碼器不需要為傳送系統之部分，然而，其可為產生經編碼音訊信號之獨立裝置，或其可為音訊信號傳送器之部分。根據一實施例，編碼器100可包括一天線110以允許音訊信號之無線傳送，如在112處所指示。在其他實施例中，編碼器100可使用有線連接線輸出在輸出端108處提供之經編碼音訊信號，如其(例如)在參考標號114處所指示。

圖1之系統進一步包含一解碼器150，其具有接收待由解碼器150處理之經編碼音訊信號(例如，經由有線線 114或經由天線154)的輸入端152。解碼器150包含一解碼處理器156，其對編碼之信號操作且在輸出端160處提供經解碼音訊信號158。解碼處理器可經規劃或建置以用於處理，用於實施估計經解碼音訊信號104中之雜訊的本發明之方法。在其他實施例中，解碼器不需要為傳送系統之部分，相反地，其可為用於解碼經編碼音訊信號之獨立裝置，或其可為音訊信號接收器之部分。

圖2展示根據一實施例的雜訊估計器170之簡化方塊圖。雜訊估計器170可用於圖1中展示之音訊信號編碼器及/或音訊信號解碼器中。雜訊估計器170包括用於判定用於音訊信號102之能量值174的偵測器172、用於將能量值174轉換成對數域(見經轉換之能量值178)的轉換器176及用於基於經轉換之能量值178估計用於音訊信號102之雜訊級182的估計器180。估計器170可由共同處理器或由經規劃或建置用於實施偵測器172、轉換器176及估計器180之功能性的多個處理器實施。

在下文中，將更詳細地描述可實施於圖1之編碼處理器106及解碼處理器156中之至少一者中或由圖2之估計器170實施的本發明方法之實施例。

圖3展示用於估計音訊信號中之雜訊的本發明之方法之流程圖。接收音訊信號，且在第一步驟S100中，判定用於音訊信號之能量值174，接著在步驟S102中，將該能量值轉換成對數域。基於經轉換之能量值178，在步驟S104中，估計雜訊。根據實施例，在步驟S106中，判定關於由對數資料182表示的估計之雜訊資料之進一步處理是否應在對數域中。倘若需要在對數域中之進一步處理(在步驟S106中，是)，則在步驟S108中處理表示估計之雜訊的對數資料，例如，倘若傳送亦發生在對數域中，則將對數資料轉換成傳送參數。否則(在步驟S106中，否)，在步驟S110中，將對數資料182轉換回成線性資料，且在步驟S112中處理線性資料。

根據實施例，在步驟S100中，可如在習知方法中進行判定用於音訊信號之能量值。已應用於音訊信號的FFT之功率頻譜經計算且分群至心理聲學激勵之頻帶內。一頻帶內之功率頻譜區間經累積以每頻帶形成一能量值，使得獲得一組能量值。在其他實施例中，可基於任何合適的頻譜變換來計算功率頻譜，如MDCT(修改之離散餘弦變換)、CLDFB(複雜低延遲濾波器組)或涵蓋頻譜之不同部分的若干變換之組合。在步驟S100中，判定用於每一頻帶之能量值174，且在步驟S102中將用於每一頻帶之能量值174轉換成對數域，根據實施例，轉換成log2域。可如下將頻帶能量轉換成log2域：

根據實施例，執行至log2域之轉換，其有利之處在於，通常可使用「norm」函數(其判定固定點數目中的前導零之數目)在固定點處理器上非常快速地計算(int)log2函數，例如，在一個循環中。有時需要比(int)log2高的精確度，其在上式中由常數N表達。可在norm指令及近似法(其為用於當較低精確度可接受時達成低複雜度對數計算之普通方法)後藉由具有最高有效位元之簡單查找表來達成此稍微較高之精確度。在上式中，添加在log2函數內部之常數「1」以確保經轉換之能量保持正。根據實施例，倘若雜訊估計器依賴於雜訊能量之統計模型，則此可為重要的，因為對負值執行雜訊估計將違背此模型且將導致估計器的未預期之行為。

根據一實施例，在上式中，將N設定至6，其等效於2⁶=64個位元之動態範圍。此大於40個位元之上述動態範圍，且因此足夠。為了處理資料，目標為使用16位元資料，此留下9個位元用於尾數及一個位元用於正負號。通常將此格式表示為「6Q9」格式。替代地，由於可考慮僅正值，因此可避免正負號位元，且將其用於尾數，從而一共10個位元用於尾數，此被稱作「6Q10」格式。

最小統計演算法之詳細描述可在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中發現。其基本上在於針對每一頻譜帶追蹤在給定長度之滑動時間窗上(通常在兩三秒內)的變光滑之功率頻譜之最小值。演算法亦包括偏壓補償以改良雜訊估計之準確性。此外，為了改良時變雜訊之追蹤，可使用在短得多之時間窗上計算的局部最小值來替代原始最小值，限制性條件為其產生估計之雜訊能量的適度增加。在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中藉由參數noise_slope_max判定容許之增加量。根據一實施例，使用最小統計雜訊估計演算法，其習知地對線性能量資料執行。然而，根據本發明者之發現，出於估計音訊材料或語音材料中之雜訊級之目的，可取而代之藉由對數輸入資料對演算法饋入。雖然信號處理自身保持未修改，但僅需要最小重調，其在於減小參數noise_slope_max以應對對數資料之減小的動態範圍(與線性資料相比)。迄今為止，假定需要對線性資料執行最小統計演算法或其他合適雜訊估計技術，亦即，實際上為對數表示之資料被假定為不合適。與此習知假定相反，本發明者發現可實際上基於允許使用僅按16個位元表示之輸入資料的對數資料執行雜訊估計，因此，其提供固定點實施中之低得多之複雜度，因為多數操作可在16個位元中進行，且僅演算法之一些部分仍需要32個位元。舉例而言，在最小統計演算法中，偏差補償係基於輸入功率之方差，因此，通常仍需要32位元表示之四階統計。

如上已關於圖3描述，可以不同方式進一步處理雜訊估計過程之結果。根據實施例，第一方式為直接使用對數資料182，如在步驟S108中所展示，例如，藉由將對數資料182直接轉換成傳送參數(若亦在對數域中傳送此等參數，情況通常如此)。第二方式為處理對數資料182，使得將其轉換回成線性域供進一步處理，例如，使用通常非常快且通常需要處理器上之僅一個循環的移位函數，連同表查找或藉由使用近似法，例如：

在下文中，將參照編碼器來描述用於實施用於基於對數資料估計雜訊的本發明之方法之詳細實例，然而，如上所概述，本發明之方法亦可應用於已經在解碼器中解碼之信號，如其(例如)在PCT/EP2012/077525或PCT/EP2012/077527中所描述，兩者皆被以引用的方式併入本文中。以下實施例描述用於估計音訊編碼器(如圖1中之編碼器100)中之音訊信號中之雜訊的本發明之方法之一實施。更具體言之，將給出用於實施用於估計在增強型話音服務(EVS)編碼器處接收之音訊信號中之雜訊的本發明之方法的EVS寫碼器之信號處理演算法之描述。

假定呈16位元均勻PCM(脈碼調變)格式的20ms長度之音訊樣本之輸入區塊。假定四個取樣率，例如，8 000、16 000、32 000及48 000個樣本/秒，且針對經編碼位元串流的位元率可為5.9、7.2、8.0、9.6、13.2、16.4、24.4、32.0、48.0、64.0或128.0kbit/s。亦可提供AMR-WB(自適應多速率寬頻(編碼解碼器))可互操作模式，其在6.6、8.85、12.65、14.85、15.85、18.25、19.85、23.05或23.85kbit/s的用於經編碼位元串流之位元率下操作。

出於以下描述之目的，以下慣例應用於數學表達：指示小於或等於x之最大整數：，且；Σ 指示求和；除非另有指定，否則貫穿以下描述，log(x)表示基數10之對數。

編碼器接受按48、32、16或8kHz取樣之滿頻(FB)、超寬頻(SWB)、寬頻(WB)或窄頻(NB)信號。類似地，解碼器輸出可為48、32、16或8kHz FB、SWB、WB或NB。參數R(8、16、32或48)用以指示在編碼器處之輸入取樣速率或在解碼器處之輸出取樣速率。

使用20ms訊框處理輸入信號。編碼解碼器延遲取決於輸入及輸出之取樣速率。對於WB輸入及WB輸出，總演算法延遲為42.875ms。其由一個20ms訊框、輸入及輸出重新取樣濾波器之1.875ms延遲、預見的用於編碼器之10ms、1ms之濾波後延遲及在解碼器處允許較高層變換譯碼之重疊相加運算的10ms組成。對於NB輸入及NB輸出，不使用較高層，但在不存在訊框抹除之情況下及針對音樂信號，使用10ms解碼器延遲改良編碼解碼器性能。對於NB輸入及NB輸出之總演算法延遲為43.875ms──一個20ms訊框、於輸入重新取樣濾波器2ms、於編碼器預見10ms、於輸出重新取樣濾波1.875ms及解碼器中之10ms延遲。若輸出限於層2，則可將編碼解碼器延遲減小10ms。

編碼器之一般功能性包含以下處理區段：共同處理、CELP(程式碼激發之線性預測)寫碼模式、MDCT(修改之離散餘弦變換)寫碼模式、切換寫碼模式、訊框抹除隱藏旁側資訊、DTX/CNG(不連續傳送/舒適雜訊產生器)操作、AMR-WB可互操作選項及通道意識編碼。

根據本實施例，本發明之方法實施於DTX/CNG操作區段中。編碼解碼器裝備有信號活動偵測(SAD)演算法以用於將每一輸入訊框分類為作用中或非作用中。其支援不連續傳送(DTX)操作，其中頻域舒適雜訊產生(FD-CNG)模組用以估算及更新在可變位元率處的背景雜訊之統計。因此，在非作用中信號週期期間之傳送速率係可變的，且取決於背景雜訊的估計之等級。然而，藉由命令行參數，CNG更新速率亦可為固定的。

為了能夠產生類似於實際輸入背景雜訊之假雜訊(就頻譜-時間特性而言)，FD-CNG使用雜訊估計演算法追蹤在編碼器輸入端處存在的背景雜訊之能量。接著按SID(靜默插入描述符)訊框之形式將雜訊估計作為參數傳送以更新在非作用中階段期間在解碼器側處在每一頻帶中產生的隨機序列之振幅。

FD-CNG雜訊估計器依賴於混合頻譜分析方法。對應於核心頻寬之低頻率由高解析度FFT分析涵蓋，然而其餘較高頻率由展現400Hz之顯著較低頻譜解析度的CLDFB捕獲。注意，CLDFB亦用作重新取樣工具來減少取樣輸入信號至核心取樣速率。

然而，實務上，SID訊框之大小受到限制。為了減少描述背景雜訊的參數之數目，平均在叫作結果中之分割區的頻譜帶之群組當中之輸入能量。

1. 頻譜分割區能量

針對FFT與CLDFB頻帶分開來計算分割區能量。對應於FFT分割區之能量與對應於CLDFB分割區之能量接著經串接至大小之單一陣列E _FD-CNG，其將充當至以下描述之雜訊估計器的輸入(見「2.FD-CNG雜訊估計」)。

1.1 FFT分割區能量之計算

如下獲得用於涵蓋核心頻寬的頻率之分割區能量

其中及分別為用於第一及第二分析窗之臨界頻帶i中的平均能量。根據使用之組配，捕獲核心頻寬的FFT分割區之數目範圍在17與21之間(見「1.3 FD-CNG編碼器組配」)。使用去加重頻譜權重H _de-emph(i)來補償高通濾波，且將其如下定義

1.2 CLDFB分割區能量之計算

將用於高於核心頻寬之頻率的分割區能量計算為

其中j _min(i)及j _max(i)分別為第i個分割區中的第一及最後一個CLDFB頻帶之索引，E _CLDFB(j)為第j個CLDFB頻帶之總能量，且A _CLDFB為比例因數。常數16指CLDFB中的時槽之數目。CLDFB分割區L _CLDFB之數目取決於使用之組配，如以下所描述。

1.3 FD-CNG編碼器組配

下表列出分割區之數目及其針對在編碼器處之不同FD-CNG組配的上邊界。

對於每一分割區i=0,...,L _SID-1，f _max(i)對應於第i個分割區中的最後一個頻帶之頻率。每一頻譜分割區中的第一及最後一個頻帶之索引j _min(i)及j _max(i)可作為核心之組配之函數而導出，如下：

其中f _min(0)=50Hz為第一頻譜分割區中的第一頻帶之頻率。因此，FD-CNG產生僅高於50Hz之某些舒適雜訊。

2. FD-CNG雜訊估計

FD-CNG依賴於雜訊估計器追蹤輸入頻譜中存在的背景雜訊之能量。此主要地基於由R.Martin描述之最小統計演算法(「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」，2001)。然而，為了減小輸入能量{E _FD-CNG(0),...,E _FD-CNG(L _SID-1)}之動態範圍且因此有助於雜訊估計演算法之固定點實施，在雜訊估計前應用非線性變換(見「2.1用於輸入能量之動態範圍壓縮」)。接著對所得雜訊估計使用反變換以恢復原始動態範圍(見「2.3針對估計之雜訊能量的動態範圍擴展」)。

2.1 用於輸入能量之動態範圍壓縮

輸入能量經藉由非線性函數處理且按9位元解析度量化，如下：

2.2 雜訊追蹤

最小統計演算法之詳細描述可在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中發現。其基本上在於針對每一頻譜帶追蹤在給定長度之滑動時間窗上(通常在兩三秒內)的變光滑之功率頻譜之最小值。演算法亦包括偏壓補償以改良雜訊估計之準確性。此外，為了改良時變雜訊之追蹤，可使用在短得多之時間窗上計算的局部最小值來替代原始最小值，限制性條件為其產生估計之雜訊能量的適度增加。在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中藉由參數noise_slope_max判定容許之增加量。

雜訊追蹤器之主要輸出為雜訊估計N _MS(i), i=0,...,L _SID-1。為了獲得舒適雜訊中之較平滑轉變，可應用一階遞歸濾波器，亦即，。

此外，平均在最後5個訊框上之輸入能量E _MS(i)。此用以應用關於每一頻譜分割區中之的上限。

2.3 針對估計之雜訊能量的動態範圍擴展

估計之雜訊能量藉由非線性函數處理以補償上文所描述之動態範圍壓縮：

根據本發明，描述用於估計音訊信號中之雜訊的改良之方法，其允許減小雜訊估計器之複雜度，尤其對於使用固定點算術在處理器上處理之音訊/語音信號。本發明之方法允許減小用於音訊/話語信號處理所用之雜訊估計器的動態範圍，例如，在於PCT/EP2012/077527(其指按高頻譜-時間解析度產生舒適雜訊)中或於PCT/EP2012/077527(其指用於按低位元率模型化背景雜訊之舒適雜訊添加)中所描述之環境中。在所描述之情境中，使用基於最小統計演算法操作之雜訊估計器，以用於增強背景雜訊之品質或用於針對有雜訊之語音信號的舒適雜訊產生，例如，在存在背景雜訊之情況下的語音，此為電話呼叫中之非常普通情形及EVS編碼解碼器之受測試種類中之一者。根據標準化之EVS編碼解碼器將使用具有固定算術之處理器，且本發明之方法允許藉由減小用於最小統計雜訊估計器的信號之動態範圍(藉由處理用於在對數域中且不再在線性域中的音訊信號之能量值)來減小處理複雜度。

雖然已在一設備之上下文中來描述所描述之概念之一些態樣，但明顯地，此等態樣亦表示對應的方法之描述，其中一區塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地，方法步驟之上下文中所描述之態樣亦表示對應區塊或物品或對應設備之特徵的描述。

取決於某些實施要求，本發明之實施例可以硬體或軟體實施。實施可使用數位儲存媒體來執行，該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該媒體具有儲存於其上之電子可讀控制信號，該電子可讀控制信號與可規劃電腦系統合作(或能夠合作)，使得各別方法被執行。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，其能夠與可規劃電腦系統合作，使得執行本文中所描述之方法中的一者。

通常，本發明之實施例可實施為具有程式碼之電腦程式產品，當電腦程式產品在電腦上執行時，程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。

換言之，因此，本發明之方法之一實施例為具有用於當電腦程式在電腦上執行時執行本文中所描述之方法中的一者的程式碼之電腦程式。

因此，本發明之方法之再一實施例為資料載體 (或數位儲存媒體，或電腦可讀媒體)，該資料載體包含記錄於其上的用於執行本文中所描述之方法中的一者之電腦程式。

因此，本發明之方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如，經由網際網路)而傳送。

另一實施例包含處理構件，例如，經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。

再一實施例包含其上安裝有用於執行本文中所描述之方法中的一者的電腦程式之電腦。

在一些實施例中，可規劃邏輯裝置(例如，場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作，以便執行本文中所描述之方法中的一者。通常，該等方法較佳地由任一硬體設備執行。

上述實施例僅說明本發明之原理。應理解，對本文中所描述之組配及細節的修改及變化將對熟習此項技術者顯而易見。因此，意圖為僅受到接下來之申請專利範圍之範疇限制，而不受到藉由本文中之實施例之描述解釋所呈現的特定細節限制。

102‧‧‧輸入端

174‧‧‧能量值

178‧‧‧經轉換之能量值

182‧‧‧對數資料

S100-S112‧‧‧步驟

Claims

一種用於估計一音訊信號中之雜訊之方法，該方法包含：判定用於該音訊信號之一能量值；將該能量值轉換成log2域；以及在使用固定點算術的一處理器上基於直接在該log2域中之該經轉換能量值估計該音訊信號之一雜訊級。
如請求項1之方法，其中估計該雜訊級包含執行一預定義之雜訊估計演算法，如最小統計演算法。
如請求項1之方法，其中判定該能量值包含藉由將該音訊信號變換成頻域來獲得該音訊信號之一功率頻譜，將該功率頻譜分群至心理聲學激勵之頻帶內，及聚積在一頻帶內之該等功率頻譜區間以針對每一頻帶形成一能量值，其中每一頻帶之該能量值經轉換成該對數域，且其中基於該對應的經轉換能量值針對每一頻帶估計一雜訊級。
如請求項1之方法，其中該音訊信號包含多個訊框，且其中對於每一訊框，該能量值經判定且轉換成該對數域，且基於該經轉換能量值針對一訊框之每一頻帶估計該雜訊級。
如請求項1之方法，其中該能量值經轉換成該對數域，如下： floor(x),E _{n_log} 該log2域中的頻帶n之能量值，E _{n_lin} 該線性域中的頻帶n之能量值，N 量化解析度。
如請求項1之方法，其中基於該經轉換能量值估計該雜訊級產生對數資料，且其中該方法進一步包含：將該對數資料直接用於進一步處理，或將該對數資料轉換回該線性域供進一步處理。
如請求項6之方法，其中倘若一傳送在該對數域中完成，則將該對數資料直接轉換成傳送資料，以及將該對數資料直接轉換成傳送資料使用一移位函數，連同一查找表或一近似法，例如，。
一種非暫時性電腦程式產品，其包含儲存指令之一電腦可讀媒體，該等指令當在一電腦上執行時進行如請求項1之方法。
一種雜訊估計器，其包含：一偵測器，其經組配以判定用於該音訊信號之一能量值；一轉換器，其經組配以將該能量值轉換成log2域；以及一估計器，其經組配以基於直接在該log2域中之該經轉換能量值估計該音訊信號之一雜訊級，該估計器包含使用固定點算術的一處理器。
一種音訊編碼器，其包含如請求項9之一雜訊估計器。
一種音訊解碼器，其包含如請求項9之一雜訊估計器。
一種用於傳送音訊信號之系統，該系統包含：一音訊編碼器，其經組配以基於一接收之音訊信號產生經寫碼音訊信號；以及一音訊解碼器，其經組配以接收該經寫碼音訊信號，以解碼該經寫碼音訊信號，以及輸出該經解碼音訊信號，其中該音訊編碼器及該音訊解碼器中之至少一者包含如請求項9之一雜訊估計器。