TWI576834B

TWI576834B - 聲頻訊號的雜訊偵測方法與裝置

Info

Publication number: TWI576834B
Application number: TW104106484A
Authority: TW
Inventors: 許宗奇
Original assignee: 聯詠科技股份有限公司
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2017-04-01
Also published as: US20160260442A1; CN106205637A; TW201633293A; US9431024B1; CN106205637B

Description

聲頻訊號的雜訊偵測方法與裝置

本發明是有關於一種處理聲頻訊號的方法與裝置，且特別是有關於一種聲頻訊號的雜訊偵測方法與裝置。

一般在進行語音或音樂等聲頻訊號的處理程序時，首先會偵測聲頻訊號中的背景噪音。此背景噪音又可稱為雜亂噪音或白噪音，其為不必要的雜訊而必須從聲頻訊號中移除。目前有三種方案可用來估測白噪音。

第一種方案是藉由計算移動平均來追蹤聲頻訊號的訊號強度，然後利用能量大小的改變來估計出聲頻訊號中的噪音。然而，此種方式無法即時估測噪音能量，且若噪音變動劇烈時，甚至可能導致估測結果失準。第二種方案是使用亂度統計，但此方法的計算量龐大，且統計的時間長短會影響噪音估測的準確度而難以決定。第三種方案則使用模型比對，但估測結果的準確度將與聲音訓練資料呈現強相關性，導致噪音的估計結果難以控制。

本發明提供一種聲頻訊號的雜訊偵測方法與裝置，能夠準確偵測出聲頻訊號中的雜訊，並可適用於噪音劇烈改變的情況。

本發明的聲頻訊號的雜訊偵測方法包括以下步驟：轉換一聲頻訊號為多個音框，其中上述多個音框以一目標音框為中心依時間順序排列；計算每一上述音框的多個頻譜分量分別對應的多個幅度；計算在時間頻率域中相鄰的上述多個幅度之間的差異，以獲得在時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量，其中時間頻率域根據上述多個音框所定義；根據上述多個差異量決定上述多個幅度在時間頻率域中的最大差異程度；以及根據最大差異程度判斷聲頻訊號對應目標音框的部分是否為雜訊。

本發明的聲頻訊號的雜訊偵測裝置包括儲存裝置與處理器。處理器耦接儲存裝置，將上述多個幅度存入儲存裝置，並執行上述的聲頻訊號的雜訊偵測方法。

基於上述，本發明實施例所提出的聲頻訊號的雜訊偵測方法與裝置，能夠經由簡單的運算便可快速偵測出聲頻訊號中的雜訊，且即使在噪音劇烈改變的情況也能夠有效且準確地進行偵測。

100‧‧‧雜訊偵測裝置

120‧‧‧儲存裝置

140‧‧‧處理器

300‧‧‧聲頻訊號

500‧‧‧時間頻率域

510、SI_1、SI_2‧‧‧頻譜資訊

610、620、630、640‧‧‧方向

Diff_LR、Diff_LR₁、Diff_LR₂、Diff_UD₁、Diff_UD₂、Diff_LuRd₁、Diff_LuRd₂、Diff_LdRu₁、Diff_LdRu₂‧‧‧差異量

F₁、F₂、F₃、F_c-1、F_c、F_c+1、F_c+2、F_m‧‧‧音框

Gradient_LR、Gradient_LR₁、Gradient_LR₂、Gradient_LR_c-1、Gradient_LR_c、Gradient_LR_c+1、Gradient_LR_m-1、Gradient_UD、Gradient_LuRd、Gradient_LdRu‧‧‧梯度分量

GR₀~GR_k-1‧‧‧運算結果

I₀~I_k-1‧‧‧頻譜分量

MRD‧‧‧最大差異程度

RD1、RD2‧‧‧差異程度

R1、R2‧‧‧最大比例

S210~S250、S310~S350、S362~S366、S370~S380、S382~S384、S410~S430、S422~S424、S432~S438‧‧‧方法步驟

THR‧‧‧門檻值

圖1是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測裝置的示意圖。

圖2是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測方法的流程圖。

圖3與圖4是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測方法的示意圖。

圖5、圖6與圖7是依照本發明一實施例所繪示的計算在時間頻率域中相鄰的多個幅度之間的差異的示意圖。

本發明實施例在聲頻訊號的處理程序上，提出一種快速且精確的偵測背景雜訊的方法，其將聲頻訊號轉換至頻域以取得頻譜資訊，並將頻譜上的多個幅度根據時段及頻段而展開成一時間頻率域。在此時間頻率域中，根據正交方向統計上述多個幅度之間的變化並據以獲得最大差異程度。利用背景雜訊的能量在短時間內幾乎為相同的特性，故當上述的最大差異程度仍小於設定門檻值時，便可將此最大差異程度所對應的目標音框判定為聲頻訊號中的雜訊區段。相對於習知技術是統計目前音框之前的能量改變，本發明實施例藉由統計在目標音框的前後一段時間之內的頻譜資訊，可使雜訊偵測更加準確。此外，由於僅需使用簡單的運算指令，有助於降低計算量並實現快速偵測。再者，考慮低訊噪比的情況，則還可對上述多個幅度所展開的時間頻率域執行二維低通濾波動作，以藉由多重頻率解析度來進一步提升雜訊偵測的準確度。

圖1是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測裝置100的示意圖。雜訊偵測裝置100包括儲存裝置120與處理器140。處理器140耦接儲存裝置120。處理器140可執行圖2至圖7所示的聲頻訊號的雜訊偵測方法，以快速且準確地偵測出聲頻訊號中的雜訊。此聲頻訊號例如是將類比訊號格式的原始聲頻訊號經由類比數位轉換後所產生的數位訊號。上述的原始聲頻訊號可以是透過麥克風所接收的使用者的語音指令，或是由電視、CD播放器等電子裝置所發出的聲音訊號。所述雜訊則例如是背景白噪音或是在特定頻率區段具有較強幅度的有色噪音(例如紅噪音等)。另外，處理器140例如是運用脈衝編碼調變(Pulse-Code Modulation，PCM)以進行類比數位轉換動作。儲存裝置120可儲存上述聲頻訊號以及上述方法所需的或所產生的各種數值與資料。

圖2是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測方法的流程圖。處理器140對聲頻訊號中的每一音框執行圖2所示的流程。以下若將處理器140正在執行雜訊偵測的音框稱為目前音框，則處理器140便是取得目前音框及其鄰近數個時段內的音框所對應的頻譜資訊，從而判斷目前音框是否為聲頻訊號中的雜訊區段(Segment)。

在此說明圖2的流程。首先，在步驟S210中，處理器140 轉換一聲頻訊號為多個音框(Frame)，其中上述多個音框以目標音框為中心依時間順序排列。這些音框包括目標音框以及以目標音框為中心的前後一段時間內的其他數個音框，用以在後續步驟中提供對於偵測目標音框是否為雜訊所需的相關頻譜資訊。

在步驟S220中，處理器140計算每一音框的多個頻譜分量分別對應的多個幅度。詳言之，處理器140例如是使用快速傅立葉轉換(Fast Fourier Transform，FFT)，藉此獲得每一音框的頻譜以進行分析。其中，所述頻譜可以包括多個頻譜分量，且各頻譜分量包括實部與虛部。處理器140可藉由計算每一頻譜分量的實部的平方與虛部的平方的總和後再開方根，即可得出每一頻譜分量的絕對值，並且以此絕對值作為每一頻譜分量的幅度。

因此，經由步驟S210~S220的流程，處理器140可將聲頻訊號轉換至頻域，並且取得每一音框的頻譜資訊以及每一頻譜分量的幅度。處理器140可根據音框及上述頻譜分量所分別決定的時段及頻段，而將這些幅度展開為一平面以形成二維的時間頻率域。換言之，此時間頻率域可根據上述多個音框所定義。其中，時間頻率域的時間軸可根據取樣上述多個音框的時間順序所決定，且時間頻率域的頻率軸可根據取樣上述多個音框的上述多個頻譜分量所決定。處理器140可將此時間頻率域中的上述多個幅度存入儲存裝置120。

在步驟S230中，處理器140計算在時間頻率域中相鄰的上述多個幅度之間的差異，以獲得在時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量。之後，在步驟S240中，處理器140根據上述多個差異量決定上述多個幅度在時間頻率域中的最大差異程度。

進一步而言，處理器140例如是對時間頻率域中的相鄰幅度進行梯度(Gradient)運算或是一階微分運算，藉此得到幅度之間的變化情形。處理器140並可統計上述梯度在時間頻率域中互為正交的方向上的分量，以利用在正交方向上的梯度分量之間的比例關係來表示上述多個幅度在此時間頻率域中的最大差異程度。簡單來說，利用正交方向能夠有效擷取出對於時間頻率域的整體幅度的指標性資訊，因此處理器140便可利用統計正交方向上的幅度變化來表示在時間頻率域中的所有幅度之間的差異。

需說明的是，利用背景雜訊的能量在短時間內幾乎為相同的特性，本領域技術人員應可輕易明瞭，雜訊在上述時間頻率域中互為正交的兩個方向上所統計出的相鄰幅度的變化情形也應幾乎為相同。基於上述，若處理器140根據互為正交的兩個方向來統計上述多個幅度的變化，則所取得的最大差異程度將會大於1並且接近於1。因此，在步驟S250中，處理器140可根據前述步驟所計算出的最大差異程度來判斷聲頻訊號對應目標音框的部分是否為雜訊。例如，處理器140可設定用來辨識對應有效訊號的最低能量幅度的一門檻值，當上述最大差異程度低於此門檻值時，處理器140便可判定聲頻訊號對應目標音框的部分為雜訊。

藉此，本實施例僅需在時間頻率域中互為正交的兩個方向上進行簡單運算，即可找出目標音框的幅度在上述兩個正交方向上的最大差異程度並據以判斷雜訊。特別是，由於上述的計算流程考慮了資料之間的相關性，故可避免習知技術中利用機率計算亂度而容易發生遺失資訊的情況。再加上，本實施例是利用統計來對頻譜資訊進行分析，故偵測結果不易受到其他因素影響而產生波動，可直接與選定的門檻值進行比較，如此一來，能夠更快速且有效地偵測出聲頻訊號中的雜訊。

以下再舉實施例以進一步說明。圖3是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測方法的示意圖。在步驟S310中，雜訊偵測裝置100接收類比訊號格式的聲頻訊號300，並對聲頻訊號300進行脈衝編碼調變(PCM)，以獲得數位訊號格式的聲頻訊號300。在其他實施例中，雜訊偵測裝置100可直接接收數位訊號格式的聲頻訊號300，因此上述步驟S310可以省略。

在步驟S320中，處理器140將數位訊號格式的聲頻訊號300轉換成多個音框，並對每一音框進行快速傅立葉轉換(FFT)，以將時域的聲頻訊號300轉換至頻域。在步驟S330中，處理器140例如對每一音框計算每一頻譜分量的實部的平方與虛部的平方的總和後再開方根，即可得出每一頻譜分量的絕對值，並且以此絕對值以作為每一頻譜分量的幅度。此幅度可用以表示每一頻譜分量對應的能量強度。

之後，在步驟S340中，處理器140將上述多個幅度存入儲存裝置120。值得一提的是，儲存裝置120例如包括環形緩衝區 (Ring Buffer)，用以儲存當處理器140正對目標音框F_c進行雜訊偵測時所需的相關頻譜資訊。上述的相關頻譜資訊可包括目標音框F_c及其鄰近音框的頻譜資訊，例如目標音框F_c的每一頻譜分量的幅度、在目標音框F_c之前一段時間內的多個音框F₁、F₂…F_c-1分別在每一頻譜分量的幅度，以及在目標音框F_c之後一段時間內的多個音框F_c+1、F_c+2…F_m分別在每一頻譜分量的幅度。在本實施例中，上述m個音框F₁、F₂、F₃…F_c、…F_m以目標音框F_c為中心並依照時間順序排列，且處理器140可依據上述音框分別對應的時段而將各音框的頻譜資訊(例如圖3中所標示的音框F₁對應的頻譜資訊SI_1)依序存入儲存裝置120的環形緩衝區。此外，隨著目標音框F_c的改變，儲存裝置120的環形緩衝區所儲存的上述頻譜資訊也隨之更新。

接下來，在步驟S350中，處理器140便可藉由在儲存裝置120的環形緩衝區中所儲存的頻譜資訊，以偵測聲頻訊號300對應目標音框F_c的部分是否為雜訊。

圖4是依照本發明一實施例所繪示的一種聲頻訊號的雜訊偵測方法的示意圖，其用以說明在上述步驟S350中，處理器140偵測聲頻訊號300對應目標音框F_c的部分是否為雜訊的詳細流程。

首先，在步驟S410中，處理器140取得與目標音框F_c相關的頻譜資訊。在本實施例中，處理器140例如是取得以目標音框F_c為中心的m個音框F₁、F₂、F₃…F_c、…F_m在快速傅立葉轉換的頻譜上的多個幅度。處理器140將這些幅度根據時段以及頻段而展開為一平面，以形成二維的時間頻率域。例如圖5所示，處理器140可根據m個音框F₁、F₂、F₃…F_c、…F_m以及k個頻譜分量I₀、I₁、I₂…I_k-1而展開成m×k的時間頻率域500。其中，上述m×k的維度可視為是對聲頻訊號300進行雜訊偵測的解析度。在一範例中，m例如為9且k例如為128。圖5中所標示的頻譜資訊510例如包括目標音框F_c的每一頻譜分量的幅度。

接著，在步驟S420中，處理器140決定在時間頻率域500中互為正交的至少兩個方向，並且計算在時間頻率域500中相鄰的多個幅度之間的差異，以及在上述互為正交的至少兩個方向上分別對應的多個差異量。

例如圖6所示，在時間頻率域500中，處理器140可使用互為正交的方向610(即水平方向)及方向620(即垂直方向)來計算在時間頻率域500中相鄰的多個幅度之間的差異程度。此外，處理器140也可使用互為正交的方向630及方向640來計算在時間頻率域500中相鄰的多個幅度之間的差異程度。在本實施例中，方向610可由時段增加的方向所決定，方向620可由頻段增加的方向所決定，方向630可由頻段增加且時段增加的方向所決定，方向640則可由時段增加且頻段減少的方向所決定。其中，方向630和方向610之間的夾角為45度角。

在本實施例中，對於互為正交的方向610及方向620而言，處理器140可兩兩計算在方向610上相鄰的幅度以獲得在方向610上的多個梯度分量Gradient_LR，並將這些梯度分量 Gradient_LR累加以獲得時間頻率域500中的多個幅度在方向610上的差異量。並且，處理器140可兩兩計算在方向620上相鄰的幅度以獲得在方向620上的多個梯度分量Gradient_UD，並將梯度分量Gradient_UD累加以獲得時間頻率域500中的多個幅度在方向620上的差異量。

另外，對於互為正交的方向630及方向640而言，處理器140也可兩兩計算在方向630上相鄰的幅度以獲得在方向630上的多個梯度分量Gradient_LuRd，並將這些梯度分量Gradient_LuRd累加以獲得時間頻率域500中的多個幅度在方向630上的差異量。並且，處理器140兩兩計算在方向640上相鄰的幅度以獲得在方向640上的多個梯度分量Gradient_LdRu，並將這些梯度分量Gradient_LdRu累加以獲得時間頻率域500中的多個幅度在方向640上的差異量。

在本實施例中，上述累加梯度分量以獲得多個幅度在各方向上的差異量的動作可再細分成S422、S424兩個步驟，在此以方向610為例，並搭配圖7的示意圖進行說明。在步驟S422中，處理器140先沿時段增加的方向累加在方向610上的多個梯度分量，例如，對應於頻譜分量I₀，處理器140累加梯度分量Gradient_LR₁~Gradient_LR_m-1以獲得運算結果GR₀。此外，對於其他頻譜分量(例如頻譜分量I₁、I₂...)，處理器140也以類似的運算方式以獲得上述頻譜分量分別對應的運算結果(例如運算結果GR₁、GR₂...)。以m×k的時間頻率域500包括k個頻譜分量為例，則在完成步驟S422後，處理器140可對應獲得k個運算結果GR₀~GR_k-1。接著，在步驟S424中，處理器沿頻段增加的方向將上述k個運算結果GR₀~GR_k-1再一次累加，如此一來，便獲得時間頻率域500中的多個幅度在方向610上的差異量Diff_LR。類似地，處理器140可根據上述流程而分別計算出時間頻率域500中的多個幅度在方向620、630、640上的差異量。

接著，在步驟S430中，處理器140根據上述多個差異量決定上述多個幅度在時間頻率域500中的最大差異程度。步驟S430也可細分為步驟S432、S434、S436、S438來進行。其中，處理器140可將上述至少兩個方向中互為正交的上述兩個方向視為一個方向組合，例如將方向610、620視為第一方向組合，以及將方向630、640視為第二方向組合。在每一方向組合中，處理器140可根據比較分別在互為正交的上述兩個方向上的上述多個差異量，以獲得每一上述方向組合對應的最大比例(步驟S436)，以及根據上述多個方向組合分別對應的上述多個最大比例，以設定上述多個最大比例的總和為最大差異程度(步驟S438)。

特別的是，處理器140在步驟S420中計算在時間頻率域500中的差異程度時，還可根據取樣時間順序並以目標音框F_c對應的取樣時間為界而將音框F₁~F_m分成兩個集合，以分別對在時間頻率域500的多個幅度中對應每一上述集合的部分，計算在上述部分中相鄰的上述多個幅度之間的差異，並藉此找出在每一方向組合中的各集合所對應的比例，以比較出其中的最大比例。

進一步而言，處理器140例如是將音框F₁~F_c視為第一集合，據以計算第一集合在互為正交的方向610、620上的差異量，以及計算第一集合在互為正交的方向630、640上的差異量。此外，處理器140並例如是將音框F_c~F_m視為第二集合，並計算第二集合在互為正交的方向610、620上的差異量，以及計算第二集合在互為正交的方向630、640上的差異量。換言之，對於在上述多個幅度中對應每一上述集合的部分，處理器140可計算在上述部分中相鄰的上述多個幅度之間的差異，以獲得每一上述集合在每一上述方向組合中互為正交的上述兩個方向上分別對應的上述多個差異量。

再以圖7為例，處理器140可累加梯度分量Gradient_LR₁~Gradient_LR_c-1以獲得第一集合在方向610上對應的運算結果，並據以計算出差異量Diff_LR₁。此外，處理器140並可累加梯度分量Gradient_LR_c~Gradient_LR_m-1以獲得第二集合在方向610上對應的運算結果，並據以計算出差異量Diff_LR₂。類似地，處理器140可根據上述流程而分別計算出第一集合分別在方向620、630、640上的差異量Diff_UD₁、Diff_LuRd₁、Diff_LdRu₁，以及第二集合分別在方向620、630、640上的差異量Diff_UD₂、Diff_LuRd₂、Diff_LdRu₂。至於運算細節則與前述實施例類似，此處不再贅述。

之後，處理器140便可比較每一上述集合的每一上述方向組合所對應的上述多個差異量以獲得最大值及最小值(步驟 S432)，計算最大值及最小值以獲得每一上述集合的每一上述方向組合所對應的比例(步驟S434)；以及比較每一上述方向組合在每一上述集合分別對應的上述多個比例，以設定上述多個比例中的最大者為該方向組合對應的最大比例(步驟S436)。

因此，在步驟S436之後，處理器140可獲得第一方向組合對應的最大比例R1以及第二方向組合對應的最大比例R2，並在步驟S438中計算最大比例R1、R2的總和R1+R2以作為輸出。上述的總和R1+R2可視為是在時間頻率域500中的多個幅度之間的最大差異程度，並可對應於處理器140執行完圖3的步驟S350之後所獲得的第一差異程度RD1。

值得一提的是，考慮不同訊噪比的狀況下，故若取得聲頻訊號300在較低頻域解析度的頻譜資訊來與時間頻率域500中的頻譜資訊進行比對分析，可以改善低訊噪比時訊號被噪音破壞的情況，有助於提升雜訊偵測的準確度。因此，回到圖3的流程，在步驟S362中，處理器140還可對時間頻率域的上述多個幅度執行二維低通濾波動作，以獲得第二時間頻率域，並在步驟S364中，處理器140將此第二時間頻率域的多個幅度存入儲存裝置120(圖3標示出其中一個音框對應的頻譜資訊SI_2用以示意)。類似地，上述第二時間頻率域的多個幅度可存入儲存裝置120中的另一環形緩衝區。接下來，在步驟S366中，處理器140便可根據在第二時間頻率域中相鄰的多個幅度之間的差異，決定第二時間頻率域中的最大差異程度。換言之，處理器140藉由步驟S366而以另一解析度來對目標音框F_c進行頻譜上的差異分析。步驟S366的詳細流程與步驟S350及圖4的流程類似，故不再說明。

基於上述，若處理器140在執行步驟S350後獲得時間頻率域的最大差異程度為第一差異程度RD1，且在執行步驟S366後獲得第二時間頻率域的最大差異程度為第二差異程度RD2，接著進入步驟S370，處理器140可比較第一差異程度RD1及第二差異程度RD2，以設定第一差異程度RD1及第二差異程度RD2中較大的一者為最大差異程度MRD。

之後，在步驟S380中，處理器140可判斷最大差異程度MRD是否低於一門檻值THR。當最大差異程度MRD低於門檻值THR時，進入步驟S382，處理器140判定聲頻訊號300對應目標音框F_c的部分為雜訊。另一方面，若最大差異程度MRD未低於門檻值THR，則進入步驟S384，處理器140判定聲頻訊號300對應目標音框F_c的部分為有效訊號。之後，處理器140可更新目標音框F_c，並且重複執行圖3的步驟流程，以偵測聲頻訊號300中對應其他音框的部分是否為雜訊。

需說明的是，在一實施例中，處理器140可僅藉由在步驟S340中存入儲存裝置120的時間頻率域的多個幅度來偵測目標音框F_c是否為雜訊。因此，處理器140可直接將步驟S350所獲得的第一差異程度RD1設定為目標音框F_c的頻譜資訊的最大差異程度MRD，並據以執行後續的判斷步驟S380。

此外，在另一實施例中，處理器140也可省略步驟S350，而僅以經過二維低通濾波動作所獲得的第二時間頻率域的多個幅度來進行雜訊偵測。類似地，在此實施例中，步驟S370可以省略，且處理器140可將步驟S366所獲得的第二差異程度RD2直接設定為目標音框F_c的頻譜資訊的最大差異程度MRD，並據以執行後續的判斷步驟S380。

又值得一提的是，在一實施例中，處理器140可只針對單一個方向組合，並且根據在此方向組合中互為正交的兩個方向，來進行相鄰幅度之間的差異量計算。若以方向組合包括互為正交的方向610及方向620為例，則在圖4的步驟S422、S424、S432、S434、S436中關於第二方向組合的方向630及方向640的差異量以及最大比例的計算可以省略，且步驟S438用以比較各方向組合的最大比例的步驟也可省略。

因此，若以第一方向及第二方向來表示上述單一個方向組合中互為正交的兩個方向，則在此實施例中，處理器140可兩兩計算在第一方向上相鄰的上述多個幅度以獲得在第一方向上的多個梯度分量，並累加在第一方向上的上述多個梯度分量以獲得在第一方向上的差異量，以及兩兩計算在第二方向上相鄰的上述多個幅度以獲得在第二方向上的多個梯度分量，並累加在第二方向上的上述多個梯度分量以獲得在第二方向上的差異量。之後，處理器140可比較上述多個差異量以獲得上述多個差異量中的最大值及最小值，並且計算最大值及最小值的比例，便可直接獲得此時間頻率域的多個幅度之間的最大差異程度。

對於上述實施例，處理器140也可根據取樣時間順序並以目標音框對應的取樣時間為界而分成兩個集合，以分別對在時間頻率域500的多個幅度中對應每一上述集合的部分，計算在上述部分中相鄰的上述多個幅度之間的差異，並藉此找出在每一方向組合中的各集合所對應的比例，以比較出其中的最大比例。此部分與前述實施例類似，故不再贅述。

另一方面，在一實施例中，處理器140在步驟S420中也根據其他的分組規則以將音框F₁~F_m分成與前述實施例不同的兩個或兩個以上的集合，藉以計算在時間頻率域500的多個幅度中對應每一上述集合的部分中，相鄰的上述多個幅度之間的差異。上述的分組規則例如可由音框數量、音框取樣時間或是取樣每一音框的頻譜分量所決定，應用本實施例者可視其設計需求或考量整體運算量而適應性地調整。

在其他實施例中，步驟S420的步驟可視情況而調整。在一實施例中，步驟S422、S424的順序可以互換。亦即，此實施例的處理器140可先沿頻段增加的方向累加在一方向上的多個梯度分量，之後再沿時段增加的方向將上述的運算結果再一次累加，以獲得時間頻率域中的多個幅度在此方向上的差異量。上述頻段增加的方向或是時段增加的方向僅為範例說明，本發明並不限制上述累加運算的實施方式，只要能夠將時間頻率域中相鄰的多個幅度之間的變化情形進行統計，並據以作為雜訊的判斷依據，便可適用於本發明。

綜上所述，本發明實施例可僅使用簡單的運算指令，將聲頻訊號轉換為頻域，並根據在時間頻率域中的頻譜資訊，統計在正交方向上的幅度變化以找出最大差異程度，接著便可利用背景雜訊的能量在頻譜中的各個頻段上幾乎為相同的特性，快速偵測出目標音框對應的聲頻訊號的部分是否為雜訊。因此，本發明實施例能夠有效找出聲頻訊號中的雜訊區段，並且降低計算量，特別是對於背景雜訊變化劇烈的情況，本發明實施例仍可有效地進行雜訊偵測。此外，利用多重頻率解析度的偵測方式，可有助於提升偵測準確度。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S250‧‧‧方法步驟

Claims

一種聲頻訊號的雜訊偵測方法，包括：轉換一聲頻訊號為多個音框，其中上述多個音框以一目標音框為中心依時間順序排列；計算每一上述音框的多個頻譜分量分別對應的多個幅度；計算在一時間頻率域中相鄰的上述多個幅度之間的差異，以獲得在該時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量，其中該時間頻率域根據上述多個音框所定義；根據上述多個差異量決定上述多個幅度在該時間頻率域中的一最大差異程度；以及根據該最大差異程度判斷該聲頻訊號對應該目標音框的部分是否為一雜訊。
如申請專利範圍第1項所述的聲頻訊號的雜訊偵測方法，其中該時間頻率域的時間軸根據取樣上述多個音框的時間順序所決定，且該時間頻率域的頻率軸根據取樣上述多個音框的上述多個頻譜分量所決定。
如申請專利範圍第1項所述的聲頻訊號的雜訊偵測方法，其中上述至少兩個方向包括一第一方向以及一第二方向，且獲得在該時間頻率域中互為正交的上述至少兩個方向上分別對應的上述多個差異量的步驟包括：兩兩計算在該第一方向上相鄰的上述多個幅度以獲得在該第一方向上的多個梯度分量；累加在該第一方向上的上述多個梯度分量以獲得在該第一方向上的該差異量；兩兩計算在該第二方向上相鄰的上述多個幅度以獲得在該第二方向上的多個梯度分量；以及累加在該第二方向上的上述多個梯度分量以獲得在該第二方向上的該差異量。
如申請專利範圍第3項所述的聲頻訊號的雜訊偵測方法，其中根據上述多個差異量決定上述多個幅度在該時間頻率域中的該最大差異程度的步驟包括：比較上述多個差異量以獲得上述多個差異量中的一最大值及一最小值；以及計算該最大值及該最小值的一比例以獲得該最大差異程度。
如申請專利範圍第3項所述的聲頻訊號的雜訊偵測方法，其中該些音框根據取樣時間順序並以該目標音框對應的取樣時間為界而分成兩個集合，且獲得在該時間頻率域中互為正交的上述至少兩個方向上分別對應的上述多個差異量的步驟更包括：對於在上述多個幅度中對應每一上述集合的部分，計算在該部分中相鄰的上述多個幅度之間的差異以獲得每一上述集合在互為正交的該至少兩個方向上分別對應的上述多個差異量。
如申請專利範圍第5項所述的聲頻訊號的雜訊偵測方法，其中根據上述多個差異量決定上述多個幅度在該時間頻率域中的該最大差異程度的步驟包括：比較每一上述集合在互為正交的上述至少兩個方向上分別對應的上述多個差異量以獲得每一上述集合的上述多個差異量中的一最大值及一最小值；計算每一上述集合的該最大值及該最小值的一比例；以及比較上述多個集合分別對應的上述多個比例以設定最大的該比例為該最大差異程度。
如申請專利範圍第3項所述的聲頻訊號的雜訊偵測方法，其中該至少兩個方向更包括一第三方向以及一第四方向，其中該第三方向及該第四方向互為正交，該第三方向與該第一方向之間的夾角為45度角，且根據相鄰的該些幅度之間的差異以獲得該些差異量的步驟更包括：兩兩計算在該第三方向上相鄰的上述多個幅度以獲得在該第三方向上的多個梯度分量；累加在該第三方向上的上述多個梯度分量以獲得在該第三方向上的該差異量；兩兩計算在該第四方向上相鄰的上述多個幅度以獲得在該第四方向上的多個梯度分量；以及累加在該第四方向上的上述多個梯度分量以獲得在該第四方向上的該差異量。
如申請專利範圍第7項所述的聲頻訊號的雜訊偵測方法，其中根據上述多個差異量決定上述多個幅度在該時間頻率域中的該最大差異程度的步驟包括：將該至少兩個方向中互為正交的上述兩個方向視為一個方向組合；在每一方向組合中，根據比較分別在互為正交的上述兩個方向上的上述多個差異量，以獲得每一上述方向組合對應的一最大比例；以及根據上述多個方向組合分別對應的上述多個最大比例，以設定上述多個最大比例的總和為該最大差異程度。
如申請專利範圍第8項所述的聲頻訊號的雜訊偵測方法，其中該些音框根據取樣時間順序並以該目標音框對應的取樣時間為界而分成兩個集合，且根據比較分別在互為正交的上述兩個方向上的上述多個差異量，以獲得每一上述方向組合對應的該最大比例的步驟包括：對於在上述多個幅度中對應每一上述集合的部分，計算在該部分中相鄰的上述多個幅度之間的差異，以獲得每一上述集合在每一上述方向組合中互為正交的上述兩個方向上分別對應的上述多個差異量；比較每一上述集合的每一上述方向組合所對應的上述多個差異量以獲得一最大值及一最小值；計算該最大值及該最小值以獲得每一上述集合的每一上述方向組合所對應的一比例；以及比較每一上述方向組合在每一上述集合分別對應的上述多個比例，以設定最大的該比例為該方向組合對應的該最大比例。
如申請專利範圍第1項所述的聲頻訊號的雜訊偵測方法，其中根據該最大差異程度判斷該聲頻訊號對應該目標音框的部分是否為該雜訊的步驟包括：當該最大差異程度低於一門檻值時，判定該聲頻訊號對應該目標音框的部分為該雜訊。
如申請專利範圍第1項所述的聲頻訊號的雜訊偵測方法，更包括：對該時間頻率域的上述多個幅度執行二維低通濾波動作，以獲得一第二時間頻率域；以及根據在該第二時間頻率域中相鄰的多個幅度之間的差異，決定該第二時間頻率域中的最大差異程度。
如申請專利範圍第11項所述的聲頻訊號的雜訊偵測方法，其中根據該最大差異程度判斷該聲頻訊號對應該目標音框的部分是否為該雜訊的步驟包括：該時間頻率域的該最大差異程度為一第一差異程度，該第二時間頻率域的該最大差異程度為一第二差異程度；以及比較該第一差異程度及該第二差異程度，以設定該第一差異程度及該第二差異程度中較大的一者為該最大差異程度。
一種聲頻訊號的雜訊偵測裝置，包括：一儲存裝置；以及一處理器，耦接該儲存裝置，轉換一聲頻訊號為多個音框，其中上述多個音框以一目標音框為中心依時間順序排列，該處理器計算每一上述音框的多個頻譜分量分別對應的多個幅度，並將上述多個幅度存入該儲存裝置，該處理器計算在一時間頻率域中相鄰的上述多個幅度之間的差異，以獲得在該時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量，其中該時間頻率域根據上述多個音框所定義，該處理器根據上述多個差異量決定上述多個幅度在該時間頻率域中的一最大差異程度，以及根據該最大差異程度判斷該聲頻訊號對應該目標音框的部分是否為一雜訊。
如申請專利範圍第13項所述的聲頻訊號的雜訊偵測裝置，其中該時間頻率域的時間軸根據取樣上述多個音框的時間順序所決定，且該時間頻率域的頻率軸根據取樣上述多個音框的上述多個頻譜分量所決定。
如申請專利範圍第13項所述的聲頻訊號的雜訊偵測裝置，其中上述至少兩個方向包括一第一方向以及一第二方向，且該處理器兩兩計算在該第一方向上相鄰的上述多個幅度以獲得在該第一方向上的多個梯度分量，累加在該第一方向上的上述多個梯度分量以獲得在該第一方向上的該差異量，並且兩兩計算在該第二方向上相鄰的上述多個幅度以獲得在該第二方向上的多個梯度分量，以及累加在該第二方向上的上述多個梯度分量以獲得在該第二方向上的該差異量。
如申請專利範圍第15項所述的聲頻訊號的雜訊偵測裝置，其中該處理器比較上述多個差異量以獲得上述多個差異量中的一最大值及一最小值，以及計算該最大值及該最小值的一比例以獲得該最大差異程度。
如申請專利範圍第15項所述的聲頻訊號的雜訊偵測裝置，其中該些音框根據取樣時間順序並以該目標音框對應的取樣時間為界而分成兩個集合，且對於在上述多個幅度中對應每一上述集合的部分，該處理器計算在該部分中相鄰的上述多個幅度之間的差異以獲得每一上述集合在互為正交的該至少兩個方向上分別對應的上述多個差異量。
如申請專利範圍第17項所述的聲頻訊號的雜訊偵測裝置，其中該處理器比較每一上述集合在互為正交的上述至少兩個方向上分別對應的上述多個差異量以獲得每一上述集合的上述多個差異量中的一最大值及一最小值，計算每一上述集合的該最大值及該最小值的一比例，以及比較上述多個集合分別對應的上述多個比例以設定最大的該比例為該最大差異程度。
如申請專利範圍第15項所述的聲頻訊號的雜訊偵測裝置，其中該至少兩個方向更包括一第三方向以及一第四方向，其中該第三方向及該第四方向互為正交，該第三方向與該第一方向之間的夾角為45度角，且該處理器兩兩計算在該第三方向上相鄰的上述多個幅度以獲得在該第三方向上的多個梯度分量，累加在該第三方向上的上述多個梯度分量以獲得在該第三方向上的該差異量，並且兩兩計算在該第四方向上相鄰的上述多個幅度以獲得在該第四方向上的多個梯度分量，以及累加在該第四方向上的上述多個梯度分量以獲得在該第四方向上的該差異量。
如申請專利範圍第19項所述的聲頻訊號的雜訊偵測裝置，其中該處理器將該至少兩個方向中互為正交的上述兩個方向視為一個方向組合，在每一方向組合中，該處理器根據比較分別在互為正交的上述兩個方向上的上述多個差異量，以獲得每一上述方向組合對應的一最大比例，以及根據上述多個方向組合分別對應的上述多個最大比例，以設定上述多個最大比例的總和為該最大差異程度。
如申請專利範圍第20項所述的聲頻訊號的雜訊偵測裝置，其中該些音框根據取樣時間順序並以該目標音框對應的取樣時間為界而分成兩個集合，且對於在上述多個幅度中對應每一上述集合的部分，該處理器計算在該部分中相鄰的上述多個幅度之間的差異，以獲得每一上述集合在每一上述方向組合中互為正交的上述兩個方向上分別對應的上述多個差異量，比較每一上述集合的每一上述方向組合所對應的上述多個差異量以獲得一最大值及一最小值，計算該最大值及該最小值以獲得每一上述集合的每一上述方向組合所對應的一比例，以及比較每一上述方向組合在每一上述集合分別對應的上述多個比例，以設定最大的該比例為該方向組合對應的該最大比例。
如申請專利範圍第13項所述的聲頻訊號的雜訊偵測裝置，其中當該最大差異程度低於一門檻值時，該處理器判定該聲頻訊號對應該目標音框的部分為該雜訊。
如申請專利範圍第13項所述的聲頻訊號的雜訊偵測裝置，其中該處理器更對該時間頻率域的上述多個幅度執行二維低通濾波動作，以獲得一第二時間頻率域，並將在該第二時間頻率域中的多個幅度存入該儲存裝置，以及根據在該第二時間頻率域中相鄰的上述多個幅度之間的差異，決定該第二時間頻率域中的最大差異程度。
如申請專利範圍第23項所述的聲頻訊號的雜訊偵測裝置，其中根據該最大差異程度判斷該聲頻訊號對應該目標音框的部分是否為一雜訊包括：該時間頻率域的該最大差異程度為一第一差異程度，該第二時間頻率域的該最大差異程度為一第二差異程度；以及該處理器比較該第一差異程度及該第二差異程度，以設定該第一差異程度及該第二差異程度中較大的一者為該最大差異程度。