TW202226226A

TW202226226A - 具低複雜度語音活動檢測演算之設備及方法

Info

Publication number: TW202226226A
Application number: TW110139244A
Authority: TW
Inventors: 大衛羅傑塞爾維
Original assignee: 美商恩倍科微電子股份有限公司
Priority date: 2020-10-27
Filing date: 2021-10-22
Publication date: 2022-07-01
Also published as: WO2022093702A1; TW202226225A; WO2022093705A1

Abstract

一種具低複雜度語音活動檢測演算之設備及方法，其透過第一語音活動檢測（VAD）系統輸出在聲音訊號中零點交越（zero crossing）的脈衝流，並評估脈衝流的脈衝密度以識別語音，且在評估零點交越之前聲音訊號可能被增加噪聲；第二語音活動檢測系統對每個聲音訊號的樣本進行整流後，透過更新第一統計資料及由第一統計資料之函數的第一門檻條件評估整流後的樣本來處理整流後的樣本，符合第一門檻條件之整流後的樣本可能被用來更新第二統計資料且由第二統計資料之函數的第二門檻條件評估整流後的樣本，符合第二門檻條件之整流後的樣本可能被用來更新第三統計資料，當第二統計資料小於縮小（downscaled）的第三統計資料時可以選擇聲音訊號的樣本做為語音。

Description

具低複雜度語音活動檢測演算之設備及方法

一種在聲音訊號中進行語音活動檢測之設備及其方法，特別係指一種具低複雜度語音活動檢測演算之設備及方法。

智慧揚聲器（smart speaker）與其他聲控裝置將人類語音解釋為指令並執行對應動作。在許多狀況下，裝置能夠監聽關鍵字（如「Alexa」、「OK Google」、「OK Siri」），並能夠在關鍵字被偵測到時，監聽後續的指令。為了實現這樣的功能，裝置必須總是需要一定的電力去監聽指令。降低電力使用的一種方式是語音活動檢測（voice activity detection, VAD），也就是將噪聲由人類語音中區分開來。使用上述的方式，只有在人類語音被檢測到時才評估聲音訊號以判斷是否說出關鍵字。

綜上所述，可知先前技術中長期以來一直存在只有在人類語音被檢測到時才評估聲音訊號以判斷是否說出關鍵字的問題，因此有必要提出改進語音活動檢測實施的技術手段，來解決此一問題。

有鑒於先前技術存在只有在人類語音被檢測到時才評估聲音訊號以判斷是否說出關鍵字的問題，本發明遂揭露一種具低複雜度語音活動檢測演算之設備及方法，其中：

本發明所揭露之具低複雜度語音活動檢測演算之設備，至少包含：處理裝置，用以被程式化以實現：接收包含複數個樣本之輸入訊號；依序將複數個樣本中的每樣本做為當前樣本，並進行以下處理：依據當前樣本更新表示輸入訊號之特徵的第一統計值；根據第一統計值之函數的第一門檻條件評估當前樣本；若當前樣本符合第一門檻條件，將當前樣本列入複數個樣本之第一部分以做進步的處理；若當前樣本未符合第一門檻條件，則由第一部份中排除當前樣本。

本發明所揭露之具低複雜度語音活動檢測演算之方法，其步驟至少包括：處理裝置接收包含複數個樣本之輸入訊號；處理裝置依序將複數個樣本中的每樣本做為當前樣本，並進行以下處理：依據當前樣本更新表示輸入訊號之特徵的第一統計值；根據第一統計值之函數的第一門檻條件評估當前樣本；且更包含：判斷複數個樣本之第一部分是否符合第一門檻條件；當第一部分符合第一門檻條件時，對第一部分的至少部分進行語音處理；判斷複數個樣本之第一部分的剩餘部分是否不符合第一門檻條件；若複數個樣本之第一部分的剩餘部分未符合第一門檻條件，則由第一部份中排除當前樣本。

本發明所揭露之設備與方法如上，與先前技術之間的差異在於本發明透過處理裝置依序將複數個樣本中的每樣本做為當前樣本，並進行：依據當前樣本更新表示輸入訊號之特徵的第一統計值，及根據第一統計值之函數的第一門檻條件評估當前樣本後，若當前樣本符合第一門檻條件，則將當前樣本列入複數個樣本之第一部分以做進步的處理，而若當前樣本未符合第一門檻條件，則由第一部份中排除當前樣本，藉以解決先前技術所存在的問題，並可以達成以較低功率且更高準確度識別出潛在語音的技術功效。

本發明併入在2020年10月27日於美國所提出之發明名稱為「IMPROVE VOICE ACTIVITY DETECTION USING ZERO CRESSING DETECTION」之申請案（申請案號為17/081,378）的全文。

以下將配合圖式及實施例來詳細說明本發明之特徵與實施方式，內容足以使任何熟習相關技藝者能夠輕易地充分理解本發明解決技術問題所應用的技術手段及本發明的優點並據以實施，藉此實現本發明可達成的功效。要理解的是，圖式僅是用來附加描述和解釋本發明之實施例的具體性與細節，並不應被視為對本發明的限制。

以下先以「第1圖」來說明本發明。如「第1圖」所示，語音檢測系統100（在本發明中也以系統100表示）對輸入訊號實現聲音活動檢測。系統100的元件也可以由處理器、不同的硬體元件或其他實現方式所執行之可執行程式碼的方式呈現。系統100可以做為第一裝置，用以喚醒第二裝置以回應在輸入訊號102中所偵測到的語音。例如，第二裝置可以是能夠執行語音轉文字、網路通訊、或能被智慧揚聲器或其他聲音控制裝置執行之其他處理功能的一般處理器。

輸入訊號102可以被麥克風接收，也可以是由麥克風之輸出採樣的原始（raw）數位聲音訊號，或可以是依據一個或多個預處理（pre-process）步驟對原始數位聲音訊號進行預處理所產生的結果，如低通濾波（low-pass filtering）、縮放（scaling）、降低採樣頻率（downsampling）、增加採樣頻率（upsampling）、或其他預處理步驟。

系統100可以包含帶通濾波器104。帶通濾波器104可以具有與語音對應的頻帶（passband），如3db的頻帶。一般而言，頻帶可以介於0.3到2萬赫茲（Hz）之間。在其他的實施例中，也可以使用介於1到2千赫茲之間的頻帶。帶通濾波器104可以實現除去輸入訊號102中之任何直流分量（direct circuit component, DC component）及除去不會與語音對應之噪聲（noise）的功能。

帶通濾波器104可以輸出被輸入到加法器106的第一濾波訊號。加法器106可以將第一濾波訊號與高頻訊號108相加以產生總和訊號。高頻訊號108具有頻率與振幅。在某些實施例中，選擇頻率以確保在高頻訊號108中之每對連續的樣本間發生零點交越。因此，高頻訊號108的頻率可以等於輸入訊號102之採樣率的一半（二分之一）。

高頻訊號108的振幅可以校準到產生輸入訊號102之檢測麥克風的屬性及系統100所預期被遇到之周圍噪聲的屬性。舉例來說，可以在沒有語音的情況下由預期的環境（如真實世界之環境中的聲音記錄）中捕獲聲音訊號。當系統100如下述處理聲音訊號時，高頻訊號108的振幅可以被提高，直到系統100沒有檢測到語音。高頻訊號108的振幅可以是動態的。舉例來說，若來自語音轉文字元件的回饋（feedback）表示被判斷為包含語音之輸入訊號的部分實際上不包含語音，則高頻訊號108的振幅可以被增加以減少錯誤的報告判斷（false positive）。在本說明書中，訊號的「部分」是指訊號中之一連串的連續樣本。

經過加法器106相加後所產生的總和訊號可以被輸入到零點交越檢測器110。零點交越檢測器110的輸出為脈衝流（pulse stream）。舉例來說，對於每個零點交越，零點交越檢測器110可以輸出第一數值，例如二進位制的1。若在總和訊號中的某個樣本與先前的樣本之間沒有正負號的變化，則零點交越檢測器110可以輸出第二數值，例如二進位制的0。在部分的實施例中，僅有由正值穿越（cross）到負值被檢測為零點交越。在某些實施例中，僅有由負值穿越到正值被檢測為零點交越。而還有另一部分的實施例，由正值穿越到負值或由負值穿越到正值都被檢測為零點交越。

脈衝流可以被輸入到脈衝密度檢測器112。脈衝密度檢測器112產生密度流（density stream），使得脈衝密度檢測器112對脈衝流中的每個樣本輸出一個在密度流中的樣本，被產生的密度流對應在脈衝流中每一個樣本之前N個脈衝之窗口的脈衝數量（第一數值）。其中，N大於1，較好的是N大於10，更好的是N大於100。

密度流可以被輸入到輸出第二濾波訊號的低通濾波器114。截止頻率（cutoff frequency），如3dB的截止頻率，可以被選擇以達成相對於密度流之第二濾波訊號之平滑或平均的期望程度。在部分的實施例中，低通濾波器114可以以做為脈衝密度檢測器，即低通濾波器的結果通常是隨著脈衝密度增加而增加且隨著脈衝密度減少而減少的訊號，儘管對應關係可能不夠完美。如此，在這樣的實施例中，脈衝密度檢測器112可以被消去。

第二濾波訊號可以被比較器116，比較器116可以就語音門檻值評估第二濾波訊號，並可以為在第二濾波訊號中的每個樣本輸出語音判定120。語音判定120可以是二進位制的數值，使用系統100處理輸入訊號102中的輸入樣本，使得表示輸入樣本是否可能與語音對應之相對應的語音判定120被輸出。被識別為語音之輸入訊號102中的輸入樣本可以被傳遞到後續階段以確認樣本確實包含語音、執行語音轉文字的合成（synthesis）、儲存以供後續使用或其他目的。或者，在時間上與第二濾波訊號之樣本對應的第一濾波訊號之樣本可以被傳遞到後續階段，藉以利用帶通濾波器104的濾波。

數值低於語音門檻值118之樣本可以被判斷為與語音對應。尤其是，由語音造成之低頻率與高振幅的調變（modulation）可以將總和訊號的振幅提高到高於高頻訊號108的振幅，導致零點交越減少且脈衝密度對應減少。

語音門檻值118可以被統計分析器122調整。統計分析器122接收輸入訊號102及/或第一濾波訊號，並隨時間產生表示一個或兩個訊號之特徵的分析數值。這些統計數值可以包含平均值、標準差、最大值、最小值、均方根、低於輸入樣本之絕對值的百分位數（如第90個百分位）、或其他統計值。

舉例來說，統計分析器122可以計算輸入訊號中多個樣本之片段的均方根，並可以因而縮放語音門檻值118，例如，隨著均方根的增加而增加語音門檻值118，且隨著均方根的減少而減少語音門檻值118。在另一個例子中，統計分析器122可以計算輸入訊號中多個樣本之片段的均方根，並可以使用均方根縮放高頻訊號108的振幅，例如，隨著均方根的增加而增加高頻訊號108的振幅，且隨著均方根的減少而減少高頻訊號108的振幅。上述任一種方式都可以回應周圍噪聲之振幅的增加與減少而動態的減少錯誤的判斷。

「第2圖」說明根據系統100而被使用與產生之訊號之示意圖。上方的圖200a包含一系列樣本上之語音訊號之振幅的語音訊號202，例如原始語音訊號或語音帶通濾波器104所輸出的濾波訊號。曲線204說明與上圖200a之樣本有關的語音判定120，數值較高的部分表示被識別為語音的樣本，數值較低的部分表示非語音。明顯的，具有與語音對應之輪廓（envelope）之振幅較高的部分被正確的識別為語音，而低振幅之噪聲則沒有被識別為語音。

要注意的是，被識別為非語音的某些部分可能對應語音的特定部分，例如，/s/、/sh/、及/f/等無聲摩擦（unvoiced friction），很難由噪聲中區分出來。然而，這些部分是短暫的且可以透過延伸語音的部分以包含特定期間（如小於200毫秒）的部分與被識別為語音的部分之間或在被識別為語音之開頭或結尾的部分來取得。

圖200b說明了在一系列樣本上之低通濾波訊號之振幅的曲線206，例如，低通濾波器114的輸出。曲線208代表比較器116使用的門檻值。在這個實施例中，與低於門檻值之低通濾波訊號的樣本對應之輸入訊號102的樣本將被識別為語音。

繼續以「第3圖」來說明本發明。如「第3圖」所示，語音活董檢測系統300（在本發明中亦以系統300表示）實施另一種方式以實現聲音活動檢測。以更多的複雜計算為代價，系統300比系統100更複雜。然而，系統300在計算上仍然非常有效，且可以只使用低儲存空間需求的加法、乘法與減法運算來實現儲存在被處理之樣本間的語音活動檢測演算法之狀態。如此，系統300可以被用來實現用以觸發喚醒處理裝置的語音活動檢測，其中，處理裝置能夠進行比系統300更複雜的運作，如通用的處理器。

在某些實施例中，是在使用系統100實現語音活動檢測後實施「第3圖」與「第4圖」的方案，即使使用系統100將訊號的部分識別為語音可以使用系統300來處理以確認訊號確實包含語音。系統300可以由被處理器、不同的硬體元件或其他的實現方式執行之可執行程式碼來呈現。系統100與系統300可以由同一硬體裝置或不同的硬體裝置上之不同的可執行程式碼實現。

系統300可以接收輸入訊號302，輸入訊號302是原始的聲音訊號或聲音訊號的濾波版本。輸入訊號302可以是被系統100識別為語音之輸入訊號102的部分。或者，由帶通濾波產生之訊號的部分（帶通濾波器104的輸出）可以被用作輸入訊號302。

在輸入訊號302未經過帶通濾波的情況下，輸入訊號302可以被語音帶通濾波器304處理而獲得第一濾波訊號。語音帶通濾波器304可以如上述之帶通濾波器104被配置。

系統300還可以包含泰格（Teager）能量計算器306。泰格能量計算器306輸出輸入到泰格能量計算器306之訊號（輸入訊號302或第一濾波訊號）的泰格能量訊號（T）。舉例來說，對於給定的輸入訊號（s）可以根據公式（1）計算輸入訊號（s）之個別樣本（s[n]）的泰格能量（T[n]）。在公式（1）中，k為時間偏移量，例如1到5的數值。k的數值可以是採樣率的函數，且可以隨著採樣率增加而更高。 T[n] = (s[n]*s[n]) – (s[n-k]*s[n+k])……公式（1）

系統300可以包含整流器308。整流器308輸出被輸入之訊號（輸入訊號302、第一濾波訊號、或泰格能量訊號）的絕對值。

系統300還可以包含第一低通濾波器310。舉例來說，對於指定為x的輸入信號（整流器308的輸出），可以進行低通濾波以獲得第一低通信號。可以將第一低通信號輸入到選擇性採樣階段312，選擇性採樣階段312參考第一低通信號來選擇x的樣本。選擇性採樣階段312可以選擇其幅度相對於第一低通信號在統計上是顯著異常值的那些樣本。由於選擇是基於x的特性，因此可能是不均勻的，即根據x幅度的變化以不均勻的間隔進行。

在選擇性採樣階段312選擇性地採樣的那些x的樣本可以被輸入到第二低通濾波314以獲得第二低通信號。然後可以在選擇性採樣階段316再次選擇性地對在選擇性採樣階段312採樣的x的樣本進行採樣，從而導致樣本的進一步減少。在選擇性採樣階段316的選擇性採樣可以從在選擇性採樣階段312選擇的具有相對於第二低通信號在統計上顯著的異常值的幅度的樣本中進行選擇。

在選擇性採樣階段316選擇的x的樣本可以在低通濾波器318再次低通濾波以獲得第三低通信號。第三低通信號可以被進一步處理，例如通過按比例的縮小階段320來獲得按比例縮小的信號。在一些實施方式中，這可以包括將第三低通信號乘以小於1的縮小因子。縮小階段320的功能可以是至少部分地補償由在選擇性採樣階段312與316後剩餘之較高振幅之x的樣本取得之第三低通信號的事實。縮小因子可以通過實驗選擇給定的情境，例如，通過從1逐漸減小縮減因子，直到誤報數達到所需的數值，如樣本的 0.1%。

差分階段322可以計算縮小信號和第二低通信號之間的差以獲得差異信號。例如，對於縮小信號中的樣本，可以識別第一低通信號中具有相同索引或在第二低通信號的樣本系列中相同位置的樣本，並從該樣本中減去縮小的信號。

差異信號中的樣本可以被解釋以獲得語音判定324。在一些實施方式中，可以選擇縮小因子使得那些大於零的差異值可能是具有可接受之可信度的語音樣本。顯然，這將在第二低通信號小於縮小信號時發生。當差異值被判斷為與語音對應時，具有相同索引的輸入訊號302的樣本可以被判斷為與語音對應且可以被傳遞到另一個設備或另一個處理階段以執行語音到文本分析或其他處理。

系統300可以進行各種修改。例如，可以使用單個低通濾波器310和選擇性採樣階段312，隨後是低通濾波器318，並且可以省略低通濾波器314和選擇性採樣階段316。或者，一個或多個組合，每個組合包括低通濾波器，後面跟著一個選擇性採樣階段，可以插入選擇性採樣階段316和低通濾波器318之間。

差分階段322可以將來自任何前面階段的任何信號作為輸入，例如從一些或所有低通濾波器310、314、318輸出的信號。差分函數因此可以是一種功能，可以包括對這些信號進行縮放、加法或減法，以實現語音識別所需的準確度。

系統300可以實現以下的演算法1。可以按順序對輸入訊號302的每個樣本s[n]執行演算法1（n是從0到N-1的索引，其中N是樣本的總數）。儘管使用了「s[n]」，但應當理解，可以使用從s[n]導出的信號樣本，例如輸入訊號302的帶通濾波版本或計算的泰格能量T[n]，如上面針對輸入訊號302或輸入訊號302的帶通濾波版本所描述的。演算法2可以作為演算法1的替代方案，其中執行衰減以考慮零振幅或非語音的周期。演算法1：參考低通濾波訊號進行選擇性採樣之語音活動檢測 x = Abs(s[n]); //absolute value of s[n] f1 = alpha * f1 + (1-alpha) * x; if (x ＞ m * f1) { f3 = alpha * f3 + (1-alpha) * x; } if (x ＞ m * f3) { f5 = alpha * f5 + (1-alpha) * x; } d = (f5 * mult) - f3; if (d ＞ 0) { speech = 1; } 演算法2：參考具有濾波器值衰減之低通濾波訊號進行選擇性採樣之語音活動檢測 x = Abs(s[n]); //absolute value of s[n] f1 = alpha * f1 + (1-alpha) * x; if (x + offset3 ＞ m * f1) { f3 = alpha * f3 + (1-alpha) * x; } else { f3 = beta*f3 f5 = beta*f5 } if (x + offset5 ＞ m * f3) { f5 = alpha * f5 + (1-alpha) * x; } else { f5 = beta*f5 } d = (f5 * mult) - f3; if (d ＞ 0) { speech = 1; }

演算法1、2中的f1、f3和f5的計算實現了低通濾波（分別為低通濾波器310、314、318）。 alpha 是一個低通濾波器係數，可以是 0.98 和 0.9999 之間的值。例如，已發現 0.99 的值是有效的。用於計算 f1、f3、f5 或任何其他低通濾波步驟的 alpha 值可以是相同的或不同的 alpha 值，且可用於不同的低通濾波步驟。

演算法1、2中的「if」語句可以對應於選擇性採樣階段312、316。可以根據調整過程來選擇m的值。在一些實施方式中，m可以是1.3和1.7之間的值。例如，已發現 1.5 的值是可以接受的。在「if」語句中使用的m值可以是相同的或不同的m值，且可以用於評估低通濾波信號f1和f3，或者然而計算許多其他低通濾波信號。

在演算法1、2中將f5乘以「mult」可以實現縮小階段320的縮小因子。因此，mult可以是小於如上所述關於縮小因子選擇的一個的值，以便實現可接受的誤報數量。

差分階段322與d的計算對應。在d大於零的情況下，根據演算法1、2可以認為從中計算x的樣本s[n]對應於語音。要注意的是在僅執行過濾和選擇性採樣的一個實例的實施例中，等式「d = (f5 * mult) - f3」可以替換為「d = (f3 * mult) - f1」。以類似的方式，在執行多於兩個過濾和選擇性採樣的情況下，d可以計算為「d = (fx * mult) – fy」，其中，fx是最後一個過濾實例中的過濾結果，fy是在前一個過濾實例中過濾的結果，例如倒數第二個實例。

演算法 2 中的beta值可以是小於1的衰減因子，例如在0.999和0.9999之間。乘以 beta 所產生的衰減可能是非常緩慢的，這說明了對於許多樣本，例如數百或數千，可能檢測不到語音。在沒有衰減因子的情況下，f1、f3 及/或 f5 可能會發生突然變化，從而導致不必要的誤報。在演算法 1 中，可以省略根據 beta 的衰減，且誤報的可能性由後續階段處理或簡單地接受。

在一些實施方式中，可以通過使用如演算法2中所示的offset3和offset5來處理一系列零值輸入樣本的出現。offset3和offset5的值可以相同或不同。 offset3和offset5的值可以是使用x的位數和格式可表示的最小值的量級。例如，假設 x 是 12 位無符號整數（x 是絕對值，因此始終為正），則offset3和offset5可能等於 2^(-11)（2的-11次方）。或者，offset3和offset5可以等於最小可表示值的某個倍數（例如，2到10）。從演算法2可以看出，當有一系列零值樣本時，低通濾波器值f1最終也將達到零。通過將offset3或offset5添加到零值 x 仍將滿足「if」語句的條件，從而避免不連續性並確保f3和f5也將響應一系列零值樣本衰減到零。演算法2中所示的offset3和offset5的使用可以用來代替使用beta的衰減，或者可以與使用beta的衰減結合使用。同樣，使用beta的衰減可以在「if

」語句中不使用offset3和offset5的情況下使用。明顯的，演算法1、2僅需要乘法、加法和減法運算。在多次迭代中使用的值僅包括 alpha、m、mult、f1、f3 和 f5（及實現衰減的beta）。因此，實現演算法 1 所需的計算和記憶體要求非常低。因此，演算法1提供了一種低功率且高準確識別潛在語音的方法。

「第4圖」表示在系統300的實施期間可能存在的各種信號的圖。圖400a包含語音和周期性噪聲週期的信號的曲線402。曲線404表示關於由曲線402表示的信號樣本的語音判定（高值表示語音，低值表示非語音）。

圖400b呈現系統300的內部信號的曲線圖。包括fl的曲線406、f3的曲線408和f5的曲線410。明顯的，每個信號都相對於先前計算的信號進行了平滑處理（f3比f1更平滑，f5比f3更平滑）。同樣顯而易見的是，原始信號中未被識別為語音的噪聲週期（曲線 402）低於 f1、f3 和 f5，在比較之前它們被額外放大了m。

「第5圖」是系統500的區塊示意圖，系統500可以結合如上所述之語音活動檢測系統100和語音活動檢測系統300。系統500可以包括麥克風502，其可以是單獨的麥克風或麥克風陣列。麥克風502的輸出可以通過低通濾波、帶通濾波或其他類型的處理進行預處理，以便調節輸出用於後續處理。

麥克風502的輸出可以輸入到語音活動檢測的系統100。系統100使用上面關於「第1圖」和「第2圖」描述的方式識別可能對應於語音的麥克風輸出的第一部分。參考「第1圖」和「第2圖」。第一部分可以被輸入到語音活動檢測的系統300。例如，當系統300標識的第一部分區域被斷電或被斷電時，系統100可以喚醒系統300以處理第一部分。在睡眠模式中使用比系統300喚醒時更少的功率。系統300可以使用上面關於「第1圖」和「第2圖」的方式描述的方法來處理第一部分並識別可能對應於語音的第二部分。參考「第3圖」和「第4圖」。可以預期，被系統100識別為語音的一些部分不會被系統300識別為語音。

由語音活動檢測的系統 300 識別的第二部分可以輸入到另一個語音處理系統 504。語音處理系統 504可以執行本領域已知的任何語音處理功能，例如語音到文本、語音認證或類似功能。

在「第5圖」中的元件（系統100、系統300、語音處理系統504）都可以是單獨的硬件設備，例如單獨的半導體晶片、單獨的電路板或單獨的獨立運行的計算設備。或者，元件（系統100、系統300、語音處理系統504）中的任何兩個或更多個可以是在相同硬體設備上執行的不同可執行模組。

「第6圖」表示計算設備600的區塊圖。計算設備600可以用於執行各種過程，例如本發明所討論的。

計算設備600包括一個或多個處理器602、一個或多個儲存裝置604、一個或多個介面606、一個或多個大容量儲存裝置608、一個或多個輸入/輸出（I/O）裝置611和顯示裝置630，上述的處理器、介面、及各種裝置都與匯流排612耦合。處理器602包括一個或多個處理器或控制器，處理器602所包含的處理器或控制器可以執行儲存在儲存裝置604及/或大容量存儲裝置608中的指令。處理器602還可以包括各種類型的計算機可讀媒體，例如快取記憶體。

儲存裝置604包含各種計算機可讀媒體，例如揮發性記憶體及/或非揮發性記憶體，揮發性記憶體如隨機存取記憶體（RAM）614，非揮發性記憶體如唯讀記憶體（ROM）616。儲存裝置604還可以包括可覆寫記憶體，如快閃記憶體（Flash Memory）。

大容量儲存裝置608包括各種計算機可讀媒體，例如磁帶、磁片/磁碟、光碟、固態記憶體（如快閃記憶體）等。如「第6圖」所示，特定的大容量儲存裝置是硬碟機624。大容量儲存裝置608也可以包含各種驅動器以實現從各種計算機可讀媒體讀取及/或寫入到各種計算機可讀媒體。大容量儲存裝置608包含可移除（removable）媒體626和/或不可移除（non-removable）媒體。

輸入/輸出裝置610包括允許資料及/或其他訊息輸入到計算設備600或允許從計算設備600取得資料及/或其他訊息的各種裝置。輸入/輸出裝置610的例子包含游標控制裝置、鍵盤、小鍵盤、麥克風、監視器或其他顯示裝置、揚聲器、列表機、網路介面卡、數據機、鏡頭、攝影機/電荷耦合裝置（Charge-Coupled Device, CCD）或其他裝置等。

顯示裝置630包含能夠向計算設備600的一個或多個使用者顯示訊息的任何類型的裝置。顯示裝置630的例子包含監視器、顯示終端、影像投影裝置等。

介面606包含允許計算設備600與其他系統、設備或計算環境互動的各種介面。介面606的例子包含任意數量的不同網路介面620，例如區域網路(LAN)、廣域網路(WAN)、無線網路和Internet的介面。其他介面包括使用者介面 618 和周邊裝置介面 622。介面 606 還可以包括一個或多個周邊介面，例如用於列印機、定點設備（滑鼠、觸控板等）、鍵盤和其他類似。

匯流排612允許處理器602、儲存裝置604、介面606、大容量儲存裝置608、輸入/輸出裝置610和顯示裝置630與其他與匯流排612連接的其他元件連接，匯流排612表示多種類型的匯流排架構中的一種或多種，例如系統匯流排、PCI匯流排、IEEE 1394、USB等。

出於說明的目的，程式和其他可執行程式元件在本發明中被表示為離散的區塊，儘管應當理解，這樣的程式和元件可以在不同時間駐留在計算設備600的不同儲存元件中，並且由處理器執行。或者，本發明描述的系統和過程可以在硬體或硬體、軟體及/或韌體的組合中實現。例如，一個或多個特殊應用積體電路（application specific integrated circuits, ASIC）可以被程式化以執行一個或多個在本發明中描述的系統和程序。

在上述的揭露中，參考了圖式，這些圖式形成了揭露的一部分，並且在圖式中通過說明的方式示出了可以實踐本發明的具體實施方式。應當理解，在不脫離本發明的範圍的情況下，可以利用其他實施方式並且可以進行結構改變。說明書中所描述的實施例可以包括特定的特徵、結構或特性，但每個實施例不一定都包括特定的特徵、結構或特徵。此外，這些用語不一定指相同的實施例。此外，當結合實施例描述特定特徵、結構或特性時，認為在本領域技術人員的知識範圍內影響與其他實施例結合的這種特徵、結構或特性，無論是否沒有明確描述。

本發明所揭露的系統、設備和方法的實現可以包含或利用包含計算機硬體的專用或通用計算機，例如如本發明所討論的一個或多個處理器和系統記憶體。本發明揭露之範圍內的實施方式還可以包括用於攜帶或儲存計算機可執行指令和/或資料結構的物理和其他計算機可讀媒體。這樣的計算機可讀媒體可以是可由通用或專用計算機系統存取的任何可用媒體。儲存計算機可執行指令的計算機可讀媒體是計算機儲存媒體或裝置或設備。承載計算機可執行指令的計算機可讀媒體是傳輸媒體。因此，作為例子而非限制，本發明的實現可以包括至少兩種截然不同的計算機可讀媒體：計算機儲存媒體（或裝置或設備）和傳輸媒體。

計算機存儲媒體（或裝置或設備）包含 RAM、ROM、EEPROM、CD-ROM、（基於RAM的）SSD、快閃記憶體、相變記憶體（PCM）、其他類型的記憶體、其他光碟儲存裝置、磁碟儲存裝置或其他磁儲存裝置，或可用於以計算機可執行指令或資料結構的形式儲存所需程式碼裝置且可由計算機存取的任何其他媒體通用或專用計算機。

本發明所接露的設備、系統和方法的實現可以通過計算機網路進行通信。「網路」被定義為能夠在計算機系統及/或模組及/或其他電子設備之間傳輸電子資料的一個或多個資料鏈路。當訊息通過網路或其他通訊連接（有線、無線或有線或無線的組合）傳輸或提供給計算機時，計算機會將連接正確地視為傳輸媒體。傳輸媒體可包括網路和/或資料鏈路，其可用於承載計算機可執行指令或資料結構形式的所需程式碼裝置，並且可由通用或專用計算機存取。上述的組合也應包括在計算機可讀媒體的範圍內。

計算機可執行指令包括例如指令和資料，當它們在處理器處執行時，使通用計算機、專用計算機或專用處理設備執行特定功能或功能組合。計算機可執行指令可以是例如二進位制、組合語言等中間格式指令、甚至是原始碼。儘管已經以特定於結構特徵和/或方法行為的語言描述了本發明，但是應當理解，在權利要求中定義的發明名稱不一定限於上述描述的特徵或行為。相反，所描述的特徵和動作被揭露為實施權利要求的示例形式。

本領域技術人員將理解，本公開可以在具有多種類型的計算機系統配置的網路計算環境中實施，包括儀表板車載電腦、個人電腦、桌上型電腦、筆記型電腦、訊息處理器、手持設備、多處理器系統、基於微處理器或可程式化的消費電子產品、網路PC、小型電腦、大型電腦、行動電話、PDA、平板電腦、呼叫器、路由器、交換機、各種儲存設備等。本發明也可以在分佈式系統環境中實踐，其中本地和遠端計算機系統通過網路鏈接（通過以連接線直接連接的資料鏈路、無線資料鏈路或通過連接線和無線資料鏈路的組合）執行任務。在分佈式系統環境中，程式模組可以位於本地和遠端記憶體儲存裝置中。

此外，在適當的情況下，本發明描述的功能可以在以下一項或多項中執行：硬體、軟體、韌體、數位元件或模擬元件。例如，一個或多個特殊應用積體電路可以程式化以執行一個或多個在本發明中描述的系統和程序。在整個描述和權利要求中使用某些術語來指代特定的系統元件。如本領域技術人員將理解的，元件可以用不同的名稱來代替。本發明無意區分名稱不同但功能不同的元件。

要注意的是，上面討論的感測器實施例可以包括計算機硬體、軟體、韌體或它們的任何組合以執行它們的至少一部分功能。例如，感測器可以包括被配置為在一個或多個處理器中執行的程式碼，並且可以包含由程式碼控制的硬體邏輯/電路。這些舉例的設備在本文中是為了說明的目的而提供的，而不是限制性的。如相關領域的技術人員所知，本發明所揭露的實施例可以在其他類型的設備中實現。

本發明所揭露的的至少一些實施例已經針對包括儲存在任何計算機可用媒體上的邏輯（如以軟體的形式）的計算機程式產品。這樣的軟體當在一個或多個資料處理設備中執行時，使設備如本發明所述進行操作。

雖然上面已經描述了本發明的各種實施例，但是應當理解，它們僅作為例子而不是限制來呈現。對於相關領域的技術人員來說，在不背離本公開的精神和範圍的情況下，可以在其中做出各種形式和細節的改變，這是顯而易見的。因此，本公開的廣度和範圍不應受任何上述實施例的限制，而應僅根據權利要求及其等同物來定義。已經出於說明和描述的目的而呈現了前述描述。其並非旨在詳盡無遺或將本公開限制為所公開的精確形式。鑑於上述教示，許多修改和變化都是可能的。此外，應當注意，任何或所有前述替代實現可以以期望的任何組合來使用以形成本發明的另外的混合實現。

100:語音活動檢測系統 102:輸入訊號 104:帶通濾波器 106:加法器 108:高頻訊號 110:零點交越檢測器 112:脈衝密度檢測器 114:低通濾波器 116:比較器 118:語音門檻值 120:語音判定 122:統計分析器 200a:圖 200b:圖 202:語音訊號 204:曲線 206:曲線 208:曲線 300:語音活動檢測系統 302:輸入訊號 304:語音帶通濾波器 306:泰格能量計算器 308:整流器 310:低通濾波器 312:選擇性採樣階段 314:低通濾波器 316:選擇性採樣階段 318:低通濾波器 320:縮小階段 322:差分階段 324:語音判定 400a:圖 400b:圖 402:曲線 404:曲線 406~410:曲線 500:系統 502:麥克風 504:語音處理系統 600:計算設備 602:處理器 604:儲存裝置 606:介面 608:大容量儲存裝置 610:輸入/輸出裝置 612:匯流排 614:隨機存取記憶體 616:唯讀記憶體 618:使用者介面 620:網路介面 622:周邊裝置介面 630:顯示裝置

第1圖為本發明實施例所提之基於檢測零點交越檢測以實現語音活動檢測之元件的區塊示意圖。第2圖為本發明實施例所包含之基於檢測零點交越檢測以實現語音活動檢測之聲音訊號與由聲音訊號導出之訊號之示意圖。第3圖為本發明實施例所提之基於聲音訊號之樣本的統計特質以實現語音活動檢測之元件之區塊示意圖。第4圖為本發明實施例所包含之基於聲音訊號之樣本的統計特質以實現語音活動檢測之聲音訊號與由聲音訊號導出之訊號之示意圖。第5圖為本發明實施例所提之語音處理系統之區塊示意圖。第6圖為本發明實施例所提之計算設備之區塊示意圖。

300:語音活動檢測系統

302:輸入訊號

304:語音帶通濾波器

306:泰格能量計算器

308:整流器

310:低通濾波器

312:選擇性採樣階段

314:低通濾波器

316:選擇性採樣階段

318:低通濾波器

320:縮小階段

322:差分階段

324:語音判定

Claims

一種具低複雜度語音活動檢測演算之設備，該設備至少包含：一處理裝置，用以被程式化以實現：接收包含複數個樣本之一輸入訊號；及依序將該複數個樣本中的每一樣本做為一當前樣本，並進行以下處理：依據該當前樣本更新表示該輸入訊號之特徵的一第一統計值；根據該第一統計值之函數的一第一門檻條件評估該當前樣本；若該當前樣本符合該第一門檻條件，將該當前樣本列入該複數個樣本之一第一部分以做進一步的處理；及若該當前樣本未符合該第一門檻條件，則由該第一部份中排除該當前樣本。
如請求項1所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置被程式化來依據計算與該當前樣本及該第一統計值之一先前值有關之一低通濾波函數以更新該第一統計值。
如請求項2所述之具低複雜度語音活動檢測演算之設備，其中該低通濾波函數為alpha*f1+(1-alpha)*x，其中，f1為該第一統計值，x為該當前樣本之絕對值，alpha為一濾波係數，該濾波係數介於0.98到0.9999之間。
如請求項1所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置更用以被程式化來在該當前樣本符合該第一門檻條件時實現：依據該當前樣本及表示該輸入訊號之特徵之一第二統計值之先前值更新該第二統計值；根據該第二統計值之函數的一第二門檻條件評估該當前樣本；若該當前樣本符合該第二門檻條件，將該當前樣本列入該複數個樣本之一第二部分以做進一步的處理；及若該當前樣本未符合該第二門檻條件，則由該第二部份中排除該當前樣本。
如請求項4所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置被程式化來依據計算與該當前樣本及該第二統計值之一先前值有關之一低通濾波函數以更新該第二統計值。
如請求項4所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置更用以被程式化來在該當前樣本符合該第一門檻條件及該第二門檻條件時實現：依據該當前樣本及表示該輸入訊號之特徵之一第三統計值之先前值更新該第三統計值；根據該第三統計值之函數的一第三門檻條件評估該當前樣本；若該當前樣本符合該第三門檻條件，識別該當前樣本與語音對應。
如請求項6所述之具低複雜度語音活動檢測演算之設備，其中該第三門檻條件為小於該第二統計值之該第三統計值與一縮小因子的乘積，該縮小因子小於1。
如請求項6所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置被程式化來依據計算與該當前樣本及該第三統計值之一先前值有關之一低通濾波函數以更新該第三統計值。
請求項1所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置更用以被程式化來接收一聲音訊號及對該原始訊號進行帶通濾波以取得該輸入訊號。
請求項1所述之具低複雜度語音活動檢測演算之設備，其中該處理裝置更用以被程式化來接收一聲音訊號，對該原始訊號進行帶通濾波以取得一濾波訊號，及對該濾波訊號計算泰格（Teager）能量以取得該輸入訊號。
一種具低複雜度語音活動檢測演算之方法，該方法至少包含下列步驟：一處理裝置接收包含複數個樣本之一輸入訊號；及該處理裝置依序將該複數個樣本中的每一樣本做為一當前樣本，並進行以下處理：依據該當前樣本更新表示該輸入訊號之特徵的一第一統計值；根據該第一統計值之函數的一第一門檻條件評估該當前樣本；其中，該方法更包含：判斷該複數個樣本之一第一部分是否符合該第一門檻條件；當該第一部分符合該第一門檻條件時，對該第一部分的至少一部分進行語音處理；判斷該複數個樣本之第一部分的剩餘部分是否不符合該第一門檻條件；及若該複數個樣本之第一部分的剩餘部分未符合該第一門檻條件，則由該第一部份中排除該當前樣本。
如請求項11所述之具低複雜度語音活動檢測演算之方法，其中更新該第一統計值之步驟更包含依據計算與該當前樣本及該第一統計值之一先前值有關之一低通濾波函數以更新該第一統計值之步驟。
如請求項11所述之具低複雜度語音活動檢測演算之方法，其中該低通濾波函數為alpha*f1+(1-alpha)*x，其中，f1為該第一統計值，x為該當前樣本之絕對值，alpha為一濾波係數，該濾波係數介於0.98到0.9999之間。
如請求項11所述之具低複雜度語音活動檢測演算之方法，其中該方法更包含當該第一部分之每一樣本都做為該當前樣本處理時，依據該當前樣本及表示該輸入訊號之特徵之一第二統計值之先前值更新該第二統計值，並根據該第二統計值之函數的一第二門檻條件評估該當前樣本之步驟，且該方法更包含判斷該複數個樣本之一第二部分是否符合該第二門檻條件；當該第二部分符合該第二門檻條件時，對該第二部分的至少一部分進行語音處理；判斷該複數個樣本之第二部分的剩餘部分是否不符合該第二門檻條件；及若該複數個樣本之第二部分的剩餘部分未符合該第二門檻條件，則由該第二部份中排除該當前樣本之步驟。
如請求項14所述之具低複雜度語音活動檢測演算之方法，其中更新該第二統計值之步驟更包含依據計算與該當前樣本及該第二統計值之一先前值有關之一低通濾波函數以更新該第二統計值之步驟。
如請求項14所述之具低複雜度語音活動檢測演算之方法，其中更包含在當該第二部分之每一樣本都做為該當前樣本處理時，依據該當前樣本及表示該輸入訊號之特徵之一第三統計值之先前值更新該第三統計值，並根據該第三統計值之函數的一第三門檻條件評估該當前樣本之步驟，且該方法更包含判斷在該第二部分中之該複數個樣本之一第三部分是否符合該第三門檻條件；當該第三部分符合該第三門檻條件時，識別該當前樣本與語音對應；判斷該第三部分之剩餘部分是否不符合該第三門檻條件；及若該第三部分的剩餘部分未符合該第三門檻條件，識別該第三部分的剩餘部分為非語音。
如請求項16所述之具低複雜度語音活動檢測演算之方法，其中該第三門檻條件為小於該第二統計值之該第三統計值與一縮小因子的乘積，該縮小因子小於1。
如請求項16所述之具低複雜度語音活動檢測演算之方法，其中更新該第三統計值之步驟更包含依據計算與該當前樣本及該第三統計值之一先前值有關之一低通濾波函數以更新該第三統計值步驟。
如請求項11所述之具低複雜度語音活動檢測演算之方法，其中該方法更包含接收一聲音訊號及對該原始訊號進行帶通濾波以取得該輸入訊號之步驟。
如請求項11所述之具低複雜度語音活動檢測演算之方法，其中該方法更包含接收一聲音訊號，對該原始訊號進行帶通濾波以取得一濾波訊號，及對該濾波訊號計算泰格能量以取得該輸入訊號之步驟。