TWI765261B

TWI765261B - 語音事件偵測裝置及方法

Info

Publication number: TWI765261B
Application number: TW109115540A
Authority: TW
Inventors: 陳燦杰; 陳宏慶; 徐建華; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2019-10-22
Filing date: 2020-05-11
Publication date: 2022-05-21
Also published as: US20210118467A1; US11594244B2; TW202117704A

Abstract

本發明提供一種語音事件偵測裝置，包含一振動至數位轉換器及一計算單元。該振動至數位轉換器，用來將一輸入音訊信號轉換成多個振動資料。該計算單元，用以進行一組操作，包含：根據X個音框中該些振動資料的振動計數值之總和，觸發一後續的模組。一實施例中，該語音事件偵測裝置可從輸入振動資料流中正確地分辨出喚醒音素，以觸發一計算機系統的後續模組，因此，可節省該計算機系統的功率消耗。

Description

語音事件偵測裝置及方法

本發明有關於語音活動偵測(voice activity detection，VAD)，尤有關於一種應用於一計算機系統(computing system)的語音事件偵測裝置及方法。

VAD，俗稱為口語偵測或口語活動偵測，是一種用來偵測人類語音是否存在的技術。其偵測的結果通常用來觸發後續的程序(process)。VAD已被廣泛使用在以語音為基礎的應用及裝置，例如智慧型手機、智慧型手環(band)或智慧型喇叭(speaker)等裝置，皆可藉由下達語音命令來操控。這些應用可使大部分民眾受惠，包含肢體有障礙的人士。

本領域人士所熟知的是：典型VAD演算法中的分類法係藉由比較一音訊信號的振幅(amplitude)及一臨界值來將該音訊信號分為語音或非語音二種不同類別。然而，VAD無法區別人類語音及其他聲音，因此不論該音訊信號為何，只要音量/振幅夠大，就一定會觸發後續的程序。但這種失誤會導致計算機系統浪費功率消耗。

因此，業界亟需一種應用於一計算機系統的語音事件偵測裝置及方法，可從輸入的音訊資料流中分辨出一喚醒音素(wake phoneme)，以節省一計算機系統的功率消耗。

有鑒於上述問題，本發明的目的之一是提供一種的語音事件偵測裝置，正確地觸發後續的模組，藉以節省一計算機系統的功率消耗。

根據本發明之一實施例，提供一種語音事件偵測裝置，包含：一振動至數位轉換器及一計算單元。該振動至數位轉換器，用來將一輸入音訊信號轉換成多個振動資料。該計算單元，用以進行一組操作，包含：根據X個音框中該些振動資料的振動計數值之總和，觸發一後續的模組。

根據本發明另一實施例，提供一種語音事件偵測方法，包含：將一輸入音訊信號轉換成多個振動資料；以及，根據X個音框中該些振動資料的振動計數值之總和，觸發一後續的模組。

100:語音事件偵測裝置

110:信號調節單元

112:低通濾波器

114:高通濾波器

116:放大器

118:控制單元

120:振動至數位轉換器

130:計算單元

131:處理器

133:記憶體裝置

140:儲存裝置

150:聲音至電性轉換器

160:機器學習模組

[圖1A]係根據本發明一實施例，顯示一語音事件偵測裝置之一架構示意圖。

[圖1B]係根據本發明一實施例，顯示一信號調節單元之一架構示意圖。

[圖2A及2B]分別顯示在一安靜環境及一有語音的環境中不同振動率以及振動計數和(VS)的不同振幅。

[圖2C]係根據本發明一實施例，顯示一語音事件偵測方法之流程圖。

[圖2D]係相對於時間軸，顯示一目前音框的振動計數值VC、其先前(x-1)個音框的振動計數和(VS_P)以及x個音框的振動計數和(VS)之間的關係。

[圖3A及3B]分別顯示音素”Hi”及”O”的不同振動率及不同振動型態。

[圖3C]分別顯示二分鐘長度的雞叫聲、貓叫聲及人類語音的不同直方圖。

[圖4A]係根據本發明一實施例，顯示一資料收集方法之流程圖。

[圖4B]係以音素”Hi”為例，相對於時間軸，顯示一類比放大信號S2、多個VS值、非零VS值之間的時間間隙(TG)及非零VS值的持續時間(TD)之間的關係。

[圖5]係根據本發明一實施例，顯示一喚醒音素偵測方法之流程圖。

[圖6A]係根據本發明一實施例，顯示一濾除雜訊方法之流程圖。

[圖6B]係相對於時間軸，顯示一類比放大信號S2、一容差電壓V_T及多個VS值之間的關係。

在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語，都同時包含單數及複數的涵義，除非本說明書中另有特別指明。

在本說明書及後續的請求項當中，「音素(phoneme)」一詞指的是在一特定語言中能夠區別不同字(word)的最小聲音單位；「振動率(vibration rate)」一詞指的是每秒數位振動資料S3於0與1之間不斷往復變換的數目；「振動計數值(count)VC」一詞指的是每個音框(frame)中，該些數位振動資料S3值的總和(將於稍後詳述)；「振動型態(pattern)」一詞指的是多個振動計數和的資料分佈，而各振動計數和是沿著時間軸的每一預設數目的音框內之振動計數值的加總，例如：圖3A及3B的最下圖係顯示二種振動計數和(VS值)的資料分佈或振動型態。振動率類似於振動計數值，振動率越大，振動計數值也越大。

音訊信號的振幅及振動率二者都是能觀察到的。本發明的特色之一係根據音訊信號的振幅及振動率來偵測語音事件。本發明的另一特色是藉由一預設數目的音框中該些數位振動資料S3值的振動計數和(VS)來區分語音及非語音(或寂靜)。本發明的另一特色是根據振動型態，將該些數位振動資料S3分類成不同音素。本發明的另一特色是可從輸入的振動資料S3中，正確分辨出一喚醒音素，以便觸發後續的模組(downstream module)(如軟體程序及/或硬體元件)，進而節省一計算機系統的功率消耗。

圖1A係根據本發明一實施例，顯示一語音事件偵測裝置之一架構示意圖。請參考圖1A，本發明語音事件偵測裝置100包含一信號調節(signal conditioning)單元110、一振動至數位轉換器(vibration to digital converter，VDC)120、一計算單元130、一儲存裝置140、一聲音至電性轉換器(sound to electricity transducer)150以及一機器學習模組(machine learning module)160。請注意，該儲存裝置140及該機器學習模組160可設於該計算單元130的內部或與該計算單元130分離；另，該儲存裝置140、該聲音至電氣轉換器150、該機器學習模組160以及一控制訊號C1對本發明而言並非必須，因此在圖1A中係以虛線表示。該語音事件偵測裝置100可應用於許多計算機系統，該些計算機系統包含但不受限於，一般用途(general-purpose)計算機系統及語音處理系統，而該語音處理系統包含但不受限於，智慧型手機、智慧型手環(band)及智慧型喇叭(speaker)。該儲存裝置140可用非揮發性記憶體裝置、媒體、揮發性記憶體裝置及磁碟等實施。

該聲音至電性轉換器150可利用任何可將輸入聲波SW轉換成電氣信號S1(電壓信號或電流信號)的元件來實施，例如麥克風、電磁式(electromagnetic)轉換器、靜電(electrostatic)轉換器、或壓電晶體(piezoelectric-crystal)轉換器。為方便清楚描述，以下例子與實施例中係假設該電氣信號S1為電壓信號。

該信號調節單元110係用來操作/調節該類比電壓信號S1，以符合下一階段電路(即VDC 120)處理的需求。該信號調節單元110對該類比電壓信號S1進行高通濾波處理、低通濾波處理、放大處理或其組合之處理。該信號調節單元110可以軟體、硬體、韌體、或其組合來實施。圖1B係根據本發明一實施例，顯示一信號調節單元之一架構示意圖。請參考圖1B，一實施例中，該信號調節單元110包含一低通濾波器112、一高通濾波器114、一放大器116及一控制單元118。該控制單元118回應一放大信號S2，分別傳送三個控制信號C2~C4至該低通濾波器112、該高通濾波器114及該放大器116。舉例而言，該低通濾波器112根據該控制信號C2，調整其截止(cutoff)頻率f_L；該高通濾波器114根據該控制信號C3，調整其截止頻率f_H；該放大器116根據該控制信號C4，調整其輸入信號S12的增益值(gain)。據此，該低通濾波器112接收輸入信號S1，並允許頻率低於該截止頻率f_L的信號S11通過；該高通濾波器114接收輸入信號S11，並允許頻率高於該截止頻率f_H的信號S12通過；該放大器116根據其增益值，放大其輸入信號S12以產生該放大信號 S2。

根據一參考電壓V_ref及一容差(tolerance)電壓V_T，該VDC 120用來將該類比放大信號S2轉換成數位振動資料S3。該VDC 120可以軟體、硬體、韌體、或其組合來實施。一實施例中，該VDC 120係利用下列程式碼，來根據該參考電壓V_ref及該容差電壓V_T，將該類比放大信號S2轉換成數位振動資料S3：

該容差電壓V_T係小於該參考電壓V_ref，用來與該參考電壓V_ref形成一第一臨界電壓(即V_ref+V_T)及一第二臨界電壓(即V_ref-V_T)，致使該VDC 120根據該第一臨界電壓及該第二臨界電壓，去除該類比放大信號S2上的雜訊與干擾。

圖2A及2B分別顯示在一安靜環境及一有語音的環境中不同振動率及振動計數和VS(將於稍後討論)的不同振幅。假設V_ref=0.92V及V_T=0.005V，在一安靜環境中，可得到振動資料S3的低振動率，而在一有聲音的環境中，可得到振動資料S3的高振動率。在本說明書及後續的請求項當中，「音框尺寸(frame size)」一詞指的是各音框中，對應於該些數位振動資料S3的取樣點的數目；「音素窗框Tw」一詞指的是針對每個音素，收集音訊特徵(audio feature)值的持續時間。一較佳實施例中，各音框的持續時間T_F大約等於0.1~1毫秒(ms)且該音素窗框Tw大約等於0.3秒。另一較佳實施例中，於各音框中，對應於該些數位振動資料S3之取樣點的數目之範圍是1~16。

由於大部分音訊信號的穩定時間很短，故在分析音訊信號時，通常採用短期分析方法。根據本發明，計算單元130接收一輸入振動資料流S3，再將其分割成多個音框。例如，假設該VDC 120使用的取樣頻率fs等於16000且各音框的持續時間T_F等於1毫秒，則音素窗框Tw=fs*1/1000=16個取樣點。參考圖1A，計算單元130係利用一處理器131及一記憶體裝置133來實施。該記憶體裝置133儲存多個指令供該處理器131執行：圖2C、4A、5、6A的方法中所有的步驟、將振動資料流S3分割成多個音框、以及在訓練階段(training phase)與運轉期間(runtime)內進行運作。

該儲存裝置140用來儲存一連串的振動計數值VC、振動計數和VS、VS_p、VS_f(將於稍後討論)及所有特徵向量(feature vector)的音訊特徵值。圖2C係根據本發明一實施例，顯示一語音事件偵測方法之流程圖，該語音事件偵測方法係應用於一計算機系統。該計算單元130於運轉期間執行該語音事件偵測方法，以捕捉(catch)語音事件。以下，請參考圖2A~2D，說明該語音事件偵測方法，並假設以下參數：fs=16000、T_F=1毫秒、Tw=0.3秒以及TH1=8。另，將參數j初始化為0。

步驟S202：將一振動計數值VC重置(reset)為0。

步驟S204：於時間點T_j的目前音框中，加總該數位振動資料S3的值，以得到一振動計數值VC。具體而言，如圖2D所示，該計算單元130計算該目前音框(即1ms)中該數位振動資料S3的值以得到一振動計數值VC，再將於時間點T_j的目前音框的振動計數值VC儲存於該儲存裝置140中。

步驟S206：加總x個音框的振動計數值VC，以得到於時間點T_j的目前音框的振動計數和VS。請注意，該x個音框包含該目前音框。一實施例中，如圖2D所示，該計算單元130將於時間點T_j的目前音框的振動計數值VC及該目前音框之前的(x-1)個音框的振動計數和VS_p相加，以得到於時間點T_j的x個音框的振動計數和VS(=VC+VS_p)。另一實施例中，該計算單元130將於時間點T_j的目前音框的振動計數值VC、該目前音框之後的y個音框的振動計數和VS_f及該目前音框之前的(x-y-1)個音框的振動計數和VS_p相加，以得到於時間點T_j的x個音框的振動計數和VS(=VC+VS_f+VS_p)，其中，y大於或等於0。該計算單元130將該些VC、VS_f、VS_p值儲存於該儲存裝置140中。一較佳實施例中，該x個音框的持續時間x*T_F(

音素窗框Tw)大約等於0.3秒。另一較佳實施例中，該x個音框中，對應該數位振動資料S3的取樣點的數目範圍是x~16x。另，j值遞增1。

步驟S208：決定該VS值是否大於一臨界值TH1。若是，表示有語音事件並跳到步驟S210；若否，表示沒有語音事件並回到步驟S202。如圖2A所示，安靜環境中數位振動資料S3的低振動計數值(即低振動率)(如中間圖)造成VS值的低振幅(如下圖)；相對而言，如圖2B所示，因為數位振動資料S3的高振動計數值(即高振動率)(如中間圖)造成VS值的高振幅且多個VS值可達到臨界值TH1(如下圖)，故在一有語音的環境中可偵測到多起語音事件。因此，該些VS值的振幅可用來分辨語音及非語音(或寂靜)。

步驟S210：觸發一後續的模組。一旦偵測到語音事件時，取決於預期的實施應用，會自動觸發一後續的模組。該模組為一計算機系統(圖未示)的一軟體程序(process)及一硬體元件之至少其一。一實施例中，該軟體程序包含決定該數位振動資料S3是否與一喚醒音素相匹配，並根據該匹配的結果決定是否觸發下一個模組(如圖5)。另一實施例中，該軟體程序包含根據該數位振動資料S3的雜訊量，決定是否提高該容差電壓V_T(如圖6A)。在未被觸發的情況下，其後續的軟體程序或硬體元件會維持在休眠或電力關閉狀態，故可節省該計算機系統的功率消耗。

圖3A及3B分別顯示音素”Hi”及”O”的不同振動率及不同振動型態。圖3A及3B之任一提供相同音素的三個例子，從下圖可以觀察到，相同的音素中，VS值有相似的振動型態，但不同的音素之間，VS值具有截然不同的振動型態。因此，VS值的振動型態可用來區分不同的音素。圖3C分別顯示二分鐘長度的雞叫聲、貓叫聲及人類語音的不同直方圖(histogram)。從圖3C可以觀察到，不同於雞叫聲及貓叫聲，人類語音中大部分VS值的分佈都低於40。

在一訓練階段中，該計算單元130首先執行圖4的資料收集方法多數次以收集多個音素的多個特徵向量，之後將該些特徵向量附上對應的標籤(label)以形成多個附標籤(或有附註或有標註)的訓練樣本。然後，包含一喚醒音素之不同音素的多個附標籤的訓練樣本被用來訓練該機器學習模組160。最後，建立了一受過訓練的機器學習模組160(即一預測模組)，用來分辨該輸入振動資料流S3是否包含該喚醒音素。一個例子中，假設將”Hi”指定為一計算機系統的喚醒音素，則至少包含”Hi”之不同音素的多個附標籤的訓練樣本就會被用來訓練該機器學習模組160。

圖4A係根據本發明一實施例，顯示一資料收集方法之流程圖。該資料收集方法係應用於一計算機系統。該計算單元130於該訓練階段中執行該資料收集方法以收集單一音素的一特徵向量。為方便清楚描述，以下，請參考圖4A~4B，說明該資料收集方法，並採用和圖2的語音事件偵測方法相同數值的參數，亦即fs=16000、T_F=1毫秒及Tw=0.3秒。然而，實際實施時，圖4A的資料收集方法及圖2的語音事件偵測方法可採用不同數值的參數，亦即不同的取樣頻率fs、不同的音框持續時間T_F及不同的音素窗框Tw。另，參數j被初始化為0且將TH2設為300。請注意，由於圖4A的資料收集方法及圖2C的語音事件偵測方法的前三步驟(S202~S206)完全相同，故在此不予贅述。

步驟S402：於時間點T_j，取出非零VS值之間的時間間隙(time gap)TG。關於非零VS值之間的時間間隙TG及非零VS值的持續時間TD，請參考圖4B中音素”Hi”的例子。請注意，在該訓練階段中，於該計算單元130內部，係以毫秒為單位，持續量測所有時間點的時間間隙TG及持續時間TD。該計算單元130只須取出對應於該時間點T_j的時間間隙TG。

步驟S404：於時間點T_j，取出非零VS值的持續時間TD。該計算單元130亦取出對應於該時間點T_j的持續時間TD。例如，於參考圖4B中時間點T_j=0.7秒時，VS=18、TD=140毫秒及TG=0。

步驟S406：紀錄/儲存一特徵向量P中與該時間點T_j的目前音框有關之上述三個音訊特徵值(VS_j、TD_j、TG_j)。具體而言，該計算單元130將該特徵向量P中與該時間點T_j的目前音框有關之上述三個音訊特徵值(VS_j、TD_j、TG_j)儲存於該儲存裝置140。另，將j值遞增1。

步驟S408：決定該j值是否達到一臨界值TH2。若是，表示單一特徵向量的所有音訊特徵值都已收集完畢，並結束本流程；若否，回到步驟S202以處理下一個音框。

雖然圖4A中繪示了多個分離的區塊，取決於預期的實施應用，不同的區塊(S402~S406)可再分割成更多區塊、合併為較少區塊或刪除，也可以不同於圖4A中的順序來進行。

由於T_F=1毫秒及Tw=0.3秒，故該特徵向量P總共有和300個不同時間點有關的300個音框，且各音框具有一組三個音訊特徵值(VS_j、TD_j、TG_j)，其中j=0~299。一特徵向量P的格式例子如下：(VS_0,TD₀,TG₀),(VS_1,TD₁,TG₁),....,(VS_299,TD₂₉₉,TG₂₉₉)。該計算單元130執行圖4A的資料收集方法以得到單一音素的一特徵向量P，並儲存該特徵向量P每一組三個音訊特徵值(VS_j、TD_j、TG_j)，其中j=0~299。假設一特徵向量P的對應音素是”Hi”，則在該特徵向量P上附一標籤Q(亦即以手動方式標註”Hi”)以形成一附標籤的訓練樣本，如：{P,Q}={(VS_0,TD₀,TG₀),(VS_1,TD₁,TG₁),....,(VS_299,TD₂₉₉,TG₂₉₉),Q}。依此方式，在該訓練階段中，可執行多次圖4A的資料收集方法以得到包含音素”Hi”的不同音素的多個特徵向量P。接著，再將該些特徵向量P分別加上對應的標籤Q(即分別標註”Hi”或”非Hi”)，以形成一組附標籤的訓練樣本。在該訓練階段中，利用該組附標籤的訓練樣本來訓練該機器學習模組160，使該機器學習模組160能根據各附標籤的訓練樣本中各音框的三個音訊特徵值(VS_j、TD_j、TG_j)，來分辨出喚醒音素”Hi”，其中j=0~299。在該訓練階段結束時，該受過訓練的機器學習模組160提供一個對應喚醒音素”Hi”的受訓分數(trained score)，之後在運轉期間，該受訓分數被當成一參考值來對輸入的振動資料流S3進行分類。

和監督式學習(supervised learning)有關的各種不同機器學習技術都可用來訓練該機器學習模組160，而該些機器學習技術包含，但不受限於，支持向量機(support vector machine)、隨機森林(random forest)以及卷積(convolutional)神經網路。在監督式學習領域中，利用多個附標籤的訓練樣本來建立一個函數(即該機器學習模組160)，且各附標籤的訓練樣本包含一輸入特徵向量及一附標籤輸出。該監督來自於該附標籤輸出，爾後允許根據其實際的輸出調整該機器學習模組160。當訓練完成之後，該機器學習模組160即可接收新的未附標籤的樣本，來產生對應分數或預測值。

一實施例中，該機器學習模組160可利用一神經網路(neural network)來實施。該神經網路包含一輸入層、至少一隱藏層以及一輸出層。該輸入層有三個輸入神經元(neuron)，且各輸入神經元對應至該特徵向量P中各音框的三個音框特徵值(VS_j、TD_j、TG_j)之其一。該隱藏層包含具權值因子(weight factor)的多個神經元，該些權值因子係有關於各神經元的各輸入及偏差(bias)因子。透過在該訓練階段中調整該隱藏層內各神經元的權值因子及偏差因子，該神經網路可被訓練成根據一給定輸入，產生一預測值。該輸出層包含一輸出神經元以提供一個對應該喚醒音素”Hi”的分數或預測值。包含MATLAB、TensorFlow及Python等的機器學習工具可用來建立該機器學習模組160的神經網路。

圖5係根據本發明一實施例，顯示一喚醒音素偵測方法之流程圖。該計算單元130於在運轉期間執行該喚醒音素偵測方法以偵測一輸入的振動資料流S3是否包含一喚醒音素”Hi”。為方便清楚描述，以下說明圖5的喚醒音素偵測方法係採用和圖4A的資料收集方法相同數值的參數，亦即fs=16000、T_F=1毫秒及Tw=0.3秒。然而，實際實施時，圖5的喚醒音素偵測方法及圖4A的資料收集方法可採用不同數值的參數，亦即不同的取樣頻率fs、不同的音框持續時間T_F及不同的音素窗框Tw。另，假設執行該喚醒音素偵測方法之前，該機器學習模組160已訓練完畢；參數j被初始化為0。請注意，由於圖5的喚醒音素偵測方法及圖4A的資料收集方法的前五個步驟(S202~S206及S402~S404)完全相同，故在此不予贅述。

步驟S502：將VS_j、TD_j、TG_j值饋入至該受過訓練的機器學習模組160，以產生一目前分數。根據於時間點T_j的目前音框的VS_j、TD_j、TG_j值及和該目前音框之前的299個音框有關的VS、TD、TG值(先前已饋入至該受過訓練的機器學習模組160)，該受過訓練的機器學習模組160產生於時間點T_j的目前音框的一目前分數。請注意，在運轉期間的早期階段，該目前音框之前的數個音框的VS、TD、TG值有可能是空的。

步驟S504：比較該目前分數及一受訓分數。

步驟S506：決定輸入的振動資料流S3是否匹配該喚醒音素。假設在該訓練階段結束時，該受過訓練的機器學習模組160所提供的受訓分數範圍在87~93，若該目前分數是89，則該計算單元130就會判定輸入的振動資料流S3匹配該喚醒音素”Hi”，並跳到步驟S508；但若該目前分數是95，則該計算單元130就會判定輸入的振動資料流S3與該喚醒音素”Hi”不匹配，並回到步驟S202。

步驟S508：觸發一後續的模組。該模組為一計算機系統(圖未示)的一軟體程序及一硬體元件之至少其一。根據上述比較結果，該計算單元130可發出一命令以觸發該計算機系統之一後續的軟體程序或/及發出一控制訊號C5以觸發該計算機系統之一後續的硬體元件。在未被觸發的情況下，其後續的程序或元件會維持在休眠或電力關閉狀態，故可節省該計算機系統的功率消耗。

雖然圖5中繪示了多個分離的區塊，取決於預期的實施應用，不同的區塊(S206、S402~S404、S502~S504)可再分割成更多區塊、合併為較少區塊或刪除，也可以不同於圖5中的順序來進行。

圖6A係根據本發明一實施例，顯示一濾除雜訊方法之流程圖。該濾除雜訊方法係用來濾除該類比放大信號S2/振動資料流S3中的雜訊，以改善雜訊免疫力。該濾除雜訊方法係計算單元130執行。請參考圖1A及6A~6B，說明該濾除雜訊方法，為方便清楚描述，係採用和圖2的語音事件偵測方法相同數值的參數，亦即fs=16000、T_F=1毫秒及Tw=0.3秒。然而，實際實施時，圖6A的濾除雜訊方法及圖2的語音事件偵測方法可採用不同數值的參數，亦即不同的取樣頻率fs、不同的音框持續時間T_F及不同的音素窗框Tw。請注意，由於圖6A的濾除雜訊方法及圖2的語音事件偵測方法的前二步驟(S202~S204)完全相同，故在此不予贅述。另，參數j及雜訊計數值NC皆被初始化為0。

步驟S602：決定該VS值是否大於一臨界值TH3。若是，表示是一雜訊事件，並跳到步驟S604；若否，表示不是一雜訊事件，並跳到步驟S610。一實施例中，臨界值TH3等於5。

步驟S604：將雜訊計數值NC遞增1。

步驟S606：決定該NC值是否大於一臨界值TH4。若是，表示輸入的振動資料流S3包含大量雜訊，並跳到步驟S608；若否，表示輸入的振動資料流S3包含少量雜訊，並回到步驟S202。一較佳實施例中，該計算單元130必須持續監視該振動資料流S3大約10秒(即一監視期間內)，以估測該振動資料流S3所包含的雜訊量(即該雜訊計數值NC)。一實施例中，由於T_F=1毫秒，該臨界值TH4等於10000(=10/10^-3)。該臨界值TH4係與各音框的持續時間T_F及該監視期間有關。

步驟S608：增加該容差電壓V_T。一實施例中，如圖1A所示，該計算單元130發出一控制訊號C1，使VDC 120增加該容差電壓V_T。如圖6B所示，該容差電壓V_T越大，該振動資料流S3所包含的雜訊量越少。之後，流程回到步驟S202。

本發明語音事件偵測裝置100可以軟體、硬體、或軟體(或韌體)及硬體的組合來實施，一單純解決方案的例子是現場可程式閘陣列(field programmable gate array，FPGA)或一特殊應用積體電路(application specific integrated circuit，ASIC)。一實施例中，該語音事件偵測裝置100中除了該聲音至電性轉換器150之外，係利用一個一般用途處理器以及一程式記憶體(圖未示)來實施，而該程式記憶體儲存一處理器可執行程式。當該一般用途處理器執行該處理器可執行程式時，該一般用途處理器被組態以運作有如：該信號調節單元110、該VDC 120、該計算單元130以及該機器學習模組160。

上述實施例以及功能性操作可利用數位電子電路、具體化的電腦軟體或韌體、電腦硬體，包含揭露於說明書的結構及其等效結構、或者上述至少其一之組合等等，來實施。在圖2C、4A、5及6A揭露的方法與邏輯流程可利用至少一部電腦執行至少一電腦程式的方式，來執行其功能。在圖2C、4A、5及6A揭露的方法與邏輯流程可利用特殊目的邏輯電路來實施，例如：FPGA或ASIC等。適合執行該至少一電腦程式的電腦包含，但不限於，通用或特殊目的的微處理器，或任一型的中央處理器(CPU)。適合儲存電腦程式指令及資料的電腦可讀取媒體包含所有形式的非揮發性記憶體、媒體及記憶體裝置，包含，但不限於，半導體記憶體裝置，例如，可抹除可規劃唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)以及快閃(flash)記憶體裝置；磁碟，例如，內部硬碟或可移除硬碟；磁光碟(magneto-optical disk)，例如，CD-ROM或DVD-ROM。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。