TWI748587B

TWI748587B - 聲音事件偵測系統及方法

Info

Publication number: TWI748587B
Application number: TW109126269A
Authority: TW
Inventors: 黃紘斌
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2021-12-01
Also published as: TW202207211A; US20220044698A1

Abstract

本發明公開一種聲音事件偵測系統及方法。聲音事件偵測系統包括語音活動檢測子系統、資料庫及聲音事件偵測子系統。語音活動檢測子系統包括語音接收模組、特徵擷取模組及第一判斷模組。語音接收模組接收原始聲音訊號，特徵擷取模組從原始聲音訊號擷取多個特徵，而第一判斷模組執行一第一分類流程，以判斷該些特徵是否符合一啟動語音。資料庫用以儲存所擷取的該些特徵。聲音事件偵測子系統包括第二判斷模組及功能響應模組。第二判斷模組執行第二分類流程，以判斷該些特徵是否符合多個預定語音的至少其中之一。功能響應模組執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者。

Description

聲音事件偵測系統及方法

本發明涉及一種聲音事件偵測系統及方法，特別是涉及一種可節省儲存空間及運算功耗的聲音事件偵測系統及方法。

現有的音頻喚醒應用多用於檢測某些“事件”，例如語音命令或聲音事件（哭聲，玻璃破碎等），並觸發響應動作，例如將命令數據發送至雲端或發出警報訊號。

音頻喚醒應用多以“常時啟動(Always-on)”系統來實現，換言之，即是檢測系統始終“監聽”環境聲音並蒐集所需的語音訊號。常時啟動的系統非常耗電。為了有效控制功耗，大多數設備採用了語音活動檢測（Voice activity detection, VAD），以過濾大部分無效的聲音訊號，來避免過多的進入聲音事件識別(acoustic event detection, AED)階段，而這需要大量的計算資源。

現有的VAD及AED階段中，各自具有兩個主要部分：特徵提取和識別器。整個系統首先使用VAD檢測語音，然後如果語音處於活動狀態，則將聲音訊號發送到聲音事件識別/檢測模塊。然而，在上述的VAD及AED階段中，特徵提取的功耗變得非常重要。

故，改良上述語音檢測機制，來克服上述的缺陷，已成為該項事業所欲解決的重要課題之一。

本發明所要解決的技術問題在於，針對現有技術的不足提供一種可節省儲存空間及運算功耗的聲音事件偵測系統及方法。

為了解決上述的技術問題，本發明所採用的其中一技術方案是提供一種聲音事件偵測系統，其包括語音活動檢測子系統、資料庫及聲音事件偵測子系統。語音活動檢測子系統，包括語音接收模組、特徵擷取模組及第一判斷模組。語音接收模組經配置以接收一原始聲音訊號，特徵擷取模組，經配置以從該原始聲音訊號擷取多個特徵，且第一判斷模組經配置以執行一第一分類流程，以判斷該些特徵是否符合一啟動語音。資料庫用以儲存所擷取的該些特徵。聲音事件偵測子系統包括第二判斷模組及功能響應模組。第二判斷模組響應於該第一判斷模組判斷該些特徵符合該啟動語音時，經配置以執行一第二分類流程，以判斷該些特徵是否符合多個預定語音的至少其中之一。功能響應模組響應於該第二判斷模組判斷該些特徵符合該些預定語音的至少其中之一時，執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者。

為了解決上述的技術問題，本發明所採用的另外一技術方案是提供一種聲音事件偵測方法，其包括：配置一語音活動檢測子系統的一語音接收模組接收一原始聲音訊號；配置該語音活動檢測子系統的一特徵擷取模組以從該原始聲音訊號擷取多個特徵；配置該語音活動檢測子系統的一第一判斷模組以執行一第一分類流程，並判斷該些特徵是否符合一啟動語音；將所擷取的該些特徵儲存至一資料庫；其中，響應於該第一判斷模組判斷該些特徵符合該啟動語音時，配置一聲音事件偵測子系統的一第二判斷模組執行一第二分類流程，以判斷該些特徵是否符合多個預定語音的至少其中之一；其中，響應於該第二判斷模組判斷該些特徵符合該些預定語音的至少其中之一時，配置該聲音事件偵測子系統的一功能響應模組執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者。

本發明的其中一有益效果在於，本發明所提供的聲音事件偵測系統及方法，其能透過結合聲音偵測(VAD)與聲音識別(acoustic event detection, AED)兩個階段的特徵值擷取，在僅提取一次特徵的情形下，能夠節省計算使用量，進而減少功耗。

此外，於啟動語音被判斷存在時，則將資料庫中所擷取的多個特徵傳遞到識別階段，而不是傳遞原始聲音訊號，由於特徵佔用的記憶體容量通常小於原始聲音訊號，因此本發明所提供的聲音事件偵測系統及方法還可進一步節省了記憶體用量以及傳輸頻寬。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明所公開有關“聲音事件偵測系統及方法”的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

參閱圖1所示，本發明實施例提供一種聲音事件偵測系統1，其包括語音活動檢測子系統VAD、資料庫DB及聲音事件偵測子系統AED。

資料庫DB可以例如是靜態隨機存取記憶體(Static Random Access Memory,SRAM)、動態隨機存取記憶體(Dynamic Random Access Memory)、硬碟、快閃記憶體(Flash Memory)，或是任何可用來儲存電子訊號或資料之記憶體或儲存裝置。

語音活動檢測子系統VAD包括語音接收模組100、特徵擷取模組102及第一判斷模組104。在一些實施例中，語音活動檢測子系統VAD可包括第一處理單元PU1，於本實施例中，第一處理單元PU1可以是中央處理器、現場可程式閘陣列(Field-Programmable gate array，FPGA)或是可載入程式語言來執行相應功能的多用途晶片，其用於執行用於實現特徵擷取模組102及第一判斷模組104的程式碼，且本發明不限於此，語音活動檢測子系統VAD下的所有模組可以軟體、硬體或韌體的方式實現。

語音接收模組100，經配置以接收原始聲音訊號OSD。語音接收模組100包括一可接收原始聲音訊號OSD的麥克風，且麥克風可將接收到的原始聲音訊號OSD傳至特徵擷取模組102。

特徵擷取模組102經配置以從原始聲音訊號OSD擷取多個特徵FT。舉例而言，多個特徵FT可例如為多個梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients，MFCCs)。而特徵擷取模組102可通過一擷取流程來擷取原始聲音訊號OSD的該些特徵FT，並將。可進一步參考圖2，其爲根據本發明實施例的擷取流程的流程圖。如圖2所示，擷取流程可包括下列步驟：

步驟S100：將原始聲音訊號分解為多個訊框。

步驟S101：通過一高通濾波器將該些訊框對應的訊號資料進行預強化。

步驟S102：進行一傅立葉轉換，以將經預強化的該些訊號資料轉換至頻域，以產生對應於該些訊框的多個頻譜資料。

步驟S103：將該些頻譜資料通過一梅爾濾波器，以得到多個梅爾刻度。

步驟S104：在該些梅爾刻度上提取對數能量。

步驟S105：對所獲得的對數能量進行離散餘弦轉換，以轉換到倒頻譜域，從而產生該些梅爾頻率倒譜係數。

接著，請復參考圖1，語音活動檢測子系統VAD還包括第一判斷模組104，經配置以執行第一分類流程，以判斷該些特徵FT是否符合啟動語音。需要說明的是，第一分類流程包括將先前於擷取流程中產生的對應於該些訊框的該些頻譜資料與啟動語音的頻譜資料進行比對，以判斷該些特徵是否符合該啟動語音，或者，第一分類流程亦可包括將先前於擷取流程中產生的對應於該些訊框的該些梅爾頻率倒譜係數與啟動語音的梅爾頻率倒譜係數進行比對，以判斷該些特徵是否符合該啟動語音。

需要說明的是，聲音事件偵測子系統AED可常時處在睡眠模式，或常見的省電模式，以最大限度的降低聲音事件偵測系統1的功耗。而當第一判斷模組104判斷該些特徵FT符合啟動語音時，可產生一聲音事件偵測啟動訊號S1，用以喚醒聲音事件偵測子系統AED。

另一方面，先前提到的資料庫DB可用以儲存所擷取的該些特徵FT，而該些特徵FT可例如包括於擷取流程中取得的對應於該些訊框的多個頻譜資料及多個梅爾頻率倒譜係數。此外，啟動語音的相關資料，例如其頻譜資料及梅爾頻率倒譜係數，亦可儲存於資料庫DB，但本發明不限於此，語音活動檢測子系統VAD亦可內建有記憶體用於儲存上述資料。

進一步說明，聲音事件偵測子系統AED可包括第二判斷模組110及功能響應模組112。在一些實施例中，聲音事件偵測子系統AED可包括第二處理單元PU2，於本實施例中，第二處理單元PU2可以是中央處理器、現場可程式化邏輯閘陣列(Field-Programmable gate array，FPGA)或是可載入程式語言來執行相應功能的多用途晶片，其用於執行用於實現第二判斷模組110及功能響應模組112的程式碼，且本發明不限於此，聲音事件偵測子系統AED下的所有模組可以軟體、硬體或韌體的方式實現，並且第一處理單元PU1及第二處理單元PU2可由上述的單一硬體實現，而毋須劃分為兩個處理單元。

響應於第一判斷模組104判斷該些特徵FT符合啟動語音時，或者，響應於接收到聲音事件偵測啟動訊號S1而使得聲音事件偵測子系統AED啟動時，第二判斷模組110經配置以執行第二分類流程，以判斷該些特徵FT是否符合多個預定語音的至少其中之一。而與多個預定語音相關的資料可預先由使用者定義並內建於聲音事件偵測子系統AED中，例如可包括通過類似於前述擷取流程對該些預定語音進行擷取，取得的頻譜資料以及梅爾頻率倒譜係數，或者可儲存於資料庫DB中。

詳細而言，第二分類流程包括通過一經訓練機器學習模型對該些特徵進行辨識，以判斷該些特徵是否符合該些預定語音的至少其中之一。其中，可將該些特徵，例如，由原始聲音訊號OSD所擷取的多個梅爾頻率倒譜係數作爲輸入特徵向量輸入一個經訓練機器學習模型，例如，類神經網路模型。

而所謂經訓練機器學習模型，可將預處理後的多個預定語音的相關資料依適當比例分爲一訓練集及一驗證集，並以該訓練集對機器學習模型進行訓練。通過將驗證集輸入機器學習模型，同時評估機器學習模型是否達到預期精準度，若尚未達到預期精準度，則對機器學習模型進行超參數調整，並繼續以該訓練集對機器學習模型進行訓練，直到機器學習模型通過效能測試，即將通過效能測試的機器學習模型作爲經訓練機器學習模型。

接著，請復參考圖1，聲音事件偵測子系統AED還包括功能響應模組112，響應於第二判斷模組110判斷該些特徵符合該些預定語音的至少其中之一時，執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者。

因此，通過本發明所提供的聲音事件偵測系統，其能透過結合聲音偵測(VAD)與聲音識別(acoustic event detection, AED)兩個階段的特徵值擷取，在僅提取一次特徵的情形下，能夠節省計算使用量，進而減少功耗。此外，於啟動語音被判斷存在時，則將資料庫中所擷取的多個特徵傳遞到識別階段，而不是傳遞原始聲音訊號，由於特徵佔用的記憶體容量通常小於原始聲音訊號，因此還可進一步節省了記憶體用量以及傳輸頻寬。

圖3為根據本發明另一實施例的聲音事件偵測方法的流程圖。參閱圖3所示，本發明另一實施例提供一種聲音事件偵測方法，其至少包括下列幾個步驟：

步驟S300：配置語音活動檢測子系統的語音接收模組接收原始聲音訊號。

步驟S301：配置語音活動檢測子系統的特徵擷取模組以從原始聲音訊號擷取多個特徵，並儲存至資料庫。

步驟S302：配置語音活動檢測子系統的第一判斷模組以執行第一分類流程。

步驟S303：配置第一判斷模組判斷該些特徵是否符合啟動語音，若是，則進入步驟S304。若否，則回到步驟S300。

響應於第一判斷模組判斷該些特徵符合該啟動語音時，方法進入步驟S304：配置聲音事件偵測子系統的第二判斷模組執行第二分類流程。

步驟S305：配置第二判斷模組判斷該些特徵是否符合多個預定語音的至少其中之一。若是，則進入步驟S306。若否，則回到步驟S300。

響應於該第二判斷模組判斷該些特徵符合該些預定語音的至少其中之一時，方法進入步驟S306：配置聲音事件偵測子系統的功能響應模組執行多個功能中，對應於判斷為符合預定語音的至少其中之一者。

其中，各步驟的具體實施方式及其等效變化已於前述實施例中詳細描述，故在此省略重複敘述。

[實施例的有益效果]

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

1:聲音事件偵測系統 VAD:語音活動檢測子系統 DB:資料庫 AED:聲音事件偵測子系統 100:語音接收模組 102:特徵擷取模組 104:第一判斷模組 PU1:第一處理單元 OSD:原始聲音訊號 FT:特徵 S1:聲音事件偵測啟動訊號 110:第二判斷模組 112:功能響應模組 PU2:第二處理單元

圖1為根據本發明實施例的聲音事件偵測系統的前視示意圖。

圖2爲根據本發明實施例的擷取流程的流程圖。

圖3為根據本發明另一實施例的聲音事件偵測方法的流程圖。

1:聲音事件偵測系統

VAD:語音活動檢測子系統

DB:資料庫

AED:聲音事件偵測子系統

100:語音接收模組

102:特徵擷取模組

104:第一判斷模組

PU1:第一處理單元

OSD:原始聲音訊號

FT:特徵

S1:聲音事件偵測啟動訊號

110:第二判斷模組

112:功能響應模組

PU2:第二處理單元

Claims

一種聲音事件偵測系統，其包括：一語音活動檢測子系統，包括：一語音接收模組，經配置以接收一原始聲音訊號；一特徵擷取模組，經配置以通過一擷取流程將該原始聲音訊號分解為多個訊框，並進行一傅立葉轉換以擷取對應該些訊框的多個頻譜資料作為多個特徵；及一第一判斷模組，經配置以執行一第一分類流程，以將該些頻譜資料與一啟動語音的頻譜資料進行比對來判斷該些頻譜資料是否符合一啟動語音的頻譜資料；一資料庫，用以儲存所擷取的該些特徵；以及一聲音事件偵測子系統，包括：一第二判斷模組，響應於該第一判斷模組判斷該些特徵符合該啟動語音時，經配置以執行一第二分類流程，以判斷該些特徵是否符合多個預定語音的至少其中之一；及一功能響應模組，響應於該第二判斷模組判斷該些特徵符合該些預定語音的至少其中之一時，執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者，其中，該第二分類流程包括將對應該些特徵的多個梅爾頻率倒譜係數作為輸入特徵向量輸入一經訓練機器學習模型，以判斷該些特徵是否符合該些預定語音的至少其中之一，其中，該經訓練機器學習模型是將預處理後的多個預定語音的相關資料依適當比例分為一訓練集及一驗證集，並以該訓練集對一機器學習模型進行訓練所產生的。
如請求項1所述的聲音事件偵測系統，其中該擷取流程更包括：通過一高通濾波器將該些訊框對應的訊號資料進行預強化；進行該傅立葉轉換，以將經預強化的該些訊號資料轉換至頻域，以產生對應於該些訊框的該些頻譜資料；將該些頻譜資料通過一梅爾濾波器，以得到多個梅爾刻度；在該些梅爾刻度上提取對數能量；以及對所獲得的對數能量進行離散餘弦轉換，以轉換到倒頻譜域，從而產生該些梅爾頻率倒譜係數。
一種聲音事件偵測方法，其包括：配置一語音活動檢測子系統的一語音接收模組接收一原始聲音訊號；配置該語音活動檢測子系統的一特徵擷取模組以通過一擷取流程將該原始聲音訊號分解為多個訊框，並進行一傅立葉轉換以擷取對應該些訊框的多個頻譜資料作為多個特徵；配置該語音活動檢測子系統的一第一判斷模組以執行一第一分類流程，將該些頻譜資料與一啟動語音的頻譜資料進行比對來並判斷該些頻譜資料是否符合一啟動語音的頻譜資料；將所擷取的該些特徵儲存至一資料庫；其中，響應於該第一判斷模組判斷該些特徵符合該啟動語音時，配置一聲音事件偵測子系統的一第二判斷模組執行一第二分類流程，以判斷該些特徵是否符合多個預定語音的至少其中之一；其中，響應於該第二判斷模組判斷該些特徵符合該些預定語音的至少其中之一時，配置該聲音事件偵測子系統的一功能響應模組執行多個功能中，對應於判斷為符合該預定語音的至少其中之一者，其中，該第二分類流程包括將對應該些特徵的多個梅爾頻率倒譜係數作為輸入特徵向量輸入一經訓練機器學習模型，以判斷該些特徵是否符合該些預定語音的至少其中之一，其中，該經訓練機器學習模型是將預處理後的多個預定語音的相關資料依適當比例分為一訓練集及一驗證集，並以該訓練集對一機器學習模型進行訓練所產生的。
如請求項3所述的聲音事件偵測方法，其中該擷取流程更包括：通過一高通濾波器將該些訊框對應的訊號資料進行預強化；進行該傅立葉轉換，以將經預強化的該些訊號資料轉換至頻域，以產生對應於該些訊框的該些頻譜資料；將該些頻譜資料通過一梅爾濾波器，以得到多個梅爾刻度；在該些梅爾刻度上提取對數能量；以及對所獲得的對數能量進行離散餘弦轉換，以轉換到倒頻譜域，從而產生該些梅爾頻率倒譜係數。