TWI756817B

TWI756817B - 語音活動偵測裝置與方法

Info

Publication number: TWI756817B
Application number: TW109130731A
Authority: TW
Inventors: 黃義政
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-01
Also published as: US11875779B2; TW202211213A; US20220076659A1

Abstract

本發明揭露一種語音活動偵測裝置與方法，能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。該語音活動偵測裝置包含一環境偵測電路、一語音活動偵測電路以及一語音活動決策電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測電路用來依據複數種語音活動偵測演算法分析該聲音輸入訊號，以產生複數個語音活動偵測結果。該語音活動決策電路用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。

Description

語音活動偵測裝置與方法

本發明是關於語音活動偵測裝置與方法，尤其是關於能夠適應性地採用不同語音活動偵測演算法的其中之一的語音活動偵測裝置與方法。

許多電子裝置（例如：移動式裝置像是智慧型手機（smart phone）、智慧手錶（smart watch）、智慧音箱（smart speaker）等）可藉由語音辨識（speech recognition）功能來判斷使用者說出的指令（commands），並據以執行對應的操作。為避免漏掉使用者說出的指令，電子裝置可令語音辨識功能保持在持續聆聽（always listening）的狀態；然而，大部分的時間裡，語音辨識功能所接收的聲音訊號並非使用者指令，因此，為減少不必要的處理與耗電，電子裝置可藉由語音活動偵測（voice activity detection, VAD）來判斷是否有語音出現，並據以控制語音辨識功能的運作。更明確地說，當有語音出現時，電子裝置會喚醒（wake up）語音辨識功能以判斷是否有使用者指令；當沒有語音出現時，電子裝置可關閉語音辨識功能以減少耗電。一般語音喚醒系統（voice wake-up system）的運作流程圖如圖1所示，包含：步驟S110：依據輸入訊號偵測語音活動，以及禁能語音辨識功能。步驟S120：判斷是否有語音活動；若是，至步驟S130；若否，回到步驟S110。步驟S130：喚醒語音辨識功能，並執行語音辨識。步驟S140：判斷是否有使用者指令；若是，至步驟S150；若否，回到步驟S110。步驟S150：依據使用者指令執行相對應的操作，然後回到步驟S110。

在實際應用時，語音活動偵測可能運作在具有許多不同的背景雜訊（background noise）的環境中，這些背景雜訊可分為穩態（stationary）雜訊與非穩態（non-stationary）雜訊。穩態雜訊的能量隨時間的變化幅度不大，像是風扇聲、安靜的辦公室的聲響等，這種雜訊對語音活動偵測的影響較小；而非穩態雜訊的能量隨時間的變化幅度大，像是電視聲、街道交通工具聲、人群講話聲等。許多非穩態雜訊的特徵（characteristic）與人聲的特徵相近，會影響語音活動偵測的效能（performance），使偵測準確度（accuracy）下降。

語音活動偵測的效能可按兩種指標值被評估，一種是「將語音誤判為雜訊」的指標值（簡稱錯失（miss）指標值)，另一種是「將雜訊誤判為語音」的指標值（簡稱誤觸發（false trigger）指標值），這二種指標值之間的關係通常是一權衡（trade off）關係。當錯失指標值上升時，使用者可能要常常重複說出指令，這會造成使用經驗變差；當誤觸發指標值上升時，電子裝置會被迫執行不必要訊號處理與資料傳輸，這會造成耗電量上升。

一般的電子裝置採用固定的語音活動偵測演算法，而固定不變的語音活動偵測演算法可能在某種背景雜訊的環境下的表現較好，但在另一種背景雜訊的環境下的表現較差。因此，本領域需要一種能因應不同環境條件來分別採用不同語音活動偵測演算法的技術，以在不同環境條件下都達到良好的語音活動偵測表現。

本揭露的目的之一在於提供一種語音活動偵測裝置與方法，以避免先前技術的問題。

本揭露的語音活動偵測裝置的一實施例能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。該實施例包含一環境偵測電路、一語音活動偵測電路以及一語音活動決策電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測電路用來依據複數種語音活動偵測演算法分析該聲音輸入訊號，以產生複數個語音活動偵測結果。該語音活動決策電路用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。

本揭露的語音活動偵測裝置的另一實施例能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一，再據以產生一語音活動偵測結果作為是否有語音活動的根據。該語音活動裝置偵測裝置包含一環境偵測電路以及一語音活動偵測電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測暨決策電路用來依據該環境偵測結果選擇複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法，再依據該有效語音活動偵測演算法分析該聲音輸入訊號，以產生一語音活動偵測結果作為是否有語音活動的根據。

本揭露的語音活動偵測方法的一實施例能夠依據一環境偵測結果選擇複數種語音活動偵測結果/演算法的其中之一，包含下列步驟：接收並處理一聲音輸入訊號以產生該環境偵測結果；以及依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一作為一最終語音活動偵測結果，或者依據該環境偵測結果選擇該複數種語音活動偵測演算法的其中之一並據以產生該最終語音活動偵測結果，其中該複數個語音活動偵測結果是分別依據該複數種語音活動偵測演算法而產生。

有關本發明的特徵、實作與功效，茲配合圖式作較佳實施例詳細說明如下。

本揭露揭示一種語音活動偵測（voice activity detection, VAD）裝置與方法，能夠因應不同環境條件分別採用不同語音活動偵測結果/演算法，以達到良好的語音活動偵測表現。

圖2顯示本揭露之語音活動偵測裝置的一實施例，能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。圖2的語音活動偵測裝置200包含一環境偵測電路210、一語音活動偵測電路220以及一語音活動決策電路。環境偵測電路210用來處理一聲音輸入訊號以產生一環境偵測結果。語音活動偵測電路220用來依據複數種語音活動偵測演算法分析該聲音輸入訊號，以產生複數個語音活動偵測結果；語音活動偵測電路220本身可為一已知或自行開發的電路，該複數種語音活動偵測演算法可為已知或自行開發的演算法，不同演算法的效能（例如：錯失值與誤觸發值）通常不同。語音活動決策電路230用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。

圖3顯示圖2之環境偵測電路210的一實施例，包含一訊號分析電路310、一能量變化偵測電路320以及一變化資訊決策電路330。該些電路分述如下。

請參閱圖3。訊號分析電路310用來依據該聲音輸入訊號產生 M個處理訊號，其中該 M個處理訊號為 M個頻帶訊號或 M個頻域訊號， M為正整數。更詳細地說，在處理該聲音輸入訊號的過程中，訊號分析電路310會持續接收並取樣該聲音輸入訊號；在得到該聲音輸入訊號的J個取樣值（例如：複數個取樣值）足以形成一個音框（frame）後，訊號分析電路310再據以產生此音框的M個處理訊號。於一實作範例中，訊號分析電路310包含至少一濾波電路用來依據該聲音輸入訊號產生每個音框的 M個頻帶訊號；舉例而言，該至少一濾波電路包含 M個濾波器，每個濾波器產生一頻帶訊號，從而該 M個濾波器產生該 M個頻帶訊號。於另一實作範例中，訊號分析電路310包含至少一轉換電路（例如：快速傅立葉轉換（Fast Fourier Transform）電路）用來依據該聲音輸入訊號產生每個音框的 M個頻域訊號。

請參閱圖3。能量變化偵測電路320用來依據每個音框的 M個處理訊號進行計算，以產生每個音框的

個能量變化值，共產生 L個音框的 X個能量變化值，其中該 X等於 M乘以 L， L為一音框個數。於一實作範例中，能量變化偵測電路320執行複數個步驟如圖4所示，包含：步驟S410：依據該 L個音框的每一個的 M個處理訊號進行計算，以得到 X個訊號能量值。舉例而言，步驟S410依據底下式(1)計算每個頻帶/頻域訊號在每個音框裡的能量（例如：每個頻帶訊號在每個音框裡 N個取樣點的能量總和，每個取樣點對應一取樣週期像是

或

），以得到 M× L= X個訊號能量值（ E _m,l ）。

式(1) 式(1)中， l為音框索引（frame index）介於1與 L之間， m為頻帶/頻域訊號索引介於1與 M之間， M為對應第 l個音框的頻帶/頻域訊號的個數， N為第 m個頻帶/頻域訊號在第 l個音框裡的資料點數， x _m _{,
l}( k)為第 m個頻帶/頻域訊號在第 l個音框裡的第 k個點的值。步驟S420：依據該 X個訊號能量值與一短期音框個數（ p _st ）計算 X個短期能量值，以及依據該 X個訊號能量值與一長期音框個數（ p _lt ）計算 X個長期能量值。舉例而言，步驟S420依據底下式(2)計算該 X個短期平均能量值（ E_ st _m _{,
l}）與該 X個長期平均能量值（ E_ lt _m _{,
l}）。

式(2) 步驟S430：依據該 X個短期能量值與該 X個長期能量值得到 X個能量關係值。舉例而言，步驟S430依據底下式(3)計算該 X個能量關係值。

式(3) 步驟S440：比較該X個能量關係值的每一個與一能量閾值（ thr _m ）以產生該X個能量變化值。舉例而言，若一能量關係值（

）大於該能量閾值，步驟S440令一能量變化值（ fg_ E_ var _m _{,
l}）為1代表能量變化大；若該能量關係值不大於該能量閾值，步驟S440令該能量變化值為0代表能量變化小。

請參閱圖3。變化資訊決策電路330用來處理該 X個能量變化值以產生 L個能量變化偵測值，接著比較該 L個能量變化偵測值的每一個與一變化閾值以產生 L個比較結果，然後依據該 L個比較結果產生該環境偵測結果。於一實作範例中，變化資訊決策電路330將該 X個能量變化值中每一音框（對應音框索引的每個值）的 M個能量變化值相加如底下式(4)所示，以產生 L個能量變化偵測值（ S_E_var _l ）；接著變化資訊決策電路330比較該 L個能量變化偵測值的每一個與一變化閾值（ thr）以產生 L個比較結果（ fg_S _l ）如底下式(5)所示；若該 L個比較結果顯示複數個能量變化偵測值（例如：該 L個能量變化偵測值）中所有的/多數的能量變化偵測值大於該變化閾值，變化資訊決策電路330判斷目前環境的能量變化大；若該 L個比較結果顯示該複數個能量變化偵測值中所有的/多數的能量變化偵測值小於該變化閾值，變化資訊決策電路330判斷目前環境的能量變化小。

式(4) fg_S _l 代表

與 thr之間的比較結果式(5)

請參閱圖2與圖3。語音活動決策電路230依據一預設規則與該 L個比較結果的變化，選擇該複數個語音活動偵測結果的其中之一。該預設規則在該 L個比較結果的變化大於一預設變化程度時（亦即：目前環境的能量變化大時），選擇該複數個語音活動偵測結果中的一偵測結果；該預設規則在該 L個比較結果的變化小於該預設變化程度時（亦即：目前環境的能量變化小時），選擇該複數個語音活動偵測結果中的另一偵測結果。舉例而言，以音高為基礎的語音活動偵測（pitch-based VAD）以及以能量為基礎的語音活動偵測（energy-based VAD）的特性如底下表1所示；若語音活動決策電路230先考量低錯失值（miss value）再考量低誤觸發值（false trigger value），在目前環境能量變化大的情況下，語音活動決策電路230選擇以能量為基礎的語音活動偵測結果，而在目前環境能量變化小的情況下，語音活動決策電路230選擇以音高為基礎的語音活動偵測結果。表1

	環境能量變化大的情況下的錯失值	環境能量變化大的情況下的誤觸發值	環境能量變化小的情況下的錯失值	環境能量變化小的情況下的誤觸發值
以音高為基礎的語音活動偵測	高	低	低	低
以能量為基礎的語音活動偵測	低	高	低	高

圖5顯示圖2之環境偵測電路210的另一實施例，包含一特徵萃取電路510與一分類電路520。特徵萃取電路510用來依據至少一特徵萃取演算法處理該聲音輸入訊號，以產生至少一雜訊特徵，該至少一特徵萃取演算法為已知或自行開發的分析技術，像是梅爾頻率倒譜系數（Mel-Frequency Cepstral Coefficient, MFCC）、線性預測編碼（Linear Predictive Coding, LPC）、線性預測倒譜系數（Linear Predictive Cepstral Coefficient, LPCC）等。分類電路520用來依據該至少一雜訊特徵決定至少一雜訊類型作為該環境偵測結果；舉例而言，分類電路520依據特徵萃取電路510提供的雜訊特徵，透過已訓練好的統計模型如隱藏式馬可夫模型（Hidden Markov Model, HMM）與高斯混和模型（Gaussian Mixture Model, GMM），或透過機器學習方法（machine learning）如支援向量機（Support Vector Machine, SVM）與神經網路（Neural Network, NN），得到相對應的雜訊類型作為該環境偵測結果。

請參閱圖2與圖5。語音活動決策電路230依據一預設規則與該至少一雜訊類型選擇該複數個語音活動偵測結果的其中之一。該預設規則在該雜訊類型為一非穩態（non-stationary）雜訊類型時，選擇該複數個語音活動偵測結果中的一偵測結果；該預設規則在該雜訊類型為一穩態（stationary）雜訊類型時，選擇該複數個語音活動偵測結果中的另一偵測結果。舉例而言，若語音活動決策電路230先考量低錯失值再考量低誤觸發值，當雜訊類型為音樂聲時（非穩態雜訊類型時），語音活動決策電路230選擇以能量為基礎的語音活動偵測結果；當雜訊類型為風扇聲時（穩態雜訊類型），語音活動決策電路230選擇以音高為基礎的語音活動偵測結果。

圖6顯示本揭露之語音活動偵測裝置的另一實施例，能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一，從而依據所選擇的語音活動偵測演算法來產生一語音活動偵測結果作為是否有語音活動的根據。圖6的語音活動裝置偵測裝置600包含一環境偵測電路610與一語音活動偵測暨決策電路620。該些電路說明於下。

環境偵測電路610的一實施例為圖3或圖5的環境偵測電路210。語音活動偵測暨決策電路620用來依據環境偵測電路610的環境偵測結果，選擇該複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法，再依據該有效語音活動偵測演算法分析該聲音輸入訊號，以產生一語音活動偵測結果作為是否有語音活動的根據。舉例而言，當環境偵測電路610為圖3的環境偵測電路210時，語音活動偵測暨決策電路620依據一預設規則與該 L個比較結果的變化，選擇該複數種語音活動偵測演算法的其中之一作為該有效語音活動偵測演算法；該預設規則在該 L個比較結果的變化大於一預設變化程度時，選擇該複數個語音活動偵測演算法中的一演算法（例如：以能量為基礎的語音活動偵測演算法），該預設規則在該 L個比較結果的變化小於該預設變化程度時，選擇該複數個語音活動偵測演算法的另一演算法（例如：以音高為基礎的語音活動偵測演算法）。另舉例而言，當環境偵測電路610為圖5的環境偵測電路210時，語音活動偵測暨決策電路620依據一預設規則與該至少一雜訊類型選擇該複數種語音活動偵測演算法的其中之一作為該有效語音活動偵測演算法；該預設規則在該雜訊類型為一非穩態雜訊類型時，選擇該複數個語音活動偵測演算法中的一演算法（例如：以能量為基礎的語音活動偵測演算法），該預設規則在該雜訊類型為一穩態雜訊類型時，選擇該複數個語音活動偵測演算法中的另一演算法（例如：以音高為基礎的語音活動偵測演算法）。值得注意的是，利用該有效語音活動偵測演算法分析該聲音輸入訊號的技術可為已知或自行開發的技術。

由於本領域具有通常知識者能夠參酌圖2之實施例的揭露來瞭解圖6之實施例的細節與變化，亦即圖2之實施例的技術特徵可合理地應用於圖6之實施例中，因此，重複及冗餘之說明在此予以節略。

圖7顯示本揭露之語音活動偵測方法的一實施例，是由圖2的語音活動偵測裝置200或圖6的語音活動偵測裝置600來執行。圖7的語音活動偵測方法包含下列步驟：步驟S710：接收並處理一聲音輸入訊號以產生該環境偵測結果；以及步驟S720：依據該環境偵測結果選擇複數個語音活動偵測結果的其中之一作為一最終語音活動偵測結果，或者依據該環境偵測結果選擇複數種語音活動偵測演算法的其中之一並據以產生該最終語音活動偵測結果，其中該複數個語音活動偵測結果是分別依據該複數種語音活動偵測演算法而產生。

由於本領域具有通常知識者能夠參酌圖2與圖6之實施例的揭露來瞭解圖7之實施例的細節與變化，亦即圖2與圖6之實施例的技術特徵可合理地應用於圖7之實施例中，因此，重複及冗餘之說明在此予以節略。

請注意，在實施為可能的前提下，本技術領域具有通常知識者可選擇性地實施前述任一實施例中部分或全部技術特徵，或選擇性地實施前述複數個實施例中部分或全部技術特徵的組合，藉此增加本發明實施時的彈性。

綜上所述，本發明能夠因應不同環境條件來分別採用不同語音活動偵測結果/演算法，以在不同環境條件下都達到良好的語音活動偵測表現。

雖然本發明之實施例如上所述，然而該些實施例並非用來限定本發明，本技術領域具有通常知識者可依據本發明之明示或隱含之內容對本發明之技術特徵施以變化，凡此種種變化均可能屬於本發明所尋求之專利保護範疇，換言之，本發明之專利保護範圍須視本說明書之申請專利範圍所界定者為準。

S110~S150:步驟 200:語音活動偵測裝置 210:環境偵測電路 220:語音活動偵測電路 230:語音活動決策電路 310:訊號分析電路 320:能量變化偵測電路 330:變化資訊決策電路 S410~S440:步驟 510:特徵萃取電路 520:分類電路 600:語音活動裝置偵測裝置 610:環境偵測電路 620:語音活動偵測暨決策電路 S710~S720:步驟

［圖1］顯示一般的語音喚醒系統的運作流程圖；［圖2］顯示本揭露之語音活動偵測裝置的一實施例；［圖3］顯示圖2之環境偵測電路的一實施例；［圖4］顯示圖3之能量變化偵測電路所執行的步驟；［圖5］顯示圖2之環境偵測電路的另一實施例；［圖6］顯示本揭露之語音活動偵測裝置的另一實施例；以及［圖7］顯示本揭露之語音活動偵測方法的一實施例。

200:語音活動偵測裝置

210:環境偵測電路

220:語音活動偵測電路

230:語音活動決策電路

Claims

一種語音活動偵測裝置，能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據，該語音活動裝置偵測裝置包含：一環境偵測電路，用來處理一聲音輸入訊號以產生該環境偵測結果；一語音活動偵測電路，用來依據複數種語音活動偵測演算法分析該聲音輸入訊號，以產生該複數個語音活動偵測結果；以及一語音活動決策電路，用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。
如請求項1之語音活動偵測裝置，其中該環境偵測電路包含：一訊號分析電路，用來依據該聲音輸入訊號產生L個音框的每一個的M個處理訊號，其中該M個處理訊號為M個頻帶訊號或M個頻域訊號，該M為正整數，該L為一音框個數；一能量變化偵測電路，用來依據該L個音框的每一個的該M個處理訊號進行計算，以產生該L個音框的X個能量變化值，其中該X等於該M乘以L；以及一變化資訊決策電路，用來處理該X個能量變化值以產生L個能量變化偵測值，接著比較該L個能量變化偵測值的每一個與一變化閾值以產生L個比較結果，再依據該L個比較結果產生該環境偵測結果，其中該L個能量變化偵測值分別對應該L個音框。
如請求項2之語音活動偵測裝置，其中該訊號分析電路包含至少一濾波電路用來依據該聲音輸入訊號產生該L個音框的每一個的該M個頻帶訊號，或者該訊號分析電路包含至少一轉換電路用來依據該聲音輸入訊號產生該L個音框的每一個的該M個頻域訊號。
如請求項2之語音活動偵測裝置，其中該變化資訊決策電路將該L個音框的每一個的M個能量變化值相加，以產生該L個能量變化偵測值。
如請求項2之語音活動偵測裝置，其中該語音活動決策電路依據一預設規則與該L個比較結果，選擇該複數個語音活動偵測結果的其中之一；該預設規則在該L個比較結果的多數個大於一變化閾值時，選擇該複數個語音活動偵測結果中的一偵測結果，該預設規則在該L個比較結果的多數個小於該變化閾值時，選擇該複數個語音活動偵測結果中的另一偵測結果。
如請求項1之語音活動偵測裝置，其中該環境偵測電路包含：一特徵萃取電路，用來依據至少一特徵萃取演算法處理該聲音輸入訊號，以產生至少一雜訊特徵；以及一分類電路，用來依據該至少一雜訊特徵決定至少一雜訊類型作為該環境偵測結果。
如請求項6之語音活動偵測裝置，其中該語音活動決策電路依據一預設規則與該至少一雜訊類型選擇該複數個語音活動偵測結果的其中之一；該預設規則在該雜訊類型為一非穩態(non-stationary)雜訊類型時，選擇該複數個語音活動偵測結果中的一偵測結果，該預設規則在該雜訊類型為一穩態(stationary)雜訊類型時，選擇該複數個語音活動偵測結果中的另一偵測結果。
一種語音活動偵測裝置，能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一，該語音活動裝置偵測裝置包含：一環境偵測電路，用來處理一聲音輸入訊號以產生該環境偵測結果；以及一語音活動偵測暨決策電路，用來依據該環境偵測結果選擇該複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法，再依據該有效語音活動偵測演算法分析該聲音輸入訊號，以產生一語音活動偵測結果作為是否有語音活動的根據。