TWI807012B

TWI807012B - 有計算效率的語音分類器及相關方法

Info

Publication number: TWI807012B
Application number: TW108113305A
Authority: TW
Inventors: 佩門戴漢妮; 羅伯特Ｌ布恩
Original assignee: 美商半導體組件工業公司
Priority date: 2018-04-19
Filing date: 2019-04-17
Publication date: 2023-07-01
Also published as: CN110390957A; TW201944392A; US11341987B2; US20190325899A1

Abstract

在一通常態樣中，一種用於偵測語音之設備可包括一信號調節級，該信號調節級接收對應於音能的一信號、對該接收信號進行濾波以產生一語音頻帶信號、計算該接收信號的一第一能量值序列、及計算該語音頻帶信號的一第二能量值序列。該設備也可包括一偵測級，該偵測級包括複數個語音及雜訊微分器。該偵測級可經組態以接收該第一能量值序列及該第二能量值序列，並基於該第一能量值序列及該第二能量值序列，對該複數個語音及雜訊微分器之各語音及雜訊微分器提供一各別的語音偵測指示信號。該設備也可包括一組合級，該組合級經組態以組合該等各別的語音偵測指示信號，並基於該等各別的語音偵測指示信號之該組合，提供該接收信號中存在語音及該接收信號中不存在語音中之一者的一指示。

Description

有計算效率的語音分類器及相關方法

本說明係關於用於語音偵測(例如，語音分類)的設備及用於語音偵測的相關方法。更具體地說，本說明係關於用於在具有有限計算處理能力的應用中(諸如，例如在助聽器中)偵測語音存在或不存在的設備及相關方法。

語音偵測一直受到巨大關注，在音訊信號處理領域中具有眾多應用，且近年語音偵測已有許多進步。具體地說，計算(處理)能力及網際網路連接性上的進步已使技術能在許多裝置上提供準確的語音偵測。然而，此類方法在許多低(超低)電力應用(例如，具有有限的處理能力、電池電力等的應用)中係計算上不可行的。例如，在助聽器應用中(其中持久的電池壽命係最重要的，且由於延遲限制，基於雲端的處理尚不實際)，目前方法係不切實際的。已知此類缺點，因此以最小計算資源而實作準確及有效率地執行的語音分類器(語音偵測器)係有挑戰性的。

在一通常態樣中，一種用於偵測語音之設備可包括一信號調節級，該信號調節級經組態以：接收對應於一第一頻寬中之音能的一信號；對該接收信號進行濾波以產生一語音頻帶信號，該語音頻帶信號對應於一第二頻寬中之音能，該第二頻寬係該第一頻寬的一第一子集；計算該接收信號的一第一能量值序列；及計算該語音頻帶信號的一第二能量值序列。該設備也可包括一偵測級，該偵測級包括複數個語音及雜訊微分器。該偵測級可經組態以接收該第一能量值序列及該第二能量值序列，且基於該第一能量值序列及該第二能量值序列，對該複數個語音及雜訊微分器之各語音及雜訊微分器提供一各別的語音偵測指示信號。該設備仍可進一步包括一組合級，該組合級經組態以組合該等各別的語音偵測指示信號，且基於該等各別的語音偵測指示信號之該組合，提供該接收信號中存在語音及該接收信號中不存在語音中之一者的一指示。

在另一通常態樣中，一種用於語音偵測的設備可包括一信號調節級，該信號調節級經組態以接收一數位取樣音訊信號、計算該數位取樣音訊信號的一第一能量值序列、及計算該數位取樣音訊信號的一第二能量值序列。該第二能量值序列可對應於該數位取樣音訊信號的一語音頻帶。該設備也可包括一偵測級。該偵測級可包括一基於調變的語音及雜訊微分器，該基於調變的語音及雜訊微分器經組態以基於該語音頻帶中之時間調變活動提供一第一語音偵測指示。該偵測級也可包括一基於頻率的語音及雜訊微分器，該基於頻率的語音及雜訊微分器經組態以基於該第一能量值序列與該第二能量值序列的一比較提供一第二語音偵測指示。該偵測級可進一步包括一脈衝偵測器，該脈衝偵測器經組態以基於該數位取樣音訊信號的一第一階微分提供一第三語音偵測指示。該設備也可包括一組合級，該組合級經組態以組合該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示，且基於該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示之該組合，提供該數位取樣音訊信號中存在語音及該數位取樣音訊信號中不存在語音中之一者的一指示。

在另一通常態樣中，一種用於語音偵測之方法可包括藉由一音訊處理電路接收對應於一第一頻寬中之音能的一信號、對該接收信號進行濾波以產生一語音頻帶信號，該語音頻帶信號對應於一第二頻寬中之音能。該第二頻寬可係該第一頻寬的一子集。該方法可進一步包括計算該接收信號的一第一能量值序列，及計算該語音頻帶信號的一第二能量值序列。該方法也可包括藉由包括複數個語音及雜訊微分器的一偵測級接收該第一能量值序列及該第二能量值序列，且基於該第一能量值序列及該第二能量值序列，對該複數個語音及雜訊微分器之各語音及雜訊微分器提供一各別的語音偵測指示信號。該方法仍可進一步包括藉由一組合級組合該等各別的語音偵測指示信號，且基於該等各別的語音偵測指示信號之該組合，提供該接收信號中存在語音及該接收信號中不存在語音中之一者的一指示。

100:設備

105:麥克風

110:類比轉數位(A/D)轉換器

115:信號調節級

116:能量值序列

117:能量值序列

120:偵測級

121:基於調變的語音及雜訊微分器(MSND)

122:基於頻率的語音及雜訊微分器(FSND)

123:脈衝偵測器(ID)

125:組合級

130:音訊信號修改級

135:數位轉類比轉換器

140:音訊輸出裝置

150:設備

155:低頻雜訊偵測器(LFND)

300:設備

315:帶通濾波器

316:方塊

317:方塊

318:平滑濾波器

319:平滑濾波器

325:移動語音計數器

326:語音分類級

400:設備

405:時域至頻域變換(分析)方塊

415:次頻帶通道

455:LFND

500:曲線圖

505:跡線

510:跡線

515:標記

520:標記

530:標記

600:曲線圖

605:跡線

610:跡線

615:標記

620:標記

630:標記

700:方法

705:方塊

710:方塊

720:方塊

725:方塊

730:方塊

735:方塊

740:方塊

745:方塊

750:方法

755:方塊

760:方塊

圖1A係繪示實作語音分類器之設備的方塊圖。

圖1B係繪示實作語音分類器之另一設備的方塊圖。

圖2係繪示可結合圖1A及圖1B的設備實作之語音分類器的一部分的實施方案的方塊圖。

圖3係繪示圖1B之設備的實施方案的方塊圖。

圖4係繪示圖1B之設備的另一實施方案的方塊圖。

圖5及圖6係繪示低頻雜訊偵測器(諸如，在圖3及圖4之實施方案中)之操作的曲線圖。

圖7A係繪示用於音訊信號中之語音分類(語音偵測)的方法的流程圖。

圖7B係繪示可結合圖7A之方法實作之用於音訊信號中之語音分類(語音偵測)的方法的流程圖。

各種圖式中的相似參考符號指示相似及/或類似的元件。

本揭露係關於用於語音分類(例如，語音偵測)的設備(及相關方法)。如本文所討論的，語音分類(語音偵測)係指識別音訊信號中的關注語音內容，該音訊信號可包括其他(例如，非所要的)音訊內容，諸如，雜訊(諸如，白雜訊、粉紅雜訊、人聲雜訊(babble noise)、脈衝雜訊等等)。白雜訊可係每頻率具有相等能量(音能)之雜訊，粉紅雜訊可係每倍頻具有相等能量之雜訊、人聲雜訊可係二或更多個人(在背景中)談話、且脈衝雜訊可係可包括模擬期望語音內容之音能的短持續時間雜訊，諸如，鐵鎚敲擊釘子、關門、餐盤敲擊等。脈衝雜訊可係短持續時間、重複、響亮、及/或可包括雜訊後回響。語音分類的一目的係識別包括期望語音內容的音訊信號(例如，一人直接對配戴助聽器的另一人談話)，即使雜訊內容存在於包括期望語音內容的音訊信號中。為了本揭露之目的，用語「語音(speech)」通常指音訊信號中的期望語音內容，而「語音分類(speech classification)」係指識別音訊信號是否包括語音。

本文描述之實施方案可用於實作有計算效率及省電的語音分類器(及相關方法)。此可基於包括在實例實施方案中之語音及雜訊微分器(偵測器)的特定配置、且使用用於判定音訊信號的語音分類之有計算效率的方法(諸如，本文描述之方法)而完成。

在本文描述之實例實施方案中，描述各種操作參數及技術，諸如，臨限、係數、計算值、取樣率、訊框速率、頻率範圍(頻寬)等。此等實例操作參數及技術係藉由實例的方式提供，且所使用的具體操作參數、操作參數值、及技術(例如，運算方法等)將取決於特定實施方案。另外，用於判定給定實施方案的具體操作參數及技術的各種方法可以數種方式判定，諸如，使用經驗測量及資料、使用訓練資料等等。

圖1A係繪示實作語音分類之設備100的方塊圖。如圖1A所示，設備100包括麥克風105、類比轉數位(A/D)轉換器110、信號調節級115、偵測級(如，語音及雜訊微分級)120、組合級(例如，統計收集及組合級)125、音訊信號修改級130、數位轉類比轉換器135、及音訊輸出裝置(例如，揚聲器)140。在設備100中，語音分類器可包括信號調節級115、偵測級120、及組合級125。

麥克風105(如，麥克風105之換能器)可提供對應於在麥克風105接收之音能的類比電壓信號。亦即，麥克風可針對橫跨可聽頻率範圍(例如，第一頻率範圍)的音能將物理聲波壓力變換成各別等效電壓表示。A/D轉換器110可接收來自麥克風之類比電壓信號，並將類比電壓信號轉換成類比電壓信號的數位表示(例如，數位信號)。

信號調節級115可接收該數位信號(例如，所接收信號)，且基於該接收(數位)信號，生成用於偵測級120的複數個輸入。例如，接收信號可透過使用頻率通帶(例如，第二頻率範圍)之帶通濾波器(未圖示於圖1A中)處理，該頻率通帶對應於接收信號之中語音能量係主語音能量區域的部分，其中通帶的頻率範圍係包括在接收信號中之頻率的子集。然後，信號調節級115可計算接收(數位)信號及帶通濾波信號之各別能量值序列(例如，第一及第二序列)。第一及第二能量值序列可由信號調節級115傳遞至偵測級120作為輸入，該偵測級可基於接收輸入信號實施語音及雜訊微分及/或偵測。

在一些實施方案中，偵測級120可包括複數個語音及雜訊微分器，諸如，本文描述者。例如，偵測級120可經組態以從信號調節級115接收第一能量值序列及第二能量值序列，且基於第一能量值序列及第二能量值序列，對複數個語音及雜訊微分器之各語音及雜訊微分器提供各別的語音偵測指示信號至組合級125。取決於特定實施方案(例如，特定偵測器)，各別的語音偵測指示信號可指示可能存在語音、指示可能不存在語音、或指示可能存在特定類型的雜訊(例如，脈衝雜訊)。

在一些實施方案中，組合級125可經組態以組合來自偵測級120之各別的語音偵測指示信號(例如，收集各別的語音偵測指示信號的統計，及組合該等已收集統計)，以指示接收信號中存在或不存在語音。亦即，基於各別的語音偵測指示信號之組合，組合級125可提供接收信號中存在語音及接收信號中不存在語音中之一者的指示。基於由組合級125提供之指示(例如，語音或無語音)，音訊信號修改級130然後可對接收(數位)信號實施音訊處理(例如，以移除雜訊、增強語音、拋棄接收信號等等)。音訊信號修改級130可將經處理信號提供至D/A轉換器135，且D/A轉換器135可將經處理信號轉換成用於在音訊輸出裝置140上回播的類比(電壓)信號。

在一些實施方案中，如下文進一步討論的，藉由組合級125 組合(來自偵測級120的)各別的語音偵測指示信號可包括將加權滾動計數器值維持在下限與上限之間，其中該加權滾動計數器值可基於各別的語音偵測指示信號。組合級125可經組態以在加權滾動計數器值高於臨限值時，指示接收信號中存在語音；及在加權滾動計數器值低於臨限值時，指示接收信號中不存在語音。如上文提及的，此類實施方案之實例至少相關於圖3於下文進一步詳細討論。

圖1B係繪示實作語音分類之另一設備150的方塊圖。繪示於圖1B中的設備150類似於圖1A所示的設備100，但進一步包括低頻雜訊偵測器(low-frequency noise detector,LFND)155。因此，上文之圖1A的討論也可適用於圖1B，且為了簡潔起見，此處不重複討論之細節。

在此實例中，LFND 155可經組態以偵測接收(數位)音訊信號中低頻及/或超低頻雜訊(諸如，可能存在於汽車、飛機、火車等中的車輛雜訊)的存在。在一些實施方案中，LFND 155回應於偵測到低頻及/或超低頻率雜訊的臨限位準，LFND 155可經由信號(回授信號)下令信號調節級改變(更新)其通帶頻率範圍(例如，語音頻帶)至較高頻率範圍(例如，第三頻率範圍)，以降低所偵測之低頻雜訊在語音分類上的效應。下文進一步詳細討論LFND的實例實施方案(例如，可用於實作LFND 155)。

然而，簡單地說，在一些實施方案中，繼續圖1A之實例，LFND 155可經組態以基於接收(數位)信號判定第一頻寬中之音能中的低頻雜訊能量之量。LFND 155可經進一步組態以若所判定的低頻雜訊能量之量高於臨限，提供回授信號至信號調節級115。如上文提及的，信號調節級115可經組態以回應於回授信號而將第二頻寬改變至第三頻寬。第三頻寬可係第一頻寬的第二子集，並包括比第二頻寬更高的頻率，如上文討論的。

在一些實施方案中，LFND 155可經進一步組態以基於接收信號判定第一頻寬內之音能中的低頻雜訊能量之量已從高於臨限減少至低於臨限，及改變回授信號以指示第一頻寬內之音能中的低頻雜訊能量之量低於臨限。信號調節級115可經進一步組態以回應於回授信號的該改變而將第三頻寬改變至第二頻寬。

圖2係繪示可結合圖1A及圖1B的設備實作之語音分類器(偵測器)的一部分的實施方案的方塊圖。在一些實施方案中，圖2所示的配置可實作在用於語音分類及/或音訊信號處理的其他設備中。為了說明之目的，圖2所示的配置將參考圖1A及圖1A的以上討論進一步描述。

如圖2所示，偵測級120可包括基於調變的語音及雜訊微分器(modulation-based speech and noise differentiator,MSND)121、基於頻率的語音及雜訊微分器(frequency-based speech and noise differentiator,FSND)、及脈衝偵測器(impulse detector,ID)123。在其他實施方案中，其他配置係可行的。偵測級120可接收(例如，從信號調節級115)基於語音的能量值序列116及基於接收信號(例如，麥克風信號之數位表示)的能量值序列117。

在一些實施方案中，MSND 121可經組態以基於經選擇語音頻帶(例如，相關於圖1A討論的第二頻寬或第三頻寬)中的時間調變活動提供第一語音偵測指示(例如，至組合級125)。例如，MSND 121可經組態以基於彼等的各別時間調變活動位準而區分雜訊與語音。MSND 121當經適當組態(例如，基於實驗測量等)時可區分語音(其具有比多數雜訊信號更高的能量波動)與具有緩慢變化能量波動(諸如，室內環境雜訊，空調/HVAC雜訊)的雜訊。此外，當經適當組態時，MSND 121也可提供對具有更接近語音之時間調變特性的時間調變特性(諸如，人聲雜訊)之雜訊的免疫力(例如，防止不正確的語音分類)。

在一些實施方案中，MSND 121可經組態以藉由下列步驟區分雜訊與語音：基於第二能量值序列，計算語音頻帶信號的語音能量估計值；基於第二能量值序列，計算語音頻帶信號的雜訊能量估計值；及基於語音能量估計值與雜訊能量估計值之比較，提供其之各別語音偵測指示。語音能量估計值可在第一時間週期計算，且雜訊能量估計值可在第二時間週期計算，該第二時間週期大於該第一時間週期。下文進一步詳細討論此類實施方案之實例。

在一些實施方案中，FSND 122可經組態以基於第一能量值序列與第二能量值序列的比較(例如，比較語音頻帶中的能量與接收信號中的能量)，提供第二語音偵測指示(例如，至組合級125)。在一些實施方案中，FSND 122可藉由將雜訊識別為不具有語音之預期頻率內容的音訊信號能量而區分雜訊與語音。基於經驗研究，FSND 122在識別及排除頻帶外雜訊(例如，所選擇之語音頻帶之外)方面可係有效的，諸如，由一組叮噹作響的鑰匙產生的雜訊、汽車雜訊等的至少一部分。

在一些實施方案中，FSND 122可經組態以藉由比較第一能量值序列與第二能量值序列而識別及排除頻帶外雜訊，並基於該比較而提供第二語音偵測指示。亦即，FSND 122可比較所選擇語音頻帶中的能量與全體接收(數位)信號的能量(例如，在相同時間期間)，以識別及排除接收信號中的頻帶外音訊內容。在一些實施方案中，FSND 122可藉由判定第一能量值序列的能量值與第二能量值序列的對應(例如，時間對應)能量值的比率而比較第一能量值序列與第二能量值序列。

在一些實施方案中，ID 123可經組態以基於數位取樣音訊信號的第一階微分提供第三語音偵測指示。在一些實施方案中，ID 123可識別可能被MSND 121及FSND 122不正確地識別為語音的脈衝雜訊。例如，在一些實施方案中，ID 123可經組態以識別雜訊信號，諸如，可能在工廠或其他會產生重複脈衝類型聲音(像是敲釘)的環境中發生。在一些情況下，此類脈衝雜訊可能模擬與語音相同的調變型樣，且因此，可能被不正確地由MSND 121識別為語音。此外，此類脈衝雜訊也可能具有足夠的頻帶內(例如，在所選擇的語音頻帶中)能量內容，且也可能被不正確地由FSND 122識別為語音。

在一些實施方案中，ID 123可藉由比較針對第一能量值序列的訊框計算的值與針對第一能量值序列的先前訊框計算的值來識別脈衝雜訊，其中該訊框及該先前訊框之各者包括第一能量值序列的各別複數個值。在此實例中，ID 123可基於該比較進一步提供第三語音偵測指示，其中第三語音偵測指示指示第一頻寬內的音能中存在脈衝雜訊及第一頻寬內的音能中不存在脈衝雜訊中之一者。

在一些實施方案中，組合級125可經組態以接收及組合第一語音偵測指示、第二語音偵測指示、及第三語音偵測指示。基於第一語音偵測指示、第二語音偵測指示、第三語音偵測指示之組合，組合級可提供數位取樣音訊信號中存在語音及數位取樣音訊信號中不存在語音中之一者的一指示。下文進一步詳細討論(統計收集及)組合級125之實例實施方案。

圖3係繪示可實作圖1B之設備150的設備300的方塊圖。在此實例中，設備300包括與設備150類似的元件，且該等元件以類似元件數字指稱。設備300之討論提供具體實施方案之細節。在其他實施方案中，可使用或可不使用相關於圖3討論的具體方法。以300系列參考數字指稱針對圖3之設備300展示的額外元件(相較於圖1B)。在圖3中，展示各種操作資訊，諸如，訊框速率，諸如，以用於信號調節級115之帶通濾波器315的@Fs速率。為討論之清楚性及完整性之目的，相關於圖3重複相關於圖1B於上文討論的一些細節。

在圖3之實例實施方案中，至信號調節級115之輸入信號可係時域取樣音訊信號(接收信號)，該時域取樣音訊信號係已透過將物理聲波壓力經由麥克風105的換能器變換至彼等之等效電壓表示、然後傳遞通過A/D轉換器110以將類比電壓表示(類比電壓信號)轉換成數位音訊樣本而得到。然後，數位化(接收)信號可傳遞至BPF 315，其可實行f[n]的濾波功能，其中BPF 315可經組態以保持接收信號之中預期語音能量係最主要的內容，同時排除接收信號的其餘部分。例如，在此實例中，帶通信號可藉由下列方程式得到：y _bp[n]=(x＊f)[n]其中x[n]係以Fs的取樣率取樣的輸入(音訊)信號(接收信號)，且y _bp[n]係帶通濾波信號。

雖然語音可含有在廣泛頻率範圍上的信號能量，但實驗測量已顯示具有300至700Hz之範圍的帶通濾波可有效排除廣泛範圍的雜訊，同時仍保留能量(音能)頻譜的語音主要部分。

在得到帶通濾波信號之後，下列兩個平均可在M個樣本上計算出：

其中M係整數，且E _{bp_inst}[n]及E _{mic_inst}[n]係在樣本n的瞬間能量(以Fs取樣率)。因為能量估計值僅可每M個樣本計算及利用一次，新能量估計值E[m]_{bp_frame}及E[m]_{mic_frame}可定義如下：E _{mic_frame}[m]=E _{mic_inst}[mM]其中m=0,1,2,...及，

其中m=0,1,2,...。其中m係以Fs/M之抽取率的時間(訊框)指數。訊框能量計算可藉由圖3中之方塊316及317實施。

在計算上述信號能量後，信號能量值(例如，在每M個樣本計算的能量值序列中)平滑濾波器318及319可用以如下地使用各別先前訊框指數地平滑化此類目前信號能量值：E _bp[m]=α×E _bp[m-1]+(1-α)×E _{bp_frame}[m]

E _mic[m]=α×E _mic[m-1]+(1-α)×E _{mic_frame}[m]其中α為平滑係數，且E _bp[m]及E _mic[m]分別係平滑帶通及麥克風信號能量。然後可將E _bp[m]及E _mic[m]傳遞至偵測級120以供分析。已將M=0.5ms的等效訊框長度時間顯示成在語音分類器(諸如，本文所述者)中產生良好結果，同時可取決於給定實施方案的計算能力限制或能力使用0.1至5ms的較寬範圍。應將平滑係數α選擇成使得其緊密地追蹤訊框能量的平均。

在一些實施方案中，取決於特定硬體架構，可實施其他形式的能量計算。例如，若訊框能量不係已可得的，E _bp[m]及E _mic[m]可以連續形式並使用下列方程式直接從x[n]及y _bp[n]得到：E _bp[n]=α×E _bp[n-1]+(1-α)×x[n]²

E _mic[n]=α×E _mic[n-1]+(1-α)×y _bp[n]²

在此實例中，只要在將能量計算值(估計值)提供至偵測單元之前，E _bp[n]及E _mic[n]估計值最終係以適當取樣率(例如，此實例中的Fs/M速率)取樣，能量計算值的形式可有所變化。

如圖3所示，至MSND 121的輸入係帶通信號能量E _bp[m]，其可由MSND 121使用以監測帶通信號的調變位準。在此實例中，因為已將E _bp[m]濾波至其中預期語音係主要的窄頻帶寬，時間活動的高位準可表示音訊存在的高可能性。雖然有許多方式可在時間上監測調變位準，一種計算上便宜且有效的方式係使用經調諧(經組態等)以提供各別語音及雜訊能量指示器S及N的最大追蹤器及最小追蹤器來監測能量調變偏離。在此實例中，對於每一個訊框間隔

，可藉由找出E _bp[m]自其最後更新以來的最大位準而得到語音能量估計值，且對於每一個訊框間隔

，可藉由找出E _bp[m]自其最後更新以來的最小位準而得到雜訊能量估計值。S及N可使用下列方程式由MSND 121得到：

其中L _s及L _n係M的整數倍數。

在此實例中，因為此二個計算僅分別在

及

的訊框長度上進行，訊框取樣率可不同。語音與雜訊能量之間的比較因此可能需要同步。在數學上，對應於語音訊框l _s的最接近先前雜訊訊框l _n係l _s。避免同步問題的一種方式係比較目前語音訊框S[l _s]的能量及先前雜訊訊框N[l _n-1]的能量，以確保雜訊估計程序已完成，且雜訊估計係有效的。若超過發散臨限Th，語音事件可基於下列方程式由MSND 121宣告：

其中，l _s係在Fs/L _s訊框速率的語音資料指數點，且l _n係在Fs/L _n速率的雜訊資料指數。亦即，在此實例中，若超過發散臨限Th，宣告語音事件SpeechDetected _MSND[l _s]為真，否則宣告為偽。因為Th有效地控制MSND 121的敏感度，其應相關於低訊號對雜訊比率(signal-to-noise ratio,SNR)環境中的預期語音活動偵測率而調諧(判定、建立等)，以正規化其對失敗的容差。此臨限的範圍可取決於數個因素，諸如，BPF 315之選定頻寬、BPF 315的濾波器級數、FSND 122根據其自身臨限的預期失敗率、及/或在組合級125中的選定組合權重。因此，MSND 121的具體臨限將取決於特定實施方案。

在此實例中進一步地，用於MSND 121之L _s及L _n長度的選擇可對偵測語音事件的結果具有各種影響。例如，因為MSND 121可能易受暫態雜訊事件影響，在脈衝雜訊環境中較短的窗長度可能更適合，以將脈衝雜訊汙染限制在較小的時間週期。相反地，較長的L _s長度較不傾向於漏失語音活動事件，諸如，當說話者在字、字組、或句子之間可能比平常(或預期)暫停得更久時。實驗資料已顯示L _s=10至100ms的窗長度對語音分類係有效的。然而，一般而言，FSND 122的效能可因使用更多資料點而改善，且因為在此實例中與FSND 122共享(也為其使用)的L _s與每秒的資料點樣本數係反相關，較短的L _s可產生改善效能，但可能需要較高的計算能力。

與L _s相反，較長的L _n可產生更準確的雜訊估計。在此實例中，適合L _n的時間訊框可約為3至8秒。可將此時間週期選擇成確保(上文討論的)最小追蹤器具有足夠時間找出語音片段之間的雜訊底限。在語音存在時，經平滑能量E _bp[m]估計值係藉由語音能量向上偏置。因此，準確的雜訊位準估計可僅在字(語音片段)之間可用，取決於說話者的交談速度，其可能相隔3至8秒。此實例實施方案中最小追蹤器應自動預設成在語音片段之間觀察到的最低位準。

如圖3所示，在此實例中之至FSND 122的輸入係帶通過濾信號及麥克風信號能量：E _bp[m]及E _mic[m]。「語音頻帶外」能量之一小部分的評估可藉由麥克風能量除以經帶通信號能量而提供，其可每L _s間隔使用下列公式計算以節省計算：

其中l _s係在Fs/L _s速率的訊框數目。

當能量比率E _r[l _s]相對大時，其可指示大量頻帶外能量的存在，其可表示接收信號可能不係(或可能不含)語音。相反地，當E _r[l _s]相對小時，其可指示小量的頻帶外能量，其可指示信號主要係語音或係類語音內容。E _r[l _s]的中間值可指示語音或類語音內容與頻帶外雜訊或未判定結果的混合。然後藉由FSND 122對語音偵測形成邏輯決定可使用以下關係(由FSND 122)判定：SpeechDetected _FSND[l _s]=(E _r[l _s]<Th) 其中Th係FSND 122的能量比率臨限。

FSND 122之能量比率臨限應設定成避免排除混合的語音及雜訊內容。此臨限的範圍可取決於BPF 315之選定頻寬、BPF 315的濾波器級數、MSND 121根據其臨限的預期失敗率、及/或在組合級125的選定組合權重。因此，FSND 122的具體臨界將取決於特定實施方案。

如先前討論的，脈衝雜訊信號可能滿足MSND 121及FSND 122二者的語音偵測標準，並導致錯誤的語音偵測決定。雖然大部分的脈衝類型雜訊信號可由FSND 122捕獲，其餘部分對MSND 121或FSND 122而言可能不易於從語音區分。例如，一串叮噹作響的鑰匙產生大部分在頻帶外的類脈衝內容，且因此將由FSND 122排除。然而，許多脈衝雜訊(諸如，由將釘子敲擊通過一塊木頭生成的雜訊(聲音))可能含有足夠的頻帶內能量以滿足FSND 122的臨限(例如，以指示語音的可能存在)。由此類脈衝雜訊產生的後回響(振盪)也可滿足MSND 121的調變位準臨限(例如，以指示語音的可能存在)。ID 123可經組態以藉由補充MSND 121及FSND 122的操作而偵測此等類型的脈衝雜訊、以偵測可能未被識別，或可能不正確地偵測為語音的此類模仿語音脈衝。

在此實例中，至ID 123之輸入係麥克風信號能量E _mic[m]。因為良好的排除效能可使用FSND 122及MSND 121達成，ID可經組態以操作為二次偵測器，且可偵測脈衝雜訊之有計算效率的ID 123可使用以下關係操作：

其中E _i[m]係在二個連續M間隔之間的麥克風信號能量變化的估計值。高於平常的變化將表示脈衝事件。因此，ID單元之輸出可藉由邏輯狀態表示：ImpusleDetected[m]=(E _i[m]>Th)其中Th係一臨限，高於該臨限的麥克風信號視為含有脈衝雜訊內容。

在此實例中，與MSND 121及FSND 122不同，脈衝狀態不每一個L _s間隔、而係每單一間隔M評估，因為脈衝持續時間可短達數毫秒，其可小於L _s長度，且因此在多數情況下可能完全漏失。ID 123的Th臨限應基於較低位準可在語音期間導致觸發脈衝偵測的考慮而設定。進一步地，ID 123之非常高位準的Th臨限可導致軟脈衝(例如，較低能量的脈衝)的漏失偵測。用於ID 123之Th的值可(至少部分)取決於使用在組合級124中的脈衝偵測偏置量。因此，ID 123的具體臨限將取決於特定實施方案。

雖然MSND 121、FSND 122、及ID 123在語音存在之狀態上提供各別獨立的資料點，在本文描述的實施方案中，可結合各別資料點(語音偵測指示)以提供更準確的語音分類。組合級125的組態及操作應將數個因素納入考量。此等因素可包括語音分類速度、語音偵測遲滯、低SNR環境中的語音偵測準確度、不存在語音時的誤語音偵測、低於平常說話速度的語音偵測、及/或語音分類狀態顫動。

結合個別語音偵測決定輸出、滿足上述因素、及實現有效率(低)計算能力需求的一種方式可藉由使用移動語音計數器325完成，該移動語音計數器在本文中稱為SpeechDetectionCounter，其能如下文所描述的操作。

在此實例中，SpeechDetectionCounter 325可以各L _s間隔使用以下邏輯更新：if(SpeechDetected _FSND[l _s]&& SpeechDetected _MSND[l _s])SpeechDetectionCounter=SpeechDetectionCounter+UpTick else SpeechDetectionCounter=SpeechDetectionCounter-DownTick end

還有，藉由選擇高於DownTick值的UpTick值，可偏置對SpeechDetectionCounter(計數器)125的更新以處理比平常更慢的說話事件(例如，在字之間的較長暫停)。已經驗地顯示3比1的比率以提供合適的偏置位準。使用此類UpTick偏置可允許選擇較小的L _s間隔長度，其繼而可藉由將脈衝雜訊汙染限制至較短週期而降低誤語音偵測率，並增加數個FSND間隔，從而改善其有效性，其可允許放鬆MSND 121之臨限以改善較低SNR環境中的語音偵測。

如本文所討論的，脈衝類型雜訊有時可能由FSND 122及MSDN 121誤偵測為語音。然而，在此實例中，ID 123可在大多數情況中識別此類脈衝雜訊。應避免脈衝雜訊期間的誤語音分類，且ID 123的決定可用於強制之。然而，因為偶然的誤脈衝觸發可在語音期間發生，此類強制不應以二元方式完成，否則語音分類可能在一些情況中漏失。避免此問題的一種有計算效率的方式係當偵測到脈衝時，在各M間隔藉由某個量將SpeechDetectionCounter 325直接向下偏置，例如，使用以下邏輯：if(ImpulseDetected[m])SpeechDetectionCounter=SpeechDetectionCounter-ImpulseBiasAdjustment end

此類向下偏置可幫助在正確方向上操縱計數器325(例如，在模仿語音的脈衝雜訊存在時)，同時允許誤觸發偶然發生，而非做出可能導致漏失有效語音分類的二元決定。

實驗結果已顯示使用合適的偏置調整位準，可能得以在語音及脈衝雜訊同時發生(或存在)時實現準確的語音偵測(分類)。此類偵測在此實例中係可能的，因為UpTick條件通常以遠高於脈衝偏置調整速率的速率觸發，即使在脈衝重複地發生時。因此，使用合適的脈衝偏置調整位準，能在脈衝雜訊存在時實現準確的語音偵測。ImpulseBiasAdjustment值可取決於數個因素，諸如，脈衝臨限、SpeechDetectionCounter 325的臨限(於下文討論)、M間隔長度、及取樣頻率。在一些實施方案中，可使用1至5倍的UpTick偏置(權重)值的脈衝偏置調整速率(權重)。

在此實例中，SpeechDetectionCounter 325有效地維持MSND 121、FSND 122、及ID 123之各別語音偵測指示隨時間推移的運行平均。因此，當SpeechDetectionCounter 325到達足夠高的值時，此可係語音存在的強烈指示。在此實例中，可將語音分類器的輸出公式化為：SpeechClassification=(SpeechDetectionCounter>Th)其中1=語音分類，0=無語音分類。

高於其時組合級125的語音分類級326宣告語音分類之臨限的選擇可取決於對偵測延遲的容差之於對語音分類決定的可信度。此臨限值越高，語音分類決定係正確的可信度越高。然而，較高的臨限可能導致比較低的臨限更長的平均時間(例如，更多L _s間隔)，且因此，較長的語音分類延遲。組合級125的臨限越低，用來產生語音分類決定之平均間隔的數目越低，且因此以可能較高的誤偵測率為代價的較快速偵測。

例如，假設對具有20ms之L _s間隔長度的SpeechDetectionCounter 325選擇400的臨限。因為最快使SpeechDetectionCounter增長的可能方式係藉由在每單一個L _s間隔以3的UpTick速率達成UpTick條件，從平靜起點的最短可能(例如，最佳情況)語音分類時間會係

或大約2.7秒。然而，在實際應用中，一般而言不係每單一個L _s間隔均會觸發UpTick條件，所以實際語音分類時間將最有可能高於上文討論的2.7秒。當然，在較低SNR的情況中，將使用較長的平均週期以到達臨限，其會對語音分類導致較長的時間。

SpeechDetectionCounter 325也可強制連續性需求。例如，口語交談通常為大約數秒至數分鐘，而大部分雜訊不持續超過數秒。藉由強制連續性，此類雜訊事件可由於如本文討論之維持運行平均的SpeechDetectionCounter 325、及該程序的固有連續性需求而與FSND 122的、MSND 121的、及ID 123的個別語音偵測決定無關地濾除。

為提供遲滯，亦即，若語音已發生一段時間，為強制在語音分類狀態中停留更久，SpeechDetectionCounter 325可(在計算上)幾乎免費地再次使用。此可藉由將SpeechDetectionCounter 325限制至適當值而完成：限制值越高，SpeechDetectionCounter 325可成長得越高，且因此，當語音消失時，其下降並穿過無語音臨限所用的時間越長。相反地，較低的限制值將不允許SpeechDetectionCounter 325在語音的延伸週期存在時成長太多，且因此，當語音消失時，其將需要較短時間在其向下方向上達到語音分類臨限。

回到先前實例，若8秒週期在脫離先前判定之已持續一會(例如，以處理談話群眾中的一或多方在回應前重複花費數秒思考的情形)的語音分類之前發生，可將800的上限用於SpeechDetectionCounter 325。在此實例中，以在800之值的SpeechDetectionCounter 325開始，使用DownTick=1，並假設在具有L _s=20ms的此週期期間沒有脈衝事件發生，計數器會恰好花費8秒下降至低於先前提及的400臨限，導致語音分類級326的分類從語音改變至無語音。在此8秒時期期間，若談話者開始講話，SpeechDetectionCounter 325會再次增加及以800為限。應注意SpeechDetectionCounter 325也應在向下方向上以0為限，以防止SpeechDetectionCounter 325具有負值。

在此實例中，在各SpeechDetectionCounter 325更新事件，SpeechDetectionCounter 325的值可基於以下判定：SpeechDetectionCounter=max(SpeechDetectionCounter,0)

SpeechDetectionCounter=min(SpeechDetectionCounter,800)

快速分類狀態在語音與無語音之間顫動在此實例中不太可能，但係有可能的。只要語音及無語音偵測未恰以50百分比切分(例如，未將UpTick偏置納入考量)，因為SpeechDetectionCounter 325必須在任何給定更新上升或下降，在大多數情況下，SpeechDetectionCounter 325最終將在上限值最大化，或將到例如0的下限值。然而，計數器325在其上下的過程中在臨限值周圍來回反覆數次係可能的。當然，此會造成分類顫動。此種顫動可使用簡單地提供強制停止週期而應對，使得在能產生另一分類(例如，語音分類上的變化)前必須經過最小時間量。例如，可施加10秒的停止週期。因為10秒對SpeechDetectionCounter 325會係相當長的時間，以一致地在語音分類臨限周圍盤旋，此方法在多數情況下可預防重複的重分類。

準確語音分類可具有挑戰性的一個環境係汽車雜訊(或車輛雜訊)環境，其中雜訊位準一般遠高於許多環境(例如，由於引擎、由於老化而不良的道路雜訊絕緣、風扇、在不平道路上駕駛等)。在汽車雜訊環境中，如本文討論的，低頻雜訊在使用在信號調節級115中的300至700Hz帶寬中可能有壓倒性的語音能量。因此，語音偵測可能係困難的，或不再係可能的。為減輕此問題，可將通帶(頻率範圍)移動至較高範圍，其中存在較少的汽車(車輛)雜訊汙染，但仍有足夠用於準確語音偵測之語音內容的頻率範圍。通過使用不同汽車的道路測試的經驗資料已顯示900至5000Hz的通帶在車輛雜訊存在時允許準確的語音偵測，以及在語音不存在時允許有效的車輛雜訊排除(例如，防止將雜訊誤分類為語音)。然而，此較高頻率通帶不應普遍使用，因為其在非汽車環境中會對其他類型雜訊引入易感性。

如上文簡短討論的，LFND 155可用於判定汽車或車輛雜訊於何時存在，並動態地將通帶從300至700Hz切換至900至5000Hz並依需要切回(例如，藉由將回授信號發送至信號調節級115)。在此實例中，至LFND 155單元之輸入係數位化麥克風信號。然後可將數位化麥克風信號分成二個信號，一個信號通過以200Hz之截止頻率設定的靈敏超低通頻率濾波器(ultra low-pass frequency filter,ULFF)，且另一信號通過具有200至400Hz通帶的靈敏帶通低頻濾波器(low frequency filter,LFF)。

此等二個信號的能量可以與E _mic[m]及E _bp[m]能量類似的方式追蹤。所得信號E _ulf[m]及E _lf[m]分別表示超低頻及低頻能量估計值。實驗資料一致地展示由於由引擎與懸吊系統產生之物理振動，汽車雜訊擁有顯著的超低頻能量。因為在汽車雜訊環境中，超低頻能量(<200Hz)的量通常高於低頻能量(200Hz至400Hz)，使用下式，E _ulf[m]對E _lf[m]的比率比較提供便利且有計算效率的方式判定汽車雜訊是否存在。

且E _lfr[m]>Th _{lf_ratio}其中Th _{lf_ratio}係高於其汽車雜訊將視為存在的臨限。

然後可追蹤此比較之邏輯狀態數秒。當偵測到汽車雜訊的一致存在時，回授信號可從LFND 155發送至信號調節級115，在此實例中，以將通帶範圍從300至700Hz的頻寬更新至900至5000Hz的頻寬。類似地，在汽車雜訊一致不存在時，回授信號可從LFND 155發送至信號調節級，以恢復原始通帶範圍(例如，300至700Hz)。圖5及圖6展示此等情況之實例。

某些雜訊(諸如，家用空調單元)可產生與車輛雜訊環境相同的頻率響應形狀，因此滿足E _lfr[m]>Th _{lf_ratio}條件，但可能不到達足夠高的能量位準以在300至700Hz的通帶區域中主導語音。為減輕可能的非必要通帶範圍切換，第二檢查可基於E _ulf[m]的絕對位準而加入，以確保通帶更新僅在有顯著量(高於臨限能量位準)的低頻雜訊存在時發生。然後可將LFND單元之最終輸出判定為：LFNoiseDetected _LFND[m]=(E _lfr[m]>Th _{lf_ratio})&&(E _ulf[m]>Th _level)

通過此相當計算便宜的程序，準確語音偵測可在存在 (超)低頻雜訊(諸如，可發生在汽車、飛機、或工廠環境中)時實現。在一些實施方案中，特別係針對汽車雜訊偵測，可將作為確認單元的音調偵測器包括在設備300中，其中該音調偵測器經組態以在子300Hz範圍中尋找基本頻率及其諧波。

語音分類器之輸出的使用取決於特定應用。語音分類器的一種用途係傳回更佳地適合語音環境的系統參數。例如，在助聽器的情形中，在操作時，可調諧信號路徑中的既存雜訊降低演算法以加強濾除有時會減少語音清晰度的雜訊。在分類語音時，雜訊降低演算法可調整成較不積極，且因此改善聽力受損患者之語音提示感知。因此，語音分類器分類狀態可影響由包括在使用者之助聽器中的對應音訊輸出裝置140所產生的所得物理聲波壓力。

圖4係繪示可實作圖1B之設備150的設備400的方塊圖。設備400包括與設備300類似的數個元件，該等元件可以與設備300之元件類似的方式操作。因此，為了簡潔起見，該等元件將不在此處相關於圖4再次詳細討論。比較圖4之設備400與圖3之設備300，設備400包括基於頻域的語音分類器，與包括在設備300中之基於時域的語音分類器相反。

為實作設備400，應使用適當的硬體以實作基於頻域的語音分類器。在頻域實施方案中，E _mic[m]、E _bp[m]、E _ulf[m]、及E _lf[m]估計值可直接從快速傅立葉變換(fast-Fourier-transform,FFT)頻率單元(bin)，或在濾波器組的情形中，從映射至等效時域實施方案中的對應時域濾波器(諸如，BPF、ULFF、及LFF)的通帶範圍的次頻帶通道415得到。如上文提及的，MSND、FSND、ID、LFND、及組合級之運作將大部分維持相同。然而，時間常數及臨限應根據有效濾波器組次頻帶取樣率調整。

在一些實施方案中，基於頻率的語音分類器可包括過取樣加權疊加(weighted overlap-add,WOLA)濾波器組。在此類實施方案中，設備400中的時域至頻域變換(分析)方塊405可使用WOLA濾波器組實作。

在設備400中，至信號調節級115之輸入係頻域子頻帶量值資料X[m,k](忽略相位)，其中m係訊框指數(例如，濾波器組的短時間窗指數)、k係從0至N-1的頻帶指數、且N係頻率子頻帶的數目。在一些實施方案中，如先前所述，選擇尺寸M或底訊框尺寸的濾波器組窗會係便利的。此外，用於濾波器組以充分地滿足LFND、MSND、及FSND模組需求之合適次頻帶帶寬的選擇可係100或200Hz，但其他類似帶寬也可與一些調整一起使用。在每一個訊框m，可將E _{mic_frame}[m]計算為：

且可將E _{bp_frame}計算為：

其中β _sp係一組權重因子，將該組權重因子選擇成使得可實現帶通功能(類似於所描述的時域實施方案)，亦即，在300至700Hz之間。一種合適選擇可係一組權重因子，該組權重因子對少於300Hz的頻率映射至每十倍頻滾降(per decade roll-off)40dB，且對700Hz以上的頻率映射至每十倍頻20dB。當LFND 455存在時，β _sp[k]權重因子可即時地由LFND 455動態地更新(例如，圖4中的語音頻帶頻帶選擇回授)以映射至900至 5000Hz的頻率範圍，諸如，按照在時域部分中所描述。

E _mic[m]及E _bp[m]估計值然後可以如下之與時域實施方案相同的方式得到：E _mic[m]=α×E _mic[m-1]+(1-α)×E _{mic_frame}[m]

E _bp[m]=α×E _bp[m-1]+(1-α)×E _{bp_frame}[m]其中平滑係數α可根據濾波器組特性適當地選擇以實現相同的期望平均。然後可將估計值傳遞至MSND、FSND、及ID偵測單元，其中其餘操作可與之前(諸如，相關於圖3討論者)完全一樣。

用於設備400之LFND單元的E _ulf[m]及E _lf[m]估計值也可使用以下之與針對設備300討論的類似方式計算：

且，

其中β _ulf係映射至0至200Hz的該組係數，且β _lf係映射至200至400Hz的該組係數。因為此等濾波器理想上應盡可能地靈敏，對帶通區域以外的所有係數選擇為0可係適當的。然後計算可簡化成：

且，

其中頻帶數目0：ULF_U對應於超低頻濾波器的低通範圍，且頻帶數目LF_L：LF_U對應於低頻濾波器之帶通範圍。在本文描述之實例中，此等範圍可分別係0：200及200：400。此簡化降低計算複雜度，且因此降低電力消耗。然後可將E _ulf[m]及E _lf[m]估計值傳遞至LFND，其中其餘操作可確切地遵循時域實施方案。

圖5及圖6係繪示低頻雜訊偵測器(諸如，在圖3及圖4之實施方案中)之操作的曲線圖。圖5包括對應於一般室內環境(諸如，在住宅區中)的曲線圖500。在圖5中，跡線505對應於室內雜訊，且跡線510對應於語音。圖5中的標記515及520繪示低的超低頻對低頻比率E _lfr，展示不存在顯著的低頻雜訊(例如，諸如與汽車雜訊環境關聯)。如標記530所示，指定300至700Hz的通帶範圍，諸如，相關於圖3討論的。室內雜訊505及語音510信號已分開得到，並已為了展示的目的而在之後重疊。

圖6包括對應於汽車雜訊環境(諸如，在車輛中)的曲線圖600。在圖6中，跡線605對應於汽車雜訊，且跡線610對應於語音。圖6中的標記615及620繪示高的超低頻對低頻比率E _lfr，展示存在顯著的低頻雜訊。如標記630所示，指定900至5000Hz的通帶範圍，諸如，相關於圖3討論的。類似於圖5中的曲線圖500，汽車雜訊605及語音610信號已分開得到，並已為了展示的目的而在之後重疊。

圖7A係繪示用於音訊信號中之語音分類(語音偵測)的方法700的流程圖。在一些實施方案中，方法700可使用本文描述之設備實作，諸如，圖3之設備300。因此，圖7A將進一步參考圖3描述。在一些實施方案中，方法700可實作在具有其他組態及/或包括其他語音分類器的設備中。

如圖7A所示，在方塊705，方法700包括藉由音訊處理電路(諸如，藉由信號調節級115)接收對應於第一頻寬中之音能的信號。在方塊710，方法700包括對接收信號進行濾波以產生語音頻帶信號(諸如，使用BPF 215)。如本文所討論的，語音頻帶信號可對應於第二頻寬(例如，語音為主的頻帶、語音頻帶等)中的音能，其中第二頻寬係第一頻寬之子集。

在方塊720，方法700包括計算(例如，藉由信號調節級115)接收信號的第一能量值序列，且在方塊725計算(例如，藉由信號調節級115)語音頻帶信號的第二能量值序列。在方塊730，方法700包括接收(例如，藉由偵測級120)第一能量值序列及第二能量值序列。在方塊735，方法700包括基於第一能量值序列及第二能量值序列為偵測級120的各語音及雜訊微分器提供各別的語音偵測指示信號。方法700在方塊740包括組合(例如，藉由組合級125)各別的語音偵測指示信號，且在方塊745，包括基於各別的語音偵測指示信號之組合，提供(例如，藉由組合級125)接收信號中存在語音及接收信號中不存在語音中之一者的指示。

圖7B係繪示可結合圖7A之方法實作之用於音訊信號中之語音分類(語音偵測)的方法的流程圖。與方法700一樣，在一些實施方案中，方法750可使用本文描述之設備實作，諸如，圖3之設備300。因此，圖7B也將進一步參考圖3描述。然而，在一些實施方案中，應注意方法 750可實作在具有其他組態及/或包括其他語音分類器的設備中。

在方塊755，從方法700繼續，方法750包括判定(例如，藉由LFND 155)第一頻寬中之音能中的低頻雜訊量。在方塊760，若所判定的低頻雜訊量高於臨限，方法750進一步包括(例如，基於從LFND 155至信號調節級115的回授信號)將第二頻寬改變至第三頻寬。在方法750中，第三頻寬可係第一頻寬的子集，並包括比第二頻寬更高的頻率。亦即，在方塊760，可改變語音頻帶帶寬(例如，至更高頻率)以在實施語音分類時補償(消除、減少其效應等)低頻雜訊及超低頻雜訊。

在一通常態樣中，一種用於語音偵測的設備可包括一信號調節級，該信號調節級經組態以接收一數位取樣音訊信號、計算該數位取樣音訊信號的一第一能量值序列；及計算該數位取樣音訊信號的一第二能量值序列。該第二能量值序列可對應於該數位取樣音訊信號的一語音頻帶。該設備可進一步包含一偵測級，該偵測級包括：一基於調變的語音及雜訊微分器，其經組態以基於該語音頻帶中之時間調變活動提供一第一語音偵測指示；一基於頻率的語音及雜訊微分器，其經組態以基於該第一能量值序列與該第二能量值序列的一比較提供一第二語音偵測指示；及一脈衝偵測器，其經組態以基於該數位取樣音訊信號的一第一階微分提供一第三語音偵測指示。該設備仍可進一步包括一組合級，該組合級經組態以：組合該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示；及基於該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示之該組合，提供該數位取樣音訊信號中存在語音及該數位取樣音訊信號中不存在語音中之一者的一指示。

實施方案可包括下列特徵之一或多者。例如，該第一能量值序列可係一第一經指數平滑能量值序列。該第二能量值序列可係一第二經指數平滑能量值序列。

該基於調變的語音及雜訊微分器經組態以：基於該第二能量值序列，計算一語音能量估計值；基於該第二能量值序列，計算一雜訊能量估計值；及基於該語音能量估計值與該雜訊能量估計值之一比較，提供該第一語音偵測指示。該語音能量估計值可在一第一時間週期計算，且該雜訊能量估計值可在一第二時間週期計算。該第二時間週期可大於該第一時間週期。

藉由該基於頻率的語音及雜訊微分器比較該第一能量值序列及該第二能量值序列可包括判定該第一能量值序列的能量值與該第二能量值序列的對應能量值之間的一比率。

該脈衝偵測器可經進一步組態以藉由比較針對該第一能量值序列之一訊框計算的一值與針對該第一能量值序列之一先前訊框計算的一值而判定該第一階微分。該訊框及該先前訊框之各者可包括該第一能量值序列的各別複數個值。該脈衝偵測器的該第三語音偵測指示可指示該數位取樣音訊信號中存在一脈衝雜訊、及該數位取樣音訊信號中不存在一脈衝雜訊中之一者。

藉由該組合級組合該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示可包括將一加權滾動計數器值維持在一下限與一上限之間。該加權滾動計數器值可基於該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示。該組合級可經組態以在該加權滾動計數器值高於一臨限值時，指示數位取樣音訊信號中存在語音；且在該加權滾動計數器值低於該臨限值時，指示該數位取樣音訊信號中不存在語音。

該設備可包括一低頻雜訊偵測器，該低頻雜訊偵測器經組態以判定該數位取樣音訊信號中之一低頻雜訊能量之量，且若所判定的該低頻雜訊能量之量高於一臨限，提供一回授信號至該信號調節級。該信號調節級可經組態以回應於該回授信號而將該語音頻帶的一頻率範圍從一第一頻寬改變至一第二頻寬。該第二頻寬可包括比該第一頻寬更高的頻率。該第一頻寬及該第二頻寬可係該數位取樣音訊信號之一頻寬的各別子集。

該低頻雜訊偵測器可經組態以判定該數位取樣音訊信號中的該低頻雜訊能量之量已從高於該臨限減少至低於該臨限，及改變該回授信號以指示該數位取樣音訊信號中的該低頻雜訊能量之量低於該臨限。該信號調節級可經組態以回應於該回授信號的該改變而將該語音頻帶的該頻寬從該第二頻寬改變至該第一頻寬。

應理解，在前面描述中，當元件被稱為在另一元件上、連接至另一元件、電連接至另一元件、耦接至另一元件、或電耦接至另一元件時，其可直接在另一元件上、連接或耦接至另一元件、或可存在一或多個中間元件。相反地，當一元件被稱為直接在另一元件上、直接連接至另一元件、或直接耦接至另一元件時，則無中間元件存在。雖然用語直接在...上(directly on)、直接連接至(directly connected to)、或直接耦接至(directly coupled to)可能不在實施方式各處使用，但可如此稱呼顯示為直接在...上、直接連接至、或直接耦接至的元件。本申請案之申請專利範圍(若有)可經修改成敘述在本說明書中描述及/或圖式中所展示之例示性關係。

當用於本說明書中時，單數形式可包括複數形式，除非在內文中明確指示特定情況。除了圖式中所描繪之定向之外，空間相對用語(例如，之上(over)、上方(above)、上部(upper)、下(under)、底下(beneath)、下方(below)、下部(lower)等)旨在涵蓋裝置在使用中或操作中的不同定向。在一些實施方案中，相對用語上方(above)及下方(below)分別地包括垂直上方及垂直下方。在一些實施方案中，用語相鄰(adjacent)可包括側向相鄰於或水平相鄰於。

本文所述的各種技術的實施方案可實施在(例如，包括在)數位電子電路系統中、或在電腦硬體、韌體、軟體、或它們的組合中。方法的部分也可由專用邏輯電路系統(例如，一FPGA(現場可程式閘陣列)、一可程式化電路或晶片組、及/或一ASIC(特定應用積體電路))執行，並且一設備可實施為專用邏輯電路系統(例如，一FPGA(現場可程式閘陣列)、一可程式化電路或晶片組、及/或一ASIC(特定應用積體電路))。

一些實施方案可使用各種半導體處理及/或封裝技術來實作。一些實施方案可使用與半導體基材相關聯的各種類型半導體處理技術來實作，包括但不限於例如矽(Si)、砷化鎵(GaAs)、氮化鎵(GaN)、碳化矽(SiC)、及/或等等。

雖然所描述之實施方案的某些特徵已如本文所描述而說明，但所屬技術領域中具有通常知識者現將想到許多修改、替換、改變及均等物。因此，應當理解，隨附申請專利範圍旨在涵蓋落於實施方案範圍內的所有此類修改及改變。應當理解，其等僅以實例(非限制)方式呈現，並且可進行各種形式及細節改變。本文所描述之設備及/或方法之任何部分可以任何組合進行組合，除了互斥組合之外。本文所描述之實施方案可包括所描述之不同實施方案之功能、組件及/或特徵的各種組合及/或子組合。

105‧‧‧麥克風

110‧‧‧類比轉數位(A/D)轉換器

115‧‧‧信號調節級

120‧‧‧偵測級

125‧‧‧組合級

130‧‧‧音訊信號修改級

135‧‧‧數位轉類比轉換器

140‧‧‧音訊輸出裝置

150‧‧‧設備

155‧‧‧低頻雜訊偵測器(LFND)

Claims

一種用於偵測語音的設備，該設備包含：一信號調節級，其經組態以：接收對應於一第一頻寬中之音能的一信號；對經接收之該信號進行濾波以產生一語音頻帶信號，該語音頻帶信號對應於一第二頻寬中之音能，該第二頻寬係該第一頻寬的一第一子集；計算經接收之該信號的一第一能量值序列；及計算該語音頻帶信號的一第二能量值序列；一偵測級，其包括複數個語音及雜訊微分器，該偵測級經組態以：接收該第一能量值序列及該第二能量值序列；及基於該第一能量值序列及該第二能量值序列，為該複數個語音及雜訊微分器的各語音及雜訊微分器提供一各別的語音偵測指示信號；及一組合級，其經組態以：組合該等各別的語音偵測指示信號；及基於該等各別的語音偵測指示信號之該組合，提供經接收之該信號中存在語音及該接收信號中不存在語音中之一者的一指示。
如請求項1之設備，其進一步包含一類比轉數位轉換器，該類比轉數位轉換器經組態以：接收對應於該第一頻寬內之該音能的一類比電壓信號，該類比電壓信號係由一麥克風的一換能器產生；對該類比電壓信號進行數位取樣；及將該數位取樣類比電壓信號提供至該信號調節級作為該接收信號。
如請求項1之設備，其中：該第一能量值序列係一第一經指數平滑能量值序列；且該第二能量值序列係一第二經指數平滑能量值序列。
如請求項1之設備，其中對該接收信號進行濾波以產生該語音頻帶信號包括：將各別權重施加至一濾波器組的複數個頻率子頻帶。
如請求項1之設備，其中該複數個語音及雜訊微分器包括一基於調變的語音及雜訊微分器，該基於調變的語音及雜訊微分器經組態以：基於該第二能量值序列，計算該語音頻帶信號的一語音能量估計值；基於該第二能量值序列，計算該語音頻帶信號的一雜訊能量估計值；及基於該語音能量估計值與該雜訊能量估計值的一比較，提供其之各別語音偵測指示，其中：該語音能量估計值係在一第一時間週期期間計算；且該雜訊能量估計值係在一第二時間週期期間計算，該第二時間週期大於該第一時間週期。
如請求項1之設備，其中該複數個語音及雜訊微分器包括一基於頻率的語音及雜訊微分器，該基於頻率的語音及雜訊微分器經組態以：比較該第一能量值序列及該第二能量值序列；及基於該比較，提供其之各別語音偵測指示，其中比較該第一能量值序列與該第二能量值序列包括判定該第一能量值序列的能量值與該第二能量值序列的對應能量值之間的一比率。
如請求項1之設備，其中該複數個語音及雜訊微分器包括一脈衝偵測器，該脈衝偵測器經組態以：比較針對該第一能量值序列的一訊框計算的一值與針對該第一能量值序列的一先前訊框計算的一值，該訊框及該先前訊框之各者包括該第一能量值序列的各別複數個值；及基於該比較，提供其之各別語音偵測指示，該脈衝偵測器的該各別語音偵測指示指示下列中之一者：該第一頻寬內之該音能中存在一脈衝雜訊；及該第一頻寬內之該音能中不存在一脈衝雜訊，其中比較針對該第一能量值序列之該訊框計算的該值與針對該第一能量值序列之該先前訊框計算的該值包括計算該接收信號的一第一階微分。
如請求項1之設備，其中：藉由該組合級組合該等各別的語音偵測指示信號包括將一加權滾動計數器值維持在一下限與一上限之間，該加權滾動計數器值係基於該等各別的語音偵測指示信號；該組合級經組態以在該加權滾動計數器值高於一臨限值時，指示該接收信號中存在語音；且該組合級經組態以在該加權滾動計數器值低於該臨限值時，指示該接收信號中不存在語音。
如請求項1之設備，其進一步包含一低頻雜訊偵測器，該低頻雜訊偵測器經組態以：基於該接收信號，判定該第一頻寬中之該音能中的一低頻雜訊能量之量；及若所判定的該低頻雜訊能量之量高於一臨限，則提供一回授信號至該信號調節級，該信號調節級經組態以回應於該回授信號而將該第二頻寬改變至一第三頻寬，該第三頻寬係該第一頻寬的一第二子集且包括比該第二頻寬更高的頻率，該低頻雜訊偵測器經進一步組態以：基於該接收信號，判定該第一頻寬內之該音能中的該低頻雜訊能量之量已從高於該臨限減少至低於該臨限；及改變該回授信號以指示該第一頻寬內之該音能中的該低頻雜訊能量之量低於該臨限，該信號調節級經組態以回應於該回授信號的該改變而將該第三頻寬改變至該第二頻寬。
一種用於語音偵測之方法，該方法包含：藉由一音訊處理電路接收對應於一第一頻寬中之音能的一信號；對經接收之該信號進行濾波以產生一語音頻帶信號，該語音頻帶信號對應於一第二頻寬中之音能，該第二頻寬係該第一頻寬的一子集；計算經接收之該信號的一第一能量值序列；計算該語音頻帶信號的一第二能量值序列；藉由包括複數個語音及雜訊微分器的一偵測級接收該第一能量值序列及該第二能量值序列；基於該第一能量值序列及該第二能量值序列，為該複數個語音及雜訊微分器的各語音及雜訊微分器提供一各別的語音偵測指示信號；藉由一組合級組合該等各別的語音偵測指示信號；及基於該等各別的語音偵測指示信號之該組合，提供經接收之該信號中存在語音及該接收信號中不存在語音中之一者的一指示。
如請求項10之方法，其進一步包含：藉由一低頻雜訊偵測器判定該第一頻寬中之該音能中的一低頻雜訊量；若所判定的該低頻雜訊量高於一臨限，則將該第二頻寬改變至一第三頻寬，該第三頻寬係該第一頻寬的一子集且包括比該第二頻寬更高的頻率。
一種用於語音偵測的設備，該設備包含：一信號調節級，其經組態以：接收一數位取樣音訊信號；計算該數位取樣音訊信號的一第一能量值序列；及計算該數位取樣音訊信號的一第二能量值序列，該第二能量值序列對應於該數位取樣音訊信號的一語音頻帶；一偵測級，其包括：一基於調變的語音及雜訊微分器，其經組態以基於該語音頻帶中之時間調變活動而提供一第一語音偵測指示；一基於頻率的語音及雜訊微分器，其經組態以基於該第一能量值序列與該第二能量值序列的一比較而提供一第二語音偵測指示；及一脈衝偵測器，其經組態以基於該數位取樣音訊信號的一第一階微分而提供一第三語音偵測指示；及一組合級，其經組態以：組合該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示；及基於該第一語音偵測指示、該第二語音偵測指示、及該第三語音偵測指示之該組合，提供該數位取樣音訊信號中存在語音及該數位取樣音訊信號中不存在語音中之一者的一指示。