TWI408673B

TWI408673B - Voice detection method

Info

Publication number: TWI408673B
Application number: TW099107897A
Authority: TW
Inventors: Ying Tsung Lin; Yung Chen Ting; Pansop Kim
Original assignee: Issc Technologies Corp
Priority date: 2010-03-17
Filing date: 2010-03-17
Publication date: 2013-09-11
Also published as: TW201133467A; US8332219B2; US20110231186A1

Description

語音偵測方法

本發明係關於一種語音偵測方法，特別是一種應用雙收音裝置的語音偵測方法。

近年來，免持式語音通訊系統已經普遍的受到使用。一般而言，免持式語音通訊系統可透過藍芽通訊模組與行動通訊裝置相連接。經過數位化與調變後，免持式語音通訊系統可將語音訊號轉換成一個一個的封包，再利用藍芽通訊模組傳送這些封包至行動通訊模組。

然而，在現實的環境下，免持式語音通訊系統會因為受到環境雜訊的干擾，而原本語音訊號的清晰度降低。舉例而言，當使用者在車輛來往頻繁的道路旁邊或是人潮擁擠的捷運站使用免持式語音通訊系統時，免持式語音通訊系統的麥克風會接收到許多的背景雜訊。若是這些背景雜訊的音量大於使用者本身說話時的音量，背景雜訊將會嚴重的干擾此使用者所發出的語音訊號。

此外，根據使用者使用行為的相關研究可知，在整段通話的期間中，由使用者在說話只佔不到整段通話期間的一半。若是在整段通話期間，免持式語音通訊系統一值不斷地持續傳送封包，將會使免持式語音通訊系統產生不必要的電力消耗。因為免持式語音通訊系統是使用電池的電力以提供電能，若是持續產生不必要的電力消耗，將會是免持式語音通訊系統的通話時間或是待機時間大幅的被降低，進而減低此免持式語音通訊系統在市場上的競爭力。

鑑於以上的問題，本發明係提出一種語音偵測方法，用以當使用者發出語音訊號時，準確地偵測此語音訊號。

本發明所提出的語音偵測方法包括以下步驟：由一第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號，其中第一收音裝置比第二收音裝置較靠近一語音訊號源；計算第一訊號在一區間內所對應的一第一能量，計算第二訊號在區間內所對應的一第二能量，並根據第一能量與第二能量計算一第一比值；轉換第一比值為一第二比值；設定一臨界值；根據第二比值與臨界值的大小，判斷語音訊號源是否被偵測。

除了上述的方法之外，本發明係另揭露一種語音偵測方法，包括：由一第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號，其中第一收音裝置比第二收音裝置較靠近一語音訊號源；執行一語音能量判斷步驟，得到一第一判斷結果；執行一語音方向判斷步驟，得到一第二判斷結果；根據第一判斷結果與第二判斷結果，判斷語音訊號源是否被偵測。

其中，語音能量判斷步驟係包括：計算第一訊號在一區間內所對應的第一能量，計算第二訊號在區間內所對應的第二能量，並根據第一能量與第二能量計算第一比值；轉換第一比值為第二比值；設定臨界值；判斷第二比值與該臨界值的大小，輸出第一判斷結果。

另一方面，語音方向判斷步驟包括：根據第一訊號與第二訊號，計算第一方向上的第一相關值與第二方向上的第二相關值；根據第一相關值與第二相關值，輸出第二判斷結果。其中，第一方向係為語音訊號源對應的一方向，第二方向係為該第一方向以外的一方向。

根據本發明所提出之語音方向判斷，係可依背景環境噪音的大小進行門檻值的調整，以提高偵測的準確率。此外，更可以經由語音方向的步驟進行輔助的判斷，以更進一步的增加偵測的準確度。

以下在實施方式中係進一步詳細說明本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。

請參照『第1A圖』、『第1B圖』與『第1C圖』，係為免持式語音通訊系統之外觀示意圖。

『第1A圖』、『第1B圖』係為第一實施例之外觀示意圖。免持式語音通訊系統10包括第一收音裝置20與第二收音裝置30。第一收音裝置20與第二收音裝置30各自可為一個麥克風。免持式語音通訊系統10具有第一面11與第二面12。當使用者使用免持式語音通訊系統10時，第一面11會較為靠近人臉，且第二面12會較為遠離人臉。在此實施例中，第一收音裝置20位於第一面10，且第二收音裝置30位於第二面20。此外，第一收音裝置20比第二收音裝置30較靠近語音訊號源，語音訊號源係通常為使用者的嘴巴。

『第1C圖』係為第二實施例之外觀示意圖。免持式語音通訊系統10包括第一收音裝置20與第二收音裝置30。免持式語音通訊系統10具有第一面11與第二面12。當使用者使用免持式語音通訊系統10時，第一面11會較為靠近人臉，且第二面12會較為遠離人臉。在此實施例中，第一收音裝置20與第二收音裝置30皆位於第一面10。並且，第一收音裝置20比第二收音裝置30較靠近語音訊號源，語音訊號源係通常為使用者的嘴巴。

請參照『第2圖』，係為本發明所提出之語音偵測方法第一實施例之流程圖。此方法係為語音能量判斷流程，包括以下步驟：由一第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號(S110)；計算第一訊號在一區間內所對應的第一能量，計算第二訊號在此區間內所對應的第二能量(S120)；根據第一能量與第二能量計算第一比值(S130)；轉換第一比值為第二比值(S140)；設定臨界值(S150)；根據第二比值與臨界值的大小，判斷語音訊號源是否被偵測(S160)。

在步驟S110中，在擷取到聲音訊號後，第一收音裝置20與第二收音裝置30會將擷取到的聲音訊號經過週期性的取樣(sampling)和類比/數位(Analog/Digital)轉換之後，第一收音裝置20會輸出第一訊號，且第二收音裝置30會輸出第二訊號。在此實施例中，取樣頻率需至少為語音訊號最高頻率的二倍以上。而一般而言，取樣頻率可為8,000Hz(赫茲)。若是要得到更好的效果，取樣頻率也可以為更高的16,000Hz或是32,000Hz。另一方面，類比/數位轉換一般可為8位元的類比/數位轉換，或是也可為更高的12位元、16位元的類比/數位轉換。

為了方便表示，第一訊號標示為P[t]，第二訊號標示為R[t]。其中t為正整數，代表離散時間上的順序。舉例而言，當取樣頻率為8,000Hz時，且取樣時間為一秒，則t為1到8000的之間的正整數。

在步驟S120中，計算第一訊號P[t]與第二訊號R[t]在一段區間內的第一能量EP[n]與第二能量ER[n]的方法如下：

其中D為上述區段的長度。舉例而言，區段的長度為64個取樣點，也就是D為64。在此步驟中，EP[1]係為P[1]、P[2]、...、P[64]個別平方後的總和，而EP[2]係為P[65]、P[66]、...、P[128]個別平方後的總和，第一能量的其他數值也可以此類推。第二能量的計算方式與第一能量相同。

上述的第一能量EP[n]與第二能量ER[n]係於時間域(time-domain)上進行運算。另一方面，第一能量EP[n]與第二能量ER[n]也可於頻率域(frequency-domain)上進行運算。若是在頻率域上運算時，時間域上的訊號P[1]、P[2]、...、P[64]會經由快速傅立葉轉換(Fast Fourier Transformation，FFT)轉換成頻率域上的訊號P’[1]、P’[2]、...、P’[64]。同樣地，時間域上的訊號R[1]、R[2]、...、R[64]會經由快速傅立葉轉換(Fast Fourier Transformation，FFT)轉換成頻率域上的訊號R’[1]、R’[2]、...、R’[64]。

之後，再以下述的方法計算第一能量EP[n]與第二能量ER[n]：

為了達到更佳的偵測效果，時間域上的訊號P[t]、R[t]或是頻率域上的訊號P’[f]、R’[f]可先經由一個低通濾波器濾除部分的雜訊之後，再進行能量的運算。

在步驟S130中，根據第一能量EP[n]與第二能量ER[n]計算第一比值R[n]。第一比值D[n]可為第二能量ER[n]除以第一能量EP[n]，也就是

若是當使用者發出語音訊號時，因為第一收音裝置20較第二收音裝置30更靠近語音訊號源，且聲音能量與傳遞的距離平方成反比，因此理論上第一能量EP[n]會大於第二能量ER[n]。也就是說，R[n]會小於1。

在步驟S140中，為了得到更平滑的比值，可利用指數加權移動平均法(exponential weighted moving average)來轉換第一比值D[n]為第二比值M[n]。其計算方法如下：M[n]=(1-α)×D[n]+α×M[n-1]。其中，0≦α＜1。而α越大時，代表第二比值M[n]會越平滑。一般而言，α可為0.99。

在步驟S150中，設定一臨界值Th[n]以判斷使否偵測到語音訊號。此臨界值Th[n]可為固定值或是隨著第二比值M[n]動態調整。

若是臨界值Th[n]隨著第二比值M[n]做動態調整，則可根據以下之方法進行調整：

，假如；

Th [n ]=σ×Th [n -1]，假如；

其中，係為區域最大值，也就是M[1]到M[n]之間的最大值，β係為一靈敏度常數，且σ係為一衰減常數。β為0至1之間的一常數，當β越大時，則臨界值Th[n]越大。一般而言，β可為0.5。σ為0至1之間的一常數，用以使臨界值Th[n]隨時間逐漸下降。

使臨界值Th[n]隨著第二比值M[n]做動態調整的目的是在於讓臨界值Th[n]能隨著背景噪音的大小而隨之改變。當使用者於背景噪音很大的環境中，若是臨界值Th[n]沒有隨之調高，則語音訊號將難以被偵測。而臨界值Th[n]逐漸下降的目的是在於當使用者從一個很吵鬧的環境移動到一個很安靜的環境時，背景噪音會大幅度的下降。若是未使臨界值Th[n]逐漸下降的話，臨界值Th[n]會保持在很高的一個數值，非語音訊號也容易被偵測到。

最後，步驟S160中，根據第二比值M[n]與臨界值Th[n]的大小，判斷語音訊號源是否被偵測。當第二比值M[n]小於臨界值Th[n]時，即代表語音訊號已被偵測。

請參照『第3A圖』與『第3B圖』，係為模擬訊號波形圖。『第3A圖』的線段100代表第一比值D[n]。從圖中可看出，第一比值D[n]的變動相當的快速。『第3B圖』的線段200代表第二比值M[n]，且線段300代表臨界值Th[n]。從圖中可看出，第二比值M[n]的變動較第一比值D[n]緩慢許多。且臨界值Th[n]會隨著第二比值M[n]做動態的調整。

根據上述之方法，可以藉由二個不同的收音裝置分別擷取二個不同的訊號。並且在計算兩個不同訊號的能量比值後，根據能量比值動態的設定門檻值。最後再根據門檻值與能量比值的大小判斷是否偵測語音訊號。如此，本發明所提出之語音能量判斷流程，係可依背景環境噪音的大小進行門檻值的調整，以提高偵測的準確率。

除了上述的方法以外，本發明係另提出一種語音方向判斷流程，以進一步地增加語音判斷時的精準度。請參照『第4圖』，係為本發明所提出之語音偵測方法第二實施例之流程圖，語音方向判斷流程包括以下步驟：第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號(S210)；根據第一訊號與第二訊號，計算第一方向上的第一相關值與第二方向上的第二相關值(S220)；根據第一相關值與第二相關值，判斷語音訊號源是否被偵測(S230)。

步驟S210與步驟S110相同，因此不再予以贅述。同樣地，第一訊號標示為P[t]，第二訊號標示為R[t]。

步驟S220中，第一方向上的第一相關值C1[t]的計算方式如下：C1[t]=α×C1[t-1]+(1-α)×P[t-τ]×R[t]，τ係為語音訊號經由第一方向到達第一收音裝置20與第二收音裝置30的時間差。因為P[t]與R[t]為取樣後的離散時間上的訊號，所以τ也應由取樣頻率進行換算。

請參照『第5圖』，係為免持式語音通訊系統的側視圖。語音訊號經由第一方向到達第一收音裝置20與第二收音裝置30的距離差為d公分。假設音波在常溫下的速度為33,000(公分/秒)。因此，語音訊號經由第一方向到達第一收音裝置20與第二收音裝置30的時間差為d/33,000(秒)。另外，假設第一訊號P[t]與第二訊號R[t]的取樣頻率為8,000Hz，則代表取樣的週期為1/8000秒。是以，時間差τ以取樣頻率換算後，係為(d/33,000)/(1/8000)個取樣點，也就是d×8/33個取樣點。若是以上述算式算出的取樣點數目為非整數時，可將算式求出的結果取鄰近的整數作為取樣點數目。

另一方面，第二方向上的第二相關值C2[t]的計算方式如下：

C2[t]=α×C2[t-1]+(1-α)×P[t]×R[t]。

因為語音訊號都是從第一方向上發出，因此當語音訊號發出時，第一方向的第一相關值C1[t]會大於第二方向的第二相關值C2[t]。反之，當雜訊從第二方向上發出時，第二方向的第二相關值C2[t]會大於第一方向的第一相關值C1[t]。因此，可藉由判斷第一相關值C1[t]與第二相關值C2[t]的大小，以判斷是否偵測到語音訊號。

為了更進一步的增加偵測的準確率，此步驟亦可另計算第三方向上的第三相關值C3[t]，第三相關值C3[t]的計算方式如下：

C3[t]=α×C3[t-1]+(1-α)×P[t]×R[t-τ]。

之後，若是第一相關值C1[t]大於第二相關值C2[t]且第一相關值C1[t]大於第三相關值C3[t]，則判斷已偵測到語音訊號。為了更進一步的提高語音偵測的準確率，上述之判斷式可改為第一相關值C1[t]大於第二相關值C2[t]加上門檻值H且第一相關值C1[t]大於第三相關值C3[t]加上門檻值H，則判斷已偵測到語音訊號。

上述的語音能量判斷流程與語音方向判斷流程可共同作為判斷的依據。也就是說，可以在當語音能量判斷流程與語音方向判斷流程皆判斷為已偵測到語音訊號時，最後才認定為的確已偵測到語音訊號。另一方面，也可以是在當語音能量判斷流程或是當語音方向判斷流程其中之一判斷為已偵測到語音訊號時，就認定已經偵測到語音訊號。

上述的語音偵測方法可藉由各種方法來實施。舉例而言，此技術可在硬體、韌體、軟體或其中之組合中實施。對於一硬體實施例而言，可在一或多個特殊應用積體電路(application-specific integrated circuit，ASIC)、數位訊號處理器(digital signal processor，DSP)、可程式化邏輯設備(programmable logic device，PLD)、場效可程式化閘陣列(FPGA)、處理器、控制器、微控制器、微處理器、電子設備、經設計以執行本文所描述之功能的其他電子單元或一其中之組合的處理單元。

對於一韌體及/或軟體實施例而言，可用程式指令來實施本發明所揭露的語音偵測方法。舉例而言，上述程式指令可儲存於一記憶體中且可藉由一處理器來執行。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

10．．．免持式語音通訊系統

11．．．第一面

12．．．第二面

20．．．第一收音裝置

30．．．第二收音裝置

100．．．線段

200．．．線段

300．．．線段

『第1A圖』、『第1B圖』與『第1C圖』，係為本發明所提出之免持式語音通訊系統之外觀示意圖；

『第2圖』，係為本發明所提出之語音偵測方法第一實施例之流程圖；

『第3A圖』與『第3B圖』，係為本發明之模擬訊號波形圖；

『第4圖』，係為本發明所提出之語音偵測方法第二實施例之流程圖；以及

『第5圖』，係為本發明所提出之免持式語音通訊系統的側視圖。

Claims

一種語音偵測方法，包括：由一第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號，其中該第一收音裝置比該第二收音裝置較靠近一語音訊號源；計算該第一訊號在一區間內所對應的一第一能量，計算該第二訊號在該區間內所對應的一第二能量，並根據該第一能量與該第二能量計算一第一比值；利用指數加權位移平均法，轉換該第一比值為一第二比值；依據該第二比值的一極值，設定一臨界值；以及根據該第二比值與該臨界值的大小，判斷該語音訊號源是否被偵測。
如請求項1所述之語音偵測方法，其中在”設定一臨界值”的該步驟中，該臨界值係為該第二比值的一區域最大值乘以一係數β再乘以一衰減參數σ，其中0<β≦1，0<σ≦1。
如請求項2所述之語音偵測方法，其中”判斷該第二比值與該臨界值的大小”的該步驟中，若是該第二比值小於該臨界值時，則代表該語音訊號源已被偵測。
一種語音偵測方法，包括：由一第一收音裝置取樣一第一訊號，並由一第二收音裝置取樣一第二訊號，其中該第一收音裝置比該第二收音裝置較靠近一語音訊號源；執行一語音能量判斷步驟，包括：計算該第一訊號在一區間內所對應的一第一能量，計算該第二訊號在該區間內所對應的一第二能量，並根據該第一能量與該第二能量計算一第一比值；利用指數加權位移平均法，轉換該第一比值為一第二比值；依據該第二比值的一極值，設定一臨界值；以及判斷該第二比值與該臨界值的大小，輸出一第一判斷結果；執行一語音方向判斷步驟，包括：根據該第一訊號、該第二訊號以及該第一收音裝置與該第二收音裝置的一距離，計算一第一方向上的一第一相關值與一第二方向上的一第二相關值，其中該第一方向係為該語音訊號源對應的一方向，該第二方向係為該第一方向以外的一方向；以及根據該第一相關值與該第二相關值，輸出一第二判斷結果；以及根據該第一判斷結果與該第二判斷結果，判斷該語音訊號源是否被偵測。
如請求項4所述之語音偵測方法，其中在”該第一判斷結果與該第二判斷結果，判斷該語音訊號源是否被偵測”的步驟中，當該第二比值小於該臨界值並且該第一相關值大於該第二相關值時，則代表該語音訊號源已被偵測。
如請求項4所述之語音偵測方法，其中在”該第一判斷結果與該第二判斷結果，判斷該語音訊號源是否被偵測”的步驟中，當該第二比值小於該臨界值或是該第一相關值大於該第二相關值時，則代表該語音訊號源已被偵測。
如請求項4所述之語音偵測方法，其中在”轉換該第一比值”的該步驟中，係利用一指數加權位移平均法，轉換該第一比值為該第二比值。
如請求項4所述之語音偵測方法，其中在”設定一臨界值”的該步驟中，該臨界值係為該第二比值的一區域最大值乘以一係數β再乘以一衰減參數σ，其中0<β≦1，0<σ≦1。