TWI659412B

TWI659412B - 一種語音激活檢測方法及裝置

Info

Publication number: TWI659412B
Application number: TW106133943A
Authority: TW
Inventors: 范利春; 朱磊
Original assignee: 中國商芋頭科技（杭州）有限公司
Priority date: 2016-10-11
Filing date: 2017-09-30
Publication date: 2019-05-11
Also published as: TW201814689A; CN107919116B; CN107919116A; WO2018068649A1

Abstract

本發明涉及語音辨識技術領域，尤其涉及一種語音激活檢測方法及裝置，通過採用兩次激活檢測的方法，將第一次激活判斷中取到的語音片段輸入BLSTM循環神經網路，通過對整條語音的所有幀進行處理，最終判定是否激活語音辨識設備。在兩次激活確認中，第一次激活的閾值可以設置適當寬鬆，以保證較高的檢出率；第二次激活確認由於已知起始點，相對更加準確，兩次激活檢測能夠同時降低誤激活和漏激活，即有效降低激活的等錯誤率，從而更加有效的保證激活的性能。

Description

一種語音激活檢測方法及裝置

本發明涉及語音辨識領域，尤其涉及一種利用雙向循環神經網路進行二次確認的語音激活檢測方法及裝置。

很多語音辨識設備需要語音激活之後才能夠拾音進而進行識別。語音辨識設備激活之後才進行拾音一來是為了降低設備功耗，二來是為了減少不需要進行識別的語音進入語音辨識流程，進而帶來不必要的回應。近場語音辨識環境中，比如手機端的語音辨識，可以採用觸摸或按鍵等方式進入拾音狀態。在遠場識別中，或是近場識別但不方便用手操作的時候，利用語音對設備進行激活使設備進入拾音狀態就變得不可或缺。語音激活通常是先設定激活詞，然後對設備說出激活詞，設備被喚醒之後進入拾音狀態。

語音激活最簡單直觀的方法是利用語音辨識的方法，把激活的語音送入語音辨識器進行識別，如果識別結果是激活詞或者包含激活詞，那麼設備激活。實際上，只需要對激活語音進行聲學打分，計算在設定激活詞上的聲學得分即可，同時還可以根據得分設定接受和拒絕的閾值；然而閾值是非常難控制的，這是因為閾值設定太低會帶來很多的錯誤激活，閾值設定太高則使得語音辨識設備難以被激活。這種現象對於較短的激活詞尤其嚴重。

如何找到一種同時降低錯誤激活和遺漏激活(即降低激活的等錯誤率)的方法成為本領域技術人員致力於研究的方向。

針對上述存在的問題，本發明公開一種語音激活檢測方法，其中，應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測，包括以下步驟：步驟S1，對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據；步驟S2，利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率；步驟S3，對該三音子後驗概率進行流式動態規劃，以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分；步驟S4，將該路徑得分與預先設定的第一閾值進行比較：若該路徑得分小於該第一閾值，則判斷該包含語音信號的語音數據為非激活語音，隨後退出；步驟S5，進行回溯，找到該包含語音信號的語音數據的起始位置，並根據該起始位置獲取語音片段；步驟S6，利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理，並根據處理結果判斷是否激活該語音辨識設備，該步驟S6中，根據處理結果判斷是否激活該語音辨識設備的判斷步驟具體包括：將該處理結果與預先設定的第二閾值進行比較，並在該處理結果大於該第二閾值時激活該設備。

上述的語音激活檢測方法，其中，該端點檢測為基於短時能量、音高或神經網路的端點檢測。

上述的語音激活檢測方法，其中，該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。

上述的語音激活檢測方法，其中，關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。

上述的語音激活檢測方法，其中，該語音片段為只包括該激活詞的語音片段。

上述的語音激活檢測方法，其中，該雙向循環神經網路為BLSTM循環神經網路。

上述的語音激活檢測方法，其中，該步驟S6中，預先訓練形成該雙向循環神經網路的訓練步驟包括：步驟S61，對包含激活詞的語音進行處理以獲取只包含激活詞的語音片段；步驟S62，利用該只包含激活詞的語音片段對該雙向循環神經網路進行訓練。

本發明還公開了一種語音激活檢測裝置，應用於設置有激活詞的語音辨識設備上，以在對該語音辨識設備進行激活時進行語音檢測，包括：端點檢測模組，對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據；聲學打分模組，與該端點檢測模組連接，以利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率；動態規劃模組，與該聲學打分模組連接，對該三音子後驗概率進行流式動態規劃，以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分；比較模組，與該動態規劃模組連接，且該比較模組中預先設定有第一閾值，該比較模組將該路徑得分與預先設定的第一閾值進行比較，並根據比較結果判斷該包含語音信號的語音數據是否為激活語音；回溯模組，與該比較模組連接，以在該比較結果判斷該包含語音信號的語音數據為激活語音時進行回溯，找到該包含語音信號的語音數據的起始位置，並根據該起始位置獲取語音片段；處理比較模組，與該回溯模組連接，並包括預先訓練形成的雙向循環神經網路，以利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理，並根據處理結果判斷是否激活該語音辨識設備，該處理比較模組包括處理單元和比較單元；該處理單元利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理；該比較單元將該處理結果與預先設定的第二閾值進行比較，並在該處理結果大於該第二閾值時激活該設備。

上述的語音激活檢測裝置，其中，該端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。

上述的語音激活檢測裝置，其中，該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。

上述的語音激活檢測裝置，其中，關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。

上述的語音激活檢測裝置，其中，該語音片段為只包括該激活詞的語音片段。

上述的語音激活檢測裝置，其中，該雙向循環神經網路為BLSTM循環神經網路。

上述發明具有如下優點或者有益效果：本發明公開一種語音激活檢測方法及裝置，採用兩次激活檢測的方法，並在第一次激活確認中，僅使用聲學打分，然後利用動態規劃的方法，並依據路徑得分和閾值的比較來判斷包含語音信號的語音數據是否有可能激活，然後將有可能激活的語音片段送入到第二次使用BLSTM循環神經網路進行語音激活確認的流程中，通過對整條語音的所有幀進行計算，最終判定是否激活語音辨識設備；在兩次激活確認中，第一次激活的閾值可以設置得適當寬鬆，以保證較高的檢出率；第二次激活確認由於已知起始點，相對更加準確，兩次激活檢測能夠同時降低錯誤激活和遺漏激活，即有效降低激活的等錯誤率，從而更加有效的保證激活的性能。

步驟S1‧‧‧語音數據端點檢測步驟

步驟S2‧‧‧語音數據處理步驟

步驟S3‧‧‧路徑得分產生步驟

步驟S4‧‧‧比較步驟

步驟S5‧‧‧回溯步驟

步驟S6‧‧‧前向處理步驟

通過閱讀參照以下附圖對非限制性的實施例所作的詳細描述，本發明及其特徵、外形和優點將會變得更加明顯。在全部附圖中相同的標記表示相同的部分。並可以未按照比例繪製附圖，重點在於表示出本發明的主旨。

圖1是本發明實施例中語音激活檢測方法的流程圖；圖2是本發明實施例中語音激活檢測裝置的結構示意圖。

以下結合附圖和具體的實施例對本發明作進一步的說明，但是不作為本發明的限定。

如圖1所示，本實施例涉及一種語音激活檢測方法，應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測，該方法主要由包括以下步驟：

步驟S1，對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據。

之所以將端點檢測的步驟放在方法流程的第一位，是由於如果持續對待測語音數據(連續語音信號)進行聲學計算，會浪費較大的資源，而進行端點檢測後，後續的聲學計算只針對包含語音信號的語音數據進行，這樣能夠節省計算資源。端點檢測的方法有很多，例如使用短時能量的方法，使用音高(pitch)的方法以及使用神經網路的方法等(即端點檢測可以為基於短時能量、音高或神經網路的端點檢測等)。

在本發明的一個優選的實施例中，採用神經網路的方法對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據；具體的，神經網路的輸入是每一幀語音特徵，神經網路的輸出有2個節點，分別對應語音和非語音。在判斷持續的幀時，設定連續出現一定數量的語音幀則認為是起始端點，連續出現一定數量的非語音幀則認為是結束端點。

步驟S2，利用預先訓練形成的語音辨識聲學模型處理得到關聯於包含語音信號的語音數據的三音子後驗概率。

在本發明一個優選的實施例中，關聯於包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，聲學得分矩陣包括包含語音信號的語音數據的每一幀語音在激活詞所包含的三音子上的得分，(即得分計算需要得到每一幀語音在激活詞所包含的三音子上的得分，最終得到一個聲學得分矩陣)。

在本發明一個優選的實施例中，上述語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN(深度神經網路)-HMM框架的聲學模型。

步驟S3，對三音子後驗概率進行流式動態規劃，以處理得到包含語音信號的語音數據在激活詞上的路徑得分。

在第一次激活確認的流式動態規劃中，為了限制搜索空間的大小，需要設定激活詞的最短以及最長時間片段。同時這樣做也保證了激活詞片段的時長，從而增加了可靠性。更具體的講，是設定了激活詞中每個音子的最短以及最長時間片段。

在聲學打分矩陣上使用動態規劃演算法計算出各語音片段的匹配得分，若該語音中有語音片段的匹配得分高於閾值，則包含有喚醒詞。具體如下：對於一個關鍵字，如“數位”，其包含有2個字，4個聲韻母，相當於4個tri-phone，即12個狀態，假設其狀態號依次為1-12。那麼對於一段測試語音，從每一幀的聲學打分模型的輸出中提取出這12個狀態下的概率，作為該幀在“數位”關鍵字下的聲學打分。那麼對於一段T幀的語音，則該語音可以轉換為12*T的矩陣。

對於該幀長為T的語音，借助於其對應的12*T矩陣，可計算出任一語音片段的匹配得分，計算細節如下：一般來說，每一個狀態的長度為2-10幀，那麼“數位”關鍵字的長度為24-120幀。對於語音流中的任意第t幀，將其作為該語音片段的終止幀，向前取24到120幀，即分別將t-120、t-119、…、t-24作為該語音片段的初始幀，從而構成了96種待判別的情況，分別對這96種情況下的矩陣做動態規劃，將得到的結果除以幀長得到平均得分，取這96種情況下的最高平均得分作為第t幀的匹配得分。

步驟S4，將路徑得分與預先設定的第一閾值進行比較：若路徑得分小於第一閾值，則判斷包含語音信號的語音數據為非激活語音，隨後退出。

經過第一次語音激活判斷(第一次語音激活判斷包括步驟S3和步驟S4)之後，可以獲取到動態規劃的路徑得分。將這個路徑得分與預先設定的第一閾值進行對比，小於此第一閾值的則認為是非激活語音，隨後退出；而超過閾值的認為通過了第一次激活檢測，繼續進行步驟S5。

步驟S5，進行回溯，找到包含語音信號的語音數據的起始位置，並根據起始位置獲取語音片段。

具體的，通過第一次激活檢測的語音使用過動態規劃的回溯演算法找到起始點，從而獲取到一段可能包含激活詞的語音片段。這段語音片段的選擇對於後面使用雙向循環神經網路進行激活的二次確認有較大的影響，最好是恰好包含激活詞的語音片段，這樣才能獲得最好的效果。

步驟S6，利用預先訓練形成的BLSTM(Bidirectional Long Short Term Memory，雙向長短時記憶)循環神經網路對語音片段進行前向處理，並根據處理結果判斷是否激活語音辨識設備。

BLSTM循環神經網路，其中。雙向長短時記憶是神經網路學習模型，“雙向”表示輸入被前向和後向提供給兩個單獨的回歸網路，這兩個回歸網路均連接至相同的輸出層，並且“長短時記憶”表示能夠學習長期依賴性的替選的神經架構。

在此，值得一提的是，神經網路，尤其是循環神經網路，由於強大的建模能力而被語音辨識領域廣泛採用。而雙向循環神經網路擁有比單向循環神經網路更加強大的建模能力。但是，需要知道起始點和結束點才能進行準確計算的要求，使得雙向循環神經網路在語音領域難以應用；本發明實施例通過第一次激活檢測的語音使用動態規劃的回溯演算法找到起始點，從而獲取到一段可能包含激活詞的語音片段，進而可以使得雙向循環神經網路在語音激活檢測中得以應用。

在步驟S6中，BLSTM循環神經網路需要預先進行訓練，它包含幾個隱藏層，輸入為語音片段的特徵，輸出節點為2，分別代表非激活節點和激活節點。訓練資料同樣需要進行處理，將包含激活詞的語音進行前面的四個處理步驟，得到只包含激活詞的語音片段來進行訓練。反樣本是錯誤激活資料，發音類似激活詞，同樣經過處理之後得到語音片段來進行訓練。訓練中，包含真正激活詞的語音片段每一幀的標籤都設置為1，反之則將每一幀的標籤都設置為0。

進行激活詞二次確認的時候，將整個語音片段送入BLSTM循環神經網路中進行計算，每一幀語音都會得到一個輸出結果，最後根據所有幀的加權得分。

將語音片段素有幀的BLSTM循環神經網路的輸出計算均值，針對標籤1的節點設定閾值，輸出值大於閾值的，認定語音片段確實是激活詞，設備激活；輸出值小於閾值的，認定語言片段並非激活詞，設備不激活。

如圖2所示，本實施例涉及一種語音激活檢測裝置，應用於設置有激活詞的語音辨識設備上，以在對語音辨識設備進行激活時進行語音檢測，具體的，該語音激活檢測裝置包括對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據的端點檢測模組、與端點檢測模組連接，以利用預先訓練形成的語音辨識聲學模型處理得到關聯於包含語音信號的語音數據的三音子後驗概率的聲學打分模組、與聲學打分模組連接，對三音子後驗概率進行流式動態規劃，以處理得到包含語音信號的語音數據在激活詞上的路徑得分放入動態規劃模組、與動態規劃模組連接的比較模組、與比較模組連接的回溯模組以及與回溯模組連接的計算比較模組；其中，比較模組中預先設定有第一閾值，該比較模組將路徑得分與預先設定的第一閾值進行比較，並根據比較結果判斷包含語音信號的語音數據是否為激活語音；回溯模組以在比較結果判斷包含語音信號的語音數據為激活語音時進行回溯，找到包含語音信號的語音數據的起始位置，並根據起始位置獲取語音片段；處理比較模組包括預先訓練形成的雙向循環神經網路，以利用預先訓練形成的雙向循環神經網路對語音片段進行前向處理，並根據處理結果判斷是否激活語音辨識設備。

在本發明一個優選的實施例中，上述處理比較模組包括利用預先訓練形成的雙向循環神經網路對語音片段進行前向處理的處理單元和將處理結果與預先設定的第二閾值進行比較，並在處理結果大於第二閾值時激活設備的比較單元。

在本發明一個優選的實施例中，上述端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。

在本發明一個優選的實施例中，上述語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。

在本發明一個優選的實施例中，上述關聯於包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，聲學得分矩陣包括包含語音信號的語音數據的每一幀語音在激活詞所包含的三音子上的得分。

在本發明一個優選的實施例中，上述語音片段為只包括激活詞的語音片段。

在本發明一個優選的實施例中，上述雙向循環神經網路為BLSTM雙向循環神經網路。

不難發現，本實施例為與上述語音激活檢測方法的實施例相對應的結構實施例，本實施例可與上述語音激活檢測方法的實施例互相配合實施。上述語音激活檢測方法的實施例中提到的相關技術細節在本實施例中依然有效，為了減少重複，這裡不再贅述。相應地，本實施方式中提到的相關技術細節也可應用在上述語音激活檢測方法的實施例中。

本領域技術人員應該理解，本領域技術人員在結合現有技術以及上述實施例可以實現變化例，在此不做贅述。這樣的變化例並不影響本發明的實質內容，在此不予贅述。

以上對本發明的較佳實施例進行了描述。需要理解的是，本發明並不局限於上述特定實施方式，其中未盡詳細描述的設備和結構應該理解為用本領域中的普通方式予以實施；任何熟悉本領域的技術人員，在不脫離本發明技術方案範圍情況下，都可利用上述揭示的方法和技術內容對本發明技術方案作出許多可能的變動和修飾，或修改為等同變化的等效實施例，這並不影響本發明的實質內容。因此，凡是未脫離本發明技術方案的內容，依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化及修飾，均仍屬於本發明技術方案保護的範圍內。

Claims

一種語音激活檢測方法，應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測，包括以下步驟：步驟S1，對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據；步驟S2，利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率；步驟S3，對該三音子後驗概率進行流式動態規劃，以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分；步驟S4，將該路徑得分與預先設定的第一閾值進行比較：若該路徑得分小於該第一閾值，則判斷該包含語音信號的語音數據為非激活語音，隨後退出；步驟S5，進行回溯，找到該包含語音信號的語音數據的起始位置，並根據該起始位置獲取語音片段；及步驟S6，利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理，並根據處理結果判斷是否激活該語音辨識設備，該步驟S6中，根據處理結果判斷是否激活該語音辨識設備的判斷步驟具體包括：將該處理結果與預先設定的第二閾值進行比較，並在該處理結果大於該第二閾值時激活所述設備。
如申請專利範圍第1項所述之語音激活檢測方法，其中，該端點檢測為基於短時能量、音高或神經網路的端點檢測。
如申請專利範圍第1項所述之語音激活檢測方法，其中，該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
如申請專利範圍第1項所述之語音激活檢測方法，其中，關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
如申請專利範圍第1項所述之語音激活檢測方法，其中，該語音片段為只包括該激活詞的語音片段。
如申請專利範圍第1項所述之語音激活檢測方法，其中，該雙向循環神經網路為BLSTM循環神經網路。
如申請專利範圍第1項所述之語音激活檢測方法，其中，該步驟S6中，預先訓練形成該雙向循環神經網路的訓練步驟包括：步驟S61，對包含激活詞的語音進行處理以獲取只包含激活詞的語音片段；及步驟S62，利用該只包含激活詞的語音片段對該雙向循環神經網路進行訓練。
一種語音激活檢測裝置，其中，應用於設置有激活詞的語音辨識設備上，以在對該語音辨識設備進行激活時進行語音檢測，係包括：端點檢測模組，對待測語音數據進行端點檢測，以獲取包含語音信號的語音數據；聲學打分模組，與該端點檢測模組連接，以利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率；動態規劃模組，與該聲學打分模組連接，對該三音子後驗概率進行流式動態規劃，以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分；比較模組，與該動態規劃模組連接，且該比較模組中預先設定有第一閾值，該比較模組將該路徑得分與預先設定的第一閾值進行比較，並根據比較結果判斷該包含語音信號的語音數據是否為激活語音；回溯模組，與該比較模組連接，以在該比較結果判斷該包含語音信號的語音數據為激活語音時進行回溯，找到該包含語音信號的語音數據的起始位置，並根據該起始位置獲取語音片段；及處理比較模組，與該回溯模組連接，並包括預先訓練形成的雙向循環神經網路，以利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理，並根據處理結果判斷是否激活該語音辨識設備，該處理比較模組包括處理單元和比較單元；該處理單元利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理；該比較單元將該處理結果與預先設定的第二閾值進行比較，並在該處理結果大於該第二閾值時激活該設備。
如申請專利範圍第8項所述之語音激活檢測裝置，其中，該端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。
如申請專利範圍第8項所述之語音激活檢測裝置，其中，該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
如申請專利範圍第8項所述之語音激活檢測裝置，其中，關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣，該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
如申請專利範圍第8項所述之語音激活檢測裝置，其中，該語音片段為只包括該激活詞的語音片段。
如申請專利範圍第8項所述之語音激活檢測裝置，其中，該雙向循環神經網路為BLSTM循環神經網路。