TW202029181A

TW202029181A - 語音識別用於特定目標喚醒的方法及裝置

Info

Publication number: TW202029181A
Application number: TW108103170A
Authority: TW
Inventors: 政李; 吳國揚; 陳心章
Original assignee: 正崴精密工業股份有限公司
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-08-01
Also published as: US10930283B2; US20200243079A1

Abstract

本發明公開一種語音識別用於特定目標喚醒的方法及裝置，其中方法包括如下步驟：接收特定目標的語音訊息，提取其中的語音特徵；將特定目標的語音特徵作為以鑑別式訓練的HVS模型的輸入數據並進行訓練，得到特定目標聲學模型，並儲存特定目標聲學模型；接收待測目標的語音訊息，提取其中的語音特徵；將待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練，得到待測目標的聲學模型；比對待測目標的聲學模型與特定目標的聲學模型，若兩者有關聯則將待測目標的語音特徵使用語言模型進行語言解碼，並根據語言解碼結果判斷是否喚醒。本發明採用鑑別式訓練的HVS模型作為聲學模型，可精準且快速地判斷目標，進而達到喚醒的功用。

Description

語音識別用於特定目標喚醒的方法及裝置

本發明涉及一種語音識別領域，尤其涉及一種語音識別的方法及裝置。

近年來，智慧音箱逐漸改變人們生活的方式，智慧音箱作為語音助理可協助用戶執行生活上的任務，例如幫忙叫車、購物、提醒事項、記錄資訊等等，儘管智慧音箱帶來生活上更多便利，然而智慧音箱仍有許多安全隱患，有時智慧音箱無法有效地判別使用者是否為初始設定的用戶而進行信用卡下訂商品的可能性，因此，為了防止有心人士使用，目前市面上許多智慧音箱會採用語音識別的方式作為防護措施。

一般的智慧音箱通常採用語音喚醒的方式喚醒智慧音箱進而執行後續任務，所謂語音喚醒的方式通常是從一段連續的語音中自動擷取一些使用者預先註冊的語音指令(喚醒詞)。傳統上使用隱藏式馬可夫模型(Hidden Markov Model，HMM)的技術，利用單獨的音素(Phoneme)、音節的特徵向量比對，找出機率最大(最有可能)的單字，後來，又結合高斯混合模型(Gaussian Mixture Model，GMM)形成經典的GMM-HMM模型。現有的GMM-HMM模型常採用最大相似度訓練方法(Maximum Likelihood)，然而此種方法在某些因素下容易使得競爭者答案機率大於正確答案機率，則導致正確率的下降，因此仍有進步改善的空間。

本發明的目的是針對習知技術存在的缺陷和不足，提出一種語音識別用於特定目標喚醒的實現方法，利用特定目標的喚醒詞結合採用鑑別式訓練的潛藏向量狀態模型(Hidden Vector State Model，簡稱HVS Model)，實現對特定目標的身分識別監測，從而達到特定目標語音喚醒之目的。

為實現上述目的，本發明的方法包括以下步驟：

S1：接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理，提取所述特定目標的一語音特徵；

S2：將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(HVS Model)的輸入數據並進行訓練，得到一特定目標聲學模型，並儲存所述特定目標聲學模型；

S3：接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理，提取所述待測目標的一語音特徵；

S4：將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練，得到一待測目標的聲學模型；

S5：比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性，若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼，並根據語言解碼結果判斷是否喚醒。

具體地，所述特定目標的語音訊息與所述待測目標的語音訊息中包括至少一喚醒詞。

具體地，所述預處理包括：將語音訊息進行雜訊抑制處理及回音消除處理。

具體地，所述語音特徵利用梅爾倒頻譜係數(MFCC)的方式取得。

具體地，所述鑑別式訓練採用最大互信息法進行訓練。

具體地，所述語言模型包括一詞庫模型或一文法模型或及其組合。

具體地，所述根據語言解碼結果判斷是否達到語音識別的喚醒，其步驟包含：將所述待測目標的語音特徵進行語言解碼；判斷待測目標語音訊息其中是否包含所述喚醒詞；若包含所述喚醒詞則語音識別喚醒啟動，若沒有包含所述喚醒詞則語音識別喚醒未啟動。

本發明之另一目的在於提出一種語音識別用於特定目標喚醒的裝置。

為實現上述目的，本發明的裝置包括：

一採集模組，包括多個麥克風陣列，用於接收特定目標與待測目標的語音訊息，其中所述語音訊息包含一喚醒詞；

一提取模組，連接所述採集模組，用於提取所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵；

一訓練模組，連接所述提取模組，用於將所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據，並獲取訓練後的特定目標的聲學模型與待測目標的聲學模型；

一存儲模組，連接所述訓練模組，用於保存訓練完成的特定目標的聲學模型；

一解碼模組，連接所述提取模組，用於將所述待測目標的語音訊息進行語言解碼；以及

一處理器模組，連接所述訓練模組、所述存儲模組與所述解碼模組，用於比對所述存儲模組中的特定目標的聲學模型與待測目標的聲學模型，以及根據比對結果判斷是否啟動所述解碼模組進行待測目標的語音訊息的語言解碼，並根據語言解碼後的待測目標的語音訊息確認是否包含喚醒詞以喚醒所述裝置。

具體地，所述裝置進一步包括一註冊模組，所述註冊模組連接所述採集模組與所述存儲模組，所述註冊模組用於啟動保存特定目標的聲學模型到所述存儲模組。

具體地，所述裝置進一步包括包括一無線通訊模組，其中，所述無線通訊模組用於進行外部通訊連接。

如上所述，本發明語音識別用於特定目標喚醒的方法及裝置採用鑑別式訓練的潛藏向量狀態模型作為聲學模型，使用鑑別式訓練除了最大化正確答案的出現機率外，也會將競爭者的出現機率降低，增加其正確答案與競爭者之間的鑑別能力，能夠快速且準確地判斷待測目標是否為特定目標，進而達到喚醒的功用。

為詳細說明本發明之技術內容、構造特徵、所達成的目的及功效，以下茲例舉實施例並配合圖式詳予說明。

請參閱第１圖，第１圖為本發明實施例公開的一種語音識別用於特定目標喚醒之方法流程示意圖，包括如下步驟：

步驟Ｓ１０１：接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理，提取所述特定目標的一語音特徵；

具體的，此步驟中特定目標指的是進行語音識別中達到喚醒條件的註冊用戶，而語音訊息為事先準備好的文本，此文本內容中會包含預設的一喚醒詞，特定目標先朗讀文本內容並經由本發明實施例一語音識別裝置１００的一採集模組１１收集特定目標的語音訊息。

具體的，此步驟中所收集的語音訊息為類比語音訊號，需要將類比語音訊號轉成數位語音訊號才可進行後續語音識別處理。另外，在語音訊息中可能會包含其他環境噪音，因此也需要對語音訊息進行預處理，濾除無用的環境噪音並取得有效的語音訊號，所述預處理包含對數位語音訊號進行雜訊抑制處理及回音消除處理，上述預處理可以參照目前現有降噪處理的技術。

具體的，完成預處理後的語音訊號需要提取特定目標的語音特徵，本發明實施例中採用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, 簡稱MFCC)的方式擷取特定目標的語音特徵，將預處理後的語音訊號切割為多個音框(Frame blocking)、針對需要加重語音訊號的部分進行預強調(Pre-emphasis)、進行加窗(Window)等作業，得到更加清晰、明確的一段語音特徵。

步驟Ｓ１０２：將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(Hidden Vector State Model, 簡稱HVS Model)的輸入數據並進行訓練，得到一特定目標聲學模型，並儲存所述特定目標聲學模型；

具體的，此步驟中將特定目標的語音特徵作為輸入資料進行聲學模型的訓練，在本發明實施例中採用潛藏向量狀態模型並使用鑑別式訓練的方式進行訓練，鑑別式訓練不以最大化訓練聲學語料的相似度為目標，而以最小化分類(或辨識)錯誤為目標，增進辨識率。

其中鑑別式訓練是以最大互信息法(Maximum Mutual Information, 簡稱MMI)為準則進行訓練，其能夠將最大化正確答案出現的機率提高，並有效的降低競爭者出現的機率，並增加正確答案與競爭者的鑑別性。

具體的，此步驟中儲存所述特定目標聲學模型指的是儲存到本發明實施例語音識別裝置１００的一存儲模組１４。

步驟Ｓ１０３：接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理，提取所述待測目標的一語音特徵；

具體的，此步驟中待測目標指的是欲進行語音識別比對的使用人，待測目標輸出一段語音訊息，並經由本發明實施例語音識別裝置１００的一採集模組１１收集待測目標的語音訊息。

具體的，此步驟中對待測目標的語音訊息進行預處理，並提取所述待測目標的語音特徵，其處理步驟等同於上述對特定目標的語音訊息進行預處理，並提取所述特定目標的語音特徵的流程。

步驟Ｓ１０４：將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練，得到一待測目標的聲學模型；

具體的，此步驟中對待測目標的語音特徵作為輸入資料進行聲學模型的訓練，在本發明實施例中採用潛藏向量狀態模型並使用鑑別式訓練的方式進行訓練，鑑別式訓練是以最大互信息法(Maximum Mutual Information, 簡稱MMI)為準則進行訓練。

步驟Ｓ１０５：比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性，若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼，並根據語言解碼結果判斷是否喚醒。

具體的，此步驟中當待測目標的聲學模型符合特定目標的聲學模型則進行語言解碼，假若待測目標的聲學模型不符合特定目標的聲學模型則不進行任何動作，所述語言解碼使用待測目標的語音特徵作為輸入資料進行語言模型的訓練，在本發明實施例中語言模型包含一詞庫模型及一文法模型。

當待測目標的聲學模型判別為特定目標的聲學模型，則代表此時待測目標為特定目標，因此進行語言解碼確認待測目標的語音訊息是否包含喚醒詞。將待測目標的語音特徵進行詞庫模型與文法模型的訓練，解析得到待測目標的語音訊息內容，然後再判斷待測目標的語音訊息內容是否包含喚醒詞，若包含喚醒詞則語音識別喚醒啟動，若沒有包含喚醒詞則語音識別喚醒未啟動。

請參閱第二圖，本發明實施例一語音識別用於特定目標喚醒的裝置。一語音識別裝置１００包含一採集模組１１、一提取模組１２、一訓練模組１３、一存儲模組１４、一解碼模組１５、一處理器模組１６、一註冊模組１７以及一無線通訊模組１８。

所述採集模組１１與提取模組１２和註冊模組１７連接，其中採集模組１１設置多個麥克風用於接收特定目標與待測目標的語音訊息，收集的語音訊息為類比語音訊號需要轉化成數位語音訊號，同時將數位語音訊號進行雜訊抑制處理及回音消除處理，然後將處理完的數位語音訊息傳送到提取模組１２。

所述特定目標的定義是根據本發明語音識別用於特定目標喚醒的對象，所述待測目標的定義是語音識別裝置１００進行語音識別的對象。

所述特定目標的語音訊息中包含一預設的喚醒詞。

所述提取模組１２與採集模組１１、訓練模組１３以及解碼模組１５連接，提取模組１２用於接收採集模組１１處理後的語音訊息，並提取其中特定目標與待測目標的語音特徵，再傳送到訓練模組１３進行聲學模型訓練或是傳送到解碼模組１５進行解碼。

所述提取特定目標與待測目標的語音特徵是採用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, 簡稱MFCC)的方式擷取其語音訊息的語音特徵。

所述訓練模組１３與提取模組１２、存儲模組１４以及處理器模組１６連接。所述訓練模組１３用於接收提取模組１２提取完的特定目標與待測目標的語音特徵，並將特定目標與待測目標的語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據，最後獲取訓練後的聲學模型，並根據特定目標與待測目標進行不同步驟。若是特定目標則將特定目標的聲學模型傳送到存儲模組１４，若是待測目標則將待測目標的聲學模型傳送到處理器模組１６。

所述存儲模組１４與訓練模組１３、處理器模組１６以及註冊模組１７連接。所述存儲模組１４用於保存訓練模組１３訓練完成的特定目標的聲學模型。在本發明實施例中，當特定目標進行註冊模組１７的操作，則訓練模組１３訓練後的特定目標的聲學模型會傳送到存儲模組１４進行保存。另外，當處理器模組１６進行待測目標與特定目標的聲學模型比對時，則存儲模組１４將保存的特定目標的聲學模型傳送到處理器模組１６。

所述解碼模組１５與提取模組１２及處理器模組１６連接。所述解碼模組１５用於將待測目標的語音訊息進行語言解碼，更具體的說明，提取模組１２將待測目標的語音特徵作為以詞庫模型及文法模型的輸入資料進行訓練，並將結果傳送到處理器模組１６。

所述處理器模組１６與訓練模組１３、存儲模組１４、解碼模組１５與無線通訊模組１８連接。所述處理器模組１６用於比對特定目標的聲學模型與待測目標的聲學模型，並根據兩個聲學模型的比對結果判斷是否啟動所述解碼模組１５進行語言解碼，更具體的說明，當訓練模組１３傳送待測目標的聲學模型則處理器模組１６同時從存儲模組１４中取得特定目標的聲學模型，並在處理器模組１６中進行這兩個聲學模型的比對。

當確認特定目標的聲學模型與待測目標的聲學模型有關連，即代表待測目標為特定目標，因此進行待測目標的語音訊息語言解碼判斷其中是否包含喚醒詞，故處理器模組１６會啟動解碼模組１５，並由解碼模組１５進行語言解碼。

所述解碼模組１５從提取模組１２中獲取待測目標的語音特徵，並將語言解碼的運算結果回傳給處理器模組１６，處理器模組１６會根據待測目標的聲學模型以及語言解碼後結果判斷待測目標的語音訊息中是否包含喚醒詞。

當處理器模組１６得到待測目標的語音訊息中包含喚醒詞則執行語音識別裝置１００的喚醒，反之則不執行。

所述註冊模組１７與採集模組１１以及存儲模組１４連接。所述註冊模組１７用於提供特定目標進行語音識別裝置１００的註冊，其中註冊模組１７包含一啟動元件以及一顯示元件，當特定目標碰觸啟動元件則同時啟動存儲模組１４，表示採集模組１１此次收集到的語音訊息經過訓練模組１３訓練後的聲學模型需要保存到存儲模組１４，另外，當特定目標碰觸啟動元件則顯示元件啟動提供特定目標確認目前是否為註冊階段。

在本發明實施例中，所述啟動元件為一種按鈕，所述顯示元件為一種發光二極體。

所述無線通訊模組１８與處理器模組１６連接。所述無線通訊模組１８用於當處理器模組１６確認喚醒語音識別裝置１００成功後進行與外部通訊連接。

在本發明實施例中，所述無線通訊模組１８包含一種WiFi模組或一種藍牙模組。

如上所述，本發明語音識別用於特定目標喚醒的方法及裝置採用鑑別式訓練的潛藏向量狀態模型作為聲學模型，使用最大互信息法的鑑別式訓練除了最大化正確答案的出現機率外，也會將競爭者的出現機率降低，增加其正確答案與競爭者之間的鑑別能力，能夠快速且準確地判斷待測目標是否為特定目標，進而達到喚醒的功用。

１００:語音識別裝置１１:採集模組１２:提取模組１３:訓練模組１４:存儲模組１５:解碼模組１６:處理器模組１７:註冊模組１８:無線通訊模組Ｓ１０１～Ｓ１０５:流程步驟

第１圖係本發明語音識別用於特定目標喚醒之方法流程示意圖。

第２圖係本發明語音識別用於特定目標喚醒之裝置示意圖。

100:語音識別裝置

11:採集模組

12:提取模組

13:訓練模組

14:存儲模組

15:解碼模組

16:處理器模組

17:註冊模組

18:無線通訊模組

Claims

一種語音識別用於特定目標喚醒的方法，其特徵在於，包括如下步驟：S1：接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理，提取所述特定目標的一語音特徵；S2：將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(HVS Model)的輸入數據並進行訓練，得到一特定目標聲學模型，並儲存所述特定目標聲學模型；S3：接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理，提取所述待測目標的一語音特徵；S4：將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練，得到一待測目標的聲學模型；S5：比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性，若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼，並根據語言解碼結果判斷是否喚醒。
如申請專利範圍第１項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述特定目標的語音訊息與所述待測目標的語音訊息中包括至少一喚醒詞。
如申請專利範圍第１項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述預處理包括：將語音訊息進行雜訊抑制處理及回音消除處理。
如申請專利範圍第１項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述語音特徵利用梅爾倒頻譜係數(MFCC)的方式取得。
如申請專利範圍第１項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述鑑別式訓練採用最大互信息法(MMI)進行訓練。
如申請專利範圍第１項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述語言模型包括一詞庫模型或一文法模型或及其組合。
如申請專利範圍第２項所述之語音識別用於特定目標喚醒的方法，其特徵在於，所述根據語言解碼結果判斷是否達到語音識別的喚醒，其步驟包含：將所述待測目標的語音特徵進行語言解碼；判斷待測目標語音訊息其中是否包含所述喚醒詞；若包含所述喚醒詞則語音識別喚醒啟動，若沒有包含所述喚醒詞則語音識別喚醒未啟動。
一種語音識別用於特定目標喚醒的裝置，其特徵在於，所述裝置包括：一採集模組，包括多個麥克風陣列，用於接收特定目標與待測目標的語音訊息，其中所述語音訊息包含一喚醒詞；一提取模組，連接所述採集模組，用於提取所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵；一訓練模組，連接所述提取模組，用於將所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據，並獲取訓練後的特定目標的聲學模型與待測目標的聲學模型；一存儲模組，連接所述訓練模組，用於保存訓練完成的特定目標的聲學模型；一解碼模組，連接所述提取模組，用於將所述待測目標的語音訊息進行語言解碼；以及一處理器模組，連接所述訓練模組、所述存儲模組與所述解碼模組，用於比對所述存儲模組中的特定目標的聲學模型與待測目標的聲學模型，以及根據比對結果判斷是否啟動所述解碼模組進行待測目標的語音訊息的語言解碼，並根據語言解碼後的待測目標的語音訊息確認是否包含喚醒詞以喚醒所述裝置。
如申請專利範圍第８項所述之語音識別用於特定目標喚醒的裝置，其特徵在於，進一步包括一註冊模組，所述註冊模組連接所述採集模組與所述存儲模組，所述註冊模組用於啟動保存特定目標的聲學模型到所述存儲模組。
如申請專利範圍第８項所述之語音識別用於特定目標喚醒的裝置，其特徵在於，進一步包括一無線通訊模組，其中，所述無線通訊模組用於進行外部通訊連接。