TWI692751B

TWI692751B - 語音喚醒方法、裝置以及電子設備

Info

Publication number: TWI692751B
Application number: TW107108572A
Authority: TW
Inventors: 王志銘; 周俊; 小龍李
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-06-29
Filing date: 2018-03-14
Publication date: 2020-05-01
Also published as: PL3579227T3; EP3579227A4; SG11201906576WA; EP3579227A1; KR20190134594A; JP6877558B2; US10748524B2; KR102181836B1; TW201905897A; WO2019001428A1; JP2020517977A; EP3579227B1; PH12019501674A1; ES2878137T3; CN107358951A; US20200013390A1; US20200168207A1

Abstract

本說明書實施例公開了一種語音喚醒方法、裝置以及電子設備。所述方法包括：採用包含深度神經網路和連接機制時間分類器的語音喚醒模型，實現語音喚醒，該語音喚醒模型可以利用通用的語音資料訓練得到。

Description

語音喚醒方法、裝置以及電子設備

本說明書涉及電腦軟體技術領域，尤其涉及一種語音喚醒方法、裝置以及電子設備。

隨著移動設備的快速發展，語音相關技術也變得越來越普遍。比如，越來越流行的會話助理，如蘋果的Siri，微軟的Cortana和亞馬遜的Alexa都使用語音識別來增强用戶體驗和提高自然人機互動的水平。　　其中，一種重要的語音互動技術是關鍵詞檢測(Keyword Spotting，KWS)，一般也可以稱為語音喚醒，基於現有技術，需要不依賴關鍵詞特定的語音資料的語音喚醒方案。

本說明書實施例提供一種語音喚醒方法、裝置以及電子設備，用以解決如下技術問題：需要不依賴關鍵詞特定的語音資料的語音喚醒方案。　　為解決上述技術問題，本說明書實施例是這樣實現的：　　本說明書實施例提供的一種語音喚醒方法，包括：　　語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　本說明書實施例提供的一種語音喚醒裝置，包括：輸入模組、語音喚醒模型；　　語音資料被所述輸入模組輸入到利用通用的語音資料訓練的所述語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　本說明書實施例提供的一種電子設備，包括：　　至少一個處理器；以及，　　與所述至少一個處理器通信連接的記憶體；其中，　　所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：　　語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果：可以不依賴關鍵詞特定的語音資料，而是可以採用容易獲得的通用的語音資料訓練語音喚醒模型，進而將訓練的語音喚醒模型用於語音喚醒，有利於提高語音喚醒準確率。

本說明書實施例提供一種語音喚醒方法、裝置以及電子設備。　　為了使本技術領域的人員更好地理解本說明書中的技術方案，下面將結合本說明書實施例中的附圖，對本說明書實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請案一部分實施例，而不是全部的實施例。基於本說明書實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬本申請案保護的範圍。　　為了便於理解，對本說明書的方案的思路進行說明：本說明書使用通用的語音資料，對包含深度神經網路(Deep Neural Networks，DNN)和連接機制時間分類器(Connectionist Temporal Classifier，CTC)的語音喚醒模型進行訓練，訓練的語音喚醒模型可以用於語音喚醒，並且支持用戶自定義語音喚醒觸發的關鍵詞；進一步地，該語音喚醒模型可以在諸如手機、家電等低功耗設備上使用，原因在於該語音喚醒模型包含的深度神經網路相對可以不太複雜，比如可以只有3~4層，每層兩三百個節點。可以稱該語音喚醒模型為CTC-KWS，這裏的KWS即為背景技術中提到的關鍵詞檢測。　　其中，深度神經網路是一種多層感知器，其在輸入層和輸出層之間具有隱藏層，可以模擬複雜的非線性關係；CTC是用於執行標籤標注任務的一種分類器，其不要求輸入與輸出强制對齊。　　圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖。該整體架構中，主要涉及兩部分：語音資料、語音喚醒模型，其中，語音喚醒模型中包含有深度神經網路和CTC。透過將語音資料輸入語音喚醒模型進行處理，可以實現語音喚醒。　　基於以上思路和整體架構，下面對本說明書的方案進行詳細說明。　　圖2為本說明書實施例提供的一種語音喚醒方法的流程示意圖。從程式角度而言，該流程的執行主體可以是伺服器上或者終端上的程式，比如，模型訓練程式、語音識別程式、語音喚醒應用等。從設備角度而言，該流程可能的執行主體包括但不限於可作為伺服器或者終端的以下至少一種設備：手機、平板電腦、智慧穿戴式設備、車機、個人電腦、中型電腦、電腦群集等。　　圖2中的流程可以包括以下步驟：　　S202：語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型。　　在本說明書實施例中，可以由該執行主體或者另一主體進行語音監聽，得到所述語音資料。在所述語音監聽下，用戶可以說出預定的關鍵詞，以觸發所述語音喚醒模型進行語音喚醒。　　S204：所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和CTC。　　在本說明書實施例中，相比於背景技術中提到的關鍵詞特定的語音資料，步驟S202所述的通用的語音資料是限制較少而容易獲得的，比如，其可以是大詞彙表連續語音識別(Large Vocabulary Continuous Speech Recognition，LVCSR)語料庫等。　　在本說明書實施例中，語音識別模型包含的深度神經網路可以預測輸入的語音特徵對應的發音音素序列的後驗概率分布，該深度神經網路後可以接CTC，以給出預測的發音音素序列對應的置信分數，基於置信分數可以輸出用於確定是否進行語音喚醒的結果。　　透過圖2的方法，可以不依賴關鍵詞特定的語音資料，而是可以採用容易獲得的通用的語音資料訓練語音喚醒模型，進而將訓練的語音喚醒模型用於語音喚醒，有利於提高語音喚醒準確率。　　所述語音喚醒模型還突破了關鍵詞特定的語音資料的限制，支持用戶自定義觸發的關鍵詞，因此，在實際應用中更方便靈活，有利於提高用戶體驗。　　基於圖2的方法，本說明書實施例還提供了該方法的一些具體實施方案，以及擴展方案，下面進行說明。　　為了便於理解，本說明書實施例提供了圖2中的語音喚醒模型的一種框架示意圖，如圖3所示。　　在圖3的框架中，依次包含特徵提取模組、深度神經網路、CTC這三部分。對於步驟S204，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，具體可以包括：　　從輸入的所述語音資料中提取聲學特徵；　　將所述聲學特徵輸入所述深度神經網路進行處理，得到所述聲學特徵分別對應於各發音音素的類屬概率；　　將所述類屬概率輸入所述CTC進行處理，得到語音喚醒詞對應發音音素序列的置信分數；　　根據所述置信分數作出是否喚醒的判斷，以及輸出判斷結果。　　根據上面的語音喚醒流程，進一步地結合圖4、圖5、圖6對圖3中框架的各部分進行詳細說明。　　圖4為本說明書實施例提供的一種實際應用場景下，圖3中的特徵提取模組的特徵提取示意圖。　　在圖4中，目前監聽到“芝麻開門”這段語音，其對應的目標標籤序列為一發音音素序列，可以表示為：“zhi1ma2kai1men2”，其中，數字表示音調，除了聲母韵母等音素，音調的音素也被作為建模單元考慮在內。在實際應用中，上下文無關或者上下文依賴的音素都可以考慮在內，其中，後者數量更多，然而考慮到減輕深度神經網路後續的計算負擔，較佳地可以只考慮上下文無關的音素，具體有72個上下文獨立的中文音素單元，包括一個空白單元。　　可以由特徵提取模組從輸入的所述語音資料中提取聲學特徵，具體可以包括：按照指定的時間間隔，從窗口中提取輸入的所述語音資料的聲學特徵幀，每個所述聲學特徵幀為多維取對數濾波器組能量(log filter bank energies)；分別將相鄰的多個所述聲學特徵幀進行堆疊；分別將所述堆疊後的聲學特徵幀作為從所述通用的語音資料中提取出的聲學特徵；進而可以分別將所述堆疊後的聲學特徵幀作為所述深度神經網路的輸入。　　其中，對數濾波器組能量是指：透過log濾波器組所提取的能量信號，在本說明書的方案中，其可以表示為向量，以便於模型處理，上述的多維即表示該向量的多個維度。　　例如，指定的時間窗口的長度比如可以是25毫秒，各時間窗口可以移動10毫秒，多維比如可以是40維。則在語音資料的時間軸上，從第0~25毫秒可以為一個窗口，從語音資料中對應提取出40維取對數濾波器組能量，作為第1個聲學特徵幀，從第10~35毫秒可以為一個窗口，從語音資料中對應提取出40維取對數濾波器組能量，作為第2個聲學特徵幀，以此類推，可以提取得到多個聲學特徵幀。　　進一步地，將相鄰的多個聲學特徵幀堆疊的目的是允許來自目前幀左右上下文的更多信息，有利於提高後續預測結果的準確性。沿用上例，比如可以將目前幀、目前幀之前相鄰的連續10幀，以及目前幀之後相鄰的連續5幀進行堆疊，可以得到640維的堆疊特徵用於輸入後面的深度神經網路。另外，在堆疊特徵的維度可以進行倒譜均值和方差正規化處理，再向後輸入。　　需要說明的是，上面例子中的特徵提取方式以及所採用的參數僅是範例，在實際應用中，可以按需求進行調整。　　圖5為本說明書實施例提供的一種實際應用場景下，圖3中的深度神經網路的結構示意圖。　　在圖5中，深度神經網路中的各神經元是全連接的。透過圖3中的特徵提取模組提取出的聲學特徵被輸入該深度神經網路。該深度神經網路可以透過以下函數映射描述輸入的聲學特徵

和輸出層中建模單元j 的關係：

其中，

是隱藏層的輸出，

、

分別是重量和偏置參數，n_i 是第i 層的節點數量，

，“

”表示矩陣的轉置，N 是隱藏層的數量，σ是非線性激活函數，比如修正線性單元(Rectified Linear Unit，ReLU)函數σ(z)=max(z,0) ，公式三是一個的softmax函數，表示標籤單元

的估計後驗。　　在實際應用中，也可以用循環神經網路(RNN)配合CTC使用，但是，在諸如背景技術中訓練資料受限的情況下，深度神經網路配合CTC更容易滿足移動設備的最小計算和功耗要求，為了降低計算的複雜度，該深度神經網路的隱藏層中大約數百個節點是比較合適的。　　圖6為本說明書實施例提供的一種實際應用場景下，圖3中的CTC的結構示意圖。　　CTC是專門為序列標籤任務而設計。與輸入特徵和目標標籤之間的幀級對準的交叉熵準則不同，CTC的目標是自動學習語音資料和標籤序列(比如，音素或者字符等)之間的對齊，這消除了對資料進行强制對齊的需要，並且輸入與標籤的長度不一定相同。　　在圖6中，指定的建模單元從

中提取，CTC位於深度神經網路的softmax層之上，該深度神經網路由

單元和空白單元組成，空白單元的引入減輕了標籤預測的負擔，因為當不確定時，不會對應地發出符號。　　將

定義為深度神經網路在時間步t 輸出j 的概率，給定幀長T 的輸入序列x^T 和目標標籤l ^£ ^T ，

。CTC路徑

是幀級別的標籤序列，其與l 的不同之處在於：CTC路徑允許重複非空白標籤和空白單元的出現。　　透過删除重複的標籤，以及删除空白單元，可以將CTC路徑

映射到其對應的標籤序列l 。比如，

，其中，多對一映射函數被定義為

，"-"表示空白。給定x^T ，假定每個時間步的輸出概率條件獨立，則路徑

的概率為：

那麼可以基於

，透過將映射到l 上的所有的路徑的概率求和來計算l 的可能性。在實際應用中，總結CTC上所有的路徑在計算上是比較麻煩的，針對該問題，可以採用前後向動態規劃算法，基於該算法，所有可能的CTC路徑被緊湊地表示為網格，正如圖6所示。　　在訓練時，CTC的目標是使得

，其中，

表示所使用的訓練資料。在解碼時，當CTC輸出的置信分數大於設定閾值時，則檢測引擎可以相應地做出正面的決策，可以認為檢測出了相應的關鍵詞，該設定閾值可以基於驗證資料集進行微調。　　在本說明書實施例中，在訓練模型時可以採用梯度下降法，較佳地可以採用異步隨機梯度下降法，對所述語音喚醒模型中的參數進行迭代最佳化直至訓練收斂。　　例如，可以在具有圖形處理器(Graphics Processing Unit，GPU)的伺服器上對深度神經網路和CTC進行訓練，網路參數隨機初始化在(-0.02,0.02)範圍內均勻分布，初始學習率(Learning Rate)為0.008，動量為0.9。　　其中，為了便於理解，對學習率及其作用進行說明：　　學習率是梯度下降法中使用的參數。梯度下降法會先初始化一個解，在這個解的基礎上，確定一個移動方向和一個移動步長，使初始解根據這個方向和步長移動後，能使目標函數的輸出下降；然後將其更新為新的解，再繼續尋找下一步的移動方向和步長，如此迭代下去，目標函數也不斷下降，最終就能找到一個解，使得目標函數比較小。而在求解過程中，若步長太大，則搜索不夠仔細，可能跨過優秀的解，而若步長太小，又會使求解過程進行得太慢。因此，步長設置適當非常重要。學習率用於對原步長調整，梯度下降法中每次調整的步長等於學習率乘以梯度。　　在上述訓練中，還可以採用驗證資料集對所述語音喚醒模型進行交叉驗證，以確定訓練是否收斂。　　為了提高訓練的語音喚醒模型的性能和魯棒性。本說明書的方案還提供了更多的措施。　　一種措施是自適應訓練。具體地，可以使用某些特定關鍵詞的語音資料，使用較小的學習率對通用的模型進行微調。基於這樣的考慮，在訓練語音喚醒模型時，還可以獲取特定關鍵詞的語音資料，利用所述特定關鍵詞的語音資料，對所述語音喚醒模型進行訓練，其中，所述訓練所使用的學習率小於利用所述通用的語音資料對所述語音喚醒模型訓練時所使用的學習率。　　另一種措施是遷移學習。具體地，網路參數可以不是隨機初始化的，而是參考現有的對應網路，該對應網路具有與目標網路相同的拓撲結構，除了輸出層中的細粒度單元，並且可以使用交叉熵準則。當訓練資料規模較大時，尤其可以考慮遷移學習。　　其他的措施比如還有使用架構相關的向量指令(比如，ARM中的NEON)來進一步地加速乘法運算等。　　前面已經提到，本說明書的方案可以便利地支持用戶自定義語音喚醒關鍵詞，對於這種自定義的關鍵詞，其對應的目標標籤序列可以透過詞典確定。　　上面為本說明書實施例提供的一種語音喚醒方法，基於同樣的說明書思路，本說明書實施例還提供了對應的裝置，如圖7所示。　　圖7為本說明書實施例提供的對應於圖2的一種語音喚醒裝置的結構示意圖，虛線方塊表示可選的模組，該裝置可以位於圖2中流程的執行主體上，包括：輸入模組701、語音喚醒模型702；　　語音資料被所述輸入模組701輸入到利用通用的語音資料訓練的所述語音喚醒模型702，所述語音喚醒模型702輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　可選地，所述通用的語音資料包括：大詞彙表連續語音識別LVCSR語料庫。　　可選地，所述裝置還包括訓練模組703；　　所述訓練模組703利用所述通用的語音資料訓練所述語音喚醒模型包括：　　所述訓練模組703利用所述通用的語音資料，採用異步隨機梯度下降法，對所述語音喚醒模型中的參數進行迭代最佳化直至訓練收斂。　　可選地，所述訓練模組703還獲取特定關鍵詞的語音資料；　　利用所述特定關鍵詞的語音資料，對所述語音喚醒模型進行訓練，其中，所述訓練所使用的學習率小於利用所述通用的語音資料對所述語音喚醒模型訓練時所使用的學習率。　　可選地，所述訓練模組703還在所述訓練中，採用驗證資料集對所述語音喚醒模型進行交叉驗證，以確定訓練是否收斂。　　可選地，所述語音喚醒模型702輸出用於確定是否進行語音喚醒的結果，具體包括：　　所述語音喚醒模型702從輸入的所述語音資料中提取聲學特徵；　　將所述聲學特徵輸入所述語音喚醒模型702包含的所述深度神經網路進行處理，得到所述聲學特徵分別對應於各發音音素的類屬概率；　　將所述類屬概率輸入所述語音喚醒模型702包含的所述連接機制時間分類器進行處理，得到語音喚醒詞對應發音音素序列的置信分數；　　根據所述置信分數作出是否喚醒的判斷，以及輸出判斷結果。　　可選地，所述語音喚醒模型702從輸入的所述語音資料中提取聲學特徵，具體包括：　　所述語音喚醒模型702按照指定的時間間隔，從窗口中提取輸入的所述語音資料的聲學特徵幀，每個所述聲學特徵幀為多維取對數濾波器組能量；　　分別將相鄰的多個所述聲學特徵幀進行堆疊；　　分別將所述堆疊後的聲學特徵幀作為從所述監聽到的語音中提取出的聲學特徵。　　基於同樣的說明書思路，本說明書實施例還提供了對應的一種電子設備，包括：　　至少一個處理器；以及，　　與所述至少一個處理器通信連接的記憶體；其中，　　所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：　　語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　基於同樣的說明書思路，本說明書實施例還提供了對應的一種非易失性電腦儲存媒體，儲存有電腦可執行指令，所述電腦可執行指令設置為：　　語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器。　　上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和平行處理也是可以的或者可能是有利的。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於裝置、電子設備、非易失性電腦儲存媒體實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。　　本說明書實施例提供的裝置、電子設備、非易失性電腦儲存媒體與方法是對應的，因此，裝置、電子設備、非易失性電腦儲存媒體也具有與對應方法類似的有益技術效果，由於上面已經對方法的有益技術效果進行了詳細說明，因此，這裏不再贅述對應裝置、電子設備、非易失性電腦儲存媒體的有益技術效果。　　在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式化到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式邏輯裝置(Programmable Logic Device，PLD)(例如現場可程式閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由用戶對裝置程式化來確定。由設計人員自行程式化來把一個數位系統“積集”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式化也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始碼也得用特定的程式語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL (Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL (Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式化並程式化到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。　　控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以透過將方法步驟進行邏輯程式化來使得控制器以邏輯閘、開關、專用積體電路、可程式邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、蜂巢電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、穿戴式設備或者這些設備中的任何設備的組合。　　為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本說明書時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。　　本領域內的技術人員應明白，本說明書實施例可提供為方法、系統、或電腦程式產品。因此，本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。　　本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式資料處理設備的處理器以產生一個機器，使得透過電腦或其他可程式資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。　　這些電腦程式指令也可儲存在能引導電腦或其他可程式資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。　　這些電腦程式指令也可裝載到電腦或其他可程式資料處理設備上，使得在電腦或其他可程式設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。　　在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。　　記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的範例。　　電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息儲存。信息可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的信息。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。　　還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。　　本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構等等。也可以在分布式計算環境中實踐本說明書，在這些分布式計算環境中，由透過通信網路而被連接的遠程處理設備來執行任務。在分布式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠程電腦儲存媒體中。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。　　以上所述僅為本說明書的實施例而已，並不用於限制本申請案。對於本領域技術人員來說，本申請案可以有各種更改和變化。凡在本申請案的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本申請案的申請專利範圍之內。

701‧‧‧輸入模組702‧‧‧語音喚醒模型703‧‧‧訓練模組

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本說明書中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。　　圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖；　　圖2為本說明書實施例提供的一種語音喚醒方法的流程示意圖；　　圖3為本說明書實施例提供的圖2中的語音喚醒模型的一種框架示意圖；　　圖4為本說明書實施例提供的一種實際應用場景下，圖3中的特徵提取模組的特徵提取示意圖；　　圖5為本說明書實施例提供的一種實際應用場景下，圖3中的深度神經網路的結構示意圖；　　圖6為本說明書實施例提供的一種實際應用場景下，圖3中的連接機制時間分類器的結構示意圖；　　圖7為本說明書實施例提供的對應於圖2的一種語音喚醒裝置的結構示意圖。

Claims

一種語音喚醒方法，包括：語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器，其中所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，具體包括：從輸入的所述語音資料中提取聲學特徵；將所述聲學特徵輸入所述語音喚醒模型包含的所述深度神經網路進行處理，得到所述聲學特徵分別對應於各發音音素的類屬概率；將所述類屬概率輸入所述語音喚醒模型包含的所述連接機制時間分類器進行處理，得到語音喚醒詞對應發音音素序列的置信分數；根據所述置信分數作出是否喚醒的判斷，以及輸出判斷結果。
如申請專利範圍第1項所述的方法，所述通用的語音資料包括：大詞彙表連續語音識別(LVCSR)語料庫。
如申請專利範圍第1項所述的方法，其中利用所述通用的語音資料訓練所述語音喚醒模型包括：利用所述通用的語音資料，採用異步隨機梯度下降法，對所述語音喚醒模型中的參數進行迭代最佳化直至訓練收斂。
如申請專利範圍第3項所述的方法，所述方法還包括：獲取特定關鍵詞的語音資料；利用所述特定關鍵詞的語音資料，對所述語音喚醒模型進行訓練，其中，所述訓練所使用的學習率小於利用所述通用的語音資料對所述語音喚醒模型訓練時所使用的學習率。
如申請專利範圍第3項所述的方法，所述方法還包括：在所述訓練中，採用驗證資料集對所述語音喚醒模型進行交叉驗證，以確定訓練是否收斂。
如申請專利範圍第1項所述的方法，其中所述從輸入的所述語音資料中提取聲學特徵，具體包括：按照指定的時間間隔，從窗口中提取輸入的所述語音資料的聲學特徵幀，每個所述聲學特徵幀為多維取對數濾波器組能量；分別將相鄰的多個所述聲學特徵幀進行堆疊；分別將所述堆疊後的聲學特徵幀作為從所述監聽到的語音中提取出的聲學特徵。
一種語音喚醒裝置，包括：輸入模組、語音喚醒模型；語音資料被所述輸入模組輸入到利用通用的語音資料訓練的所述語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器，其中所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，具體包括：所述語音喚醒模型從輸入的所述語音資料中提取聲學特徵；將所述聲學特徵輸入所述語音喚醒模型包含的所述深度神經網路進行處理，得到所述聲學特徵分別對應於各發音音素的類屬概率；將所述類屬概率輸入所述語音喚醒模型包含的所述連接機制時間分類器進行處理，得到語音喚醒詞對應發音音素序列的置信分數；根據所述置信分數作出是否喚醒的判斷，以及輸出判斷結果。
如申請專利範圍第7項所述的裝置，所述通用的語音資料包括：大詞彙表連續語音識別(LVCSR)語料庫。
如申請專利範圍第7項所述的裝置，所述裝置還包括訓練模組；所述訓練模組利用所述通用的語音資料訓練所述語音喚醒模型包括：所述訓練模組利用所述通用的語音資料，採用異步隨機梯度下降法，對所述語音喚醒模型中的參數進行迭代最佳化直至訓練收斂。
如申請專利範圍第9項所述的裝置，所述訓練模組還獲取特定關鍵詞的語音資料；利用所述特定關鍵詞的語音資料，對所述語音喚醒模型進行訓練，其中，所述訓練所使用的學習率小於利用所述通用的語音資料對所述語音喚醒模型訓練時所使用的學習率。
如申請專利範圍第9項所述的裝置，其中所述訓練模組還在所述訓練中，採用驗證資料集對所述語音喚醒模型進行交叉驗證，以確定訓練是否收斂。
如申請專利範圍第7項所述的裝置，其中所述語音喚醒模型從輸入的所述語音資料中提取聲學特徵，具體包括：所述語音喚醒模型按照指定的時間間隔，從窗口中提取輸入的所述語音資料的聲學特徵幀，每個所述聲學特徵幀為多維取對數濾波器組能量；分別將相鄰的多個所述聲學特徵幀進行堆疊；分別將所述堆疊後的聲學特徵幀作為從所述監聽到的語音中提取出的聲學特徵。
一種電子設備，包括：至少一個處理器；以及，與所述至少一個處理器通信連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：語音資料被輸入到利用通用的語音資料訓練的語音喚醒模型，所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，其中，所述語音喚醒模型包含深度神經網路和連接機制時間分類器，其中所述語音喚醒模型輸出用於確定是否進行語音喚醒的結果，具體包括：從輸入的所述語音資料中提取聲學特徵；將所述聲學特徵輸入所述語音喚醒模型包含的所述深度神經網路進行處理，得到所述聲學特徵分別對應於各發音音素的類屬概率；將所述類屬概率輸入所述語音喚醒模型包含的所述連接機制時間分類器進行處理，得到語音喚醒詞對應發音音素序列的置信分數；根據所述置信分數作出是否喚醒的判斷，以及輸出判斷結果。