TWI530940B

TWI530940B - 聲學模型訓練方法和裝置

Info

Publication number: TWI530940B
Application number: TW103123852A
Authority: TW
Inventors: 王爾玉; 盧鯉; 張翔; 劉海波; 饒豐; 李露; 岳帥; 陳波
Original assignee: 騰訊科技（深圳）有限公司
Priority date: 2013-07-10
Filing date: 2014-07-10
Publication date: 2016-04-21
Also published as: HK1199672A1; CN104143327A; WO2015003436A1; CN104143327B; TW201503106A

Description

聲學模型訓練方法和裝置

本發明實施方式涉及語音識別技術領域，更具體地，涉及一種聲學模型訓練方法和裝置。

語音識別是將語音信號轉為文本的一種技術，是一種方便的人機對話模式，現廣泛的應用於移動互聯網等領域中。語音識別是一個序列化的分類問題，目的是將收集到的一連串語音信號轉化為一串文本輸出。語音識別技術所涉及的領域包括：信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

傳統的語音識別系統一般分為三個模組，分別為：聲學模型，比如HMM-GMM系統框架描述的模型；語言模型，比如N-Grams描述的模型；解碼器，用於結合聲學模型、語言模型、發音字典等資源，將聲音信號轉換為文本資訊。隨著近年來深層神經網路(DNN)理論的成熟，解決了多層網路訓練的問題，同時也可以應用大量的非標注資料。在語音識別領域，DNN也顯示出強大的建模能力。無論是聲學模型訓練還是語言模型訓練，深層神經網路都體現出很好的實用效果。

在傳統DNN模型訓練中，隨機梯度下降演算法(Stochastic Gradient Descent，SGD)僅能夠順序地估計模型參數，不同語音資料之間存在時間上的依存關係，難以實現類似Map-Reduce一樣的多機並行化演算法，不容易做到加速DNN模型訓練的速度。為了達到更好的語音識別準確率，在實際應用中傾向于使用海量資料來訓練DNN模型，但是如果使用傳統的SGD方法，針對上千小時的資料訓練模型，往往需要幾個月的時間，難以滿足應用中即時性的要求。因此實現DNN模型的並行化估計，越來越有價值。

在研究領域中，人們首先引進類牛頓方法來估計DNN模型，這是一種二階的優化方式。類牛頓演算法首先近似估計一個二階的Hessian矩陣的逆矩陣，然後利用這個矩陣來更新模型參數，這是一種訓練單元(batch)的訓練方式，不是線上(online)的訓練方式，即所有資料僅更新一次模型，資料之間不存在時間上的依存關係，這樣就可以將資料拆分成多塊，進而實現資料的並行化策略，以加速DNN模型參數估計。

雖然二階優化在理論上等同於一階參數優化，並且在迭代收斂速度上快于傳統的SGD方法。但是在大資料中，二階參數優化方式往往需要很多細節部分的調節，在缺少先驗的知識下，二階優化往往沒有一階優化更健壯。具體的，對於語音識別中的DNN建模而言，這種演算法並不能達到SGD演算法的良好性能。

本發明實施方式提出一種聲學模型訓練方法，以提高聲學模型的性能。

本發明實施方式提出一種聲學模型訓練裝置，以提高聲學模型的性能。

本發明實施方式的技術方案如下：一種聲學模型訓練方法，該方法包括：建立深層神經網路模型初始模型；將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。

一種聲學模型訓練裝置，包括初始模型建立單元、子模型獲取單元和融合單元，其中：初始模型建立單元，用於建立深層神經網路模型初始模型；子模型獲取單元，用於將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合單元，用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。

從上述技術方案可以看出，在本發明實施方式中，建立深層神經網路模型初始模型；將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。由此可見，應用本發明實施方式之後，提出了深層神經網路並行訓練方法，可以使用不同語音資料同時訓練多個深層神經網路子模型，然後將這些子模型融合起來，得到一個性能更好的訓練後聲學模型，同時可以大大縮小模型訓練所需的時間。

而且，本發明實施方式可以使用多個深層神經網路模型，解碼得到每個深層神經網路模型輸出的後驗概率，再將若干個後驗概率通過最優化的方式融合，得到最終的語音識別輸出結果，這樣可以降低每個深層神經網路模型輸出的後驗概率的偏差，並提高語音識別的性能。

201~203‧‧‧根據本發明實施方式的聲學模型訓練方法流程步驟

501‧‧‧初始模型建立單元

502‧‧‧子模型獲取單元

503‧‧‧融合單元

504‧‧‧測試單元

圖1為現有技術HMM-DNN系統的處理流程圖；圖2為根據本發明實施方式的聲學模型訓練方法流程圖；圖3為根據本發明實施方式的DNN聲學模型訓練流程圖；圖4為根據本發明實施方式的DNN聲學模型測試流程圖；圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。

為使本發明的目的、技術方案和優點更加清楚，下面結合附圖對本發明作進一步的詳細描述。

本發明實施方式關注聲學模型的訓練，聲學模型的訓練是語音識別技術的核心步驟。

語音識別是一個序列化的分類問題，目的是將收集到的一連串語音信號轉化為一串文本輸出。由於語音信號存在時間上的關聯，即某一個時刻的語音資料與前面若干時刻的語音資料相關。為了類比語音資料產生的機制，馬爾科夫模型被引進語音識別領域當中。為了進一步簡化模型的複雜度，馬爾科夫模型的每一個當前狀態僅和前一個時刻的狀態有關。

對於每個特定的語言來說，由於語音信號其最基本的發音單元均是有限數目，觀測到一個特定發音的時候，其對應的文本並不一定相同，隱藏馬爾科夫模型(Hidden Markov Model，HMM)正好可以表達這一問題。在語音識別中，隱藏馬爾科夫模型作為最基本的描述語音資料產生機制的模型一直沿用至今。同時，由於語音信號存在著豐富的變化可能，同樣文本的語音，不同性別，不同地域，不同情緒，不同風格的人說出來，均存在著差異，為了描述這一差異，高斯混合模型(Gaussian Mixture Model，GMM)被引入語音識別領域。HMM-GMM的系統框架，主導語音識別領域多年，並在近年由於海量資料的引入，和互聯網技術的發展，逐步可以滿足大量的現實需求。

對於HMM-GMM系統而言，訓練一個具有較高識別率的聲學模型，需要大量有標注的語音資料，利用EM演算法估計HMM-GMM模型的各種參數。比如：對於中文而言，語音的發音字典包含了100多個不同的音素，而HMM-GMM模型通常使用的三因數(Triphone Model)模型，則根據前後文的音素，擴展出來100萬左右各不同的音素模型，這就需要大量的有標注的語音資料來對這些不同的音素模型進行建模。

由於可用的有標注的語音資料往往都是較少的，不可能涵蓋所有的音素模型，對於某些音素而言，對應的資料往往是稀疏的。這種情況下，待估計的參數數目，要比估計資料多，就容易造成參數估計的不穩定，不能很好的類比語音資料的真實情況。

為了解決這一問題，提出決策樹方法。即根據不同音素的產生機制以及可用的估計資料的多少，通過聚類的方式，將100萬個模型，聚類成為幾萬個模型，這樣就可以使得每一個模型類包含較多的資料，可以較為準確地估計模型類。這種聚類方法，是根據可用的語音資料，近似地對模型進行估計的一種方案。由於模型數目大大減少，每個模型類中，原有的模型特性會被同一類中其他模型的特性掩蓋掉，最終導致模型類只是一個均值模型，其類比參數的能力並不強大。

同時，HMM模型中包含有一個強假設：每個狀態至於前一狀態有關。這一假設破壞了時間序列信號前後相關的特性。近年來，為了彌補這一假設，人們引進splice的補償方式，就是把當前的語音信號前後擴展幾幀，拼成一個大的向量信號，然後進行HMM-GMM模型的訓練，由於拼接信號帶來了高維度的問題，這一問題更加加大了資料量不充足的問題，因此只能將這一高維信號進行降維操作，以達到資料和維度的平衡。這一操作難免引入資訊損耗，並不是一個合理的方案。

隨著近年來深層神經網路理論的成熟，解決了多層網路訓練的問題，同時也可以應用大量的非標注資料。在語音識別領域，DNN也顯示出強大的建模能力。無論是聲學模型訓練還是語言模型訓練，深層神經網路都體現出很好的實用效果。HMM-DNN識別框架逐漸成為現在語音識別技術的主流。

在傳統HMM-DNN模型訓練中，SGD演算法僅能夠順序估計模型參數(即假如可供訓練的語音資料一共有100萬條，SGD方法必須逐條使用，讀入第N條語音資料計算梯度；更新DNN模型；然後讀入第N+1條語音資料，利用上次得到的DNN模型基礎進行計算梯度，再一次更新DNN模型)，不同語音資料之間存在時間上的依存關係，難以實現類似Map-Reduce一樣的多機並行化演算法，不容易做到加速DNN模型訓練的速度。

為了達到更好的語音識別準確率，在實際應用中傾向于使用海量資料來訓練DNN模型，但是如果使用傳統的SGD方法，上千小時的資料訓練模型，往往需要幾個月的時間，難以滿足應用中即時性的要求。因此實現DNN模型的並行化估計，越來越有價值。

同時由於神經網路仍然是一種基於資料驅動得到的統計模型，如果訓練資料中包含一定的傾向性，比如都是來自電話的語音資料，通過SGD演算法得到的最終DNN模型，還是會存在一定的偏差，它會更好的識別來自於電話通道的語音資料，而對其他來源的語音資料，識別率會偏低。從原理上看，DNN網路輸出的是有關某個綁定音素狀態的後驗概率，這個後驗概率具有一定的概率分佈。它具有一個變化範圍，稱之為誤差。這個誤差造成語音識別中由電話風格語音資料訓練的DNN模型對來自其他風格的語音資料的識別結果較差。

本發明實施方式針對這個問題，同時還可以在解碼器端提出了一種降低該誤差的方法。即使用多個DNN模型解碼，得到每個DNN模型輸出的後驗概率，將若干個後驗概率通過最優化的方式融合，得到最終的語音識別輸出結果。這樣可以降低每個DNN模型輸出的後驗概率的偏差，提高語音識別的性能。

圖1為現有技術的HMM-DNN系統執行流程圖。

如圖1所示，傳統的HMM-DNN系統框架下，首先要訓練DNN聲學模型，然後利用DNN模型和HMM模型的拓撲結構，完成解碼操作。

要訓練DNN聲學模型，首先要獲取一定的資源檔案，資源檔案包括：

(1)、訓練資料的聲學特徵：把參與DNN模型訓練的資料(大約幾千小時)收集起來，通過聲學參數提取模組，獲得語音資料的聲學特徵，比如PLP，MFCC，FBank等。這些特徵可以較好的反應語音資料中包含的文本資訊(即語音識別的目的，將聲音轉換為文本)。

(2)、狀態級標注：使用HMM-GMM模型，對於全部訓練資料做強制性對齊(Alignment)，得到某個語音特徵檔，不同時間節點的特徵對應的音素狀態。

(3)、HMM模型拓撲結構：即使用傳統HMM-GMM框架訓練好的HMM模型，包含最終聚類的狀態數目，狀態綁定列表，音素綁定列表，以及狀態之間的轉移概率，這些都是在DNN模型訓練和測試中需要的資源。

(4)、DNN模型拓撲結構：輸入特徵前後擴展的幀數，DNN網路層次，DNN網路節點數目，啟動函數形式等資源。

要測試HMM-DNN模型的性能，需要獲取另外一批資源，這包括：

(5)、語言模型：即表徵各個詞之間的相互關係的檔。常用的語言模型為N-gram，即當前詞給定N-1個詞歷史的情況下的出現概率。

(6)、發音字典：每個詞如何發音，具體的是指每個詞對應的音素基本單元序列。

傳統的DNN模型的訓練流程如下：

步驟1，根據準備好的DNN模型拓撲結構，建立DNN模型的初始模型，並且設定SGD所需的參數，如學習率(learning rate)，動量項(Momentum)，最小訓練單元(mini-batch size)等。

步驟2，把所有的語音訓練資料隨機排列成一個語音檔序列，SGD演算法按照排列好的順序，按照最小訓練單元(mini-batch)的大小，逐次讀入特徵檔以及對應的狀態級標注檔，更新DNN模型。

步驟3，在全部語音訓練資料都參與DNN模型的更新之後，就完成了一次迭代訓練，這時候得到一個DNN的中間模型。需要使用開發集合來交叉驗證(Cross Validation)該中間模型是否最優。具體包括：使用開發集合的語音資料，在DNN中間模型上計算幀級的準確率；如果開發集合上的準確率大於預先設置好的門限，就可以結束訓練，將DNN中間模型作為DNN最終模型；如果小於預先設置好的門限，則說明這個中間模型還不是最優模型，這時候就跳到步驟2，繼續訓練。

在得到了DNN模型之後，傳統方式需要同時獲得語言模型(Language Model)，發音字典(Lexicon)，音素集合(Phoneset)等資源。通過動態或者靜態擴展解碼空間，使用維特比解碼(Viterbi Algorithm)方法，將語音檔轉換為文字檔案。

本發明實施方式提出一種聲學模型訓練方法，是一種並行的DNN聲學模型訓練框架，可以替代傳統DNN模型的訓練部分。

本發明實施方式針對一階優化SGD方法，在DNN的聲學模型訓練當中，提出了一種近似的並行化估計策略。即使用不同語音資料，同時訓練多個DNN模型，然後採用最優化策略，將這些模型融合起來，得到一個比得到的多個DNN模型性能更好的一個DNN模型。

圖2為根據本發明實施方式的聲學模型訓練方法流程圖。

如圖2所示，該方法包括：步驟201：建立深層神經網路模型初始模型；步驟202：將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；在這裏，可以將語音訓練資料隨機排列成語音檔序列；然後再將該語音檔序列劃分為N個不相交的資料子集合。

步驟203：融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。

在一個實施方式中，在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的所有層次共用融合權重。

在一個實施方式中，在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的各個層次的融合權重並不相同。

該方法進一步包括：收集M個訓練後聲學模型，其中M為至少為2的自然數；對於同一個測試語音資料，分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列；融合所述M個後驗概率序列，以得到語音識別結果。

在一個實施方式中，所述融合所述M個後驗概率序列包括：在融合所述M個後驗概率序列的過程中，每個後驗概率序列的所有綁定音素狀態共用融合權重。

在一個實施方式中，所述融合所述M個後驗概率序列包括：在融合所述M個後驗概率序列的過程中，每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。

基於上述分析，下面描述根據本發明實施方式訓練DNN聲學模型的示範性實例。

圖3為根據本發明實施方式的DNN聲學模型訓練流程圖。

首先要獲取一定的資源檔案，資源檔案包括：

要測試HMM-DNN模型的性能，需要獲取另外一批資源，這包括：

而且，可以需要根據CPU集群的數目等方式，確定N值。

如圖3所示，該流程包括：

步驟1：根據準備好的DNN模型拓撲結構，建立一個DNN模型的初始模型，並設定好SGD之中所需的參數，如學習率(learning rate)，動量項(Momentum)，mini-batch size以及待劃分子模型數目等。

步驟2：把所有的語音訓練資料隨機的排列成一個語音檔序列，再按照設定的子模型數目N，將語音檔劃分為N個不相交的子集合。對於每個資料子集，均調用SGD演算法從其分配的資料子集中，按照排列好的順序，按照最小訓練單元(mini-batch)的大小，逐次讀入特徵檔以及對應的狀態級標注檔，更新DNN模型的初始模型，得到N個DNN子模型。

步驟3：使用DNN模型融合的開發集合，調用模型融合模組通過最優化的方式將N個DNN子模型融合起來，得到DNN中間模型。

假定每個DNN子模型包含H個層次，每層包含的參數寫為Wnh，其中n表示第n個子模型，h表示第h個層次；n取[1,N]區間的整數，h取[1,H]區間的整數。

具體可以即時2個融合策略。

一個是模型級的融合，即每個子模型的所有層次共用一個融合權重。Wfinal,x=a1W1x+a2*W2x+...+aN*WNx；Wfinal,x表示最終融合之後權重的第x層，x取[1，H]之間的整數，另外權重滿足a1+a2+...+aN=1這個條件。

另一個策略是層次級融合，即每個子模型的各個層次參數的權重不相同。Wfinal,x=a1x*W1x+a2x*W2x+...+aNx*WNx，x表示第x層，取[1，H]之間的整數，權重滿足條件a1x+a2x+...+aNx=1。

可以使用各種優化手段來實現融合權重的估計，比如一階的梯度下降演算法，二階的LBFGS演算法。

步驟4，上述融合之後的DNN模型是一個DNN的中間模型，可以使用開發集合來交叉驗證(Cross Validation)這個中間模型是否最優。具體包括：使用開發集合的語音資料，在DNN中間模型上計算幀級的準確率。如果開發集合上的幀級準確率大於預先設置好的門限，就可以結束訓練，將DNN中間模型作為DNN最終模型；如果小於預先設置好的門限，則說明這個中間模型還不是最優模型，這時候就跳到步驟2，繼續訓練。

在根據上述流程得到DNN模型之後，可以利用傳統的HMM-DNN模型框架中的測試方法來進行。

優選地，本發明實施方式還提出訓練多個DNN聲學模型的演算法，其中各個DNN模型必須保證輸出的狀態數目是一致的，並且這些狀態的均來自同一個HMM-GMM模型。除了這個要求之外，各個DNN模型的拓撲結構(深層神經網路的層數，隱藏層節點數目)可以不同；訓練方式(比如採用傳統的DNN訓練方法或採用本發明實施方式提出的並行訓練方法)可以不同；訓練參數(學習率，動量項，mini-batch size等)設置可以不同；以及所採用的語音訓練資料可以不同。

圖4為根據本發明實施方式的DNN聲學模型測試流程圖。

如圖4所示，該方法包括：

步驟1：收集M個不同的DNN聲學模型，以及類似傳統HMM-DNN解碼過程中的所有資源檔案。

步驟2：對於同一個測試語音，分別使用M個DNN模型解碼出M個後驗概率的序列。

步驟3：利用開發集合，使將步驟2中得到的M個概率序列融合起來，得到最終的語音識別結果。

基於上述詳細分析，本發明實施方式還提出了一種聲學模型訓練裝置。

圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。

如圖5所示，聲學模型訓練裝置包括初始模型建立單元501、子模型獲取單元502和融合單元503，其中：初始模型建立單元501，用於建立深層神經網路模型初始模型；子模型獲取單元502，用於將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合單元503，用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。

在一個實施方式中：子模型獲取單元502，用於將語音訓練資料隨機排列成語音檔序列；將該語音檔序列劃分為N個不相交的資料子集合。

在一個實施方式中：融合單元503，用於在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的所有層次共用融合權重。

在一個實施方式中：融合單元503，用於在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的各個層次的融合權重並不相同。

在一個實施方式中，進一步包括測試單元504，其中：測試單元504，用於收集M個訓練後聲學模型，其中M為至少為2的自然數；對於同一個測試語音資料，分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列；融合所述M個後驗概率序列，以得到語音識別結果。

在一個實施方式中：測試單元504，用於在融合所述M個後驗概率序列的過程中，每個後驗概率序列的所有綁定音素狀態共用融合權重。

在一個實施方式中：測試單元504，用於在融合所述M個後驗概率序列的過程中，每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。

可以將圖2所示方法集成到各種語音識別的硬體實體當中。比如，可以集成到：功能手機、智慧手機、掌上電腦、個人電腦(PC)、平板電腦或個人數位助理(PDA)，等等設備之中。

實際上，可以通過多種形式來具體實施本發明實施方式所提出的聲學模型訓練方法。比如，可以遵循一定規範的應用程式介面，將聲學模型訓練方法編寫為安裝到自然語言處理伺服器中的插件程式，也可以將其封裝為應用程式以供用戶自行下載使用。當編寫為插件程式時，可以將其實施為ocx、dll、cab等多種插件形式。也可以通過Flash插件、RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術來實施本發明實施方式所提出的聲學模型訓練方法。

可以通過指令或指令集存儲的儲存方式將本發明實施方式所提出的聲學模型訓練方法存儲在各種存儲介質上。這些存儲介質包括但是不局限於：軟碟、光碟、DVD、硬碟、快閃記憶體、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。

另外，還可以將本發明實施方式所提出的聲學模型訓練方法應用到基於快閃記憶體(Nand flash)的存儲介質中，比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。

綜上所述，在本發明實施方式中，建立深層神經網路模型初始模型；將語音訓練資料劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。由此可見，應用本發明實施方式之後，提出了深層神經網路並行訓練方法，可以使用不同語音資料同時訓練多個深層神經網路子模型，然後將這些子模型融合起來，得到一個性能更好的訓練後聲學模型，同時極大的減少了DNN聲學模型的訓練時間。

而且，本發明實施方式可以使用多個深層神經網路模型解碼，得到每個深層神經網路模型輸出的後驗概率，再將若干個後驗概率通過最優化的方式融合，得到最終的語音識別輸出結果，這樣可以降低每個深層神經網路模型輸出的後驗概率的偏差，並提高語音識別的性能。

以上所述，僅為本發明的較佳實施例而已，並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

Claims

一種聲學模型訓練方法，其特徵在於，該方法包括：建立深層神經網路模型初始模型；將語音訓練資料劃隨機排列成語音檔序列，將該語音檔序列分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。
如申請專利範圍第1項所述的聲學模型訓練方法，其特徵在於，所述融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型包括：在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的所有層次共用融合權重。
如申請專利範圍第1項所述的聲學模型訓練方法，其特徵在於，所述融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型包括：在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的各個層次的融合權重並不相同。
如申請專利範圍第1項所述的聲學模型訓練方法，其特徵在於，該方法進一步包括：收集M個訓練後聲學模型，其中M為至少為2的自然數；對於同一個測試語音資料，分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列；融合所述M個後驗概率序列，以得到語音識別結果。
如申請專利範圍第4項所述的聲學模型訓練方法，其特徵在於，所述融合所述M個後驗概率序列包括：在融合所述M個後驗概率序列的過程中，每個後驗概率序列的所有綁定音素狀態共用融合權重。
如申請專利範圍第4項所述的聲學模型訓練方法，其特徵在於，所述融合所述M個後驗概率序列包括：在融合所述M個後驗概率序列的過程中，每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
一種聲學模型訓練裝置，其特徵在於，包括初始模型建立單元、子模型獲取單元和融合單元，其中：初始模型建立單元，用於建立深層神經網路模型初始模型；子模型獲取單元，用於將語音訓練資料隨機排列成語音檔序列，將該語音檔序列劃分為N個不相交的資料子集合，針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型，得到N個深層神經網路模型子模型，其中N為至少為2的自然數；融合單元，用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型，並當該深層神經網路模型中間模型符合預先設定的收斂條件時，判定該深層神經網路模型中間模型為訓練後聲學模型。
如申請專利範圍第7項所述的聲學模型訓練裝置，其特徵在於，融合單元，用於在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的所有層次共用融合權重。
如申請專利範圍第7項所述的聲學模型訓練裝置，其特徵在於，融合單元，用於在融合所述N個深層神經網路模型子模型的過程中，每個深層神經網路模型子模型的各個層次的融合權重並不相同。
如申請專利範圍第7項所述的聲學模型訓練裝置，其特徵在於，進一步包括測試單元，其中：測試單元，用於收集M個訓練後聲學模型，其中M為至少為2的自然數；對於同一個測試語音資料，分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列；融合所述M個後驗概率序列，以得到語音識別結果。
如申請專利範圍第10項所述的聲學模型訓練裝置，其特徵在於，測試單元，用於在融合所述M個後驗概率序列的過程中，每個後驗概率序列的所有綁定音素狀態共用融合權重。
如申請專利範圍第10項所述的聲學模型訓練裝置，其特徵在於，測試單元，用於在融合所述M個後驗概率序列的過程中，每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。