TWI530940B - 聲學模型訓練方法和裝置 - Google Patents

聲學模型訓練方法和裝置 Download PDF

Info

Publication number
TWI530940B
TWI530940B TW103123852A TW103123852A TWI530940B TW I530940 B TWI530940 B TW I530940B TW 103123852 A TW103123852 A TW 103123852A TW 103123852 A TW103123852 A TW 103123852A TW I530940 B TWI530940 B TW I530940B
Authority
TW
Taiwan
Prior art keywords
model
neural network
deep neural
training
acoustic
Prior art date
Application number
TW103123852A
Other languages
English (en)
Other versions
TW201503106A (zh
Inventor
王爾玉
盧鯉
張翔
劉海波
饒豐
李露
岳帥
陳波
Original Assignee
騰訊科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 騰訊科技(深圳)有限公司 filed Critical 騰訊科技(深圳)有限公司
Publication of TW201503106A publication Critical patent/TW201503106A/zh
Application granted granted Critical
Publication of TWI530940B publication Critical patent/TWI530940B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

聲學模型訓練方法和裝置
本發明實施方式涉及語音識別技術領域,更具體地,涉及一種聲學模型訓練方法和裝置。
語音識別是將語音信號轉為文本的一種技術,是一種方便的人機對話模式,現廣泛的應用於移動互聯網等領域中。語音識別是一個序列化的分類問題,目的是將收集到的一連串語音信號轉化為一串文本輸出。語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
傳統的語音識別系統一般分為三個模組,分別為:聲學模型,比如HMM-GMM系統框架描述的模型;語言模型,比如N-Grams描述的模型;解碼器,用於結合聲學模型、語言模型、發音字典等資源,將聲音信號轉換為文本資訊。隨著近年來深層神經網路(DNN)理論的成熟,解決了多層網路訓練的問題,同時也可以應用大量的非標注資料。在語音識別領域,DNN也顯示出強大的建模能力。無論是聲學模型訓練還是語言模型訓練,深層神經網路都體現出很好的實用效果。
在傳統DNN模型訓練中,隨機梯度下降演算法(Stochastic Gradient Descent,SGD)僅能夠順序地估計模型參數,不同語音資料之間存在時間上的依存關係,難以實現類似Map-Reduce一樣的多機並行化演算法,不容易做到加速DNN模型訓練的速度。為了達到更好的語音識別準確率,在實際應用中傾向于使用海量資料來訓練DNN模型,但是如果使用傳統的SGD方法,針對上千小時的資料訓練模型,往往需要幾個月的時間,難以滿足應用中即時性的要求。因此實現DNN模型的並行化估計,越來越有價值。
在研究領域中,人們首先引進類牛頓方法來估計DNN模 型,這是一種二階的優化方式。類牛頓演算法首先近似估計一個二階的Hessian矩陣的逆矩陣,然後利用這個矩陣來更新模型參數,這是一種訓練單元(batch)的訓練方式,不是線上(online)的訓練方式,即所有資料僅更新一次模型,資料之間不存在時間上的依存關係,這樣就可以將資料拆分成多塊,進而實現資料的並行化策略,以加速DNN模型參數估計。
雖然二階優化在理論上等同於一階參數優化,並且在迭代收 斂速度上快于傳統的SGD方法。但是在大資料中,二階參數優化方式往往需要很多細節部分的調節,在缺少先驗的知識下,二階優化往往沒有一階優化更健壯。具體的,對於語音識別中的DNN建模而言,這種演算法並不能達到SGD演算法的良好性能。
本發明實施方式提出一種聲學模型訓練方法,以提高聲學模 型的性能。
本發明實施方式提出一種聲學模型訓練裝置,以提高聲學模型的性能。
本發明實施方式的技術方案如下:一種聲學模型訓練方法,該方法包括:建立深層神經網路模型初始模型;將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。
一種聲學模型訓練裝置,包括初始模型建立單元、子模型獲取單元和融合單元,其中:初始模型建立單元,用於建立深層神經網路模型初始模型;子模型獲取單元,用於將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合單元,用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學 模型。
從上述技術方案可以看出,在本發明實施方式中,建立深層神經網路模型初始模型;將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。由此可見,應用本發明實施方式之後,提出了深層神經網路並行訓練方法,可以使用不同語音資料同時訓練多個深層神經網路子模型,然後將這些子模型融合起來,得到一個性能更好的訓練後聲學模型,同時可以大大縮小模型訓練所需的時間。
而且,本發明實施方式可以使用多個深層神經網路模型,解碼得到每個深層神經網路模型輸出的後驗概率,再將若干個後驗概率通過最優化的方式融合,得到最終的語音識別輸出結果,這樣可以降低每個深層神經網路模型輸出的後驗概率的偏差,並提高語音識別的性能。
201~203‧‧‧根據本發明實施方式的聲學模型訓練方法流程步驟
501‧‧‧初始模型建立單元
502‧‧‧子模型獲取單元
503‧‧‧融合單元
504‧‧‧測試單元
圖1為現有技術HMM-DNN系統的處理流程圖;圖2為根據本發明實施方式的聲學模型訓練方法流程圖;圖3為根據本發明實施方式的DNN聲學模型訓練流程圖; 圖4為根據本發明實施方式的DNN聲學模型測試流程圖;圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。
為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步的詳細描述。
本發明實施方式關注聲學模型的訓練,聲學模型的訓練是語音識別技術的核心步驟。
語音識別是一個序列化的分類問題,目的是將收集到的一連串語音信號轉化為一串文本輸出。由於語音信號存在時間上的關聯,即某一個時刻的語音資料與前面若干時刻的語音資料相關。為了類比語音資料產生的機制,馬爾科夫模型被引進語音識別領域當中。為了進一步簡化模型的複雜度,馬爾科夫模型的每一個當前狀態僅和前一個時刻的狀態有關。
對於每個特定的語言來說,由於語音信號其最基本的發音單元均是有限數目,觀測到一個特定發音的時候,其對應的文本並不一定相同,隱藏馬爾科夫模型(Hidden Markov Model,HMM)正好可以表達這一問題。在語音識別中,隱藏馬爾科夫模型作為最基本的描述語音資料產生機制的模型一直沿用至今。同時,由於語音信號存在著豐富的變化可能,同樣文本的語音,不同性別,不同地域,不同情緒,不同風格的人說出來,均存在著差異,為了描述這一差異,高斯混合模型(Gaussian Mixture Model,GMM)被引入語音識別領域。HMM-GMM的系統框架,主導語音識別領域多年,並在近年由於海量資料的引入,和互聯網技術的發展,逐 步可以滿足大量的現實需求。
對於HMM-GMM系統而言,訓練一個具有較高識別率的聲 學模型,需要大量有標注的語音資料,利用EM演算法估計HMM-GMM模型的各種參數。比如:對於中文而言,語音的發音字典包含了100多個不同的音素,而HMM-GMM模型通常使用的三因數(Triphone Model)模型,則根據前後文的音素,擴展出來100萬左右各不同的音素模型,這就需要大量的有標注的語音資料來對這些不同的音素模型進行建模。
由於可用的有標注的語音資料往往都是較少的,不可能涵蓋 所有的音素模型,對於某些音素而言,對應的資料往往是稀疏的。這種情況下,待估計的參數數目,要比估計資料多,就容易造成參數估計的不穩定,不能很好的類比語音資料的真實情況。
為了解決這一問題,提出決策樹方法。即根據不同音素的產 生機制以及可用的估計資料的多少,通過聚類的方式,將100萬個模型,聚類成為幾萬個模型,這樣就可以使得每一個模型類包含較多的資料,可以較為準確地估計模型類。這種聚類方法,是根據可用的語音資料,近似地對模型進行估計的一種方案。由於模型數目大大減少,每個模型類中,原有的模型特性會被同一類中其他模型的特性掩蓋掉,最終導致模型類只是一個均值模型,其類比參數的能力並不強大。
同時,HMM模型中包含有一個強假設:每個狀態至於前一 狀態有關。這一假設破壞了時間序列信號前後相關的特性。近年來,為了彌補這一假設,人們引進splice的補償方式,就是把當前的語音信號前後擴展幾幀,拼成一個大的向量信號,然後進行HMM-GMM模型的訓練,由於 拼接信號帶來了高維度的問題,這一問題更加加大了資料量不充足的問題,因此只能將這一高維信號進行降維操作,以達到資料和維度的平衡。這一操作難免引入資訊損耗,並不是一個合理的方案。
隨著近年來深層神經網路理論的成熟,解決了多層網路訓練的問題,同時也可以應用大量的非標注資料。在語音識別領域,DNN也顯示出強大的建模能力。無論是聲學模型訓練還是語言模型訓練,深層神經網路都體現出很好的實用效果。HMM-DNN識別框架逐漸成為現在語音識別技術的主流。
在傳統HMM-DNN模型訓練中,SGD演算法僅能夠順序估計模型參數(即假如可供訓練的語音資料一共有100萬條,SGD方法必須逐條使用,讀入第N條語音資料計算梯度;更新DNN模型;然後讀入第N+1條語音資料,利用上次得到的DNN模型基礎進行計算梯度,再一次更新DNN模型),不同語音資料之間存在時間上的依存關係,難以實現類似Map-Reduce一樣的多機並行化演算法,不容易做到加速DNN模型訓練的速度。
為了達到更好的語音識別準確率,在實際應用中傾向于使用海量資料來訓練DNN模型,但是如果使用傳統的SGD方法,上千小時的資料訓練模型,往往需要幾個月的時間,難以滿足應用中即時性的要求。因此實現DNN模型的並行化估計,越來越有價值。
同時由於神經網路仍然是一種基於資料驅動得到的統計模型,如果訓練資料中包含一定的傾向性,比如都是來自電話的語音資料,通過SGD演算法得到的最終DNN模型,還是會存在一定的偏差,它會更好的識別來自於電話通道的語音資料,而對其他來源的語音資料,識別率會 偏低。從原理上看,DNN網路輸出的是有關某個綁定音素狀態的後驗概率,這個後驗概率具有一定的概率分佈。它具有一個變化範圍,稱之為誤差。這個誤差造成語音識別中由電話風格語音資料訓練的DNN模型對來自其他風格的語音資料的識別結果較差。
本發明實施方式針對這個問題,同時還可以在解碼器端提出了一種降低該誤差的方法。即使用多個DNN模型解碼,得到每個DNN模型輸出的後驗概率,將若干個後驗概率通過最優化的方式融合,得到最終的語音識別輸出結果。這樣可以降低每個DNN模型輸出的後驗概率的偏差,提高語音識別的性能。
圖1為現有技術的HMM-DNN系統執行流程圖。
如圖1所示,傳統的HMM-DNN系統框架下,首先要訓練DNN聲學模型,然後利用DNN模型和HMM模型的拓撲結構,完成解碼操作。
要訓練DNN聲學模型,首先要獲取一定的資源檔案,資源檔案包括:
(1)、訓練資料的聲學特徵:把參與DNN模型訓練的資料(大約幾千小時)收集起來,通過聲學參數提取模組,獲得語音資料的聲學特徵,比如PLP,MFCC,FBank等。這些特徵可以較好的反應語音資料中包含的文本資訊(即語音識別的目的,將聲音轉換為文本)。
(2)、狀態級標注:使用HMM-GMM模型,對於全部訓練資料做強制性對齊(Alignment),得到某個語音特徵檔,不同時間節點的特徵對應的音素狀態。
(3)、HMM模型拓撲結構:即使用傳統HMM-GMM框架訓 練好的HMM模型,包含最終聚類的狀態數目,狀態綁定列表,音素綁定列表,以及狀態之間的轉移概率,這些都是在DNN模型訓練和測試中需要的資源。
(4)、DNN模型拓撲結構:輸入特徵前後擴展的幀數,DNN網路層次,DNN網路節點數目,啟動函數形式等資源。
要測試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
(5)、語言模型:即表徵各個詞之間的相互關係的檔。常用的語言模型為N-gram,即當前詞給定N-1個詞歷史的情況下的出現概率。
(6)、發音字典:每個詞如何發音,具體的是指每個詞對應的音素基本單元序列。
傳統的DNN模型的訓練流程如下:
步驟1,根據準備好的DNN模型拓撲結構,建立DNN模型的初始模型,並且設定SGD所需的參數,如學習率(learning rate),動量項(Momentum),最小訓練單元(mini-batch size)等。
步驟2,把所有的語音訓練資料隨機排列成一個語音檔序列,SGD演算法按照排列好的順序,按照最小訓練單元(mini-batch)的大小,逐次讀入特徵檔以及對應的狀態級標注檔,更新DNN模型。
步驟3,在全部語音訓練資料都參與DNN模型的更新之後,就完成了一次迭代訓練,這時候得到一個DNN的中間模型。需要使用開發集合來交叉驗證(Cross Validation)該中間模型是否最優。具體包括:使用開發集合的語音資料,在DNN中間模型上計算幀級的準確率;如果開發集 合上的準確率大於預先設置好的門限,就可以結束訓練,將DNN中間模型作為DNN最終模型;如果小於預先設置好的門限,則說明這個中間模型還不是最優模型,這時候就跳到步驟2,繼續訓練。
在得到了DNN模型之後,傳統方式需要同時獲得語言模型(Language Model),發音字典(Lexicon),音素集合(Phoneset)等資源。通過動態或者靜態擴展解碼空間,使用維特比解碼(Viterbi Algorithm)方法,將語音檔轉換為文字檔案。
本發明實施方式提出一種聲學模型訓練方法,是一種並行的DNN聲學模型訓練框架,可以替代傳統DNN模型的訓練部分。
本發明實施方式針對一階優化SGD方法,在DNN的聲學模型訓練當中,提出了一種近似的並行化估計策略。即使用不同語音資料,同時訓練多個DNN模型,然後採用最優化策略,將這些模型融合起來,得到一個比得到的多個DNN模型性能更好的一個DNN模型。
圖2為根據本發明實施方式的聲學模型訓練方法流程圖。
如圖2所示,該方法包括:步驟201:建立深層神經網路模型初始模型;步驟202:將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;在這裏,可以將語音訓練資料隨機排列成語音檔序列;然後再將該語音檔序列劃分為N個不相交的資料子集合。
步驟203:融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。
在一個實施方式中,在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的所有層次共用融合權重。
在一個實施方式中,在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的各個層次的融合權重並不相同。
該方法進一步包括:收集M個訓練後聲學模型,其中M為至少為2的自然數;對於同一個測試語音資料,分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列;融合所述M個後驗概率序列,以得到語音識別結果。
在一個實施方式中,所述融合所述M個後驗概率序列包括:在融合所述M個後驗概率序列的過程中,每個後驗概率序列的所有綁定音素狀態共用融合權重。
在一個實施方式中,所述融合所述M個後驗概率序列包括:在融合所述M個後驗概率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
基於上述分析,下面描述根據本發明實施方式訓練DNN聲學模型的示範性實例。
圖3為根據本發明實施方式的DNN聲學模型訓練流程圖。
首先要獲取一定的資源檔案,資源檔案包括:
(1)、訓練資料的聲學特徵:把參與DNN模型訓練的資料(大約幾千小時)收集起來,通過聲學參數提取模組,獲得語音資料的聲學特徵,比如PLP,MFCC,FBank等。這些特徵可以較好的反應語音資料中包含的文本資訊(即語音識別的目的,將聲音轉換為文本)。
(2)、狀態級標注:使用HMM-GMM模型,對於全部訓練資料做強制性對齊(Alignment),得到某個語音特徵檔,不同時間節點的特徵對應的音素狀態。
(3)、HMM模型拓撲結構:即使用傳統HMM-GMM框架訓練好的HMM模型,包含最終聚類的狀態數目,狀態綁定列表,音素綁定列表,以及狀態之間的轉移概率,這些都是在DNN模型訓練和測試中需要的資源。
(4)、DNN模型拓撲結構:輸入特徵前後擴展的幀數,DNN網路層次,DNN網路節點數目,啟動函數形式等資源。
要測試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
(5)、語言模型:即表徵各個詞之間的相互關係的檔。常用的語言模型為N-gram,即當前詞給定N-1個詞歷史的情況下的出現概率。
(6)、發音字典:每個詞如何發音,具體的是指每個詞對應的音素基本單元序列。
而且,可以需要根據CPU集群的數目等方式,確定N值。
如圖3所示,該流程包括:
步驟1:根據準備好的DNN模型拓撲結構,建立一個DNN模 型的初始模型,並設定好SGD之中所需的參數,如學習率(learning rate),動量項(Momentum),mini-batch size以及待劃分子模型數目等。
步驟2:把所有的語音訓練資料隨機的排列成一個語音檔序列,再按照設定的子模型數目N,將語音檔劃分為N個不相交的子集合。對於每個資料子集,均調用SGD演算法從其分配的資料子集中,按照排列好的順序,按照最小訓練單元(mini-batch)的大小,逐次讀入特徵檔以及對應的狀態級標注檔,更新DNN模型的初始模型,得到N個DNN子模型。
步驟3:使用DNN模型融合的開發集合,調用模型融合模組通過最優化的方式將N個DNN子模型融合起來,得到DNN中間模型。
假定每個DNN子模型包含H個層次,每層包含的參數寫為Wnh,其中n表示第n個子模型,h表示第h個層次;n取[1,N]區間的整數,h取[1,H]區間的整數。
具體可以即時2個融合策略。
一個是模型級的融合,即每個子模型的所有層次共用一個融合權重。Wfinal,x=a1W1x+a2*W2x+...+aN*WNx;Wfinal,x表示最終融合之後權重的第x層,x取[1,H]之間的整數,另外權重滿足a1+a2+...+aN=1這個條件。
另一個策略是層次級融合,即每個子模型的各個層次參數的權重不相同。Wfinal,x=a1x*W1x+a2x*W2x+...+aNx*WNx,x表示第x層,取[1,H]之間的整數,權重滿足條件a1x+a2x+...+aNx=1。
可以使用各種優化手段來實現融合權重的估計,比如一階的梯度下降演算法,二階的LBFGS演算法。
步驟4,上述融合之後的DNN模型是一個DNN的中間模型,可以使用開發集合來交叉驗證(Cross Validation)這個中間模型是否最優。具體包括:使用開發集合的語音資料,在DNN中間模型上計算幀級的準確率。如果開發集合上的幀級準確率大於預先設置好的門限,就可以結束訓練,將DNN中間模型作為DNN最終模型;如果小於預先設置好的門限,則說明這個中間模型還不是最優模型,這時候就跳到步驟2,繼續訓練。
在根據上述流程得到DNN模型之後,可以利用傳統的HMM-DNN模型框架中的測試方法來進行。
優選地,本發明實施方式還提出訓練多個DNN聲學模型的演算法,其中各個DNN模型必須保證輸出的狀態數目是一致的,並且這些狀態的均來自同一個HMM-GMM模型。除了這個要求之外,各個DNN模型的拓撲結構(深層神經網路的層數,隱藏層節點數目)可以不同;訓練方式(比如採用傳統的DNN訓練方法或採用本發明實施方式提出的並行訓練方法)可以不同;訓練參數(學習率,動量項,mini-batch size等)設置可以不同;以及所採用的語音訓練資料可以不同。
圖4為根據本發明實施方式的DNN聲學模型測試流程圖。
如圖4所示,該方法包括:
步驟1:收集M個不同的DNN聲學模型,以及類似傳統HMM-DNN解碼過程中的所有資源檔案。
步驟2:對於同一個測試語音,分別使用M個DNN模型解碼出M個後驗概率的序列。
步驟3:利用開發集合,使將步驟2中得到的M個概率序列融 合起來,得到最終的語音識別結果。
基於上述詳細分析,本發明實施方式還提出了一種聲學模型訓練裝置。
圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。
如圖5所示,聲學模型訓練裝置包括初始模型建立單元501、子模型獲取單元502和融合單元503,其中:初始模型建立單元501,用於建立深層神經網路模型初始模型;子模型獲取單元502,用於將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合單元503,用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。
在一個實施方式中:子模型獲取單元502,用於將語音訓練資料隨機排列成語音檔序列;將該語音檔序列劃分為N個不相交的資料子集合。
在一個實施方式中:融合單元503,用於在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的所有層次共用融合權重。
在一個實施方式中:融合單元503,用於在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的各個層次的融合權重並不相同。
在一個實施方式中,進一步包括測試單元504,其中:測試單元504,用於收集M個訓練後聲學模型,其中M為至少為2的自然數;對於同一個測試語音資料,分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列;融合所述M個後驗概率序列,以得到語音識別結果。
在一個實施方式中:測試單元504,用於在融合所述M個後驗概率序列的過程中,每個後驗概率序列的所有綁定音素狀態共用融合權重。
在一個實施方式中:測試單元504,用於在融合所述M個後驗概率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
可以將圖2所示方法集成到各種語音識別的硬體實體當中。比如,可以集成到:功能手機、智慧手機、掌上電腦、個人電腦(PC)、平板電腦或個人數位助理(PDA),等等設備之中。
實際上,可以通過多種形式來具體實施本發明實施方式所提出的聲學模型訓練方法。比如,可以遵循一定規範的應用程式介面,將聲學模型訓練方法編寫為安裝到自然語言處理伺服器中的插件程式,也可以將其封裝為應用程式以供用戶自行下載使用。當編寫為插件程式時,可以 將其實施為ocx、dll、cab等多種插件形式。也可以通過Flash插件、RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術來實施本發明實施方式所提出的聲學模型訓練方法。
可以通過指令或指令集存儲的儲存方式將本發明實施方式 所提出的聲學模型訓練方法存儲在各種存儲介質上。這些存儲介質包括但是不局限於:軟碟、光碟、DVD、硬碟、快閃記憶體、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
另外,還可以將本發明實施方式所提出的聲學模型訓練方法 應用到基於快閃記憶體(Nand flash)的存儲介質中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。
綜上所述,在本發明實施方式中,建立深層神經網路模型初 始模型;將語音訓練資料劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。由此可見,應用本發明實施方式之後,提出了深層神經網路並行訓練方法,可以使用不同語音資料同時訓練多個深層神經網路子模型,然後將這些子模型融合起來,得到一個性能更好的訓練後聲學模型,同時極大的減少了DNN聲學模型的訓練時間。
而且,本發明實施方式可以使用多個深層神經網路模型解 碼,得到每個深層神經網路模型輸出的後驗概率,再將若干個後驗概率通 過最優化的方式融合,得到最終的語音識別輸出結果,這樣可以降低每個深層神經網路模型輸出的後驗概率的偏差,並提高語音識別的性能。
以上所述,僅為本發明的較佳實施例而已,並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
201~203‧‧‧根據本發明實施方式的聲學模型訓練方法流程步驟

Claims (12)

  1. 一種聲學模型訓練方法,其特徵在於,該方法包括:建立深層神經網路模型初始模型;將語音訓練資料劃隨機排列成語音檔序列,將該語音檔序列分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。
  2. 如申請專利範圍第1項所述的聲學模型訓練方法,其特徵在於,所述融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型包括:在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的所有層次共用融合權重。
  3. 如申請專利範圍第1項所述的聲學模型訓練方法,其特徵在於,所述融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型包括:在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網 路模型子模型的各個層次的融合權重並不相同。
  4. 如申請專利範圍第1項所述的聲學模型訓練方法,其特徵在於,該方法進一步包括:收集M個訓練後聲學模型,其中M為至少為2的自然數;對於同一個測試語音資料,分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列;融合所述M個後驗概率序列,以得到語音識別結果。
  5. 如申請專利範圍第4項所述的聲學模型訓練方法,其特徵在於,所述融合所述M個後驗概率序列包括:在融合所述M個後驗概率序列的過程中,每個後驗概率序列的所有綁定音素狀態共用融合權重。
  6. 如申請專利範圍第4項所述的聲學模型訓練方法,其特徵在於,所述融合所述M個後驗概率序列包括:在融合所述M個後驗概率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
  7. 一種聲學模型訓練裝置,其特徵在於,包括初始模型建立單元、子模型獲取單元和融合單元,其中:初始模型建立單元,用於建立深層神經網路模型初始模型; 子模型獲取單元,用於將語音訓練資料隨機排列成語音檔序列,將該語音檔序列劃分為N個不相交的資料子集合,針對每個資料子集合利用隨機梯度下降演算法更新所述深層神經網路模型初始模型,得到N個深層神經網路模型子模型,其中N為至少為2的自然數;融合單元,用於融合所述N個深層神經網路模型子模型以得到深層神經網路模型中間模型,並當該深層神經網路模型中間模型符合預先設定的收斂條件時,判定該深層神經網路模型中間模型為訓練後聲學模型。
  8. 如申請專利範圍第7項所述的聲學模型訓練裝置,其特徵在於,融合單元,用於在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的所有層次共用融合權重。
  9. 如申請專利範圍第7項所述的聲學模型訓練裝置,其特徵在於,融合單元,用於在融合所述N個深層神經網路模型子模型的過程中,每個深層神經網路模型子模型的各個層次的融合權重並不相同。
  10. 如申請專利範圍第7項所述的聲學模型訓練裝置,其特徵在於,進一步包括測試單元,其中:測試單元,用於收集M個訓練後聲學模型,其中M為至少為2的自然數;對於同一個測試語音資料,分別使用所述M個訓練後聲學模型解碼出M個後驗概率序列;融合所述M個後驗概率序列,以得到語音識 別結果。
  11. 如申請專利範圍第10項所述的聲學模型訓練裝置,其特徵在於,測試單元,用於在融合所述M個後驗概率序列的過程中,每個後驗概率序列的所有綁定音素狀態共用融合權重。
  12. 如申請專利範圍第10項所述的聲學模型訓練裝置,其特徵在於,測試單元,用於在融合所述M個後驗概率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
TW103123852A 2013-07-10 2014-07-10 聲學模型訓練方法和裝置 TWI530940B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310288097.6A CN104143327B (zh) 2013-07-10 2013-07-10 一种声学模型训练方法和装置

Publications (2)

Publication Number Publication Date
TW201503106A TW201503106A (zh) 2015-01-16
TWI530940B true TWI530940B (zh) 2016-04-21

Family

ID=51852485

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103123852A TWI530940B (zh) 2013-07-10 2014-07-10 聲學模型訓練方法和裝置

Country Status (4)

Country Link
CN (1) CN104143327B (zh)
HK (1) HK1199672A1 (zh)
TW (1) TWI530940B (zh)
WO (1) WO2015003436A1 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
US10083395B2 (en) 2015-05-21 2018-09-25 Google Llc Batch processing in a neural network processor
CN106297774B (zh) * 2015-05-29 2019-07-09 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及系统
JP5816771B1 (ja) * 2015-06-08 2015-11-18 株式会社Preferred Networks 学習装置ユニット
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
WO2017166155A1 (zh) * 2016-03-31 2017-10-05 富士通株式会社 一种对神经网络模型进行训练的方法、装置及电子设备
CN107292385A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种类Alexnet网络的模型训练方法和装置
CN106228980B (zh) * 2016-07-21 2019-07-05 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106504741B (zh) * 2016-09-18 2019-10-25 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
DE112016007312T5 (de) * 2016-10-03 2019-07-04 Mitsubishi Electric Corporation Netzwerk-bildungsvorrichtung und netzwerk-bildungsverfahren
WO2018125264A1 (en) * 2016-12-30 2018-07-05 Google Llc Assessing accuracy of a machine learning model
US11062226B2 (en) 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element
US10922627B2 (en) 2017-06-15 2021-02-16 Microsoft Technology Licensing, Llc Determining a course of action based on aggregated data
US10503580B2 (en) 2017-06-15 2019-12-10 Microsoft Technology Licensing, Llc Determining a likelihood of a resource experiencing a problem based on telemetry data
US10805317B2 (en) 2017-06-15 2020-10-13 Microsoft Technology Licensing, Llc Implementing network security measures in response to a detected cyber attack
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN109522914A (zh) * 2017-09-19 2019-03-26 中国科学院沈阳自动化研究所 一种基于图像的模型融合的神经网络结构训练方法
KR102610820B1 (ko) * 2017-09-27 2023-12-06 삼성전자주식회사 뉴럴 네트워크 시스템 및 뉴럴 네트워크 시스템의 동작방법
US11100399B2 (en) * 2017-11-21 2021-08-24 International Business Machines Corporation Feature extraction using multi-task learning
EP3502975A1 (en) 2017-12-20 2019-06-26 Fujitsu Limited Methods and apparatus for model parallelism in artificial neural networks
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN110472223A (zh) * 2018-05-10 2019-11-19 北京搜狗科技发展有限公司 一种输入配置方法、装置和电子设备
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
CN108846095A (zh) * 2018-06-15 2018-11-20 联想(北京)有限公司 一种数据处理方法及装置
CN111063338B (zh) * 2018-09-29 2023-09-19 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
EP3640856A1 (en) 2018-10-19 2020-04-22 Fujitsu Limited A method, apparatus and computer program to carry out a training procedure in a convolutional neural network
CN109599093B (zh) * 2018-10-26 2021-11-26 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN111105028B (zh) * 2018-10-26 2023-10-24 杭州海康威视数字技术股份有限公司 一种神经网络的训练方法、装置及序列预测方法
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN109657793B (zh) * 2018-12-26 2020-09-22 广州小狗机器人技术有限公司 模型训练方法及装置、存储介质及电子设备
CN111783932A (zh) * 2019-04-03 2020-10-16 华为技术有限公司 训练神经网络的方法和装置
CN112068854B (zh) * 2019-06-10 2023-09-01 杭州海康威视数字技术股份有限公司 智能设备算法更新系统、智能设备及平台服务器
KR102270169B1 (ko) * 2019-07-26 2021-06-25 주식회사 수아랩 데이터 관리 방법
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN110600020B (zh) * 2019-09-12 2022-05-17 上海依图信息技术有限公司 一种梯度传输方法及装置
CN111141412A (zh) * 2019-12-25 2020-05-12 深圳供电局有限公司 电缆温度和防盗的双监测方法、系统和可读存储介质
CN111243574B (zh) * 2020-01-13 2023-01-03 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
CN111275170B (zh) * 2020-01-19 2023-11-24 腾讯科技(深圳)有限公司 一种模型训练方法和相关装置
CN111833851B (zh) * 2020-06-16 2021-03-16 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法
CN113935390A (zh) * 2020-06-29 2022-01-14 中兴通讯股份有限公司 数据处理方法、系统、设备及存储介质
CN111833844A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 用于语音识别和语种分类的混合模型的训练方法及系统
CN112288686B (zh) * 2020-07-29 2023-12-19 深圳市智影医疗科技有限公司 一种模型训练方法、装置、电子设备和存储介质
CN112597823A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 注意力识别方法、装置、电子设备及存储介质
CN112819155B (zh) * 2021-01-22 2022-09-16 中国人民解放军国防科技大学 应用于边缘设备的深度神经网络模型分级压缩方法及装置
CN114911596B (zh) * 2022-05-16 2023-04-28 北京百度网讯科技有限公司 针对模型训练的调度方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI103305B1 (fi) * 1997-05-29 1999-05-31 Nokia Oy Ab Assosiatiivinen neuroverkko
US8489529B2 (en) * 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
CN102982809B (zh) * 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统

Also Published As

Publication number Publication date
HK1199672A1 (zh) 2015-07-10
CN104143327A (zh) 2014-11-12
WO2015003436A1 (en) 2015-01-15
CN104143327B (zh) 2015-12-09
TW201503106A (zh) 2015-01-16

Similar Documents

Publication Publication Date Title
TWI530940B (zh) 聲學模型訓練方法和裝置
US11664020B2 (en) Speech recognition method and apparatus
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN107408111B (zh) 端对端语音识别
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
US10714076B2 (en) Initialization of CTC speech recognition with standard HMM
Frankel et al. Articulatory feature recognition using dynamic Bayesian networks
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
EP3076389A1 (en) Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
KR20190136578A (ko) 음성 인식 방법 및 장치
Jeon et al. Automatic prosodic event detection using a novel labeling and selection method in co-training
Wester et al. Asynchronous articulatory feature recognition using dynamic Bayesian networks
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
Deng Design and learning of output representations for speech recognition
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Du et al. [Retracted] English Phrase Speech Recognition Based on Continuous Speech Recognition Algorithm and Word Tree Constraints
Nada et al. Lightweight toxicity detection in spoken language: A transformer-based approach for edge devices
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN115116436A (zh) 解码方法和解码设备
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
Buthpitiya et al. A parallel implementation of viterbi training for acoustic models using graphics processing units
Rao et al. Improved blstm rnn based accent speech recognition using multi-task learning and accent embeddings
Li et al. Grammar-based semi-supervised incremental learning in automatic speech recognition and labeling
Rasipuram et al. Probabilistic lexical modeling and unsupervised training for zero-resourced ASR