TWI578307B

TWI578307B - 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法

Info

Publication number: TWI578307B
Application number: TW105116576A
Authority: TW
Inventors: Toshiyuki Hanazawa
Original assignee: Mitsubishi Electric Corp
Priority date: 2016-05-20
Filing date: 2016-05-27
Publication date: 2017-04-11
Also published as: TW201742049A; GB201816576D0; JPWO2017199416A1; US20190096392A1; WO2017199416A1; GB2564607B; JP6391895B2; CN109155128A; GB2564607A; US10418030B2; CN109155128B

Description

音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法

本發明係關於聲音辨識裝置及聲音辨識方法，其使用學習用於聲音辨識的音響模式之音響模式學習裝置、音響模式學習方法、及音響模式，以辨識輸入的聲音。

近年來，聲音辨識的主流為，基於用已輸入聲音的頻率樣式作為特徵向量的統計手法，進行樣式匹配的方式。在此種方式中，係在用事前大量的說話者發出的聲音資料的頻率樣式之特徵向量將該特徵向量之統計特徵模式化後的音響模式、以及已輸入之聲音的特徵向量之間進行樣式匹配，藉此以實現聲音辨識。因此，使用頻率特性相異的各種麥克風收錄大量說話者說話的聲音做為學習資料，以學習音響模式，藉此，這些資料的特徵向量統計地反映在音響模式內，能夠建立對於各種麥克風或說話者的穩固的音響模式。另一方面，也有可能使音響模式表現的特徵向量變得分散，而降低識別性能。

相反地，也有減小音響模式的分散，並提高識別精度的CMN(Cepstral Mean Normalization)方法。其係為，在音響模式學習時，對於包含於學習資料的各說話者的聲音資料的特徵向量，針對各說話者求取該說話者的特徵向量的平均向量，並將從各說話者的特徵向量減去該平均向量所得之差做為學習資料。該平均向量係表示收錄該說話者的聲音所使用的麥克風之頻率特性以及該說話者的聲音之頻率樣式的平均特徵。因此，從各說話者的特徵向量減去該平均向量，能夠吸收掉一些麥克風或說話者的差異。使用此學習資料，當學習例如「」的母音之音響模式時，能夠更精確地將減少了麥克風或說話者的不同而造成之影響的「」音本身所具有的特徵向量模式化，而能達到提高辨識性能的效果。不過，執行CMN用以學習的音響模式進行聲音辨識時，必須在聲音辨識時求出用某些方法輸入聲音的平均向量，並從輸入聲音將其扣除。

在專利文獻1揭露，採用HMM(Hidden Markov Model)作為音響模式的情況下，在學習時不執行CMN，在學習後從所得到的HMM參數求出近似的平均向量並執行CMN的方法。其教示了將方法與音響模式的噪音適應化組合，能夠快速得到對於麥克風的頻率特性之差異等的乘法性變形、以及周圍噪音等地加法性變形兩者都穩固的音響模式之技術。專利文獻1中教示的算出輸入聲音之平均向量的方法為，針對輸入聲音的1發話而從1發話全體求出平均向量，或者在聲音辨識時從前次發話為止的特徵向量算出平均向量的方法。

專利文獻1：日本特開2006-349723號公報

不過，專利文獻1的方法，必須在1發話結束後才能算出1發話全體的平均向量，辨識處理也必須在1發話結束後才能實施，因此有辨識的回應速度變慢的課題。

本發明之目的在於解決上述課題。亦即，其目的在於，即使有麥克風頻率特性的差異或周圍的噪音，能夠確保聲音辨識的精度而不會延遲對第1次發話的辨識結束時間。

本發明之音響模式學習裝置的特徵在於包括：各說話者學習資料製作裝置，針對分析複數說話者的發話資料所得到的特徵向量，從各說話者的各該特徵向量減去各說話者的所有的該特徵向量的平均向量，以製作各說話者的學習資料；所有說話者學習資料製作裝置，從所有說話者的各該特徵向量減去所有說話者的所有的該特徵向量的平均向量，以製作所有說話者的學習資料；及學習裝置，使用該各說話者的學習資料及該等所有說話者的學習資料以學習音響模式。

本發明之聲音辨識裝置的特徵在於包括：分析裝置，分析已輸入的聲音並輸出第1特徵向量；修正裝置，判斷該聲音是否為第1次發話，若為第1次發話，則對於分析複數說話者的發話資料所得到的第2特徵向量，以所有說話者的所有的該第2特徵向量的平均向量作為修正向量，若非為第1次發話，則以前一次發話為止的該第1特徵向量的平均向量作為修正向量，輸出從該第1特徵向量減去該修正向量後的修正後向量；及核對裝置，核對音響模式及該修正後向量以輸出該聲音的辨識結果，其中該音響模式係使用各說話者的該第2特徵向量減去各說話者的所有的該第2特徵向量的平均向量而製作得到的各說話者的學習資料、以及所有說話者的該第2特徵向量減去所有說話者的所有的該第2特徵向量的平均向量而製作得到的所有說話者的學習資料學習而得。

本發明的音響模式學習裝置，係使用從各說話者的各特徵向量減去各說話者的所有的特徵向量的平均向量所製作出的各說話者的學習資料、以及從所有說話者的各特徵向量減去所有說話者的所有的特徵向量的平均向量所製作所有說話者的學習資料，以學習音響模式，因為是使用使各說話者的學習資料的特徵向量和概略值一致的所有說話者的學習資料來學習音響模式，所以對於第1次發話也不會延遲其辨識結束時間並學習以各種麥克風或說話者為學習資料而確保了辨識精度的音響模式。另外，對於第2次發話之後執行CMN，藉此能夠建立吸收由於麥克風或說話者的不同而造成的特徵向量之變動的音響模式。

另外，本發明的聲音辨識裝置，若已輸入的聲音為第1次發話，則以所有說話者的所有的特徵向量的平均向量作為修正向量，將從已輸入聲音的特徵向量減去修正向量後的修正後向量與該音響模式進行核對以輸出已輸入之聲音的辨識結果，因此對於第1次發話也不會延遲其辨識結束時間並能夠確保了以各種麥克風或說話者為學習資料的聲音辨識的精確度。另外，對於第2次發話之後執行CMN，藉此能夠吸收由於麥克風或說話者的不同而造成的特徵向量之變動並得到已輸入之聲音的辨識結果。

1‧‧‧音響模式學習裝置

2‧‧‧學習資料

3‧‧‧各說話者學習資料製作裝置

4‧‧‧算出裝置

5‧‧‧所有說話者學習資料製作裝置

6‧‧‧音響模式

7‧‧‧學習裝置

8‧‧‧所有說話者平均向量

9‧‧‧第1記憶裝置

10‧‧‧第2記憶裝置

11‧‧‧處理器

12‧‧‧記憶體

13‧‧‧聲音辨識裝置

14‧‧‧音響分析裝置

15‧‧‧修正裝置

16‧‧‧核對裝置

17‧‧‧輸入聲音

18‧‧‧辨識結果

第1圖為本發明實施形態1中音響模式學習裝置1的構成圖。

第2圖為本發明實施形態1中音響模式學習裝置1的硬體構成圖。

第3圖為顯示本發明實施形態1中各說話者學習資料製作裝置3之動作的流程圖。

第4圖為顯示本發明實施形態1中算出裝置4的動作之流程圖。

第5圖為顯示本發明實施形態1中所有說話者學習資料製作裝置5之動作的流程圖。

第6圖為顯示本發明實施形態1中學習裝置7之動作的流程圖。

第7圖為本發明實施形態1中聲音辨識裝置13的構成圖。

第8圖為顯示本發明實施形態1中修正裝置15之動作的流程圖。

第9圖為顯示本發明實施形態1中修正裝置15之動作的流程圖。

以下，基於圖式詳細說明本發明之音響模式學習裝置、音響模式學習方法、聲音辨識裝置、及聲音辨識方法的實施形態。再者，本發明並不限定於此實施形態。

實施形態1

第1圖為本發明實施形態1中音響模式學習裝置1的構成圖。

在第1圖中，音響模式學習裝置1由下列構成：各說話者學習資料製作裝置3，輸入將複數說話者發話資料進行音響分析而得到的特徵向量(第2特徵向量)所構成的學習資料2，對各說話者的發話資料之特徵向量進行CMN以製作各說話者學習資料；算出裝置4，算出所有說話者的特徵向量之平均向量；所有說話者學習資料製作裝置5，使用算出裝置4所算出的平均向量，將所有說話者的特徵向量進行CMN，以製作所有說話者學習資料；以及學習裝置7，使用各說話者學習資料和所有說話者學習資料以學習音響模式6。另外，音響模式學習裝置1具備：第1記憶裝置9，記憶由各說話者學習資料製作裝置3所製作的各說話者學習資料；以及第2記憶裝置10，記憶由所有說話者學習資料製作裝置5所製作的所有說話者學習資料。

學習資料2為輸入到音響模式學習裝置1的輸入資料，其係由對於頻率特性相異的各種麥克風所收錄的複數說話者的發話資料進行音響分析而得到的特徵向量所構成。另外，假設該說話者中的每個人都有複數筆發話資料。特徵向量為表示聲音之頻率樣式的頻譜特徵之向量。本實施形態中係使用例如MFCC(Mel Frequency Cepstral Coefficient)的1到12次元的資料。再者，由於是將聲音資料切割為稱之為訊框的每10毫秒的區間，再針對各訊框實施音響分析而得到特徵向量，因此從1發話的聲音資料中可以得到複數個特徵向量。例如若為1秒的發話，則因為1秒=1000毫秒，所以能夠得到1000毫秒/10毫秒=100個特徵向量。如前所述，每個說話者都有複數個發話，所以在學習資料中包含了各說話者之發話資料量對應的複數個特徵向量。

各說話者學習資料製作裝置3，從已輸入的學習資料2中針對各說話者算出所有的特徵向量的平均向量。然後，進行從各說話者的各特徵向量減去各說話者的平均向量之CMN。繼之，製作由已進行CMN的特徵向量構成的各說話者的學習資料(各說話者學習資料)，並將所製作的各說話者學習資料輸出到第1記憶裝置9進行記憶。

算出裝置4，從已輸入的學習資料2算出所有說話者的所有的特徵向量的平均，並將之作為所有說話者平均向量輸出至所有說話者學習資料製作裝置5。另外，從音響模式學習裝置1輸出已算出的所有說話者平均向量。在此所輸出的所有說話者平均向量係用於後述的聲音辨識裝置。

所有說話者學習資料製作裝置5，從所有說話者的各特徵向量減去算出裝置4所算出的所有說話者平均向量以進行CMN。繼之，製作由已進行CMN的特徵向量構成的所有說話者的學習資料(所有說話者學習資料)，並將所製作的所有說話者學習資料輸出到第2記憶裝置10記憶之。

學習裝置7，使用記憶於第1記憶裝置9的各說話者學習資料、及記憶於第2記憶裝置10的所有說話者學習資料以學習音響模式6，並將所學習的音響模式6從音響模式學習裝置1輸出。

音響模式學習裝置1由處理器11及記憶體12構成。音響模式學習裝置1的各說話者學習資料製作裝置3、算出裝置4、所有說話者學習資料製作裝置5、及學習裝置7係藉由處理器 11執行記憶在記憶體12中的程式而實現。另外，音響模式學習裝置1的第1記憶裝置9及第2記憶裝置10為記憶體12，亦可以為例如磁碟儲存器等。

繼之，說明音響模式學習裝置1的動作。

首先，說明各說話者學習資料製作裝置3的動作。

第3圖為顯示本發明實施形態1中各說話者學習資料製作裝置3的動作之流程圖。

各說話者學習資料製作裝置3，從學習資料2中取得各說話者的特徵向量(步驟(以下表示為ST)1)。繼之，算出各說話者的所有的特徵向量的平均向量(ST2)。繼之，執行從各說話者的各特徵向量減去已算出的各說話者的平均向量的CMN，製作各說話者的學習資料(各說話者學習資料)，將之輸出至第1記憶裝置9並記憶之。繼之，判斷是否已製作所有的說話者的各說話者學習資料(ST4)，若尚未製作則進行下一個說話者的處理(ST5)，若已製作則結束。

繼之，說明算出裝置4的動作。

第4圖為顯示本發明實施形態1中算出裝置的動作之流程圖。

算出裝置4，從學習資料2中取得所有的說話者的特徵向量(ST21)，算出學習資料2全體亦即所有說話者的所有的特徵向量的平均，將之作為所有說話者平均向量8從音響模式學習裝置1輸出。另外，將所有說話者平均向量8輸出至所有說話者學習資料製作裝置5(ST22)。

繼之，說明所有說話者學習資料製作裝置5的動作。

第5圖為顯示本發明實施形態1中所有說話者學習資料製作裝置5的動作之流程圖。

所有說話者學習資料製作裝置5，從學習資料2取得所有說話者的所有的特徵向量(所有說話者特徵向量)(ST31)。並從算出裝置4取得所有說話者平均向量8(ST32)，進行從所有說話者特徵向量減去所有說話者平均向量8的CMN，製作所有說話者的學習資料(所有說話者學習資料)，將之輸出至第2記憶裝置10並記憶之(ST33)。

像這樣，從所有說話者的所有的特徵向量減去所有說話者平均向量8，能夠大致消除與各說話者學習資料的不整合。再者，在此所謂的不整合係為，各說話者學習資料有針對各說話者減去平均向量，依此和未進行減算的特徵向量的值有明顯差異。若直接使用這兩者來學習音響模式6的話，無法算出正確的統計量算出，因此從所有說話者的特徵向量減去已算出的所有說話者平均向量8以製作所有說話者學習資料。此所有說話者學習資料，雖然並沒有吸收所有說話者平均向量的變動，但藉由減去所有說話者平均向量，能夠使其與各說話者學習資料之特徵向量的概略值一致，而能夠使用兩者來學習音響模式。

繼之，說明學習裝置7的動作。

第6圖為顯示本發明實施形態1中學習裝置7的動作之流程圖。

學習裝置7，從第1記憶裝置9取得各說話者學習資料(ST41)。另外，從第2記憶裝置10取得所有說話者學習資料(ST42)。繼之，使用各說話者學習資料及所有說話者學習資料兩方的學習資料學習音響模式，並從音響模式學習裝置1輸出(ST43)。再者，學習裝置7，在音響模式6為HMM的情況下，使用最大似然估計法(maximum likelihood estimation)學習音響模式6。或者，也可以使用其他的學習方法，例如相互資訊量最大化估計等的學習方法。另外，在音響模式6為神經網路(neural network)的情況下，可以例如交叉熵(cross entropy)最小化基準使用誤差逆傳播法進行學習。

另外，音響模式6模式化的聲音單位為例如音素。所謂的音素為母音及子音，例如「」的音係由子音/k/和母音/a/構成。在此的//為表示音素時所使用的記號。若事先對所有的音素進行音響模式的學習就可以連結音素的音響模式，藉此能夠將所有的語彙的特徵向量模式化。

說明如上述之學習的效果。

各說話者學習資料，能夠抑制由麥克風或說話者的不同而造成的特徵向量的變動並進行高精度的音響模式學習，達到提高辨識性能的效果。另一方面，所有說話者學習資料，因為只是對學習資料的特徵向量進行相同的減算，所以和原來的學習資料具有相同的特徵。原來的學習資料包含使用各種頻率特性的麥克風所收錄的說話者的特徵向量，所以具有建立對於麥克風或說話者的不同都穩固的音響模式之效果。

另外，從所有說話者的特徵向量減去所有說話者平均向量，能夠使得所有說話者的特徵向量和各說話者學習資料的特徵向量的概略值一致，能夠學習具有雙方的學習資料之特徵的音響模式。因此，對於輸入聲音，能夠建立對於難以實施CMN(亦即平均向量的減算)的第1次發話都具有高穩固性的音響模式。對於第2次發話之後則進行CMN，藉此建立之音響模式能夠吸收由麥克風或說話者的不同所造成的特徵向量的變動。

繼之，說明使用上述音響模式之聲音辨識裝置。

第7圖為本發明實施形態1中聲音辨識裝置13的構成圖。

聲音辨識裝置13由下列構成：音響分析裝置14、修正裝置15、核對裝置16、所有說話者平均向量8、音響模式6a。音響分析裝置14相當於分析裝置。

而且，聲音辨識裝置13的硬體構成可以為與第2圖所示之音響模式學習裝置1相同的構成。亦即，聲音辨識裝置13由第2圖所示之處理器11和記憶體12構成。具體言之，音響分析裝置14、修正裝置15、核對裝置16係由處理器11執行記憶在記憶體12中的程式而實現。另外，所有說話者平均向量8和音響模式6a則由記憶體12構成。

聲音辨識裝置13，得到分析音響分析裝置14所輸入的聲音(輸入聲音)17而得到的特徵向量(第1特徵向量)。繼之，在修正裝置15中，判斷輸入聲音17是否為第1次發話，若為第1次發話，則以音響模式學習裝置1中所製作的所有說話者平均向量8作為修正向量。再者，從音響分析裝置14所分析得到的特徵向量減去修正向量以作為修正後向量，暫時記憶修正前的特徵向量(修正前特徵向量)。

另外，若輸入聲音17不是第1次發話，則以暫時記憶的前一次發話為止的修正前特徵向量的平均向量作為修正向量，從音響分析裝置14分析得到的特徵向量減去修正向量作為修正後向量。繼之，核對裝置16將修正後向量與音響模式學習裝置1所學習的音響模式進行核對以辨識輸入聲音 17，並輸出辨識結果18。

音響分析裝置14分析輸入聲音17，並將分析得到的特徵向量輸出至修正裝置15。

修正裝置15判斷輸入聲音17是否為第1次發話。若輸入聲音17為第1次發話，以所有說話者平均向量8為修正向量，從輸入聲音17的特徵向量減去修正向量以作為修正後向量。繼之，將修正後向量輸出至核對裝置16，暫時記憶修正前特徵向量。

另外，若輸入聲音17並非第1次發話，則以暫時記憶的前一次發話為止的修正前特徵向量的平均向量作為修正向量，從輸入聲音17的特徵向量減去修正向量以作為修正後向量。繼之，將修正後向量輸出至核對裝置16，暫時記憶修正前的特徵向量。

核對裝置16，將從修正裝置15輸入的修正後向量與音響模式6a核對以辨識輸入聲音17，並輸出辨識結果18。

音響模式6a係為，由音響模式學習裝置1使用各說話者學習資料和所有說話者學習資料而學習的音響模式6a，其被記憶在記憶體12中。音響模式6a被核對裝置16參照。例如，以都道府縣名為辨識對象語彙，進行詞彙的聲音辨識的情況下，音響模式6a中，儲存了與本發明的音響模式學習裝置1所學習的音素單位的音響模式連結的詞彙單位之音響模式。例如、[東京(--)]這個詞彙的音響模式由將音素/t/,/o/,/o/,/k/,/j/,/o/,/o/的音素的音響模式依序連結的全都道府縣名之詞彙的音響模式所構成。

所有說話者平均向量8係為，音響模式學習裝置1 的所有說話者學習資料製作裝置5所製作的所有說話者平均向量8，其係記憶於記憶體12中。所有說話者平均向量8被修正裝置15參照。

繼之說明聲音辨識裝置13的動作。

首先，音響分析裝置14，將輸入聲音17進行音響分析，輸出特徵向量。此特徵向量為與本發明的音響模式學習裝置1輸入的學習資料相同，在本實施形態中為MFCC的1到12次元的資料。

繼之，修正裝置15判斷輸入聲音17是否為第1次發話，依據其是否為第1次發話來修正從音響分析裝置14輸入的特徵向量。繼之，將修正後的特徵向量輸出至核對裝置16，暫時記憶修正前的特徵向量。

以下說明修正裝置15之動作的細節。

第8圖為顯示本發明實施形態1中修正裝置15的動作之流程圖。

首先，取得記憶在記憶體12中的所有說話者平均向量8(ST51)。繼之，判斷輸入聲音17是否為第1次發話(ST52)。修正裝置15，針對輸入聲音17，對各說話者計數其發話次數，依據所計數的發話次數判斷是否為第1次發話。或者，修正裝置15亦可使用內部暫時記憶的發話為第1次還是第2次以後的資訊，來判斷其是否為第1次發話。

繼之，若輸入聲音17為第1次發話，以所有說話者平均向量8作為修正向量(ST53)。再者，以執行了從音響分析裝置14得到的特徵向量減去修正向量的CMN的特徵向量作為修正後向量，將之輸出至核對裝置16(ST54)。再者，將減算前的特徵向量作為修正前向量，並暫時記憶之(ST55)。

另一方面，若輸入聲音17並非第1次發話(若為第2次發話之後)，則執行CMN以算出修正後的向量。例如，求出ST55中暫時記憶的前一次發話為止的修正前向量的平均以作為平均向量，並以所求出的平均向量作為修正向量(ST56)。之後，和第1次發話相同，執行ST54、ST55的處理。

如前所述，音響模式6a的學習所使用的所有說話者學習資料，係藉由從學習資料的所有說話者的各特徵向量減去所有說話者平均向量8而製作出，所以，在聲音辨識時也從輸入聲音17的特徵向量減去所有說話者平均向量，能夠發揮使輸入聲音17的特徵向量與學習時的特徵向量整合的效果。另外，使用所有說話者平均向量8作為修正向量的情況下，無法獲致執行CMN的效果，亦即吸收因為麥克風或說話者的不同而造成之特徵向量的變動之效果，但本發明的音響模式因為是以各種麥克風或說話者做為學習資料，所以對於第1次發話也能夠在不延遲聲音辨識的結束時間的情況下實現某種程度穩固的聲音辨識。

再者，第2次發話之後的修正向量，也可以將修正裝置15中暫時記憶的前次發話為止的特徵向量的平均向量和1發話前已使用的修正向量加權平均以作為修正向量。

第9圖為顯示本發明實施形態1中修正裝置15的動作之流程圖。

在第9圖中，與第8圖相同動作之處，係標示以與第8圖相同的號碼。第9圖和第8圖之差異僅在於，第8圖的ST55 的處理被置換為第9圖的ST55a，ST56的處理被置換為ST56a。

ST55a的動作為，暫時記憶修正前向量(亦即，減算前的特徵向量)以及修正向量。

ST56a的動作係如上述，將修正裝置15暫時記憶的前次發話為止的修正前向量的平均向量和1發話前已使用的修正向量加權平均，以作為修正向量。

像這樣，將暫時記憶的前次發話為止的修正前向量的平均向量和1發話前已使用的修正向量加權平均，以作為修正向量，就會更重視最近的發話。因此，即使說話者中途換人，也能夠快速更新修正向量，而能夠提高辨識率。

以上為修正裝置15的動作的詳細說明。

繼之，回到聲音辨識裝置13的動作，說明核對裝置16的動作。

核對裝置16，將從修正裝置15輸入的修正向量與音響模式6a進行樣式匹配，將相似度最高的音響模式的語彙輸出作為辨識結果18。樣式匹配的方法可使用例如維特比演算法(Viterbi algorithm)。

如以上說明，本發明中，在學習音響模式時，採用了使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩者，以作為學習資料。而且，在聲音辨識時，對於第1次發話使用所有說話者平均向量作為修正向量。這是為了用音響模式學習時使用的所有說話者學習資料的特徵向量相同條件算出特徵向量。像這樣，對於第1次發話，是以和所有說話者學習資料相同的條件修正輸入聲音的特徵向量，所以，相較於使用所有說話者學習資料來學習音響模式的效果，對於各種麥克風或說話者的第1次發話都能夠在沒有延遲聲音辨識的結束時間的情況下實現某種程度穩固的聲音辨識。

再者，對於聲音辨識時的第2次發話之後，採用例如輸入聲音的前次發話為止的特徵向量的平均向量作為修正向量，藉此能夠獲致對於由麥克風或說話者的不同而造成的特徵向量的變動能夠充分發揮CMN的效果的音響模式，而能夠改善聲音辨識性能。這是因為，算出特徵向量時，採用了用音響模式學習時使用的各說話者的平均向量以執行CMN的各說話者學習資料的特徵向量之相同條件，所以，其所得到的效果相當於，在音響模式學習時和聲音辨識時使用相同條件的各說話者的平均向量實施CMN時的效果，並提升了辨識性能。另外，在第2次發話之後，換了說話者且修正向量中產生了若干不整合的情況下，也採用了音響模式學習時用所有說話者的平均向量執行CMN的所有說話者學習資料，所以，相較於僅採用執行CMN的各說話者學習資料進行學習的音響模式，能夠發揮抑制辨識性能降低的效果。

另外，在專利文獻1中，輸入發話長度較短的情況下，平均向量的精度降低，辨識性能也降低。但是，本發明的聲音辨識裝置中，採用使用各說話者的平均向量執行CMN的各說話者學習資料、及用所有說話者的平均向量執行CMN的所有說話者學習資料兩者所學習的音響模式來執行聲音辨識，因此，即使在輸入發話長度較短的情況下，也能夠抑制辨識性能降低。

另外，在專利文獻1中，因為是用學習資料全體求出平均向量，沒有考慮到因為說話者的不同而造成的特徵向量的變動，因而使得辨識性能降低。但是，本發明的聲音辨識裝置中，採用了使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩者所學習的音響模式來進行聲音辨識，因此，即使有因為說話者的不同而造成的特徵向量的變動，也能夠抑制辨識性能的降低。

另外，在本實施形態中，係以HMM作為學習的音響模式之例進行說明，對於使用學習資料學習的任意音響模式，都可以採用使用各說話者的平均向量執行CMN的各說話者學習資料和使用所有說話者的平均向量執行CMN的所有說話者學習資料兩方來進行學習，並且具有相同的效果。例如可以學習神經網路作為音響模式。

【產業上的利用可能性】

如上述，本發明的音響模式學習裝置及音響模式學習方法，採用使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩方做為學習資料以進行音響模式學習，因此，能夠建立對於難以實施CMN的第1次發話也具有高穩固性的音響模式。

另外，本發明的聲音辨識裝置及聲音辨識方法，對於輸入聲音的第1次發話，係以所有說話者平均向量修正輸入聲音的特徵向量，並將修正後的特徵向量與該音響模式核對以執行聲音辨識，因此，能夠實現對於第1次發話也不會延遲聲音辨識的結束時間之穩固的聲音辨識。再者，對於第2次發話之後則執行CMN，藉此，能夠吸收麥克風或說話者的不同而造成的特徵向量的變動以得到輸入之聲音的辨識結果。