TWI578307B - 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 - Google Patents

音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 Download PDF

Info

Publication number
TWI578307B
TWI578307B TW105116576A TW105116576A TWI578307B TW I578307 B TWI578307 B TW I578307B TW 105116576 A TW105116576 A TW 105116576A TW 105116576 A TW105116576 A TW 105116576A TW I578307 B TWI578307 B TW I578307B
Authority
TW
Taiwan
Prior art keywords
vector
speaker
learning
speakers
average
Prior art date
Application number
TW105116576A
Other languages
English (en)
Other versions
TW201742049A (zh
Inventor
Toshiyuki Hanazawa
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of TWI578307B publication Critical patent/TWI578307B/zh
Publication of TW201742049A publication Critical patent/TW201742049A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Description

音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法
本發明係關於聲音辨識裝置及聲音辨識方法,其使用學習用於聲音辨識的音響模式之音響模式學習裝置、音響模式學習方法、及音響模式,以辨識輸入的聲音。
近年來,聲音辨識的主流為,基於用已輸入聲音的頻率樣式作為特徵向量的統計手法,進行樣式匹配的方式。在此種方式中,係在用事前大量的說話者發出的聲音資料的頻率樣式之特徵向量將該特徵向量之統計特徵模式化後的音響模式、以及已輸入之聲音的特徵向量之間進行樣式匹配,藉此以實現聲音辨識。因此,使用頻率特性相異的各種麥克風收錄大量說話者說話的聲音做為學習資料,以學習音響模式,藉此,這些資料的特徵向量統計地反映在音響模式內,能夠建立對於各種麥克風或說話者的穩固的音響模式。另一方面,也有可能使音響模式表現的特徵向量變得分散,而降低識別性能。
相反地,也有減小音響模式的分散,並提高識別精度的CMN(Cepstral Mean Normalization)方法。其係為,在音響模式學習時,對於包含於學習資料的各說話者的聲音資料的特徵向量,針對各說話者求取該說話者的特徵向量的平均向 量,並將從各說話者的特徵向量減去該平均向量所得之差做為學習資料。該平均向量係表示收錄該說話者的聲音所使用的麥克風之頻率特性以及該說話者的聲音之頻率樣式的平均特徵。因此,從各說話者的特徵向量減去該平均向量,能夠吸收掉一些麥克風或說話者的差異。使用此學習資料,當學習例如「」的母音之音響模式時,能夠更精確地將減少了麥克風或說話者的不同而造成之影響的「」音本身所具有的特徵向量模式化,而能達到提高辨識性能的效果。不過,執行CMN用以學習的音響模式進行聲音辨識時,必須在聲音辨識時求出用某些方法輸入聲音的平均向量,並從輸入聲音將其扣除。
在專利文獻1揭露,採用HMM(Hidden Markov Model)作為音響模式的情況下,在學習時不執行CMN,在學習後從所得到的HMM參數求出近似的平均向量並執行CMN的方法。其教示了將方法與音響模式的噪音適應化組合,能夠快速得到對於麥克風的頻率特性之差異等的乘法性變形、以及周圍噪音等地加法性變形兩者都穩固的音響模式之技術。專利文獻1中教示的算出輸入聲音之平均向量的方法為,針對輸入聲音的1發話而從1發話全體求出平均向量,或者在聲音辨識時從前次發話為止的特徵向量算出平均向量的方法。
專利文獻1:日本特開2006-349723號公報
不過,專利文獻1的方法,必須在1發話結束後才能算出1發話全體的平均向量,辨識處理也必須在1發話結 束後才能實施,因此有辨識的回應速度變慢的課題。
本發明之目的在於解決上述課題。亦即,其目的在於,即使有麥克風頻率特性的差異或周圍的噪音,能夠確保聲音辨識的精度而不會延遲對第1次發話的辨識結束時間。
本發明之音響模式學習裝置的特徵在於包括:各說話者學習資料製作裝置,針對分析複數說話者的發話資料所得到的特徵向量,從各說話者的各該特徵向量減去各說話者的所有的該特徵向量的平均向量,以製作各說話者的學習資料;所有說話者學習資料製作裝置,從所有說話者的各該特徵向量減去所有說話者的所有的該特徵向量的平均向量,以製作所有說話者的學習資料;及學習裝置,使用該各說話者的學習資料及該等所有說話者的學習資料以學習音響模式。
本發明之聲音辨識裝置的特徵在於包括:分析裝置,分析已輸入的聲音並輸出第1特徵向量;修正裝置,判斷該聲音是否為第1次發話,若為第1次發話,則對於分析複數說話者的發話資料所得到的第2特徵向量,以所有說話者的所有的該第2特徵向量的平均向量作為修正向量,若非為第1次發話,則以前一次發話為止的該第1特徵向量的平均向量作為修正向量,輸出從該第1特徵向量減去該修正向量後的修正後向量;及核對裝置,核對音響模式及該修正後向量以輸出該聲音的辨識結果,其中該音響模式係使用各說話者的該第2特徵向量減去各說話者的所有的該第2特徵向量的平均向量而製作得到的各說話者的學習資料、以及所有說話者的該第2特徵向 量減去所有說話者的所有的該第2特徵向量的平均向量而製作得到的所有說話者的學習資料學習而得。
本發明的音響模式學習裝置,係使用從各說話者的各特徵向量減去各說話者的所有的特徵向量的平均向量所製作出的各說話者的學習資料、以及從所有說話者的各特徵向量減去所有說話者的所有的特徵向量的平均向量所製作所有說話者的學習資料,以學習音響模式,因為是使用使各說話者的學習資料的特徵向量和概略值一致的所有說話者的學習資料來學習音響模式,所以對於第1次發話也不會延遲其辨識結束時間並學習以各種麥克風或說話者為學習資料而確保了辨識精度的音響模式。另外,對於第2次發話之後執行CMN,藉此能夠建立吸收由於麥克風或說話者的不同而造成的特徵向量之變動的音響模式。
另外,本發明的聲音辨識裝置,若已輸入的聲音為第1次發話,則以所有說話者的所有的特徵向量的平均向量作為修正向量,將從已輸入聲音的特徵向量減去修正向量後的修正後向量與該音響模式進行核對以輸出已輸入之聲音的辨識結果,因此對於第1次發話也不會延遲其辨識結束時間並能夠確保了以各種麥克風或說話者為學習資料的聲音辨識的精確度。另外,對於第2次發話之後執行CMN,藉此能夠吸收由於麥克風或說話者的不同而造成的特徵向量之變動並得到已輸入之聲音的辨識結果。
1‧‧‧音響模式學習裝置
2‧‧‧學習資料
3‧‧‧各說話者學習資料製作裝置
4‧‧‧算出裝置
5‧‧‧所有說話者學習資料製作裝置
6‧‧‧音響模式
7‧‧‧學習裝置
8‧‧‧所有說話者平均向量
9‧‧‧第1記憶裝置
10‧‧‧第2記憶裝置
11‧‧‧處理器
12‧‧‧記憶體
13‧‧‧聲音辨識裝置
14‧‧‧音響分析裝置
15‧‧‧修正裝置
16‧‧‧核對裝置
17‧‧‧輸入聲音
18‧‧‧辨識結果
第1圖為本發明實施形態1中音響模式學習裝置1的構成圖。
第2圖為本發明實施形態1中音響模式學習裝置1的硬體構成圖。
第3圖為顯示本發明實施形態1中各說話者學習資料製作裝置3之動作的流程圖。
第4圖為顯示本發明實施形態1中算出裝置4的動作之流程圖。
第5圖為顯示本發明實施形態1中所有說話者學習資料製作裝置5之動作的流程圖。
第6圖為顯示本發明實施形態1中學習裝置7之動作的流程圖。
第7圖為本發明實施形態1中聲音辨識裝置13的構成圖。
第8圖為顯示本發明實施形態1中修正裝置15之動作的流程圖。
第9圖為顯示本發明實施形態1中修正裝置15之動作的流程圖。
以下,基於圖式詳細說明本發明之音響模式學習裝置、音響模式學習方法、聲音辨識裝置、及聲音辨識方法的實施形態。再者,本發明並不限定於此實施形態。
實施形態1
第1圖為本發明實施形態1中音響模式學習裝置1的構成圖。
在第1圖中,音響模式學習裝置1由下列構成:各說話者 學習資料製作裝置3,輸入將複數說話者發話資料進行音響分析而得到的特徵向量(第2特徵向量)所構成的學習資料2,對各說話者的發話資料之特徵向量進行CMN以製作各說話者學習資料;算出裝置4,算出所有說話者的特徵向量之平均向量;所有說話者學習資料製作裝置5,使用算出裝置4所算出的平均向量,將所有說話者的特徵向量進行CMN,以製作所有說話者學習資料;以及學習裝置7,使用各說話者學習資料和所有說話者學習資料以學習音響模式6。另外,音響模式學習裝置1具備:第1記憶裝置9,記憶由各說話者學習資料製作裝置3所製作的各說話者學習資料;以及第2記憶裝置10,記憶由所有說話者學習資料製作裝置5所製作的所有說話者學習資料。
學習資料2為輸入到音響模式學習裝置1的輸入資料,其係由對於頻率特性相異的各種麥克風所收錄的複數說話者的發話資料進行音響分析而得到的特徵向量所構成。另外,假設該說話者中的每個人都有複數筆發話資料。特徵向量為表示聲音之頻率樣式的頻譜特徵之向量。本實施形態中係使用例如MFCC(Mel Frequency Cepstral Coefficient)的1到12次元的資料。再者,由於是將聲音資料切割為稱之為訊框的每10毫秒的區間,再針對各訊框實施音響分析而得到特徵向量,因此從1發話的聲音資料中可以得到複數個特徵向量。例如若為1秒的發話,則因為1秒=1000毫秒,所以能夠得到1000毫秒/10毫秒=100個特徵向量。如前所述,每個說話者都有複數個發話,所以在學習資料中包含了各說話者之發話資料量對應的複數個特徵向量。
各說話者學習資料製作裝置3,從已輸入的學習資 料2中針對各說話者算出所有的特徵向量的平均向量。然後,進行從各說話者的各特徵向量減去各說話者的平均向量之CMN。繼之,製作由已進行CMN的特徵向量構成的各說話者的學習資料(各說話者學習資料),並將所製作的各說話者學習資料輸出到第1記憶裝置9進行記憶。
算出裝置4,從已輸入的學習資料2算出所有說話者的所有的特徵向量的平均,並將之作為所有說話者平均向量輸出至所有說話者學習資料製作裝置5。另外,從音響模式學習裝置1輸出已算出的所有說話者平均向量。在此所輸出的所有說話者平均向量係用於後述的聲音辨識裝置。
所有說話者學習資料製作裝置5,從所有說話者的各特徵向量減去算出裝置4所算出的所有說話者平均向量以進行CMN。繼之,製作由已進行CMN的特徵向量構成的所有說話者的學習資料(所有說話者學習資料),並將所製作的所有說話者學習資料輸出到第2記憶裝置10記憶之。
學習裝置7,使用記憶於第1記憶裝置9的各說話者學習資料、及記憶於第2記憶裝置10的所有說話者學習資料以學習音響模式6,並將所學習的音響模式6從音響模式學習裝置1輸出。
第2圖為本發明實施形態1中音響模式學習裝置1的硬體構成圖。
音響模式學習裝置1由處理器11及記憶體12構成。音響模式學習裝置1的各說話者學習資料製作裝置3、算出裝置4、所有說話者學習資料製作裝置5、及學習裝置7係藉由處理器 11執行記憶在記憶體12中的程式而實現。另外,音響模式學習裝置1的第1記憶裝置9及第2記憶裝置10為記憶體12,亦可以為例如磁碟儲存器等。
繼之,說明音響模式學習裝置1的動作。
首先,說明各說話者學習資料製作裝置3的動作。
第3圖為顯示本發明實施形態1中各說話者學習資料製作裝置3的動作之流程圖。
各說話者學習資料製作裝置3,從學習資料2中取得各說話者的特徵向量(步驟(以下表示為ST)1)。繼之,算出各說話者的所有的特徵向量的平均向量(ST2)。繼之,執行從各說話者的各特徵向量減去已算出的各說話者的平均向量的CMN,製作各說話者的學習資料(各說話者學習資料),將之輸出至第1記憶裝置9並記憶之。繼之,判斷是否已製作所有的說話者的各說話者學習資料(ST4),若尚未製作則進行下一個說話者的處理(ST5),若已製作則結束。
繼之,說明算出裝置4的動作。
第4圖為顯示本發明實施形態1中算出裝置的動作之流程圖。
算出裝置4,從學習資料2中取得所有的說話者的特徵向量(ST21),算出學習資料2全體亦即所有說話者的所有的特徵向量的平均,將之作為所有說話者平均向量8從音響模式學習裝置1輸出。另外,將所有說話者平均向量8輸出至所有說話者學習資料製作裝置5(ST22)。
繼之,說明所有說話者學習資料製作裝置5的動作。
第5圖為顯示本發明實施形態1中所有說話者學習資料製 作裝置5的動作之流程圖。
所有說話者學習資料製作裝置5,從學習資料2取得所有說話者的所有的特徵向量(所有說話者特徵向量)(ST31)。並從算出裝置4取得所有說話者平均向量8(ST32),進行從所有說話者特徵向量減去所有說話者平均向量8的CMN,製作所有說話者的學習資料(所有說話者學習資料),將之輸出至第2記憶裝置10並記憶之(ST33)。
像這樣,從所有說話者的所有的特徵向量減去所有說話者平均向量8,能夠大致消除與各說話者學習資料的不整合。再者,在此所謂的不整合係為,各說話者學習資料有針對各說話者減去平均向量,依此和未進行減算的特徵向量的值有明顯差異。若直接使用這兩者來學習音響模式6的話,無法算出正確的統計量算出,因此從所有說話者的特徵向量減去已算出的所有說話者平均向量8以製作所有說話者學習資料。此所有說話者學習資料,雖然並沒有吸收所有說話者平均向量的變動,但藉由減去所有說話者平均向量,能夠使其與各說話者學習資料之特徵向量的概略值一致,而能夠使用兩者來學習音響模式。
繼之,說明學習裝置7的動作。
第6圖為顯示本發明實施形態1中學習裝置7的動作之流程圖。
學習裝置7,從第1記憶裝置9取得各說話者學習資料(ST41)。另外,從第2記憶裝置10取得所有說話者學習資料(ST42)。繼之,使用各說話者學習資料及所有說話者學習資料兩方的學習資料學習音響模式,並從音響模式學習裝置1輸出(ST43)。再者,學習裝置7,在音響模式6為HMM的情況下, 使用最大似然估計法(maximum likelihood estimation)學習音響模式6。或者,也可以使用其他的學習方法,例如相互資訊量最大化估計等的學習方法。另外,在音響模式6為神經網路(neural network)的情況下,可以例如交叉熵(cross entropy)最小化基準使用誤差逆傳播法進行學習。
另外,音響模式6模式化的聲音單位為例如音素。所謂的音素為母音及子音,例如「」的音係由子音/k/和母音/a/構成。在此的//為表示音素時所使用的記號。若事先對所有的音素進行音響模式的學習就可以連結音素的音響模式,藉此能夠將所有的語彙的特徵向量模式化。
說明如上述之學習的效果。
各說話者學習資料,能夠抑制由麥克風或說話者的不同而造成的特徵向量的變動並進行高精度的音響模式學習,達到提高辨識性能的效果。另一方面,所有說話者學習資料,因為只是對學習資料的特徵向量進行相同的減算,所以和原來的學習資料具有相同的特徵。原來的學習資料包含使用各種頻率特性的麥克風所收錄的說話者的特徵向量,所以具有建立對於麥克風或說話者的不同都穩固的音響模式之效果。
另外,從所有說話者的特徵向量減去所有說話者平均向量,能夠使得所有說話者的特徵向量和各說話者學習資料的特徵向量的概略值一致,能夠學習具有雙方的學習資料之特徵的音響模式。因此,對於輸入聲音,能夠建立對於難以實施CMN(亦即平均向量的減算)的第1次發話都具有高穩固性的音響模式。對於第2次發話之後則進行CMN,藉此建立之音響模式能夠吸 收由麥克風或說話者的不同所造成的特徵向量的變動。
繼之,說明使用上述音響模式之聲音辨識裝置。
第7圖為本發明實施形態1中聲音辨識裝置13的構成圖。
聲音辨識裝置13由下列構成:音響分析裝置14、修正裝置15、核對裝置16、所有說話者平均向量8、音響模式6a。音響分析裝置14相當於分析裝置。
而且,聲音辨識裝置13的硬體構成可以為與第2圖所示之音響模式學習裝置1相同的構成。亦即,聲音辨識裝置13由第2圖所示之處理器11和記憶體12構成。具體言之,音響分析裝置14、修正裝置15、核對裝置16係由處理器11執行記憶在記憶體12中的程式而實現。另外,所有說話者平均向量8和音響模式6a則由記憶體12構成。
聲音辨識裝置13,得到分析音響分析裝置14所輸入的聲音(輸入聲音)17而得到的特徵向量(第1特徵向量)。繼之,在修正裝置15中,判斷輸入聲音17是否為第1次發話,若為第1次發話,則以音響模式學習裝置1中所製作的所有說話者平均向量8作為修正向量。再者,從音響分析裝置14所分析得到的特徵向量減去修正向量以作為修正後向量,暫時記憶修正前的特徵向量(修正前特徵向量)。
另外,若輸入聲音17不是第1次發話,則以暫時記憶的前一次發話為止的修正前特徵向量的平均向量作為修正向量,從音響分析裝置14分析得到的特徵向量減去修正向量作為修正後向量。繼之,核對裝置16將修正後向量與音響模式學習裝置1所學習的音響模式進行核對以辨識輸入聲音 17,並輸出辨識結果18。
音響分析裝置14分析輸入聲音17,並將分析得到的特徵向量輸出至修正裝置15。
修正裝置15判斷輸入聲音17是否為第1次發話。若輸入聲音17為第1次發話,以所有說話者平均向量8為修正向量,從輸入聲音17的特徵向量減去修正向量以作為修正後向量。繼之,將修正後向量輸出至核對裝置16,暫時記憶修正前特徵向量。
另外,若輸入聲音17並非第1次發話,則以暫時記憶的前一次發話為止的修正前特徵向量的平均向量作為修正向量,從輸入聲音17的特徵向量減去修正向量以作為修正後向量。繼之,將修正後向量輸出至核對裝置16,暫時記憶修正前的特徵向量。
核對裝置16,將從修正裝置15輸入的修正後向量與音響模式6a核對以辨識輸入聲音17,並輸出辨識結果18。
音響模式6a係為,由音響模式學習裝置1使用各說話者學習資料和所有說話者學習資料而學習的音響模式6a,其被記憶在記憶體12中。音響模式6a被核對裝置16參照。例如,以都道府縣名為辨識對象語彙,進行詞彙的聲音辨識的情況下,音響模式6a中,儲存了與本發明的音響模式學習裝置1所學習的音素單位的音響模式連結的詞彙單位之音響模式。例如、[東京(--)]這個詞彙的音響模式由將音素/t/,/o/,/o/,/k/,/j/,/o/,/o/的音素的音響模式依序連結的全都道府縣名之詞彙的音響模式所構成。
所有說話者平均向量8係為,音響模式學習裝置1 的所有說話者學習資料製作裝置5所製作的所有說話者平均向量8,其係記憶於記憶體12中。所有說話者平均向量8被修正裝置15參照。
繼之說明聲音辨識裝置13的動作。
首先,音響分析裝置14,將輸入聲音17進行音響分析,輸出特徵向量。此特徵向量為與本發明的音響模式學習裝置1輸入的學習資料相同,在本實施形態中為MFCC的1到12次元的資料。
繼之,修正裝置15判斷輸入聲音17是否為第1次發話,依據其是否為第1次發話來修正從音響分析裝置14輸入的特徵向量。繼之,將修正後的特徵向量輸出至核對裝置16,暫時記憶修正前的特徵向量。
以下說明修正裝置15之動作的細節。
第8圖為顯示本發明實施形態1中修正裝置15的動作之流程圖。
首先,取得記憶在記憶體12中的所有說話者平均向量8(ST51)。繼之,判斷輸入聲音17是否為第1次發話(ST52)。修正裝置15,針對輸入聲音17,對各說話者計數其發話次數,依據所計數的發話次數判斷是否為第1次發話。或者,修正裝置15亦可使用內部暫時記憶的發話為第1次還是第2次以後的資訊,來判斷其是否為第1次發話。
繼之,若輸入聲音17為第1次發話,以所有說話者平均向量8作為修正向量(ST53)。再者,以執行了從音響分析裝置14得到的特徵向量減去修正向量的CMN的特徵向量作為修正後向量,將之輸出至核對裝置16(ST54)。再者,將減算 前的特徵向量作為修正前向量,並暫時記憶之(ST55)。
另一方面,若輸入聲音17並非第1次發話(若為第2次發話之後),則執行CMN以算出修正後的向量。例如,求出ST55中暫時記憶的前一次發話為止的修正前向量的平均以作為平均向量,並以所求出的平均向量作為修正向量(ST56)。之後,和第1次發話相同,執行ST54、ST55的處理。
如前所述,音響模式6a的學習所使用的所有說話者學習資料,係藉由從學習資料的所有說話者的各特徵向量減去所有說話者平均向量8而製作出,所以,在聲音辨識時也從輸入聲音17的特徵向量減去所有說話者平均向量,能夠發揮使輸入聲音17的特徵向量與學習時的特徵向量整合的效果。另外,使用所有說話者平均向量8作為修正向量的情況下,無法獲致執行CMN的效果,亦即吸收因為麥克風或說話者的不同而造成之特徵向量的變動之效果,但本發明的音響模式因為是以各種麥克風或說話者做為學習資料,所以對於第1次發話也能夠在不延遲聲音辨識的結束時間的情況下實現某種程度穩固的聲音辨識。
再者,第2次發話之後的修正向量,也可以將修正裝置15中暫時記憶的前次發話為止的特徵向量的平均向量和1發話前已使用的修正向量加權平均以作為修正向量。
第9圖為顯示本發明實施形態1中修正裝置15的動作之流程圖。
在第9圖中,與第8圖相同動作之處,係標示以與第8圖相同的號碼。第9圖和第8圖之差異僅在於,第8圖的ST55 的處理被置換為第9圖的ST55a,ST56的處理被置換為ST56a。
ST55a的動作為,暫時記憶修正前向量(亦即,減算前的特徵向量)以及修正向量。
ST56a的動作係如上述,將修正裝置15暫時記憶的前次發話為止的修正前向量的平均向量和1發話前已使用的修正向量加權平均,以作為修正向量。
像這樣,將暫時記憶的前次發話為止的修正前向量的平均向量和1發話前已使用的修正向量加權平均,以作為修正向量,就會更重視最近的發話。因此,即使說話者中途換人,也能夠快速更新修正向量,而能夠提高辨識率。
以上為修正裝置15的動作的詳細說明。
繼之,回到聲音辨識裝置13的動作,說明核對裝置16的動作。
核對裝置16,將從修正裝置15輸入的修正向量與音響模式6a進行樣式匹配,將相似度最高的音響模式的語彙輸出作為辨識結果18。樣式匹配的方法可使用例如維特比演算法(Viterbi algorithm)。
如以上說明,本發明中,在學習音響模式時,採用了使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩者,以作為學習資料。而且,在聲音辨識時,對於第1次發話使用所有說話者平均向量作為修正向量。這是為了用音響模式學習時使用的所有說話者學習資料的特徵向量相同條件算出特徵向量。像這樣,對於第1次發話,是以和所有 說話者學習資料相同的條件修正輸入聲音的特徵向量,所以,相較於使用所有說話者學習資料來學習音響模式的效果,對於各種麥克風或說話者的第1次發話都能夠在沒有延遲聲音辨識的結束時間的情況下實現某種程度穩固的聲音辨識。
再者,對於聲音辨識時的第2次發話之後,採用例如輸入聲音的前次發話為止的特徵向量的平均向量作為修正向量,藉此能夠獲致對於由麥克風或說話者的不同而造成的特徵向量的變動能夠充分發揮CMN的效果的音響模式,而能夠改善聲音辨識性能。這是因為,算出特徵向量時,採用了用音響模式學習時使用的各說話者的平均向量以執行CMN的各說話者學習資料的特徵向量之相同條件,所以,其所得到的效果相當於,在音響模式學習時和聲音辨識時使用相同條件的各說話者的平均向量實施CMN時的效果,並提升了辨識性能。另外,在第2次發話之後,換了說話者且修正向量中產生了若干不整合的情況下,也採用了音響模式學習時用所有說話者的平均向量執行CMN的所有說話者學習資料,所以,相較於僅採用執行CMN的各說話者學習資料進行學習的音響模式,能夠發揮抑制辨識性能降低的效果。
另外,在專利文獻1中,輸入發話長度較短的情況下,平均向量的精度降低,辨識性能也降低。但是,本發明的聲音辨識裝置中,採用使用各說話者的平均向量執行CMN的各說話者學習資料、及用所有說話者的平均向量執行CMN的所有說話者學習資料兩者所學習的音響模式來執行聲音辨識,因此,即使在輸入發話長度較短的情況下,也能夠抑制辨識性能降低。
另外,在專利文獻1中,因為是用學習資料全體求出平均向量,沒有考慮到因為說話者的不同而造成的特徵向量的變動,因而使得辨識性能降低。但是,本發明的聲音辨識裝置中,採用了使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩者所學習的音響模式來進行聲音辨識,因此,即使有因為說話者的不同而造成的特徵向量的變動,也能夠抑制辨識性能的降低。
另外,在本實施形態中,係以HMM作為學習的音響模式之例進行說明,對於使用學習資料學習的任意音響模式,都可以採用使用各說話者的平均向量執行CMN的各說話者學習資料和使用所有說話者的平均向量執行CMN的所有說話者學習資料兩方來進行學習,並且具有相同的效果。例如可以學習神經網路作為音響模式。
【產業上的利用可能性】
如上述,本發明的音響模式學習裝置及音響模式學習方法,採用使用各說話者的平均向量執行CMN的各說話者學習資料、以及使用所有說話者的平均向量執行CMN的所有說話者學習資料兩方做為學習資料以進行音響模式學習,因此,能夠建立對於難以實施CMN的第1次發話也具有高穩固性的音響模式。
另外,本發明的聲音辨識裝置及聲音辨識方法,對於輸入聲音的第1次發話,係以所有說話者平均向量修正輸入聲音的特徵向量,並將修正後的特徵向量與該音響模式核對以執行聲 音辨識,因此,能夠實現對於第1次發話也不會延遲聲音辨識的結束時間之穩固的聲音辨識。再者,對於第2次發話之後則執行CMN,藉此,能夠吸收麥克風或說話者的不同而造成的特徵向量的變動以得到輸入之聲音的辨識結果。
1‧‧‧音響模式學習裝置
2‧‧‧學習資料
3‧‧‧各說話者學習資料製作裝置
4‧‧‧算出裝置
5‧‧‧所有說話者學習資料製作裝置
6‧‧‧音響模式
7‧‧‧學習裝置
8‧‧‧所有說話者平均向量
9‧‧‧第1記憶裝置
10‧‧‧第2記憶裝置

Claims (5)

  1. 一種音響模式學習裝置,其包括:各說話者學習資料製作裝置,針對分析複數說話者的發話資料所得到的特徵向量,從各說話者的各該特徵向量減去各說話者的所有的該特徵向量的平均向量,以製作各說話者的學習資料;所有說話者學習資料製作裝置,從所有說話者的各該特徵向量減去所有說話者的所有的該特徵向量的平均向量,以製作所有說話者的學習資料;及學習裝置,使用該各說話者的學習資料及該等所有說話者的學習資料以學習音響模式。
  2. 一種聲音辨識裝置,其包括:分析裝置,分析已輸入的聲音並輸出第1特徵向量;修正裝置,判斷該聲音是否為第1次發話,若為第1次發話,則對於分析複數說話者的發話資料所得到的第2特徵向量,以所有說話者的所有的該第2特徵向量的平均向量作為修正向量,若非為第1次發話,則以前一次發話為止的該第1特徵向量的平均向量作為修正向量,輸出從該第1特徵向量減去該修正向量後的修正後向量;及核對裝置,核對音響模式及該修正後向量以輸出該聲音的辨識結果,其中該音響模式係使用各說話者的該第2特徵向量減去各說話者的所有的該第2特徵向量的平均向量而製作得到的各說話者的學習資料、以及所有說話者的該第2特徵向量減去所有說話者的所有的該第2特徵向量的平均 向量而製作得到的所有說話者的學習資料學習而得。
  3. 如申請專利範圍第2項所述之聲音辨識裝置,其中該修正裝置,暫時記憶該修正向量,若非為第1次發話,則將暫時記憶的前一次發話為止的該第1特徵向量的平均向量和1發話前已使用的修正向量加權平均以作為修正向量。
  4. 一種音響模式學習方法,其係為使用分析複數說話者的發話資料所得到的特徵向量以學習音響模式的音響模式學習裝置的音響模式學習方法,其包括:各說話者學習資料製作步驟,針對該特徵向量,從各說話者的該特徵向量減去各說話者的所有的該特徵向量的平均向量,以製作各說話者的學習資料;所有說話者學習資料製作步驟,從所有說話者的該特徵向量減去所有說話者的所有的該特徵向量的平均向量,以製作所有說話者的學習資料;及學習步驟,使用該各說話者的學習資料及該等所有說話者的學習資料以學習音響模式。
  5. 一種聲音辨識方法,其係為執行已輸入之聲音的聲音辨識的聲音辨識裝置之聲音辨識方法,其包括:分析步驟,分析已輸入的聲音並輸出第1特徵向量;修正步驟,判斷該聲音是否為第1次發話,若為第1次發話,則對於分析複數說話者的發話資料所得到的第2特徵向量,以所有說話者的所有的該第2特徵向量的平均向量作為修正向量,若非為第1次發話,則以前一次發話為止的該第1特徵向量的平均向量作為修正向量,輸出從該第1 特徵向量減去該修正向量後的修正後向量;及核對步驟,核對音響模式及該修正後向量以輸出該聲音的辨識結果,其中該音響模式係使用各說話者的該第2特徵向量減去各說話者的所有的該第2特徵向量的平均向量而製作得到的各說話者的學習資料、以及所有說話者的該第2特徵向量減去所有說話者的所有的該第2特徵向量的平均向量而製作得到的所有說話者的學習資料學習而得。
TW105116576A 2016-05-20 2016-05-27 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 TWI578307B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/064981 WO2017199416A1 (ja) 2016-05-20 2016-05-20 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法

Publications (2)

Publication Number Publication Date
TWI578307B true TWI578307B (zh) 2017-04-11
TW201742049A TW201742049A (zh) 2017-12-01

Family

ID=59241056

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105116576A TWI578307B (zh) 2016-05-20 2016-05-27 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法

Country Status (6)

Country Link
US (1) US10418030B2 (zh)
JP (1) JP6391895B2 (zh)
CN (1) CN109155128B (zh)
GB (1) GB2564607B (zh)
TW (1) TWI578307B (zh)
WO (1) WO2017199416A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418030B2 (en) * 2016-05-20 2019-09-17 Mitsubishi Electric Corporation Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method
US10867595B2 (en) 2017-05-19 2020-12-15 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models
US20220375484A1 (en) * 2021-05-21 2022-11-24 International Business Machines Corporation Acoustic data augmentation with mixed normalization factors

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052741A1 (en) * 2000-09-18 2002-05-02 Pioneer Corporation Voice recognition system
TW541516B (en) * 2001-12-21 2003-07-11 Koninkl Philips Electronics Nv Distributed speech recognition using dynamically determined feature vector codebook size
US20080270131A1 (en) * 2007-04-27 2008-10-30 Takashi Fukuda Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise
US20090177466A1 (en) * 2007-12-20 2009-07-09 Kabushiki Kaisha Toshiba Detection of speech spectral peaks and speech recognition method and system
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
TW201517018A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 語音辨識方法及其電子裝置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
JP3088357B2 (ja) * 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者音響モデル生成装置及び音声認識装置
US7930181B1 (en) * 2002-09-18 2011-04-19 At&T Intellectual Property Ii, L.P. Low latency real-time speech transcription
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
JP4705414B2 (ja) * 2005-06-13 2011-06-22 日本電信電話株式会社 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
WO2008126254A1 (ja) * 2007-03-30 2008-10-23 Pioneer Corporation 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
JP6000094B2 (ja) * 2012-12-03 2016-09-28 日本電信電話株式会社 話者適応化装置、話者適応化方法、プログラム
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
JP6523893B2 (ja) * 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US10453445B2 (en) * 2016-02-16 2019-10-22 Carnegie Mellon University System and method for multi-user GPU-accelerated speech recognition engine for client-server architectures
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10418030B2 (en) * 2016-05-20 2019-09-17 Mitsubishi Electric Corporation Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052741A1 (en) * 2000-09-18 2002-05-02 Pioneer Corporation Voice recognition system
TW541516B (en) * 2001-12-21 2003-07-11 Koninkl Philips Electronics Nv Distributed speech recognition using dynamically determined feature vector codebook size
US20080270131A1 (en) * 2007-04-27 2008-10-30 Takashi Fukuda Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise
US20090177466A1 (en) * 2007-12-20 2009-07-09 Kabushiki Kaisha Toshiba Detection of speech spectral peaks and speech recognition method and system
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
TW201517018A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 語音辨識方法及其電子裝置

Also Published As

Publication number Publication date
TW201742049A (zh) 2017-12-01
GB201816576D0 (en) 2018-11-28
JPWO2017199416A1 (ja) 2018-10-18
US20190096392A1 (en) 2019-03-28
WO2017199416A1 (ja) 2017-11-23
GB2564607B (en) 2019-05-08
JP6391895B2 (ja) 2018-09-19
CN109155128A (zh) 2019-01-04
GB2564607A (en) 2019-01-16
US10418030B2 (en) 2019-09-17
CN109155128B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US8346551B2 (en) Method for adapting a codebook for speech recognition
JP5738020B2 (ja) 音声認識装置及び音声認識方法
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
EP2058797A1 (en) Discrimination between foreground speech and background noise
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP6336219B1 (ja) 音声認識装置および音声認識方法
TWI578307B (zh) 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
Dey et al. Content normalization for text-dependent speaker verification
Saito et al. Directional dependency of cepstrum on vocal tract length
JP6128287B1 (ja) 音声認識装置および音声認識方法
US20240153494A1 (en) Techniques for generating training data for acoustic models using domain adaptation
KR100435441B1 (ko) 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
Suzuki et al. Discriminative re-ranking for automatic speech recognition by leveraging invariant structures
Vimala et al. Efficient Acoustic Front-End Processing for Tamil Speech Recognition using Modified GFCC Features
Ye et al. Experimental study on GMM-based speaker recognition
JP2000039899A (ja) 音声認識装置
JP2004184856A (ja) 音声認識装置
Sehr et al. Model-based dereverberation of speech in the mel-spectral domain

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees