TW201709199A

TW201709199A - 聲音辨識裝置及聲音辨識處理方法

Info

Publication number: TW201709199A
Application number: TW104139866A
Authority: TW
Inventors: Yuki Tachioka; Shinji Watanabe
Original assignee: Mitsubishi Electric Corp
Priority date: 2015-08-31
Filing date: 2015-11-30
Publication date: 2017-03-01
Also published as: JPWO2017037830A1; WO2017037830A1

Abstract

一種以聲音特徵量之不確定性為基準來實行聲音辨識處理之聲音辨識裝置，具備：抽出聲音強調處理前之噪音聲音特徵量作為向量(Vector)，並抽出聲音強調處理後之強調聲音特徵量作為向量之特徵量抽出器；藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點，產生反映不確定性之聲音資料之資料產生器；以及藉由使用聲音資料來實行解碼處理或音響模型之學習處理中之至少任一方，以實行聲音辨識處理之聲音資料處理器。

Description

聲音辨識裝置及聲音辨識處理方法

本發明，係有關於以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。

在辨識有噪音重疊之聲音上，藉由信號處理等之手法，在其前段執行聲音強調為一般之方法。藉由如此的聲音強調處理，提升了聲音辨識性能。但是，因為聲音強調之誤差，從原音成為失真之聲音是無法避免的。

為了減低此影響，由聲音處理前後之特徵量算出以聲音特徵量之不確定性(uncertainty)，並使不確定性高之特徵量之影響變小之不確定性解碼(uncertainty decoding：UD)技術已被提案(例如參照非專利文件1~3)。

如此之技術，在音響模型上在使用高斯混合模型(Gaussian mixture model(GMM))之情況下，具有較佳之的相容性。亦即，聲音特徵量之不確定性以高斯分布來表現之時，GMM之似然估計(likelihood)是利用以其特徵量分布之周邊分布之期待值操作來表現之假定。

第7圖，係表示為了實現UD技術之習知之聲音辨識裝置之構造圖。在第7圖上所示之習知之聲音辨識裝置，其構造具備特徵量抽出器11、12、學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17以及音響模型適應器20。

然後，噪音重疊之噪音聲音1，和施加了聲音強調處理之強調聲音2，被輸入至聲音辨識裝置。通常，藉由特徵量抽出器12，特徵量從強調聲音2被抽出。然後，聲音辨識器17，從特徵量與音響模型及語言模型，獲得聲音辨識結果3。

在UD，聲音強調前之噪音聲音1之特徵量，亦藉由特徵量抽出器11被抽出。然後，音響模型適應器20，使用以特徵量抽出器11所抽出之聲音強調處理前之特徵量和以特徵量抽出器12所抽出之聲音強調處理後之特徵量，並根據某些基準來算出不確定性。

例如，在非專利文件2上所示之Delcroix 2009或非專利文件3上所示之Kolossa 2010中，音響模型適應器20，算出聲音強調處理前後之特徵量之差異作為不確定性。之後，音響模型適應器20，關於不確定性大之特徵量，執行使用GMM之音響模型之分散之擴大等之調適。

音響模型建造器14，一般是使用藉由強調聲音2之特徵量所作成之學習資料來建造音響模型。作為使學習資料增加之手法，按照學習環境將資料內插之方法已被提案(例如，參照專利文件1)。

[先行技術文件] [專利文件]

[專利文件1] 特開平10-133688號公報

[非專利文件1] Liao2005:H. Liao anwM. Gales, “Joint uncertainty decoding for noise robust speech recognition,” in Proceedings of EUROSPEECH, 2005, pp. 3129-3132

[非專利文件2] Delcroix2009: M. Delcroix, T. Nakatani, and S. Watanabe, “Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing,” IEEE Transactions on Audio, Speech, and Language Processing, pp. 324-334, 2009

[非專利文件3]Kolossa2010: D. Kolossa, R. F. Astudillo, E. Hoffmann, and R. Orglmeister, “Independent component analysis and time-frequency masking for speech recognition in multi-talker conditions,” EURASIP Journal on Audio, Speech, and Music Processing, p. ID 651420, 2010

然而，在習知技術上，有以下之課題。

如以上之說明，為了降低對混入之聲音失真對聲音辨識功能之影響，使用聲音強調處理來抽出聲音特徵量之不確定性以執行音響模型之建造或聲音辨識，是有力之方法。然後，為了減小不確定性高之特徵量之影響，UD技術被提案。

但是，在GMM以外之模型，如上述之GMM之似然估計，以其特徵量分布之周邊分布之期待值操作來表示之假定，是不成立的。因此，以習知之不確定性為基準之聲音辨識技術，在模型不以高斯分布來表示之時，有無法好好地考慮不確定性之問題點。

又，在專利文件1，提案了使學習資料增加之手法。但是，在此專利文件1，藉由使用噪音抑制前後之特徵量，獲得抑制因噪音抑制之失真之效果為止之前，根本無任何之公告或提案。

本發明，係為了解決如上述之問題點之發明。其目的在於並不取決於模型是否由高斯分布來表示，無論對於甚麼樣之模型，皆獲得能夠以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。

有關於本發明之聲音辨識裝置，係以聲音特徵量之不確定性為基準來實行聲音辨識處理之聲音辨識裝置，包括：抽出聲音強調處理前之噪音聲音特徵量作為向量(Vector)，並抽出聲音強調處理後之強調聲音特徵量作為向量之特徵量抽出器；藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點，產生反映不確定性之聲音資料之資料產生器；以及藉由使用聲音資料來實行解碼處理或音響模型之學習處理中之至少任一方，以實行聲音辨識處理之聲音資料處理器。

又，有關本發明之聲音辨識處理方法，係以聲音特徵量之不確定性為基準，藉由聲音辨識裝置來實行之聲音辨識處理方法，包括：抽出聲音強調處理前之噪音聲音特徵量作為向量之第1步驟；抽出聲音強調處理後之強調聲音特徵量作為向量之第2步驟；藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點，產生反映不確定性之聲音資料之第3步驟；以及藉由使用聲音資料，實行解碼處理或音響模型之學習處理中之至少任一方，來實行聲音辨識處理之第4步驟。

根據本發明，具備為除了和習知同樣之強調聲音之特徵量，亦藉由考慮到依照噪音聲音特徵量和強調聲音特徵量之內分點或外分點之特徵量，來執行聲音辨識處理，獲得最終之聲音辨識結果之構造。其結果，不取決於模型是否由高斯分布來表示，無論對於甚麼樣之模型，皆可獲得能夠以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。

1‧‧‧噪音聲音

2‧‧‧強調聲音

3‧‧‧聲音辨識結果

11、12‧‧‧特徵量抽出器

13‧‧‧學習資料產生器

14‧‧‧音響模型建造器

15‧‧‧語言模型記憶部

16‧‧‧資料產生器

17、17(1)~17(3)‧‧‧聲音辨識器

18‧‧‧結果統合器

19‧‧‧亂數產生器

20‧‧‧音響模型適應器

30‧‧‧麥克風

40‧‧‧處理電路

41‧‧‧處理器

42‧‧‧記憶體

50‧‧‧顯示器

[第1圖]係在本發明之實施例1之聲音辨識裝置之概念之說明圖。

[第2圖]係說明在本發明之實施例1之聲音辨識裝置之構造圖。

[第3圖]係說明在本發明之實施例2之聲音辨識裝置之構造圖。

[第4圖]係說明在本發明之實施例3之聲音辨識裝置之構造圖。

[第5圖]係說明在本發明之實施例4之聲音辨識裝置之構造圖。

[第6圖]係說明在本發明之實施例1~4之聲音辨識裝置上之共通硬體構造圖。

[第7圖]係表示為了實現UD技術之習知之聲音辨識裝置之構造圖。

以下，使用圖面說明本發明之聲音辨識裝置及聲音辨識處理方法之適合之實施例。

[第一實施例]

本發明，其目的在於將近年所提案之Deep neural network(DNN)或Convolutional neural network,Recurrent neural network等之音響模型作為主要對象，來提案可適用之聲音辨識裝置。但是有關於本發明之聲音辨識裝置，亦可適用於使用GMM之音響模型。

在DNN等之音響模型，無法如GMM以單純之參數表示分布。因此，即使可以算出不確定性，以算出的不確定性為基礎，亦無法明確怎麼樣的做法適合模型。

在此，於本第一實施例，思考著不將不確定性表現為明，而引導特徵量將不確定性表現為暗，將不確定性反映至特徵量。亦即，有關本第一實施例之聲音辨識裝置，利用在聲音特徵量之聲音強調前後之內分點，將不確定性反映至至特徵量。

第1圖，係說明在本發明之實施例1之聲音辨識裝置之概念圖。噪音聲音1之特徵量為x，而強調聲音2之特徵量為y(^)。又，說明書中所謂的y(^)之符號，意味著在y上面附加^的意思。

第1圖，例如為了簡單，將聲音特徵量為2次元時之第1次元在橫軸上呈現，第2次元在縱軸上呈現，噪音聲音1之特徵量x和強調聲音2之特徵量y(^)一起呈現為2次元之向量。第2次元，和第1次元相比，在聲音強調前後之特徵量之變化較小，而能夠說是噪音之影響較少而能夠信賴之特徵量之次元。在此，為了表示如此之次元之關係，本實施例1中之聲音辨識裝置，使用增加如下式(1)之內分點之聲音資料，來執行解碼。

在上式(1)中，α之範圍為0<α<1。藉由將內分點加到特徵量上，第2次元，和第1次元相比，分散較小，而能夠獲得所謂的將能夠信賴之特徵量表示為暗之效果。

又，在α>1之外分點，例如在使用噪音去除效果小失而失真亦小之聲音強調手法之時，根據場合之不同亦被認為是有效的。即使在擴增至任意之次元之時，顯然能夠獲得同樣之效果。

第2圖，係說明在本發明之實施例1之聲音辨識裝置之構造圖。在第2圖上所示之本實施例1之聲音辨識裝置之構造，如果和之前之第7圖上所示之習知之聲音辨識裝置之構造相比，則有以下3個差異點。

‧第1差異點，在本實施例1之聲音辨識裝置，具備資料產生器16。

‧第2差異點，在本實施例1之聲音辨識裝置，聲音辨識器17為複數之構造。在第2圖，以範例表示3個聲音辨識器17(1)~17(3)。

‧第3差異點，在本實施例1之聲音辨識裝置，又具備結果統合器18。

又，在第2圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結果統合器18，相當於聲音資料處理器。

資料產生器16，從藉由特徵量抽出器11所抽出之噪音聲音1之特徵量x，及藉由特徵量抽出器12所抽出之強調聲音2之特徵量y(^)，產生1個以上之內分點。在準備有3個聲音辨識裝置之情況下，產生2個內分點。然後，在複數之聲音辨識器17(1)~17(3)之中，第1個聲音辨識器17(1)，使用藉由特徵量抽出器12所抽出之強調聲音2之特徵量為y(^)來實行聲音處理。

另一方面，在複數之聲音辨識器17(1)~17(3)之中，第2個聲音辨識器17(2)以及第3個聲音辨識器17(3)，使用藉資料產生器16所產生之不同之內分點來實行聲音處理。亦即，在本實施例1之聲音辨識器17，使用和習知技術同樣之強調聲音2之特徵量y(^)來實行聲音辨識處理，同時亦針對根據不同之內分點之各個特徵量，藉由實行聲音辨識處理，來產生複數之聲音辨識假定。

結果統合器18，對藉由複數之聲音辨識器 17(1)~17(3)所得到之各個聲音辨識假定，施加統合處理，而得到最終聲音辨識結果3。作為根據結果統合器18之所統合之統合處理，能夠使用熟知之多數決之手法(ROVER)或似然估計(likelihood)、混淆網路(Confusion Network)之統合、晶格(lattice)之統合等之手法。

又，藉由在此第2圖之音響模型建造器14所建造之音響模型，為單一之模型。但是，本發明，以使用1個以上之內分點來學習，亦考慮到使用和聲音辨識時匹配之複數之音響模型。又，亦考慮使用內分點來學習之1個以上之音響模型，和使用外分點來學習之1個以上之音響模型。

因此，不確定性之傾向被反映在由複數之聲音辨識器17所辨識之各個結果上，又能夠藉由結果統合器18統合此被反映之結果，來期待提高辨識率。

如以上之說明，根據實施例1，具備以下之構造作為技術的特徵。

‧從由噪音聲音抽出之特徵量和由強調聲音抽出之特徵量之內分點或外分點，來產生特徵量之構造。

‧藉由對於新產生之1個以上之各個特徵量和強調聲音之特徵量來施加聲音辨識處理後之統合處理，獲得1個聲音辨識結果之構造。

亦即，藉由在實施例1之聲音辨識裝置，除了和習知同樣之強調聲音之特徵量，並考慮內分點或外分點之1個以上之特徵量，來執行聲音辨識處理，而具備最終之聲音辨識結果之構造。其結果，能夠不取決於是否模型以高斯分布表示，無論對於甚麼樣之模型，皆能夠以聲音特徵量之不確定性為基準實行解碼處理，以執行聲音辨識。

[第二實施例]

在之前之實施例1，說明關於使用內分點或外分點之1個以上之特徵量，在解碼時考慮不確定性之情況。因此，相對於此，在本實施例2，說明關於使用根據內分點或外分點之1個以上之特徵量，在學習時考慮不確定性之情況。

第3圖，係說明在本發明之實施例2之聲音辨識裝置之構造圖。在第3圖所示之本實施例2之聲音辨識裝置之構造，和之前之第2圖所示之實施例1之聲音辨識裝置之構造比較，有以下之2點差異點。

‧第1差異點，在本實施例2之聲音辨識裝置，以1台聲音辨識器17來構成，無結果統合器18。但是，和實施例1結合是容易的。

‧第2差異點，在本實施例2之聲音辨識裝置，藉由資料產生器16所產生之內分點或外分點之1個以上特徵量，來增加學習資料。

又，第3圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15以及聲音辨識器17，相當於聲音資料處理器。

在本實施例2之資料產生器16，例如在使用根據2個內分點之特徵量之情況下，除了藉由原本之特徵量抽出器12所抽出之強調聲音2，亦考慮到根據2個內分點之特徵量，成為使用合計為3倍之資料來執行學習。

又，在本實施例2之資料產生器16，能夠例如削減產生之資料，來減少學習資料量。因此，能夠在特徵量之變化上建造穩健之音響模型。其結果，能夠獲得了所謂的增加聲音辨識之穩健性之效果。

如以上之說明，根據實施例2，具備以下之構造作為技術的特徵。

‧從由噪音聲音抽出之特徵量和由強調聲音抽出之特徵量之內分點或外分點，來產生1個以上之特徵量之構造。

‧以使用新產生之1個以上之特徵量和強調聲音之特徵量之學習結果為基準，產生音響模型之構造。

藉由具備如此之構造，來執行在特徵量之變化上使用穩健之音響模型之聲音辨識處理。其結果，能夠不取決於是否模型以高斯分布表示，無論對哪種模型，皆能夠以聲音特徵量之不確定性為基準來實行音響模型之學習以執行聲音辨識。

[第三實施例]

在本實施例3，說明關於併用前面之實施例1和2之構造，考慮在學習時與解碼時雙方之不確定性之情況。

第4圖，係說明在本發明之實施例3之聲音辨識裝置之構造圖。在第4圖所示之本實施例3之聲音辨識裝置之構造，兼備在前面之實施例1之第2圖之構造，與前面之實施例2之第3圖之構造。

又，在第4圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結果統合器18，相當於聲音資料處理器。

如上面之說明，根據實施例3，能夠不取決於是否模型以高斯分布表示，無論對哪種模型，皆能夠以聲音特徵量之不確定性為基準來實行解碼處理及音響模型之學習，以執行聲音辨識。

[第四實施例]

在本實施例4，說明關於藉由在內分點或外分點上積極地帶入雜音干擾，實現使穩健性更提升之聲音辨識處理。

第5圖，係說明在本發明之實施例4之聲音辨識裝置之構造圖。在第5圖上所示之本實施例4之聲音辨識裝置之構造，如果和前面之第4圖上所示之實施例3之聲音辨識裝置之構造相比，則有以下1個差異點。

‧相異點，在本實施例4之聲音辨識裝置，具備能夠在內分點或是外分點上加上擾動之亂數產生器19。

又，在第5圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結果統合器18，相當於聲音資料處理器。

又，第5圖，表示對前面之實施例3加上亂數產生器19之構造，但亦可以是對前面之實施例1或實施例2加上亂數產生器19之構造。

例如，在使用分散σ之正規亂數之時，內分點或是外分點，成為如下面之公式(2)

在上面之公式(2)之N(α,σ)，為平均α、分散σ²之正規分布。又，亂數產生器19，亦能夠使用其他種類之亂數。

藉由使用如此之亂數產生器19，能夠在內分點或是外分點上加上擾動。然後，資料產生器16，能夠產生加上雜音干擾之學習資料及為了聲音辨識之評價資料。結果，和使用固定之內分點或外分點相比，資料之變異增加，而能夠實現使穩健性更提升之聲音辨識處理。

如以上之說明，根據實施例4，具備能夠在內分點或是外分點上積極地帶入雜音干擾之構造。結果，使用加上雜音干擾之學習資料及評價資料，能夠實現使穩健性更提升之聲音辨識處理。

最後，說明關於本發明之聲音辨識裝置之硬體構造。第6圖，係說明在本發明之實施例1~4之聲音辨識裝置上之共通硬體構造圖。在第6圖所示之本發明之聲音辨識裝置，其構造具備麥克風30、處理電路40以及顯示器50。在此，處理電路40其構造包含處理器41及記憶體42。

麥克風30，相當於為了取入噪音聲音1及強調聲音2之聲音輸入部。處理電路40，係實行一系列之聲音辨識處理之電路，並實行在第2圖~第5圖所示之各構成要件之處理。更具體地說，處理電路40之具體之處理，藉由處理器41來實行，在處理上必要之資料，被記憶在記憶體42。又，顯示器50，相當於聲音辨識結果之顯示部。