TWI406266B

TWI406266B - 語音辨識裝置及其辨識方法

Info

Publication number: TWI406266B
Application number: TW100119556A
Authority: TW
Inventors: Jwu Sheng Hu; Ming Tang Lee; Ting Chao Wang; Chia Hsin Yang
Original assignee: Univ Nat Chiao Tung
Priority date: 2011-06-03
Filing date: 2011-06-03
Publication date: 2013-08-21
Also published as: TW201250670A; US20120310646A1; US8918319B2

Description

語音辨識裝置及其辨識方法

本發明係有關一種辨識技術，特別是關於一種語音辨識裝置及其語音辨識方法。

在一般語音訊號處理上，關鍵字偵測或是擷取(Keyword Detection or Spotting)是語音辨識(Speech Recognition)相當重要的一環，辨識步驟主要為先擷取語音特徵參數、為語音特徵建出模型及設定特徵參數比對方法(計算距離或相似度)。儘管語音辨識技術已經發展多年，在訊噪比高的情形下對大型詞彙庫的辨識率已經相當不錯，然而面對環境的雜訊干擾或是多人同時發聲的情況，即使是單一關鍵字的辨識率，也大多很難維持一定的水準。在現實環境中，各種不同的聲音干擾是無法避免的。

於現有技術之自動語音辨識系統中(Automatic Speech Recognition，ASR)，何時可以開始進行辨識是其中一項重要的功能，該功能通常稱作按鈕(push button)或是喚醒(wake-up)。Wake-up功能運用得宜可以大量降低辨識錯誤率。一般在如電腦或手機的介面中往往以觸控或按鈕來實現，但是這個前提是所面對的裝置或機器需要在使用者的手邊。如果與使用者有一段距離，使用者往往必須配戴一無線裝置以提供可靠的wake-up訊號，在許多實際應用上這仍有其障礙。例如要命令智慧型居家服務機器人提供服務，若使用者必須一直配戴一無線裝置，在居家的情境中幾乎是不可行。因此，如何能夠在無需配戴任何裝置的情形下有效的實現wake-up功能，就成為一個實用且富挑戰性的研發題目。因為使用者不能配戴任何裝置，且提供語音辨識介面的機器很可能不在視野範圍內，因此無可避免的必須回歸到以語音來執行wake-up的功能。簡單來說，這即是單一關鍵字的辨識問題，但是其所面臨的問題是語者可能距離相當遠，或位於吵雜的環境中，因此訊噪比通常很差。其次是如同按鈕或觸控，以語音關鍵字實現wake-up也必須有幾乎100%的偵測率(detection rate)以及接近於0的偽陽性比率(false positive rate)，否則將產生誤動作或反應遲鈍。

因此，本發明係在針對上述之困擾，提出一種語音辨識裝置及其語音辨識方法，以解決習知所產生的問題。

本發明之主要目的，在於提供一種語音辨識裝置及其語音辨識方法，其係運用聲源於聲音接收器陣列的特徵空間一致性，以及關鍵字語音特徵相似度，同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試，此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate)。

為達上述目的，本發明提供一種語音辨識裝置，其係接收至少一關鍵詞以進行辨識，此關鍵詞包括至少一關鍵字，語音辨識裝置包括一聲音接收器陣列，用以接收關鍵字之一聲源訊號，以產生複數聲音訊號。聲音接收器陣列連接一頻域轉換器，其係接收聲音訊號，並將其轉換至頻域，形成複數聲頻訊號。頻域轉換器連接一空間特徵擷取器與一語音特徵擷取評估裝置，且空間特徵擷取器與語音特徵擷取評估裝置相互連接。空間特徵擷取器接收聲頻訊號，以藉此擷取出一空間頻譜及其角度估測值，另語音特徵擷取評估裝置接收角度估測值與聲頻訊號，以據此進行擷取與評估，輸出一巴塔恰里雅(Bhattacharyya)距離。空間特徵擷取器更連接一空間評估器，其係接收空間頻譜，以定義至少一空間特徵參數輸出之。空間評估器與語音特徵擷取評估裝置皆連接一偵測裝置，其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值，此偵測裝置接收空間特徵參數與巴塔恰里雅距離，並利用檢測門檻值判斷關鍵詞之正確性。

本發明亦提供一種語音辨識方法，其係接收至少一關鍵詞以進行辨識，此關鍵詞包括至少一關鍵字。首先，接收關鍵字之一聲源訊號，以產生複數聲音訊號，進而將其轉換至頻域，形成複數聲頻訊號。接著，接收聲頻訊號，以藉此擷取出一空間頻譜及其角度估測值。再來，接收空間頻譜、角度估測值與聲頻訊號，以利用空間頻譜定義至少一空間特徵參數輸出之，並依據角度估測值與聲頻訊號進行擷取與評估，輸出一巴塔恰里雅距離。最後，接收空間特徵參數與巴塔恰里雅距離，以利用與其對應之檢測門檻值判斷關鍵詞之正確性。

茲為使　貴審查委員對本發明之結構特徵及所達成之功效更有進一步之瞭解與認識，謹佐以較佳之實施例圖及配合詳細之說明，說明如後：

本發明的要點乃基於目標關鍵字語音共鳴曲線相似度(Resonant Curve Similarity)的波形特徵，同時亦須具備空間特徵一致性(Spatial Eigenspace Consistency)，例如某一關鍵詞可能包含三個關鍵字，以特定之先後順序組合而成。因此這三個關鍵字必須有同樣的特徵空間，若是以聲音傳遞到麥克風陣列的情況而言，代表這三個字必須為同一聲源來向。其次，一旦這個關係符合，其所擷取的特徵空間訊號便可以用來進一步計算其與目標關鍵字的波型相似度，此一優點為特徵空間的訊號較不易受到環境干擾，因而可以大量提升其語音辨識度，換言之，此技術可用在遠距關鍵字語音偵測或者在吵雜的環境下，作為關鍵字語音喚醒機制。實施方式如下所述：請參閱第1圖與第2圖，本發明之語音辨識裝置，係接收至少一關鍵詞以進行辨識，關鍵詞包括至少一關鍵字，且關鍵字具有複數音框。語音辨識裝置包括一聲音接收器陣列10，如麥克風陣列，聲音接收器陣列10係包括複數個接收器12，並呈環形排列，並位於一平面上，此環形排列具有一中心點，中心點與環形排列之周邊相距R，此平面以中心點為原點，定義出互相垂直之橫軸X、直軸Y與縱軸Z。聲音接收器陣列10係連續接收關鍵字之每一音框之一聲源訊號，以產生複數聲音訊號。聲源訊號之聲源點與上述中心點及平面係形成一垂直上述平面之三角面，此三角面之底邊與橫軸X夾有φ角，斜邊與縱軸Z夾有θ角。聲音接收器陣列10連接一頻域轉換器14，如快速傅立葉轉換(FFT)器或離散餘弦轉換(discrete cosine transform,DCT)器，頻域轉換器14係接收聲音訊號，並將其轉換至頻域，形成複數聲頻訊號。

頻域轉換器14連接一空間特徵擷取器16，且空間特徵擷取器16與一空間評估器18連接，空間特徵擷取器16接收聲頻訊號，以藉此擷取出一空間頻譜及其角度估測值，其中空間頻譜可表示為，其中f =1...F ，F 代表快速傅立葉轉換尺寸(FFT size)，ω_f 為頻率，a (θ ,ω_f )與a ^H (θ ,ω_f )分別為進行轉置(tranpose)及共軛(conjugate)之a ^T (θ ,ω_f )，a ^T (θ ,ω_f )

，t 為時間，c 為光速，M 為聲音接收器陣列10之接收器12數量，為利用聲頻訊號得到之資料相關矩陣R _XX 之特徵向量；資料相關矩陣可表示為R _X _X (ω_f ,k )=E (X (ω_f ,k ),X (ω_f ,k )^H )，X (ω_f ,k )為聲頻訊號，且資料相關矩陣，λ _i (ω_f )為資料相關矩陣之特徵值。另外，空間評估器18則接收空間頻譜，以定義至少一空間特徵參數輸出之。此外，空間評估器18更可同時接收空間頻譜與角度估測值，以分別定義二空間特徵參數輸出之，且在此實施例中，係以此種方式為例，其中空間頻譜定義之空間特徵參數為角度估測量值，D 為正規化因子(normalized factor)，F '為共振峰對應之頻帶(formant frequency bands)；角度估測值定義之空間特徵參數為角度估測變異數x ₂ =var((ω_f ))，且f F '。第3(a)圖與第3(b)圖分別表示關鍵字與非關鍵字之角度估測量值之統計分佈，由於角度估測量值為分佈圖中的峰值處，所以若偵測字為關鍵字時，角度估測量值較大，為非關鍵字時，角度估測量值較小。另第4(a)圖與第4(b)圖分別表示關鍵字與非關鍵字之角度估測變異數之統計分佈，由於角度估測變異數為分佈圖中的離散程度，因此若偵測字為關鍵字時，角度估測變異數較小，為非關鍵字時，角度估測變異數較大。換言之，由角度估測量值與角度估測變異數可以驗證聲源訊號之特徵空間一致性。

繼續如第1圖所示，空間特徵擷取器16與頻域轉換器14連接一語音特徵擷取評估裝置20，其係接收角度估測值與聲頻訊號，以據此進行擷取與評估，輸出一巴塔恰里雅(Bhattacharyya)距離。空間評估器18與語音特徵擷取評估裝置20更連接一偵測裝置22，其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值，偵測裝置22接收空間特徵參數與巴塔恰里雅距離，並利用檢測門檻值判斷關鍵詞之正確性。

語音特徵擷取評估裝置20更包括一語音模型資料庫24、一語音特徵擷取器26與一語音評估器28，語音模型資料庫24係存有複數種語音共鳴模型資料。語音特徵擷取器26連接空間特徵擷取器16與頻域轉換器14，並接收角度估測值與聲頻訊號，以據此擷取一語音特徵資料。上述語音共鳴模型資料可分別為語音共鳴模型曲線峰值或語音共鳴模型曲線兩種，為了對應此兩種模型資料，則語音特徵資料亦分別為語音特徵數值或語音特徵曲線。語音評估器28連接語音特徵擷取器26與語音模型資料庫24，並接收語音特徵資料，語音評估器28從語音模型資料庫24取出與語音特徵資料對應之語音共鳴模型資料，以對語音特徵資料進行評估後，輸出巴塔恰里雅距離。在此實施例中，語音共鳴模型資料與語音特徵資料分別以語音共鳴模型曲線及語音特徵曲線為例，如第5(a)圖與第5(b)圖所示，在此兩張圖中，皆分別有兩條曲線，其一在上，為語音共鳴模型曲線，另一在下，為語音特徵曲線，語音評估器28會將兩種曲線進行評估，以輸出巴塔恰里雅距離，其可表示為BC (p ,q )=∫，p (x )為語音特徵曲線，q (x )為語音共鳴模型曲線。此外，當語音共鳴模型資料與語音特徵資料分別為語音共鳴模型曲線峰值及語音特徵數值時，語音共鳴模型曲線峰值及語音特徵數值分別代表語音共鳴模型曲線及語音特徵曲線之波峰處的強度。

請繼續參閱第1圖，偵測裝置22更包括作為一偵測器30之串聯式偵測器、一第一層、第二層儲存判斷器32、34。偵測器30連接空間評估器18與語音特徵擷取評估裝置20之語音評估器28，並接收每一音框對應之空間特徵參數與巴塔恰里雅距離，偵測器30預設有檢測門檻值，並據此對空間特徵參數與巴塔恰里雅距離進行檢測，以輸出分別代表正確與錯誤之音框的一第一層正確旗標或一第一層錯誤旗標。舉例來說，偵測器30在空間特徵參數與巴塔恰里雅距離中，至少其中一者小於或等於對應之檢測門檻值時，則輸出第一層錯誤旗標，在空間特徵參數與巴塔恰里雅距離皆大於對應之該檢測門檻值時，則輸出第一層正確旗標。

第一層儲存判斷器32連接偵測器30，並接收每一音框之第一層正確旗標或第一層錯誤旗標，以儲存之，在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後，則據其數量輸出分別代表正確與錯誤之關鍵字的一第二層正確旗標或一第二層錯誤旗標。舉例來說，第一層儲存判斷器32預設有一第一層檢測值，在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標中，第一層儲存判斷器32利用第一層檢測值檢測第一層正確旗標之比例，當此比例大於第一層檢測值時，第一層儲存判斷器32輸出第二層正確旗標，當比例小於或等於第一層檢測值時，第一層儲存判斷器32輸出第二層錯誤旗標。

第二層儲存判斷器34連接第一層儲存判斷器32，在關鍵字數量為二以上時，第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標，以儲存之，並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後，則據其數量輸出分別代表正確與錯誤之關鍵詞的一正確辨識訊號或一錯誤辨識訊號。舉例來說，第二層儲存判斷器34預設有一第二層檢測值，在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標中，第二層儲存判斷器34利用第二層檢測值檢測第二層正確旗標之比例，當此比例大於第二層檢測值時，第二層儲存判斷器34輸出正確辨識訊號，當比例小於或等於第二層檢測值時，第二層儲存判斷器34輸出錯誤辨識訊號。由於關鍵字都會來自同一聲源方向，因此，本發明運用聲源於聲音接收器陣列的特徵空間一致性，以及關鍵字語音特徵相似度，同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試，此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate)，換言之，本發明之技術在極低訊噪比之環境下，仍達成相當強健的語音辨識率，因而可以適用在遠距關鍵字語音偵測或者在吵雜的環境下，作為關鍵字語音喚醒機制。

請同時參閱第6圖，以下介紹語音辨識方法之流程。

首先，如步驟S10所示，聲音接收器陣列10連續接收關鍵字之每一音框之聲源訊號，以產生聲音訊號。接著，如步驟S12所示，頻域轉換器14接收聲音訊號，並將其轉換至頻域，以形成聲頻訊號。再來，如步驟S14所示，空間特徵擷取器16接收聲頻訊號，以藉此擷取出空間頻譜及其角度估測值。接續之，如步驟S16所示，空間評估器18接收空間頻譜，以利用空間頻譜定義至少一空間特徵參數輸出之，同時，語音特徵擷取評估裝置20接收角度估測值與聲頻訊號，並依據角度估測值與聲頻訊號進行擷取與評估，輸出巴塔恰里雅距離，其中擷取的方式可採用採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法。此外，在步驟S16中，空間評估器18除了接收空間頻譜，以定義至少一空間特徵參數輸出之之外，亦可同時接收空間頻譜與角度估測值，以定義至少二空間特徵參數輸出之，且在此實施例中，係以此種方式為例，其中由空間頻譜定義之空間特徵參數為角度估測量值；由角度估測值定義之空間特徵參數為角度估測變異數。最後，如步驟S18所示，偵測裝置22接收空間特徵參數與巴塔恰里雅距離，以利用與其對應之檢測門檻值判斷關鍵詞之正確性。

在上述流程中，其中語音特徵擷取評估裝置20在依據角度估測值與聲頻訊號進行擷取與評估，以輸出巴塔恰里雅距離之步驟中，更可以下列步驟實施之。首先，語音特徵擷取器26係依據角度估測值與聲頻訊號擷取一語音特徵資料。接著，語音評估器28接收語音特徵資料，並從存於語音模型資料庫24裡的複數種語音共鳴模型資料中，取出與語音特徵資料對應之語音共鳴模型資料，以對語音特徵資料進行評估後，輸出巴塔恰里雅距離。

另外，偵測裝置22利用檢測門檻值判斷關鍵詞之正確性之步驟更可以下列步驟實施之。請同時參閱第1圖與第7圖。首先，如步驟S20所示，偵測器30利用檢測門檻值對每一音框對應之空間特徵參數與巴塔恰里雅距離進行判斷，以輸出分別代表正確與錯誤之音框的第一層正確旗標或第一層錯誤旗標。此步驟S20可以下列子步驟實施之，例如，偵測器30在空間特徵參數與巴塔恰里雅距離中，判斷是否至少其中一者小於或等於對應之檢測門檻值，若是，輸出第一層錯誤旗標；若否，輸出第一層正確旗標。

接著，如步驟S22所示，第一層儲存判斷器32接收每一音框之第一層正確旗標或第一層錯誤旗標，以儲存之，直到關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後，進行步驟S24。在步驟S24中，第一層儲存判斷器32係根據所有第一層正確旗標及第一層錯誤旗標之數量，輸出分別代表正確與錯誤之關鍵字的第二層正確旗標或第二層錯誤旗標。此步驟S24可以下列子步驟實施之，例如，由於第一層儲存判斷器32預設第一層檢測值，因此，第一層儲存判斷器32於所有第一層正確旗標及第一層錯誤旗標中，判斷第一層正確旗標所佔之比例，是否大於第一層檢測值，若是，輸出第二層正確旗標；若否，輸出第二層錯誤旗標。

當關鍵字數量為二以上時，於步驟S24後，更可進行下列步驟，首先如步驟S26所示，第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標，以儲存之，並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後，進行步驟S28。在步驟S28中，第二層儲存判斷器34根據所有第二層正確旗標及第二層錯誤旗標之數量，輸出分別代表正確與錯誤之關鍵詞的正確辨識訊號或錯誤辨識訊號。此步驟S28可以下列子步驟實施之，例如，由於第二層儲存判斷器34預設第二層檢測值，因此，第二層儲存判斷器34於所有第二層正確旗標及第二層錯誤旗標中，判斷第二層正確旗標所佔之比例，是否大於第二層檢測值，若是，輸出正確辨識訊號；若否，輸出錯誤辨識訊號。

綜上所述，本發明結合語音關鍵字的空間一致性判斷與關鍵字語音共鳴曲線相似度的判斷，以提升關鍵字偵測的強健性。

以上所述者，僅為本發明一較佳實施例而已，並非用來限定本發明實施之範圍，故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾，均應包括於本發明之申請專利範圍內。

10．．．聲音接收器陣列

12．．．接收器

14．．．頻域轉換器

16．．．空間特徵擷取器

18．．．空間評估器

20．．．語音特徵擷取評估裝置

22．．．偵測裝置

24．．．語音模型資料庫

26．．．語音特徵擷取器

28．．．語音評估器

30．．．偵測器

32．．．第一層儲存判斷器

34．．．第二層儲存判斷器

第1圖為本發明之裝置方塊圖。

第2圖為本發明之聲音接收器陣列與聲源點之相關位置立體圖。

第3(a)圖為本發明之關鍵字之角度估測量值統計分佈圖。

第3(b)圖為本發明之非關鍵字之角度估測量值統計分佈圖。

第4(a)圖為本發明之關鍵字之角度估測變異數統計分佈圖。

第4(b)圖為本發明之非關鍵字之角度估測變異數統計分佈圖。

第5(a)圖與第5(b)圖分別為本發明之不同關鍵字之語音共鳴模型曲線與語音特徵曲線波形圖。

第6圖為本發明之語音辨識方法流程圖。

第7圖為本發明之判斷關鍵詞之正確性之流程圖。