TWI406266B - 語音辨識裝置及其辨識方法 - Google Patents

語音辨識裝置及其辨識方法 Download PDF

Info

Publication number
TWI406266B
TWI406266B TW100119556A TW100119556A TWI406266B TW I406266 B TWI406266 B TW I406266B TW 100119556 A TW100119556 A TW 100119556A TW 100119556 A TW100119556 A TW 100119556A TW I406266 B TWI406266 B TW I406266B
Authority
TW
Taiwan
Prior art keywords
layer
speech
spatial
flag
correct
Prior art date
Application number
TW100119556A
Other languages
English (en)
Other versions
TW201250670A (en
Inventor
Jwu Sheng Hu
Ming Tang Lee
Ting Chao Wang
Chia Hsin Yang
Original Assignee
Univ Nat Chiao Tung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Chiao Tung filed Critical Univ Nat Chiao Tung
Priority to TW100119556A priority Critical patent/TWI406266B/zh
Priority to US13/177,608 priority patent/US8918319B2/en
Publication of TW201250670A publication Critical patent/TW201250670A/zh
Application granted granted Critical
Publication of TWI406266B publication Critical patent/TWI406266B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

語音辨識裝置及其辨識方法
本發明係有關一種辨識技術,特別是關於一種語音辨識裝置及其語音辨識方法。
在一般語音訊號處理上,關鍵字偵測或是擷取(Keyword Detection or Spotting)是語音辨識(Speech Recognition)相當重要的一環,辨識步驟主要為先擷取語音特徵參數、為語音特徵建出模型及設定特徵參數比對方法(計算距離或相似度)。儘管語音辨識技術已經發展多年,在訊噪比高的情形下對大型詞彙庫的辨識率已經相當不錯,然而面對環境的雜訊干擾或是多人同時發聲的情況,即使是單一關鍵字的辨識率,也大多很難維持一定的水準。在現實環境中,各種不同的聲音干擾是無法避免的。
於現有技術之自動語音辨識系統中(Automatic Speech Recognition,ASR),何時可以開始進行辨識是其中一項重要的功能,該功能通常稱作按鈕(push button)或是喚醒(wake-up)。Wake-up功能運用得宜可以大量降低辨識錯誤率。一般在如電腦或手機的介面中往往以觸控或按鈕來實現,但是這個前提是所面對的裝置或機器需要在使用者的手邊。如果與使用者有一段距離,使用者往往必須配戴一無線裝置以提供可靠的wake-up訊號,在許多實際應用上這仍有其障礙。例如要命令智慧型居家服務機器人提供服務,若使用者必須一直配戴一無線裝置,在居家的情境中幾乎是不可行。因此,如何能夠在無需配戴任何裝置的情形下有效的實現wake-up功能,就成為一個實用且富挑戰性的研發題目。因為使用者不能配戴任何裝置,且提供語音辨識介面的機器很可能不在視野範圍內,因此無可避免的必須回歸到以語音來執行wake-up的功能。簡單來說,這即是單一關鍵字的辨識問題,但是其所面臨的問題是語者可能距離相當遠,或位於吵雜的環境中,因此訊噪比通常很差。其次是如同按鈕或觸控,以語音關鍵字實現wake-up也必須有幾乎100%的偵測率(detection rate)以及接近於0的偽陽性比率(false positive rate),否則將產生誤動作或反應遲鈍。
因此,本發明係在針對上述之困擾,提出一種語音辨識裝置及其語音辨識方法,以解決習知所產生的問題。
本發明之主要目的,在於提供一種語音辨識裝置及其語音辨識方法,其係運用聲源於聲音接收器陣列的特徵空間一致性,以及關鍵字語音特徵相似度,同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試,此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate)。
為達上述目的,本發明提供一種語音辨識裝置,其係接收至少一關鍵詞以進行辨識,此關鍵詞包括至少一關鍵字,語音辨識裝置包括一聲音接收器陣列,用以接收關鍵字之一聲源訊號,以產生複數聲音訊號。聲音接收器陣列連接一頻域轉換器,其係接收聲音訊號,並將其轉換至頻域,形成複數聲頻訊號。頻域轉換器連接一空間特徵擷取器與一語音特徵擷取評估裝置,且空間特徵擷取器與語音特徵擷取評估裝置相互連接。空間特徵擷取器接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值,另語音特徵擷取評估裝置接收角度估測值與聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離。空間特徵擷取器更連接一空間評估器,其係接收空間頻譜,以定義至少一空間特徵參數輸出之。空間評估器與語音特徵擷取評估裝置皆連接一偵測裝置,其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值,此偵測裝置接收空間特徵參數與巴塔恰里雅距離,並利用檢測門檻值判斷關鍵詞之正確性。
本發明亦提供一種語音辨識方法,其係接收至少一關鍵詞以進行辨識,此關鍵詞包括至少一關鍵字。首先,接收關鍵字之一聲源訊號,以產生複數聲音訊號,進而將其轉換至頻域,形成複數聲頻訊號。接著,接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值。再來,接收空間頻譜、角度估測值與聲頻訊號,以利用空間頻譜定義至少一空間特徵參數輸出之,並依據角度估測值與聲頻訊號進行擷取與評估,輸出一巴塔恰里雅距離。最後,接收空間特徵參數與巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷關鍵詞之正確性。
茲為使 貴審查委員對本發明之結構特徵及所達成之功效更有進一步之瞭解與認識,謹佐以較佳之實施例圖及配合詳細之說明,說明如後:
本發明的要點乃基於目標關鍵字語音共鳴曲線相似度(Resonant Curve Similarity)的波形特徵,同時亦須具備空間特徵一致性(Spatial Eigenspace Consistency),例如某一關鍵詞可能包含三個關鍵字,以特定之先後順序組合而成。因此這三個關鍵字必須有同樣的特徵空間,若是以聲音傳遞到麥克風陣列的情況而言,代表這三個字必須為同一聲源來向。其次,一旦這個關係符合,其所擷取的特徵空間訊號便可以用來進一步計算其與目標關鍵字的波型相似度,此一優點為特徵空間的訊號較不易受到環境干擾,因而可以大量提升其語音辨識度,換言之,此技術可用在遠距關鍵字語音偵測或者在吵雜的環境下,作為關鍵字語音喚醒機制。實施方式如下所述:請參閱第1圖與第2圖,本發明之語音辨識裝置,係接收至少一關鍵詞以進行辨識,關鍵詞包括至少一關鍵字,且關鍵字具有複數音框。語音辨識裝置包括一聲音接收器陣列10,如麥克風陣列,聲音接收器陣列10係包括複數個接收器12,並呈環形排列,並位於一平面上,此環形排列具有一中心點,中心點與環形排列之周邊相距R,此平面以中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z。聲音接收器陣列10係連續接收關鍵字之每一音框之一聲源訊號,以產生複數聲音訊號。聲源訊號之聲源點與上述中心點及平面係形成一垂直上述平面之三角面,此三角面之底邊與橫軸X夾有φ角,斜邊與縱軸Z夾有θ角。聲音接收器陣列10連接一頻域轉換器14,如快速傅立葉轉換(FFT)器或離散餘弦轉換(discrete cosine transform,DCT)器,頻域轉換器14係接收聲音訊號,並將其轉換至頻域,形成複數聲頻訊號。
頻域轉換器14連接一空間特徵擷取器16,且空間特徵擷取器16與一空間評估器18連接,空間特徵擷取器16接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值,其中空間頻譜可表示為,其中f =1...FF 代表快速傅立葉轉換尺寸(FFT size),ω f 為頻率,a (θ f )與a H (θ f )分別為進行轉置(tranpose)及共軛(conjugate)之a T (θ f ),a T (θ f )
t 為時間,c 為光速,M 為聲音接收器陣列10之接收器12數量,為利用聲頻訊號得到之資料相關矩陣R XX 之特徵向量;資料相關矩陣可表示為R X X f ,k )=E (X f ,k ),X f ,k ) H ),X f ,k )為聲頻訊號,且資料相關矩陣λ i f )為資料相關矩陣之特徵值。另外,空間評估器18則接收空間頻譜,以定義至少一空間特徵參數輸出之。此外,空間評估器18更可同時接收空間頻譜與角度估測值,以分別定義二空間特徵參數輸出之,且在此實施例中,係以此種方式為例,其中空間頻譜定義之空間特徵參數為角度估測量值D 為正規化因子(normalized factor),F '為共振峰對應之頻帶(formant frequency bands);角度估測值定義之空間特徵參數為角度估測變異數x 2 =var( f )),且f F '。第3(a)圖與第3(b)圖分別表示關鍵字與非關鍵字之角度估測量值之統計分佈,由於角度估測量值為分佈圖中的峰值處,所以若偵測字為關鍵字時,角度估測量值較大,為非關鍵字時,角度估測量值較小。另第4(a)圖與第4(b)圖分別表示關鍵字與非關鍵字之角度估測變異數之統計分佈,由於角度估測變異數為分佈圖中的離散程度,因此若偵測字為關鍵字時,角度估測變異數較小,為非關鍵字時,角度估測變異數較大。換言之,由角度估測量值與角度估測變異數可以驗證聲源訊號之特徵空間一致性。
繼續如第1圖所示,空間特徵擷取器16與頻域轉換器14連接一語音特徵擷取評估裝置20,其係接收角度估測值與聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離。空間評估器18與語音特徵擷取評估裝置20更連接一偵測裝置22,其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值,偵測裝置22接收空間特徵參數與巴塔恰里雅距離,並利用檢測門檻值判斷關鍵詞之正確性。
語音特徵擷取評估裝置20更包括一語音模型資料庫24、一語音特徵擷取器26與一語音評估器28,語音模型資料庫24係存有複數種語音共鳴模型資料。語音特徵擷取器26連接空間特徵擷取器16與頻域轉換器14,並接收角度估測值與聲頻訊號,以據此擷取一語音特徵資料。上述語音共鳴模型資料可分別為語音共鳴模型曲線峰值或語音共鳴模型曲線兩種,為了對應此兩種模型資料,則語音特徵資料亦分別為語音特徵數值或語音特徵曲線。語音評估器28連接語音特徵擷取器26與語音模型資料庫24,並接收語音特徵資料,語音評估器28從語音模型資料庫24取出與語音特徵資料對應之語音共鳴模型資料,以對語音特徵資料進行評估後,輸出巴塔恰里雅距離。在此實施例中,語音共鳴模型資料與語音特徵資料分別以語音共鳴模型曲線及語音特徵曲線為例,如第5(a)圖與第5(b)圖所示,在此兩張圖中,皆分別有兩條曲線,其一在上,為語音共鳴模型曲線,另一在下,為語音特徵曲線,語音評估器28會將兩種曲線進行評估,以輸出巴塔恰里雅距離,其可表示為BC (p ,q )=∫p (x )為語音特徵曲線,q (x )為語音共鳴模型曲線。此外,當語音共鳴模型資料與語音特徵資料分別為語音共鳴模型曲線峰值及語音特徵數值時,語音共鳴模型曲線峰值及語音特徵數值分別代表語音共鳴模型曲線及語音特徵曲線之波峰處的強度。
請繼續參閱第1圖,偵測裝置22更包括作為一偵測器30之串聯式偵測器、一第一層、第二層儲存判斷器32、34。偵測器30連接空間評估器18與語音特徵擷取評估裝置20之語音評估器28,並接收每一音框對應之空間特徵參數與巴塔恰里雅距離,偵測器30預設有檢測門檻值,並據此對空間特徵參數與巴塔恰里雅距離進行檢測,以輸出分別代表正確與錯誤之音框的一第一層正確旗標或一第一層錯誤旗標。舉例來說,偵測器30在空間特徵參數與巴塔恰里雅距離中,至少其中一者小於或等於對應之檢測門檻值時,則輸出第一層錯誤旗標,在空間特徵參數與巴塔恰里雅距離皆大於對應之該檢測門檻值時,則輸出第一層正確旗標。
第一層儲存判斷器32連接偵測器30,並接收每一音框之第一層正確旗標或第一層錯誤旗標,以儲存之,在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之關鍵字的一第二層正確旗標或一第二層錯誤旗標。舉例來說,第一層儲存判斷器32預設有一第一層檢測值,在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標中,第一層儲存判斷器32利用第一層檢測值檢測第一層正確旗標之比例,當此比例大於第一層檢測值時,第一層儲存判斷器32輸出第二層正確旗標,當比例小於或等於第一層檢測值時,第一層儲存判斷器32輸出第二層錯誤旗標。
第二層儲存判斷器34連接第一層儲存判斷器32,在關鍵字數量為二以上時,第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標,以儲存之,並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之關鍵詞的一正確辨識訊號或一錯誤辨識訊號。舉例來說,第二層儲存判斷器34預設有一第二層檢測值,在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標中,第二層儲存判斷器34利用第二層檢測值檢測第二層正確旗標之比例,當此比例大於第二層檢測值時,第二層儲存判斷器34輸出正確辨識訊號,當比例小於或等於第二層檢測值時,第二層儲存判斷器34輸出錯誤辨識訊號。由於關鍵字都會來自同一聲源方向,因此,本發明運用聲源於聲音接收器陣列的特徵空間一致性,以及關鍵字語音特徵相似度,同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試,此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate),換言之,本發明之技術在極低訊噪比之環境下,仍達成相當強健的語音辨識率,因而可以適用在遠距關鍵字語音偵測或者在吵雜的環境下,作為關鍵字語音喚醒機制。
請同時參閱第6圖,以下介紹語音辨識方法之流程。
首先,如步驟S10所示,聲音接收器陣列10連續接收關鍵字之每一音框之聲源訊號,以產生聲音訊號。接著,如步驟S12所示,頻域轉換器14接收聲音訊號,並將其轉換至頻域,以形成聲頻訊號。再來,如步驟S14所示,空間特徵擷取器16接收聲頻訊號,以藉此擷取出空間頻譜及其角度估測值。接續之,如步驟S16所示,空間評估器18接收空間頻譜,以利用空間頻譜定義至少一空間特徵參數輸出之,同時,語音特徵擷取評估裝置20接收角度估測值與聲頻訊號,並依據角度估測值與聲頻訊號進行擷取與評估,輸出巴塔恰里雅距離,其中擷取的方式可採用採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法。此外,在步驟S16中,空間評估器18除了接收空間頻譜,以定義至少一空間特徵參數輸出之之外,亦可同時接收空間頻譜與角度估測值,以定義至少二空間特徵參數輸出之,且在此實施例中,係以此種方式為例,其中由空間頻譜定義之空間特徵參數為角度估測量值;由角度估測值定義之空間特徵參數為角度估測變異數。最後,如步驟S18所示,偵測裝置22接收空間特徵參數與巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷關鍵詞之正確性。
在上述流程中,其中語音特徵擷取評估裝置20在依據角度估測值與聲頻訊號進行擷取與評估,以輸出巴塔恰里雅距離之步驟中,更可以下列步驟實施之。首先,語音特徵擷取器26係依據角度估測值與聲頻訊號擷取一語音特徵資料。接著,語音評估器28接收語音特徵資料,並從存於語音模型資料庫24裡的複數種語音共鳴模型資料中,取出與語音特徵資料對應之語音共鳴模型資料,以對語音特徵資料進行評估後,輸出巴塔恰里雅距離。
另外,偵測裝置22利用檢測門檻值判斷關鍵詞之正確性之步驟更可以下列步驟實施之。請同時參閱第1圖與第7圖。首先,如步驟S20所示,偵測器30利用檢測門檻值對每一音框對應之空間特徵參數與巴塔恰里雅距離進行判斷,以輸出分別代表正確與錯誤之音框的第一層正確旗標或第一層錯誤旗標。此步驟S20可以下列子步驟實施之,例如,偵測器30在空間特徵參數與巴塔恰里雅距離中,判斷是否至少其中一者小於或等於對應之檢測門檻值,若是,輸出第一層錯誤旗標;若否,輸出第一層正確旗標。
接著,如步驟S22所示,第一層儲存判斷器32接收每一音框之第一層正確旗標或第一層錯誤旗標,以儲存之,直到關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後,進行步驟S24。在步驟S24中,第一層儲存判斷器32係根據所有第一層正確旗標及第一層錯誤旗標之數量,輸出分別代表正確與錯誤之關鍵字的第二層正確旗標或第二層錯誤旗標。此步驟S24可以下列子步驟實施之,例如,由於第一層儲存判斷器32預設第一層檢測值,因此,第一層儲存判斷器32於所有第一層正確旗標及第一層錯誤旗標中,判斷第一層正確旗標所佔之比例,是否大於第一層檢測值,若是,輸出第二層正確旗標;若否,輸出第二層錯誤旗標。
當關鍵字數量為二以上時,於步驟S24後,更可進行下列步驟,首先如步驟S26所示,第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標,以儲存之,並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後,進行步驟S28。在步驟S28中,第二層儲存判斷器34根據所有第二層正確旗標及第二層錯誤旗標之數量,輸出分別代表正確與錯誤之關鍵詞的正確辨識訊號或錯誤辨識訊號。此步驟S28可以下列子步驟實施之,例如,由於第二層儲存判斷器34預設第二層檢測值,因此,第二層儲存判斷器34於所有第二層正確旗標及第二層錯誤旗標中,判斷第二層正確旗標所佔之比例,是否大於第二層檢測值,若是,輸出正確辨識訊號;若否,輸出錯誤辨識訊號。
綜上所述,本發明結合語音關鍵字的空間一致性判斷與關鍵字語音共鳴曲線相似度的判斷,以提升關鍵字偵測的強健性。
以上所述者,僅為本發明一較佳實施例而已,並非用來限定本發明實施之範圍,故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾,均應包括於本發明之申請專利範圍內。
10...聲音接收器陣列
12...接收器
14...頻域轉換器
16...空間特徵擷取器
18...空間評估器
20...語音特徵擷取評估裝置
22...偵測裝置
24...語音模型資料庫
26...語音特徵擷取器
28...語音評估器
30...偵測器
32...第一層儲存判斷器
34...第二層儲存判斷器
第1圖為本發明之裝置方塊圖。
第2圖為本發明之聲音接收器陣列與聲源點之相關位置立體圖。
第3(a)圖為本發明之關鍵字之角度估測量值統計分佈圖。
第3(b)圖為本發明之非關鍵字之角度估測量值統計分佈圖。
第4(a)圖為本發明之關鍵字之角度估測變異數統計分佈圖。
第4(b)圖為本發明之非關鍵字之角度估測變異數統計分佈圖。
第5(a)圖與第5(b)圖分別為本發明之不同關鍵字之語音共鳴模型曲線與語音特徵曲線波形圖。
第6圖為本發明之語音辨識方法流程圖。
第7圖為本發明之判斷關鍵詞之正確性之流程圖。
10...聲音接收器陣列
14...頻域轉換器
16...空間特徵擷取器
18...空間評估器
20...語音特徵擷取評估裝置
22...偵測裝置
24...語音模型資料庫
26...語音特徵擷取器
28...語音評估器
30...偵測器
32...第一層儲存判斷器
34...第二層儲存判斷器

Claims (33)

  1. 一種語音辨識裝置,其係接收至少一關鍵詞以進行辨識,該關鍵詞包括至少一關鍵字,該語音辨識裝置包括:一聲音接收器陣列,接收該關鍵字之一聲源訊號,以產生複數聲音訊號;一頻域轉換器,連接該聲音接收器陣列,以接收該些聲音訊號,並將其轉換至頻域,形成複數聲頻訊號;一空間特徵擷取器,連接該頻域轉換器,並接收該些聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值;一空間評估器,連接該空間特徵擷取器,並接收該空間頻譜,以定義至少一空間特徵參數輸出之;一語音特徵擷取評估裝置,其係連接該空間特徵擷取器與該頻域轉換器,並接收該角度估測值與該些聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離;以及一偵測裝置,連接該空間評估器與該語音特徵擷取評估裝置,並預設有與該空間特徵參數與該巴塔恰里雅距離對應之檢測門檻值,該偵測裝置接收該空間特徵參數與該巴塔恰里雅距離,並利用該檢測門檻值判斷該關鍵詞之正確性。
  2. 如請求項1所述之語音辨識裝置,其中該聲音接收器陣列呈環形排列,並位於一平面上,該環形排列具有一中心點,該中心點與該環形排列之周邊相距R,該平面以該中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z,該聲源訊號之聲源點與該中心點及該平面係形成一垂直該平面之三角面,該三角面之底邊與該橫軸夾有φ角,斜邊與該縱軸夾有θ角;該空間頻譜可表示為,其中f =1...FF 代表快速傅立葉轉換尺寸(FFT size),ω f 為頻率,a (θ f )與a H (θ f )分別為進行轉置(tranpose)及共軛(conjugate)之a T (θ f ),a T (θ f ) t 為時間,c 為光速,M為該聲音接收器陣列之接收器數量,為利用該些聲頻訊號得到之資料相關矩陣R XX 之特徵向量;該資料相關矩陣可表示為R XX f ,k )=E (X f ,k ),X f ,k )H ),X f ,k )為該聲頻訊號,且該資料相關矩陣λ i f )為該資料相關矩陣之特徵值。
  3. 如請求項2所述之語音辨識裝置,其中該角度估測值
  4. 如請求項2所述之語音辨識裝置,其中該空間評估器更同時接收該空間頻譜與該角度估測值,以分別定義二該空間特徵參數輸出之。
  5. 如請求項4所述之語音辨識裝置,其中該空間頻譜定義之該空間特徵參數為角度估測量值,D為正規化因子(normalized factor),F '為共振峰對應之頻帶(formant frequency bands);以及該角度估測值定義之該空間特徵參數為角度估測變異數x 2 =var( f )),且f F '。
  6. 如請求項1所述之語音辨識裝置,其中該語音特徵擷取評估裝置更包括:一語音模型資料庫,存有複數種語音共鳴模型資料;一語音特徵擷取器,連接該空間特徵擷取器與該頻域轉換器,並接收該角度估測值與該些聲頻訊號,以據此擷取一語音特徵資料;以及一語音評估器,連接該語音特徵擷取器與該語音模型資料庫,並接收該語音特徵資料,該語音評估器從該語音模型資料庫取出與該語音特徵資料對應之該語音共鳴模型資料,以對該語音特徵資料進行評估後,輸出該巴塔恰里雅距離。
  7. 如請求項6所述之語音辨識裝置,其中該語音共鳴模型資料分別為語音共鳴模型曲線峰值或語音共鳴模型曲線時,該語音特徵資料分別為語音特徵數值或語音特徵曲線。
  8. 如請求項7所述之語音辨識裝置,其中該巴塔恰里雅距離BC (p ,q )=∫p (x )為該語音特徵曲線,q (x )為該語音共鳴模型曲線。
  9. 如請求項1所述之語音辨識裝置,其中該關鍵字具有複數音框,該聲音接收器陣列連續接收每一該音框之該聲源訊號,以供該頻域轉換器、該空間特徵擷取器、該空間評估器、該語音特徵擷取評估裝置及該偵測裝置運作之。
  10. 如請求項9所述之語音辨識裝置,其中該偵測裝置更包括:一偵測器,連接該空間評估器與該語音特徵擷取評估裝置,並接收每一該音框對應之該空間特徵參數與該巴塔恰里雅距離,該偵測器預設有該檢測門檻值,並據此對該空間特徵參數與該巴塔恰里雅距離進行檢測,以輸出分別代表正確與錯誤之該音框的一第一層正確旗標或一第一層錯誤旗標;以及一第一層儲存判斷器,連接該偵測器,並接收每一該音框之該第一層正確旗標或該第一層錯誤旗標,以儲存之,在該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之該關鍵字的一第二層正確旗標或一第二層錯誤旗標。
  11. 如請求項10所述之語音辨識裝置,其中該偵測器在該空間特徵參數與該巴塔恰里雅距離中,至少其中一者小於或等於對應之該檢測門檻值時,則輸出該第一層錯誤旗標,在該空間特徵參數與該巴塔恰里雅距離皆大於對應之該檢測門檻值時,則輸出該第一層正確旗標。
  12. 如請求項10所述之語音辨識裝置,其中該第一層儲存判斷器預設有一第一層檢測值,在該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標中,該第一層儲存判斷器利用該第一層檢測值檢測該第一層正確旗標之比例,該比例大於該第一層檢測值時,該第一層儲存判斷器輸出該第二層正確旗標,該比例小於或等於該第一層檢測值時,該第一層儲存判斷器輸出該第二層錯誤旗標。
  13. 如請求項10所述之語音辨識裝置,更包括一第二層儲存判斷器,其係連接該第一層儲存判斷器,在該關鍵字數量為二以上時,該第二層儲存判斷器接收每一該關鍵字之該第二層正確旗標或該第二層錯誤旗標,以儲存之,並在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之該關鍵詞的一正確辨識訊號或一錯誤辨識訊號。
  14. 如請求項13所述之語音辨識裝置,其中該第二層儲存判斷器預設有一第二層檢測值,在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標中,該第二層儲存判斷器利用該第二層檢測值檢測該第二層正確旗標之比例,該比例大於該第二層檢測值時,該第二層儲存判斷器輸出該正確辨識訊號,該比例小於或等於該第二層檢測值時,該第二層儲存判斷器輸出該錯誤辨識訊號。
  15. 如請求項10所述之語音辨識裝置,其中該偵測器為串聯式偵測器。
  16. 如請求項1所述之語音辨識裝置,其中該語音特徵擷取評估裝置採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法,以根據該角度估測值與該些聲頻訊號進行擷取。
  17. 如請求項1所述之語音辨識裝置,其中該聲音接收器陣列為麥克風陣列。
  18. 如請求項1所述之語音辨識裝置,其中該頻域轉換器為快速傅立葉轉換(FFT)器或離散餘弦轉換(discrete cosine transform,DCT)器。
  19. 一種語音辨識方法,其係接收至少一關鍵詞以進行辨識,該關鍵詞包括至少一關鍵字,該語音辨識方法包括下列步驟:接收該關鍵字之一聲源訊號,以產生複數聲音訊號;轉換該些聲音訊號至頻域,形成複數聲頻訊號;接收該些聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值;接收該空間頻譜、該角度估測值與該些聲頻訊號,以利用該空間頻譜定義至少一空間特徵參數輸出之,並依據該角度估測值與該些聲頻訊號進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離;以及接收該空間特徵參數與該巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷該關鍵詞之正確性。
  20. 如請求項19所述之語音辨識方法,其中該些聲音訊號由一聲音接收器陣列接收之,該聲音接收器陣列呈環形排列,並位於一平面上,該環形排列具有一中心點,該中心點與該環形排列之周邊相距R,該平面以該中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z,該聲源訊號之聲源點與該中心點及該平面係形成一垂直該平面之三角面,該三角面之底邊與該橫軸夾有φ角,斜邊與該縱軸夾有θ角;該空間頻譜可表示為,其中f =1...FF 代表快速傅立葉轉換尺寸(FFT size),ω f 為頻率,a (θ f )與a H (θ,ω f )分別為進行轉置(tranpose)及共軛(conjugate)之a T (θ f ),a T (θ f ) t 為時間,c 為光速,M為該聲音接收器陣列之接收器數量,為利用該些聲頻訊號得到之資料相關矩陣R XX 之特徵向量;該資料相關矩陣可表示為R XX f ,k )=E (X f ,k ),X f ,k ) H ),X f ,k )為該聲頻訊號,且該資料相關矩陣λ i f )為該資料相關矩陣之特徵值。
  21. 如請求項20所述之語音辨識方法,其中該角度估測值
  22. 如請求項20所述之語音辨識方法,其中在利用該空間頻譜定義該空間特徵參數輸出之之步驟中,係同時利用該空間頻譜與該角度估測值,定義二該空間特徵參數輸出之。
  23. 如請求項22所述之語音辨識方法,其中該空間頻譜定義之該空間特徵參數為角度估測量值,D為正規化因子(normalized factor),F '為共振峰對應之頻帶(formant frequency bands);以及該角度估測值定義之該空間特徵參數為角度估測變異數x 2 =var( f )),且f F '。
  24. 如請求項19所述之語音辨識方法,其中在依據該角度估測值與該些聲頻訊號進行擷取與評估,以輸出該巴塔恰里雅距離之步驟中,更包括下列步驟:依據該角度估測值與該些聲頻訊號擷取一語音特徵資料;以及接收該語音特徵資料,並從複數種語音共鳴模型資料中取出與該語音特徵資料對應之該語音共鳴模型資料,以對該語音特徵資料進行評估後,輸出該巴塔恰里雅距離。
  25. 如請求項24所述之語音辨識方法,其中該語音共鳴模型資料分別為語音共鳴模型曲線峰值或語音共鳴模型曲線時,該語音特徵資料分別為語音特徵數值或語音特徵曲線。
  26. 如請求項25所述之語音辨識方法,其中該巴塔恰里雅距離BC (p ,q )=∫p (x )為該語音特徵曲線,q (x )為該語音共鳴模型曲線。
  27. 如請求項19所述之語音辨識方法,其中該關鍵字具有複數音框,在接收該聲源訊號之步驟中,係連續接收每一該音框之該聲源訊號,以供後續所有步驟運作之。
  28. 如請求項27所述之語音辨識方法,其中利用該檢測門檻值判斷該正確性之步驟更包括下列步驟:利用該檢測門檻值對每一該音框對應之該空間特徵參數與該巴塔恰里雅距離進行判斷,以輸出分別代表正確與錯誤之該音框的一第一層正確旗標或一第一層錯誤旗標;接收每一該音框之該第一層正確旗標或該第一層錯誤旗標,以儲存之,直到該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標儲存完後,進行下一步驟;以及根據該所有該第一層正確旗標及該第一層錯誤旗標之數量,輸出分別代表正確與錯誤之該關鍵字的一第二層正確旗標或一第二層錯誤旗標。
  29. 如請求項28所述之語音辨識方法,其中在利用該檢測門檻值對每一該音框對應之該空間特徵參數與該巴塔恰里雅距離進行判斷,以輸出該第一層正確旗標或該第一層錯誤旗標之步驟更包括下列步驟:在該空間特徵參數與該巴塔恰里雅距離中,判斷是否至少其中一者小於或等於對應之該檢測門檻值;若是,輸出該第一層錯誤旗標;以及若否,輸出該第一層正確旗標。
  30. 如請求項28所述之語音辨識方法,其中在根據該所有該第一層正確旗標及該第一層錯誤旗標之該數量,輸出該第二層正確旗標或該第二層錯誤旗標之步驟更包括下列步驟:於該所有該第一層正確旗標及該第一層錯誤旗標中,判斷該第一層正確旗標所佔之比例,是否大於一第一層檢測值;若是,輸出該第二層正確旗標;以及若否,輸出該第二層錯誤旗標。
  31. 如請求項28所述之語音辨識方法,其中該關鍵字數量為二以上時,於輸出該第二層正確旗標或該第二層錯誤旗標後,更可進行下列步驟:接收每一該關鍵字之該第二層正確旗標或該第二層錯誤旗標,以儲存之,並在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標儲存完後,進行下一步驟;以及根據該所有該第二層正確旗標及該第二層錯誤旗標之數量,輸出分別代表正確與錯誤之該關鍵詞的一正確辨識訊號或一錯誤辨識訊號。
  32. 如請求項31所述之語音辨識方法,其中在根據該所有該第二層正確旗標及該第二層錯誤旗標之該數量,輸出該正確辨識訊號或該錯誤辨識訊號之步驟更包括下列步驟:於該所有該第二層正確旗標及該第二層錯誤旗標中,判斷該第二層正確旗標所佔之比例,是否大於一第二層檢測值;若是,輸出該正確辨識訊號;以及若否,輸出該錯誤辨識訊號。
  33. 如請求項19所述之語音辨識方法,其中在依據該角度估測值與該些聲頻訊號進行擷取之步驟中,係採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法,進行之。
TW100119556A 2011-06-03 2011-06-03 語音辨識裝置及其辨識方法 TWI406266B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100119556A TWI406266B (zh) 2011-06-03 2011-06-03 語音辨識裝置及其辨識方法
US13/177,608 US8918319B2 (en) 2011-06-03 2011-07-07 Speech recognition device and speech recognition method using space-frequency spectrum

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100119556A TWI406266B (zh) 2011-06-03 2011-06-03 語音辨識裝置及其辨識方法

Publications (2)

Publication Number Publication Date
TW201250670A TW201250670A (en) 2012-12-16
TWI406266B true TWI406266B (zh) 2013-08-21

Family

ID=47262338

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100119556A TWI406266B (zh) 2011-06-03 2011-06-03 語音辨識裝置及其辨識方法

Country Status (2)

Country Link
US (1) US8918319B2 (zh)
TW (1) TWI406266B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
TWI579828B (zh) * 2015-06-01 2017-04-21 鴻海精密工業股份有限公司 語音辨識裝置及方法
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
WO2017217978A1 (en) 2016-06-15 2017-12-21 Nuance Communications, Inc. Techniques for wake-up word recognition and related systems and methods
CN106297777B (zh) * 2016-08-11 2019-11-22 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
WO2018086033A1 (en) 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
CN111081234B (zh) * 2018-10-18 2022-03-25 珠海格力电器股份有限公司 一种语音采集方法、装置、设备及存储介质
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
TWI731391B (zh) * 2019-08-15 2021-06-21 緯創資通股份有限公司 麥克風裝置、電子裝置及其音訊信號處理方法
US11322019B2 (en) * 2019-10-23 2022-05-03 Zoox, Inc. Emergency vehicle detection
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法
CN114141272A (zh) * 2020-08-12 2022-03-04 瑞昱半导体股份有限公司 声音事件侦测系统及方法
CN113724698B (zh) * 2021-09-01 2024-01-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI262433B (en) * 2005-04-01 2006-09-21 Univ Nat Chiao Tung Voice locating system
TW200916812A (en) * 2007-10-08 2009-04-16 Univ Southern Taiwan Voice direction recognizer using fuzzy-inference structure
TW200916813A (en) * 2007-10-08 2009-04-16 Univ Southern Taiwan Voice direction recognizer using rectangular microphone-array

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1056504A (en) 1975-04-02 1979-06-12 Visvaldis A. Vitols Keyword detection in continuous speech using continuous asynchronous correlation
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
JP3711880B2 (ja) * 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
KR101034524B1 (ko) 2002-10-23 2011-05-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US8990081B2 (en) * 2008-09-19 2015-03-24 Newsouth Innovations Pty Limited Method of analysing an audio signal
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI262433B (en) * 2005-04-01 2006-09-21 Univ Nat Chiao Tung Voice locating system
TW200916812A (en) * 2007-10-08 2009-04-16 Univ Southern Taiwan Voice direction recognizer using fuzzy-inference structure
TW200916813A (en) * 2007-10-08 2009-04-16 Univ Southern Taiwan Voice direction recognizer using rectangular microphone-array

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Michael L. Seltzer, et al., "Likelihood-Maximizing Beamforming for Robust Hands-Free Speech Recognition," IEEE Transactions on Speech and Audio Processing, Vol. 12, No. 5, Sep. 2004, pp. 489-498. *

Also Published As

Publication number Publication date
TW201250670A (en) 2012-12-16
US20120310646A1 (en) 2012-12-06
US8918319B2 (en) 2014-12-23

Similar Documents

Publication Publication Date Title
TWI406266B (zh) 語音辨識裝置及其辨識方法
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US9378733B1 (en) Keyword detection without decoding
CN106486131B (zh) 一种语音去噪的方法及装置
US9495591B2 (en) Object recognition using multi-modal matching scheme
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
US20060204019A1 (en) Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
CN103794207A (zh) 一种双模语音身份识别方法
Mao et al. Automatic training set segmentation for multi-pass speech recognition
US10878812B1 (en) Determining devices to respond to user requests
JP2011191423A (ja) 発話認識装置、発話認識方法
CN106023986A (zh) 一种基于声效模式检测的语音识别方法
Adiban et al. Sut system description for anti-spoofing 2017 challenge
Upadhyaya et al. Comparative study of visual feature for bimodal Hindi speech recognition
Yoo et al. Automatic sound recognition for the hearing impaired
CN103890843B (zh) 信号噪声衰减
CN112133293A (zh) 基于生成对抗网络的短语音样本补偿方法及存储介质
Al-Karawi et al. Robust speaker verification in reverberant conditions using estimated acoustic parameters—a maximum likelihood estimation and training on the fly approach
Li et al. Voice-based recognition system for non-semantics information by language and gender
Ng et al. Small footprint multi-channel convmixer for keyword spotting with centroid based awareness
CN110875034B (zh) 用于语音识别的模板训练方法、语音识别方法及其系统
CN112820318A (zh) 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees