TWI406266B - 語音辨識裝置及其辨識方法 - Google Patents
語音辨識裝置及其辨識方法 Download PDFInfo
- Publication number
- TWI406266B TWI406266B TW100119556A TW100119556A TWI406266B TW I406266 B TWI406266 B TW I406266B TW 100119556 A TW100119556 A TW 100119556A TW 100119556 A TW100119556 A TW 100119556A TW I406266 B TWI406266 B TW I406266B
- Authority
- TW
- Taiwan
- Prior art keywords
- layer
- speech
- spatial
- flag
- correct
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 59
- 238000000605 extraction Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001175904 Labeo bata Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 235000015096 spirit Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Description
本發明係有關一種辨識技術,特別是關於一種語音辨識裝置及其語音辨識方法。
在一般語音訊號處理上,關鍵字偵測或是擷取(Keyword Detection or Spotting)是語音辨識(Speech Recognition)相當重要的一環,辨識步驟主要為先擷取語音特徵參數、為語音特徵建出模型及設定特徵參數比對方法(計算距離或相似度)。儘管語音辨識技術已經發展多年,在訊噪比高的情形下對大型詞彙庫的辨識率已經相當不錯,然而面對環境的雜訊干擾或是多人同時發聲的情況,即使是單一關鍵字的辨識率,也大多很難維持一定的水準。在現實環境中,各種不同的聲音干擾是無法避免的。
於現有技術之自動語音辨識系統中(Automatic Speech Recognition,ASR),何時可以開始進行辨識是其中一項重要的功能,該功能通常稱作按鈕(push button)或是喚醒(wake-up)。Wake-up功能運用得宜可以大量降低辨識錯誤率。一般在如電腦或手機的介面中往往以觸控或按鈕來實現,但是這個前提是所面對的裝置或機器需要在使用者的手邊。如果與使用者有一段距離,使用者往往必須配戴一無線裝置以提供可靠的wake-up訊號,在許多實際應用上這仍有其障礙。例如要命令智慧型居家服務機器人提供服務,若使用者必須一直配戴一無線裝置,在居家的情境中幾乎是不可行。因此,如何能夠在無需配戴任何裝置的情形下有效的實現wake-up功能,就成為一個實用且富挑戰性的研發題目。因為使用者不能配戴任何裝置,且提供語音辨識介面的機器很可能不在視野範圍內,因此無可避免的必須回歸到以語音來執行wake-up的功能。簡單來說,這即是單一關鍵字的辨識問題,但是其所面臨的問題是語者可能距離相當遠,或位於吵雜的環境中,因此訊噪比通常很差。其次是如同按鈕或觸控,以語音關鍵字實現wake-up也必須有幾乎100%的偵測率(detection rate)以及接近於0的偽陽性比率(false positive rate),否則將產生誤動作或反應遲鈍。
因此,本發明係在針對上述之困擾,提出一種語音辨識裝置及其語音辨識方法,以解決習知所產生的問題。
本發明之主要目的,在於提供一種語音辨識裝置及其語音辨識方法,其係運用聲源於聲音接收器陣列的特徵空間一致性,以及關鍵字語音特徵相似度,同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試,此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate)。
為達上述目的,本發明提供一種語音辨識裝置,其係接收至少一關鍵詞以進行辨識,此關鍵詞包括至少一關鍵字,語音辨識裝置包括一聲音接收器陣列,用以接收關鍵字之一聲源訊號,以產生複數聲音訊號。聲音接收器陣列連接一頻域轉換器,其係接收聲音訊號,並將其轉換至頻域,形成複數聲頻訊號。頻域轉換器連接一空間特徵擷取器與一語音特徵擷取評估裝置,且空間特徵擷取器與語音特徵擷取評估裝置相互連接。空間特徵擷取器接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值,另語音特徵擷取評估裝置接收角度估測值與聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離。空間特徵擷取器更連接一空間評估器,其係接收空間頻譜,以定義至少一空間特徵參數輸出之。空間評估器與語音特徵擷取評估裝置皆連接一偵測裝置,其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值,此偵測裝置接收空間特徵參數與巴塔恰里雅距離,並利用檢測門檻值判斷關鍵詞之正確性。
本發明亦提供一種語音辨識方法,其係接收至少一關鍵詞以進行辨識,此關鍵詞包括至少一關鍵字。首先,接收關鍵字之一聲源訊號,以產生複數聲音訊號,進而將其轉換至頻域,形成複數聲頻訊號。接著,接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值。再來,接收空間頻譜、角度估測值與聲頻訊號,以利用空間頻譜定義至少一空間特徵參數輸出之,並依據角度估測值與聲頻訊號進行擷取與評估,輸出一巴塔恰里雅距離。最後,接收空間特徵參數與巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷關鍵詞之正確性。
茲為使 貴審查委員對本發明之結構特徵及所達成之功效更有進一步之瞭解與認識,謹佐以較佳之實施例圖及配合詳細之說明,說明如後:
本發明的要點乃基於目標關鍵字語音共鳴曲線相似度(Resonant Curve Similarity)的波形特徵,同時亦須具備空間特徵一致性(Spatial Eigenspace Consistency),例如某一關鍵詞可能包含三個關鍵字,以特定之先後順序組合而成。因此這三個關鍵字必須有同樣的特徵空間,若是以聲音傳遞到麥克風陣列的情況而言,代表這三個字必須為同一聲源來向。其次,一旦這個關係符合,其所擷取的特徵空間訊號便可以用來進一步計算其與目標關鍵字的波型相似度,此一優點為特徵空間的訊號較不易受到環境干擾,因而可以大量提升其語音辨識度,換言之,此技術可用在遠距關鍵字語音偵測或者在吵雜的環境下,作為關鍵字語音喚醒機制。實施方式如下所述:請參閱第1圖與第2圖,本發明之語音辨識裝置,係接收至少一關鍵詞以進行辨識,關鍵詞包括至少一關鍵字,且關鍵字具有複數音框。語音辨識裝置包括一聲音接收器陣列10,如麥克風陣列,聲音接收器陣列10係包括複數個接收器12,並呈環形排列,並位於一平面上,此環形排列具有一中心點,中心點與環形排列之周邊相距R,此平面以中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z。聲音接收器陣列10係連續接收關鍵字之每一音框之一聲源訊號,以產生複數聲音訊號。聲源訊號之聲源點與上述中心點及平面係形成一垂直上述平面之三角面,此三角面之底邊與橫軸X夾有φ角,斜邊與縱軸Z夾有θ角。聲音接收器陣列10連接一頻域轉換器14,如快速傅立葉轉換(FFT)器或離散餘弦轉換(discrete cosine transform,DCT)器,頻域轉換器14係接收聲音訊號,並將其轉換至頻域,形成複數聲頻訊號。
頻域轉換器14連接一空間特徵擷取器16,且空間特徵擷取器16與一空間評估器18連接,空間特徵擷取器16接收聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值,其中空間頻譜可表示為,其中f
=1...F
,F
代表快速傅立葉轉換尺寸(FFT size),ω f
為頻率,a
(θ
,ω f
)與a H
(θ
,ω f
)分別為進行轉置(tranpose)及共軛(conjugate)之a T
(θ
,ω f
),a T
(θ
,ω f
)
,t
為時間,c
為光速,M
為聲音接收器陣列10之接收器12數量,為利用聲頻訊號得到之資料相關矩陣R XX
之特徵向量;資料相關矩陣可表示為R X X
(ω f
,k
)=E
(X
(ω f
,k
),X
(ω f
,k
) H
),X
(ω f
,k
)為聲頻訊號,且資料相關矩陣,λ i
(ω f
)為資料相關矩陣之特徵值。另外,空間評估器18則接收空間頻譜,以定義至少一空間特徵參數輸出之。此外,空間評估器18更可同時接收空間頻譜與角度估測值,以分別定義二空間特徵參數輸出之,且在此實施例中,係以此種方式為例,其中空間頻譜定義之空間特徵參數為角度估測量值,D
為正規化因子(normalized factor),F
'為共振峰對應之頻帶(formant frequency bands);角度估測值定義之空間特徵參數為角度估測變異數x 2
=var((ω f
)),且f F
'。第3(a)圖與第3(b)圖分別表示關鍵字與非關鍵字之角度估測量值之統計分佈,由於角度估測量值為分佈圖中的峰值處,所以若偵測字為關鍵字時,角度估測量值較大,為非關鍵字時,角度估測量值較小。另第4(a)圖與第4(b)圖分別表示關鍵字與非關鍵字之角度估測變異數之統計分佈,由於角度估測變異數為分佈圖中的離散程度,因此若偵測字為關鍵字時,角度估測變異數較小,為非關鍵字時,角度估測變異數較大。換言之,由角度估測量值與角度估測變異數可以驗證聲源訊號之特徵空間一致性。
繼續如第1圖所示,空間特徵擷取器16與頻域轉換器14連接一語音特徵擷取評估裝置20,其係接收角度估測值與聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離。空間評估器18與語音特徵擷取評估裝置20更連接一偵測裝置22,其係預設有與空間特徵參數與巴塔恰里雅距離對應之檢測門檻值,偵測裝置22接收空間特徵參數與巴塔恰里雅距離,並利用檢測門檻值判斷關鍵詞之正確性。
語音特徵擷取評估裝置20更包括一語音模型資料庫24、一語音特徵擷取器26與一語音評估器28,語音模型資料庫24係存有複數種語音共鳴模型資料。語音特徵擷取器26連接空間特徵擷取器16與頻域轉換器14,並接收角度估測值與聲頻訊號,以據此擷取一語音特徵資料。上述語音共鳴模型資料可分別為語音共鳴模型曲線峰值或語音共鳴模型曲線兩種,為了對應此兩種模型資料,則語音特徵資料亦分別為語音特徵數值或語音特徵曲線。語音評估器28連接語音特徵擷取器26與語音模型資料庫24,並接收語音特徵資料,語音評估器28從語音模型資料庫24取出與語音特徵資料對應之語音共鳴模型資料,以對語音特徵資料進行評估後,輸出巴塔恰里雅距離。在此實施例中,語音共鳴模型資料與語音特徵資料分別以語音共鳴模型曲線及語音特徵曲線為例,如第5(a)圖與第5(b)圖所示,在此兩張圖中,皆分別有兩條曲線,其一在上,為語音共鳴模型曲線,另一在下,為語音特徵曲線,語音評估器28會將兩種曲線進行評估,以輸出巴塔恰里雅距離,其可表示為BC
(p
,q
)=∫,p
(x
)為語音特徵曲線,q
(x
)為語音共鳴模型曲線。此外,當語音共鳴模型資料與語音特徵資料分別為語音共鳴模型曲線峰值及語音特徵數值時,語音共鳴模型曲線峰值及語音特徵數值分別代表語音共鳴模型曲線及語音特徵曲線之波峰處的強度。
請繼續參閱第1圖,偵測裝置22更包括作為一偵測器30之串聯式偵測器、一第一層、第二層儲存判斷器32、34。偵測器30連接空間評估器18與語音特徵擷取評估裝置20之語音評估器28,並接收每一音框對應之空間特徵參數與巴塔恰里雅距離,偵測器30預設有檢測門檻值,並據此對空間特徵參數與巴塔恰里雅距離進行檢測,以輸出分別代表正確與錯誤之音框的一第一層正確旗標或一第一層錯誤旗標。舉例來說,偵測器30在空間特徵參數與巴塔恰里雅距離中,至少其中一者小於或等於對應之檢測門檻值時,則輸出第一層錯誤旗標,在空間特徵參數與巴塔恰里雅距離皆大於對應之該檢測門檻值時,則輸出第一層正確旗標。
第一層儲存判斷器32連接偵測器30,並接收每一音框之第一層正確旗標或第一層錯誤旗標,以儲存之,在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之關鍵字的一第二層正確旗標或一第二層錯誤旗標。舉例來說,第一層儲存判斷器32預設有一第一層檢測值,在關鍵字對應之所有第一層正確旗標及第一層錯誤旗標中,第一層儲存判斷器32利用第一層檢測值檢測第一層正確旗標之比例,當此比例大於第一層檢測值時,第一層儲存判斷器32輸出第二層正確旗標,當比例小於或等於第一層檢測值時,第一層儲存判斷器32輸出第二層錯誤旗標。
第二層儲存判斷器34連接第一層儲存判斷器32,在關鍵字數量為二以上時,第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標,以儲存之,並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之關鍵詞的一正確辨識訊號或一錯誤辨識訊號。舉例來說,第二層儲存判斷器34預設有一第二層檢測值,在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標中,第二層儲存判斷器34利用第二層檢測值檢測第二層正確旗標之比例,當此比例大於第二層檢測值時,第二層儲存判斷器34輸出正確辨識訊號,當比例小於或等於第二層檢測值時,第二層儲存判斷器34輸出錯誤辨識訊號。由於關鍵字都會來自同一聲源方向,因此,本發明運用聲源於聲音接收器陣列的特徵空間一致性,以及關鍵字語音特徵相似度,同時利用偵測裝置結合各別特徵辨識結果以計算出所指定之語音關鍵字是否有存在的機制。經大量的語料測試,此語音辨識技術可在-3.82分貝(dB)的訊噪比之下達成100%的偵測率(detection rate)以及10.32%的偽陽性比率(false positive rate),換言之,本發明之技術在極低訊噪比之環境下,仍達成相當強健的語音辨識率,因而可以適用在遠距關鍵字語音偵測或者在吵雜的環境下,作為關鍵字語音喚醒機制。
請同時參閱第6圖,以下介紹語音辨識方法之流程。
首先,如步驟S10所示,聲音接收器陣列10連續接收關鍵字之每一音框之聲源訊號,以產生聲音訊號。接著,如步驟S12所示,頻域轉換器14接收聲音訊號,並將其轉換至頻域,以形成聲頻訊號。再來,如步驟S14所示,空間特徵擷取器16接收聲頻訊號,以藉此擷取出空間頻譜及其角度估測值。接續之,如步驟S16所示,空間評估器18接收空間頻譜,以利用空間頻譜定義至少一空間特徵參數輸出之,同時,語音特徵擷取評估裝置20接收角度估測值與聲頻訊號,並依據角度估測值與聲頻訊號進行擷取與評估,輸出巴塔恰里雅距離,其中擷取的方式可採用採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法。此外,在步驟S16中,空間評估器18除了接收空間頻譜,以定義至少一空間特徵參數輸出之之外,亦可同時接收空間頻譜與角度估測值,以定義至少二空間特徵參數輸出之,且在此實施例中,係以此種方式為例,其中由空間頻譜定義之空間特徵參數為角度估測量值;由角度估測值定義之空間特徵參數為角度估測變異數。最後,如步驟S18所示,偵測裝置22接收空間特徵參數與巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷關鍵詞之正確性。
在上述流程中,其中語音特徵擷取評估裝置20在依據角度估測值與聲頻訊號進行擷取與評估,以輸出巴塔恰里雅距離之步驟中,更可以下列步驟實施之。首先,語音特徵擷取器26係依據角度估測值與聲頻訊號擷取一語音特徵資料。接著,語音評估器28接收語音特徵資料,並從存於語音模型資料庫24裡的複數種語音共鳴模型資料中,取出與語音特徵資料對應之語音共鳴模型資料,以對語音特徵資料進行評估後,輸出巴塔恰里雅距離。
另外,偵測裝置22利用檢測門檻值判斷關鍵詞之正確性之步驟更可以下列步驟實施之。請同時參閱第1圖與第7圖。首先,如步驟S20所示,偵測器30利用檢測門檻值對每一音框對應之空間特徵參數與巴塔恰里雅距離進行判斷,以輸出分別代表正確與錯誤之音框的第一層正確旗標或第一層錯誤旗標。此步驟S20可以下列子步驟實施之,例如,偵測器30在空間特徵參數與巴塔恰里雅距離中,判斷是否至少其中一者小於或等於對應之檢測門檻值,若是,輸出第一層錯誤旗標;若否,輸出第一層正確旗標。
接著,如步驟S22所示,第一層儲存判斷器32接收每一音框之第一層正確旗標或第一層錯誤旗標,以儲存之,直到關鍵字對應之所有第一層正確旗標及第一層錯誤旗標儲存完後,進行步驟S24。在步驟S24中,第一層儲存判斷器32係根據所有第一層正確旗標及第一層錯誤旗標之數量,輸出分別代表正確與錯誤之關鍵字的第二層正確旗標或第二層錯誤旗標。此步驟S24可以下列子步驟實施之,例如,由於第一層儲存判斷器32預設第一層檢測值,因此,第一層儲存判斷器32於所有第一層正確旗標及第一層錯誤旗標中,判斷第一層正確旗標所佔之比例,是否大於第一層檢測值,若是,輸出第二層正確旗標;若否,輸出第二層錯誤旗標。
當關鍵字數量為二以上時,於步驟S24後,更可進行下列步驟,首先如步驟S26所示,第二層儲存判斷器34接收每一關鍵字之第二層正確旗標或第二層錯誤旗標,以儲存之,並在關鍵詞對應之所有第二層正確旗標及第二層錯誤旗標儲存完後,進行步驟S28。在步驟S28中,第二層儲存判斷器34根據所有第二層正確旗標及第二層錯誤旗標之數量,輸出分別代表正確與錯誤之關鍵詞的正確辨識訊號或錯誤辨識訊號。此步驟S28可以下列子步驟實施之,例如,由於第二層儲存判斷器34預設第二層檢測值,因此,第二層儲存判斷器34於所有第二層正確旗標及第二層錯誤旗標中,判斷第二層正確旗標所佔之比例,是否大於第二層檢測值,若是,輸出正確辨識訊號;若否,輸出錯誤辨識訊號。
綜上所述,本發明結合語音關鍵字的空間一致性判斷與關鍵字語音共鳴曲線相似度的判斷,以提升關鍵字偵測的強健性。
以上所述者,僅為本發明一較佳實施例而已,並非用來限定本發明實施之範圍,故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾,均應包括於本發明之申請專利範圍內。
10...聲音接收器陣列
12...接收器
14...頻域轉換器
16...空間特徵擷取器
18...空間評估器
20...語音特徵擷取評估裝置
22...偵測裝置
24...語音模型資料庫
26...語音特徵擷取器
28...語音評估器
30...偵測器
32...第一層儲存判斷器
34...第二層儲存判斷器
第1圖為本發明之裝置方塊圖。
第2圖為本發明之聲音接收器陣列與聲源點之相關位置立體圖。
第3(a)圖為本發明之關鍵字之角度估測量值統計分佈圖。
第3(b)圖為本發明之非關鍵字之角度估測量值統計分佈圖。
第4(a)圖為本發明之關鍵字之角度估測變異數統計分佈圖。
第4(b)圖為本發明之非關鍵字之角度估測變異數統計分佈圖。
第5(a)圖與第5(b)圖分別為本發明之不同關鍵字之語音共鳴模型曲線與語音特徵曲線波形圖。
第6圖為本發明之語音辨識方法流程圖。
第7圖為本發明之判斷關鍵詞之正確性之流程圖。
10...聲音接收器陣列
14...頻域轉換器
16...空間特徵擷取器
18...空間評估器
20...語音特徵擷取評估裝置
22...偵測裝置
24...語音模型資料庫
26...語音特徵擷取器
28...語音評估器
30...偵測器
32...第一層儲存判斷器
34...第二層儲存判斷器
Claims (33)
- 一種語音辨識裝置,其係接收至少一關鍵詞以進行辨識,該關鍵詞包括至少一關鍵字,該語音辨識裝置包括:一聲音接收器陣列,接收該關鍵字之一聲源訊號,以產生複數聲音訊號;一頻域轉換器,連接該聲音接收器陣列,以接收該些聲音訊號,並將其轉換至頻域,形成複數聲頻訊號;一空間特徵擷取器,連接該頻域轉換器,並接收該些聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值;一空間評估器,連接該空間特徵擷取器,並接收該空間頻譜,以定義至少一空間特徵參數輸出之;一語音特徵擷取評估裝置,其係連接該空間特徵擷取器與該頻域轉換器,並接收該角度估測值與該些聲頻訊號,以據此進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離;以及一偵測裝置,連接該空間評估器與該語音特徵擷取評估裝置,並預設有與該空間特徵參數與該巴塔恰里雅距離對應之檢測門檻值,該偵測裝置接收該空間特徵參數與該巴塔恰里雅距離,並利用該檢測門檻值判斷該關鍵詞之正確性。
- 如請求項1所述之語音辨識裝置,其中該聲音接收器陣列呈環形排列,並位於一平面上,該環形排列具有一中心點,該中心點與該環形排列之周邊相距R,該平面以該中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z,該聲源訊號之聲源點與該中心點及該平面係形成一垂直該平面之三角面,該三角面之底邊與該橫軸夾有φ角,斜邊與該縱軸夾有θ角;該空間頻譜可表示為,其中f =1...F ,F 代表快速傅立葉轉換尺寸(FFT size),ω f 為頻率,a (θ ,ω f )與a H (θ ,ω f )分別為進行轉置(tranpose)及共軛(conjugate)之a T (θ ,ω f ),a T (θ ,ω f )
- 如請求項2所述之語音辨識裝置,其中該角度估測值
- 如請求項2所述之語音辨識裝置,其中該空間評估器更同時接收該空間頻譜與該角度估測值,以分別定義二該空間特徵參數輸出之。
- 如請求項4所述之語音辨識裝置,其中該空間頻譜定義之該空間特徵參數為角度估測量值,D為正規化因子(normalized factor),F '為共振峰對應之頻帶(formant frequency bands);以及該角度估測值定義之該空間特徵參數為角度估測變異數x 2 =var((ω f )),且f F '。
- 如請求項1所述之語音辨識裝置,其中該語音特徵擷取評估裝置更包括:一語音模型資料庫,存有複數種語音共鳴模型資料;一語音特徵擷取器,連接該空間特徵擷取器與該頻域轉換器,並接收該角度估測值與該些聲頻訊號,以據此擷取一語音特徵資料;以及一語音評估器,連接該語音特徵擷取器與該語音模型資料庫,並接收該語音特徵資料,該語音評估器從該語音模型資料庫取出與該語音特徵資料對應之該語音共鳴模型資料,以對該語音特徵資料進行評估後,輸出該巴塔恰里雅距離。
- 如請求項6所述之語音辨識裝置,其中該語音共鳴模型資料分別為語音共鳴模型曲線峰值或語音共鳴模型曲線時,該語音特徵資料分別為語音特徵數值或語音特徵曲線。
- 如請求項7所述之語音辨識裝置,其中該巴塔恰里雅距離BC (p ,q )=∫,p (x )為該語音特徵曲線,q (x )為該語音共鳴模型曲線。
- 如請求項1所述之語音辨識裝置,其中該關鍵字具有複數音框,該聲音接收器陣列連續接收每一該音框之該聲源訊號,以供該頻域轉換器、該空間特徵擷取器、該空間評估器、該語音特徵擷取評估裝置及該偵測裝置運作之。
- 如請求項9所述之語音辨識裝置,其中該偵測裝置更包括:一偵測器,連接該空間評估器與該語音特徵擷取評估裝置,並接收每一該音框對應之該空間特徵參數與該巴塔恰里雅距離,該偵測器預設有該檢測門檻值,並據此對該空間特徵參數與該巴塔恰里雅距離進行檢測,以輸出分別代表正確與錯誤之該音框的一第一層正確旗標或一第一層錯誤旗標;以及一第一層儲存判斷器,連接該偵測器,並接收每一該音框之該第一層正確旗標或該第一層錯誤旗標,以儲存之,在該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之該關鍵字的一第二層正確旗標或一第二層錯誤旗標。
- 如請求項10所述之語音辨識裝置,其中該偵測器在該空間特徵參數與該巴塔恰里雅距離中,至少其中一者小於或等於對應之該檢測門檻值時,則輸出該第一層錯誤旗標,在該空間特徵參數與該巴塔恰里雅距離皆大於對應之該檢測門檻值時,則輸出該第一層正確旗標。
- 如請求項10所述之語音辨識裝置,其中該第一層儲存判斷器預設有一第一層檢測值,在該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標中,該第一層儲存判斷器利用該第一層檢測值檢測該第一層正確旗標之比例,該比例大於該第一層檢測值時,該第一層儲存判斷器輸出該第二層正確旗標,該比例小於或等於該第一層檢測值時,該第一層儲存判斷器輸出該第二層錯誤旗標。
- 如請求項10所述之語音辨識裝置,更包括一第二層儲存判斷器,其係連接該第一層儲存判斷器,在該關鍵字數量為二以上時,該第二層儲存判斷器接收每一該關鍵字之該第二層正確旗標或該第二層錯誤旗標,以儲存之,並在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標儲存完後,則據其數量輸出分別代表正確與錯誤之該關鍵詞的一正確辨識訊號或一錯誤辨識訊號。
- 如請求項13所述之語音辨識裝置,其中該第二層儲存判斷器預設有一第二層檢測值,在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標中,該第二層儲存判斷器利用該第二層檢測值檢測該第二層正確旗標之比例,該比例大於該第二層檢測值時,該第二層儲存判斷器輸出該正確辨識訊號,該比例小於或等於該第二層檢測值時,該第二層儲存判斷器輸出該錯誤辨識訊號。
- 如請求項10所述之語音辨識裝置,其中該偵測器為串聯式偵測器。
- 如請求項1所述之語音辨識裝置,其中該語音特徵擷取評估裝置採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法,以根據該角度估測值與該些聲頻訊號進行擷取。
- 如請求項1所述之語音辨識裝置,其中該聲音接收器陣列為麥克風陣列。
- 如請求項1所述之語音辨識裝置,其中該頻域轉換器為快速傅立葉轉換(FFT)器或離散餘弦轉換(discrete cosine transform,DCT)器。
- 一種語音辨識方法,其係接收至少一關鍵詞以進行辨識,該關鍵詞包括至少一關鍵字,該語音辨識方法包括下列步驟:接收該關鍵字之一聲源訊號,以產生複數聲音訊號;轉換該些聲音訊號至頻域,形成複數聲頻訊號;接收該些聲頻訊號,以藉此擷取出一空間頻譜及其角度估測值;接收該空間頻譜、該角度估測值與該些聲頻訊號,以利用該空間頻譜定義至少一空間特徵參數輸出之,並依據該角度估測值與該些聲頻訊號進行擷取與評估,輸出一巴塔恰里雅(Bhattacharyya)距離;以及接收該空間特徵參數與該巴塔恰里雅距離,以利用與其對應之檢測門檻值判斷該關鍵詞之正確性。
- 如請求項19所述之語音辨識方法,其中該些聲音訊號由一聲音接收器陣列接收之,該聲音接收器陣列呈環形排列,並位於一平面上,該環形排列具有一中心點,該中心點與該環形排列之周邊相距R,該平面以該中心點為原點,定義出互相垂直之橫軸X、直軸Y與縱軸Z,該聲源訊號之聲源點與該中心點及該平面係形成一垂直該平面之三角面,該三角面之底邊與該橫軸夾有φ角,斜邊與該縱軸夾有θ角;該空間頻譜可表示為,其中f =1...F ,F 代表快速傅立葉轉換尺寸(FFT size),ω f 為頻率,a (θ ,ω f )與a H (θ,ω f )分別為進行轉置(tranpose)及共軛(conjugate)之a T (θ ,ω f ),a T (θ ,ω f )
- 如請求項20所述之語音辨識方法,其中該角度估測值
- 如請求項20所述之語音辨識方法,其中在利用該空間頻譜定義該空間特徵參數輸出之之步驟中,係同時利用該空間頻譜與該角度估測值,定義二該空間特徵參數輸出之。
- 如請求項22所述之語音辨識方法,其中該空間頻譜定義之該空間特徵參數為角度估測量值,D為正規化因子(normalized factor),F '為共振峰對應之頻帶(formant frequency bands);以及該角度估測值定義之該空間特徵參數為角度估測變異數x 2 =var((ω f )),且f F '。
- 如請求項19所述之語音辨識方法,其中在依據該角度估測值與該些聲頻訊號進行擷取與評估,以輸出該巴塔恰里雅距離之步驟中,更包括下列步驟:依據該角度估測值與該些聲頻訊號擷取一語音特徵資料;以及接收該語音特徵資料,並從複數種語音共鳴模型資料中取出與該語音特徵資料對應之該語音共鳴模型資料,以對該語音特徵資料進行評估後,輸出該巴塔恰里雅距離。
- 如請求項24所述之語音辨識方法,其中該語音共鳴模型資料分別為語音共鳴模型曲線峰值或語音共鳴模型曲線時,該語音特徵資料分別為語音特徵數值或語音特徵曲線。
- 如請求項25所述之語音辨識方法,其中該巴塔恰里雅距離BC (p ,q )=∫,p (x )為該語音特徵曲線,q (x )為該語音共鳴模型曲線。
- 如請求項19所述之語音辨識方法,其中該關鍵字具有複數音框,在接收該聲源訊號之步驟中,係連續接收每一該音框之該聲源訊號,以供後續所有步驟運作之。
- 如請求項27所述之語音辨識方法,其中利用該檢測門檻值判斷該正確性之步驟更包括下列步驟:利用該檢測門檻值對每一該音框對應之該空間特徵參數與該巴塔恰里雅距離進行判斷,以輸出分別代表正確與錯誤之該音框的一第一層正確旗標或一第一層錯誤旗標;接收每一該音框之該第一層正確旗標或該第一層錯誤旗標,以儲存之,直到該關鍵字對應之所有該第一層正確旗標及該第一層錯誤旗標儲存完後,進行下一步驟;以及根據該所有該第一層正確旗標及該第一層錯誤旗標之數量,輸出分別代表正確與錯誤之該關鍵字的一第二層正確旗標或一第二層錯誤旗標。
- 如請求項28所述之語音辨識方法,其中在利用該檢測門檻值對每一該音框對應之該空間特徵參數與該巴塔恰里雅距離進行判斷,以輸出該第一層正確旗標或該第一層錯誤旗標之步驟更包括下列步驟:在該空間特徵參數與該巴塔恰里雅距離中,判斷是否至少其中一者小於或等於對應之該檢測門檻值;若是,輸出該第一層錯誤旗標;以及若否,輸出該第一層正確旗標。
- 如請求項28所述之語音辨識方法,其中在根據該所有該第一層正確旗標及該第一層錯誤旗標之該數量,輸出該第二層正確旗標或該第二層錯誤旗標之步驟更包括下列步驟:於該所有該第一層正確旗標及該第一層錯誤旗標中,判斷該第一層正確旗標所佔之比例,是否大於一第一層檢測值;若是,輸出該第二層正確旗標;以及若否,輸出該第二層錯誤旗標。
- 如請求項28所述之語音辨識方法,其中該關鍵字數量為二以上時,於輸出該第二層正確旗標或該第二層錯誤旗標後,更可進行下列步驟:接收每一該關鍵字之該第二層正確旗標或該第二層錯誤旗標,以儲存之,並在該關鍵詞對應之所有該第二層正確旗標及該第二層錯誤旗標儲存完後,進行下一步驟;以及根據該所有該第二層正確旗標及該第二層錯誤旗標之數量,輸出分別代表正確與錯誤之該關鍵詞的一正確辨識訊號或一錯誤辨識訊號。
- 如請求項31所述之語音辨識方法,其中在根據該所有該第二層正確旗標及該第二層錯誤旗標之該數量,輸出該正確辨識訊號或該錯誤辨識訊號之步驟更包括下列步驟:於該所有該第二層正確旗標及該第二層錯誤旗標中,判斷該第二層正確旗標所佔之比例,是否大於一第二層檢測值;若是,輸出該正確辨識訊號;以及若否,輸出該錯誤辨識訊號。
- 如請求項19所述之語音辨識方法,其中在依據該角度估測值與該些聲頻訊號進行擷取之步驟中,係採用線性預估編碼(Linear Predictive Coding,LPC)法或梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)法,進行之。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100119556A TWI406266B (zh) | 2011-06-03 | 2011-06-03 | 語音辨識裝置及其辨識方法 |
US13/177,608 US8918319B2 (en) | 2011-06-03 | 2011-07-07 | Speech recognition device and speech recognition method using space-frequency spectrum |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100119556A TWI406266B (zh) | 2011-06-03 | 2011-06-03 | 語音辨識裝置及其辨識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201250670A TW201250670A (en) | 2012-12-16 |
TWI406266B true TWI406266B (zh) | 2013-08-21 |
Family
ID=47262338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100119556A TWI406266B (zh) | 2011-06-03 | 2011-06-03 | 語音辨識裝置及其辨識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8918319B2 (zh) |
TW (1) | TWI406266B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
TWI579828B (zh) * | 2015-06-01 | 2017-04-21 | 鴻海精密工業股份有限公司 | 語音辨識裝置及方法 |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9805714B2 (en) * | 2016-03-22 | 2017-10-31 | Asustek Computer Inc. | Directional keyword verification method applicable to electronic device and electronic device using the same |
WO2017217978A1 (en) | 2016-06-15 | 2017-12-21 | Nuance Communications, Inc. | Techniques for wake-up word recognition and related systems and methods |
CN106297777B (zh) * | 2016-08-11 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
WO2018086033A1 (en) | 2016-11-10 | 2018-05-17 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
CN108447472B (zh) * | 2017-02-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语音唤醒方法及装置 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
CN111081234B (zh) * | 2018-10-18 | 2022-03-25 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
TWI731391B (zh) * | 2019-08-15 | 2021-06-21 | 緯創資通股份有限公司 | 麥克風裝置、電子裝置及其音訊信號處理方法 |
US11322019B2 (en) * | 2019-10-23 | 2022-05-03 | Zoox, Inc. | Emergency vehicle detection |
TWI736117B (zh) * | 2020-01-22 | 2021-08-11 | 瑞昱半導體股份有限公司 | 聲音定位裝置與方法 |
CN114141272A (zh) * | 2020-08-12 | 2022-03-04 | 瑞昱半导体股份有限公司 | 声音事件侦测系统及方法 |
CN113724698B (zh) * | 2021-09-01 | 2024-01-30 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI262433B (en) * | 2005-04-01 | 2006-09-21 | Univ Nat Chiao Tung | Voice locating system |
TW200916812A (en) * | 2007-10-08 | 2009-04-16 | Univ Southern Taiwan | Voice direction recognizer using fuzzy-inference structure |
TW200916813A (en) * | 2007-10-08 | 2009-04-16 | Univ Southern Taiwan | Voice direction recognizer using rectangular microphone-array |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1056504A (en) | 1975-04-02 | 1979-06-12 | Visvaldis A. Vitols | Keyword detection in continuous speech using continuous asynchronous correlation |
US6571210B2 (en) * | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
JP3711880B2 (ja) * | 2001-03-09 | 2005-11-02 | ヤマハ株式会社 | 音声分析及び合成装置、方法、プログラム |
KR101034524B1 (ko) | 2002-10-23 | 2011-05-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 |
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
US8990081B2 (en) * | 2008-09-19 | 2015-03-24 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
-
2011
- 2011-06-03 TW TW100119556A patent/TWI406266B/zh not_active IP Right Cessation
- 2011-07-07 US US13/177,608 patent/US8918319B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI262433B (en) * | 2005-04-01 | 2006-09-21 | Univ Nat Chiao Tung | Voice locating system |
TW200916812A (en) * | 2007-10-08 | 2009-04-16 | Univ Southern Taiwan | Voice direction recognizer using fuzzy-inference structure |
TW200916813A (en) * | 2007-10-08 | 2009-04-16 | Univ Southern Taiwan | Voice direction recognizer using rectangular microphone-array |
Non-Patent Citations (1)
Title |
---|
Michael L. Seltzer, et al., "Likelihood-Maximizing Beamforming for Robust Hands-Free Speech Recognition," IEEE Transactions on Speech and Audio Processing, Vol. 12, No. 5, Sep. 2004, pp. 489-498. * |
Also Published As
Publication number | Publication date |
---|---|
TW201250670A (en) | 2012-12-16 |
US20120310646A1 (en) | 2012-12-06 |
US8918319B2 (en) | 2014-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI406266B (zh) | 語音辨識裝置及其辨識方法 | |
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US9378733B1 (en) | Keyword detection without decoding | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
US9495591B2 (en) | Object recognition using multi-modal matching scheme | |
CN109599124A (zh) | 一种音频数据处理方法、装置及存储介质 | |
US20060204019A1 (en) | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
US10242677B2 (en) | Speaker dependent voiced sound pattern detection thresholds | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
Mao et al. | Automatic training set segmentation for multi-pass speech recognition | |
US10878812B1 (en) | Determining devices to respond to user requests | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
CN106023986A (zh) | 一种基于声效模式检测的语音识别方法 | |
Adiban et al. | Sut system description for anti-spoofing 2017 challenge | |
Upadhyaya et al. | Comparative study of visual feature for bimodal Hindi speech recognition | |
Yoo et al. | Automatic sound recognition for the hearing impaired | |
CN103890843B (zh) | 信号噪声衰减 | |
CN112133293A (zh) | 基于生成对抗网络的短语音样本补偿方法及存储介质 | |
Al-Karawi et al. | Robust speaker verification in reverberant conditions using estimated acoustic parameters—a maximum likelihood estimation and training on the fly approach | |
Li et al. | Voice-based recognition system for non-semantics information by language and gender | |
Ng et al. | Small footprint multi-channel convmixer for keyword spotting with centroid based awareness | |
CN110875034B (zh) | 用于语音识别的模板训练方法、语音识别方法及其系统 | |
CN112820318A (zh) | 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |