TWI442384B

TWI442384B - 以麥克風陣列為基礎之語音辨識系統與方法

Info

Publication number: TWI442384B
Application number: TW100126376A
Authority: TW
Inventors: Hsien Cheng Liao
Original assignee: Ind Tech Res Inst
Priority date: 2011-07-26
Filing date: 2011-07-26
Publication date: 2014-06-21
Also published as: CN102903360A; US20130030803A1; CN102903360B; TW201306024A; US8744849B2

Description

以麥克風陣列為基礎之語音辨識系統與方法

本揭露係關於一種以麥克風陣列為基礎(Microphone-Array-Based)之語音辨識系統與方法。

近年來，行動裝置如平板電腦、手機等使用者數量大增，車用電子與機器人也發展快速。這些領域都可看出未來的語音應用需求將快速的成長。Google的Nexus One和Motorola的Droid將主動噪音消除(Active Noise Cancellation，ANC)技術帶到手機市場，改善了語音應用的輸入端，而使得後端的語音辨識或其應用表現得更好，讓使用者可以得到更好的體驗。手機製造商近年來也在手機噪音消除的技術上積極地進行研究。

常見的強健式(Robust)語音辨識技術有兩類。一類為二階段式強健式語音辨識技術，此類技術先將語音訊號增強後，再將增強後之訊號傳送至語音辨識器進行辨識。例如，利用兩個適應性濾波器(Adaptive Filter)或是以預先訓練之語音與噪音模型結合演算法來調整適應性濾波器，先將語音訊號增強後，再將增強後之訊號傳送至語音辨識器。另一類為利用語音模型(speech model)做為適應性濾波器調整參數的依據，但沒有考量干擾噪音的資訊，其語音訊號增強所根據的準則為最大相似度(maximum likelihood)，也就是說，增強後的語音訊號與語音模型越像越好。

第一圖所示的是一種雙麥克風語音增強(Dual-Microphone Speech Enhancement)技術中，其濾波器調整參數的範例流程。此語音增強技術是先利用重新錄製與濾波後的語料來訓練出單一語音模型110後，再利用相似度最大化的條件來調整噪音遮蔽的參數γ，也就是說，此語音增強技術判斷的準則是通過相位誤差時頻濾波器(phase-difference-based time-frequency filtering)105出來的增強的語音訊號(enhanced speech)105a與語音模型110越相似越好。語音模型110訓練所需語料須重新錄製並加以濾波，且沒有考量噪音的資訊，因此測試環境與訓練環境的設定會有不匹配的可能。

雙麥克風或多麥克風的麥克風陣列噪音消除技術具有不錯的抗噪效果。然而在不同的使用環境下，麥克風抗噪的能力並不相同。如何能夠調整麥克風陣列參數以使得語音辨識正確率能夠增加，提供更好的使用者體驗，是非常值得研究與發展的。

本揭露實施例可提供一種以麥克風陣列為基礎之語音辨識系統與方法。

所揭露的一實施例是關於一種以麥克風陣列為基礎之語音辨識系統。此系統結合一噪音遮蔽模組(noise masking module)，以對來自一麥克風陣列的輸入語音，根據輸入的一門檻值執行一噪音消除處理，此系統可包含至少一語音模型(speech model)與至少一填充模型(filler model)以分別接收該噪音遮蔽模組輸出的一噪音消除後的語音訊號，以及一信心值計算模組(confidence computation module)與一門檻值調整模組(threshold adjustment module)。對於此門檻值與此噪音消除後的一語音訊號，此信心值計算模組利用此至少一語音模型與此至少一填充模型，計算出一信心值。此門檻值調整模組調整此門檻值並提供給此噪音遮蔽模組來繼續執行此噪音消除處理，以使得此信心值計算模組計算出的信心值達到最大化，然後輸出可讓此信心值達到最大化的一語音辨識結果的資訊。

所揭露的一實施例是關於一種以麥克風陣列為基礎之語音辨識系統。此系統結合一噪音遮蔽模組，以對來自一麥克風陣列的輸入語音，根據輸入的一門檻值的預定範圍內的多個門檻值的每一門檻值，來執行一噪音消除處理，此系統可包含至少一語音模型與至少一填充模型以分別接收此噪音遮蔽模組輸出的一噪音消除後的語音訊號、一信心值計算模組、以及一最大信心值決定模組。對於落在此門檻值的預定範圍中的每一給定的門檻值與此噪音消除後的一語音訊號，此信心值計算模組利用此至少一語音模型與此至少一填充模型，算出一信心值。此最大信心值決定模組從所有算出的此信心值中，找出一最大信心值所對應的門檻值，然後輸出一語音辨識結果的資訊。

所揭露的又一實施例是關於一種以麥克風陣列為基礎之語音辨識方法。此方法係以一電腦系統來實施，並且可包含下列此電腦系統可執行的動作：對來自一麥克風陣列的輸入語音，根據至少一輸入的門檻值，執行一噪音消除處理並將一噪音消除後的語音訊號分別輸出到至少一語音模型與至少一填充模型；利用一處理器，根據此至少一語音模型之各模型所得的分數的資訊以及經由此至少一填充模型所得的分數，計算出一相對應的信心值；以及從輸入的此至少一門檻值的每一門檻值中，找出計算出的每一相對應的信心值中的一最大信心值所對應的一門檻值，然後產生一語音辨識結果的資訊。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他優點詳述於後。

在本揭露以麥克風陣列為基礎之語音辨識系統與方法之實施範例中，係利用至少一語音模型與至少一填充模型(filler model)所計算出來的最大信心值(maximum confidence)來調整噪音遮罩(noise masking)的參數以抑制在語音特徵向量中，頻譜受到噪音干擾的部分，以提高語音辨識率。本揭露實施範例針對不同噪音的環境下(例如行車中)，調整噪音遮罩的參數，以因應實際環境的語音應用。本揭露實施範例將噪音遮蔽與語音辨識結合成為一體，並且使用既有的語音模型，不需重新錄製語料或訓練語音模型，提供在具有噪音的環境下，以語音進行人機互動時更好的語音介面與使用者體驗。

在本揭露實施範例中，利用至少一語音模型Λ_SP 與至少一填充模型Λ_F ，並根據下列式子來計算出信心值CM：CM =[logP (C (τ )|Λ_SP )-logP (C (τ )|Λ_F )] (1)其中C (τ )係由一麥克風陣列所產生之每一音框(audio frame)在通過一噪音遮罩門檻值τ之噪音遮蔽後，所取得的特徵向量，P為一條件機率函數。

在本揭露實施範例中，藉由一門檻值調整模組，來調整噪音遮罩的參數，也就是噪音遮罩門檻值τ。此門檻值調整模組可針對來自不同角度或不同能量大小等之噪音來調整噪音遮罩的參數。本揭露實施範例證實當信心值最大時，所得到的辨識率也是最高的。第二A圖與第二B圖都使用噪音位在30度與60度以及訊雜比0dB的麥克風陣列語料來進行測試的範例，其中虛線代表使用來自30度的噪音進行測試的結果，實線代表使用來自60度的噪音進行測試的結果。在第二A圖中，橫軸代表噪音遮罩門檻值τ，縱軸代表根據式(1)算出的信心值CM。在第二B圖中，橫軸代表噪音遮罩門檻值τ，縱軸代表語音辨識率。

從第二A圖與第二B圖的測試結果可以看出，在第二A圖中，30度之曲線圖中的最大信心值與60度之曲線圖中的最大信心值，在第二B圖中所得到的相對應的語音辨識率也是最高的，分別如箭頭210與220所示。箭頭210意指噪音位在60度時，其最大信心值得到相對應的最高語音辨識率；箭頭220意指噪音位在30度時，其最大信心值得到相對應的最高語音辨識率。所以，在本揭露實施範例中，可採用如循序搜尋法(linear search)或是期望最大化(Expectation-maximization，EM)演算法等，來估測可讓信心值最大化的門檻值τ_CM 。門檻值τ_CM 可用下列式子來表示：

其中，C (τ)代表為每一音框經過噪音遮罩門檻值為τ的噪音遮蔽後所取得的特徵向量，Λ_SP 與Λ_F 分別代表一語音模型參數的集合與一填充模型參數的集合，P為一條件機率分配(conditional probability distribution)。換句話說，根據式(2)算出的門檻值τ_CM 即為本揭露實施範例中，針對噪音最佳的門檻值設定。

在本揭露中，以麥克風陣列來區分語音訊號以及需要消除的噪音訊號。此語音辨識系統與方法的實施範例可緊密結合現有的多種抗噪技術，例如相位誤差時頻濾波器、延遲累加波束法(delay and sum beamformer)、傅立葉頻譜刪減法(Fourier spectral subtraction)、小波頻譜刪減法(Wavelet spectral subtraction)等技術，利用最大化至少一語音模型與至少一填充模型所計算出來的信心值，來抑制語音特徵向量中頻譜受到噪音干擾的部分，以提高語音辨識率。

也就是說，在本揭露實施範例中，係以麥克風陣列為基礎之噪音遮罩來做為語音特徵參數可靠頻譜成分選擇的依據。語音特徵參數例如可採用配合人耳聽覺特性所計算出來的語音特徵參數，如梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficients，MFCCs)、線性預估參數(Linear Prediction Coefficients，LPCs)等。在不同方向與能量大小的噪音干擾下，來進行語音特徵向量之調整，以提高語音辨識率。並且利用信心值來做為語音辨識效能的指標，來估測出最佳的噪音遮罩門檻值τ。梅爾倒頻譜係數與這些抗噪技術皆為現有的技術，此處不再贅述。

第三圖是一範例示意圖，說明一種以麥克風陣列為基礎之語音辨識系統，與所揭露的某些實施範例一致。在第三圖的範例中，語音辨識系統300包含至少一語音模型310、至少一填充模型320、一信心值計算模組330、以及一門檻值調整模組340。至少一語音模型310、至少一填充模型320、一信心值計算模組330、以及一門檻值調整模組340皆可使用硬體描述語言(如Verilog或VHDL)來進行電路設計，經過整合與佈局後，可燒錄至現場可程式邏輯閘陣列(Field Programmable Gate Array，FPGA)上。

藉由硬體描述語言所完成的電路設計，例如可交由專業之積體電路生產商以特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或稱專用集成電路來實現。也就是說，語音辨識系統300可包含至少一集成電路來實現至少一語音模型310、至少一填充模型320、信心值計算模組330、門檻值調整模組340。語音辨識系統300也可包含至少一處理器來完成至少一語音模型310、至少一填充模型320、信心值計算模組330、門檻值調整模組340所實現的功能。

如第三圖的範例所示，語音辨識系統300結合一噪音遮蔽模組305。噪音遮蔽模組305對來自一麥克風陣列(標記為麥克風1、麥克風2、…、麥克風L，L為一大於1的整數)的輸入語音，根據來自門檻值調整模組340輸入的門檻值304a，執行一噪音消除處理(noise reduction process)並將一噪音消除後的語音訊號305a分別輸出到至少一語音模型310與至少一填充模型320。語音辨識系統300藉由至少一語音模型310之各模型比對出此噪音消除後的語音訊號305a與此模型的相似度，並各得到一個經由此模型所得的分數；並藉由至少一填充模型320比對出此噪音消除後的語音訊號305a與至少一非特定的語音模型的相似度，並得到一個經由此填充模型所得的分數320a。經由至少一語音模型310之各模型所得的分數的資訊310a以及經由至少一填充模型320所得的分數320a則再提供給信心值計算模組330。

換句話說，對於此門檻值此噪音消除後的一語音訊號，信心值計算模組330利用至少一語音模型310與至少一填充模型320，算出一信心值，以及門檻值調整模組340調整此門檻值並提供給噪音遮蔽模組305來繼續執行此噪音消除處理，以使得信心值計算模組330計算出的信心值達到最大化，然後輸出可讓此信心值達到最大化的一語音辨識結果的資訊。

在第三圖的範例中，當語音辨識系統300開始運作時，會有一初始門檻值305b先提供給噪音遮蔽模組 305，以執行一噪音消除處理並將一噪音消除後的語音訊號305a分別輸出到至少一語音模型310與至少一填充模型320。至少一語音模型310與至少一填充模型320例如是隱藏式馬可夫模型(Hidden Markov Model，HMM)或為高斯混合模型(Gaussian Mixture Model，GMM)。至少一填充模型320可視為至少一種非特定語音之模型，作為與至少一語音模型310的一種比較，其實作的一個範例如使用與訓練語音模型相同的語料，將所有語料分成數個音框後，求取每一音框的特徵向量，再將所有音框視為同一個模型進行模型訓練以取得模型參數。

在本揭露實施範例中，根據至少一語音模型310之各模型所得的分數的資訊310a以及經由至少一填充模型320所得的分數320a，利用信心值計算模組330計算出一信心值330a，例如將至少一語音模型310中各模型所得分數的函數值減去至少一填充模型320所得分數，得到的差(difference)做為輸出的信心值。

當信心值計算模組330輸出的信心值330a尚未達到最大化時，在本揭露中，如第三圖的範例所示，處理器360利用門檻值調整模組340來調整一門檻值304a，並輸出給噪音遮蔽模組305，以使得信心值計算模組330算出的信心值可以達到最大化。為了求取可讓信心值最大化的門檻值，在本揭露實施範例中，門檻值調整模組340例如可用期望最大化(EM)演算法等，來找出對應最大信心值的門檻值，以估測可讓信心值最大化的門檻值τ_CM 。當信心值計算模組330輸出的信心值330a達到最大化時，語音辨識系統300輸出可讓此信心值達到最大化的語音辨識結果的資訊，例如標號355所示，是一辨識結果、或是讓信心值最大化的門檻值τ_CM 、或是此辨識結果與門檻值τ_CM 一併輸出等。

依此，語音辨識系統300結合麥克風陣列抗噪技術，對於位在各種不同角度或具各種不同能量大小的噪音干擾，可調整噪音遮罩的參數。並且語音辨識系統300係利用信心值來做為語音辨識效能的指標，來估測出最佳的噪音遮罩門檻值。

至少一語音模型310中各模型所得分數的函數值可以有多種實現方式。例如，第四圖的範例中，至少一語音模型包括N個語音模型，記為語音模型1~語音模型N，N為大於1的整數。在其一實現方式的範例中，門檻值調整模組340例如可以使用期望最大化(EM)演算法來找出最大信心值所對應到的門檻值τ_CM ，例如可以取語音模型1~語音模型N中各模型所得分數的最大值Top1。此情況的門檻值τ_CM 可用下列式子來表示：

在其另一實現方式的範例中，門檻值調整模組340例如可以使用期望最大化(EM)演算法取語音模型1~語音模型N中的前M個分數最高的模型所得分數再給予不同的權重，來找出最大信心值所對應到的門檻值τ_CM ，以增加強健性。此情況的門檻值τ_CM 可用下列式子來表示：

其中，ω₁ ~ω_M 為所給予不同的權重，1<M<N。

在其又一實現方式的範例中，如第五圖所示，可以將語音模型1~語音模型N中各模型先合併成一合併後的語音模型510，再取此合併後的語音模型510所得的分數，換句話說，可利用一種合併模型的方式來增加強健性。

如前所述，在本揭露另一實施範例中，也可以採用如循序搜尋法(linear search)，來估測可讓信心值最大化的門檻值τ_CM 。依此，如第六圖的範例所示，在本揭露之語音辨識系統在開始運作時，可以先預定門檻值τ的大小範圍，例如0.1≦τ≦1.2，然後在此門檻值τ的大小範圍中，使用循序搜尋法找出對應最大信心值的門檻值。此時，第六圖範例的語音辨識系統600可包含至少一語音模型310、至少一填充模型320、以及一最大信心值決定模組640。最大信心值決定模組640可使用硬體描述語言(如Verilog或VHDL)來進行電路設計，經過整合與佈局後，可燒錄至現場可程式邏輯閘陣列(Field Programmable Gate Array，FPGA)上。

如前所述，藉由硬體描述語言所完成的電路設計，例如可交由專業之積體電路生產商以特殊應用積體電路或稱專用集成電路來實現。換句話說，語音辨識系統600中的至少一語音模型310、至少一填充模型320、信心值計算模組330、以及最大信心值決定模組640可用至少一集成電路來實現。語音辨識系統600也可採用至少一處理器來完成至少一語音模型310、至少一填充模型320、信心值計算模組330、最大信心值決定模組640所實現的功能。

也就是說，對於落在此門檻值的預定範圍605a中的每一給定的門檻值τ，語音辨識系統600可利用信心值計算模組330，根據至少一語音模型310之各模型所得的分數的資訊310a以及經由至少一填充模型320所得的分數320a，計算出一相對應的信心值330a，並提供給最大信心值決定模組640。再藉由最大信心值決定模組640從所有算出的信心值330a中，找出對應最大信心值的門檻值τ_CM 。語音辨識系統600的輸出355如前所述，可以是一辨識結果、或是讓信心值最大化的門檻值τ_CM 、或是此辨識結果與門檻值τ_CM 一併輸出等。

換句話說，第六圖範例的語音辨識系統600中，是對於落在一門檻值的預定範圍605a中的每一給定的門檻值τ，來計算出一相對應的信心值。故無需透過演算法或門檻值調整模組來更新門檻值。當語音辨識系統600開始運作時，可將每一給定的門檻值τ循序提供給噪音遮蔽模組305，對來自一麥克風陣列，即麥克風1、麥克風2、…、麥克風L，的輸入語音，根據此門檻值τ，執行一噪音消除處理並將一噪音消除後的語音訊號305a分別輸出到至少一語音模型310與至少一填充模型320，其中L為一大於1的整數。利用至少一語音模型310與至少一填充模型320，最大信心值決定模組640可從計算出的每一信心值330a中，再找出對應一最大信心值的門檻值τ_CM 。語音辨識系統600再輸出可讓該信心值達到最大化的一語音辨識結果的資訊。例如標號355所示。

承上述，第七圖是一範例流程圖，說明一種以麥克風陣列為基礎之語音辨識方法的運作，與所揭露的某些實施範例一致。此語音辨識方法可採用一電腦系統來實施(computer implemented)，並且可包含如第七圖之此電腦可執行的動作(computer executable acts)。在第七圖的範例中，如步驟710所示，對來自一麥克風陣列的輸入語音，根據輸入的至少一門檻值的每一門檻值，執行一噪音消除處理並將一噪音消除後的語音訊號分別輸出到至少一語音模型與至少一填充模型。對該輸入的至少一門檻值的每一門檻值，根據此至少一語音模型之各模型所得的分數的資訊310a以及經由此至少一填充模型所得的分數320a，計算出一相對應的信心值，如步驟720所示。從輸入的該至少一門檻值的每一門檻值中，找出計算出的每一相對應的信心值中的一最大信心值所對應的一門檻值τ_CM ，然後產生一語音辨識結果的資訊，如步驟730所示。

承前述本揭露第三圖至第六圖的實施範例，上述以麥克風陣列為基礎之語音辨識方法的運作中，噪音消除處理的輸入參數，即輸入的至少一門檻值的每一門檻值，可用多種方式來更新門檻值。根據輸入的該至少一門檻值的每一門檻值中，也可用多種方式來找出一最大信心值所對應的一門檻值τ_CM 。第八圖是一範例示意圖，說明此門檻值更新以及如何找出該最大信心值所對應的一門檻值τ_CM 的運作，與所揭露的某些實施範例一致。

參考第八圖的運作範例，可先輸入一初始門檻值來執行一噪音消除處理並將一噪音消除後的語音訊號305a分別輸出到至少一語音模型310與至少一填充模型330。然後執行信心值計算，得出一相對應的信心值後，判斷此信心值是否為一最大信心值。當計算出的信心值是此最大信心值時，表示找出此最大信心值所對應的一門檻值τ_CM ，然後即可產生一語音辨識結果的資訊。

當計算出的信心值不是此最大信心值時，可藉由執行一期望最大化(EM)演算法840，輸出一更新的門檻值，再提供給噪音消除處理，噪音消除處理後，同樣地，將一噪音消除後的語音訊號分別輸出到至少一語音模型與至少一填充模型。然後，再執行信心值計算，以此類推。在第八圖的運作範例中，此方法的至少一語音模型310中各模型所得分數的函數值可以如前述之取語音模型1~語音模型N中各模型所得分數的最大值Top1、取語音模型1~語音模型N中的前M個分數最高的模型所得分數再給予不同的權重、以及，利用一種合併模型的方式等多種實現方式，來增加強健性。

第九圖是另一範例示意圖，說明門檻值更新以及如何找出該最大信心值所對應的一門檻值的運作，與所揭露的某些實施範例一致。第九圖的運作範例是採用如前述提及的循序搜尋法，先預定門檻值τ的大小範圍，然後對於落在此門檻值的預定範圍中每一給定的門檻值τ，此處理器根據至少一語音模型310之各模型所得的分數的資訊310a以及經由至少一填充模型320所得的分數320a，執行信心值計算後，算出對於各給定門檻值τ所對應的信心值，再從中決定出一最大信心值的及取得所對應的門檻值，並產生一語音辨識結果的資訊。

本揭露中，以麥克風陣列為基礎之語音辨識系統與方法的實施範例可以適用於具有噪音干擾的環境中，例如，在行車中使用語音介面常會遇到外界噪音或是風切聲的干擾，使得語音命令的辨識結果錯誤。因為真實環境隨時在改變，所以在車上的使用者可以裝設本揭露以麥克風陣列為基礎之語音辨識系統，使用前述本揭露的實施範例來找出每一語音命令最適合的門檻值，使得語音辨識結果達到最佳化。例如此使用者可使用一按就說(push to talk)的方式開始說出想要執行的語音命令，並可使用現有的語音活動偵測技術，來偵測使用者語音命令的結束點後，再將此段語音命令輸入本揭露以麥克風陣列為基礎之語音辨識系統，找出最佳的門檻值。

本揭露以麥克風陣列為基礎之語音辨識系統與方法的實施範例也可以應用在與機器人的互動上，如第十圖的範例所示，機器人可以使用現有的語音活動偵測技術，來偵測使用者說話的開始與結束後，再將偵測到的使用者說話的一段語音訊號輸入至本揭露以麥克風陣列為基礎之語音辨識系統，來得到最佳的辨識結果。

第十一A圖與第十一B圖是實驗結果的範例示意圖，分別說明干擾源位於30度(第十一A圖)與60度(第十一B圖)時，對不同的訊噪比，利用以麥克風陣列為基礎之語音辨識系統的實施範例所得到的語音辨識率，與所揭露的某些實施範例一致。此範例中，以一批在無響室中以麥克風陣列所錄之語料來進行此語音辨識系統的測試。實驗參數設定如下：以備有兩隻麥克風的麥克風陣列為例，此兩隻麥克風間的距離為5公分，麥克風與語者以及干擾源之距離為各為30公分。總共有11位語者進行錄音，每人錄製50句遙控車詞彙，有效的音檔總共有547句語料，再分別與30度與60度之噪音干擾源混和成訊噪比(SNR)為0、6、12、18dB的訊號來進行測試。分別採用循序(linear)搜尋法與期望最大化(EM)演算法，來估測可讓信心值最大化的門檻值τ_CM 以得到語音辨識率，其中，每一測試語句更新一次門檻值τ。

在上述測試實驗中，從第十一A圖與第十一B圖估測出的門檻值可作為噪音角度與訊噪比的一個綜合指標，此可從第十二圖的範例看出。第十二圖的範例中，橫軸座標代表訊噪比，縱軸座標代表門檻值估測的平均結果，實線為干擾源位於60度時的門檻值估測的平均結果，虛線為干擾源位於30度時的門檻值估測的平均結果。

綜上所述，本揭露實施例提出一種以麥克風陣列為基礎的語音辨識系統與方法。其緊密結合抗噪與語音辨識器成為一體，並利用最大化至少一語音模型與至少一填充模型所計算出來的信心值來抑制語音特徵向量中頻譜受到噪音干擾之部分，以提高語音辨識率。本揭露實施例不需重新錄製語料與訓練語音模型，可在不同角度與不同能量大小的噪音環境中調整噪音遮罩之參數，可以適用於具有噪音干擾的真實環境中，來提高語音辨識率，也可以在語音進行人機互動時，提供更好的語音介面與使用者體驗。

以上所述者僅為本揭露實施例，當不能依此限定本揭露實施之範圍。即大凡本發明申請專利範圍所作之均等變化與修飾，皆應仍屬本發明專利涵蓋之範圍。

105．．．相位誤差時頻濾波器

105a．．．增強的語音訊號

110．．．語音模型

210．．．噪音位在60度時，其最大信心值得到相對應的最高語音辨識率

220．．．噪音位在30度時，其最大信心值得到相對應的最高語音辨識率

300．．．語音辨識系統

305．．．噪音遮蔽模組

305a．．．噪音消除後的語音訊號

305b．．．初始門檻值

310．．．至少一語音模型

320．．．至少一填充模型

310a．．．至少一語音模型之各模型所得的分數的資訊

320a．．．經由至少一填充模型所得的分數

330‧‧‧信心值計算模組

330a‧‧‧信心值

340‧‧‧門檻值調整模組

304a‧‧‧門檻值

355‧‧‧辨識結果、門檻值τ_CM 、辨識結果與門檻值τ_CM

510‧‧‧合併後的語音模型

600‧‧‧語音辨識系統

605a‧‧‧門檻值的預定範圍

640‧‧‧最大信心值決定模組

710‧‧‧對來自一麥克風陣列的輸入語音，根據至少一輸入的門檻值，執行一噪音消除處理並將一噪音消除後的語音訊號分別輸出到至少一語音模型與至少一填充模型

720‧‧‧根據此至少一語音模型之各模型所得的分數的資訊以及經由此至少一填充模型所得的分數，計算出一相對應的信心值

730‧‧‧從輸入的該至少一門檻值的每一門檻值中，找出計算出的每一相對應的信心值中的一最大信心值所對應的一門檻值τ_CM ，然後產生一語音辨識結果的資訊

840‧‧‧期望最大化演算法

第一圖是一範例示意圖，說明一種雙麥克風語音增強技術之濾波器調整參數的範例流程。

第二A圖是噪音遮罩門檻值與信心值的一範例關係圖，與所揭露的某些實施範例一致。

第二B圖是噪音遮罩門檻值與語音辨識率的一範例關係圖，與所揭露的某些實施範例一致。

第三圖是一範例示意圖，說明一種以麥克風陣列為基礎之語音辨識系統，與所揭露的某些實施範例一致。

第四圖是一範例示意圖，說明一種實現第三圖中至少一語音模型中各模型所得分數的函數值的方式，與所揭露的某些實施範例一致。

第五圖是一範例示意圖，說明另一種實現第三圖中至少一語音模型中各模型所得分數的函數值的方式，與所揭露的某些實施範例一致。

第六圖是另一範例示意圖，說明一種以麥克風陣列為基礎之語音辨識系統，與所揭露的某些實施範例一致。

第七圖是一範例流程圖，說明一種以麥克風陣列為基礎之語音辨識方法的運作，與所揭露的某些實施範例一致。

第八圖是一範例示意圖，說明門檻值更新以及如何找出該最大信心值所對應的一門檻值的運作，與所揭露的某些實施範例一致。

第九圖是另一範例示意圖，說明門檻值更新以及如何找出該最大信心值所對應的一門檻值的運作，與所揭露的某些實施範例一致。

第十圖是一範例示意圖，說明以麥克風陣列為基礎之語音辨識系統適用於具有噪音干擾的真實環境中，與所揭露的某些實施範例一致。

第十一A圖與第十一B圖是實驗結果的範例示意圖，分別說明干擾源位於30度與60度時，對於不同的訊噪比，利用以麥克風陣列為基礎之語音辨識系統的實施範例所得到的語音辨識率，與所揭露的某些實施範例一致。

第十二圖是一範例示意圖，說明以麥克風陣列為基礎之語音辨識技術所估測出的門檻值可作為噪音角度與訊噪比的一個綜合指標，與所揭露的某些實施範例一致。

300‧‧‧語音辨識系統

305‧‧‧噪音遮蔽模組

305a‧‧‧噪音消除後的語音訊號

305b‧‧‧初始門檻值

310‧‧‧至少一語音模型

320‧‧‧至少一填充模型

310a‧‧‧至少一語音模型之各模型所得的分數的資訊

320a‧‧‧經由至少一填充模型所得的分數

330‧‧‧信心值計算模組

330a‧‧‧信心值

340‧‧‧門檻值調整模組

304a‧‧‧門檻值

355‧‧‧辨識結果、門檻值τ_CM 、辨識結果與門檻值τ_CM

Claims

一種以麥克風陣列為基礎之語音辨識系統，該系統結合一噪音遮蔽模組，以對來自一麥克風陣列的輸入語音，根據輸入的一門檻值執行一噪音消除處理，該系統包含：至少一語音模型與至少一填充模型，接收該噪音遮蔽模組輸出的一噪音消除後的語音訊號；一信心值計算模組，對於該門檻值與該噪音消除後的一語音訊號，利用該至少一語音模型與該至少一填充模型，算出一信心值，以及一門檻值調整模組，調整該門檻值並提供給該噪音遮蔽模組來繼續執行該噪音消除處理，以使得該信心值計算模組計算出的信心值達到最大化，然後輸出可讓該信心值達到最大化的一語音辨識結果的資訊；其中該門檻值調整模組使用一期望最大化演算法來找出達到最大化的該信心值所對應到的該門檻值。
如申請專利範圍第1項所述之語音辨識系統，其中該處理器經由該至少一語音模型之各模型，比對出該噪音消除後的語音訊號與各模型的相似度並各得到一個由該模型所得的分數，且經由該至少一填充模型比對出該噪音消除後的語音訊號與至少一非特定的語音模型的相似度，並得到一個經由該填充模型所得的分數，該信心值計算模組將該至少一語音模型中各模型所得分數的函數值減去該至少一填充模型所得分數，得到的差做為計算出的該信心值。
如申請專利範圍第1項所述之語音辨識系統，其中該至少一語音模型包括N個語音模型，該門檻值調整模組取該N個語音模型中的前M個分數最高的模型所得分數再給予不同的權重，來找出該達到最大化的信心值所對應到的門檻值，N與M皆為正整數，且M≦N。
如申請專利範圍第1項所述之語音辨識系統，其中該至少一語音模型包括複數個語音模型，該門檻值調整模組取該複數個語音模型中各模型被合併成一合併後的語音模型所得的分數，來找出達到最大化的信心值所對應到的門檻值。
如申請專利範圍第第1項所述之語音辨識系統，其中該至少一語音模型包括複數個語音模型，該門檻值調整模組取該複數個語音模型中各模型所得分數的最大值，來找出該達到最大化的信心值所對應到的門檻值。
如申請專利範圍第1項所述之語音辨識系統，該語音辨識系統包含至少一處理器，以完成該至少一語音模型、該至少一填充模型、該信心值計算模組、以及該門檻值調整模組所實現的功能。
如申請專利範圍第1項所述之語音辨識系統，其中該至少一語音模型、該至少一填充模型、該信心值計算模組、以及該門檻值調整模組係以至少一集成電路來實現。
一種以麥克風陣列為基礎之語音辨識系統，該系統結合一噪音遮蔽模組，以對來自一麥克風陣列的輸入語音，根據輸入的一門檻值的預定範圍中的每一給定的門檻值執行一噪音消除處理，該系統包含：至少一語音模型與至少一填充模型，以接收執行該噪音消除處理後的一噪音消除後的語音訊號；一信心值計算模組，對於落在該門檻值的預定範圍中的每一給定的門檻值與該噪音消除後的一語音訊號，利用該至少一語音模型與該至少一填充模型，算出一信心值；以及一最大信心值決定模組，從該信心值計算模組所有計算出該信心值中，找出該最大信心值所對應的門檻值，然後輸出一相對應的語音辨識結果的資訊。
如申請專利範圍第8項所述之語音辨識系統，該語音辨識系統包含至少一處理器，以完成該至少一語音模型、該至少一填充模型、該信心值計算模組、以及該最大信心值決定模組所實現的功能。
如申請專利範圍第8項所述之語音辨識系統，其中該至少一語音模型、該至少一填充模型、該信心值計算模組、以及該最大信心值決定模組係以至少一集成電路來實現。
如申請專利範圍第8項所述之語音辨識系統，該語音辨識系統利用使用一循序搜尋法，找出該最大信心值所對應的門檻值。
一種以麥克風陣列為基礎之語音辨識方法，該語音辨識方法係以一電腦系統來實施，該方法包含下列該電腦系統可執行的動作：對來自一麥克風陣列的輸入語音，根據至少一輸入的門檻值，執行一噪音消除處理並將一噪音消除後的語音訊號輸出到至少一語音模型與至少一填充模型；根據該至少一語音模型之各模型所得的分數的資訊以及經由該至少一填充模型所得的分數，計算出一相對應的信心值；以及從輸入的該至少一門檻值的每一門檻值中，找出該計算出的每一相對應的信心值中的一最大信心值所對應的一門檻值，然後產生一語音辨識結果的資訊。
如申請專利範圍第12項所述之語音辨識方法，該方法使用一期望最大化演算法來找出該最大信心值所對應的該門檻值。
如申請專利範圍第12項所述之語音辨識方法，該方法使用一循序搜尋法來找出該最大信心值所對應的該門檻值。
如申請專利範圍第12項所述之語音辨識方法，該方法對於輸入的該至少一門檻值的每一門檻值，將該至少一語音模型中各模型所得分數的函數值減去該至少一填充模型所得分數，得到的差做為計算出的每一相對應的信心值。
如申請專利範圍第13項所述之語音辨識方法，該方法將該至少一語音模型利用一種合併模型的方式來增加強健性。
如申請專利範圍第13項所述之語音辨識方法，其中該至少一語音模型包括N個語音模型，該方法取該N個語音模型中的前M個分數最高的語音模型所得分數再給予不同的權重，來增加強健性，N與M皆為正整數，且 M≦N。
如申請專利範圍第13項所述之語音辨識方法，其中該至少一語音模型包括複數個語音模型，該方法取該複數個語音模型中的中各模型所得分數的最大值，作為該至少一語音模型中各模型所得分數的函數值。
如申請專利範圍第14項所述之語音辨識方法，該方法將該至少一語音模型利用一種合併模型的方式來增加強健性。