TWI517143B

TWI517143B - 可消除雜音且增進語音辨識率之方法

Info

Publication number: TWI517143B
Application number: TW100123330A
Authority: TW
Inventors: 白明憲; 劉孆婷; 桂振益; 徐偉智
Original assignee: 國立交通大學
Priority date: 2011-07-01
Filing date: 2011-07-01
Publication date: 2016-01-11
Also published as: TW201303854A

Description

可消除雜音且增進語音辨識率之方法

本發明係有關於一種消除麥克風雜音之方法，特別是一種可消除雜音並降低通訊中迴音干擾，以有效提升語音辨識率的方法。

一般而言，麥克風接收聲音訊號之方式主要分為單通道及雙通道兩種，其中，單通道之消噪方式需要估算消噪比，而雙通道感應則多是利用波束形成法(beam forming)，以陣列方式產生有方向性之麥克風系統。

此種麥克風系統對人聲的敏感度較高，因而指向人的位置接收聲音訊號，而對背景的噪音則較不敏感。但此種麥克風系統由於包含有兩個或兩個以上的麥克風，其所形成之波束相當大，容易造成指向性不足的問題。

目前用於車內或一般室內之行動電話通訊噪音消除裝置大多使用數量眾多的麥克風、各種濾波器與龐大的矩陣運算。在如此沉重的運算量、巨大的記憶體空間與眾多的麥克風下，對於硬體的成本實為一大負擔。

其次，由於指向性不足的問題，目前無論是市面上的產品或有關麥克風陣列的專利及文獻都無法在存有雜音的環境下，有效的消除雜音並不讓語音失真。

除此之外，一般的行動電話或車內通訊裝置也常具有在通話過程中因迴聲(echo)太大，而影響到通訊品質的問題。

因此，如何提出一種可有效消除環境中雜音，並增進語音品質之麥克風收音方法，係為熟習此項技術領域者亟需解決的問題之一。

本發明之主要目的係在提供一種可消除雜音且增進語音辨識率之方法，其係利用黃金比例搜尋法搭配泰勒理論，計算得到最佳的耳間時間差閥值，使得每一個角度的語音訊號皆可得到最佳的語音品質。

本發明之另一目的係在提供一種可消除雜音且增進語音辨識率之方法，其係利用一複合式迴聲消除系統，濾除語音訊號之主要聲學迴音及環境擾動，藉此消去通訊過程中所產生的迴音，進一步地提高語音品質。

為達到上述之目的，本發明係有關於一種可消除雜音且增進語音辨識率之方法，其包括以下步驟：提供二個以上的麥克風，用以接收至少二麥克風訊號；將該些麥克風訊號利用快速傅立葉轉換至頻率域，以取得其中之一語音訊號與一雜音訊號；計算語音訊號與雜音訊號之夾角，並使用一相位差演算法，進一步找出一耳間時間差；依據語音訊號與雜音訊號之夾角計算出耳間時間差之一閥值；依據耳間時間差與閥值，使用一遮蔽法則，以取得語音訊號，去除雜音訊號；以及將語音訊號利用一反快速傅立葉轉換暨疊加模組轉至時間域輸出。

本發明另有關於一種可消除雜音且增進語音辨識率之方法，其包括以下步驟：提供二個以上的麥克風，用以接收至少二麥克風訊號；將該些麥克風訊號利用快速傅立葉轉換至頻率域，以取得麥克風訊號中之一語音訊號與一雜音訊號；計算語音訊號與雜音訊號之夾角，並依據該夾角使用一相位差演算法配合遮蔽估測，以取得麥克風訊號中之語音訊號，去除雜音訊號；將語音訊號利用一反快速傅立葉轉換暨疊加模組轉至時間域輸出；以及串聯一複合式迴聲消除系統於轉換回時間域之語音訊號後，以濾除語音訊號之聲學擾動。

底下藉由具體實施例配合所附的圖式詳加說明，當更容易瞭解本發明之目的、技術內容、特點及其所達成之功效。

本發明提供一種可消除雜音且增進語音辨識率之方法，利用兩麥克風之間的相位差以獲得麥克風訊號在時間域及頻率域之遮罩，消除雜音，以增進語音品質。

請參考第1圖，係為根據本發明實施例可消除雜音且增進語音辨識率之麥克風陣列之示意圖，其包含有一麥克風陣列(包括至少二麥克風14、14’)、至少二快速傅立葉轉換模組16、16’、一運算模組18、一遮蔽估測模組20、以及一反快速傅立葉轉換暨疊加模組22。

請參閱第2圖，係為根據本發明實施例之可消除雜音且增進語音辨識率之方法的步驟流程圖。以下關於此一實施例之實施方式的說明，請一併參照第1至2圖所示。

如步驟S202所示，語音源10及雜音源12之聲音傳送出去後，麥克風14、14’接收同時含有雜音訊號及語音訊號之麥克風訊號。

之後，如步驟S204所示，快速傅立葉轉換模組16、16’用以將麥克風14、14’收到之麥克風訊號轉換至頻率域，以取得麥克風訊號中之語音訊號與雜音訊號。

之後，如步驟S206所示，運算模組18連接麥克風14、14’，用以計算麥克風訊號中語音訊號及雜音訊號之夾角為何。藉此，運算模組18依據此夾角，使用相位差演算法進一步找出耳間時間差(interaural time difference，ITD)。

如步驟S208所示，在運算模組18找出耳間時間差後，運算模組18進一步地計算出該耳間時間差對應每一雜音訊號與語音訊號之夾角的閥值為何。

之後，如步驟S210所示，遮蔽估測模組20依據算出的耳間時間差與閥值，利用一遮蔽法則，以取得語音訊號，去除雜音訊號。

最後，如步驟S212所示，反快速傅立葉轉換暨疊加模組22用以將語音訊號由頻率域轉回時間域，以得到去除雜音後具有較高語音辨識率之語音訊號。

其中，在步驟S204中，雜音訊號及語音訊號經由麥克風14、14’接收後，由快速傅立葉轉換模組16、16’經漢明窗(Hamming window)和快速傅立葉轉換(FFT)轉至頻率域，其二麥克風訊號P₁(k,l)及P₂(k,l)如下式(1)、(2)所示：

其中(k,l)代表第k個頻率，第l個畫框，X代表語音訊號，N _i代表第i個雜音源，P _m是第m個麥克風收到之訊號，ω_k=2πk/N，0≦k≦N/2-1，N是快速傅立葉轉換之長度。

接著在步驟S206中，運算模組18計算此二麥克風訊號P₁(k,l)及P₂(k,l)中雜音訊號及語音訊號之夾角，亦即語音源10及雜音源12之間的夾角，以進一步找出耳間時間差(ITD)。

一般而言，假設語音訊號在麥克風的正前方，則其耳間時間差為0，其他方向來的雜音則用d_i(k,l)來表示其耳間時間差，耳間時間差和時間及頻率有關。若有一時-頻域bin(k _j ,l _j)是由一最強干擾所支配，則上式(1)、(2)可簡化為下式(3)、(4)：

此時的耳間時間差可經由計算兩麥克風訊號之間的相位差而得到，如下式(5)：

之後，在步驟S208中，運算模組18係進一步地計算出耳間時間差對應雜音訊號與語音訊號之夾角的閥值為何。根據本發明之實施例，運算模組18計算最佳閥值的方法，係利用黃金比例搜尋法(Golden-Section Search，GSS)搭配泰勒理論，來找尋對應各個夾角的最佳閥值τ。

假設一函數f(x)在[a,b]內是連續的且只有一最小值，在[a,b]內選取兩點c和d，其關係如下式(9)：

其中d為c在線段上的對稱點，比較f(c)和f(d)的大小，若f(c)<f(d)，則新的搜尋點變成[a,d]，否則變成[c,b]，然後在新的範圍內再取一點，再次比較內部兩點之大小，重複此步驟不斷把範圍縮小，當範圍小到可接受的地步時，就將其當作函數f(x)在[a,b]區間的最小值，根據泰勒理論，函數f(x)靠近x_m時，其值近似於：

若f(x)夠靠近f(x_m)，則後面二次微分項小到可忽略，因此公式(10)可表示為如下式(11)：

其中ε為10^-3。使用語音失真度，消噪程度與整體語音品質做為黃金比例搜尋法中函數的參數，可得到夾角對τ值的函數如下式(12)：

τ(i)=(-7.76*10^-5)i²+(1.69*10^-2)i-(5.45*10^-2)　(12)

其中i為語音訊號與雜音訊號之間的夾角，在此夾角i所對應的閥值τ可以使經過處理的訊號有最佳的語音品質。

因此，在得到耳間時間差之最佳閥值τ後，在步驟S210中，遮蔽估測模組20依據遮蔽法則(binary mask principle)由下式(6)估計出麥克風訊號之遮蔽訊號：

其中，只有耳間時間差比τ小的訊號會被認為是目標語音訊號。

最後的語音訊號S(k,l)可經由將二麥克風訊號之平均(k,l)及遮蔽訊號B(kj,lj)相乘而得，如下式(7)及下式(8)：

當步驟S210取得語音訊號，以與雜音訊號成功分離之後，在步驟S212中，反快速傅立葉轉換暨疊加模組22將此頻率域之語音訊號再經過反快速傅立葉轉換(IFFT)及重疊相加法(OLA)來轉為時域訊號輸出，以得到去除雜音後具有較高語音辨識率之語音訊號。

請參照第3圖，其係為根據本發明另一實施例可消除雜音且增進語音辨識率之麥克風陣列之示意圖。如第3圖所示，在本發明提出之架構下，反快速傅立葉轉換暨疊加模組22更可連接有一自動語音辨識模組24，用以接收反快速傅立葉轉換暨疊加模組22所輸出之語音訊號，以進行語音辨識。

其次，考量到若聲源位置不在麥克風陣列正前方時，本發明更提出一種波束轉向(beam-steering)的技術，其藉由將不同的延遲(delay)加入各個麥克風，來控制麥克風之波束轉向角度，使其轉至聲源位置。

假設轉向角度為θ_M,，則波束轉向之濾波頻率因子可如下式(13)所示：

其中n表第n個麥克風，ω是頻率因子，f_s是取樣頻率，d是麥克風間距。則在時域上，此濾波器即可依下式(14)所示，而寫成一延遲：

由於上式延遲不是整數，因此必須使用拉格朗內插法(Lagrange interpolation)來使其更容易達成，此內插法可利用如下式(15)所示之無限脈衝響應系統(Infinite Impulse Response Filter)簡單的達成：其中N是此濾波器的階數，在此使用一階，D則是延遲小數部份。

根據本發明之實施例，波束轉向的角度包括0度至180度。也就是說，在麥克風陣列接收到麥克風訊號之後，麥克風首先進行全方位(0°~180°)的波束轉向，並在每一次波束轉向後，進行頻譜分析計算耳間時間差，再通過如上式(6)的遮蔽法則，保留目標聲源並且抑制干擾。經過了上述語音純化的過程後，最後計算各麥克風在每一轉向角度之波束能量，以進行語音音源方位的偵測(Direction of arrival estimation，DOA)。

其原因在於，當麥克風轉向到實際的聲源方位的時候應可得最大的能量(因為目標聲源的能量皆能通過上式(6)的遮蔽法則)，以藉此判斷正確的聲源方向。其可如下式(16)來計算其能量大小：

其中(k,l)為雙聲道訊號經過相位差演算法純化後的訊號；(k,l)分別為頻率及時間的指數；e ^-jkλ是為頻率函數的波束轉向濾波器；而λ必須要如下式(17)所示，介於最大及最小的延遲時間內：

請參考第4圖，係為根據本發明另一實施例可消除雜音且增進語音辨識率之麥克風陣列之示意圖，其包括有麥克風陣列(包括至少二麥克風14、14’)、至少二快速傅立葉轉換模組16、16’、運算模組18、遮蔽估測模組20、反快速傅立葉轉換暨疊加模組22、一固定式濾波器26與一適應性濾波器28。

請參閱第5圖，係為根據本發明另一實施例之可消除雜音且增進語音辨識率之方法的步驟流程圖。以下關於此實施例之說明，請一併參照第4 至5圖所示。

其中，步驟S502至步驟S508係同本發明前一實施例之步驟S202至步驟S212所示，故在此不再重述。值得注意的是，在此實施例中，本發明更包括步驟S510：串聯一複合式迴聲消除系統(固定式濾波器26與適應性濾波器28)於轉換回時間域之語音訊號後，以利用此複合式迴聲消除系統濾除掉語音訊號之聲學擾動。

詳細而言，當使用者與一遠端的第三者進行通話，且系統中具有一揚聲器30，遠端第三者產生一遠端音訊32時，揚聲器30與麥克風14、14’將形成一固定的迴音路徑(echo path)。本發明係在反快速傅立葉轉換暨疊加模組22後串聯一固定式濾波器(fixed filter)26與適應性濾波器(adaptive filter)28，以產生複合式迴聲消除系統。

在此一實施例中，固定式濾波器26係用以濾除語音訊號主要的聲學迴音，適應性濾波器28則用以濾除語音訊號於周遭環境中擾動所產生的問題。舉例而言，固定式濾波器在加入系統前可先以離線方式(off-line)將系統動態特性辨識出來。且此複合式系統的適應性演算法可以是但不限於filterd-x LMS演算法，其包括有：如下式(18)所示之整段迴聲消除路徑：

f(n)為固定式濾波器，w(n)為適應性濾波器，其中w ₀(n)為1，△w(n)=[w ₁(n) w ₂(n)…w _L-1(n)]，δ(n)為單位脈衝數列；如下式(19)所示之計算誤差訊號：e(n)=d(n)-y(n)=d(n)-w ^T(n)[f(n)* x(n)] (19)

d(n)為麥克風收入訊號，y(n)為濾波器輸出訊號， w(n)=[w ₁(n) w ₂(n)…w _L-1(n)]^T為在時間n時的適應性濾波器係數組成向量，x(n)=[x(n) x(n-1)…x(n-L+1)]^T為在時間n時的輸入訊號向量；以及依據下列公式(20)使用濾波X最小均方值演算法(FXLMS演算法)來更新適應性濾波器，

x'(n)=f(n)* x(n)

然而，值得注意的是，當遠端第三者產生遠端音訊32時，此時麥克風14、14’所收到的訊號將不只是系統產生的聲學迴音，於此將會造成適應性濾波器28的發散。有鑑於此，如第6圖所示，在確定更新適應性濾波器28之前，本發明另包括有步驟S602至S608。

如步驟S602至步驟S604所示，系統中係包括有一雙邊對話偵測器(double talk detector，DTD)用以偵測語音源10產生的語音訊號與遠端第三者產生的遠端音訊32是否同時發生。之後，如步驟S606所示，若二者同時發生時(意即使用者與遠端第三者同時說話)，則停止更新適應性濾波器28。否則，如步驟S608所示，若二者未同時發生時(意即使用者與遠端第三者未同時說話)，則繼續持續地更新適應性濾波器28。

詳細而言，本發明主要比較麥克風14、14’收到的訊號與適應性濾波器28輸出的訊號。由於比較能量大小會造成適應性濾波器28開關太劇烈，因此便依據下式(21)至(23)所示，計算麥克風訊號d(n)、固定式濾波器輸出訊號x'(n)及適應性濾波器輸出訊號y(n)所形成的波封v _d(n)、v _x(n)及v _y(n)，α=0.99。

v _x(n)=αv _x(n-1)+(1-α)|x(n)| (21)

v _d(n)=αv _d(n-1)+(1-α)|d(n)| (22)

v _y(n)=αv _y(n-1)+(1-α)|y(n)| (23)

再依據下式(24)與(25)，由v _d(n)、v _x(n)及v _y(n)求得偵測函數(detection function)ξ(n)及動態門檻函數(dynamic threshold function)T(n)。當偵測函數ξ(n)大於動態門檻函數T(n)時便代表遠端第三者產生遠端音訊32，適應性濾波器28也隨之停止更新。

當偵測函數ξ(n)小於動態門檻函數T(n)時，適應性濾波器28才繼續做更新。γ由實驗可得最佳值為0.05，加入小正實數β係為防止偵測錯誤所預留的範圍。

綜上所述，本發明提出一種可消除雜音且增進語音辨識率之方法，其可將聲學訊號處理方法實現在電信通訊系統中。此種方法不僅可利用兩麥克風之間的相位差，獲得聲源角度進而決定波束開口大小，以增進語音辨識率，更可透過波束轉向自動偵測聲源位置。此外，利用波束轉向技術更可解決語音訊號不在主軸位置上的情況。

本發明提出之可消除雜音且增進語音辨識率之方法，並可應用於語音打斷(barge in)系統，結合複合式迴聲消除系統，有效地降低迴聲對辨識率的干擾。此系統適用於需要使用到語音辨識系統的手機、智慧型玩具等儀器內，使辨識系統即便在雜音及殘響嚴重的空間內，也能擁有不錯的辨識率。

以上所述之實施例僅係為說明本發明之技術思想及特點，其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施，當不能以之限定本發明之專利範圍，即大凡依本發明所揭示之精神所作之均等變化或修飾，仍應涵蓋在本發明之專利範圍內。

10‧‧‧語音源

12‧‧‧雜音源

14、14’‧‧‧麥克風

16、16’‧‧‧快速傅立葉轉換模組

18‧‧‧運算模組

20‧‧‧遮蔽估測模組

22‧‧‧反快速傅立葉轉換暨疊加模組

24‧‧‧自動語音辨識模組

26‧‧‧固定式濾波器

28‧‧‧適應性濾波器

30‧‧‧揚聲器

32‧‧‧遠端音訊

第1圖係為根據本發明實施例之可消除雜音且增進語音辨識率之麥克風陣列之示意圖。

第2圖係為根據本發明實施例之可消除雜音且增進語音辨識率之方法的步驟流程圖。

第3圖係為根據本發明另一實施例之可消除雜音且增進語音辨識率之麥克風陣列之示意圖。

第4圖係為根據本發明另一實施例可消除雜音且增進語音辨識率之麥克風陣列之示意圖。

第5圖係為根據本發明另一實施例之可消除雜音且增進語音辨識率之方法的步驟流程圖。

第6圖係為根據第5圖在更新適應性濾波器之前的步驟流程圖。

Claims

一種可消除雜音且增進語音辨識率之方法，包括以下步驟：提供二個以上的麥克風，用以接收至少二麥克風訊號；將該些麥克風訊號利用快速傅立葉轉換至頻率域，以取得該些麥克風訊號中之一語音訊號與一雜音訊號；計算該語音訊號與該雜音訊號之一夾角，並使用一相位差演算法，進一步找出一耳間時間差；依據該語音訊號與該雜音訊號之該夾角，利用一黃金比例搜尋法(Golden-Section Search)搭配泰勒理論以利用下列方程式， f"(x _m)(x-x _m)²<ε|f(x _m)|，其中該f(x)係為一函數，該ε為10^-3，計算出該耳間時間差之一閥值，依據該耳間時間差與該閥值，使用一遮蔽法則，以取得該語音訊號，去除該雜音訊號；以及將該語音訊號利用一反快速傅立葉轉換暨疊加模組轉至時間域輸出。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中該黃金比例搜尋法係在一連續範圍內任選兩點，比較該兩點之一函數值大小以將該連續範圍縮小，並重複任選兩點及比較函數值之步驟以將該連續範圍繼續縮小，找出該連續範圍內該函數值之一最小值，該閥值係利用該最小值搭配泰勒理論求得。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中使用該遮蔽法則時更包括步驟：比較該耳間時間差與該閥值之大小，以得到一遮蔽訊號；以及將該等麥克風訊號之平均與該遮蔽訊號相乘，以取得該些麥克風訊號中之該語音訊號。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中該反快速傅立葉轉換暨疊加模組係以反快速傅立葉轉換以及重疊相加法將頻率域之該語音訊號轉為一時域訊號。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中該語音訊號位於該些麥克風之正前方時，該耳間時間差為零。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中該耳間時間差小於該閥值時，將該麥克風訊號視為該語音訊號。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中該些麥克風係排列為一陣列。
如請求項1所述之可消除雜音且增進語音辨識率之方法，更包括利用一自動語音辨識模組接收該反快速傅立葉轉換暨疊加模組輸出之該語音訊號，以進行語音辨識。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中在接收該些麥克風訊號後，更包括步驟：針對各該麥克風加入一延遲，以控制該些麥克風之波束轉向角度。
如請求項9所述之可消除雜音且增進語音辨識率之方法，其中在針對各該麥克風加入該延遲後，更包括步驟：計算各該麥克風在每一轉向角度之波束能量，以判斷該語音訊號的聲源方向。
如請求項10所述之可消除雜音且增進語音辨識率之方法，其中該些麥克風之波束轉向角度包括0度至180度。
如請求項1所述之可消除雜音且增進語音辨識率之方法，其中在轉換該語音訊號至時間域之後，更包括步驟：串聯一複合式迴聲消除系統於轉換回時間域之該語音訊號後，以濾除該語音訊號之聲學擾動。
如請求項12所述之可消除雜音且增進語音辨識率之方法，其中該複合式迴聲消除系統包括一固定式濾波器與一適應性濾波器，該固定式濾波器濾除該語音訊號之聲學迴音，該適應性濾波器濾除該語音訊號於環境中所造成之擾動。
如請求項13所述之可消除雜音且增進語音辨識率之方法，更包括步驟：利用一濾波X最小均方值演算法(FXLMS演算法)更新該適應性濾波器。
如請求項14所述之可消除雜音且增進語音辨識率之方法，其中在更新該適應性濾波器前，更包括步驟：提供一雙邊對話偵測器(double talk detector，DTD)；偵測該語音訊號與一遠端音訊是否同時發生；以及當該語音訊號與該遠端音訊同時發生時，停止更新該適應性濾波器。
一種可消除雜音且增進語音辨識率之方法，包括以下步驟：提供二個以上的麥克風，用以接收至少二麥克風訊號；將該些麥克風訊號利用快速傅立葉轉換至頻率域，以取得該些麥克風訊號中之一語音訊號與一雜音訊號；計算該語音訊號與該雜音訊號之一夾角，並依據該夾角使用一相位差演算法配合遮蔽估測，以及利用下列方程式， f"(x _m)(x-x _m)²<ε|f(x _m)|，其中該f(x)係為一函數，該ε為10^-3，以取得該些麥克風訊號中之該語音訊號，去除該雜音訊號；將該語音訊號利用一反快速傅立葉轉換暨疊加模組轉至時間域輸出；以及串聯一複合式迴聲消除系統於轉換回時間域之該語音訊號後，以濾除該語音訊號之聲學擾動，且該複合式迴聲消除系統包括一固定式濾波器與一適應性濾波器，該固定式濾波器濾除該語音訊號之聲學迴音，該適應性濾波器濾除該語音訊號於環境中所造成之擾動。
如請求項16所述之可消除雜音且增進語音辨識率之方法，更包括步驟：利用一濾波X最小均方值演算法(FXLMS演算法)更新該適應性濾波器。
如請求項17所述之可消除雜音且增進語音辨識率之方法，其中在更新該適應性濾波器前，更包括步驟：提供一雙邊對話偵測器(double talk detector，DTD)；偵測該語音訊號與一遠端音訊是否同時發生；以及當該語音訊號與該遠端音訊同時發生時，停止更新該適應性濾波器。