TWI738532B

TWI738532B - 具多麥克風之語音增強裝置及方法

Info

Publication number: TWI738532B
Application number: TW109134193A
Authority: TW
Inventors: 黃稟翰; 黃俊銘; 孔德隆; 黃信德; 劉耀鈞; 徐禎助; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2019-10-27
Filing date: 2020-09-30
Publication date: 2021-09-01
Also published as: TW202117706A; US11315586B2; US20210125625A1

Abstract

本發明提供一種語音增強裝置，包含一適應性噪音消除電路、一混合電路、一噪音抑制器以及一控制模組。該適應性噪音消除電路，用以回應一控制訊號，過濾一參考訊號以產生一噪音估測值，以及將一主要訊號減去該噪音估測值以產生一訊號估測值。該混合電路，用以根據一混合增益，混合該主要訊號及該訊號估測值以產生一混合訊號。該噪音抑制器，利用一噪音抑制部來抑制該混合訊號中的噪音，以產生一增強訊號，以及，利用(M+1)個分類部來分別處理來自一主要麥克風之一主要頻譜代表式以及來自M個輔助麥克風之M個輔助頻譜代表式，以產生一主要分數以及M個輔助分數。本發明適當地結合該適應性噪音消除器、該噪音抑制器以及一波束成形器以最大化該語音增強裝置的性能。

Description

具多麥克風之語音增強裝置及方法

本發明係有關於語音處理，特別地，尤有關於一種具多麥克風之語音增強裝置及方法。

語音增強是多種應用的先驅，如助聽器、自動語音辨識、電傳會議系統以及網際協議通話技術(VOIP)等。語音增強是用來增加語音訊號的品質及可理解度。具體而言，語音增強的目的是”清潔”來自一麥克風的語音訊號，之後，再將乾淨的語音訊號傳送給收聽者或其下游的應用。

在日常生活中，行動電話經常使用於許多具高強度背景噪音的環境中，此種環境常見於車內(其中擴音越來越普及)或街道上，而通訊系統必須配合在高強度的車子噪音及街道噪音中運作，實際運作時，也常碰到有其他類型的高強度環境噪音。為增強在噪音中的運作性能，習知單麥克風及雙麥克風的降噪方法的進行，係假設噪音功率小於語音功率。若噪音是穩定的，該習知單麥克風降噪方法可分辨上升的穩定噪音以產生令人滿意的結果，但若噪音不穩定，實施該習知單麥克風降噪方法的結果可能就不是令人滿意。在雙麥克風系統中，常使用正規化最小均方(normalized least mean squares，NLMS)技術來決定一適應性噪音消除器(adaptive noise canceller，ANC)之最佳濾波器(optimal filter)。然而，如本領域技術人士所熟知的，NLMS技術需要時間來收斂。當有語音訊號出現時，就必需停止訓練該ANC之最佳濾波器，這是因為語音訊號與噪音訊號不相關(uncorrelated)，將導致該最佳濾波器發散(diverge)。必需使用一語音活性偵測器(voice activity detector，VAD)來偵測是否有語音訊號出現，因為語音訊號有可能會滲漏(leak)到噪音參考訊號；在語音活性期間(即有語音訊號出現時)，必需停止適應性(adaption)以避免語音訊號自我抵消(self-cancellation)。該ANC與該VAD一起運作時，有下列缺點。第一，高強度背景噪音會導致適應性濾波器做錯誤的決定，進而影響該適應性濾波器的運作；第二，該VAD有可能將一個突然的噪音(如敲打噪音)誤認為是語音，而導致適應性濾波器停止運作；第三，若一個人從一開始就不停地講話，將導致該適應性濾波器無法收斂，且該ANC停止運作。因此，很明顯地，包含該ANC與該VAD的雙麥克風系統是在受限的環境下運作。

因此，業界亟需一種多麥克風之語音增強裝置及方法，適用於各種環境，無論其噪音類型且無論噪音功率是否大於語音功率。

有鑒於上述問題，本發明的目的之一是提供一種語音增強裝置，可適當地結合一適應性噪音消除器、一噪音抑制器以及一波束成形器以最大化其性能。

根據本發明之一實施例，係提供一種語音增強裝置，包含一適應性噪音消除電路、一混合電路、一噪音抑制器以及一控制模組。該適應性噪音消除電路，具有一主要輸入端及一參考輸入端，用以回應一控制訊號，過濾來自該參考輸入端的一參考訊號以產生一噪音估測值，以及將來自該主要輸入端的一主要訊號減去該噪音估測值以產生一訊號估測值。該混合電路，用以根據一混合增益，混合該主要訊號及該訊號估測值以產生一混合訊號。該噪音抑制器利用一噪音抑制部來抑制該混合訊號中的噪音，以產生一增強訊號，以及，利用(M+1)個分類部來分別處理來自一主要麥克風之一主要音訊訊號之一主要頻譜代表式以及來自M個輔助麥克風之M個輔助音訊訊號之M個輔助頻譜代表式，以產生一主要分數以及M個輔助分數。該控制模組，用來執行一組操作，包含：根據該主要分數、一選定的輔助分數、一選定的輔助音訊訊號之一平均噪音功率頻譜以及該主要頻譜代表式與一選定的輔助頻譜代表式之目前語音功率頻譜的特性，產生該混合增益及該控制訊號。其中，該選定的輔助分數以及該選定的輔助頻譜代表式對應來自該M個輔助音訊訊號之該選定的輔助音訊訊號。

本發明之另一實施例，係提供一種語音增強裝置，包含：利用(M+1)個分類程序(process)，分別處理來自一主要麥克風之一主要音訊訊號之一主要頻譜代表式以及來自M個輔助麥克風之M個輔助音訊訊號之M個輔助頻譜代表式，以產生一主要分數以及M個輔助分數；根據該主要分數、一選定的輔助分數、一選定的輔助音訊訊號之一平均噪音功率頻譜以及該主要頻譜代表式與一選定的輔助頻譜代表式之目前語音功率頻譜的特性，產生該混合增益及該控制訊號，其中，該選定的輔助分數以及該選定的輔助頻譜代表式對應來自該M個輔助音訊訊號之該選定的輔助音訊訊號；根據該控制訊號，控制一適應性噪音消除程序，來過濾一參考訊號以產生一噪音估測值，以及將一主要訊號減去該噪音估測值以產生一訊號估測值；根據一混合增益，混合該主要訊號及該訊號估測值以產生一混合訊號；以及，利用一噪音抑制程序，抑制該混合訊號中的噪音以產生一增強訊號。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他目的與優點詳述於後。

100:具多麥克風之語音增強裝置

110:控制模組

112:處理器

115:記憶體裝置

120:波束成形器

130:適應性噪音消除器

150:混合單元

160:噪音抑制器

160A:以神經網路為基礎的噪音抑制器

160B:具維納濾波器之噪音抑制器

160C:具最小均方適應性濾波器之噪音抑制器

160D:具頻譜刪減之噪音抑制器

16a1、16b1、16c1、16d1:噪音抑制部

16a2、16b2、16c2、16d2:分類部

170:預處理電路

171:類比數位轉換器

172:變換器

230:特徵萃取單元

240:神經網路

242:DNN

243:全連結(密集)層

250:頻帶增益乘法單元

260:逆快速傅立葉變換單元

270:音框重疊相加單元

451~452:加法器

453:乘法器

500:具雙麥克風之語音增強裝置

[圖1]係根據本發明一實施例，顯示一個具多麥克風之語音增強裝置的示意圖。

[圖2A-2B]分別顯示一個以神經網路為基礎的噪音抑制器及一例示性的神經網路之方塊圖。

[圖2C-2E]分別顯示一個具維納濾波器(Wiener filter)之噪音抑制器、一個具最小均方(least mean square，LMS)適應性濾波器之噪音抑制器及一個具頻譜刪減(spectral subtraction)之噪音抑制器的方塊圖。

[圖3A-3B]係依據本發明一實施例，顯示一控制模組110運作方式之一流程圖。

[圖4]係根據本發明一實施例，顯示一混合單元的示意圖。

[圖5]係根據本發明另一實施例，顯示一個具雙麥克風之語音增強裝置的示意圖。

在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語，都同時包含單數及複數的涵義，除非本說明書中另有特別指明。在通篇說明書及後續的請求項當中所提及的相關用語定義如下，除非本說明書中另有特別指明。

本發明的特色之一是抑制所有類型的噪音(包含干擾(interfere)噪音)，無論噪音類型且無論噪音功率是否大於語音功率。本發明另一特色是使用一分類部(16a2/16b2/16c2/16d2)以正確地將一輸入音訊(audio)訊號之各音框(frame)的各頻率帶(band)分類成語音主導(speech-dominant)或是噪音主導(noise-dominant)。本發明另一特色是包含一個以神經網路為基礎的噪音抑制器(neural network-based noise suppressor)，係根據一神經網路240的分類結果正確地抑制該輸入音訊訊號中的噪音，以改善噪音抑制的效能。上述分類部(16a2/16b2/16c2/16d2)的分類結果(即CL-score(i))有效地幫助控制模組110決定一輸入音訊訊號是語音主導或是噪音主導，及決定是否啟動ANC130。本發明另一特色是適當地安排多個麥克風位置，使得輔助麥克風接收到使用者的語音越少越好。本發明另一特色是包含一波束成形器(beamformer)，以強化一過濾語音訊號Bs中的語音成分及壓抑/消除一過濾噪音訊號Bn中的語音成分，故可避免語音成分在ANC 130運作時被消除。本發明另一特色是結合該ANC、該波束成形器、該以神經網路為基礎的噪音抑制器以及該受訓過的模型的優點，以最佳化語音增強的性能。

圖1係根據本發明一實施例，顯示一個具多麥克風之語音增強裝置的示意圖。請參考圖1，本發明之具多麥克風之語音增強裝置100包含一控制模組110、一 ANC130、一波束成形器120、一噪音抑制器160、一混合單元150以及一預處理電路170。

該預處理電路170包含一類比數位轉換器(ADC)171及一變換器(transformer)172。該ADC171分別將來自Q個麥克風(MIC-1~MIC-Q)的類比音訊訊號(au-1~au-Q)轉換成Q個數位音訊訊號。該變換器172係被實施用來對其輸入訊號執行一快速傅立葉變換(fast Fourier transform，FFT)、一短時距(short-time)傅立葉變換、或一離散(discrete)傅立葉變換。為清楚及方便描述，以下的例子及實施例皆以該變換器172對其輸入訊號進行FFT操作來做說明。具體而言，該變換器172分別將時域的該Q個數位音訊訊號的目前音框的音訊資料變換成頻域的複數(complex)資料(即進行FFT操作)。假設取樣點數(或FFT尺寸)等於N且該目前音框的持續時間等於Td，該變換器172分別將時域的該Q個數位音訊訊號分割成多個音框，使各音框具有時域的R(<=N)個取樣點，並計算各音訊訊號(au-1~au-Q)的目前音框的FFT以產生具有N個複數值(complex-valued)的取樣點及頻率解析度等於fs/N(=1/Td)的頻譜代表式(spectral representation)(以下簡稱FFT-1~FFT-Q)，其中，fs表示該ADC 171的取樣頻率。例如，音訊訊號au-1的目前音框所具有N個複數值取樣點的頻譜代表式以下簡稱為FFT-1；音訊訊號au-2的目前音框所的具有N個複數值取樣點的頻譜代表式以下簡稱為FFT-2；以下以此類推。然後，該預處理電路170分別將該Q個音訊訊號(au-1~au-Q)的Q個目前音框的Q個目前頻譜代表式(FFT-1~FFT-Q)傳送給下游元件，亦即該控制模組110、該波束成形器120以及該噪音抑制器160。一較佳實施例中，各音框的持續時間Td等於8~32毫秒(millisecond)。請注意，因為該控制模組110、該波束成形器120以及該噪音抑制器160都是接收及處理該Q個目前頻譜代表式(FFT-1~FFT-Q)，故其相關訊號如Bs、Bn、NC及Sb等也都是頻域訊號。

該控制模組110、該ANC 130、該波束成形器120、該混合單元150以及該預處理電路170之任一皆可由軟體、硬體、韌體、或其組合來實施。一實施例中，該控制模組110係以一處理器112及一儲存媒體115來實施。該儲存媒體115儲存多個指令/程式碼供該處理器112執行：圖3A-3B的方法中所有的步驟。該控制模組110可根據分類結果(CL-score(1)~CL-score(Q))及該Q個目前頻譜代表式(FFT-1~FFT-Q)，來正確將周遭環境分類成多個不同情境，之後，再根據被分類的情境，分別傳送二個控制訊號C1~C2及二個增益值(gain)g1~g2至該ANC 130、該波束成形器120及該混合單元150。

根據該控制訊號C1，該波束成形器120透過線性地混合一主要音訊訊號au-1及(Q-1)個輔助音訊訊號au- 2~au-Q的Q個目前音框的Q個目前頻譜代表式(FFT-1~FFT-Q)，來進行空間性濾波(spatial filtering)以產生一過濾語音訊號Bs及一過濾噪音訊號Bn。該ANC130過濾來自該參考輸入端之該過濾噪音訊號Bn以產生一噪音估測值，以及將來自該主要輸入端之該過濾語音訊號Bs減去該噪音估測值以產生一訊號估測值NC。該混合單元150根據該二個增益值g1~g2，混合該訊號估測值NC及該過濾語音訊號Bs以產生一混合訊號Sb。最後，該噪音抑制器160根據其噪音抑制部(16a1/16b1/16c1/16d1)之其分類結果(CL-score)，抑制其輸入訊號Sb中的噪音以產生一增強訊號Se，以及利用Q個分類部(16a2/16b2/16c2/16d2)處理該Q個目前頻譜代表式(FFT-1~FFT-Q)，以產生Q個分類結果(CL-score(1)~CL-score(Q))。

本發明之具多麥克風之語音增強裝置100可應用於各種不同的計算機系統，包含，但不受限於，一般用途計算機系統、通訊系統、助聽器、自動語音辨識(ASR)、電傳會議系統、自動語音服務系統以及語音處理系統等。該通訊系統包含但不受限於，行動電話、VOIP、免持電話及車內座艙通訊系統等。為清楚及方便描述，以下的例子及實施例係假設本發明之語音增強裝置100應用於一行動電話(圖未示)來做說明。

包含一主要麥克風MIC-1及(Q-1)個輔助麥克風 MIC-2~MIC-Q的Q個麥克風，設在該行動電話上的不同位置，其中，Q>1。最靠近使用者嘴巴的該主要麥克風MIC-1係用來擷取使用者的語音訊號。在實際實施時，適當地安排設置該Q個麥克風，使得該(Q-1)個輔助麥克風至使用者嘴巴的距離是該主要麥克風MIC-1至使用者嘴巴的距離的Z倍，其中，Z>=2且Z是一實數。依此方式，該(Q-1)個輔助麥克風會接收到最少量的語音訊號。舉例而言，若Q=2，該主要麥克風MIC-1設置於該行動電話的底部，而一輔助麥克風則設置於該行動電話背面的上半部。該Q個麥克風可以任何適當的音訊轉換器(audio transducer)來實施，用來將聲音能量轉換成電子訊號。設在鄰近位置的該Q個麥克風所接收到的音訊訊號au-1~au-Q，通常會擷取到多個聲音來源的混合，而該些聲音來源可以像噪音(周遭噪音、街道噪音等等)或語音。

根據該控制訊號C1，該波束成形器120透過線性地混合一主要音訊訊號au-1及(Q-1)個輔助音訊訊號au-2~au-Q的目前音框的目前頻譜代表式(FFT-1~FFT-Q)，來進行空間性濾波以產生一過濾語音訊號Bs及一過濾噪音訊號Bn。該空間性濾波增強來自一期望方向的訊號接收(即改善SNR)，但抑制來自其他方向的不需要訊號。具體而言，該波束成形器120透過增強來自一期望語音來源方向的主要音訊訊號au-1(即語音)的目前頻譜代表式FFT-1之接收及抑制來自其他方向的(Q-1)個輔助音訊訊號au-2~au-Q的(Q-1)個目前頻譜代表式(FFT-2~FFT-Q)之接收，以產生一過濾語音訊號Bs，並且，該波束成形器120透過抑制來自該期望語音來源方向的主要音訊訊號au-1的目前頻譜代表式FFT-1之接收及增強來自其他方向的(Q-1)個輔助音訊訊號au-2~au-Q(即噪音)的(Q-1)個目前頻譜代表式(FFT-2~FFT-Q)之接收，以產生該過濾噪音訊號Bn。該波束成形器120可用本領域技術人士所熟知的各種波束成形器來實施。該波束成形器120用來抑制/消除該過濾噪音訊號Bn中的語音成分，防止該過濾噪音訊號Bn包含該語音成分，以避免該語音成分在該ANC 130運作時被消除。請注意，越多的該些麥克風的音訊訊號被饋入至該波束成形器120，該波束成形器120的SNR值會越大，該波束成形器120的性能也會越好。

由於該ANC 130的結構及運作為本領域技術人士所熟知，在此不予贅述。根據一控制訊號C2，該ANC 130的主要輸入端接收該過濾語音訊號Bs，而其參考輸入端則接收該過濾噪音訊號Bn，其中該過濾語音訊號Bs因噪音n _o的出現而被破壞，而該過濾噪音訊號Bn與該噪音n _o之間有某種程度的相關性。之後，該ANC 130內的適應性濾波器適應性地對該過濾噪音訊號Bn進行濾波，以產生一雜訊估計值。接著，該ANC 130將該過濾語音訊號Bs減去該雜訊估計值，以產生一訊號估計值NC。如上所述，該波束成形器120透過抑制來自該期望語音來源方向的主要音訊訊號(即語音)au-1的目前頻譜代表式FFT-1之接收以產生該過濾噪音訊號Bn。因此，由該ANC 130所接收的該過濾噪音訊號Bn與該過濾語音訊號Bs之間會相對地不相關，以避免語音成分的自我抵銷。因此，可減少破壞該過濾語音訊號Bs中之語音成分的機率，並改善該ANC 130內主要音訊訊號(即語音)au-1的SNR值。

該噪音抑制器160可以一個以神經網路為基礎的噪音抑制器160A來實施。圖2A-2B分別顯示一個以神經網路為基礎的噪音抑制器及一例示性的神經網路之方塊圖。其中，該以神經網路為基礎的噪音抑制器160A係根據作者Jean-Marc Valin所揭露的文獻(“A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement”,2018 IEEE 20th International Workshop on Multimedia Signal processing(MMSP))來進行修改。參考圖2A，以神經網路為基礎的噪音抑制器160A包含一噪音抑制部16a1及Q個分類部16a2。各噪音抑制部16a1及各分類部16a2均包含一特徵萃取(feature extraction)單元230及一神經網路240。該噪音抑制部16a1更包含一頻帶增益(band gain)乘法單元250、一逆快速傅立葉變換(IFFT)單元260及一音框重疊相加單元270。該特徵萃取單元230從輸入訊號FFT-i/Sb頻域的複數資料中萃取出特徵，例如，將FFT的輸出轉換成對數(log)頻譜。該神經網路240估算該目前音框的一連串頻帶增益值，且各頻帶增益值係介在0與1之間。該頻帶增益乘法單元250將後續接收到的音框乘上上述從該神經網路240得到之一連串頻帶增益值。該IFFT單元260用來在各音框中，將頻域的複數資料轉換成時域的音訊資料。無須使用矩形窗，音框重疊相加單元270藉由重疊鄰近音框來平滑化各音框內的元素，使該些元素更為一致以產生一時域之增強訊號Se，進而避免降噪之後產生語音的不連續感。

該噪音抑制部16a1結合以數位訊號處理(DSP)為基礎的技術與深度學習(deep learning)技術。具體而言，該噪音抑制部16a1利用該神經網路240之分類結果來抑制其輸入音訊訊號Sb中的噪音，以產生該時域之增強訊號Se。請注意，圖2A中的分類部16a2只提供給該Q個目前頻譜代表式(FFT-1~FFT-Q)之其一，因為在圖1中有Q個目前頻譜代表式(FFT-1~FFT-Q)被饋入至該以神經網路為基礎的噪音抑制器160A，故實際上該以神經網路為基礎的噪音抑制器160A內包含有Q個分類部16a2(圖未示)。

於各分類部16a2中，該特徵萃取單元230從對應的輸入訊號FFT-i的頻域複數資料中萃取出特徵後，該神經網路240估算出一連串頻帶增益值(即分類結果CL-score(i))，且各頻帶增益值係介在0與1之間，其中，i=1~Q。分類結果CL-score(i)的頻譜分成k個頻帶，相當於頻帶解析度等於fs/k。請注意，上述”一連串頻帶增益值”可視為”一連串頻帶分數/預測值”。因此，若CL-score(i)內的任一個頻帶增益值(即一個分數)越接近0，表示對應頻帶上的訊號是噪音主導，反之若CL-score(i)內的任一個頻帶增益值(即一個分數)越接近1，表示對應頻帶上的訊號是語音主導。後續圖3A-3B的相關說明中將詳述，該神經網路240的分類結果(即CL-score(i))係有效地幫助該控制模組110決定哪個輸入音訊訊號是語音主導或是噪音主導。

該神經網路240包含一深度神經網路(DNN)242以及一全連結(密集)層243。該DNN 242可以是一循環神經網路(recurrent neural network，RNN)(包含原始(vanilla)RNN、閘控循環單元(gated recurrent unit，GRU)和長短記憶(long short term memory，LSTM)網路等具循環結構的神經網路)、一卷積神經網路(convolutional neural network，CNN)、一時間卷積神經網路(temporal convolutional neural network、一全連結(密集)神經網路以及其組合。DNN 242用來接收音訊特徵向量以及對時間性的型態(pattern)編碼，而且全連結(密集)層243用來將來自該特徵萃取單元230的複合特徵轉換成多個增益值，即CL-score(i)。該些增益值的真值或實際值(ground truth)需要有噪音的語音及乾淨的語音，故藉由添加噪音至乾淨的語音資料，以人工來建立訓練資料(training data)。對於語音資料，需收集大範圍的人類語音，例如不同性別、不同年齡、不同種族及不同語系等等。對於噪音資料，則收集不同噪音源，例如市場、電腦風扇、群眾、汽車、飛機、工地等等。對於特殊目的產品，則收集特殊類型的噪音以改善該以神經網路為基礎的噪音抑制器160A的抑制噪音能力。舉例而言，對於視訊遊戲產品，就必須納入鍵盤敲打噪音，且混合不同強度的鍵盤敲打噪音來以產生大範圍的SNR，包含乾淨語音及僅噪音的片段。一訓練階段(training phase)中，多個附標籤(label)的訓練資料被用來訓練各神經網路240，且各訓練資料被標註屬於二個類別之一(即語音主導或噪音主導)。在該訓練階段結束時，各受訓過的該神經網路240即可處理新的且未附標籤的音訊資料，例如音訊特徵向量，來產生對應的分數/增益值，表示上述新的且未附標籤的音訊資料最符合哪一個類別(語音主導或噪音主導)。

除了該以神經網路為基礎的噪音抑制器160A之外，該噪音抑制器160可利用一個具維納濾波器之噪音抑制器(圖2C中的160B)、一個具最小均方適應性濾波器之噪音抑制器(圖2D中的160C)或一個具頻譜刪減之噪音抑制器(圖2E中的160D)來實施。應了解的是：本發明之應用並不以此為限，現存或將來發展出來之其他噪音抑制器亦可適用於本發明之概念，只要該噪音抑制器可根據Q個目前頻譜代表式(FFT-1~FFT-Q)以產生Q個分類結果(CL-score(1)~CL- score(Q))。

類似於圖2A中的以神經網路為基礎的噪音抑制器160A，圖2C中的具維納濾波器之噪音抑制器160B包含一噪音抑制部16b1以及Q個分類部16b2、圖2D中的具最小均方適應性濾波器之噪音抑制器160C包含一噪音抑制部16c1以及Q個分類部16c2、圖2E中的具頻譜刪減之噪音抑制器160D包含一噪音抑制部16d1以及Q個分類部16d2。各噪音抑制部(16b1、16c1、16d1)係利用其分類結果CL-score來抑制其輸入音訊訊號Sb中的噪音，以產生一時域的增強訊號Se。任一組Q個分類部(16b2/16c2/16d2)處理該Q個目前頻譜代表式(FFT-1~FFT-Q)以產生Q個分類結果(CL-score(1)~CL-score(Q))。因為該具維納濾波器之噪音抑制器160B、該具最小均方適應性濾波器之噪音抑制器160C以及該具頻譜刪減之噪音抑制器160D的運作方式及架構為本領域技術人士所熟知，故在此不予贅述。

請注意，雖然控制模組110接收Q個目前頻譜代表式(FFT-1~FFT-Q)及Q個分類結果(CL-score(1)~(Q))，該控制模組110僅需要二個目前頻譜代表式及其對應的分類結果來運作，其中該二個目前頻譜代表式其中之一是來自該主要音訊訊號au-1，另一個則是來自該(Q-1)個輔助音訊訊號(au-2~au-Q)中任選其一。圖3A-3B係依據本發明一實施例，顯示該控制模組運作方式之一流程圖。為清楚及方便描述，以下請參考圖1、2A及3A-3B，並假設該控制模組110係選擇二個目前頻譜代表式(FFT-1~FFT-2)及二個分類結果(CL-score(1)~(2))，來進行運作。

步驟S302：根據二個分類結果(CL-score(1)~(2))及四個臨界值TH1~TH4，分別決定二個音訊訊號au-1及au-2之目前音框的旗標F-1及F-2。假設第一臨界值TH1=0.7、第二臨界值TH2=1/2、第三臨界值TH3=0.3、第四臨界值TH4=1/3以及N1=8。假設CL-score(1)=[0.7,0.9,1.0,0.9,0.8,1.0,0.7,0.6]，因為m1/N1>TH2(=1/2)及m2/N1<TH4(=1/3)，表示音訊訊號au-1之目前音框為語音主導訊號，故將旗標F-1設為1(表示語音)。其中，m1代表CL-score(i)中元素的值大於TH1的數目，而m2代表CL-score(i)中元素的值小於TH3的數目。假設CL-score(2)=[0,0.2,0.1,0,0.3,0.2,0.6,0.5]，因為m1/N1<TH2(=1/2)及m2/N1>TH4(=1/3)，表示音訊訊號au-2之目前音框為噪音主導訊號，故將旗標F-2設為0(表示噪音)。請注意，上述TH1~TH4的值僅是示例而非本發明之限制，實際實施時，可將TH1~TH4設為其他的值，以符合不同的設計變異。

步驟S304：根據旗標F-1，分配該音訊訊號au-1之目前音框之目前功率頻譜(power spectrum)給該音訊訊號au-1之目前音框之目前語音功率頻譜或目前噪音功率頻譜，以及根據旗標F-2，分配該音訊訊號au-2之目前音框之目前功率頻譜給該音訊訊號au-2之目前音框之目前語音功率頻譜或目前噪音功率頻譜。根據該二個目前頻譜代表式(FFT-1~FFT-2)，該控制模組110計算各頻格(frequency bin)內各複數值(complex-valued)的取樣點的功率位準，以得到音訊訊號au-i之目前音框之目前功率頻譜，其中，i=1~2。具體而言，根據方程式

，該控制模組110計算各頻格內各複數值的取樣點x的功率位準，其中，x _r表示一實部，而x _i表示一虛部。取決於旗標F-i的值，該控制模組110分配目前功率頻譜給音訊訊號au-i之目前音框之目前語音功率頻譜或目前噪音功率頻譜。舉例而言，因為旗標F-1的值等於1(表示語音)，該控制模組110分配該音訊訊號au-1之目前音框之目前功率頻譜給該音訊訊號au-1之目前音框之目前語音功率頻譜PS_1C，以及因為旗標F-2的值等於0(表示噪音)，該控制模組110分配該音訊訊號au-2之目前音框之目前功率頻譜給該音訊訊號au-2之目前音框之目前噪音功率頻譜PN_2C。在其他例子中，若旗標F-1及F-2的值等於1(表示語音)，該控制模組110分別分配該音訊訊號au-1及au-2之目前音框之目前功率頻譜給該音訊訊號au-1及au-2之目前音框之目前語音功率頻譜PS_1C及PS_2C。

步驟S306：比較一平均噪音功率頻譜APN₂之總功率值TN₂及一臨界值TH5，來決定背景噪音的功率位準。若TN₂<TH5，表示背景噪音位在低功率位準，否則，表示背景噪音位在高功率位準。若背景噪音位在低功率位準，則流程跳到步驟S308，否則，流程跳到步驟S330。一實施例中，提供以下無限脈波響應(infinite impulse response，IIR)方程式來得到該音訊訊號au-2之平均噪音功率頻譜APN₂及平均語音功率頻譜APS₂：

APN₂=((1-a) * PN_2C+a*APN₂)； (1)

APS₂=((1-a) * PS_2C+a*APS₂)； (2)

其中，PS_2C及PN_2C分別代表該音訊訊號au-2之目前音框之目前語音功率頻譜及目前噪音功率頻譜。

另一實施例中，提供以下求和並相除(sum and divide，SD)方程式來得到該音訊訊號au-2之平均噪音功率頻譜APN₂及平均語音功率頻譜APS₂：

APN₂=(PN_2C+PN_2f1+....+PN_2fg)/(1+g)； (3)

APS₂=(PS_2C+PS_2f1+....+PS_2fg)/(1+g)； (4)其中，PN_2f1~PN_2fg分別代表該音訊訊號au-2之目前音框的先前的g個音框的先前噪音功率頻譜，而PS_2f1~PS_2fg分別代表該音訊訊號au-2之目前音框的先前的g個音框的先前語音功率頻譜。該控制模組110計算該平均噪音功率頻譜APN₂內所有頻格的功率位準的總和，以得到一總功率值TN₂。此外，該控制模組110計算該平均語音功率頻譜APS₂內所有頻格的功率位準的總和，以得到一總功率值TS₂，並且將該總功率值 TS₂，乘上一權值C，以得到一臨界值TH5，亦即TH5=TS₂*C。一較佳實施例中，該權值C的範圍是4~8。比較”該平均噪音功率頻譜APN₂之總功率值TN₂及該平均語音功率頻譜APS₂之總功率值TS₂”是很重要的步驟，若相較於TS₂，總功率值TN₂不夠大的話，就不適合啟動該ANC 130。

步驟S308：決定旗標F-1的值是否等於1(表示語音)，若是，流程跳到步驟S312，否則，流程跳到步驟S310。

步驟S310：將周遭環境分類為情境B：少量噪音且無人說話的環境。此時，根據上述的IIR或SD方程式，目前噪音功率頻譜PN_1C用來更新該平均噪音功率頻譜APN₁且目前噪音功率頻譜PN_2C用來更新該平均噪音功率頻譜APN₂。

步驟S312：決定該音訊訊號au-1之目前音框之該目前語音功率頻譜PS_1C的總功率值TS_1C是否遠大於該音訊訊號au-2之目前音框之該目前語音功率頻譜PS_2C的總功率值TS_2C。若是，表示使用者在說話且流程跳到步驟S316，否則，表示使用者沒有說話且流程跳到步驟S314。該控制模組110計算該目前語音功率頻譜PS_1C內所有頻格的功率位準的總和，以得到一總功率值TS_1C，以及計算該目前語音功率頻譜PS_2C內所有頻格的功率位準的總和，以得到一總功率值TS_2C。一較佳實施例中，係決定該總功率值TS_1C是否大於該總功率值TS_2C至少6dB。然而，上述6dB的差距僅是示例而非本發明之限制，實際實施時，該總功率值TS_1C需要大於該總功率值TS_2C的差值是可調整的，並且取決於麥克風MIC-1及MIC-2的設置位置及靈敏度。

步驟S314：將周遭環境分類為情境C：少量噪音且旁人說話的環境。在情境C中，使用者沒有說話，但其附近的人以小音量在說話，且其附近的人說話的語音被視為噪音。因此，根據上述的IIR或SD方程式，目前語音功率頻譜PS_1C用來更新該平均語音功率頻譜APS₁且目前語音功率頻譜PS_2C用來更新該平均噪音功率頻譜APN₂。

步驟S316：決定該目前語音功率頻譜PS_1C是否類似該目前語音功率頻譜PS_2C以及旗標F-2是否等於1。若是，流程跳到步驟S320，否則，表示使用者沒有說話且流程跳到步驟S318。一實施例中，該控制模組110(a)計算該二個目前語音功率頻譜PS_1C~PS_2C的所有頻格的功率位準之間的絕對差值和(sum of absolute differences，SAD)，以得到一第一總和值DS₁₂；(b)計算該二個CL-score(1)~(2)的所有頻帶的增益值之間的絕對差值和，以得到一第二總和值DAI₁₂；及(c)根據下列幅值平方相干性(magnitude-squared coherence)方程式，計算該二個目前語音功率頻譜PS_1C~PS_2C之間的相干性(coherence)：

，其中，P₁₂是音訊訊號au-1及au-2的交互功率頻譜密度(cross-power spectral density)。相干性的幅值範圍在0與1之間，是一種在某一頻率f上二個FFT之間振幅耦合(amplitude coupling)的量測。若第一總和值DS₁₂及第二總和值DAI₁₂都小於6dB且Coh₁₂值接近1，該控制模組110會決定該二個目前語音功率頻譜PS_1C~PS_2C類似，否則，該控制模組110會決定該二個目前語音功率頻譜PS_1C~PS_2C不同。

步驟S318：將周遭環境分類為情境D：少量噪音且使用者與旁人都在說話的環境。在情境D中，使用者與其附近的人都在說話。因為該二個目前語音功率頻譜PS_1C~PS_2C不同，故包含於音訊訊號au-2中的語音成分事實上是噪音。因此，根據上述的IIR或SD方程式，目前語音功率頻譜PS_1C用來更新該平均語音功率頻譜APS₁且目前語音功率頻譜PS_2C用來更新該平均噪音功率頻譜APN₂。

步驟S320：將周遭環境分類為情境A：少量噪音且使用者在說話的環境。在情境A中，因為使用者在少量噪音的環境中說話，語音成分有很大的機率會滲漏到音訊訊號au-2，故之後該ANC 130的運作非常有可能會損害該過濾語音訊號Bs中的語音成分。因此，需要禁能(disable)該ANC 130以避免使用者的語音自我抵消。因為該二個旗標F-1及F-2都等於1，根據上述的IIR或SD方程式，目前語音功率頻譜PS_1C用來更新該平均語音功率頻譜APS₁且目前語音功率頻譜PS_2C用來更新該平均語音功率頻譜APS₂。

步驟S320：不啟動(de-activate)該ANC 130。具體而言，該控制模組110會將控制訊號C1設為有效(asserted)以啟動該波束成形器120、將控制訊號C2設為無效(de-asserted)以不啟動該ANC 130及傳送增益值g1(=0)及g2(=1)至該混合單元150。之後，該流程回到步驟S302以處理下一個音框。參考圖4，該混合單元150包含二個乘法器451~452及一加法器453。該乘法器451將該訊號估計值NC乘上該增益值g1(=0)，且該乘法器452將該過濾語音訊號Bs乘上該增益值g2(=1)，最後，該加法器453將該二個乘法器451~452的輸出相加以輸出該混合訊號Sb。

步驟S330：決定該音訊訊號au-1之目前音框之該目前語音功率頻譜PS_1C的總功率值TS_1C是否遠大於該音訊訊號au-2之目前音框之該目前語音功率頻譜PS_2C的總功率值TS_2C。若是，表示使用者在說話且流程跳到步驟S332，否則，表示使用者沒有說話且流程跳到步驟S334。一較佳實施例中，係決定該總功率值TS_1C是否該總功率值TS_2C大於至少6dB。然而，上述6dB的差距僅是示例而非本發明之限制，實際實施時，該總功率值TS_1C需要大於該總功率值TS_2C的差值是可調整的且取決於麥克風MIC-1及MIC-2的設置位置及靈敏度。

步驟S332：將周遭環境分類為情境E：大量噪音且使用者在說話的環境。情境E代表背景噪音是在高功率位準且使用者正在說話。此時，根據上述的IIR或SD方程式，目前語音功率頻譜PS_1C用來更新該平均語音功率頻譜APS₁且目前噪音功率頻譜PN_2C用來更新該平均噪音功率頻譜APN₂。

步驟S334：將周遭環境分類為情境F：極度吵雜的環境。情境F代表以下二種狀況。狀況一：背景噪音是在高功率位準且使用者沒有說話；狀況二：背景噪音非常大，大到足以淹沒使用者的語音。此時，根據上述的IIR或SD方程式，目前噪音功率頻譜PN_1C用來更新該平均噪音功率頻譜APN₁且目前噪音功率頻譜PN_2C用來更新該平均噪音功率頻譜APN₂。

步驟S336：啟動該ANC 130。具體而言，該控制模組110會將控制訊號C1設為有效以啟動該波束成形器120、將控制訊號C2設為有效以啟動該ANC 130及傳送增益值g1(=1)及g2(=0)至該混合單元150。之後，該流程回到步驟S302以處理下一個音框。

綜而言之，對於少量噪音的環境，包含有情境B-D(亦即少量噪音且無人說話的環境、少量噪音且旁人說話的環境以及少量噪音且使用者與旁人都在說話的環境)，該ANC 130的運作並不會損壞該過濾語音訊號Bs中的語音成分，反而會壓抑更多內含於該過濾語音訊號Bs中的噪音。至於大量噪音的環境，包含有情境E-F(亦即大量噪音且使用者在說話的環境以及極度吵雜的環境)，因為該過濾噪音訊號Bn中大部分包含噪音，該ANC 130的運作也不可能會損壞該過濾語音訊號Bs中的語音成分，反而會壓抑更多內含於該過濾語音訊號Bs中的噪音。

請注意，因為在相同的控制條件下，該二個音訊訊號au-1及au-2之目前音框的二個目前語音功率頻譜PS_1C~PS_2C及二個目前噪音功率頻譜PN_1C~PN_2C的功率位準通常不相同，故在初始化(initialization)時(早於步驟S302)，需要校正該二個目前語音功率頻譜PS_1C~PS_2C及該二個目前噪音功率頻譜PN_1C~PN_2C的功率位準。例如，在初始化時，假設PS_1C=[6,6,6,6]、PS_2C=[2,2,2,3]、PN_1C=[3,3,3,2]及PN_2C=[1,2,2,6]，該控制模組110會自動將PS_2C乘上一增益陣列g_2S=[3,3,3,2]、將PN_1C乘上一增益陣列g_1N=[2,2,2,3]以及將PN_2C乘上一增益陣列g_2N=[6,3,3,1]，以備進行後續的計算。於校正後，功率頻譜PS_1C~PS_2C及PN_1C~PN_2C的功率位準都會校正到相同位準，即[6,6,6,6]。也可採用其他方法來校正該二個音訊訊號au-1及au-2之各音框的該些功率頻譜的功率位準。

另一實施例中，若g1及g2的先前值及目前值不同，該控制模組110在一預設時段內，將增益值g1及g2設定至其目前值的過程分成多個步驟(稱之為”多步驟設定程序”)；反之，若g1及g2的先前值及目前值相同，增益值g1及g2則維持不變。例如，假設g1及g2的先前值分別等於1及0以及其目前值分別等於0及1，因為g1及g2的先前值及目前值不同，整個設定過程於1ms內被分成如下三步驟。第一步驟：於第一個0.3ms內，增益值g1及g2被設定成0.7及0.3；第二步驟：於第二個0.3ms內，增益值g1及g2被設定成0.4及0.6；第三步驟：於最後的0.4ms內，增益值g1及g2被設定成0及1。多步驟設定程序有助於混和訊號Sb的平滑轉換，改善音訊品質。

圖5係根據本發明另一實施例，顯示一個具雙麥克風之語音增強裝置的示意圖。請參考圖5，本發明之具雙麥克風之語音增強裝置500包含一控制模組110、一ANC130、一噪音抑制器160、一混合單元150以及一預處理電路170。相較於圖1，圖5的裝置500未包含該波束成形器120，且僅包含二個麥克風MIC-1及MIC-2。該語音增強裝置500運作良好，若再加入該波束成形器120，會更進一步加強該語音增強裝置500的性能。若該語音增強裝置500包含該波束成形器120，會提升該波束成形器120輸出的過濾語音訊號Bs的SNR值，另外，由於該波束成形器120輸出的過濾噪音訊號Bn所包含的語音成分變少，故可以隨之降低該臨界值TH5(請參考圖3A步驟S306的相關說明)，因此，在比較少噪音的情況下就可以啟動ANC 130。

本發明具多麥克風之語音增強裝置100/500可以軟體、硬體、或軟體(或韌體)及硬體的組合來實施，一單純解決方案的例子是現場可程式閘陣列(field programmable gate array，FPGA)或一特殊應用積體電路(application specific integrated circuit，ASIC)。一較佳實施例中，具多麥克風之語音增強裝置100/500係利用一個一般用途處理器以及一程式記憶體(圖未示)來實施，而該程式記憶體儲存一處理器可執行程式。當該一般用途處理器執行該處理器可執行程式時，該一般用途處理器被組態以運作有如：該控制模組110、該ANC130、該波束成形器120、該噪音抑制器160、該混合單元150以及該預處理電路170。

上述實施例以及功能性操作可利用數位電子電路、具體化的電腦軟體或韌體、電腦硬體，包含揭露於說明書的結構及其等效結構、或者上述至少其一之組合等等，來實施。在圖3A-3B揭露的方法與邏輯流程可利用至少一部電腦執行至少一電腦程式的方式，來執行其功能。在圖3A-3B揭露的方法與邏輯流程可利用特殊目的邏輯電路來實施，例如：FPGA或ASIC等。適合執行該至少一電腦程式的電腦包含，但不限於，通用或特殊目的的微處理器，或任一型的中央處理器(CPU)。適合儲存電腦程式指令及資料的電腦可讀取媒體包含所有形式的非揮發性記憶體、媒體及記憶體裝置，包含，但不限於，半導體記憶體裝置，例如，可抹除可規劃唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)以及快閃(flash)記憶體裝置；磁碟，例如，內部硬碟或可移除硬碟；磁光碟(magneto-optical disk)，例如，CD-ROM或DVD-ROM。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。