TWI423687B

TWI423687B - 聲音處理裝置及方法

Info

Publication number: TWI423687B
Application number: TW099124664A
Authority: TW
Inventors: xi-lin Li; Sheng Liu
Original assignee: Fortemedia Inc
Priority date: 2009-07-28
Filing date: 2010-07-27
Publication date: 2014-01-11
Also published as: TW201127090A; US20110026730A1; US8275148B2

Description

聲音處理裝置及方法

本發明係關於聲音處理裝置及方法，更係關於對麥克風進行靈敏度校正的聲音處理裝置。

麥克風陣列上用來處理聲音訊號的方法很多。舉例而言，廣義旁瓣對消法(generalized sidelobe cancellation，GSC)即為一常見的方法。

第1圖為使用GSC方法的傳統聲音處理裝置示意圖。聲音處理裝置100包括一主麥克風110、一參考麥克風120、一固定式聲束形成器130、一適應性閉塞濾波器(adaptive blocking filter)140以及一適應性干擾消除器150。主麥克風110與參考麥克風120從一音源接收聲音(圖未示)，以及無可避免地從非音源處接收到噪音，其中聲為理想訊號，而噪音則不是。主麥克風110與參考麥克風120產生的輸入訊號會被進一步提供至該固定式聲束形成器130及該適應性閉塞濾波器140。該固定式聲束形成器130採用GSC方法以從混合的聲音及噪音中擷取出理想訊號，以產生對應至聲音的主通道輸出，而該適應性閉塞濾波器140從混合的聲音與噪音中移除該理想訊號，並產生對應至噪音的一參考通道輸出。由於參考通道在各個頻道上之遺漏使得主通道輸出總有許多旁瓣產生，故將該適應性干擾消除器150耦接至該固定式聲束形成器130及適應性閉塞濾波器140以補償主通道輸出，進而取得最終輸出。在聲束形成之後，該最終輸出被提供至一韋式後端濾波器(Wiener post-filter)以進一步減低靜態與非靜態噪音。

該GSC聲束形成器與韋式後端濾波器之效能必須依賴兩麥克風110與參考麥克風120在靈敏度上的完美匹配。可在適應性閉塞濾波器140與適應性干擾消除器150中使用聲音動態偵測器(voice activity detectors，VAD)以避免誤消到理想的聲音。當麥克風欠缺可靠的靈敏度校正機制時，VAD即無法提供正確的資訊。然而，麥克風之間的靈敏度不匹配始終存在。再者，由於GSC聲束形成法是在時域中實施，而聲音與噪音在接收時又是互相混合的，所以GSC聲束形成法很難移除所有的即時雜訊。因此需要一種新方法處理前述問題。

本發明提供一種聲音處理裝置。該聲音處理裝置包括：一主麥克風，用以從一音源接收一聲音並從一背景接收一噪音，並產生一主輸入；一參考麥克風，用以接收該聲音與該噪音並產生一參考輸入；一短時傅立葉轉換(short-time Fourier transformation，STFT)單元，用以利用短時傅立葉轉換以將時域的該主輸入轉換成頻域之一主訊號，並將時域的該參考輸入轉換成頻域的一參考訊號；一靈敏度校正單元，用以對該主訊號與該參考訊號進行靈敏度校正，並產生一主校正訊號與一參考校正訊號；一聲音動態偵測器(voice active detector，VAD)，用以依據該主校正訊號、該參考校正訊號以及一波達方向(direction of arrival，DOA)訊號產生一聲音動態訊號；以及一聲束形成器(beamformer)，用以依據該聲音動態訊號將該主校正訊號轉換成一主通道，並將該參考校正訊號轉換成一參考通道。

本發明另提供一聲音處理方法。該聲音處理方法包括：從一音源接收一聲音並從一背景接收一噪音，並產生一主輸入；接收該聲音與該噪音並產生一參考輸入；利用短時傅立葉轉換以將時域的該主輸入轉換成頻域之一主訊號，並將時域的該參考輸入轉換成頻域的一參考訊號；對該主訊號與該參考訊號進行靈敏度校正，並產生一主校正訊號與一參考校正訊號；依據該主校正訊號、該參考校正訊號以及一波達方向(direction of arrival，DOA)訊號產生一聲音動態訊號；以及依據該聲音動態訊號將該主校正訊號轉換成一主通道，並將該參考校正訊號轉換成一參考通道。

下文為介紹本發明之最佳實施例。各實施例用以說明本發明之原理，但非用以限制本發明。本發明之範圍當以後附之權利要求項為準。

第2A圖為依照本發明一實施例之聲音處理裝置。聲音處理裝置200包括一主麥克風202、一參考麥克風204、一短時傅立葉轉換(STFT)單元210、一靈敏度校正單元220、一聲音動態偵測器(VAD)230、一聲束形成器240、一噪音抑制單元250以及一反STFT單元260。

為方便說明，在本發明之實施例中聲音處理裝置200可為一行動電話，然而，熟悉本技藝人士可了解到，本發明不必以此為限主麥克風202與參考麥克風204係用以自一音源接收聲音(第2圖中未示)並自一背景接收噪音，主麥克風202與參考麥克風204分別配置於行動電話的不同位置。第2B圖為一實例中主麥克風與參考麥克風在行動電話上之位置。在此實施例中，行動電話300包括一面板310與一背板1320，而該主麥克風202配置於前板310之底部，而該參考麥克風204配置於該背板320之頂部(本發明不必以此為限。主麥克風202較參考麥克風204更靠近該音源，例如，說話者的口部。值得注意的是，由於前板310與後板320間存在實體障礙，所以參考麥克風204自該音源所接收的聲音會較主麥克風202來得少。這兩個麥克風之位置將有利於訊號處理。在此實施例中，主麥克風202與參考麥克風204分別將混合的聲音與噪音分別轉換成一主輸入M1與參考輸入M2，如第2圖所示。

主輸入M1與參考輸入M2為時域訊號，並被提供至STFT單元210。STFT單元210分別將時域的主輸入M1與參考輸入M2轉換成頻域的主訊號S1與參考訊號S2。

靈敏度校正單元220接收主訊號S1與參考訊號S2，並對主訊號S1與參考訊號S2進行靈敏度校正，以產生一主校正訊號C1與一參考校正訊號C2。在本發明中，靈敏度校正單元220更包括一空間譜評估器222、一擴散噪音偵測器224、一靈敏度不匹配計算器226以及一靈敏度不匹配移除器228，用以消除靈敏度不匹配，進而使聲音處理裝置200取得較佳的訊號。

空間譜評估器222用以依據主訊號S1與參考訊號S2產生空間譜。空間譜評估器222取得空間譜的方法很多，包括，Capon空間譜評估法、多重訊號分類(multiple signal classification，MUSIC)空間譜評估法、GCC空間譜評估法以及相位轉換(phase transfer，PHAT)空間譜評估法。在此實施例中，空間譜可指出主訊號與參考訊號之功率分布與入射角間之函數關係。空間譜顯示了主麥克風202與參考麥克風204所接收聲音與噪音之混合。如熟悉本技藝之人士所知，空間譜中大致平坦的曲線係由遠場(遠場)噪音所造成，而空間譜中突出的主峰則是由近場(近場)聲音，即說話者之聲音及環境中的點源噪音所造成。

本發明利用擴散噪音校正麥克風202與204間之靈敏度不匹配。擴散噪音偵測器224可用來檢驗空間譜，以指出是否存在擴散噪音。一般來說，擴散噪音會使空間譜中出現平坦的曲線，熟悉本技藝人士可從中輕易分辨出何者為擴散噪音而何者為點源噪音。由於擴散噪音被視為遠場噪音，因此被主麥克風202及參考麥克風204所感測到的功率都是相同的。靈敏度不匹配計算器226配置於本發明中，可用來在擴散噪音偵測器224指出擴散噪音存在時，判斷主訊號S1與參考訊號S2間之靈敏度不匹配。接著，靈敏度不匹配移除器228接收該主訊號S1與參考訊號S2，並移除主訊號S1與參考訊號S2之間的靈敏度不匹配，並產生主校正訊號C1與參考校正訊號C2。

接著將麥克風202與204之靈敏度校正成彼此相等，並進一步處理主校正訊號C1與參考校正訊號C2以取得更好的訊號。聲音處理裝置200更包括一波達方向(direction of arrival，DOA)評估器232，其用以檢驗空間譜並產生一DOA訊號D1，其中DOA訊號D1指出空間譜是否存在主峰。VAD 230係用以依據主校正訊號C1、參考校正訊號C2以及DOA訊號D1產生聲音動態訊號V1。更明確地說，VAD 230將主校正訊號C1與參考校正訊號C2間之功率比一倉一倉地(bin by bin)與一預設臨界值進行比較。舉例而言，當一倉中之功率比小於預設臨界值，則該倉之訊號即被視為噪音而予以刪除，並開啟聲音動態訊號。然而，當一倉中之功率比大於該預設臨界值，則該倉的訊號將被視為理想訊號而予以保留，並關閉聲音動態訊號。

聲束形成器240係用以依據the聲音動態訊號V1將主校正訊號C1轉換成一主通道N1，並將參考校正訊號C2轉換成參考通道N2。聲束形成器240更包括一陣列流形矩陣辨識單元242、一主通道產生器244以及一參考通道產生器246。陣列流形矩陣辨識單元242係用以依據聲音動態訊號V1追縱訊號子空間，並產生一導引向量訊號V2。陣列流形矩陣辨識單元242可採用的訊號子空間追蹤方法可為PAST演算法。導引向量訊號V2可依據VAD 230所提供的聲音動態訊號V1指出各個頻率倉中的方向向量。主通道產生器244係用以接收該主校正訊號C1以及該參考校正訊號C2，並依據該導引向量訊號V2產生主通道N1，其中主通道N1對應至從音源上接收的聲音。舉例而言，主通道產生器244中可利用最小方差無失真響應(minimum variance distortionless response，MVDR)演算法進行聲束形成之處理。參考通道產生器246係用以接收主校正訊號C1與參考校正訊號C2，並依據導引向量訊號V2產生參考通道N2，其中參考通道N2對應至從背景接收到之噪音。舉例而言，參考通道產生器246可將理想訊號(從音源接收的聲音)消除以取得該參考通道N2。

雖然在聲束形成器240處理之後可取得主通道N1與參考通道N2，但仍可能存在部分非線性的噪音。噪音抑制單元250即用以依據聲音動態訊號V1進一步抑制主通道N1與參考通道N2中之靜態與非靜態噪音，並將主通道N1與參考通道N2整合成一最終訊號F1。舉例而言，噪音抑制單元係一韋氏後端濾波器。之後，反STFT單元260可利用反短時傅立葉轉換將頻率的最終訊號F1轉換成時域的最終輸出P1。

本發明更包括提供一聲音處理方法。第3A圖依照本發明一實施例為聲音處理方法之流程圖。請參照第3A圖與第2A圖，本聲音處理方法包括：在步驟S310中，從音源接收一聲音，從背景接收一噪音，並產生主輸入M1，並產生一參考輸入M2；在步驟S320中，利用短時傅立葉轉換而將時域之主輸入M1轉換成頻域之主訊號S1，並將時域之參考輸入M2轉換成頻域之參考訊號S2；在步驟S330中，對主訊號S1與參考訊號S2進行靈敏度校正以產生一主校正訊號C1與一參考校正訊號C2；在步驟S340中，依據主校正訊號C1、參考校正訊號C2以及一波達方向DOA訊號D1產生一聲音動態訊號V1；在步驟S350中，依據聲音動態訊號V2將該主校正訊號C1轉換成一主通道N1，並將該參考校正訊號C2轉換成一參考通道N2；在步驟S360中，依據聲音動態訊號V1抑制主通道N1與參考通道N2中之靜態與非靜態噪音，並將主通道N1與參考通道N2整合成一最終訊號F1；而在步驟S370中，利用反短時傅立葉轉換將該頻域的最終訊號F1轉換成時域的最終輸出P1。

第3B圖為步驟S330之詳細流程。請參照第3B圖與第2圖。步驟S330更包括：在步驟S331中，依據主訊號S1與參考訊號S2產生一空間譜，其中空間譜指出主訊號S1與參考訊號S2之功率分佈與入射角之間的函數關係；在步驟S332中，檢驗空間譜以指出是否存在擴散噪音；在步驟S333中，當擴散噪音偵測器指出擴散噪音存在時，計算主訊號S1與參考訊號S2之間的靈敏度不匹配；在步驟S334中，移除主訊號S1與參考訊號S2間之靈敏度不匹配，並產生主校正訊號C1與參考校正訊號C2。

第3C圖為步驟S340之詳細流程。請參照第3C圖與第2圖。步驟S340更包括：在步驟S341中，檢驗空間譜，並產生DOA訊號D1，其中DOA訊號D1指出該空間譜是否存在一主峰；而在步驟S342中，將主校正訊號C1與參考校正訊號C2間之功率比與一預設臨界值進行比較；其中當功率比大於一預設臨界值時，開啟該聲音動態訊號V1，而當功率比小於該預設臨界值時，關閉聲音動態訊號V2。

第3D圖為步驟S350之詳細流程。請參照第3D圖與第2圖。步驟S350更包括：在步驟S351中，追蹤訊號子空間並依據聲音動態訊號V1產生導引向量訊號V2；在步驟S352中，接收主校正訊號C1與參考校正訊號C2，並依據引向量訊號V2產生主通道N1與參考通道N2，其中主通道N1對應至從音源接收的聲音，而該參考通道N2對應至由背景接收到的噪音。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何熟習此項技藝者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100．．．聲音處理裝置

110．．．主麥克風

120．．．參考麥克風

130．．．固定式聲束形成器

140．．．適應性閉塞濾波器

150．．．適應性干擾消除器

200．．．聲音處理裝置

202．．．主麥克風

204．．．參考麥克風

210．．．短時傅立葉轉換單元

220．．．靈敏度校正單元

230．．．聲音動態偵測器

222．．．空間譜評估器

224．．．擴散噪音偵測器

226．．．靈敏度不匹配計算器

228．．．靈敏度不匹配移除器

240．．．聲束形成器

250．．．噪音抑制單元

260．．．反STFT單元

M1．．．輸入

M2．．．參考輸入

S1．．．主訊號

S2．．．參考訊號

S1．．．主訊號

S2．．．參考訊號

C1．．．主校正訊號

C2．．．參考校正訊號

第1圖為使用GSC方法的傳統聲音處理裝置示意圖。

第2A圖為依照本發明一實施例之聲音處理裝置。

第2B圖為一實例中主麥克風與參考麥克風在行動電話上之位置。

第3A圖依照本發明一實施例為聲音處理方法之流程圖。

第3B圖為步驟S330之詳細流程。

第3C圖為步驟S340之詳細流程。

第3D圖為步驟S350之詳細流程。

200．．．聲音處理裝置

202．．．主麥克風

204．．．參考麥克風

210．．．短時傅立葉轉換單元

220．．．靈敏度校正單元

230．．．聲音動態偵測器

222．．．空間譜評估器

224．．．擴散噪音偵測器

226．．．靈敏度不匹配計算器

228．．．靈敏度不匹配移除器

240．．．聲束形成器

250．．．噪音抑制單元

260．．．反STFT單元

M1．．．輸入

M2．．．參考輸入

S1．．．主訊號

S2．．．參考訊號

S1．．．主訊號

S2．．．參考訊號

C1．．．主校正訊號

C2．．．參考校正訊號

Claims

一種聲音處理裝置，包括：一主麥克風，用以從一音源接收一聲音並從一背景接收一噪音，並產生一主輸入；一參考麥克風，用以接收該聲音與該噪音並產生一參考輸入；一短時傅立葉轉換(short-time Fourier transformation，STFT)單元，用以利用短時傅立葉轉換以將時域的該主輸入轉換成頻域之一主訊號，並將時域的該參考輸入轉換成頻域的一參考訊號；一靈敏度校正單元，用以對該主訊號與該參考訊號進行靈敏度校正，並產生一主校正訊號與一參考校正訊號；一聲音動態偵測器(voice active detector，VAD)，用以依據該主校正訊號、該參考校正訊號以及一波達方向(direction of arrival，DOA)訊號產生一聲音動態訊號；以及一聲束形成器(beamformer)，用以依據該聲音動態訊號將該主校正訊號轉換成一主通道，並將該參考校正訊號轉換成一參考通道。
如申請專利範圍第1項所述之聲音處理裝置，其中該主麥克風被配置在較該參考麥克風更靠近該音源之處。
如申請專利範圍第1項所述之聲音處理裝置，其中該靈敏度校正單元更包括一空間譜評估器，用以依據該主訊號與該參考訊號產生一空間譜，其中該空間譜指出該主訊號與該參考訊號在功率分佈與入射角間之函數關係。
如申請專利範圍第3項所述之聲音處理裝置，其中該靈敏度校正單元更包括一擴散噪音偵測器，用以檢驗該空間譜以指出是否存在一擴散噪音。
如申請專利範圍第4項所述之聲音處理裝置，其中該靈敏度校正單元更包括一靈敏度不匹配計算器，用以在該擴散噪音偵測器指出該擴散噪音存在時，計算該主訊號與參考訊號間之靈敏度不匹配。
如申請專利範圍第5項所述之聲音處理裝置，其中該靈敏度校正單元更包括一靈敏度不匹配移除器，用以接收該主訊號與該參考訊號，並移除該主訊號與參考訊號間之靈敏度不匹配，並產生該主校正訊號與該參考校正訊號。
如申請專利範圍第3項所述之聲音處理裝置，更包括一DOA評估器，用以檢驗該空間譜，並產生該DOA訊號，其中該DOA訊號指出在該空間譜中是否存在一主峰。
如申請專利範圍第1項所述之聲音處理裝置，其中該VAD將該主校正訊號與該參考校正訊號間之功率比與一預設臨界值作比較；其中，當該功率比大於一該預設臨界值時，該聲音動態訊號將被開啟，而當該功率小於該預設臨界值時，該聲音動態訊號將被關閉。
如申請專利範圍第1項所述之聲音處理裝置，其中該聲束形成器更包括一陣列流形矩陣辨識單元，用以追蹤一訊號子空間並依據該聲音動態訊號產生一導引向量訊號。
如申請專利範圍第9項所述之聲音處理裝置，其中該聲束形成器更包括：一主通道產生器，用以接收該主校正訊號與該參考校正訊號，並依據該導引向量訊號產生該主通道，其中該主通道對應至從該音源接收的該聲音；以及一參考通道產生器，用以接收該主校正訊號與該參考校正訊號，並依據該導引向量訊號產生該參考通道，其中該參考通道對應至從該背景接收的該噪音。
如申請專利範圍第1項所述之聲音處理裝置，更包括，一噪音抑制單元，用以依據該聲音動態訊號抑制該主通道與該參考通道中之靜態與非靜態噪音，並將該主通道與該參考通道整合成一最終訊號。
如申請專利範圍第1項所述之聲音處理裝置，更包括，一反STFT單元，用以利用反短時傅立葉轉換以將頻域之該最終訊號轉換成時域之一最終輸出。
如申請專利範圍第9項所述之聲音處理裝置，其中該陣列流形矩陣辨識單元利用一投影逼近子空間追蹤(projection approximation subspace tracking，PAST)演算法。
如申請專利範圍第10項所述之聲音處理裝置，其中該主通道產生器與該參考通道產生器利用一最小方差無失真響應(minimum variance distortionless response，MVDR)聲束形成方法以產生該主通道與該參考通道。
如申請專利範圍第11項所述之聲音處理裝置，其中該噪音抑制單元係一韋氏後端濾波器(Wiener post filter)。
一聲音處理方法，包括：從一音源接收一聲音並從一背景接收一噪音，並產生一主輸入；接收該聲音與該噪音並產生一參考輸入；利用短時傅立葉轉換以將時域的該主輸入轉換成頻域之一主訊號，並將時域的該參考輸入轉換成頻域的一參考訊號；對該主訊號與該參考訊號進行靈敏度校正，並產生一主校正訊號與一參考校正訊號；依據該主校正訊號、該參考校正訊號以及一波達方向(direction of arrival，DOA)訊號產生一聲音動態訊號；以及依據該聲音動態訊號將該主校正訊號轉換成一主通道，並將該參考校正訊號轉換成一參考通道。
如申請專利範圍第16項所述之聲音處理方法，更包括：依據該主訊號與該參考訊號產生一空間譜，其中該空間譜指出該主訊號與該參考訊號在功率分佈與入射角間之函數關係。
如申請專利範圍第17項所述之聲音處理方法，更包括：檢驗該空間譜以指出是否存在一擴散噪音。
如申請專利範圍第18項所述之聲音處理方法，更包括：在該擴散噪音偵測器指出該擴散噪音存在時，計算該主訊號與參考訊號間之靈敏度不匹配。
如申請專利範圍第19項所述之聲音處理方法，更包括：移除該主訊號與參考訊號間之靈敏度不匹配，並產生該主校正訊號與該參考校正訊號。
如申請專利範圍第17項所述之聲音處理方法，更包括：檢驗該空間譜，並產生該DOA訊號，其中該DOA訊號指出在該空間譜中是否存在一主峰。
如申請專利範圍第21項所述之聲音處理方法，更包括：將該主校正訊號與該參考校正訊號間之功率比與一預設臨界值作比較；其中，當該功率比大於一該預設臨界值時，將該聲音動態訊號開啟，而當該功率小於該預設臨界值時，將該聲音動態訊號關閉。
如申請專利範圍第16項所述之聲音處理方法，更包括：追蹤一訊號子空間並依據該聲音動態訊號產生一導引向量訊號。
如申請專利範圍第23項所述之聲音處理方法，更包括：接收該主校正訊號與該參考校正訊號，並依據該導引向量訊號產生該主通道與該參考通道，其中該主通道對應至從該音源接收的該聲音，而該參考通道對應至從該背景接收的該噪音。
如申請專利範圍第16項所述之聲音處理方法，更包括依據該聲音動態訊號抑制該主通道與該參考通道中之靜態與非靜態噪音，並將該主通道與該參考通道整合成一最終訊號。
如申請專利範圍第16項所述之聲音處理方法，更包括利用反短時傅立葉轉換以將頻域之該最終訊號轉換成時域之一最終輸出。