TWI573133B

TWI573133B - 音訊處理系統及方法

Info

Publication number: TWI573133B
Application number: TW104112050A
Authority: TW
Inventors: 蔡宗漢; 劉佩昀; 邱俞閤
Original assignee: 國立中央大學
Priority date: 2015-04-15
Filing date: 2015-04-15
Publication date: 2017-03-01
Also published as: US9558730B2; US20160307554A1; TW201637003A

Description

音訊處理系統及方法

本發明係關於一種音訊處理系統，特別係一種可去除噪音的音訊處理系統。

近年來由於多媒體的發展迅速，例如智慧型手機之錄影、錄音的功能日益強大，許多使用者對於錄音的需求也隨之提高，然而由於背景環境的因素，當使用者錄音時，常常會有額外的噪音出現，例如背景人聲等，使得錄音品質下降。此外也由於手機的普遍化，人們也越來越常在移動時進行語音通話，然而語音通話也常會因為背景的噪音而造成通話品質的下降，而此種問題在使用免持聽筒進行通話時更加嚴重。

舉例來說，由於在行車駕駛時使用手持電話十分地危險，因此免持聽筒之通話對於駕駛人而言已成為不可或缺的功能，然而駕駛人在行車時進行免持聽筒通話將會受到非常多的背景噪音影響，例如道路施工聲、汽車喇叭聲等，該等背景噪音將會造成通話品質的下降，更有可能使駕駛不能專心而造成意外。

因此需要提供一種改良的音訊處理系統，用以將背景的噪音去除，以提供良好的音訊品質。

本發明之一目的係提供一種音訊處理系統，用以去除音訊中的噪音，包括：一音訊取得模組，用以取得至少二組聲音訊號；一聲源分離模組，用以取得該等聲音訊號中的複數個空間特徵，並根據該等空間特徵從該等聲音訊號中分離出一主要聲源訊號；以及一噪音抑制模組，根據該主要聲源訊號中的一噪音的一振幅平均值對該主要聲源訊號進行處理，來進一步抑制該主要聲源訊號本身的噪音；其中，該至少二組聲音訊號中的每組聲音訊號皆包括複數個聲源的訊號。藉此，本系統可將複數個聲源的訊號從該等聲音訊號中分離，並且根據該分離出來的聲源內的噪音大小對該等分離出來的聲源進行處理，使得該等聲源中的噪音可以進一步被抑止。

本發明之另一目的係提供一種音訊處理方法，其係執行於一音訊處理系統，用以去除音訊中的噪音，該方法包括步驟：(A)取得至少二組聲音訊號，且每組聲音訊號包括複數個聲源的訊號；(B)取得該等聲音訊號的複數個空間特徵，並根據該等空間特徵從該等聲音訊號中分離出一主要聲源訊號；以及(C)根據該主要聲源訊號中一噪音的一振幅平均值對該主要聲源訊號進行處理，來進一步抑制該主要聲源訊號本身的噪音。藉此，該音訊處理系統執行該方法後可將可將複數個聲源從該等聲音訊號中分離，並且根據該分離出來的聲源內的噪音大小對該分離出來的聲源進行處理，使得該聲源中的噪音可以進一步被抑止。

1‧‧‧音訊處理系統

10‧‧‧音訊取得模組

20‧‧‧聲源分離模組

21‧‧‧時域頻域轉換模組

22‧‧‧特徵擷取模組

23‧‧‧遮罩模組

24‧‧‧反時域頻域轉換模組

30‧‧‧噪音抑制模組

31‧‧‧噪音平均值計算模組

32‧‧‧整流模組

33‧‧‧殘留噪音消除模組

34‧‧‧語音存在判斷模組

40‧‧‧輸出模組

m1,m2‧‧‧麥克風

v1‧‧‧主要聲源的原始訊號(頻域)

v2,v3‧‧‧背景聲源的訊號

signal1,signal2‧‧‧聲音訊號

N_avg‧‧‧噪音的振幅平均值

v1”,S(e^jw)‧‧‧降噪訊號

N_max‧‧‧噪音的振幅最大值

v”,S(e^jw)’‧‧‧消除殘留噪音後的降噪訊號

T‧‧‧預設值

k‧‧‧頻帶

Xavg(e^jw)‧‧‧降低頻譜誤差後的主要聲源訊號

S51~S53‧‧‧步驟

S61~S64‧‧‧步驟

S71~S74‧‧‧步驟

v1’,X(e^jw),X_k(e^jw)‧‧‧主要聲源訊號

signal1(f),signal2(f)‧‧‧聲音訊號(頻域)

圖1係本發明之音訊處理系統之架構示意圖。

圖2係該音訊處理系統之一聲源分離模組的詳細架構圖。

圖3係該音訊處理系統之一噪音抑制模組的詳細架構圖。

圖4係該音訊處理系統之運作情形之一較佳實施例之示意圖。

圖5係本發明一種音訊處理方法之一較佳實施例之流程圖。

圖6係圖5之步驟S52之詳細流程圖。

圖7係圖5之步驟S53之詳細流程圖。

圖1係本發明之一種音訊處理系統1的架構示意圖。該音訊處理系統1主要包含一音訊取得模組10、一聲源分離模組20、一噪音抑制模組30、以及一輸出模組40。該音訊處理系統1可以為一電腦裝置，連接外部的硬體裝置，並使用該等模組對硬體裝置進行控制，該音訊處理系統1也可以是安裝於電腦裡的一電腦程式產品，用以使電腦具有上述模組的功能。值得注意的是，此處所述的電腦裝置並不限於個人電腦，而是包括具有微處理器功能的硬體裝置，例如智慧型手機等裝置。

該音訊取得模組10係用以從外部取得聲音訊號，例如該音訊取得模組10透過外部的麥克風來取得聲音訊號，再將聲音訊號交由該音訊處理系統1中的其它模組進行處理。其中，該音訊取得模組10可透過複數個麥克風來取得聲音訊號，該等麥克風可架設於不同位置，各自接收一組聲音訊號，藉此，該音訊取得模組10取得複數組聲音訊號，換言之，該音訊處理系統1可同時輸入複數組聲音訊號。另外，每一麥克風所接收到的聲音訊號可能包括了來自多個聲源的聲音，例如使用者在行車時使用手機的擴音功能說話時，手機的麥克風將會收到一個使用者的聲音以及複數個背景噪音。

圖2是該聲源分離模組20的詳細架構圖，該聲源分離模組20包括一時域頻域轉換模組21、一特徵擷取模組22、一遮罩模組23及一反時域頻域轉換模組24。該聲源分離模組20係用以將每個聲源的訊號從該等聲音訊號中分離出來，並取得該主要聲源的訊號。該聲源分離模組20首先由該複數組聲音訊號中取得複數個空間特徵，接著根據該等空間特徵來區分出複數個聲源，之後對其中一組聲音訊號使用二元時頻遮罩技術，將該聲音訊號分離出複數個聲源訊號，藉此可取得去除背景聲的一主要聲源訊號。關於該等模組的運作過程將在之後詳細介紹。

圖3是該噪音抑制模組30的詳細架構圖，該噪音抑制模組30至少包括一噪音平均值計算模組31及一整流模組32。此外，該噪音抑制模組30可進一步包括一殘留噪音消除模組33以及一語音存在判斷模組34。該噪音抑制模組30係用以抑制該主要聲源訊號本身的噪音，以提升該主要聲源訊號的品質。該噪音抑制模組30係先取得該主要聲源訊號中一段噪音的振幅平均值，接著根據該振幅平均值對該主要聲源訊號進行處理，據以進一步將該噪音抑制，最後，該音訊處理系統1再利用輸出模組40將該抑制噪音後的主要聲源輸出。關於該等模組的運作過程將在之後詳細介紹。

圖4係該音訊處理系統1之運作情形之一較佳實施例之示意圖，為使說明更詳細，之後也將以此實施例說明該聲源分離模組20及該噪音抑制模組30的詳細運作過程。在此實施例裡，該音訊處理系統1係透過兩個麥克風m1及m2來取得兩組聲音訊號，而該等麥克風m1及m2係用以接收來自一主要聲源的原始訊號v1及來自兩個背景聲源的訊號v2及v3。由於該等麥克風m1及m2係配置於不同的位置，因此麥克風m1接收到主要聲源的訊號v1的時間點會與麥克風m2接收到該訊號v1的時間點不同，相同地，該等麥克風m1及m2接收到背景聲的訊號v2及v3的時間也不相同，因此該等麥克風m1及m2將各自接收到一組聲音訊號signal1及signal2，其中該等聲音訊號signal1 及signal2中係混合了相同的訊號v1、v2及v3的成分(例如波形)，但是兩組信號中該等訊號v1、v2及v3所對應的時間點並不相同。該音訊取得模組10藉由該等麥克風m1及m2取得該等聲音訊號signal1及signal2，使該等聲音訊號signal1及signal2輸入至該音訊處理系統1中來進行處理。值得注意的係，此實施例僅是舉例，該音訊處理系統1可透過更多的麥克風來取得更多組聲音訊號，該等聲源的數量也可以更多。較佳地，該等麥克風的數量為至少兩個，即該音訊處理系統1較佳係取得至少二組聲音訊號，其係由於若只有一組聲音訊號，則無法從該組聲音訊號中分辨出每個音源的訊號v1、v2及v3的配置。此外，該等音源的訊號v1、v2及v3較佳係為時域訊號。

圖5係本發明一種音訊處理方法之一較佳實施例之流程圖，其係透過該音訊處理系統1來執行，請一併參考圖1及圖4。首先進行步驟S51，利用該音訊取得模組10取得該等麥克風m1及m2所接收的該二組聲音訊號signal1及signal2，其中每組聲音訊號signal1或signal2各自混合了該主要聲源的時域訊號v1及該二背景聲源的時域訊號v2及v3；之後進行步驟S52，利用該聲源分離模組20取得該等聲音訊號的複數個空間特徵，並根據該等空間特徵從該等聲音訊號中分離出該主要聲源訊號v1’；之後進行步驟S53，利用該噪音抑制模組30以根據該主要聲源訊號v1’中一段噪音的一振幅平均值對該主要聲源訊號v1’進行處理，來進一步抑制該主要聲源訊號v1’本身的噪音。

圖6係圖5之步驟S52之詳細流程圖，其係該聲源分離模組20的詳細運作過程，請一併參考圖2、圖4及圖5。首先進行步驟S61，利用該時域頻域轉換模組21將該等聲音訊號signal1及signal2由時域轉換成頻域之訊號signal1(f)及signal2(f)。其中，該時域頻域轉換模組21較佳是一傅立葉轉換模組，更佳地是一短時傅立葉轉換模組，用以將訊號依照一短暫時間均分成複數個段落，較佳地該短暫時間是70微秒，之後每個段落各自進行傅立葉轉換，藉此可使轉換後的訊號signal1(f)及signal2(f)更加穩定，其中轉換後的訊號signal1(f)及signal2(f)包括複數個頻帶。

接著進行步驟S62，利用該特徵擷取模組22對該等聲音訊號signal1(f)及signal2(f)進行特徵擷取，以取得該等聲音訊號signal1(f)及signal2(f)於每個頻帶上的振幅比與相位差，之後將該等振幅比及相位差做為該等空間特徵。之後該特徵擷取模組22再利用K-Means演算法將每個頻帶的空間特徵進行分類群聚(Clustering)，由此可從該等聲音訊號signal1(f)及signal2(f)中找出相似的空間特徵的複數個群聚，其中每一群聚代表來自一聲源的訊號，在此實施例裡，該等聲音訊號signal1及signal2是由三個聲源v1、v2及v3的訊號所混合組成，因此可找出三個群聚。

之後進行步驟S63，利用該遮罩模組23產生一個二元遮罩，該二元遮罩係根據該主要聲源的該群聚的空間特徵而產生，該二元遮罩會與至少一該等聲音訊號中每一頻帶上的空間特徵取交集，用以將不符合的群聚消除，藉此保留住該主要聲源的群聚，以形成該主要聲源訊號v1’，其中該特徵擷取模組22或該遮罩模組23可分析該等空間特徵中的成分，並以一預設條件來判斷哪一個聲源是主要群聚，例如若是針對手機，那麼判斷主要的聲源的該預設條件就是找出擁有較大振幅且訊號平穩的群聚，或者根據使用者聲源至手機的位置來判定，或者該音訊處理系統1也可以先顯示出每個群聚的空間特徵，由使用者自行選擇主要聲源的群聚。

之後進行步驟S64，利用該反時域頻域轉換模組24將該主要聲源訊號(頻域)v1’轉換為時域訊號v1，其中該反時域頻域轉換模組24與該時域頻域轉換模組21可以是相同的模組。藉此，該音訊處理系統1可將背景聲v2及v3去除。

圖7係圖5之步驟S53之詳細流程圖，其係詳細說明該噪音抑制模組30的運作過程，請一併參考圖3、圖4、圖5及圖6。首先進行步驟S71，利用該噪音平均值計算模組31計算該主要聲源訊號v1’中的一段噪音的振幅平均值N_avg，其中，該噪音抑制模組30可進一步包括一時域頻域轉換模組，用以將該主要聲源的時域訊號v1再次轉換為頻域訊號，但該噪音抑制模組30亦可從該聲源分離模組20直接取得該主要聲源訊號v1’，即不執行步驟S64。此外，該段噪音係設定為該主要聲源的時域訊號v1的起始一短暫時間內的訊號，較佳地是0.3秒內，其係由於當麥克風接收聲音時，通常並不會立即接收到主要聲源的聲音，而是會有經過一短暫的時間後才會接收到主要聲源的聲音，例如從電話接起至開始講話時會有一短暫的間隔，在該間隔裡沒有語音，但會影響通話品質的雜訊已經存在，而那些雜訊就等同於此次通話裡的噪音，因此去除該噪音將可提升通話的品質。藉此，該噪音平均值計算模組31計算該主要聲源的時域訊號v1起始0.3秒內訊號的振幅平均值，並作為噪音的振幅平均值。值得注意的是，該0.3秒的噪音在進行頻域轉換前會先被擷取出來以獨自進行轉換成頻域訊號。

之後進行步驟S72，利用該整流模組32將該主要聲源訊號v1’中低於該噪音的振幅平均值的振幅去除，藉此取得一降噪訊號v1”。其中，該降噪訊號其係符合下列算式：當中，S(e^jw)係該降噪訊號v1”，X(e^jw)係該主要語音訊號v1’，該N_avg係該雜訊的振幅平均值。當該主要語音訊號於該頻帶上的振幅小於該雜訊的振幅N_avg時，經由此運算後該頻帶上的振幅將為零。

由於步驟S72中所消除的是噪音的振幅平均值以下的噪音，實際上依舊會有些噪音的振幅係高於該振幅平均值，因此可進一步進行步驟S73，利用該殘留噪音消除模組33來判斷該降噪訊號v1”中的每一頻帶上的振幅是否小於該噪音的一振幅最大值N_max，其中該振幅最大值係指該主要音源的時域訊號v1起始0.3秒內的訊號振幅最大值，若該頻帶上的振幅小於該振幅最大值N_max，則將該降噪訊號中的該振幅以其前後一頻帶中所對應的最小振幅取代，藉此能消除高於該振幅平均值的噪音，且能維持實際語音訊號的連貫性，其中，上述運算係符合下列算式：當中，S(e^jw)’係消除殘留噪音後的降噪訊號v”，N_max為該噪音的一振幅最大值。

另外，由於一段聲音訊號中的實際語音是會中斷的，例如通話時的對話必定有停頓的時候，因此有可能會讓使用者在對話間隔時聽到沒有消除掉的噪音，故必須具有一種機制用以判斷實際語音是否存在，並針對語音不存在的頻帶進行另一噪音消除方式。因此可進一步進行步驟S74，利用該語音存在判斷模組34來判斷該降噪訊號v1”中每一頻帶上的振幅與該噪音的振幅平均值N_avg是否小於一預設值T，若是小於該預設值T，則判斷該頻帶上並沒有實際語音，此時該語音存在判斷模組34對該段頻帶的訊號做訊號衰減，較佳地，該訊號衰減係衰減30dB，該預設值為12dB。藉此，該降噪訊號v1”可以更進一步地抑制噪音，以提供良好的語音品質。

另外，在進行步驟S72時，由於每個頻帶各自進行處理，有時會造成連續性上的誤差，因此可以將該主要聲源訊號v1’的振幅鄰近頻帶上的振幅做平均值運算，來降低頻譜上的誤差，即符合下列算式：其中，k為目前計算的頻帶，X_k(e^jw)為該主要聲源訊號v1’，M為鄰近的頻帶數目，Xavg(e^jw)為降低頻譜誤差後的主要聲源訊號，藉此可利用該降低頻譜誤差後的訊號來取代步驟S71至S73中的該主要聲源訊號，以降低頻譜轉換的失誤。

此外，該領域的技藝人士可以明瞭，步驟S72至S74上的順序係可以改變或省略，且可以得知其所運算出的結果之差異。

因此，藉由該音訊處理系統1中的該音源分離模組20，可以將背景音去除，並取得該主要音源的訊號，而藉由該音訊處理系統1中的該噪音抑制模組30，該主要音源訊號中的雜訊可以被去除，舉例來說，當使用者開車時執行手機的擴音功能時，若該手機裡具備本發明之音訊處理系統1，則該音源分離系統20可以將語音外的背景聲先去除，該噪音抑制模組30可以進一步抑制該語音本身的雜訊，藉此使用者可以得到改善的通話品質。

上述實施例僅係為了方便說明而舉例而已，本發明所主張之權利範圍自應以申請專利範圍所述為準，而非僅限於上述實施例。

1‧‧‧音訊處理系統

10‧‧‧音訊取得模組

20‧‧‧聲源分離模組

30‧‧‧噪音抑制模組

40‧‧‧輸出模組

Claims

一種音訊處理系統，用以去除音訊中的噪音，包含：一音訊取得模組，用以取得至少二組聲音訊號；一聲源分離模組，用以取得該等聲音訊號中的複數個空間特徵，並根據該等空間特徵從該等聲音訊號中分離出一主要聲源訊號；以及一噪音抑制模組，根據該主要聲源訊號中的一噪音的一振幅平均值對該主要聲源訊號進行處理，來進一步抑制該主要聲源訊號本身的噪音；其中，該至少二組聲音訊號中的每組聲音訊號皆包括複數個聲源的訊號；其中，該聲源分離模組包括一時域頻域轉換模組及一特徵擷取模組，該時域頻域轉換模組用以將該等聲音訊號轉換成頻域訊號，該特徵擷取模組用以對該等頻域訊號進行特徵擷取，以取得該至少兩組聲音訊號的相位差資訊及振幅比資訊，並將該等相位差資訊及振幅比資訊作為該等空間特徵。
如申請專利範圍第1項所述之音訊處理系統，其中該聲源分離模組更包括一遮罩模組及一反時域頻域轉換模組，該遮罩模組根據該等空間特徵來產生至少一個二元時頻遮罩，該等二元時頻遮罩與該等頻域訊號相乘，以從該等頻域訊號中分離出該主要聲源訊號，該反時域頻域轉換模組用以將該分離後的訊號轉換為時域訊號。
如申請專利範圍第1項所述之音訊處理系統，其中該噪音是該主要聲源訊號起始處一時間範圍裡的訊號。
如申請專利範圍第1項所述之音訊處理系統，其中該噪音抑制模組包括：一噪音平均值計算模組，用以計算該主要音源訊號中的該噪音的該振幅平均值；一整流模組，用以將該主要音源訊號中小於該振幅平均值的振幅降為零，藉此取得一降噪訊號。
如申請專利範圍第3項所述之音訊處理系統，其中該噪音抑制模組更包括一殘留噪音消除模組，該殘留噪音消除模組判斷該降噪訊號中的每一振幅是否小於該噪音的一振幅最大值，若小於該振幅最大值，則將該降噪訊號中的該振幅以前後頻率中所對應的最小振幅取代。
如申請專利範圍第3項所述之音訊處理系統，其中該噪音抑制模組更包括一語音存在判斷模組，用以判斷該降噪訊號與該噪音的振幅比是否小於一預設值，若小於該預設值則對該主要聲源訊號做訊號衰減。
一種音訊處理方法，其係執行於一音訊處理系統，用以去除音訊中的噪音，該方法包含步驟：(A)取得至少二組聲音訊號，且每組聲音訊號包括複數個聲源的訊號；(B)取得該等聲音訊號的複數個空間特徵，並根據該等空間特徵從該等聲音訊號中分離出一主要聲源訊號；以及(C)根據該主要聲源訊號中一噪音的一振幅平均值對該主要聲源訊號進行處理，來進一步抑制該主要聲源訊號本身的噪音；其中，步驟(B)更包括子步驟：(B1)將該等聲音訊號轉換成頻域訊號；以及(B2)對該等頻域訊號進行特徵擷取，以取得該至少兩組聲音訊號的相位差資訊及振幅比資訊，並將該等相位差資訊及振幅比資訊作為該等空間特徵。
如申請專利範圍第7項所述之音訊處理方法，其中在子步驟(B2)之後更包括子步驟：(B3)根據該等空間特徵來產生至少一個二元時頻遮罩，該至少一個二元時頻遮罩與該等頻域訊號相乘，以從該等頻域訊號中分離出該主要聲音訊號；以及(B4)將該等分離後的訊號轉換為時域訊號。
如申請專利範圍第7項所述之音訊處理方法，其中該噪音是該主要聲源訊號起始處一時間範圍裡的訊號。
如申請專利範圍第7項所述之音訊處理方法，其中步驟(C)更包括子步驟：(C1)計算該主要音源訊號中的該噪音的該振幅平均值；以及(C2)將該主要音源訊號中小於該振幅平均值的振幅降為零，藉此取得一降噪訊號。
如申請專利範圍第10項所述之音訊處理方法，其中在子步驟(C2)之後更包括子步驟：(C3)判斷該降噪訊號中的每一振幅是否小於該噪音的一振幅最大值，若小於該振幅最大值，則將該降噪訊號中的該振幅以前後頻率中所對應的最小振幅取代。
如申請專利範圍第10項所述之音訊處理方法，其中在子步驟(C2)之後更包括子步驟：(C3)判斷該降噪訊號與該噪音的振幅比是否小於一預設值，若小於該預設值則對該主要聲源訊號做訊號衰減。