TWI691955B

TWI691955B - 多通道之多重音頻串流方法以及使用該方法之系統

Info

Publication number: TWI691955B
Application number: TW107107207A
Authority: TW
Inventors: 王家慶; 官志誼; 蘇黎; 秦餘皞
Original assignee: 國立中央大學
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2020-04-21
Also published as: TW201939486A

Abstract

一種多通道之多重音頻串流方法，包括：透過至少兩個聲音接收器接收複數音源，並產生分別對應於聲音接收器之音檔；根據對應於音源之基頻訊號偵測結果辨識出音檔中所包含之音高；根據音高取得對應於上述音高之每一者之音色特徵參數；根據音高取得對應於音高之每一者之方位特徵參數；以及根據音色特徵參數以及方位特徵參數透過一聚類分析取得一音頻串流結果。

Description

多通道之多重音頻串流方法以及使用該方法之系統

本發明係有關於一種根據音色特徵參數以及方位特徵參數進行音頻串流分離之多通道之多重音頻串流方法以及使用該方法之系統。

於習知技術中，通常係根據辨識音色上之不同來分辨音高之來源。然而，當多重音源同時發出聲響時，將會造成音頻的特徵參數擷取不易之情況。此外，於取得特徵參數後，習知技術通常透過監督式方法進行資料之類聚，而監督式方法必須經過事先訓練，如此將造成應用上之限制。因此，如何更準確地從互相重疊之頻譜中將各個音源所對應之串流分離出來為目前必須解決之問題。

本發明一實施例提供一種多通道之多重音頻串流方法，包括：透過至少兩個聲音接收器接收複數音源，並產生分別對應於聲音接收器之音檔；根據對應於音源之基頻訊號偵測結果辨識出音檔中所包含之音高；根據音高取得對應於上述音高之每一者之音色特徵參數；根據音高取得對應於音高之每一者之方位特徵參數；以及根據音色特徵參數以及方位特徵參數取得一音頻串流結果。

本發明另一實施例更提供一種使用多通道之多重音頻串流方法之系統，包括至少兩個聲音接收器、一儲存單元以及一處理單元。聲音接收器用以接收複數音源，並分別產生對應於聲音接收器之音檔。儲存單元用以儲存對應於音源之基頻訊號偵測結果。處理單元用以：根據對應於音源之基頻訊號偵測結果辨識出音檔中所包含之音高；根據音高取得對應於音高之每一者之音色特徵參數；根據音高取得對應於音高之每一者之方位特徵參數；以及根據音色特徵參數以及方位特徵參數取得一音頻串流結果。

100:使用多通道之多重音頻串流方法之系統

111:第一聲音接收器

112:第二聲音接收器

120:處理單元

130:儲存單元

S201~S205:步驟流程

第1圖係顯示根據本發明一實施例所述之使用多通道之多重音頻串流方法之系統之系統架構圖。

第2圖係顯示根據本發明一實施例所述之多通道之多重音頻串流方法之流程圖。

有關本發明之多通道之多重音頻串流方法以及其系統適用之其他範圍將於接下來所提供之詳述中清楚易見。必須了解的是下列之詳述以及具體之實施例，當提出有關多通道之多重音頻串流方法以及其系統之示範實施例時，僅作為描述之目的以及並非用以限制本發明之範圍。

第1圖係顯示根據本發明一實施例所述之使用多通道之多重音頻串流方法之系統之系統架構圖。使用多通道之多重音頻串流方法之系統100包括至少兩個聲音接收器111、112、處理單元120以及儲存單元130，處理單元120以及儲存單元130可實施於例如桌上型電腦、筆記型電腦或者平板電腦等的電子裝置中。處理單元120可透過多種方式實施，例如以專用硬體電路或者通用硬體(例如，單一處理單元、具平行處理能力之多處理單元、圖形處理單元或者其它具有運算能力之處理單元)，且於執行與本發明之流程有關之程式碼或者軟體時，提供之後所描述的功能。第一聲音接收器111以及第二聲音接收器112可為設置於不同位置之麥克風，與處理單元120連接，用以接收複數音源所發出之聲波以及將其轉換成電子訊號，並輸出至處理單元120。值得注意的是，於本發明之實施例中聲音接收器之數量為兩個，但亦可使用更多數量之聲音接收器，以提高聲音串流分離之準確率。儲存單元130可為記憶體或者硬碟等，用以儲存自聲音接收器111、112所接收到之音檔、執行過程中所需要的資料以及各種演算法等。此外，使用多通道之多重音頻串流方法之系統100更可包括一顯示面板(未顯示)(例如薄膜液晶顯示面板、有機發光二極體面板或者其它具顯示能力的面板)，用以顯示顯示或者對應於音檔之處理結果等，以提供給使用者觀看。使用多通道之多重音頻串流方法之系統100更可包括一輸入裝置(未顯示)，例如滑鼠、觸控筆或者鍵盤等，用以供使用者執行對應之操作。

根據本發明一實施例，當第一聲音接收器111以及第二聲音接收器112自複數音源接收到聲音後，係分別產生音檔並將其輸出至處理單元120中。其中，音源的數量為已知的。接著，處理單元120於接收到音檔後，根據已事先儲存於儲存單元130中之基頻信號偵測結果(Multi Pitch Estimation,MPE)辨識音檔中每個聲音的音高，並將每個音高所對應之每筆資料儲存於儲存單元130中，以作為後續擷取音色特徵參數以及方位特徵參數之依據。

根據本發明一實施例，音色特徵參數F ^udc係以Uniform Discrete Cepstrum(UDC)表示之。其中，UDC係為一種稀疏、非均勻地倒頻譜表示方法，而音色特徵參數F ^udc係透過以下之算式取得：

其中，

與

分別為f=[f ₁,...,f _n]^T與a=[a ₁,...a _N]^T的子集合，而f=[f ₁,...,f _n]^T與a=[a ₁,...a _N]^T則分別為混和頻譜的全頻帶頻率與震幅的對數函數(log-amplitudes)，n為混合頻譜的全頻帶頻率個數，f _n為混合頻譜的全頻帶的第n個頻率，以及d _udc則為音色特徵參數F ^udc之維度。

此外，處理單元120於取得音色特徵參數之同時，更可一併計算對應於每個音高之方位特徵參數。根據本發明一實施例，處理單元120於辨識出音檔中每個聲音之音高後，更透過計算每個音檔之每筆音高資料之能量比值I ^c，以取得對應之方位特徵參數。其中，方位特徵參數F ^level係透過以下之算式取得：

F ^level=[I ¹,I ²,I ³,...,I ^J]^T (6)其中，Ω^c為音源頻譜觀察點，c為麥克風編號，J為麥克風數目，f _i ^c為c麥克風第n個頻帶的短時傅立葉轉換(short-time Fourier transform,STFT)係數，V ^c為能量值，m為頻帶n所對應頻域附近的頻譜個數，以及I ^c為能量比值。

接著，處理單元120於取得音色特徵參數F ^udc以及方位特徵參數F ^level後，更進一步地將兩個參數合併為一完整的特徵參數。然而，由於兩個特徵參數之維度並不相同，而為了解決兩個特徵參數之維度不對等之問題，於本發明一實施例中，係透過標準差總和正規化來合併音色特徵參數F ^udc以及方位特徵參數F ^level。其中，取得完整特徵參數之公式如下所示：

其中，d _udc以及d _level分別為F ^udc以及F ^level的維度、σ_i為第i個維度的標準差(standard deviation)，以及F ^fusion為最後取得的完整特徵參數。

最後，於取得每個音檔之對應於每個音色的完整特徵參數後，處理單元120更透過聚類分析將音高進行分群，以取得最後的音頻串流結果。根據本發明之一實施例，處理單元120係以一粒子群最佳化演算法為依據進行分群。粒子群最佳化演算法係基於音高之互斥性以及相關性進行分群。舉例來說，由於在同一時間下一個音源只會產生一個音高，因此同一個音框中的兩筆相同音高資料係被分至不同的類別。此外，由於音高之連續性，兩個連續音框中相近的音高係可被分類為同一類別。換言之，處理單元120首先計算所有同群聚資料的群中心，並於取得群中心後，基於互斥性的原則找到最小距離的群中心，並將其分類為同一群聚。接著，透過計算相關性符合程度以及參數緊密度找出自身最佳與群體最佳，並調整速度向量以求得最後之最佳所屬群聚。最後，重複上述之流程並處理每個音框的資料，直到取得所有資料之所屬群聚為止。其中，粒子群最佳化演算法更包括基於群中心演算法的限制型粒子群最佳化聚類分析，以及基於全域群聚演算法的限制型粒子群最佳化聚類分析。群中心演算法係透過產生多組群中心並從中找出最佳結果，而每一組群中心代表一個粒子為d*K維的向量。然而，全域群聚演算法則透過找最接近整數的方式將所有粒子整理成明確的所屬群聚後，再進一步地取得所有粒子的特徵參數緊密度適應值。於全域群聚演算法中，係以1*D維的向量來代表一個粒子。

根據本發明另一實施例，於取得所有資料之所屬群聚，處理單元120更可透過群組投票以及碰撞處理來優化音頻串流結果。其中，群組投票主要係用以使得輸出更加平滑，而碰撞處理則用以補償互斥性質之違背。碰撞處理主要用以偵測同一個音框下是否有兩筆資料或者以上被標記為同一類別。若有兩筆資料或者以上被標記為同一類別，則處理單元120計算碰撞資料與碰撞的類別中心之距離以決定該筆碰撞資料之音高值，而最後距離最小者所對應之音高值則為最後音頻串流的值。其中，計算距離之公式如下所示：

其中，O _t,k表示音框t在k群聚上發生碰撞的資料集合，而M _k則表示群中心。

第2圖係顯示根據本發明一實施例所述之多通道之多重音頻串流方法之流程圖。於步驟S201，第一聲音接收器111以及第二聲音接收器112係設置於不同之位置上以接收複數音源，並分別產生對應之音檔。於步驟S202，處理單元120自第一聲音接收器111以及第二聲音接收器112接收音檔，並根據基頻信號偵測結果辨識音檔中每個聲音的音高，並將每個音高所對應之每筆資料儲存於儲存單元130中，以作為後續特徵參數擷取之依據。其中，用以作為辨識基準之基頻信號偵測結果已事先儲存於儲存單元130中，以供處理單元120於進行音高辨識時進行存取。接著，於步驟S203，於取得音高後，處理單元120更進一步地取得每個音高之音色特徵參數。其中，於本發明之一實施例中，音色特徵參數係以UDC表示之。此外，於步驟S204，於處理單元120辨識出音高後，更透過計算每個音檔之每筆音高資料之能量比值以取得對應之方位特徵參數。最後，於步驟S205，處理單元120首先將對應於每個音高之音色特徵參數以及方位特徵參數透過標準差總和正規化合併為完整的特徵參數，再根據基於粒子群最佳化演算法之聚類分析取得最後之音頻串流結果。

綜上所述，根據本發明一些實施例所提出之多通道之多重音頻串流方法以及其系統，透過取得並合併每個音高之音色特徵參數以及方位特徵參數，並透過基於粒子群最佳化演算法之聚類分析，在已知音源數目之情況下，可不需要經過事先訓練即可得到各個獨立的音源串流。此外，透過群組投票以及碰撞處理之機制，將可使得輸出更加平滑，並可提高辨識結果之準確率。

以上敘述許多實施例的特徵，使所屬技術領域中具有通常知識者能夠清楚理解本說明書的形態。所屬技術領域中具有通常知識者能夠理解其可利用本發明揭示內容為基礎以設計或更動其他製程及結構而完成相同於上述實施例的目的及/或達到相同於上述實施例的優點。所屬技術領域中具有通常知識者亦能夠理解不脫離本發明之精神和範圍的等效構造可在不脫離本發明之精神和範圍內作任意之更動、替代與潤飾。

S201~S205‧‧‧步驟流程

Claims

一種多通道之多重音頻串流方法，包括：透過至少兩個聲音接收器接收複數音源，並產生分別對應於上述聲音接收器之音檔；根據對應於上述音源之基頻訊號偵測結果辨識出上述音檔中所包含之音高；根據上述音高取得對應於上述音高之每一者之音色特徵參數；根據上述音高取得對應於上述音高之每一者之方位特徵參數；以及根據上述音色特徵參數以及上述方位特徵參數透過一聚類分析取得一音頻串流結果。
如申請專利範圍第1項所述之多通道之多重音頻串流方法，其中上述音色特徵參數係以Uniform Discrete Cepstrum表示。
如申請專利範圍第1項所述之多通道之多重音頻串流方法，其中根據上述音高取得對應於上述音高之每一者之上述方位特徵參數之步驟更包括：計算上述音高之每一者之能量比值以取得上述方位特徵參數。
如申請專利範圍第1項所述之多通道之多重音頻串流方法，其中根據上述音色特徵參數以及上述方位特徵參數取得上述音頻串流結果之步驟更包括：透過標準差總和正規化合併上述音色特徵參數以及上述方位特徵參數，並取得對應於上述音高之每一者之完整特徵參數；以及根據上述完整特徵參數透過上述聚類分析取得上述音頻串流結果。
如申請專利範圍第4項所述之多通道之多重音頻串流方法，其中上述聚類分析包括基於群中心演算法的限制型粒子群最佳化聚類分析。
如申請專利範圍第4項所述之多通道之多重音頻串流方法，其中上述聚類分析包括基於全域群聚演算法的限制型粒子群最佳化聚類分析。
一種使用多通道之多重音頻串流方法之系統，包括：至少兩個聲音接收器，用以接收複數音源，並分別產生對應於上述聲音接收器之音檔；一儲存單元，用以儲存對應於上述音源之基頻訊號偵測結果；以及一處理單元，用以：根據對應於上述音源之基頻訊號偵測結果辨識出上述音檔中所包含之音高；根據上述音高取得對應於上述音高之每一者之音色特徵參數；根據上述音高取得對應於上述音高之每一者之方位特徵參數；以及根據上述音色特徵參數以及上述方位特徵參數透過一聚類分析取得一音頻串流結果。
如申請專利範圍第7項所述之系統，其中上述音色特徵參數係以Uniform Discrete Cepstrum表示。
如申請專利範圍第7項所述之系統，其中上述處理單元更用以：計算上述音高之每一者之能量比值以取得上述方位特徵參數。
如申請專利範圍第7項所述之系統，其中上述處理單元更用以：透過標準差總和正規化合併上述音色特徵參數以及上述方位特徵參數，並取得對應於上述音高之每一者之完整特徵參數；以及根據上述完整特徵參數透過上述聚類分析取得上述音頻串流結果。
如申請專利範圍第10項所述之系統，其中上述聚類分析包括基於群中心演算法的限制型粒子群最佳化聚類分析。
如申請專利範圍第10項所述之系統，其中上述聚類分析包括基於全域群聚演算法的限制型粒子群最佳化聚類分析。