TWI691955B - 多通道之多重音頻串流方法以及使用該方法之系統 - Google Patents

多通道之多重音頻串流方法以及使用該方法之系統 Download PDF

Info

Publication number
TWI691955B
TWI691955B TW107107207A TW107107207A TWI691955B TW I691955 B TWI691955 B TW I691955B TW 107107207 A TW107107207 A TW 107107207A TW 107107207 A TW107107207 A TW 107107207A TW I691955 B TWI691955 B TW I691955B
Authority
TW
Taiwan
Prior art keywords
sound
pitch
audio streaming
obtaining
item
Prior art date
Application number
TW107107207A
Other languages
English (en)
Other versions
TW201939486A (zh
Inventor
王家慶
官志誼
蘇黎
秦餘皞
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW107107207A priority Critical patent/TWI691955B/zh
Publication of TW201939486A publication Critical patent/TW201939486A/zh
Application granted granted Critical
Publication of TWI691955B publication Critical patent/TWI691955B/zh

Links

Images

Abstract

一種多通道之多重音頻串流方法,包括:透過至少兩個聲音接收器接收複數音源,並產生分別對應於聲音接收器之音檔;根據對應於音源之基頻訊號偵測結果辨識出音檔中所包含之音高;根據音高取得對應於上述音高之每一者之音色特徵參數;根據音高取得對應於音高之每一者之方位特徵參數;以及根據音色特徵參數以及方位特徵參數透過一聚類分析取得一音頻串流結果。

Description

多通道之多重音頻串流方法以及使用該方法之系統
本發明係有關於一種根據音色特徵參數以及方位特徵參數進行音頻串流分離之多通道之多重音頻串流方法以及使用該方法之系統。
於習知技術中,通常係根據辨識音色上之不同來分辨音高之來源。然而,當多重音源同時發出聲響時,將會造成音頻的特徵參數擷取不易之情況。此外,於取得特徵參數後,習知技術通常透過監督式方法進行資料之類聚,而監督式方法必須經過事先訓練,如此將造成應用上之限制。因此,如何更準確地從互相重疊之頻譜中將各個音源所對應之串流分離出來為目前必須解決之問題。
本發明一實施例提供一種多通道之多重音頻串流方法,包括:透過至少兩個聲音接收器接收複數音源,並產生分別對應於聲音接收器之音檔;根據對應於音源之基頻訊號偵測結果 辨識出音檔中所包含之音高;根據音高取得對應於上述音高之每一者之音色特徵參數;根據音高取得對應於音高之每一者之方位特徵參數;以及根據音色特徵參數以及方位特徵參數取得一音頻串流結果。
本發明另一實施例更提供一種使用多通道之多重音頻串流方法之系統,包括至少兩個聲音接收器、一儲存單元以及一處理單元。聲音接收器用以接收複數音源,並分別產生對應於聲音接收器之音檔。儲存單元用以儲存對應於音源之基頻訊號偵測結果。處理單元用以:根據對應於音源之基頻訊號偵測結果辨識出音檔中所包含之音高;根據音高取得對應於音高之每一者之音色特徵參數;根據音高取得對應於音高之每一者之方位特徵參數;以及根據音色特徵參數以及方位特徵參數取得一音頻串流結果。
100:使用多通道之多重音頻串流方法之系統
111:第一聲音接收器
112:第二聲音接收器
120:處理單元
130:儲存單元
S201~S205:步驟流程
第1圖 係顯示根據本發明一實施例所述之使用多通道之多重音頻串流方法之系統之系統架構圖。
第2圖 係顯示根據本發明一實施例所述之多通道之多重音頻串流方法之流程圖。
有關本發明之多通道之多重音頻串流方法以及其系統適用之其他範圍將於接下來所提供之詳述中清楚易見。必須了 解的是下列之詳述以及具體之實施例,當提出有關多通道之多重音頻串流方法以及其系統之示範實施例時,僅作為描述之目的以及並非用以限制本發明之範圍。
第1圖係顯示根據本發明一實施例所述之使用多通道之多重音頻串流方法之系統之系統架構圖。使用多通道之多重音頻串流方法之系統100包括至少兩個聲音接收器111、112、處理單元120以及儲存單元130,處理單元120以及儲存單元130可實施於例如桌上型電腦、筆記型電腦或者平板電腦等的電子裝置中。處理單元120可透過多種方式實施,例如以專用硬體電路或者通用硬體(例如,單一處理單元、具平行處理能力之多處理單元、圖形處理單元或者其它具有運算能力之處理單元),且於執行與本發明之流程有關之程式碼或者軟體時,提供之後所描述的功能。第一聲音接收器111以及第二聲音接收器112可為設置於不同位置之麥克風,與處理單元120連接,用以接收複數音源所發出之聲波以及將其轉換成電子訊號,並輸出至處理單元120。值得注意的是,於本發明之實施例中聲音接收器之數量為兩個,但亦可使用更多數量之聲音接收器,以提高聲音串流分離之準確率。儲存單元130可為記憶體或者硬碟等,用以儲存自聲音接收器111、112所接收到之音檔、執行過程中所需要的資料以及各種演算法等。此外,使用多通道之多重音頻串流方法之系統100更可包括一顯示面板(未顯示)(例如薄膜液晶顯示面板、有機發光二極體面板或者其它具顯示能力的面板),用以顯示顯示或者對應於音檔之處理結果等,以提供給使用者觀看。使用多通道之多重音頻串流方法之系統100更可包括一輸入裝置(未顯示),例如滑鼠、觸控 筆或者鍵盤等,用以供使用者執行對應之操作。
根據本發明一實施例,當第一聲音接收器111以及第二聲音接收器112自複數音源接收到聲音後,係分別產生音檔並將其輸出至處理單元120中。其中,音源的數量為已知的。接著,處理單元120於接收到音檔後,根據已事先儲存於儲存單元130中之基頻信號偵測結果(Multi Pitch Estimation,MPE)辨識音檔中每個聲音的音高,並將每個音高所對應之每筆資料儲存於儲存單元130中,以作為後續擷取音色特徵參數以及方位特徵參數之依據。
根據本發明一實施例,音色特徵參數F udc係以Uniform Discrete Cepstrum(UDC)表示之。其中,UDC係為一種稀疏、非均勻地倒頻譜表示方法,而音色特徵參數F udc係透過以下之算式取得:
Figure 107107207-A0305-02-0007-1
其中,
Figure 107107207-A0305-02-0007-3
Figure 107107207-A0305-02-0007-4
分別為f=[f 1,...,f n ] T a=[a 1,...a N ] T 的子集合,而f=[f 1,...,f n ] T a=[a 1,...a N ] T 則分別為混和頻譜的全頻帶頻率與震幅的對數函數(log-amplitudes),n為混合頻譜的全頻帶頻率個數,f n 為混合頻譜的全頻帶的第n個頻率,以及d udc則為音色特徵參數F udc之維度。
此外,處理單元120於取得音色特徵參數之同時,更可一併計算對應於每個音高之方位特徵參數。根據本發明一實施例,處理單元120於辨識出音檔中每個聲音之音高後,更 透過計算每個音檔之每筆音高資料之能量比值I c ,以取得對應之方位特徵參數。其中,方位特徵參數F level係透過以下之算式取得:
Figure 107107207-A0305-02-0008-5
Figure 107107207-A0305-02-0008-6
Figure 107107207-A0305-02-0008-7
F level=[I 1,I 2,I 3,...,I J ] T (6)其中,Ω c 為音源頻譜觀察點,c為麥克風編號,J為麥克風數目,f i c 為c麥克風第n個頻帶的短時傅立葉轉換(short-time Fourier transform,STFT)係數,V c 為能量值,m為頻帶n所對應頻域附近的頻譜個數,以及I c 為能量比值。
接著,處理單元120於取得音色特徵參數F udc以及方位特徵參數F level後,更進一步地將兩個參數合併為一完整的特徵參數。然而,由於兩個特徵參數之維度並不相同,而為了解決兩個特徵參數之維度不對等之問題,於本發明一實施例中,係透過標準差總和正規化來合併音色特徵參數F udc以及方位特徵參數F level。其中,取得完整特徵參數之公式如下所示:
Figure 107107207-A0305-02-0008-8
Figure 107107207-A0305-02-0008-9
其中,d udc以及d level分別為F udc以及F level的維度、σ i 為第i個維度的標準差(standard deviation),以及F fusion為最後取得的完整特徵參數。
最後,於取得每個音檔之對應於每個音色的完整特徵參數後,處理單元120更透過聚類分析將音高進行分群,以取得最後的音頻串流結果。根據本發明之一實施例,處理單元120係以一粒子群最佳化演算法為依據進行分群。粒子群最佳化演算法係基於音高之互斥性以及相關性進行分群。舉例來說,由於在同一時間下一個音源只會產生一個音高,因此同一個音框中的兩筆相同音高資料係被分至不同的類別。此外,由於音高之連續性,兩個連續音框中相近的音高係可被分類為同一類別。換言之,處理單元120首先計算所有同群聚資料的群中心,並於取得群中心後,基於互斥性的原則找到最小距離的群中心,並將其分類為同一群聚。接著,透過計算相關性符合程度以及參數緊密度找出自身最佳與群體最佳,並調整速度向量以求得最後之最佳所屬群聚。最後,重複上述之流程並處理每個音框的資料,直到取得所有資料之所屬群聚為止。其中,粒子群最佳化演算法更包括基於群中心演算法的限制型粒子群最佳化聚類分析,以及基於全域群聚演算法的限制型粒子群最佳化聚類分析。群中心演算法係透過產生多組群中心並從中找出最佳結果,而每一組群中心代表一個粒子為d*K維的向量。然而,全域群聚演算法則透過找最接近整數的方式將所有粒子整理成明確的所屬群聚後,再進一步地取得所有粒子的特徵參數緊密度適應值。於全域群聚演算法中,係以1*D維的向 量來代表一個粒子。
根據本發明另一實施例,於取得所有資料之所屬群聚,處理單元120更可透過群組投票以及碰撞處理來優化音頻串流結果。其中,群組投票主要係用以使得輸出更加平滑,而碰撞處理則用以補償互斥性質之違背。碰撞處理主要用以偵測同一個音框下是否有兩筆資料或者以上被標記為同一類別。若有兩筆資料或者以上被標記為同一類別,則處理單元120計算碰撞資料與碰撞的類別中心之距離以決定該筆碰撞資料之音高值,而最後距離最小者所對應之音高值則為最後音頻串流的值。其中,計算距離之公式如下所示:
Figure 107107207-A0305-02-0010-10
其中,O t,k 表示音框t在k群聚上發生碰撞的資料集合,而M k 則表示群中心。
第2圖係顯示根據本發明一實施例所述之多通道之多重音頻串流方法之流程圖。於步驟S201,第一聲音接收器111以及第二聲音接收器112係設置於不同之位置上以接收複數音源,並分別產生對應之音檔。於步驟S202,處理單元120自第一聲音接收器111以及第二聲音接收器112接收音檔,並根據基頻信號偵測結果辨識音檔中每個聲音的音高,並將每個音高所對應之每筆資料儲存於儲存單元130中,以作為後續特徵參數擷取之依據。其中,用以作為辨識基準之基頻信號偵測結果已事先儲存於儲存單元130中,以供處理單元120於進行音高辨識時進行存取。接著,於步驟S203,於取得音高後,處理單元120更進一步地取 得每個音高之音色特徵參數。其中,於本發明之一實施例中,音色特徵參數係以UDC表示之。此外,於步驟S204,於處理單元120辨識出音高後,更透過計算每個音檔之每筆音高資料之能量比值以取得對應之方位特徵參數。最後,於步驟S205,處理單元120首先將對應於每個音高之音色特徵參數以及方位特徵參數透過標準差總和正規化合併為完整的特徵參數,再根據基於粒子群最佳化演算法之聚類分析取得最後之音頻串流結果。
綜上所述,根據本發明一些實施例所提出之多通道之多重音頻串流方法以及其系統,透過取得並合併每個音高之音色特徵參數以及方位特徵參數,並透過基於粒子群最佳化演算法之聚類分析,在已知音源數目之情況下,可不需要經過事先訓練即可得到各個獨立的音源串流。此外,透過群組投票以及碰撞處理之機制,將可使得輸出更加平滑,並可提高辨識結果之準確率。
以上敘述許多實施例的特徵,使所屬技術領域中具有通常知識者能夠清楚理解本說明書的形態。所屬技術領域中具有通常知識者能夠理解其可利用本發明揭示內容為基礎以設計或更動其他製程及結構而完成相同於上述實施例的目的及/或達到相同於上述實施例的優點。所屬技術領域中具有通常知識者亦能夠理解不脫離本發明之精神和範圍的等效構造可在不脫離本發明之精神和範圍內作任意之更動、替代與潤飾。
S201~S205‧‧‧步驟流程

Claims (12)

  1. 一種多通道之多重音頻串流方法,包括:透過至少兩個聲音接收器接收複數音源,並產生分別對應於上述聲音接收器之音檔;根據對應於上述音源之基頻訊號偵測結果辨識出上述音檔中所包含之音高;根據上述音高取得對應於上述音高之每一者之音色特徵參數;根據上述音高取得對應於上述音高之每一者之方位特徵參數;以及根據上述音色特徵參數以及上述方位特徵參數透過一聚類分析取得一音頻串流結果。
  2. 如申請專利範圍第1項所述之多通道之多重音頻串流方法,其中上述音色特徵參數係以Uniform Discrete Cepstrum表示。
  3. 如申請專利範圍第1項所述之多通道之多重音頻串流方法,其中根據上述音高取得對應於上述音高之每一者之上述方位特徵參數之步驟更包括:計算上述音高之每一者之能量比值以取得上述方位特徵參數。
  4. 如申請專利範圍第1項所述之多通道之多重音頻串流方法,其中根據上述音色特徵參數以及上述方位特徵參數取 得上述音頻串流結果之步驟更包括:透過標準差總和正規化合併上述音色特徵參數以及上述方位特徵參數,並取得對應於上述音高之每一者之完整特徵參數;以及根據上述完整特徵參數透過上述聚類分析取得上述音頻串流結果。
  5. 如申請專利範圍第4項所述之多通道之多重音頻串流方法,其中上述聚類分析包括基於群中心演算法的限制型粒子群最佳化聚類分析。
  6. 如申請專利範圍第4項所述之多通道之多重音頻串流方法,其中上述聚類分析包括基於全域群聚演算法的限制型粒子群最佳化聚類分析。
  7. 一種使用多通道之多重音頻串流方法之系統,包括:至少兩個聲音接收器,用以接收複數音源,並分別產生對應於上述聲音接收器之音檔;一儲存單元,用以儲存對應於上述音源之基頻訊號偵測結果;以及一處理單元,用以:根據對應於上述音源之基頻訊號偵測結果辨識出上述音檔中所包含之音高;根據上述音高取得對應於上述音高之每一者之音色特徵參數; 根據上述音高取得對應於上述音高之每一者之方位特徵參數;以及根據上述音色特徵參數以及上述方位特徵參數透過一聚類分析取得一音頻串流結果。
  8. 如申請專利範圍第7項所述之系統,其中上述音色特徵參數係以Uniform Discrete Cepstrum表示。
  9. 如申請專利範圍第7項所述之系統,其中上述處理單元更用以:計算上述音高之每一者之能量比值以取得上述方位特徵參數。
  10. 如申請專利範圍第7項所述之系統,其中上述處理單元更用以:透過標準差總和正規化合併上述音色特徵參數以及上述方位特徵參數,並取得對應於上述音高之每一者之完整特徵參數;以及根據上述完整特徵參數透過上述聚類分析取得上述音頻串流結果。
  11. 如申請專利範圍第10項所述之系統,其中上述聚類分析包括基於群中心演算法的限制型粒子群最佳化聚類分析。
  12. 如申請專利範圍第10項所述之系統,其中上述聚類分析包括基於全域群聚演算法的限制型粒子群最佳化聚類分析。
TW107107207A 2018-03-05 2018-03-05 多通道之多重音頻串流方法以及使用該方法之系統 TWI691955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107107207A TWI691955B (zh) 2018-03-05 2018-03-05 多通道之多重音頻串流方法以及使用該方法之系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107107207A TWI691955B (zh) 2018-03-05 2018-03-05 多通道之多重音頻串流方法以及使用該方法之系統

Publications (2)

Publication Number Publication Date
TW201939486A TW201939486A (zh) 2019-10-01
TWI691955B true TWI691955B (zh) 2020-04-21

Family

ID=69023303

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107107207A TWI691955B (zh) 2018-03-05 2018-03-05 多通道之多重音頻串流方法以及使用該方法之系統

Country Status (1)

Country Link
TW (1) TWI691955B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299742A1 (en) * 2008-05-29 2009-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for spectral contrast enhancement
TW201447867A (zh) * 2013-02-14 2014-12-16 Dolby Lab Licensing Corp 利用估計之空間參數的音頻訊號增強

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299742A1 (en) * 2008-05-29 2009-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for spectral contrast enhancement
TW201013640A (en) * 2008-05-29 2010-04-01 Qualcomm Inc Systems, methods, apparatus, and computer program products for spectral contrast enhancement
TW201447867A (zh) * 2013-02-14 2014-12-16 Dolby Lab Licensing Corp 利用估計之空間參數的音頻訊號增強

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Zhiyao Duan et al:" A NOVEL CEPSTRAL REPRESENTATION FOR TIMBRE MODELING OF SOUND SOURCES IN POLYPHONIC MIXTURES", 2014 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), pp. 7495~7499, 4-9 May 2014 *
Zhiyao Duan et al:"Unsupervised Single-Channel Music Source Separation by Average Harmonic Structure Modeling", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 16, NO. 4, pp. 766~778, MAY 2008 *
Zhiyao Duan, Bryan Pardo, and Laurent Daudet, " A NOVEL CEPSTRAL REPRESENTATION FOR TIMBRE MODELING OF SOUND SOURCES IN POLYPHONIC MIXTURES", 2014 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), pp. 7495~7499, 4-9 May 2014
Zhiyao Duan, Yungang Zhang, Changshui Zhang, and Zhenwei Shi, "Unsupervised Single-Channel Music Source Separation by Average Harmonic Structure Modeling", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 16, NO. 4, pp. 766~778, MAY 2008

Also Published As

Publication number Publication date
TW201939486A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
US11366850B2 (en) Audio matching based on harmonogram
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
WO2020024396A1 (zh) 音乐风格识别方法、装置、计算机设备及存储介质
Turchet et al. Real-time hit classification in a Smart Cajón
US11847998B2 (en) Methods and apparatus for harmonic source enhancement
Lu et al. Multi-scale recurrent neural network for sound event detection
Goldstein et al. Guitar Music Transcription from Silent Video.
TWI691955B (zh) 多通道之多重音頻串流方法以及使用該方法之系統
Tjahyanto et al. Spectral-based features ranking for gamelan instruments identification using filter techniques
EP3161689B1 (en) Derivation of probabilistic score for audio sequence alignment
Mutiara et al. Musical Genre Classification Using SVM and Audio Features
Chapaneri et al. Evaluation of music features for PUK kernel based genre classification
Smaragdis Polyphonic pitch tracking by example
Loh et al. ELM for the Classification of Music Genres
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
Zhang et al. Audio classification algorithm based on nonlinear characteristics analysis
Banerjee et al. Classification of Thaats in Hindustani Classical Music using Supervised Learning
Firoozabadi et al. Estimating the Number of Speakers by Novel Zig-Zag Nested Microphone Array Based on Wavelet Packet and Adaptive GCC Method
Kubera et al. Influence of feature sets on precision, recall, and accuracy of identification of musical instruments in audio recordings
Lucena et al. Musical Instruments Recognition using Machine Learning Techniques MLP and SVM
Xu et al. Chinese folk instruments classification via statistical features and sparse-based representation
Devaraj et al. kNN Ensemble for Karnatik Raga Classification
Sundar et al. Student's-t mixture model based multi-instrument recognition in polyphonic music
Domazetovska et al. Influence of several audio parameters in urban sound event classification
Rychlicki-Kicior et al. Multipitch estimation using judge-based model