TW201543472A - 即時音源分離之方法及系統 - Google Patents

即時音源分離之方法及系統 Download PDF

Info

Publication number
TW201543472A
TW201543472A TW104113128A TW104113128A TW201543472A TW 201543472 A TW201543472 A TW 201543472A TW 104113128 A TW104113128 A TW 104113128A TW 104113128 A TW104113128 A TW 104113128A TW 201543472 A TW201543472 A TW 201543472A
Authority
TW
Taiwan
Prior art keywords
audio
mix
samples
database
auxiliary
Prior art date
Application number
TW104113128A
Other languages
English (en)
Inventor
光罕恩冠克 杜昂
艾利克席 奧塞羅夫
達利亞 艾巴達威
Original Assignee
湯姆生特許公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 湯姆生特許公司 filed Critical 湯姆生特許公司
Publication of TW201543472A publication Critical patent/TW201543472A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係為一種音源分離之方法及系統(20),該方法包括以下步驟:接收(10)一音頻混合及至少一關聯至該音頻混合之文字查詢;從一輔助音頻資料庫中檢索(11)出至少一音頻樣本;評估(12)所檢索之音頻樣本;及使用該等音頻樣本,將該音頻混合分離(13)成複數個音源。對應之系統(20)包括一接收單元(21)及一處理器(22),配置用以實施該方法。

Description

即時音源分離之方法及系統
本發明相關音源分離的方法及系統,尤其該方法及系統利用組合文字及範例為基礎的措施以用於音源分離,本發明尚相關適用此一方法或系統的電腦可讀取媒體。
音源分離涉及將音頻混合分解成其構成音源,提供廣泛應用於音頻/語音增強、後製、立體音響等,在其他應用當中,盲音源分離(BSS)假設無需音源、音頻混合及/或生成音頻混合過程的有關資訊以執行音源分離。另一方面,告知音源分離(ISS)容許利用一些輔助資訊來的導引來執行音源分離。
監督音源分離的大部分現有措施係以範例為基礎的方法,此類措施的先決條件係事先獲取類似目標音源的一些音頻樣本,一般係龐大笨重且並非總可能獲得。當事先無法取得音頻樣本時,替代方式係可使用簡單文字查詢以搜尋音訊檔,由於使用者只需聆聽音頻混合及提供字組以例如描述他們想要分離的,因此以文字查詢為基礎的此措施用於音源分離對使用者係較容易且較有效率。然而,雖然在[XII]中揭露以文字查詢為基礎的措施,但到目前為止,尚無實際解決方法能有效率地應付雜訊或非代表性的檢索範例。
用於範例為基礎的音源分離,單聲道音源分離係一欠定問題,因此係在最具挑戰者當中。數種演算法建議考量到個別音源的預先得知頻譜特性,為使其從音頻混合中分離。為達成此目的,需要獲取初步訓練資料用以學習及指出個別目標音源的頻譜特性。揭露一類型的監督演算法係基於非負矩陣因式分解(NMF)[I、II、III],或其機率性公式化,稱為機率性潛在分量分析(PLCA)[IV、V]。然而,當訓練資料無法取得或不夠代表性用於該等音源時,無音源相關的其他補充資訊,上述方法就會不適用。補充資訊例如包括音頻混合中模仿聲音的”哼聲”[V],或對應音 頻混合的文字改寫[VI]。
最近已揭露基於NMF以用於音源分離的使用者導引措施[VII],藉此整個音源分離過程會包括數個互動式分離步驟,此等措施容許使用者手動地註釋有關各音源活度的資訊,使用註釋的資訊以導引音源分離過程,不需上述訓練資料。此外,使用者能檢視分離結果,及在分離過程期間藉由註釋中間分離結果的聲譜圖顯示以校正分離結果的誤差。
然而,用於上述使用者導引及交動式措施,為要手動地明確指出音源特性及藉此與分離過程互動,要求使用者具備相關音源聲譜圖及音訊處理的最低限度知識。換言之,對終端用戶而言,音源分離的可選互動及介入並非容易且不實際。此外,即使對專業操作者而言,註釋過程亦費時。
本發明的目的為揭示一種改良式音源分離解決方法,尤其有關使用者互動簡單化,使無經驗的使用者亦能輕易地執行音源分離任務。
根據本發明的第一方面,一種音源分離的方法包括以下步驟:接收一音頻混合及至少一關聯到該音頻混合的文字查詢;藉由匹配該文字查詢與關聯到一輔助音頻資料庫的語義資訊,從該輔助音頻資料庫中檢索出至少一音頻樣本;將檢索自該輔助音頻資料庫的音頻樣本進行評估;及使用所檢索音頻樣本,將該音頻混合分離成複數個音源。在本發明的一實施例中,藉由將非負矩陣因式分解應用到音頻混合及音頻樣本,共同地執行音頻樣本評估及音頻混合分離。據此,揭示一種配置用以實施該音源分離方法的系統,包括:一接收單元,配置用以接收一音頻混合及至少一關聯到該音頻混合的文字查詢;及一處理器,配置用以藉由匹配該文字查詢與關聯到一輔助音頻資料庫的語義資訊,從該輔助音頻資料庫中檢索出至少一音頻樣本,將檢索自該輔助音頻資料庫的音頻樣本進行評估,及使用該音頻樣本將該音頻混合分離成複數個音源。
而且,揭示一種電腦可讀取媒體,其中儲存指令以用於一音頻混合的音源分離,當一電腦執行該等指令時,令該電腦用以:接收一 音頻混合及至少一關聯到該音頻混合的文字查詢;藉由匹配該文字查詢與關聯到一輔助音頻資料庫的語義資訊,從該輔助音頻資料庫中檢索出至少一音頻樣本;將檢索自該輔助音頻資料庫的音頻樣本進行評估;及使用該音頻樣本,將該音頻混合分離成複數個音源。
本發明的音源分離方法將過程簡化並提升音源分離的結果,利用組合文字及樣本的措施,容許使用者藉由簡單地提供文字查詢或語音查詢描述混音中的聲音,輕易與一系統互動以實施音源分離。在後者情形中,使用一語音至文字介面將語音查詢轉換到文字查詢。初步檢索音頻樣本的評估係提供較佳訓練音源樣本以提升後續的音源分離。在本發明的一實施例中,其中共同地執行音源樣本的評估及音頻混合的音源分離,整個音源分離過程成為較有效率。
10‧‧‧接收步驟
11‧‧‧檢索步驟
12‧‧‧評估步驟
13‧‧‧分離步驟
20‧‧‧音源分離系統
21‧‧‧接收單元
22‧‧‧處理器
23‧‧‧輔助音頻資料庫
H‧‧‧時間活化矩陣
NMF‧‧‧非負矩陣因式分解
STFT‧‧‧短時傅立葉變換
ISTFT‧‧‧逆短時傅立葉變換
V‧‧‧非負聲譜圖矩陣
W‧‧‧頻譜模型矩陣
λ‧‧‧折衷參數
以下將參考附圖詳細說明以使本發明更明朗化,當然本發明並不侷限於此揭示的示範實施例,不背離本發明如後附申請專利範圍的範疇,明確指出的特點亦可適當地結合及/或修改,圖中:圖1係根據本發明以流程圖描繪音源分離方法的一較佳實施例;圖2係根據本發明的方法以流程圖描繪音源分離階段的一實施例;圖3係以示範圖顯示NMF分解;圖4係根據本發明的方法以流程圖描繪另一較佳實施例;圖5係以線圖描繪一實施例,在NMF應用的最佳化函數公式化中,折衷參數λ在迭代過程期間係適應性地變動;圖6係以示範圖顯示群組稀疏性懲罰措施用於本發明的NMF應用的效果;圖7係以示範圖顯示組合式群組及列稀疏性懲罰措施用於本發明的NMF應用的效果;及圖8係根據本發明以示意圖描繪一系統實施音源分離方法。
參照至圖1,根據本發明的音源分離方法的一較佳實施例 包括以下步驟:接收10一音頻混合及至少一關聯到該音頻混合的文字查詢;藉由匹配該文字查詢與關聯到一輔助音頻資料庫的語義資訊,從該輔助音頻資料庫中檢索11出至少一音頻樣本;將檢索自該輔助音頻資料庫的音頻樣本進行評估12;及使用該音頻樣本,將該音頻混合分離13成複數個音源。該音源分離方法可執行在一系統中,及/或藉由一處理器、一伺服器或任何合適裝置執行。
文字查詢係可由使用者透過使用者輸入裝置或類似裝置如打字裝置或遙控來提供,使用者聆聽音頻混合,區分音頻混合中的音源,及接著任意提供文字查詢,或者,文字查詢係可由實施語音至文字或類似技術的裝置直接提供。文字查詢較佳描述音頻混合中包含的音源,如狗吠、鳥叫等,及/或音頻混合的文字內容如演講內容。另外,其他特定參數如取樣率、聲道數、音訊檔類型(wav、mp3等)亦可包含在文字查詢中並與其結合,各參照至個別音源或數個音源。當然,文字查詢的長度、形式及/或其他特性係不受限且可彈性用於不同需求。
後續文字查詢係用於輔助資料庫來的音頻樣本的音頻檢索11,該輔助音頻資料庫係與一些語義資訊關聯的資料庫,該等語義資訊較佳識別該資料庫的音頻資料內容。當然,該語義資訊可具有任何適用於音源分離的形式如標籤、檔名、對應網頁等。較佳地,該輔助資料庫係一公開且可容易存取的資料庫如開放搜尋引擎像Google(谷歌)及Findsounds(音效搜尋)。在此情形中,可將檢索到的音頻樣本區域地下載以用於進一步處理,及/或可由該輔助資料庫提供一URL(網址)表。或者,該輔助資料庫係可係預備用於音源分離的一區域資料庫或任何型式資料庫。
由於有至少一些語義資訊關聯到該輔助資料庫,因此藉由匹配所接收文字查詢與輔助資料庫的語義資訊來執行音頻樣本的檢索。換言之,音頻樣本的音頻檢索係可基於該領域中任何習知文字為基音頻檢索技術來實施。
可由一區域伺服器或該輔助資料庫供應商基於各種準則來執行所檢索音頻樣本的評估12,因此,可根據音頻樣本的評估結果,使用所檢索每一音頻樣本或只使用其一子集來執行音頻混合的後續分離 13。可由數個方法(包括不同演算法)來完成音頻樣本的評估12。
在本發明的一實施例中,由輔助資料庫供應商來實施音頻樣本的檢索11及評估12,輔助資料庫如一網際網路搜尋引擎提供一音頻樣本表,根據該等音頻樣本與所提供文字查詢的匹配來將音頻樣本分級。視需要,該音頻樣本序列從最佳匹配開始一直排到最差匹配,任意地使用特定數目的最佳匹配用於後續的音頻分離,例如,使用者可決定只使用最上面三個音頻樣本及排除其餘者。此外,使用者可基於匹配得分來指定不同權重用於各樣本。
在本發明的一實施例中,音頻樣本係根據其與所接收音頻混合的相關來分級,使音頻樣本與音頻混合依時交叉相關,及總結該輸出以得到一分數用於個別音頻樣本,例如較高得分可表示音頻樣本與音頻混合的較佳匹配,同樣地,可選擇一音頻樣本子集用於後續的音源分離。
在本發明的另一實施例中,根據音頻特點相似性,其可提供音頻樣本與音頻混合之間較穩固匹配,將音頻樣本分級。首先,從檢索到的音頻樣本及音頻混合中分別抽取出音頻特點如譜質心、梅爾頻率倒譜係數(MFCC)、頻譜展開、頻譜帶能量等。基於所抽取的特點,分別算出特點向量以用於音頻樣本及音頻混合,並藉由正規化交叉相關作比較。在此情形中,尤其根據所導出特點向量以比較及匹配音頻樣本及音頻混合,而不是根據其原信號。替代該等特點向量,可抽取音頻樣本及音頻混合的詞袋表示,之後係使用相關性、餘弦相似性或其他距離度量在音頻樣本與音頻混合之間作比較。
當然,亦可使用其他替代方法將檢索自輔助資料庫的音頻樣本進行評估12,此外,在評估12音頻樣本後,可視需要應用非負矩陣因式分解[VIII、IX],以較多權重提供到較高分級的音頻樣本。
圖2係根據本發明的方法以描繪音源分離階段的一較佳實施例,應注意的是,以下說明書中將基於NMF模型的方法說明作為一範例以求簡化。即時音源分離方法及系統亦可使用其他頻譜模型如機率性潛在分量分析(PLCA)[IV、V]或高斯混合模型(GMM)等。
首先,將已評估的音頻樣本經由短時傅立葉變換(STFT)變換成一時頻表示,及使用該等音頻樣本的STFT係數(習知為聲譜圖,一 矩陣)的振幅或次方振幅。藉由非負矩陣因式分解(NMF)演算法,將此矩陣因式分解以得到一頻譜模型矩陣(W)描述音源的頻譜特性,及得到一時間活化矩陣(H)。得知頻譜矩陣W及用以導引音頻混合的聲譜圖因式分解,該音頻混合亦係經由STFT變換所獲得。藉由應用NMF在音頻混合的聲譜圖上,其中藉由從音頻範例中預先得知的行將頻譜矩陣的部分行或所有行固定,藉由熟知的維納濾波(Wiener filtering)以得到音源的估計STFT係數。最後,應用逆STFT(ISTFT)以得到音源的時域估計,以便可將音源例如儲存為一聲波檔案。
本發明方法的較佳實施例實施NMF模型,可將NMF的傳統公式化定義為,其中V係維度F×N的非負矩陣,NMF的目的為使矩陣V求近似為維度F×KK×N的各別二簡單非負矩陣WH的乘積,及藉由W.H近似地重建矩陣V時,使誤差減到最小。可使用各式各樣成本函數以測量該近似值的誤差。
在本發明的實施例中應用NMF的公式化,即V表示音頻混合的非負聲譜圖矩陣,其係輸入混合信號的時頻表示,WH分別表示音源及其對應活化的頻譜原子,F表示總頻率箱,N係時框數,及K表示NMF分量的數目,該等NMF分量係描述音源頻譜特性的頻譜基礎。換言之,藉由矩陣W的不同行(及矩陣H的對應列)與不同音源關聯,NMF可分離單聲道音頻混合。圖3顯示該分解的一範例。
因此目標係藉由解決以下最佳化問題使近似誤差減到最小: 其中 其中d(.|.)係一散度,f(頻率箱索引)及n(時框索引)指出第f列及第n行中的元素,可能的示範散度包含Itakura-Saito散度[III]。
可視需要使頻譜基礎矩陣W保持固定或加以更新,若所檢 索音頻樣本係相對地好,較佳固定得知的W用於進一步音源分離。另一方面,關於輸入音頻混合,更新的W係有彈性並會聚到較佳近似。或者,另一選項係首先在第一參數更新迭代期間固定矩陣W,接著在稍後迭代(其係用以較佳調適音頻混合中的音源的頻譜特性)中將W進行調整及更新。
圖4係根據本發明顯示音源分離方法的另一較佳實施例,在此實施例中,共同地執行音頻樣本的評估12與音頻混合的分離13,換言之,在音源分離之前未實施任何評估,及提供所檢索的全部音頻樣本作為輸入用於音源分離階段。
通常,配合譜型大字典的使用,藉由應用非負矩陣因式分解到音頻混合以共同地執行音頻樣本的評估及音頻混合的分離,該譜型大字典係藉由序連從不同音源用的音頻範例中得知的譜型矩陣所建構。更確切地,作為二音源的範例,譜型的矩陣首先建構為W=[W11,...,W1P,W21,...,W2Q],其中P及Q分別係檢索用於來源1及2的範例數目,及W1p(p=1,..,P)及W1q(q=1,..,Q)分別係藉由NMF從音源1(由p編索引)及音源2(由q編索引)得知的譜型矩陣。時間活化的矩陣H係依相同方式建構,但首先將所有矩陣元隨機初始化,及接著經由最佳化過程加以更新。在本發明的此實施例中,用以強加群組稀疏性到矩陣H上的懲罰函數係以總體最佳化成本提出,以便容許只選擇從範例得知的最適當譜型,用以導引音頻混合的NMF分解。圖6中說明此策略用於二音源的示範情形,及用於各音源的二範例,其中W11及W12係從二範例中得知用於第一音源的譜型,同樣地,W21及W22用於第二音源。矩陣H係由區塊H11、H12、H21及H22所組成,該等區塊係對應到譜型的活化。在最佳化後,H12及H22的矩陣元係零,意指已自動選取所檢索唯一範例(編上索引1)以用於各音源,用以導引該分離過程。
為使音頻樣本的評估直接整合在實施NMF模型的音源分離中,在NMF成本函數中引入一稀疏性懲罰在活化矩陣H,Ψ(H)上: 其中D(V|WH)係定義如以上說明,及λ係一折衷參數,衡量稀疏性約束的貢獻。
成本函數公式化中的折衷參數λ可視需要及較佳地係適應性的λ=f(i),其中f係一函數及i係該參數更新過程中的迭代次數。想法是首先具有高的λ用以提供較多權重到稀疏性懲罰,及因此選擇底邊音頻樣本,之後逐漸降低λ用以較佳適合第一項,即散度D(V|WH),用以取得一較佳近似。圖5中顯示此策略依線性調適折衷參數λ的數個範例。
在[II]中,揭露迭代演算法利用乘性更新使上述成本函數最佳化的較詳細導算及解釋。
藉由選擇不同稀疏性懲罰,達成數個最佳方案,其構成不同方式靈活運用音頻樣本頻譜特性的基礎以導引分離過程。已知所揭露稀疏性懲罰如以下說明,可導出對應的更新規則以用於對應的參數估計。
在一實施例中,稀疏性懲罰係定義如下: 其中G表示群組數,其對應到所使用音頻樣本數,及H g 係部分的活化矩陣H,對應到第g個音源(第g個群組)的部分。如所示,Ψ(x)係可由不同函數來定義,如在[I、II]中,一範例係Ψ(x)=log(x),在該等實施例中使用該範例以求簡化,當然亦可使用不同的函數Ψ。
此群組稀疏性措施容許有效率地執行檢索自輔助資料庫的相關訓練音源樣本的評估及選擇,其中一群組表示一訓練音頻樣本。[I]中假設獲得一好模型用於唯一音源,作為[I]的一改良方式,在此實施例中通常得知及達成較多模型用於所有音源。如圖6所示,強制活化矩陣H包含極少活化區塊,其對應到較高分級的音頻樣本。
在一實施例中,稀疏性懲罰係定義如下: 其中h g 係活化矩陣的第g列,此列稀疏性措施容許較多彈性及用以(甚至是 從不同音頻樣本中)選擇最佳頻譜原子。
在一實施例中,應用一配對群組稀疏性措施,其中稀疏性懲罰係定義如下: 其定義該群組為一對各來自一音源的訓練音頻樣本,用以避開稀疏性懲罰保持唯一音源來的唯一活化群組的情節。此措施可在各音源中保持至少一活化群組。
在另一實施例中,同樣地,該措施係基於配對列稀疏性,其中稀疏性懲罰係定義如下:
較佳地,在又一實施例中,應用一組合式群組及列稀疏性措施,用於此混合式措施的成本函數係定義如下: 其中α及β係權重,用以判定各懲罰的貢獻,可將此措施視覺化如圖7所示,其中該演算法可從不同音源中選擇好的譜型。
在本發明的另一實施例中,可將考量的頻譜模型與空間模型合併[X],以便在多聲道音頻混合中執行即時音源分離。所考量框架到多聲道情形的延伸係直接易懂,及例如揭露在[XI]中。
圖8係根據本發明示意地描繪配置用以執行音源分離方法的系統20的一較佳實施例,系統20包括一接收單元21,配置用以接收10一音頻混合及關聯到該音頻混合的至少一文字查詢;及一處理器22,配置用以藉由匹配文字查詢與關聯到一輔助音頻資料庫23的語義資訊,從輔助音頻資料庫23中檢索出至少一音頻樣本,將檢索自輔助音頻資料庫23的音頻樣本進行評估12,及使用該音頻樣本將該音頻混合分離13成複數個音源。
較佳地,處理器22評估12音頻樣本及連帶地分離13音頻混合,更佳地,處理器22係藉由應用NMF到所接收的音頻混合以分離13該音頻混合。
參考文獻
[I] D.L. Sun及G.J. Mysore於2013年五月在IEEE(電機電子工程師學會)聲學、語音及信號處理國際會議(ICASSP)上發表的文章,”通用語音模型用於揚聲器獨立單聲道音源分離(Universal Speech Models for Speaker Independent Single Channel Source Separation)”。
[II] A. Lefevre、F. Bach及C. Fevotte於2011年ICASSP發表的文章,”利用群組稀疏性之Itakura-Saito非負矩陣因式分解(Itakura-Saito Non-negative Matrix Factorization with Group Sparsity)”。
[III] C. Fevotte、N. Bertin及J. Durrieu於2009年3月在中央運算期刊(第21卷第3期)發表的文章,"利用Itakura-Saito散度之非負矩陣因式分解,應用至音樂分析(Non-negative Matrix Factorization with the Itakura-Saito Divergence. With Application to Music Analysis)”。
[IV] P. Smaragdis、B. Raj及M. Shashanka於2007年在獨立分量分析及信號分離國際會議論文集中發表的文章,”單聲道混音之監督式及半監督式分離(Supervised and semi-supervised separation of sounds from Single-channel Mixtures)”,第414-421頁。
[V] P. Smaragdis及G.J. Mysore於2009年在IEEE信號處理至音頻及聲學之應用研習會(WASPAA)論文集中發表的文章,”藉由哼聲之分離:使用者導引從非立體音頻混合中抽取聲音(Separation by humming:User-guided sound extraction from monophonic mixture),第69-72頁。
[VI] L. L. Magoarou、A. Ozerov及N.Q.K. Duong於2013年在機器學習用於信號處理(MLSP)國際研習會論文集中發表的文章,”使用非負矩陣偏共同因式分解之文字告知音源分離(Text-informed audio source separation using nonnegative matrix partial co-factorization)”。
[VII] N.Q.K Duong、A. Ozerov、L. Chevallier及J. Sirot於2014年在ICASSP學術論文集中發表的文章,”基於非負矩陣因式分解之互動式音源分離框架(An interactive audio source separation framework based on nonnegative matrix factorization)。
[VIII] N.Q.K Duong、A. Ozerov及L. Chevallier,歐洲專利申請號13305759.6,名稱為"音源分離之方法及對應之裝置(Method of audio source separation and corresponding apparatus)”。
[IX] N.Q.K Duong、A. Ozerov及L. Chevallier於2014年在IEEE ICCE-柏林會議論文集中提出的文章,"使用加權非負矩陣因式分解之時序註解為基音源分離(Temporal annotation based audio source separation using weighted nonnegative matrix factorization)”。
[X] N.Q.K Duong、E. Vincent及R. Gribonval於2010年九月在IEEE音頻、語音及語言處理研討會,在處理混響語音特別議題期刊(第18卷,第7期)發表的文章,”使用全秩空間共變異數模型之欠定混響音源分離(Under-determined reverberant audio source separation using full-rank spatial covariance model)”,第1830-1840頁。
[XI] S Arberet、A. Ozerov、N.Q.K Duong、E. Vincent、R. Gribonval、F. Bimbot及P Vandergheynst於2010年在資訊科學、信號處理及其應用國際會議(ISSPA. IEEE)論文集中發表的文章,"非負矩陣因式分解及空間共變異數模型用於欠定混響音源分離(Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation)”。
10‧‧‧接收步驟
11‧‧‧檢索步驟
12‧‧‧評估步驟
13‧‧‧分離步驟

Claims (15)

  1. 一種音源分離方法,由一處理器執行以用於一音頻混合,該方法包括以下步驟:- 接收(10)一音頻混合及至少一關聯至該音頻混合之文字查詢;- 藉由匹配該文字查詢與關聯至一輔助音頻資料庫之語義資訊,從該輔助音頻資料庫中檢索(11)出至少一音頻樣本;- 將檢索自該輔助音頻資料庫之音頻樣本進行評估(12);及- 使用該音頻樣本,將該音頻混合分離(13)成複數個音源。
  2. 如申請專利範圍第1項之方法,其中分離(13)音頻混合之步驟係根據該等音頻樣本之評估結果,使用該等音頻樣本之一子集。
  3. 如申請專利範圍第1項之方法,其中評估(12)音頻樣本之步驟包括將該等音頻樣本根據其與所接收文字查詢之匹配進行分級。
  4. 如申請專利範圍第1項之方法,其中評估(12)音頻樣本之步驟包括將該等音頻樣本根據其與所接收音頻混合之相關進行分級。
  5. 如申請專利範圍第1項之方法,其中評估(12)音頻樣本之步驟包括將該等音頻樣本根據所檢索音頻樣本與所接收音頻混合間之音頻特點相似性進行分級。
  6. 如申請專利範圍第1項之方法,其中該輔助音頻資料庫包括一網際網路搜尋引擎。
  7. 如先前申請專利範圍中任一項之方法,其中分離(13)音頻混合之步驟包括應用非負矩陣因式分解(NMF)至該音頻混合。
  8. 如申請專利範圍第1項之方法,其中共同地執行評估(12)音頻樣本與分離(13)音頻混合之步驟。
  9. 如申請專利範圍第8項之方法,其中藉由應用非負矩陣因式分解(NMF)至音頻混合及音頻樣本以共同地執行評估(12)音頻樣本與分離(13)音頻混合之步驟。
  10. 如申請專利範圍第9項之方法,其中藉由引入一成本函數至NMF應用中以執行評估(12)音頻樣本之步驟,其中該成本函數包含一稀疏性懲罰參數,俾容許選擇從所檢索音頻樣本得知之譜型,用以導引該音頻混合 之分解。
  11. 如申請專利範圍第10項之方法,其中該稀疏性懲罰參數係相關聯一折衷參數,其係於一參數更新過程中適應地修改。
  12. 一種用於音頻混合之音源分離系統(20),該系統包括:- 一接收單元(21),配置用以接收一音頻混合及至少一關聯至該音頻混合之文字查詢;及- 一處理器(22),配置用以藉由匹配該文字查詢與關聯至一輔助音頻資料庫(23)之語義資訊,從該輔助音頻資料庫(23)中檢索出至少一音頻樣本,將檢索自該輔助音頻資料庫(23)之音頻樣本進行評估,及使用該音頻樣本將該音頻混合分離成複數個音源。
  13. 如申請專利範圍第12項之系統,其中處理器(22)係藉由應用非負矩陣因式分解(NMF)至該音頻混合以分離該音頻混合。
  14. 如申請專利範圍第12項之系統,其中處理器(22)係共同地執行音頻樣本評估及音頻混合分離。
  15. 一種電腦可讀取媒體,具有指令儲存其中以用於一音頻混合之音源分離,當該等指令由一電腦執行時,令該電腦用以:- 接收一音頻混合及至少一關聯至該音頻混合之文字查詢;- 藉由匹配該文字查詢與關聯至一輔助音頻資料庫之語義資訊,從該輔助音頻資料庫中檢索出至少一音頻樣本;- 將檢索自該輔助音頻資料庫之音頻樣本進行評估;及- 使用該音頻樣本,將該音頻混合分離成複數個音源。
TW104113128A 2014-05-15 2015-04-24 即時音源分離之方法及系統 TW201543472A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14305712 2014-05-15

Publications (1)

Publication Number Publication Date
TW201543472A true TW201543472A (zh) 2015-11-16

Family

ID=50842205

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104113128A TW201543472A (zh) 2014-05-15 2015-04-24 即時音源分離之方法及系統

Country Status (7)

Country Link
US (1) US10235126B2 (zh)
EP (1) EP3143619A1 (zh)
JP (1) JP2017520784A (zh)
KR (1) KR20170008799A (zh)
CN (1) CN106537503A (zh)
TW (1) TW201543472A (zh)
WO (1) WO2015173192A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489215A (zh) * 2015-11-18 2016-04-13 珠海格力电器股份有限公司 一种噪声源识别方法及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842609B2 (en) * 2016-02-16 2017-12-12 Red Pill VR, Inc. Real-time adaptive audio source separation
JP6987075B2 (ja) 2016-04-08 2021-12-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源分離
JP6618493B2 (ja) * 2017-02-20 2019-12-11 日本電信電話株式会社 信号解析装置、方法、及びプログラム
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法
US11482239B2 (en) * 2018-09-17 2022-10-25 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Joint source localization and separation method for acoustic sources
JP2020056939A (ja) * 2018-10-03 2020-04-09 日本電信電話株式会社 信号分離装置、信号分離方法、及びプログラム
US20210358513A1 (en) * 2018-10-26 2021-11-18 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111724807B (zh) * 2020-08-05 2023-08-11 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
KR101081050B1 (ko) 2010-04-29 2011-11-09 서울대학교산학협력단 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템
CA2779232A1 (en) 2011-06-08 2012-12-08 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Sparse coding using object extraction
US9966088B2 (en) 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
WO2014195132A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
EP2887233A1 (en) 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489215A (zh) * 2015-11-18 2016-04-13 珠海格力电器股份有限公司 一种噪声源识别方法及系统

Also Published As

Publication number Publication date
EP3143619A1 (en) 2017-03-22
WO2015173192A1 (en) 2015-11-19
JP2017520784A (ja) 2017-07-27
US10235126B2 (en) 2019-03-19
CN106537503A (zh) 2017-03-22
US20170075649A1 (en) 2017-03-16
KR20170008799A (ko) 2017-01-24

Similar Documents

Publication Publication Date Title
TW201543472A (zh) 即時音源分離之方法及系統
Gao et al. Learning to separate object sounds by watching unlabeled video
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
US20120203719A1 (en) Audio signal processing device, audio signal processing method, and program
Chien et al. Bayesian factorization and learning for monaural source separation
Mysore et al. Variational inference in non-negative factorial hidden Markov models for efficient audio source separation
US20140358534A1 (en) General Sound Decomposition Models
Duong et al. An interactive audio source separation framework based on non-negative matrix factorization
JP5580585B2 (ja) 信号分析装置、信号分析方法及び信号分析プログラム
Schröter et al. Segmentation, classification, and visualization of orca calls using deep learning
US20200389749A1 (en) Source separation for reverberant environment
El Badawy et al. On-the-fly audio source separation—A novel user-friendly framework
KR20190080437A (ko) 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
Wassi et al. FPGA-based real-time MFCC extraction for automatic audio indexing on FM broadcast data
Mandel et al. Learning a concatenative resynthesis system for noise suppression
Hsu et al. Discriminative Layered Nonnegative Matrix Factorization for Speech Separation.
Yang et al. Bayesian factorization and selection for speech and music separation.
Shiroma et al. Investigation on spatial and frequency-based features for asynchronous acoustic scene analysis
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies
Guo et al. A comparison study to identify birds species based on bird song signals
Timofeeva et al. Improvement of Speaker Number Estimation by Applying an Overlapped Speech Detector
Fallgren et al. A Tool for Exploring Large Amounts of Found Audio Data.
Burred A framework for music analysis/resynthesis based on matrix factorization.
CN114446316B (zh) 音频分离方法、音频分离模型的训练方法、装置及设备