TWI658458B

TWI658458B - 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Info

Publication number: TWI658458B
Application number: TW107116815A
Authority: TW
Inventors: 范哲誠; 賴彥麟; 張智星
Original assignee: 張智星
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2019-05-01
Also published as: TW201947581A

Abstract

本發明揭露一種歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品，所述方法配置並訓練包含一生成器程式模組及一鑑別器程式模組的生成對抗式網路程式模組，生成器程式模組根據歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本，產生一第一生成頻譜機率分佈樣本，鑑別器程式模組根據所接收之混合頻譜機率分佈樣本及第一生成頻譜機率分佈樣本進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值，於停止真偽分類訓練時，執行一反頻域轉換以產生歌曲中被分離之歌聲。藉此，可有效改善歌聲分離基本效能及品質。

Description

歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

本發明係涉及一種以電腦程式進行資料分離之方法、非暫態電腦可讀取媒體及電腦程式產品，尤指涉及一種以電腦程式或演算法自歌曲中分離歌聲資料並提升其效能之方法、非暫態電腦可讀取媒體及電腦程式產品。

隨著電腦系統運算及處理能力提高，利用深層學習(Deep Learning)及例如RNN(Recurrent NN)或深層RNN等類神經網路(Neural Networks，NN)進行資訊處理之研究與應用與日俱增。但是，對於例如歌聲等感官上對於訊號品質、明顯可被察覺的差異容許度較低、普遍缺乏較多直接而客觀量測或驗證標準資料集(Data Set)的資料類型及其應用而言，目前仍未明確見到利用前述深層學習、類神經網路或甚至是具有可自動決定生成與判斷停止條件的技術來達成歌聲中人聲與背景音訊分離效能之評估與提升，且效能提升的程度亦無法明確驗證，因此形成學術研究及產業界普遍重視但尚待解決之問題。

本發明之一主要目的係在於，提供一種歌聲分離效能提升之方法，以有效改善歌聲分離基本效能及品質之問題。

本發明之另一主要目的係在於，提供一種內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體，以有效於電腦系統執行而改善歌聲分離基本效能。

本發明之另一主要目的係在於，提供一種內儲用於歌聲分離效能提升程式之電腦程式產品，以有效於電腦系統執行而改善歌聲分離基本效能。

為達以上之目的，本發明所提供之歌聲分離效能提升之方法，包含以下步驟：配置並訓練一生成對抗式網路程式模組，其中該生成對抗式網路程式模組包含一生成器(Generator)程式模組及一鑑別器(Discriminator)程式模組，更包含以下步驟：該生成器程式模組根據該歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本，產生一第一生成頻譜機率分佈樣本；該鑑別器程式模組根據所接收之該混合頻譜機率分佈樣本及該第一生成頻譜機率分佈樣本進行一真偽分類(Real and Fake)訓練並相對應輸出一二元預測值作為一標記值；以及若該標記值為1時，訓練該生成器程式模組生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行該真偽分類訓練，且若該標記值為0時，繼續訓練該鑑別器程式模組；以及當停止該真偽分類訓練時，執行一反頻域轉換以產生該歌曲中一被分離之歌聲。

於本發明一實施例中，更包含：先執行一時頻域遮罩程式模組以產生並輸出一預估(estimated)頻譜機率分佈樣本，再執行該反頻域轉換而產生該被分離之歌聲。

於本發明另一實施例中，該生成對抗式網路程式模組係一條件式生成對抗式網路程式模組，且該生成器程式模組及該鑑別器程式模組之輸出係由至少一上下文相關的向量(Context Vector)擴增生成之一聯合優化(Jointly Optimized)目標函數所控制，以確保該生成對抗式網路程式模組之一歌聲分離效能至少優於一基本效能。於本發明另一實施例中，該聯合優化目標函數係一均方誤差(Mean Square Error,MSE)函數，該真偽分類訓練係一深層類神經網路(Deep Neural Networks,DNN)程序，且該生成器程式模組及該鑑別器程式模組係分別執行一深層類神經網路程序。

為達以上之目的，本發明所提供之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體，當電腦載入該程式並執行後，可完成前述之歌聲分離效能提升之方法。

為達以上之目的，本發明所提供之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體，更包含：具有至少一操作選項之一圖形化使用者介面程式，以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。

為達以上之目的，本發明所提供之內儲用於歌聲分離效能提升程式之電腦程式產品，當電腦載入該電腦程式並執行後，可完成前述之歌聲分離效能提升之方法。

於本發明一實施例中，所述內儲用於歌聲分離效能提升程式之電腦程式產品，更包含：具有至少一操作選項之一圖形化使用者介面程式，以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。

綜上所述，本發明所提供之歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品，能有效於電腦系統執行而改善、提升歌聲分離基本效能。

S11~S13、S111~S115‧‧‧步驟

212、312‧‧‧生成對抗式網路程式模組

2121‧‧‧生成器程式模組

2122‧‧‧鑑別器程式模組

M‧‧‧混合頻譜機率分佈樣本

SP1‧‧‧歌聲預測頻譜

SP2‧‧‧背景音樂預測頻譜

R‧‧‧標記值

3‧‧‧非暫態電腦可讀取記憶媒體或電腦程式

31‧‧‧用於歌聲分離效能提升程式

311‧‧‧短時傅立葉轉換器程式

3111‧‧‧亂數生成器

313‧‧‧時頻域遮罩程式模組

314‧‧‧反向短時傅立葉轉換器程式

315‧‧‧圖形化使用者介面程式

A‧‧‧歌曲

B‧‧‧能量頻譜機率分佈樣本

C‧‧‧相位頻譜機率分佈樣本

D‧‧‧初始化參數

E‧‧‧標記值及結果頻譜

F‧‧‧預估頻譜機率分佈樣本

G‧‧‧被分離之歌聲

第1A圖為根據本發明歌聲分離效能提升之方法一實施例之流程圖。

第1B圖為根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組另一實施例之流程圖。

第2圖為根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組一實施例之執行流程示意圖。

第3圖為根據本發明內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體或電腦程式產品一實施例之程式模組及執行流程示意圖。

請參閱第1A圖，其係根據本發明歌聲分離效能提升之方法一實施例之流程圖。如圖1所示，在此實施例中，於步驟S11，配置並訓練一生成對抗式網路程式模組，其中，生成對抗式網路程式模組包含一生成器程式模組及一鑑別器程式模組。接著，於步驟S12執行一時頻域遮罩程式模組以產生並輸出一預估頻譜機率分佈樣本，其中，所述時頻域遮罩程式模組可以用來將歌聲分離結果平滑化，所以可以作為前述生成器程式模組及鑑別器程式模組輸出端額外的、附加的處理層，然後，於步驟S13，執行一反頻域轉換，將前述預估預估頻譜機率分佈樣本轉換至時域並結合相位資訊以產生該歌曲中一被分離之歌聲。

承上所述，請併參閱第1B圖，其係根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組另一實施例之流程圖。在此實施例中，第1A圖步驟S11更包含步驟S111~S115。於步驟S111時，生成器程式模組根據在時域的歌曲利用短時傅立葉轉換器(Short Time Fourier Transform,STFT)程式執行頻域轉換後所輸出的混合(Mixture)頻譜機率分佈樣本，其可以包含能量(Magnitude)及相位(Phase)，在此例如以一能量頻譜(Spectra)作為特徵來取樣前述頻譜機率分佈樣本，並以亂數或隨機(random)產生一第一生成(generated)頻譜機率分佈樣本。接著，於步驟S112，鑑別器程式模組根據所接收的混合頻譜機率分佈樣本經過一優化(Optimization)程序得到的標準答案(Ground Truth)或乾淨頻譜(Clean Spectra)，以及第一生成頻譜機率分佈樣本，進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值。其中該真偽分類訓練為非線性映射(Non-linearing Mapping)的、深層類神經網路程序，鑑別器程式模組經訓練、學習後，能鑑別出所接收的、被輸入的是與作為標準答案的乾淨頻譜相同或相近時，則標記值可以是Real或為1，反之則為Fake或為0。然後，於步驟S113與S114，判斷標記值為1或為0，且若判斷標記值為1，表示鑑別器程式模組具有能力，可以有效鑑別、分類出真實的、實際的頻譜分佈樣本，而不會誤認或無法鑑別出被人工(artificial)生成的是真實的，則繼續訓練生成器程式模組而增加生成能力，使其生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行真偽分類訓練。另一方面，若標記值經判斷為0，則於步驟S115繼續訓練該鑑別器程式模組之能力。

承上所述，在此實施例中，所述生成對抗式網路程式模組可以是一條件式(conditional)生成對抗式網路程式模組，也就是在此類生成對抗式網路程式模組，其生成器程式模組及鑑別器程式模組的輸入端資料經過DNN程序的隱藏層(Hidden Layer)疊代或卷積運算後，可以由至少一上下文相關的向量(Context Vector)控制其輸出，而確保經過此種生成對抗式網路程式模組運算而分離的歌聲，其歌聲分離效能至少會是優於基本效能，也就是未經優化、沒有機器學習能力的歌聲分離技術。

承上所述，在此實施例中，所述聯合優化目標函數，是用來對於生成器程式模組及鑑別器程式模組的目標函數共同優化，具體可以例如是以博弈論中的Min Max函數來實施，其可以是一均方誤差函數。藉由前述Min Max函數，可以用來控制生成器程式模組及鑑別器程式模組輸出進而評估效能提升的程度。

請再參閱第2圖，其係根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組一實施例之執行流程示意圖。在此實施例中，生成對抗式網路程式模組212具有生成器程式模組2121及鑑別器程式模組2122。經過例如一前處理程式模組執行例如一深層類神經網路程序、產生一初步化參數並傳送至生成器程式模組2121及鑑別器程式模組2122進行聯合優化等程序後，在生成器程式模組2121中執行一深層類神經網路程序，將初始化參數及混合頻譜機率分佈樣本M由生成器程式模組2121的輸入端、隱藏層、上下文相關的向量進行非線性映射後，生成並輸出一第一生成頻譜機率分佈樣本，例如一歌聲預測頻譜SP1及/或一背景音樂預測頻譜SP2。然後，在鑑別器程式模組2122接收前述歌聲預測頻譜SP1、背景音樂預測頻譜SP2及混合頻譜機率分佈樣本M傳送至於該鑑別器程式模組2122，執行例如一深層類神經網路程序作為一真偽分類訓練，也就是由鑑別器程式模組2122的輸入端、隱藏層、上下文相關的向量進行非線性映射後，相對應輸出一二元預測值作為一標記值R。如果鑑別器程式模組經訓練、學習後，能鑑別出所接收的、被輸入的是與作為標準答案的乾淨頻譜相同或相近時，則標記值R可以是Real或為1，反之則為Fake或為0。進一步言，若判斷標記值R為1，表示鑑別器程式模組具有能力，可以有效鑑別、分類出真實的、實際的頻譜分佈樣本，而不會誤認或無法鑑別出被人工(artificial)生成的是真實的，則繼續訓練生成器程式模組而增加生成能力，使其生成並傳送一第二生成頻譜機率分佈樣本(未示於圖中)至鑑別器程式模組繼續進行真偽分類訓練。另一方面，若標記值經判斷為0，則繼續訓練該鑑別器程式模組之能力，整個程序可以作為執行後續的被分離之歌聲產生程序之依據。

請參閱第3圖，其係根據本發明內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體或電腦程式產品一實施例之程式模組及運作流程示意圖。在此實施例中，所述電腦程式產品或非暫態電腦可讀取記憶媒體3，內儲有用於歌聲分離效能提升程式31，其中主要包含生成對抗式網路程式模組312。在此實施例中，歌聲分離效能提升程式31還可以包含具有多個操作選項之一圖形化使用者介面程式315，使用者可以透過具有操作選項(未示於圖中)的圖形化使用者介面程式315來執行內儲有用於歌聲分離效能提升程式31。在此說明，操作選項為常用的操作，在此僅為舉例，其種類不限於此，且在此分別可代表供使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲之功能。

承上實施例，歌曲A經頻域轉換所產生的混合頻譜機率分佈樣本包含能量頻譜機率分佈樣本B及相位頻譜機率分佈樣本C，能量頻譜機率分佈樣本B以例如一亂數生成器3111進行聯合優化(Joint Optimization)訓練程序或(Jointly Optimized)目標函數執行一深層類神經網路程序產生一初始化參數D，所述最佳初始化參數D包含權重(Weight)及差值(Bias)作為標準答案(Ground Truth)，並傳送至生成對抗式網路程式模組312之生成器程式模組及該鑑別器程式模組(均未示於圖面)，以輸出標記值及結果頻譜E。然後，經由執行時頻域遮罩程式模組313以產生並輸出一預估頻譜機率分佈樣本F、利用例如反向短時傅立葉轉換器(Inversed Short Time Fourier Transform,ISTFT)程式314執行反頻域轉換而產生被分離之歌聲G。

此外，附帶一提，將歌曲A利用一短時傅立葉轉換器程式311執行一頻域轉換並輸出一混合頻譜機率分佈樣本之程序，以及執行時頻域遮罩程式模組313以產生並輸出一預估頻譜機率分佈樣本F、利用例如反向短時傅立葉轉換器程式314執行反頻域轉換而產生被分離之歌聲G之程序，可以分別利用一前處理程式模組及一後處理程式模組來進行，或是由兩者整合為一個在生成對抗式網路程式模組312之外的其他程式模組來進行。

以上所述實施例僅為舉例，並非以此限制本發明實施之範圍；舉凡在不脫離本發明精神與範圍下所作之簡單或等效變化與修飾，皆應仍屬涵蓋於本發明專利之範圍。

Claims

一種歌聲分離效能提升之方法，包含：配置並訓練一生成對抗式網路程式模組，其中該生成對抗式網路程式模組包含一生成器程式模組及一鑑別器程式模組，更包含：該生成器程式模組根據該歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本，產生一第一生成頻譜機率分佈樣本；該鑑別器程式模組根據所接收之該混合頻譜機率分佈樣本及該第一生成頻譜機率分佈樣本進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值；以及若該標記值為1時，訓練該生成器程式模組生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行該真偽分類訓練，且若該標記值為0時，繼續訓練該鑑別器程式模組；以及當停止該真偽分類訓練時，執行一反頻域轉換以產生該歌曲中一被分離之歌聲。
如申請專利範圍第1項之歌聲分離效能提升之方法，在執行該反頻域轉換前，更包含：執行一時頻域遮罩程式模組以產生並輸出一預估頻譜機率分佈樣本。
如申請專利範圍第1項之歌聲分離效能提升之方法，其中該生成對抗式網路程式模組係一條件式生成對抗式網路程式模組，且該生成器程式模組及該鑑別器程式模組之輸出係由至少一上下文相關的向量(Context Vector)擴增生成之一聯合優化目標函數所控制，以確保該生成對抗式網路程式模組之一歌聲分離效能至少優於一基本效能。
如申請專利範圍第3項之歌聲分離效能提升之方法，其中該聯合優化目標函數係一均方誤差函數。
如申請專利範圍第3項之歌聲分離效能提升之方法，其中該真偽分類訓練係一深層類神經網路程序。
如申請專利範圍第1項之歌聲分離效能提升之方法，其中該生成器程式模組及該鑑別器程式模組係分別執行一深層類神經網路程序。
一種內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體，當電腦載入該程式並執行後，可完成如申請專利範圍第1至6項任一項所述之歌聲分離效能提升之方法。
如申請專利範圍第7項之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體，更包含：具有至少一操作選項之一圖形化使用者介面程式，以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。
一種內儲用於歌聲分離效能提升程式之電腦程式產品，當電腦載入該程式並執行後，可完成如申請專利範圍第1至5項任一項所述之方法。
如申請專利範圍第9項之內儲用於歌聲分離效能提升程式之電腦程式產品，更包含：具有至少一操作選項之一圖形化使用者介面程式，以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。