TWI658458B - 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品 - Google Patents

歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品 Download PDF

Info

Publication number
TWI658458B
TWI658458B TW107116815A TW107116815A TWI658458B TW I658458 B TWI658458 B TW I658458B TW 107116815 A TW107116815 A TW 107116815A TW 107116815 A TW107116815 A TW 107116815A TW I658458 B TWI658458 B TW I658458B
Authority
TW
Taiwan
Prior art keywords
program module
program
song
performance
improving
Prior art date
Application number
TW107116815A
Other languages
English (en)
Other versions
TW201947581A (zh
Inventor
范哲誠
賴彥麟
張智星
Original Assignee
張智星
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 張智星 filed Critical 張智星
Priority to TW107116815A priority Critical patent/TWI658458B/zh
Application granted granted Critical
Publication of TWI658458B publication Critical patent/TWI658458B/zh
Publication of TW201947581A publication Critical patent/TW201947581A/zh

Links

Abstract

本發明揭露一種歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品,所述方法配置並訓練包含一生成器程式模組及一鑑別器程式模組的生成對抗式網路程式模組,生成器程式模組根據歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本,產生一第一生成頻譜機率分佈樣本,鑑別器程式模組根據所接收之混合頻譜機率分佈樣本及第一生成頻譜機率分佈樣本進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值,於停止真偽分類訓練時,執行一反頻域轉換以產生歌曲中被分離之歌聲。藉此,可有效改善歌聲分離基本效能及品質。

Description

歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
本發明係涉及一種以電腦程式進行資料分離之方法、非暫態電腦可讀取媒體及電腦程式產品,尤指涉及一種以電腦程式或演算法自歌曲中分離歌聲資料並提升其效能之方法、非暫態電腦可讀取媒體及電腦程式產品。
隨著電腦系統運算及處理能力提高,利用深層學習(Deep Learning)及例如RNN(Recurrent NN)或深層RNN等類神經網路(Neural Networks,NN)進行資訊處理之研究與應用與日俱增。但是,對於例如歌聲等感官上對於訊號品質、明顯可被察覺的差異容許度較低、普遍缺乏較多直接而客觀量測或驗證標準資料集(Data Set)的資料類型及其應用而言,目前仍未明確見到利用前述深層學習、類神經網路或甚至是具有可自動決定生成與判斷停止條件的技術來達成歌聲中人聲與背景音訊分離效能之評估與提升,且效能提升的程度亦無法明確驗證,因此形成學術研究及產業界普 遍重視但尚待解決之問題。
本發明之一主要目的係在於,提供一種歌聲分離效能提升之方法,以有效改善歌聲分離基本效能及品質之問題。
本發明之另一主要目的係在於,提供一種內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體,以有效於電腦系統執行而改善歌聲分離基本效能。
本發明之另一主要目的係在於,提供一種內儲用於歌聲分離效能提升程式之電腦程式產品,以有效於電腦系統執行而改善歌聲分離基本效能。
為達以上之目的,本發明所提供之歌聲分離效能提升之方法,包含以下步驟:配置並訓練一生成對抗式網路程式模組,其中該生成對抗式網路程式模組包含一生成器(Generator)程式模組及一鑑別器(Discriminator)程式模組,更包含以下步驟:該生成器程式模組根據該歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本,產生一第一生成頻譜機率分佈樣本;該鑑別器程式模組根據所接收之該混合頻譜機率分佈樣本及該第一生成頻譜機率分佈樣本進行一真偽分類(Real and Fake)訓練並相對應輸出一二元預測值作為一標記值;以及若該標記值為1時,訓練該生成器程式模組生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行該真偽分類訓練,且若該標記值為0時,繼續訓練該鑑別器程式模組;以及當停止該真偽分類訓練時,執行一反頻域轉換以產生該歌曲中一 被分離之歌聲。
於本發明一實施例中,更包含:先執行一時頻域遮罩程式模組以產生並輸出一預估(estimated)頻譜機率分佈樣本,再執行該反頻域轉換而產生該被分離之歌聲。
於本發明另一實施例中,該生成對抗式網路程式模組係一條件式生成對抗式網路程式模組,且該生成器程式模組及該鑑別器程式模組之輸出係由至少一上下文相關的向量(Context Vector)擴增生成之一聯合優化(Jointly Optimized)目標函數所控制,以確保該生成對抗式網路程式模組之一歌聲分離效能至少優於一基本效能。於本發明另一實施例中,該聯合優化目標函數係一均方誤差(Mean Square Error,MSE)函數,該真偽分類訓練係一深層類神經網路(Deep Neural Networks,DNN)程序,且該生成器程式模組及該鑑別器程式模組係分別執行一深層類神經網路程序。
為達以上之目的,本發明所提供之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體,當電腦載入該程式並執行後,可完成前述之歌聲分離效能提升之方法。
為達以上之目的,本發明所提供之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體,更包含:具有至少一操作選項之一圖形化使用者介面程式,以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。
為達以上之目的,本發明所提供之內儲用於歌聲分離效能提升程式之電腦程式產品,當電腦載入該電腦程式並執行後,可完成前述之 歌聲分離效能提升之方法。
於本發明一實施例中,所述內儲用於歌聲分離效能提升程式之電腦程式產品,更包含:具有至少一操作選項之一圖形化使用者介面程式,以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。
綜上所述,本發明所提供之歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品,能有效於電腦系統執行而改善、提升歌聲分離基本效能。
S11~S13、S111~S115‧‧‧步驟
212、312‧‧‧生成對抗式網路程式模組
2121‧‧‧生成器程式模組
2122‧‧‧鑑別器程式模組
M‧‧‧混合頻譜機率分佈樣本
SP1‧‧‧歌聲預測頻譜
SP2‧‧‧背景音樂預測頻譜
R‧‧‧標記值
3‧‧‧非暫態電腦可讀取記憶媒體或電腦程式
31‧‧‧用於歌聲分離效能提升程式
311‧‧‧短時傅立葉轉換器程式
3111‧‧‧亂數生成器
313‧‧‧時頻域遮罩程式模組
314‧‧‧反向短時傅立葉轉換器程式
315‧‧‧圖形化使用者介面程式
A‧‧‧歌曲
B‧‧‧能量頻譜機率分佈樣本
C‧‧‧相位頻譜機率分佈樣本
D‧‧‧初始化參數
E‧‧‧標記值及結果頻譜
F‧‧‧預估頻譜機率分佈樣本
G‧‧‧被分離之歌聲
第1A圖為根據本發明歌聲分離效能提升之方法一實施例之流程圖。
第1B圖為根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組另一實施例之流程圖。
第2圖為根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組一實施例之執行流程示意圖。
第3圖為根據本發明內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體或電腦程式產品一實施例之程式模組及執行流程示意圖。
請參閱第1A圖,其係根據本發明歌聲分離效能提升之方法一實施例之流程圖。如圖1所示,在此實施例中,於步驟S11,配置並訓練一生成對抗式網路程式模組,其中,生成對抗式網路程式模組包含一生成器程式模組及一鑑別器程式模組。接著,於步驟S12執行一時頻域遮罩程式模組以產生並輸出一預估頻譜機率分佈樣本,其中,所述時頻域遮罩程式模組可以用來將歌聲分離結果平滑化,所以可以作為前述生成器程式模組及鑑別器程式模組輸出端額外的、附加的處理層,然後,於步驟S13,執行一反頻域轉換,將前述預估預估頻譜機率分佈樣本轉換至時域並結合相位資訊以產生該歌曲中一被分離之歌聲。
承上所述,請併參閱第1B圖,其係根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組另一實施例之流程圖。在此實施例中,第1A圖步驟S11更包含步驟S111~S115。於步驟S111時,生成器程式模組根據在時域的歌曲利用短時傅立葉轉換器(Short Time Fourier Transform,STFT)程式執行頻域轉換後所輸出的混合(Mixture)頻譜機率分佈樣本,其可以包含能量(Magnitude)及相位(Phase),在此例如以一能量頻譜(Spectra)作為特徵來取樣前述頻譜機率分佈樣本,並以亂數或隨機(random)產生一第一生成(generated)頻譜機率分佈樣本。接著,於步驟S112,鑑別器程式模組根據所接收的混合頻譜機率分佈樣本經過一優化(Optimization)程序得到的標準答案(Ground Truth)或乾淨頻譜(Clean Spectra),以及第一生成頻譜機率分佈樣本,進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值。其中該真偽分類訓練為非線性映射(Non-linearing Mapping)的、深層類神經網路程序,鑑別器程式模組經訓練、學習後,能鑑別出所接收的、被輸入的是與 作為標準答案的乾淨頻譜相同或相近時,則標記值可以是Real或為1,反之則為Fake或為0。然後,於步驟S113與S114,判斷標記值為1或為0,且若判斷標記值為1,表示鑑別器程式模組具有能力,可以有效鑑別、分類出真實的、實際的頻譜分佈樣本,而不會誤認或無法鑑別出被人工(artificial)生成的是真實的,則繼續訓練生成器程式模組而增加生成能力,使其生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行真偽分類訓練。另一方面,若標記值經判斷為0,則於步驟S115繼續訓練該鑑別器程式模組之能力。
承上所述,在此實施例中,所述生成對抗式網路程式模組可以是一條件式(conditional)生成對抗式網路程式模組,也就是在此類生成對抗式網路程式模組,其生成器程式模組及鑑別器程式模組的輸入端資料經過DNN程序的隱藏層(Hidden Layer)疊代或卷積運算後,可以由至少一上下文相關的向量(Context Vector)控制其輸出,而確保經過此種生成對抗式網路程式模組運算而分離的歌聲,其歌聲分離效能至少會是優於基本效能,也就是未經優化、沒有機器學習能力的歌聲分離技術。
承上所述,在此實施例中,所述聯合優化目標函數,是用來對於生成器程式模組及鑑別器程式模組的目標函數共同優化,具體可以例如是以博弈論中的Min Max函數來實施,其可以是一均方誤差函數。藉由前述Min Max函數,可以用來控制生成器程式模組及鑑別器程式模組輸出進而評估效能提升的程度。
請再參閱第2圖,其係根據本發明歌聲分離效能提升之方法之生成對抗式網路程式模組一實施例之執行流程示意圖。在此實施例中, 生成對抗式網路程式模組212具有生成器程式模組2121及鑑別器程式模組2122。經過例如一前處理程式模組執行例如一深層類神經網路程序、產生一初步化參數並傳送至生成器程式模組2121及鑑別器程式模組2122進行聯合優化等程序後,在生成器程式模組2121中執行一深層類神經網路程序,將初始化參數及混合頻譜機率分佈樣本M由生成器程式模組2121的輸入端、隱藏層、上下文相關的向量進行非線性映射後,生成並輸出一第一生成頻譜機率分佈樣本,例如一歌聲預測頻譜SP1及/或一背景音樂預測頻譜SP2。然後,在鑑別器程式模組2122接收前述歌聲預測頻譜SP1、背景音樂預測頻譜SP2及混合頻譜機率分佈樣本M傳送至於該鑑別器程式模組2122,執行例如一深層類神經網路程序作為一真偽分類訓練,也就是由鑑別器程式模組2122的輸入端、隱藏層、上下文相關的向量進行非線性映射後,相對應輸出一二元預測值作為一標記值R。如果鑑別器程式模組經訓練、學習後,能鑑別出所接收的、被輸入的是與作為標準答案的乾淨頻譜相同或相近時,則標記值R可以是Real或為1,反之則為Fake或為0。進一步言,若判斷標記值R為1,表示鑑別器程式模組具有能力,可以有效鑑別、分類出真實的、實際的頻譜分佈樣本,而不會誤認或無法鑑別出被人工(artificial)生成的是真實的,則繼續訓練生成器程式模組而增加生成能力,使其生成並傳送一第二生成頻譜機率分佈樣本(未示於圖中)至鑑別器程式模組繼續進行真偽分類訓練。另一方面,若標記值經判斷為0,則繼續訓練該鑑別器程式模組之能力,整個程序可以作為執行後續的被分離之歌聲產生程序之依據。
請參閱第3圖,其係根據本發明內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體或電腦程式產品一實施例之程式模組及 運作流程示意圖。在此實施例中,所述電腦程式產品或非暫態電腦可讀取記憶媒體3,內儲有用於歌聲分離效能提升程式31,其中主要包含生成對抗式網路程式模組312。在此實施例中,歌聲分離效能提升程式31還可以包含具有多個操作選項之一圖形化使用者介面程式315,使用者可以透過具有操作選項(未示於圖中)的圖形化使用者介面程式315來執行內儲有用於歌聲分離效能提升程式31。在此說明,操作選項為常用的操作,在此僅為舉例,其種類不限於此,且在此分別可代表供使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲之功能。
承上實施例,歌曲A經頻域轉換所產生的混合頻譜機率分佈樣本包含能量頻譜機率分佈樣本B及相位頻譜機率分佈樣本C,能量頻譜機率分佈樣本B以例如一亂數生成器3111進行聯合優化(Joint Optimization)訓練程序或(Jointly Optimized)目標函數執行一深層類神經網路程序產生一初始化參數D,所述最佳初始化參數D包含權重(Weight)及差值(Bias)作為標準答案(Ground Truth),並傳送至生成對抗式網路程式模組312之生成器程式模組及該鑑別器程式模組(均未示於圖面),以輸出標記值及結果頻譜E。然後,經由執行時頻域遮罩程式模組313以產生並輸出一預估頻譜機率分佈樣本F、利用例如反向短時傅立葉轉換器(Inversed Short Time Fourier Transform,ISTFT)程式314執行反頻域轉換而產生被分離之歌聲G。
此外,附帶一提,將歌曲A利用一短時傅立葉轉換器程式311執行一頻域轉換並輸出一混合頻譜機率分佈樣本之程序,以及執行時頻域遮罩程式模組313以產生並輸出一預估頻譜機率分佈樣本F、利用例如反向 短時傅立葉轉換器程式314執行反頻域轉換而產生被分離之歌聲G之程序,可以分別利用一前處理程式模組及一後處理程式模組來進行,或是由兩者整合為一個在生成對抗式網路程式模組312之外的其他程式模組來進行。
以上所述實施例僅為舉例,並非以此限制本發明實施之範圍;舉凡在不脫離本發明精神與範圍下所作之簡單或等效變化與修飾,皆應仍屬涵蓋於本發明專利之範圍。

Claims (10)

  1. 一種歌聲分離效能提升之方法,包含:配置並訓練一生成對抗式網路程式模組,其中該生成對抗式網路程式模組包含一生成器程式模組及一鑑別器程式模組,更包含:該生成器程式模組根據該歌曲執行一頻域轉換後所輸出之一混合頻譜機率分佈樣本,產生一第一生成頻譜機率分佈樣本;該鑑別器程式模組根據所接收之該混合頻譜機率分佈樣本及該第一生成頻譜機率分佈樣本進行一真偽分類訓練並相對應輸出一二元預測值作為一標記值;以及若該標記值為1時,訓練該生成器程式模組生成並傳送一第二生成頻譜機率分佈樣本至該鑑別器程式模組繼續進行該真偽分類訓練,且若該標記值為0時,繼續訓練該鑑別器程式模組;以及當停止該真偽分類訓練時,執行一反頻域轉換以產生該歌曲中一被分離之歌聲。
  2. 如申請專利範圍第1項之歌聲分離效能提升之方法,在執行該反頻域轉換前,更包含:執行一時頻域遮罩程式模組以產生並輸出一預估頻譜機率分佈樣本。
  3. 如申請專利範圍第1項之歌聲分離效能提升之方法,其中該生成對抗式網路程式模組係一條件式生成對抗式網路程式模組,且該生成器程式模組及該鑑別器程式模組之輸出係由至少一上下文相關的向量(Context Vector)擴增生成之一聯合優化目標函數所控制,以確保該生成對抗式網路程式模組之一歌聲分離效能至少優於一基本效能。
  4. 如申請專利範圍第3項之歌聲分離效能提升之方法,其中該聯合優化目標函數係一均方誤差函數。
  5. 如申請專利範圍第3項之歌聲分離效能提升之方法,其中該真偽分類訓練係一深層類神經網路程序。
  6. 如申請專利範圍第1項之歌聲分離效能提升之方法,其中該生成器程式模組及該鑑別器程式模組係分別執行一深層類神經網路程序。
  7. 一種內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體,當電腦載入該程式並執行後,可完成如申請專利範圍第1至6項任一項所述之歌聲分離效能提升之方法。
  8. 如申請專利範圍第7項之內儲用於歌聲分離效能提升程式之非暫態電腦可讀取記憶媒體,更包含:具有至少一操作選項之一圖形化使用者介面程式,以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。
  9. 一種內儲用於歌聲分離效能提升程式之電腦程式產品,當電腦載入該程式並執行後,可完成如申請專利範圍第1至5項任一項所述之方法。
  10. 如申請專利範圍第9項之內儲用於歌聲分離效能提升程式之電腦程式產品,更包含:具有至少一操作選項之一圖形化使用者介面程式,以供一使用者自一歌曲資料庫、一電腦檔案目錄或一超連結中選取、關閉、播放或分離該歌曲檔案或歌聲、顯示該歌聲分離進度或品質程度予該使用者或播放該被分離之歌聲。
TW107116815A 2018-05-17 2018-05-17 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品 TWI658458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107116815A TWI658458B (zh) 2018-05-17 2018-05-17 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107116815A TWI658458B (zh) 2018-05-17 2018-05-17 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Publications (2)

Publication Number Publication Date
TWI658458B true TWI658458B (zh) 2019-05-01
TW201947581A TW201947581A (zh) 2019-12-16

Family

ID=67347897

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107116815A TWI658458B (zh) 2018-05-17 2018-05-17 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Country Status (1)

Country Link
TW (1) TWI658458B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571084A (zh) * 2021-07-08 2021-10-29 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
TW200501056A (en) * 2002-11-19 2005-01-01 Yamaha Corp Interchange format of voice data in music file
TW200606816A (en) * 2004-04-29 2006-02-16 Koninkl Philips Electronics Nv Method of and system for classification of an audio signal
TW201419266A (zh) * 2012-10-05 2014-05-16 Fraunhofer Ges Forschung 用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法
EP2862169A2 (en) * 2012-06-15 2015-04-22 Jemardator AB Cepstral separation difference
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法
TW201532036A (zh) * 2014-02-11 2015-08-16 Xcube Technology Inc 多媒體卡拉ok混音裝置及其混音方法
US9286906B2 (en) * 2012-06-21 2016-03-15 Yamaha Corporation Voice processing apparatus
TW201627983A (zh) * 2014-10-02 2016-08-01 杜比國際公司 用於增加對話之解碼方法及解碼器

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
TW200501056A (en) * 2002-11-19 2005-01-01 Yamaha Corp Interchange format of voice data in music file
TW200606816A (en) * 2004-04-29 2006-02-16 Koninkl Philips Electronics Nv Method of and system for classification of an audio signal
EP2862169A2 (en) * 2012-06-15 2015-04-22 Jemardator AB Cepstral separation difference
US9286906B2 (en) * 2012-06-21 2016-03-15 Yamaha Corporation Voice processing apparatus
TW201419266A (zh) * 2012-10-05 2014-05-16 Fraunhofer Ges Forschung 用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法
TW201423729A (zh) * 2012-10-05 2014-06-16 Fraunhofer Ges Forschung 用於空間音訊物件編碼中時間/頻率解析度之反向相容動態調適的編碼器、解碼器及方法
TW201532036A (zh) * 2014-02-11 2015-08-16 Xcube Technology Inc 多媒體卡拉ok混音裝置及其混音方法
TW201627983A (zh) * 2014-10-02 2016-08-01 杜比國際公司 用於增加對話之解碼方法及解碼器
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571084A (zh) * 2021-07-08 2021-10-29 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TW201947581A (zh) 2019-12-16

Similar Documents

Publication Publication Date Title
Prenger et al. Waveglow: A flow-based generative network for speech synthesis
Fu et al. Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement
Liu et al. Adversarial attacks on spoofing countermeasures of automatic speaker verification
Yella et al. Artificial neural network features for speaker diarization
JP2018067304A (ja) ネットワーク侵入検出方法及び装置
CN110415687A (zh) 语音处理方法、装置、介质、电子设备
Fang et al. Towards transfer learning for end-to-end speech synthesis from deep pre-trained language models
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
Gabrielli et al. Introducing deep machine learning for parameter estimation in physical modelling
Chang et al. Robust federated learning against adversarial attacks for speech emotion recognition
Valenti et al. An end-to-end spoofing countermeasure for automatic speaker verification using evolving recurrent neural networks.
Feng et al. Learning bandwidth expansion using perceptually-motivated loss
Chang et al. Audio adversarial examples generation with recurrent neural networks
Xie et al. Real-time, robust and adaptive universal adversarial attacks against speaker recognition systems
US20190206410A1 (en) Systems, Apparatuses, and Methods for Speaker Verification using Artificial Neural Networks
Lan et al. Adversarial attacks and defenses in Speaker Recognition Systems: A survey
TWI658458B (zh) 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
Zhang et al. Imperceptible black-box waveform-level adversarial attack towards automatic speaker recognition
Tu et al. Aggregating frame-level information in the spectral domain with self-attention for speaker embedding
Ye et al. Stealthy backdoor attack against speaker recognition using phase-injection hidden trigger
Ye et al. Fake the real: Backdoor attack on deep speech classification via voice conversion
Dörr et al. Towards resistant audio adversarial examples
Dixit et al. Review of audio deepfake detection techniques: Issues and prospects
Liu et al. Detecting adversarial audio via activation quantization error
Nelus et al. Privacy-preserving audio classification using variational information feature extraction