TW202135047A - 電子裝置、方法和電腦程式 - Google Patents

電子裝置、方法和電腦程式 Download PDF

Info

Publication number
TW202135047A
TW202135047A TW109135931A TW109135931A TW202135047A TW 202135047 A TW202135047 A TW 202135047A TW 109135931 A TW109135931 A TW 109135931A TW 109135931 A TW109135931 A TW 109135931A TW 202135047 A TW202135047 A TW 202135047A
Authority
TW
Taiwan
Prior art keywords
equalization
audio
parameter
electronic device
neural network
Prior art date
Application number
TW109135931A
Other languages
English (en)
Inventor
史帝芬 烏力曲
麥可 艾涅克
Original Assignee
日商索尼股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商索尼股份有限公司 filed Critical 日商索尼股份有限公司
Publication of TW202135047A publication Critical patent/TW202135047A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

一種電子裝置,包括電路,被配置為:將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;以及基於從深度神經網路獲得的等化參數對音訊混合訊號進行音訊等化,以得到分離的源。

Description

電子裝置、方法和電腦程式
本公開總體上關於音訊處理領域,尤其關於用於音樂源分離的裝置,方法和電腦程式。
通常,音樂源分離(MSS)關於將音樂分離成單獨的樂器軌道。
傳統上,通過對音訊訊號應用短時傅立葉變換(STFT)在頻域中執行音樂源分離。例如,Uhlich,Stefan&Giron,Franck和Mitsufuji,Yuki在2015年的“基於深度神經網路從音樂中提取的樂器(Deep neural network based instrument extraction from music)”,2015, 10.1109 /ICASSP.2015.7178348中公開使用深度神經網路從音樂中提取樂器。更進一步,Uhlich,Stefan&Porcu,Marcello&Giron,Franck&Enenkl,Michael&Kemp,Thomas&Takahashi,Naoya&Mitsufuji,Yuki在“通過資料增強和網路融合改善基於深度神經網路的音樂源分離(Improving music source separation based on deep neural networks through data augmentation and network blending)”中,2017,10.1109/ICASSP.2017.7952158描述用於此任務的兩種不同的深度神經網路架構,即前饋(feed-forward)和遞迴(recurrent)。
上述方法依賴於STFT的逐塊(block-wise)處理,這會導致延遲。例如,根據上述方法選擇的STFT幀大小的典型值為2048個樣本,對應於演算法取樣率為44.1kHz時2048/44100 s = 46.44ms。
本文描述依賴於深度神經網路(DNN)的音樂源分離的時域方法。例如,Stoller, Daniel et al.“Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation”。ISMIR(2018)研究時域中的端到端源分離,這可以對相位資訊進行建模並避免固定的光譜變換。此外,Venkataramani,Shrikant和Smaragdis在“使用自適應前端進行端到端源分離(End-to-end Source Separation with Adaptive Front-Ends)”, 2017, 巴黎,提出一種自動編碼器神經網路,其可以等效於短時前端變換。但是,這些方法需要很高的計算複雜度。
儘管存在用於音樂源分離處理的技術,但是通常期望改進用於音樂源分離的裝置和方法。
根據第一態樣,本公開提供一種電子裝置,其包括電路,電路被配置為將包括多個源的音訊混合訊號輸入到深度神經網路以獲取等化(equalization)參數,並基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
根據第二態樣,本公開提供一種方法,包括將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數,且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
根據第三態樣,本公開提供一種包括指令的電腦程式,所述指令在處理器上執行時使所述處理器將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數,且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
在從屬申請專利範圍,以下描述和附圖中闡述其他態樣。
在參考圖1至圖9對實施例進行詳細描述之前,進行一般性說明。
實施例公開一種電子裝置,其包括電路,電路被配置為將包括多個源的音訊混合訊號輸入到深度神經網路以獲取等化參數,且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
電子裝置的電路可以包括處理器(CPU),記憶體(RAM,ROM等),記憶體及/或儲存,介面,音訊接收器,升混(upmixing)系統等。電路可以包括或可以與之連接:輸入裝置(滑鼠,鍵盤,相機等),輸出裝置(顯示器(例如液晶,(有機)發光二極體等)),喇叭等,(無線)介面等,例如所熟知的電子裝置(電腦,智慧型手機等)。該電路也可以是單個裝置,多個裝置,晶片組等。此外,該電路可以實現深度神經網路(DNN),且可以對所接收的音訊輸入訊號執行訊號分析以估計至少一個最佳訊號參數。
音訊混合訊號可以是任何類型的音訊訊號,例如包括多個聲源的聲音訊號等。其可以是類比訊號,數位訊號的形式,其可以源自錄音機,光碟,數位視訊碟等,也可以是資料檔案,例如wave檔案,mp3檔案或等等,且本公開不限於輸入音訊內容的特定格式。輸入音訊內容可以例如是具有第一通道輸入音訊訊號和第二通道輸入音訊訊號的立體聲音訊訊號,而本公開不限於具有兩個音訊通道的輸入音訊內容。
等化參數可以是最佳訊號參數,例如與音訊混合訊號相關的任何種類的參數,等等。最佳訊號參數可以是例如增益參數,頻寬參數,頻率參數等。可以通過使用訓練的深度神經網路(DNN),例如訓練的遞迴神經網路(RNN),長期短期記憶網路(LSTM),閘控遞迴單元(GRU),卷積神經網路(CNN)等(經過訓練以分析音訊混合輸入訊號),以估計最佳訊號參數。深度神經網路可以例如在軟體中,或者在硬體中實現,如透過以下實施例中所述的現場可程式化閘陣列(FPGA)等,使用例如針對DNN的特定實現而定制的特殊應用積體電路(ASIC)以實現。
執行音訊等化可以包括執行使用來自訓練的神經網路估計的最優訊號參數的音訊混合輸入訊號的濾波。等化過程可以是時域過程,也可以是目標樂器的估計過程,即混合訊號的分離的源,例如,以估計人聲,鼓或低音等。可以使用諸如以下實施例中描述的演算法以實現音訊等化處理。
執行音訊等化可以例如透過圖形等化器,透過參數等化器等以實施。
在一些實施例中,可以訓練深度神經網路以估計用於音訊源分離的最佳參數。最佳參數可以是等化參數等,其可以通過分析音訊混合訊號以估計,且可以估計期望的等化設置,例如,估計最佳預定參數。訊號分析可以例如由訓練的深度神經網路或訓練的遞迴神經網路(諸如長期短期記憶模型)執行。
在一些實施例中,分離的源可以是人聲。分離的源也可以是任何其他種類的分離的源,例如鼓,低音等。分離的源可以是分離的源的混合物,例如,在一些實施例中,分離的源可以是具有抑制的人聲的混合物。
在一些實施例中,執行音訊等化可以包括執行參數等化,或者可以包括執行圖形等化等。例如,可以使用諸如在以下實施例中描述的演算法以實現執行參數等化或執行圖形等化。可以通過具有平行結構或級聯(cascade)結構的圖形等化器或參數等化器以執行音訊等化。對於具有平行結構的圖形音訊等化器,足以控制增益參數。在級聯結構中,增益參數會影響所有濾波器係數,因此對於級聯結構,可能需要在每次增益變化時重新計算所有係數。
在一些實施例中,至少一個估計的最佳訊號參數可以是增益參數,或頻率參數,或頻寬參數等。
在一些實施例中,執行參數等化可以包括基於預定義的固定參數,例如峰值等化,對接收到的音訊輸入訊號執行帶通濾波。例如,可以使用諸如在下面的實施例中描述的演算法以實現對接收的音訊輸入訊號執行帶通濾波。可選地,帶通濾波可以是例如帶峰濾波或擱架式濾波(shelving filtering)。而且,應用程式介面(API)可以允許設置濾波器組中的頻帶數量。
在一些實施例中,執行參數等化可以進一步包括將接收到的音訊輸入訊號分佈在多個帶通濾波器上以獲得多個帶通濾波的訊號。
在一些實施例中,執行參數等化可以進一步包括將每個帶通濾波的訊號與對應的增益參數相乘以獲得多個放大的訊號。
在一些實施例中,執行圖形等化可以包括執行帶阻濾波(bandnotch filtering)或帶峰濾波(bandpeak filtering)或擱架式濾波(shelving filtering)等。
一些實施例關於一種方法,該方法可以由本文所述的電子裝置或任何其他電子裝置,處理器或其他計算裝置等執行。該方法包括將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數,並基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
一些實施例關於一種電腦程式,其包括指令,這些指令在處理器上執行時使處理器將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數,並基於從深度神經網路獲得的等化參數,對該音訊混合訊號執行音訊等化,以獲得分離的源。
現在參考附圖描述實施例。
圖1示出使用深度神經網路2(DNN)的時域音樂源分離(MSS)的過程,該深度神經網路2控制參數等化器3(EQ)。混合訊號
Figure 02_image009
輸入到DNN 2。混合訊號
Figure 02_image009
是時域立體聲音訊訊號,例如從音訊介面獲得,且包含多個音訊源(也稱為“樂器”),例如鼓,低音,人聲等。訓練深度神經網路2以估計用於控制參數等化器3(EQ)的最佳參數,以從混合訊號
Figure 02_image009
(例如人聲)中分離出特定的目標樂器。DNN 2分析混合訊號
Figure 02_image009
並估計用於執行混合訊號
Figure 02_image009
的參數等化的預定等化參數的最佳值,即增益參數
Figure 02_image001
(也稱為“增益”),頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
。在此,
Figure 02_image011
代表DNN 2的權重,因此代表來自網路配置以及輸入混合的等化參數的依賴性。索引
Figure 02_image013
代表參數等化器3(EQ)的特定濾波器,如下面關於圖2更詳細地描述。
在傳輸到DNN 2的同時,混合訊號
Figure 02_image009
也傳輸到參數等化器3。參數等化器3基於從DNN 2獲得獲得的等化參數
Figure 02_image001
Figure 02_image003
Figure 02_image005
對混合訊號
Figure 02_image009
進行濾波,以獲得目標樂器
Figure 02_image015
(以下稱為“分離的源”)的估計值,其是立體聲音訊訊號,反應訓練DNN從混合訊號
Figure 02_image009
中提取出來的樂器,例如人聲。
圖1中的DNN 2可以是例如遞迴的長期短期記憶(LSTM)模型,閘控遞迴單元(GRU),卷積神經網路(CNN)或任何其他類型的神經網路,可為每個輸入樣本或經過處理的樣本方塊產生輸出。除通過等化器3改變幅度之外,還可以使用群延遲(group-delay)等化器,該群延遲等化器改變特定頻帶的群延遲。群延遲是濾波器對窄帶訊號的訊號延遲。例如,群延遲等化可用於減少訊號的混響(reverberation)/為訊號增加混響。
圖2更詳細地示出由圖1的參數等化器3執行的過程。參數等化器3包括多個帶通濾波器31-1至31-N,在此為平行雙二階(biquad)濾波器(或“雙二次(biquadratic)”濾波器)。混合訊號
Figure 02_image009
被發送到多個帶通濾波器31-1至31-N的每一個。帶通濾波器31-1至31-N中的每一個使混合訊號
Figure 02_image009
的特定頻率通過各自的頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
(其中索引
Figure 02_image017
表示帶通濾波器31-1至31-N的集合中的特定帶通濾波器)定義。從多個平行帶通濾波器31獲得的每個帶通濾波訊號,根據相應的增益參數
Figure 02_image001
被放大以獲得放大訊號。混合器33混合多個放大的訊號以獲得目標樂器的估計
Figure 02_image015
。因此,帶通濾波器31-1至31-N在DNN(圖1中的2)的控制下對混合訊號
Figure 02_image009
進行濾波,以便隔離與所需目標樂器相匹配的預定頻率範圍,此處為人聲。
在圖2中,參數等化器3包括多個帶通濾波器。可選地,參數等化器可以通過例如帶阻,帶峰,擱架式濾波器的級聯結構以實現。
圖3說明人工神經網路(這裡是訓練的DNN)的過程,其為每個參數濾波器i估計增益參數
Figure 02_image001
,頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
,用於執行混合音訊訊號的參數等化,如圖1所示。
在連續時間輸入訊號
Figure 02_image019
和輸出
Figure 02_image021
的情況下,傳遞函數(transfer function)
Figure 02_image023
是輸入的拉普拉斯轉換
Figure 02_image025
線性映射至輸出的拉普拉斯轉換
Figure 02_image027
,即,
Figure 02_image029
數位雙二階濾波器(或離散時間系統)的傳遞函數在z域中表示,而如上所述,連續時間系統的傳遞函數在s域中表示。因此,使用以下變換公式將輸入訊號和輸出之間的關係從s域轉換為z域:
Figure 02_image031
(公式 0 ) 其中T是取樣週期,1/T是取樣頻率。
如以上圖2中描述的實施例的訊號處理中所使用的數位雙二階濾波器(或“雙二次”濾波器)是包含兩個極點和兩個零點的二階遞迴線性濾波器。雙二階態樣是指濾波器的傳遞函數是兩個二次函數之比的事實。該雙二階傳遞函數由下式給出:
Figure 02_image033
(公式 1 ) 其中[
Figure 02_image035
,
Figure 02_image037
,
Figure 02_image039
,
Figure 02_image041
,
Figure 02_image043
,
Figure 02_image045
]是數位雙二階濾波器的連續係數。
連續係數[
Figure 02_image035
,
Figure 02_image037
,
Figure 02_image039
,
Figure 02_image041
,
Figure 02_image043
,
Figure 02_image045
]與用於執行混合音訊訊號的參數等化的參數之間的相關性,即增益參數
Figure 02_image001
,頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
在下面針對一組雙二階濾波器的情況給出。
公式1可以表示為:
Figure 02_image047
(公式 2 )
從公式2可以看出,
Figure 02_image041
可以被正規化為1,從而有效地控制傳遞函數特性的五個參數[
Figure 02_image035
,
Figure 02_image037
,
Figure 02_image039
,
Figure 02_image043
,
Figure 02_image045
]。
在圖2的實施例中,混合訊號
Figure 02_image009
被發送到多個平行雙二階31-1至31-N,每個雙二階濾波器由各自的一組濾波器參數[
Figure 02_image049
,
Figure 02_image051
,
Figure 02_image053
,
Figure 02_image055
,
Figure 02_image057
,
Figure 02_image059
]定義,其中索引
Figure 02_image013
表示特定的雙二階濾波器。DNN被配置為控制每個雙二階的頻寬參數
Figure 02_image003
和中心頻率
Figure 02_image005
,且DNN進一步控制各自的參數
Figure 02_image001
通常,引入中間參數
Figure 02_image061
,其連接連續係數與參數,用於執行參數等化。中間參數
Figure 02_image061
的數學函數由下式給出:
Figure 02_image063
(公式3 ) 其中
Figure 02_image065
,其中
Figure 02_image005
是中心頻率或轉角頻率(corner frequency)或擱架中點頻率(shelf midpoint frequency),取決於使用哪種濾波器,
Figure 02_image067
是預定義的取樣頻率,
Figure 02_image003
是頻寬參數,表示為例如倍頻(octave)。例如,通常將三分之一倍頻帶通濾波器用於圖形等化器。
在上述公式3中,頻率
Figure 02_image005
被稱為最低頻帶和最高頻帶的“擱架中點頻率”,通常使用擱架式濾波器。在使用帶通濾波器的情況下,對於所有其他濾波器,將頻率
Figure 02_image005
稱為“中心頻率”。
特別地,從S域中的二階帶通濾波器的傳遞函數開始
Figure 02_image069
(公式4 ) 其中
Figure 02_image071
Figure 02_image073
分別是第i個帶通濾波器的中心角頻率,選擇性和增益。從(Eq. 0)使用類比-數位濾波器變換,我們獲得一個二階數位濾波器,即(Eq. 2)中的雙二階濾波器,其中所述濾波器係數由下式給出
Figure 02_image075
Figure 02_image077
Figure 02_image079
Figure 02_image081
Figure 02_image083
Figure 02_image085
Figure 02_image087
表示取樣頻率。為計算雙二階濾波器係數,我們需要
Figure 02_image071
Figure 02_image073
。在參數EQ的情況下,它們由DNN通過
Figure 02_image005
,
Figure 02_image003
Figure 02_image001
的形式直接提供,且正如我們有的關係
Figure 02_image089
Figure 02_image091
Figure 02_image093
在圖形EQ的情況下,
Figure 02_image095
Figure 02_image097
是固定的,DNN僅通過以下方式控制濾波器增益
Figure 02_image073
Figure 02_image093
最後,應注意,對於帶通/低通/高通濾波器,進一步可以設計增益為
Figure 02_image099
的固定濾波器,即濾波器係數[
Figure 02_image049
,
Figure 02_image051
,
Figure 02_image053
,
Figure 02_image055
,
Figure 02_image057
,
Figure 02_image059
]是固定的並預先計算,其中 我們只將濾波器的輸出乘以增益,如圖2所示。
圖4示出人工神經網路的過程的另一實施例,此處是訓練的DNN,其用於控制混合音訊訊號的等化以執行音樂源分離。根據該實施例,DNN僅控制等化器的增益參數
Figure 02_image007
,以執行混合音訊訊號的圖形等化。即,根據本實施例的用作“圖形”等化器的等化器,包括多個等化器單元i,其增益
Figure 02_image001
由DNN(其中索引
Figure 02_image017
表示等化器單元組中的特定等化器單元)控制。例如,圖形等化器的等化器單元i可以實現為雙二階,其對混合訊號進行濾波,其中增益參數
Figure 02_image001
由DNN控制,其中頻寬和頻率參數
Figure 02_image003
和中心頻率
Figure 02_image005
是預定義的固定參數,可以根據設計選擇進行選擇。例如,大多數圖形等化器具有7到31個頻帶。每個頻帶的中心頻率是固定的。專業擴聲圖形等化器通常有31個頻帶,每個頻帶的中心頻率與相鄰頻帶的中心頻率相距1/3的倍頻(octave),因此三個頻帶(前面板上的三個滑塊(slider))覆蓋一倍頻的組合頻寬。當需要較低的精度時,通常使用每倍頻具有一半頻帶的圖形等化器。如在圖4的實施例中一樣,圖形等化器是由DNN而不是由人控制的,然而,技術人員必須依靠這種通用的等化器設計,但是可以根據他的需要選擇預定義的中心頻率和頻寬。
圖1至圖4的實施例包括:上述的圖1至圖4示出時域音樂源分離(MSS)的過程,其使用控制參數等化器(參見圖1中的引證3及圖3)或圖形等化器(見圖4)的深度神經網路(DNN)(參見圖1中的引證2),以執行音樂源分離。
圖5更詳細地描述DNN的實施例,該DNN被配置為控制如上面的圖1至圖4中所示的音樂源分離過程,DNN被實現為長期短期記憶體(LSTM)。長期短期記憶體(LSTM)是在深度學習領域中使用的人工遞迴神經網路(RNN)架構。RNN是一種人工神經網路,旨在識別資料序列中的模式,例如從感測器發出的數字時間序列資料,例如通過取樣音訊訊號獲得的音訊樣本。通過考慮時間和順序,RNN演算法具有時間維度。與標準前饋神經網路不同,LSTM具有反饋連接,可以學習長期依賴關係。
LSTM具有刪除資訊或將資訊添加到所謂的單元狀態的能力,該狀態由稱為閘(gate)的結構調節。特別地,LSTM包括多個LSTM單元,其中典型的LSTM單元包括輸入閘(input gate),輸出閘(output gate),忘記閘(forget gate)和單元。單元狀態會記住任意時間間隔內的值,從而實現LSTM的長期記憶體態樣。這三個閘控制著進出單元的資訊串流。
更詳細地,在這種情況下被實現為長-短期記憶體(LSTM)的DNN,在樣本窗口上的時域中或在樣本的處理版本上工作,即特徵。例如,最後512樣本[x(n-511),…,x(n)]可用作DNN/LSTM的輸入向量。當使用圖形級聯等化器時,輸出是預測的增益參數(增益)。或者,在使用參數平行等化器的情況下,當前時間實例(不引入延遲)應使用的增益,頻寬和中心頻率是DNN/LSTM的輸出。此外,可以預測未來的增益,頻寬,頻率參數,從而可以使用更大的值而無需大的等待時間(latency)。
然後,如上所述,將DNN/LSTM的輸出用於計算濾波器係數或增益。特別是在使用參數平行等化器的情況下,DNN/LSTM的輸出用於計算濾波器係數並調整增益。此外,為避免任何音樂噪音,對每個512個樣本計算一次的不同濾波器係數之間,平滑過渡進行線性內插。
在該實施例中,執行混合訊號
Figure 02_image009
的預處理。混合訊號
Figure 02_image009
可以是原始音訊混合訊號資料,其具有任意取樣率,例如,用於高解析度(High-Resolution, HiRes)音訊的44.1 kHz,48 kHz,96 kHz,2.8224 MHz(DSD)等。
作為準備步驟,加窗(windowing)處理50被應用於混合訊號
Figure 02_image009
以獲得音訊窗口
Figure 02_image101
,
Figure 02_image103
,...,
Figure 02_image105
的序列。例如,可以基於128音訊樣本的窗口大小和64音訊樣本的躍繼距離(hopping distance)以獲得音訊窗口
Figure 02_image101
,
Figure 02_image103
,...,
Figure 02_image105
的序列。音訊窗口
Figure 02_image101
,
Figure 02_image103
,...,
Figure 02_image105
的序列輸入到LSTM 51,以獲得每個
Figure 02_image107
的輸出
Figure 02_image109
,其中t = 1,2,…,T。LSTM迭代的音訊窗口
Figure 02_image101
,
Figure 02_image103
,...,
Figure 02_image105
的序列的長度可能例如為
Figure 02_image111
音訊窗口。LSTM 51的輸出
Figure 02_image113
被饋送到映射單元52,以在每個時間步t計算預定參數的最佳值,基於LSTM 51的輸出,即增益參數
Figure 02_image001
,頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
如已經提到的,可以基於128音訊樣本的窗口大小和64音訊樣本的躍繼距離,即百分之五十(50%)的重疊(這是典型值)以獲得音訊窗口的序列。替代地,代替在輸入域中重疊且通過網路執行更多的前向傳遞(forward pass),可以使用更高的躍繼距離且可以執行濾波器係數的線性內插。因此,可以實現更小的時間解析度,包括更少的前向傳遞以及因此的計算。
圖6更詳細地示出由圖5的LSTM 51執行的過程。混合訊號
Figure 02_image009
的窗口被輸入到LSTM 51。
音訊窗口構成T個特徵向量
Figure 02_image101
,
Figure 02_image103
, …,
Figure 02_image105
的序列,其被迭代地輸入到LSTM。LSTM迭代輸入特徵向量
Figure 02_image101
,
Figure 02_image103
, …,
Figure 02_image105
且計算一系列隱藏狀態向量h 1 ,h 2 , … ,h T 。在時間步驟t,其中1<t<T,h T 計算為
Figure 02_image115
其中H表示隱藏層功能。例如,可以在下面所述應用閘控遞迴單位(GRU)單元:Huy Phan, et al in „Improved Audio Scene Classification Based on Label-Tree Embeddings and Convolutional Neural Networks IEEE/ACM Transactions On Audio, Speech, And Language Processing, 2017。
多個RNN隱藏層相互堆疊,即從第1層到第L層。假設每個層都包含多個遞迴單元(如上面的圖5所述),且深度RNN總共具有L層,則較低層的隱藏狀態序列被視為較高層的輸入序列。因此,隱藏狀態序列由下式給出
Figure 02_image117
其中1<
Figure 02_image119
<L,特別地,第一層
Figure 02_image121
換言之,每層的每個遞迴單元,這裡是第1層到第L層,接受前一個單元的隱藏狀態,並產生輸出以及它自己的隱藏狀態。然後根據每個
Figure 02_image123
的最後一層
Figure 02_image125
的隱藏狀態
Figure 02_image127
判定深度RNN的輸出
Figure 02_image109
Figure 02_image129
其中
Figure 02_image131
表示LSTM的權重矩陣,
Figure 02_image133
表示偏移向量,
Figure 02_image125
是LSTM 51的總層數。
如上所述,DNN/LSTM的輸出可以是所有雙二階的三個參數。在訓練期間,可以將DNN輸出和最佳濾波器值(目標)之間的均方誤差最小化。
網路輸出
Figure 02_image109
隨後被映射到等化參數的最佳值(參見圖5中的計算單元52),即增益參數
Figure 02_image001
,頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
如上所述,網路輸出
Figure 02_image109
是每個音訊窗口
Figure 02_image101
, ...,
Figure 02_image105
的第L層的輸出,其被輸入到LSTM 51,從而減少演算法等待時間。在這種情況下,可以在任意時間步驟t處停止該過程,並使用輸出
Figure 02_image109
直到該時間步驟以獲得等化參數。儘管這可能會導致等化參數結果不準確。
可替代地,將有可能使用寬窗口以輸入整首歌曲,將輸出獲得至
Figure 02_image109
,然後獲得等化參數。
圖7示出可視化用於從包括多個源(或樂器)的混合訊號中分離特定源的方法的流程圖。在70處,經由音訊介面接收包括多個源的混合訊號(參見圖1中的
Figure 02_image009
)。在71處,DNN(圖1中的2)對混合訊號進行操作,以估計用於控制參數等化器的最佳參數(見圖1)。在72處,基於由DNN在71處獲得的等化參數,對混合訊號執行參數等化,以獲得目標源
Figure 02_image015
的估計,該目標源是等化訊號,這裡是例如人聲。
圖8示出流程圖,其可視化用於訓練深度遞迴神經網路(即LSTM)以估計預定等化參數的方法。在80處,分離的源的多個聲音訊號,例如,人聲和樂器,即人聲,低音,鼓等,是獨立記錄的,或者是從它們所儲存的資料庫中獨立獲取的,從而獲得混合的真值(groundtruth)分離。在81處,通過混合在80處獲得的分離的源的聲音訊號,或者直接通過混合物(例如,儲存在資料庫中的歌曲)以混合諸如歌曲(見圖1)的聲音訊號的混合。在82處,基於所獲得的混合和真值分離的源以產生訓練資料集。在83處,使用訓練資料集訓練人工神經網路,這裡執行DNN/LSTM。使用任何DNN訓練過程(例如,隨機梯度下降(SGD)),我們可以學習DNN/LSTM的最佳權重,以使所選損失函數最小化。例如,損失函數可以是圖1中電流輸出
Figure 02_image135
和真值
Figure 02_image137
之間的均方誤差(MSE)。
圖9示意性地描述電子裝置的實施例,該電子裝置可以實現如上所述的基於參數/圖形EQ以估計目標樂器的過程。電子裝置700包括CPU 701作為處理器。電子裝置700進一步包括連接到處理器701的麥克風711,喇叭710和卷積神經網路單元708。處理器701可以例如實現參數化及/或圖形EQ,其實現關於以圖1和圖4更詳細描述的過程。
RNN單元可以例如是硬體上的人工神經網路,例如GPU或專門用於實現人工神經網路(例如,圖1中的LSTM 2)的任何其他硬件上的神經網路。喇叭(loudspeaker)710由一或多個喇叭組成,這些喇叭分佈在預定義空間上並配置為呈現音訊。電子裝置700進一步包括連接到處理器701的音訊介面706。音訊介面706用作輸入介面,使用者能夠通過該輸入介面輸入音訊訊號。此外,電子裝置700進一步包括連接到處理器701的使用者介面709。該使用者介面709用作人機介面,且使得管理者與電子系統之間能夠進行對話。例如,管理者可以使用該使用者介面709對系統進行配置。電子裝置701進一步包括乙太網介面707,藍牙介面704和WLAN介面705。這些單元704、705用作用於與外部裝置進行資料通信的I/O介面。例如,具有乙太網,WLAN或藍牙連接的其他喇叭,麥克風和視訊相機可以通過這些介面707、704和705耦接到處理器701。
電子系統700進一步包括資料儲存702和資料記憶體703(在此為RAM)。資料記憶體703被配置為臨時儲存或快取資料或電腦指令以供處理器701處理。資料儲存702被配置為長期記憶體,例如用於記錄從麥克風710獲得並提供給CNN單元708或從CNN單元708檢索的感測器資料。資料儲存702進一步可以存儲代表音訊訊息的音訊資料,公共廣播系統可以將這些音訊資料傳輸給在預定空間中移動的人們。
應當注意,以上描述僅是示例配置。可以使用附加或其他感測器,儲存裝置,介面等以實現替代配置。
應該認識到,實施例以方法步驟的示例性順序描述方法。但是,方法步驟的特定順序僅出於說明目的而給出,不應解釋為具有約束力。
應當注意,僅出於說明目的將圖9的電子系統劃分為單元,且本公開不限於特定單元中的功能的任何特定劃分。例如,電路的至少一部分可以由相應的程式化處理器,現場可程式化閘陣列(FPGA)等實施方式。
如果沒有另外說明,則可以將本說明書中描述的以及所附申請專利範圍中要求保護的所有單元和實體實現為邏輯,例如在晶片上,且如果沒有另外說明,則可以由軟件實現將這些單元和實體提供的功能實現為積體電路。
就上述本公開的實施例而言,至少部分地使用軟體控制的資料處理裝置來實現,將理解的是,電腦程式提供這種軟體控制及傳輸,儲存或其他媒體,設想提供一種電腦程式作為本公開的態樣。
注意,本技術進一步可以如下配置。
(1)一種電子裝置,包括電路,配置以: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從深度神經網路獲得的等化參數,對音訊混合訊號執行音訊等化,以獲得分離的源。
(2)根據(1)的電子裝置,其中,深度神經網路已被訓練以估計用於音訊源分離的最佳參數。
(3)根據(1)或(2)所述的電子裝置,其中,所述分離的源是人聲。
(4)根據(1)〜(3)任一者所述的電子裝置,其中,分離的源是具有抑制人聲的混合。
(5)根據(1)〜(4)任一者所述的電子裝置,其中,執行音訊等化包括執行參數等化。
(6)根據(1)〜(5)任一者所述的電子裝置,其中,執行音訊等化包括執行圖形等化。
(7)根據(1)〜(6)任一者所述的電子裝置,其中,最佳訊號參數包括增益參數,及/或頻率參數,及/或頻寬參數。
(8)根據(5)所述的電子裝置,其中,執行參數等化包括基於等化參數對接收的音訊輸入訊號執行帶通濾波。
(9)根據(5)所述的電子裝置,其中,執行參數等化進一步包括:在多個帶通濾波器上分配接收的音訊輸入訊號,以獲得多個帶通濾波的訊號。
(10)根據(9)所述的電子裝置,其中,執行參數等化進一步包括將每個帶通濾波的訊號與相應的增益參數相乘以獲得多個放大訊號。
(11)根據(6)所述的電子裝置,其中,執行圖形等化包括執行帶阻/帶峰/擱架式濾波。
(12)一種方法,包括: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
(13)一種電腦程式,包括指令,所述指令在處理器上執行時使所述處理器以: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化,以獲得分離的源。
2:深度神經網路 3:參數等化器 31-1:帶通濾波器 31-2:帶通濾波器 31-N:帶通濾波器 33:混合器 50:加窗處理 51:LSTM 52:映射單元 O1:輸出 O2:輸出 OT:輸出 X1:音訊窗口 X2:音訊窗口 XT:音訊窗口 h1:隱藏狀態向量 h2:隱藏狀態向量 hT:隱藏狀態向量 70:步驟 71:步驟 72:步驟 80:步驟 81:步驟 82:步驟 83:步驟 700:電子裝置 701:處理器 702:資料儲存 703:資料記憶體 704:藍牙介面 705:WLAN介面 706:音訊介面 707:乙太網介面 708:卷積神經網路單元 709:使用者介面 710:喇叭 711:麥克風
參照附圖通過示例的方式說明實施例,其中:
[圖1]示出使用深度神經網路2(DNN)的時域音樂源分離(MSS)的過程,該深度神經網路2控制參數等化器3(EQ)以執行音樂源分離;
[圖2]更詳細地示出由圖1的參數等化器3(EQ)執行的處理;
[圖3]說明人工神經網路(這裡是訓練的DNN)的過程,其為每個參數濾波器i估計增益參數
Figure 02_image001
,頻寬參數
Figure 02_image003
和頻率參數
Figure 02_image005
,用於執行混合音訊訊號的參數等化;
[圖4]說明人工神經網路(這裡是訓練的DNN)的過程,該過程用於估計增益參數
Figure 02_image007
,以執行混合音訊訊號的圖形等化;
[圖5]描述被配置為控制音樂源分離過程的DNN的實施例,該DNN由長期短期記憶體(Long-Short Term Memory, LSTM)層實現;
[圖6]更詳細地示出由圖5的LSTM 51執行的過程;
[圖7]示出可視化用於從包括多個源(或樂器)的混合訊號中分離特定源的方法的流程圖;
[圖8]示出流程圖,該流程圖可視化一種用於訓練深度遞迴神經網路(即LSTM)以估計預定等化參數的方法;及
[圖9]示意性地描述可以實現基於參數/圖形EQ估計目標樂器的過程的電子裝置的實施例。
2:深度神經網路
3:參數等化器

Claims (13)

  1. 一種電子裝置,包括電路,配置以: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從該深度神經網路獲得的該等化參數,對該音訊混合訊號執行音訊等化,以獲得分離的源。
  2. 根據請求項1所述的電子裝置,其中,該深度神經網路已被訓練以估計用於音訊源分離的最佳參數。
  3. 根據請求項1所述的電子裝置,其中,該分離的源是人聲。
  4. 根據請求項1所述的電子裝置,其中,該分離的源是具有抑制人聲的混合。
  5. 根據請求項1所述的電子裝置,其中,執行音訊等化包括執行參數等化。
  6. 根據請求項1所述的電子裝置,其中,執行音訊等化包括執行圖形等化。
  7. 根據請求項1所述的電子裝置,其中,該最佳訊號參數包括增益參數,及/或頻率參數,及/或頻寬參數。
  8. 根據請求項5所述的電子裝置,其中,執行參數等化包括基於等化參數對該接收的音訊輸入訊號執行帶通濾波。
  9. 根據請求項5所述的電子裝置,其中,執行參數等化進一步包括:在多個帶通濾波器上分配該接收的音訊輸入訊號,以獲得多個帶通濾波的訊號。
  10. 根據請求項9所述的電子裝置,其中,執行參數等化進一步包括將每個帶通濾波的訊號與相應的增益參數相乘以獲得多個放大的訊號。
  11. 根據請求項6所述的電子裝置,其中,執行圖形等化包括執行帶阻/帶峰/擱架式濾波。
  12. 一種方法,包括: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從該深度神經網路獲得的該等化參數,對該音訊混合訊號執行音訊等化,以獲得分離的源。
  13. 一種包括指令的電腦程式,該指令在處理器上執行時使處理器: 將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數;及 根據從該深度神經網路獲得的該等化參數,對該音訊混合訊號執行音訊等化,以獲得分離的源。
TW109135931A 2019-10-21 2020-10-16 電子裝置、方法和電腦程式 TW202135047A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19204377.6 2019-10-21
EP19204377 2019-10-21

Publications (1)

Publication Number Publication Date
TW202135047A true TW202135047A (zh) 2021-09-16

Family

ID=68296285

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109135931A TW202135047A (zh) 2019-10-21 2020-10-16 電子裝置、方法和電腦程式

Country Status (3)

Country Link
JP (1) JP2021076831A (zh)
CN (1) CN112767964A (zh)
TW (1) TW202135047A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117616500A (zh) * 2021-06-29 2024-02-27 索尼集团公司 程序、信息处理方法、记录介质和信息处理装置
EP4373134A1 (en) * 2021-07-15 2024-05-22 Sony Group Corporation Information processing device, information processing method, and program
CN116074697B (zh) * 2023-04-03 2023-07-18 广州市车厘子电子科技有限公司 基于深度神经网络的车载音响均衡器补偿方法及系统

Also Published As

Publication number Publication date
JP2021076831A (ja) 2021-05-20
CN112767964A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
TW202135047A (zh) 電子裝置、方法和電腦程式
CN108269569B (zh) 语音识别方法和设备
US20210089967A1 (en) Data training in multi-sensor setups
CN104040888B (zh) 多速率滤波器系统
US10930298B2 (en) Multiple input multiple output (MIMO) audio signal processing for speech de-reverberation
EP2545552B1 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
US20120082322A1 (en) Sound scene manipulation
WO2009110578A1 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
Hawley et al. SignalTrain: Profiling audio compressors with deep neural networks
EP4371112A1 (en) Speech enhancement
Olvera et al. Foreground-background ambient sound scene separation
EP3883265A1 (en) Sound signal modelling based on recorded object sound
JP5153389B2 (ja) 音響信号処理装置
JP2022539867A (ja) 音声分離方法及び装置、電子機器
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN114863944B (zh) 一种低时延音频信号超定盲源分离方法及分离装置
EP2590324A1 (en) Numeric audio signal equalization
WO2023287782A1 (en) Data augmentation for speech enhancement
US20220076687A1 (en) Electronic device, method and computer program
JP4667791B2 (ja) ディジタルイコライザ装置,ディジタルイコライザプログラム
Roma et al. Remixing musical audio on the web using source separation
TWI831321B (zh) 音訊即時處理系統、音訊即時處理程式、及語音分析模型的訓練方法
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain