TW202135047A

TW202135047A - 電子裝置、方法和電腦程式

Info

Publication number: TW202135047A
Application number: TW109135931A
Authority: TW
Inventors: 史帝芬烏力曲; 麥可艾涅克
Original assignee: 日商索尼股份有限公司
Priority date: 2019-10-21
Filing date: 2020-10-16
Publication date: 2021-09-16
Also published as: CN112767964A; JP2021076831A

Abstract

一種電子裝置，包括電路，被配置為：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；以及基於從深度神經網路獲得的等化參數對音訊混合訊號進行音訊等化，以得到分離的源。

Description

電子裝置、方法和電腦程式

本公開總體上關於音訊處理領域，尤其關於用於音樂源分離的裝置，方法和電腦程式。

通常，音樂源分離(MSS)關於將音樂分離成單獨的樂器軌道。

傳統上，通過對音訊訊號應用短時傅立葉變換(STFT)在頻域中執行音樂源分離。例如，Uhlich，Stefan＆Giron，Franck和Mitsufuji，Yuki在2015年的“基於深度神經網路從音樂中提取的樂器(Deep neural network based instrument extraction from music)”，2015, 10.1109 /ICASSP.2015.7178348中公開使用深度神經網路從音樂中提取樂器。更進一步，Uhlich，Stefan＆Porcu，Marcello＆Giron，Franck＆Enenkl，Michael＆Kemp，Thomas＆Takahashi，Naoya＆Mitsufuji，Yuki在“通過資料增強和網路融合改善基於深度神經網路的音樂源分離(Improving music source separation based on deep neural networks through data augmentation and network blending)”中，2017，10.1109/ICASSP.2017.7952158描述用於此任務的兩種不同的深度神經網路架構，即前饋(feed-forward)和遞迴(recurrent)。

上述方法依賴於STFT的逐塊(block-wise)處理，這會導致延遲。例如，根據上述方法選擇的STFT幀大小的典型值為2048個樣本，對應於演算法取樣率為44.1kHz時2048/44100 s = 46.44ms。

本文描述依賴於深度神經網路(DNN)的音樂源分離的時域方法。例如，Stoller, Daniel et al.“Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation”。ISMIR(2018)研究時域中的端到端源分離，這可以對相位資訊進行建模並避免固定的光譜變換。此外，Venkataramani，Shrikant和Smaragdis在“使用自適應前端進行端到端源分離(End-to-end Source Separation with Adaptive Front-Ends)”, 2017, 巴黎，提出一種自動編碼器神經網路，其可以等效於短時前端變換。但是，這些方法需要很高的計算複雜度。

儘管存在用於音樂源分離處理的技術，但是通常期望改進用於音樂源分離的裝置和方法。

根據第一態樣，本公開提供一種電子裝置，其包括電路，電路被配置為將包括多個源的音訊混合訊號輸入到深度神經網路以獲取等化(equalization)參數，並基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

根據第二態樣，本公開提供一種方法，包括將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數，且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

根據第三態樣，本公開提供一種包括指令的電腦程式，所述指令在處理器上執行時使所述處理器將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數，且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

在從屬申請專利範圍，以下描述和附圖中闡述其他態樣。

在參考圖1至圖9對實施例進行詳細描述之前，進行一般性說明。

實施例公開一種電子裝置，其包括電路，電路被配置為將包括多個源的音訊混合訊號輸入到深度神經網路以獲取等化參數，且基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

電子裝置的電路可以包括處理器(CPU)，記憶體(RAM，ROM等)，記憶體及/或儲存，介面，音訊接收器，升混(upmixing)系統等。電路可以包括或可以與之連接：輸入裝置(滑鼠，鍵盤，相機等)，輸出裝置(顯示器(例如液晶，(有機)發光二極體等))，喇叭等，(無線)介面等，例如所熟知的電子裝置(電腦，智慧型手機等)。該電路也可以是單個裝置，多個裝置，晶片組等。此外，該電路可以實現深度神經網路(DNN)，且可以對所接收的音訊輸入訊號執行訊號分析以估計至少一個最佳訊號參數。

音訊混合訊號可以是任何類型的音訊訊號，例如包括多個聲源的聲音訊號等。其可以是類比訊號，數位訊號的形式，其可以源自錄音機，光碟，數位視訊碟等，也可以是資料檔案，例如wave檔案，mp3檔案或等等，且本公開不限於輸入音訊內容的特定格式。輸入音訊內容可以例如是具有第一通道輸入音訊訊號和第二通道輸入音訊訊號的立體聲音訊訊號，而本公開不限於具有兩個音訊通道的輸入音訊內容。

等化參數可以是最佳訊號參數，例如與音訊混合訊號相關的任何種類的參數，等等。最佳訊號參數可以是例如增益參數，頻寬參數，頻率參數等。可以通過使用訓練的深度神經網路(DNN)，例如訓練的遞迴神經網路(RNN)，長期短期記憶網路(LSTM)，閘控遞迴單元(GRU)，卷積神經網路(CNN)等(經過訓練以分析音訊混合輸入訊號)，以估計最佳訊號參數。深度神經網路可以例如在軟體中，或者在硬體中實現，如透過以下實施例中所述的現場可程式化閘陣列(FPGA)等，使用例如針對DNN的特定實現而定制的特殊應用積體電路(ASIC)以實現。

執行音訊等化可以包括執行使用來自訓練的神經網路估計的最優訊號參數的音訊混合輸入訊號的濾波。等化過程可以是時域過程，也可以是目標樂器的估計過程，即混合訊號的分離的源，例如，以估計人聲，鼓或低音等。可以使用諸如以下實施例中描述的演算法以實現音訊等化處理。

執行音訊等化可以例如透過圖形等化器，透過參數等化器等以實施。

在一些實施例中，可以訓練深度神經網路以估計用於音訊源分離的最佳參數。最佳參數可以是等化參數等，其可以通過分析音訊混合訊號以估計，且可以估計期望的等化設置，例如，估計最佳預定參數。訊號分析可以例如由訓練的深度神經網路或訓練的遞迴神經網路(諸如長期短期記憶模型)執行。

在一些實施例中，分離的源可以是人聲。分離的源也可以是任何其他種類的分離的源，例如鼓，低音等。分離的源可以是分離的源的混合物，例如，在一些實施例中，分離的源可以是具有抑制的人聲的混合物。

在一些實施例中，執行音訊等化可以包括執行參數等化，或者可以包括執行圖形等化等。例如，可以使用諸如在以下實施例中描述的演算法以實現執行參數等化或執行圖形等化。可以通過具有平行結構或級聯(cascade)結構的圖形等化器或參數等化器以執行音訊等化。對於具有平行結構的圖形音訊等化器，足以控制增益參數。在級聯結構中，增益參數會影響所有濾波器係數，因此對於級聯結構，可能需要在每次增益變化時重新計算所有係數。

在一些實施例中，至少一個估計的最佳訊號參數可以是增益參數，或頻率參數，或頻寬參數等。

在一些實施例中，執行參數等化可以包括基於預定義的固定參數，例如峰值等化，對接收到的音訊輸入訊號執行帶通濾波。例如，可以使用諸如在下面的實施例中描述的演算法以實現對接收的音訊輸入訊號執行帶通濾波。可選地，帶通濾波可以是例如帶峰濾波或擱架式濾波(shelving filtering)。而且，應用程式介面(API)可以允許設置濾波器組中的頻帶數量。

在一些實施例中，執行參數等化可以進一步包括將接收到的音訊輸入訊號分佈在多個帶通濾波器上以獲得多個帶通濾波的訊號。

在一些實施例中，執行參數等化可以進一步包括將每個帶通濾波的訊號與對應的增益參數相乘以獲得多個放大的訊號。

在一些實施例中，執行圖形等化可以包括執行帶阻濾波(bandnotch filtering)或帶峰濾波(bandpeak filtering)或擱架式濾波(shelving filtering)等。

一些實施例關於一種方法，該方法可以由本文所述的電子裝置或任何其他電子裝置，處理器或其他計算裝置等執行。該方法包括將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數，並基於從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

一些實施例關於一種電腦程式，其包括指令，這些指令在處理器上執行時使處理器將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數，並基於從深度神經網路獲得的等化參數，對該音訊混合訊號執行音訊等化，以獲得分離的源。

現在參考附圖描述實施例。

圖1示出使用深度神經網路2(DNN)的時域音樂源分離(MSS)的過程，該深度神經網路2控制參數等化器3(EQ)。混合訊號

輸入到DNN 2。混合訊號

是時域立體聲音訊訊號，例如從音訊介面獲得，且包含多個音訊源(也稱為“樂器”)，例如鼓，低音，人聲等。訓練深度神經網路2以估計用於控制參數等化器3(EQ)的最佳參數，以從混合訊號

(例如人聲)中分離出特定的目標樂器。DNN 2分析混合訊號

並估計用於執行混合訊號

的參數等化的預定等化參數的最佳值，即增益參數

(也稱為“增益”)，頻寬參數

和頻率參數

。在此，

代表DNN 2的權重，因此代表來自網路配置以及輸入混合的等化參數的依賴性。索引

代表參數等化器3(EQ)的特定濾波器，如下面關於圖2更詳細地描述。

在傳輸到DNN 2的同時，混合訊號

也傳輸到參數等化器3。參數等化器3基於從DNN 2獲得獲得的等化參數

，

和

對混合訊號

進行濾波，以獲得目標樂器

(以下稱為“分離的源”)的估計值，其是立體聲音訊訊號，反應訓練DNN從混合訊號

中提取出來的樂器，例如人聲。

圖1中的DNN 2可以是例如遞迴的長期短期記憶(LSTM)模型，閘控遞迴單元(GRU)，卷積神經網路(CNN)或任何其他類型的神經網路，可為每個輸入樣本或經過處理的樣本方塊產生輸出。除通過等化器3改變幅度之外，還可以使用群延遲(group-delay)等化器，該群延遲等化器改變特定頻帶的群延遲。群延遲是濾波器對窄帶訊號的訊號延遲。例如，群延遲等化可用於減少訊號的混響(reverberation)/為訊號增加混響。

圖2更詳細地示出由圖1的參數等化器3執行的過程。參數等化器3包括多個帶通濾波器31-1至31-N，在此為平行雙二階(biquad)濾波器(或“雙二次(biquadratic)”濾波器)。混合訊號

被發送到多個帶通濾波器31-1至31-N的每一個。帶通濾波器31-1至31-N中的每一個使混合訊號

的特定頻率通過各自的頻寬參數

和頻率參數

(其中索引

表示帶通濾波器31-1至31-N的集合中的特定帶通濾波器)定義。從多個平行帶通濾波器31獲得的每個帶通濾波訊號，根據相應的增益參數

被放大以獲得放大訊號。混合器33混合多個放大的訊號以獲得目標樂器的估計

。因此，帶通濾波器31-1至31-N在DNN(圖1中的2)的控制下對混合訊號

進行濾波，以便隔離與所需目標樂器相匹配的預定頻率範圍，此處為人聲。

在圖2中，參數等化器3包括多個帶通濾波器。可選地，參數等化器可以通過例如帶阻，帶峰，擱架式濾波器的級聯結構以實現。

圖3說明人工神經網路(這裡是訓練的DNN)的過程，其為每個參數濾波器i估計增益參數

，頻寬參數

和頻率參數

，用於執行混合音訊訊號的參數等化，如圖1所示。

在連續時間輸入訊號

和輸出

的情況下，傳遞函數(transfer function)

是輸入的拉普拉斯轉換

線性映射至輸出的拉普拉斯轉換

，即，

。

數位雙二階濾波器(或離散時間系統)的傳遞函數在z域中表示，而如上所述，連續時間系統的傳遞函數在s域中表示。因此，使用以下變換公式將輸入訊號和輸出之間的關係從s域轉換為z域：

(公式 0 ) 其中T是取樣週期，1/T是取樣頻率。

如以上圖2中描述的實施例的訊號處理中所使用的數位雙二階濾波器(或“雙二次”濾波器)是包含兩個極點和兩個零點的二階遞迴線性濾波器。雙二階態樣是指濾波器的傳遞函數是兩個二次函數之比的事實。該雙二階傳遞函數由下式給出：

(公式 1 ) 其中[

,

,

,

,

,

]是數位雙二階濾波器的連續係數。

連續係數[

,

]與用於執行混合音訊訊號的參數等化的參數之間的相關性，即增益參數

，頻寬參數

和頻率參數

在下面針對一組雙二階濾波器的情況給出。

公式1可以表示為：

(公式 2 )

從公式2可以看出，

可以被正規化為1，從而有效地控制傳遞函數特性的五個參數[

,

]。

在圖2的實施例中，混合訊號

被發送到多個平行雙二階31-1至31-N，每個雙二階濾波器由各自的一組濾波器參數[

,

,

,

,

,

]定義，其中索引

表示特定的雙二階濾波器。DNN被配置為控制每個雙二階的頻寬參數

和中心頻率

，且DNN進一步控制各自的參數

。

通常，引入中間參數

，其連接連續係數與參數，用於執行參數等化。中間參數

的數學函數由下式給出：

(公式3 ) 其中

，其中

是中心頻率或轉角頻率(corner frequency)或擱架中點頻率(shelf midpoint frequency)，取決於使用哪種濾波器，

是預定義的取樣頻率，

是頻寬參數，表示為例如倍頻(octave)。例如，通常將三分之一倍頻帶通濾波器用於圖形等化器。

在上述公式3中，頻率

被稱為最低頻帶和最高頻帶的“擱架中點頻率”，通常使用擱架式濾波器。在使用帶通濾波器的情況下，對於所有其他濾波器，將頻率

稱為“中心頻率”。

特別地，從S域中的二階帶通濾波器的傳遞函數開始

(公式4 ) 其中

和

分別是第i個帶通濾波器的中心角頻率，選擇性和增益。從(Eq. 0)使用類比-數位濾波器變換，我們獲得一個二階數位濾波器，即(Eq. 2)中的雙二階濾波器，其中所述濾波器係數由下式給出

。

表示取樣頻率。為計算雙二階濾波器係數，我們需要

和

。在參數EQ的情況下，它們由DNN通過

,

和

的形式直接提供，且正如我們有的關係

。

在圖形EQ的情況下，

和

是固定的，DNN僅通過以下方式控制濾波器增益

：

。

最後，應注意，對於帶通/低通/高通濾波器，進一步可以設計增益為

的固定濾波器，即濾波器係數[

,

]是固定的並預先計算，其中我們只將濾波器的輸出乘以增益，如圖2所示。

圖4示出人工神經網路的過程的另一實施例，此處是訓練的DNN，其用於控制混合音訊訊號的等化以執行音樂源分離。根據該實施例，DNN僅控制等化器的增益參數

，以執行混合音訊訊號的圖形等化。即，根據本實施例的用作“圖形”等化器的等化器，包括多個等化器單元i，其增益

由DNN(其中索引

表示等化器單元組中的特定等化器單元)控制。例如，圖形等化器的等化器單元i可以實現為雙二階，其對混合訊號進行濾波，其中增益參數

由DNN控制，其中頻寬和頻率參數

和中心頻率

是預定義的固定參數，可以根據設計選擇進行選擇。例如，大多數圖形等化器具有7到31個頻帶。每個頻帶的中心頻率是固定的。專業擴聲圖形等化器通常有31個頻帶，每個頻帶的中心頻率與相鄰頻帶的中心頻率相距1/3的倍頻(octave)，因此三個頻帶(前面板上的三個滑塊(slider))覆蓋一倍頻的組合頻寬。當需要較低的精度時，通常使用每倍頻具有一半頻帶的圖形等化器。如在圖4的實施例中一樣，圖形等化器是由DNN而不是由人控制的，然而，技術人員必須依靠這種通用的等化器設計，但是可以根據他的需要選擇預定義的中心頻率和頻寬。

圖1至圖4的實施例包括：上述的圖1至圖4示出時域音樂源分離(MSS)的過程，其使用控制參數等化器(參見圖1中的引證3及圖3)或圖形等化器(見圖4)的深度神經網路(DNN)(參見圖1中的引證2)，以執行音樂源分離。

圖5更詳細地描述DNN的實施例，該DNN被配置為控制如上面的圖1至圖4中所示的音樂源分離過程，DNN被實現為長期短期記憶體(LSTM)。長期短期記憶體(LSTM)是在深度學習領域中使用的人工遞迴神經網路(RNN)架構。RNN是一種人工神經網路，旨在識別資料序列中的模式，例如從感測器發出的數字時間序列資料，例如通過取樣音訊訊號獲得的音訊樣本。通過考慮時間和順序，RNN演算法具有時間維度。與標準前饋神經網路不同，LSTM具有反饋連接，可以學習長期依賴關係。

LSTM具有刪除資訊或將資訊添加到所謂的單元狀態的能力，該狀態由稱為閘(gate)的結構調節。特別地，LSTM包括多個LSTM單元，其中典型的LSTM單元包括輸入閘(input gate)，輸出閘(output gate)，忘記閘(forget gate)和單元。單元狀態會記住任意時間間隔內的值，從而實現LSTM的長期記憶體態樣。這三個閘控制著進出單元的資訊串流。

更詳細地，在這種情況下被實現為長-短期記憶體(LSTM)的DNN，在樣本窗口上的時域中或在樣本的處理版本上工作，即特徵。例如，最後512樣本[x(n-511)，…，x(n)]可用作DNN/LSTM的輸入向量。當使用圖形級聯等化器時，輸出是預測的增益參數(增益)。或者，在使用參數平行等化器的情況下，當前時間實例(不引入延遲)應使用的增益，頻寬和中心頻率是DNN/LSTM的輸出。此外，可以預測未來的增益，頻寬，頻率參數，從而可以使用更大的值而無需大的等待時間(latency)。

然後，如上所述，將DNN/LSTM的輸出用於計算濾波器係數或增益。特別是在使用參數平行等化器的情況下，DNN/LSTM的輸出用於計算濾波器係數並調整增益。此外，為避免任何音樂噪音，對每個512個樣本計算一次的不同濾波器係數之間，平滑過渡進行線性內插。

在該實施例中，執行混合訊號

的預處理。混合訊號

可以是原始音訊混合訊號資料，其具有任意取樣率，例如，用於高解析度(High-Resolution, HiRes)音訊的44.1 kHz，48 kHz，96 kHz，2.8224 MHz(DSD)等。

作為準備步驟，加窗(windowing)處理50被應用於混合訊號

以獲得音訊窗口

,

,...,

的序列。例如，可以基於128音訊樣本的窗口大小和64音訊樣本的躍繼距離(hopping distance)以獲得音訊窗口

,

,...,

的序列。音訊窗口

,

,...,

的序列輸入到LSTM 51，以獲得每個

的輸出

，其中t = 1，2，…，T。LSTM迭代的音訊窗口

,

,...,

的序列的長度可能例如為

音訊窗口。LSTM 51的輸出

被饋送到映射單元52，以在每個時間步t計算預定參數的最佳值，基於LSTM 51的輸出，即增益參數

，頻寬參數

和頻率參數

。

如已經提到的，可以基於128音訊樣本的窗口大小和64音訊樣本的躍繼距離，即百分之五十(50％)的重疊(這是典型值)以獲得音訊窗口的序列。替代地，代替在輸入域中重疊且通過網路執行更多的前向傳遞(forward pass)，可以使用更高的躍繼距離且可以執行濾波器係數的線性內插。因此，可以實現更小的時間解析度，包括更少的前向傳遞以及因此的計算。

圖6更詳細地示出由圖5的LSTM 51執行的過程。混合訊號

的窗口被輸入到LSTM 51。

音訊窗口構成T個特徵向量

,

, …,

的序列，其被迭代地輸入到LSTM。LSTM迭代輸入特徵向量

,

, …,

且計算一系列隱藏狀態向量h ₁ ,h ₂ , … ,h _T 。在時間步驟t，其中1＜t＜T，h _T 計算為

其中H表示隱藏層功能。例如，可以在下面所述應用閘控遞迴單位(GRU)單元：Huy Phan, et al in „Improved Audio Scene Classification Based on Label-Tree Embeddings and Convolutional Neural Networks IEEE/ACM Transactions On Audio, Speech, And Language Processing, 2017。

多個RNN隱藏層相互堆疊，即從第1層到第L層。假設每個層都包含多個遞迴單元(如上面的圖5所述)，且深度RNN總共具有L層，則較低層的隱藏狀態序列被視為較高層的輸入序列。因此，隱藏狀態序列由下式給出

其中1＜

＜L，特別地，第一層

。

換言之，每層的每個遞迴單元，這裡是第1層到第L層，接受前一個單元的隱藏狀態，並產生輸出以及它自己的隱藏狀態。然後根據每個

的最後一層

的隱藏狀態

判定深度RNN的輸出

其中

表示LSTM的權重矩陣，

表示偏移向量，

是LSTM 51的總層數。

如上所述，DNN/LSTM的輸出可以是所有雙二階的三個參數。在訓練期間，可以將DNN輸出和最佳濾波器值(目標)之間的均方誤差最小化。

網路輸出

隨後被映射到等化參數的最佳值(參見圖5中的計算單元52)，即增益參數

，頻寬參數

和頻率參數

。

如上所述，網路輸出

是每個音訊窗口

, ...,

的第L層的輸出，其被輸入到LSTM 51，從而減少演算法等待時間。在這種情況下，可以在任意時間步驟t處停止該過程，並使用輸出

直到該時間步驟以獲得等化參數。儘管這可能會導致等化參數結果不準確。

可替代地，將有可能使用寬窗口以輸入整首歌曲，將輸出獲得至

，然後獲得等化參數。

圖7示出可視化用於從包括多個源(或樂器)的混合訊號中分離特定源的方法的流程圖。在70處，經由音訊介面接收包括多個源的混合訊號(參見圖1中的

)。在71處，DNN(圖1中的2)對混合訊號進行操作，以估計用於控制參數等化器的最佳參數(見圖1)。在72處，基於由DNN在71處獲得的等化參數，對混合訊號執行參數等化，以獲得目標源

的估計，該目標源是等化訊號，這裡是例如人聲。

圖8示出流程圖，其可視化用於訓練深度遞迴神經網路(即LSTM)以估計預定等化參數的方法。在80處，分離的源的多個聲音訊號，例如，人聲和樂器，即人聲，低音，鼓等，是獨立記錄的，或者是從它們所儲存的資料庫中獨立獲取的，從而獲得混合的真值(groundtruth)分離。在81處，通過混合在80處獲得的分離的源的聲音訊號，或者直接通過混合物(例如，儲存在資料庫中的歌曲)以混合諸如歌曲(見圖1)的聲音訊號的混合。在82處，基於所獲得的混合和真值分離的源以產生訓練資料集。在83處，使用訓練資料集訓練人工神經網路，這裡執行DNN/LSTM。使用任何DNN訓練過程(例如，隨機梯度下降(SGD))，我們可以學習DNN/LSTM的最佳權重，以使所選損失函數最小化。例如，損失函數可以是圖1中電流輸出

和真值

之間的均方誤差(MSE)。

圖9示意性地描述電子裝置的實施例，該電子裝置可以實現如上所述的基於參數/圖形EQ以估計目標樂器的過程。電子裝置700包括CPU 701作為處理器。電子裝置700進一步包括連接到處理器701的麥克風711，喇叭710和卷積神經網路單元708。處理器701可以例如實現參數化及/或圖形EQ，其實現關於以圖1和圖4更詳細描述的過程。

RNN單元可以例如是硬體上的人工神經網路，例如GPU或專門用於實現人工神經網路(例如，圖1中的LSTM 2)的任何其他硬件上的神經網路。喇叭(loudspeaker)710由一或多個喇叭組成，這些喇叭分佈在預定義空間上並配置為呈現音訊。電子裝置700進一步包括連接到處理器701的音訊介面706。音訊介面706用作輸入介面，使用者能夠通過該輸入介面輸入音訊訊號。此外，電子裝置700進一步包括連接到處理器701的使用者介面709。該使用者介面709用作人機介面，且使得管理者與電子系統之間能夠進行對話。例如，管理者可以使用該使用者介面709對系統進行配置。電子裝置701進一步包括乙太網介面707，藍牙介面704和WLAN介面705。這些單元704、705用作用於與外部裝置進行資料通信的I/O介面。例如，具有乙太網，WLAN或藍牙連接的其他喇叭，麥克風和視訊相機可以通過這些介面707、704和705耦接到處理器701。

電子系統700進一步包括資料儲存702和資料記憶體703(在此為RAM)。資料記憶體703被配置為臨時儲存或快取資料或電腦指令以供處理器701處理。資料儲存702被配置為長期記憶體，例如用於記錄從麥克風710獲得並提供給CNN單元708或從CNN單元708檢索的感測器資料。資料儲存702進一步可以存儲代表音訊訊息的音訊資料，公共廣播系統可以將這些音訊資料傳輸給在預定空間中移動的人們。

應當注意，以上描述僅是示例配置。可以使用附加或其他感測器，儲存裝置，介面等以實現替代配置。

應該認識到，實施例以方法步驟的示例性順序描述方法。但是，方法步驟的特定順序僅出於說明目的而給出，不應解釋為具有約束力。

應當注意，僅出於說明目的將圖9的電子系統劃分為單元，且本公開不限於特定單元中的功能的任何特定劃分。例如，電路的至少一部分可以由相應的程式化處理器，現場可程式化閘陣列(FPGA)等實施方式。

如果沒有另外說明，則可以將本說明書中描述的以及所附申請專利範圍中要求保護的所有單元和實體實現為邏輯，例如在晶片上，且如果沒有另外說明，則可以由軟件實現將這些單元和實體提供的功能實現為積體電路。

就上述本公開的實施例而言，至少部分地使用軟體控制的資料處理裝置來實現，將理解的是，電腦程式提供這種軟體控制及傳輸，儲存或其他媒體，設想提供一種電腦程式作為本公開的態樣。

注意，本技術進一步可以如下配置。

(1)一種電子裝置，包括電路，配置以：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從深度神經網路獲得的等化參數，對音訊混合訊號執行音訊等化，以獲得分離的源。

(2)根據(1)的電子裝置，其中，深度神經網路已被訓練以估計用於音訊源分離的最佳參數。

(3)根據(1)或(2)所述的電子裝置，其中，所述分離的源是人聲。

(4)根據(1)〜(3)任一者所述的電子裝置，其中，分離的源是具有抑制人聲的混合。

(5)根據(1)〜(4)任一者所述的電子裝置，其中，執行音訊等化包括執行參數等化。

(6)根據(1)〜(5)任一者所述的電子裝置，其中，執行音訊等化包括執行圖形等化。

(7)根據(1)〜(6)任一者所述的電子裝置，其中，最佳訊號參數包括增益參數，及/或頻率參數，及/或頻寬參數。

(8)根據(5)所述的電子裝置，其中，執行參數等化包括基於等化參數對接收的音訊輸入訊號執行帶通濾波。

(9)根據(5)所述的電子裝置，其中，執行參數等化進一步包括：在多個帶通濾波器上分配接收的音訊輸入訊號，以獲得多個帶通濾波的訊號。

(10)根據(9)所述的電子裝置，其中，執行參數等化進一步包括將每個帶通濾波的訊號與相應的增益參數相乘以獲得多個放大訊號。

(11)根據(6)所述的電子裝置，其中，執行圖形等化包括執行帶阻/帶峰/擱架式濾波。

(12)一種方法，包括：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

(13)一種電腦程式，包括指令，所述指令在處理器上執行時使所述處理器以：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從深度神經網路獲得的等化參數對音訊混合訊號執行音訊等化，以獲得分離的源。

2:深度神經網路 3:參數等化器 31-1:帶通濾波器 31-2:帶通濾波器 31-N:帶通濾波器 33:混合器 50:加窗處理 51:LSTM 52:映射單元 O1:輸出 O2:輸出 OT:輸出 X1:音訊窗口 X2:音訊窗口 XT:音訊窗口 h1:隱藏狀態向量 h2:隱藏狀態向量 hT:隱藏狀態向量 70:步驟 71:步驟 72:步驟 80:步驟 81:步驟 82:步驟 83:步驟 700:電子裝置 701:處理器 702:資料儲存 703:資料記憶體 704:藍牙介面 705:WLAN介面 706:音訊介面 707:乙太網介面 708:卷積神經網路單元 709:使用者介面 710:喇叭 711:麥克風

參照附圖通過示例的方式說明實施例，其中：

[圖1]示出使用深度神經網路2(DNN)的時域音樂源分離(MSS)的過程，該深度神經網路2控制參數等化器3(EQ)以執行音樂源分離；

[圖2]更詳細地示出由圖1的參數等化器3(EQ)執行的處理；

[圖3]說明人工神經網路(這裡是訓練的DNN)的過程，其為每個參數濾波器i估計增益參數

，頻寬參數

和頻率參數

，用於執行混合音訊訊號的參數等化；

[圖4]說明人工神經網路(這裡是訓練的DNN)的過程，該過程用於估計增益參數

，以執行混合音訊訊號的圖形等化；

[圖5]描述被配置為控制音樂源分離過程的DNN的實施例，該DNN由長期短期記憶體(Long-Short Term Memory, LSTM)層實現；

[圖6]更詳細地示出由圖5的LSTM 51執行的過程；

[圖7]示出可視化用於從包括多個源(或樂器)的混合訊號中分離特定源的方法的流程圖；

[圖8]示出流程圖，該流程圖可視化一種用於訓練深度遞迴神經網路(即LSTM)以估計預定等化參數的方法；及

[圖9]示意性地描述可以實現基於參數/圖形EQ估計目標樂器的過程的電子裝置的實施例。

2:深度神經網路

3:參數等化器

Claims

一種電子裝置，包括電路，配置以：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從該深度神經網路獲得的該等化參數，對該音訊混合訊號執行音訊等化，以獲得分離的源。
根據請求項1所述的電子裝置，其中，該深度神經網路已被訓練以估計用於音訊源分離的最佳參數。
根據請求項1所述的電子裝置，其中，該分離的源是人聲。
根據請求項1所述的電子裝置，其中，該分離的源是具有抑制人聲的混合。
根據請求項1所述的電子裝置，其中，執行音訊等化包括執行參數等化。
根據請求項1所述的電子裝置，其中，執行音訊等化包括執行圖形等化。
根據請求項1所述的電子裝置，其中，該最佳訊號參數包括增益參數，及/或頻率參數，及/或頻寬參數。
根據請求項5所述的電子裝置，其中，執行參數等化包括基於等化參數對該接收的音訊輸入訊號執行帶通濾波。
根據請求項5所述的電子裝置，其中，執行參數等化進一步包括：在多個帶通濾波器上分配該接收的音訊輸入訊號，以獲得多個帶通濾波的訊號。
根據請求項9所述的電子裝置，其中，執行參數等化進一步包括將每個帶通濾波的訊號與相應的增益參數相乘以獲得多個放大的訊號。
根據請求項6所述的電子裝置，其中，執行圖形等化包括執行帶阻/帶峰/擱架式濾波。
一種方法，包括：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從該深度神經網路獲得的該等化參數，對該音訊混合訊號執行音訊等化，以獲得分離的源。
一種包括指令的電腦程式，該指令在處理器上執行時使處理器：將包括多個源的音訊混合訊號輸入到深度神經網路以獲得等化參數；及根據從該深度神經網路獲得的該等化參數，對該音訊混合訊號執行音訊等化，以獲得分離的源。