TW202109508A

TW202109508A - 聲音分離方法、電子設備和電腦可讀儲存媒體

Info

Publication number: TW202109508A
Application number: TW108146566A
Authority: TW
Inventors: 徐旭東; 戴勃; 林達華
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-08-23
Filing date: 2019-12-19
Publication date: 2021-03-01
Also published as: WO2021036046A1; TWI740315B; KR20220020351A; JP2022539867A; CN110491412A; US20220130407A1; CN110491412B

Abstract

本公開實施例提供一種聲音分離方法、電子設備和電腦可讀儲存媒體，其中方法包括：獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應於多種聲源的聲音頻譜；對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜；從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜；通過所述更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲音頻譜。

Description

聲音分離方法、電子設備和電腦可讀儲存媒體

本公開涉及機器學習技術，具體涉及聲音分離方法和裝置、電子設備。 [優先權訊息] 本專利申請要求於2019年8月23日提交的、申請號為201910782828.X、發明名稱為“聲音分離方法和裝置、電子設備”的中國專利申請的優先權，該申請的全文以引用的方式並入本文中。

聲音分離的主要任務，是對於一段混合的聲音（該混合聲音中包括多個聲源的聲音），通過模型將該混合的聲音進行分離。相關技術中，可以通過神經網路模型對混合聲音進行分離，通常是進行一次分離，即一次處理將混合聲音中的所有聲源的聲音都分離出來。

有鑒於此，本公開至少提供一種聲音分離方法和裝置、電子設備，以提高模型的泛化能力和聲音分離的效果。

第一方面，提供一種聲音分離方法，所述方法包括：

獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應於多種聲源的聲音頻譜；

對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜；

從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜；

通過所述更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲音頻譜。

在一些實施例中，對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜，包括：獲取所述輸入聲音頻譜對應的輸入視頻幀，其中，所述輸入視頻幀中包含所述多個聲源；根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜。

在一些實施例中，根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出所述預測聲音頻譜，包括：根據所述輸入聲音頻譜，得到k個基本分量，所述k個基本分量分別表示所述輸入聲音頻譜中的不同聲音特徵，所述k為自然數；根據所述輸入視頻幀，得到視覺特徵圖，所述視覺特徵圖包括多個k維的視覺特徵向量，每個視覺特徵向量對應所述輸入視頻幀中的一個聲源；根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，所述預測聲音頻譜的聲源是所述視覺特徵向量對應的聲源。

在一些實施例中，根據所述輸入視頻幀，得到所述視覺特徵圖，包括：將所述輸入視頻幀輸入特徵提取網路，輸出所述輸入視頻幀的視頻特徵；對所述視頻特徵在時間維度進行最大池化，得到包含多個視覺特徵向量的所述視覺特徵圖。

在一些實施例中，根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，包括：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和，得到所述預測聲音頻譜。

在一些實施例中，根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，包括：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和；對加和結果進行非線性激活處理，獲得預測掩模；將所述預測掩模和首次迭代時初始的輸入聲音頻譜進行點乘，得到所述預測聲音頻譜。

在一些實施例中，根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，包括：由所述多個視覺特徵向量中，隨機選取一個視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。

在一些實施例中，根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，包括：由所述多個視覺特徵向量中，選取音量最大的聲源所對應的所述視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。

在一些實施例中，選取音量最大的聲源所對應的所述視覺特徵向量，包括：將所述多個視覺特徵向量中的每一個視覺特徵向量，執行如下處理：所述視覺特徵向量與由所述k個基本分量組成的向量相乘，得到第一相乘結果；對非線性激活後的第一相乘結果與首次迭代的初始輸入聲音頻譜相乘，得到第二相乘結果；求取所述第二相乘結果的平均能量；選取平均能量最大值位置對應的視覺特徵向量。

在一些實施例中，所述由所述輸入聲音頻譜中分離出預測聲音頻譜之後，所述方法還包括：根據所述預測聲音頻譜和歷史累計頻譜，得到餘量掩模，所述歷史累計頻譜是在所述聲音分離的過程中，分離出的歷史預測聲音頻譜的加和；基於所述餘量掩模和所述歷史累計頻譜，得到餘量頻譜；將所述餘量頻譜和所述預測聲音頻譜相加，得到完整預測聲音頻譜。

在一些實施例中，所述歷史預測聲音頻譜的加和包括歷史完整預測聲音頻譜的加和；從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜，包括：所述輸入聲音頻譜中去除所述完整預測聲音頻譜，得到更新後的輸入聲音頻譜。

在一些實施例中，所述輸入聲音頻譜通過第一網路，得到所述k個基本分量；所述輸入視頻幀通過第二網路，得到所述視覺特徵圖；所述預測聲音頻譜和歷史累計頻譜通過第三網路，得到所述餘量掩模；所述方法還包括：根據所述完整預測聲音頻譜與頻譜真實值之間的誤差，調整所述第一網路、第二網路和第三網路中的至少任一網路的網路參數。

在一些實施例中，直至所述更新後的輸入聲音頻譜未包含聲音頻譜，包括：當所述更新後的輸入聲音頻譜的平均能量小於一個預設閾值時，確定所述輸入聲音頻譜未包含聲音頻譜。

第二方面，提供一種聲音分離裝置，所述裝置包括：

輸入獲取模組，用於獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應於多種聲源的聲音頻譜；

頻譜分離模組，用於對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜；通過更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲音頻譜；

頻譜更新模組，用於從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到所述更新後的輸入聲音頻譜。

在一些實施例中，所述頻譜分離模組，包括：視頻處理子模組，用於獲取所述輸入聲音頻譜對應的輸入視頻幀，其中，所述輸入視頻幀中包含多個聲源，所述輸入聲音頻譜中的各聲音頻譜對應於所述輸入視頻幀的各聲源；聲音分離子模組，用於根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜。

在一些實施例中，所述視頻處理子模組，用於根據所述輸入視頻幀，得到視覺特徵圖，所述視覺特徵圖包括多個k維的視覺特徵向量，每個視覺特徵向量對應所述輸入視頻幀中的一個聲源；所述聲音分離子模組，用於：根據所述輸入聲音頻譜得到k個基本分量，所述k個基本分量分別表示所述輸入聲音頻譜中的不同聲音特徵，所述k為自然數；以及根據其中一個所述視覺特徵向量和所述k個基本分量，獲得預測聲音頻譜，所述預測聲音頻譜的聲源是所述視覺特徵向量對應的聲源。

在一些實施例中，所述視頻處理子模組，用於：將所述輸入視頻幀輸入特徵提取網路，輸出所述輸入視頻幀的視頻特徵；對所述視頻特徵在時間維度進行最大池化，得到包含多個視覺特徵向量的所述視覺特徵圖。

在一些實施例中，所述聲音分離子模組，用於：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和，得到所述預測聲音頻譜。

在一些實施例中，所述聲音分離子模組，用於：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和；對加和結果進行非線性激活處理，獲得預測掩模；將所述預測掩模和首次迭代時初始的輸入聲音頻譜進行點乘，得到所述預測聲音頻譜。

在一些實施例中，所述聲音分離子模組，用於：由所述多個視覺特徵向量中，隨機選取一個視覺特徵向量。

在一些實施例中，所述聲音分離子模組，用於：由所述多個視覺特徵向量中，選取音量最大的聲源所對應的所述視覺特徵向量。

在一些實施例中，所述聲音分離子模組，用於：將所述多個視覺特徵向量中的每一個視覺特徵向量，執行如下處理：所述視覺特徵向量與由所述k個基本分量組成的向量相乘，得到第一相乘結果；對非線性激活後的第一相乘結果與首次迭代的初始輸入聲音頻譜相乘，得到第二相乘結果；求取所述第二相乘結果的平均能量；選取平均能量最大值位置對應的視覺特徵向量。

在一些實施例中，所述裝置還包括：頻譜調整模組，用於根據所述預測聲音頻譜和歷史累計頻譜，得到餘量掩模，所述歷史累計頻譜是在所述聲音分離的過程中，分離出的歷史預測聲音頻譜的加和；基於所述餘量掩模和歷史累計頻譜，得到餘量頻譜；將所述餘量頻譜和預測聲音頻譜相加，得到完整預測聲音頻譜。

在一些實施例中，所述頻譜更新模組，用於：從所述輸入聲音頻譜中去除所述完整預測聲音頻譜，得到更新後的輸入聲音頻譜；其中，所述歷史預測聲音頻譜的加和包括歷史完整預測聲音頻譜的加和。

在一些實施例中，所述頻譜分離模組，用於：當所述更新後的輸入聲音頻譜的平均能量小於一個預設閾值時，確定所述輸入聲音頻譜未包含聲音頻譜。

第三方面，提供一種電子設備，所述設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的電腦指令，所述處理器用於在執行所述電腦指令時實現本公開任一實施例所述的聲音分離方法。

第四方面，提供一種電腦可讀儲存媒體，其上儲存有電腦程式，所述程式被處理器執行時實現本公開任一實施例所述的聲音分離方法。

第五方面，提供一種電腦程式，所述電腦程式被處理器執行時實現本公開任一實施例所述的聲音分離方法。

為了使本技術領域的人員更好地理解本公開一個或多個實施例中的技術方案，下面將結合本公開一個或多個實施例中的附圖，對本公開一個或多個實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本公開一部分實施例，而不是全部的實施例。基於本公開一個或多個實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本公開保護的範圍。

相關聲音分離技術中，可以通過神經網路模型對混合聲音進行分離，通常是進行一次分離，即一次處理將混合聲音中的所有聲源的聲音都分離出來。但是，該分離技術是在固定聲源個數的強假設之下才能對聲音進行分離，聲源個數固定的強假設影響了模型的泛化能力，並且聲音分離的效果也有待提高。

有鑒於此，為改善模型的泛化能力並提高聲音分離的效果，本公開實施例提供一種聲音分離方法，該方法可以用於將混合聲源的聲音頻譜進行頻譜分離。如圖1所示，該方法可以包括如下處理：

在步驟100中，獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應多種聲源的聲音頻譜。

輸入聲音頻譜可以是原始的聲音檔案，該聲音檔案例如可以是MP3、WAV等格式的檔案，或者也可以是聲音檔案經過傅裏葉變換之後的STFT（短時傅裏葉變換，Short-Time Fourier-Transform）頻譜。該輸入聲音頻譜中可以包括對應多種聲源的聲音頻譜，後續步驟可以分別將各個聲源對應的聲音頻譜分離出來。上述的聲源是發出聲音頻譜對應的聲音的對象，比如，一個聲音頻譜對應的聲源是鋼琴，該聲音頻譜是鋼琴聲轉化來的STFT頻譜；另一個聲音頻譜對應的聲源是小提琴，是小提琴聲轉化來的STFT頻譜。

在步驟102中，對輸入聲音頻譜進行頻譜分離處理，由輸入聲音頻譜中分離出預測聲音頻譜。

例如，本實施例的聲音分離採用的是迭代式分離的過程，該迭代式分離是通過多次迭代，實現將輸入聲音頻譜中的各個聲源對應的聲音頻譜分離出來，並且該迭代式分離的過程是採用每次迭代分離出其中的一個聲音頻譜，該分離出的聲音頻譜可以稱為預測聲音頻譜（也可以稱為預測頻譜）。該預測聲音頻譜可以是對應所述輸入聲音頻譜中的其中一種聲源。

本步驟可以是上述迭代式分離過程的其中一次迭代，例如第i次迭代，通過第i次迭代分離出其中一聲源對應的預測聲音頻譜。需要說明的是，本步驟中的對輸入聲音頻譜進行頻譜分離處理的方式，本實施例不進行限制，例如，可以基於輸入聲音頻譜對應的視頻幀進行頻譜分離，或者，也可以不是基於視頻幀進行頻譜分離，等。

在步驟104中，從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜。

本步驟中，在開始下一次迭代，例如i+1次迭代之前，將第i次迭代分離出的預測聲音頻譜由輸入聲音頻譜中去除，這樣可以減小對輸入聲音頻譜中剩餘聲音頻譜的干擾影響，以更好的分離剩餘的聲音頻譜。去除第i次迭代分離的預測聲音頻譜後，剩餘的輸入聲音頻譜即為更新後的輸入聲音頻譜。

在步驟106中，通過更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲音頻譜時，結束迭代。

本步驟可以開始下一次迭代，該下一次迭代將分離出另一個聲源對應的預測聲音頻譜。該迭代式分離過程的終止條件是，更新後的輸入聲音頻譜中未包含聲源對應的聲音頻譜，比如，該更新後的輸入聲音頻譜中只包含雜訊，例如，若更新後的輸入聲音頻譜的平均能量低於某個設定的閾值，可以認為該頻譜中只包含雜訊，即只包含能量很低的小的聲音分量，這些小分量無意義，不需要再由更新後的輸入聲音頻譜中進行頻譜分離處理，此時可以結束迭代過程。

本公開實施例提供的聲音分離方法，通過採用迭代式分離的過程對混合聲源的輸入聲音頻譜進行頻譜分離，每次迭代都分離出預測聲音頻譜，並將該預測聲音頻譜由輸入聲音頻譜中去除後再繼續下一個頻譜分離，這種方式使得預測聲音頻譜被去除之後，能夠減小這部分預測聲音頻譜對剩餘聲音的干擾，從而使得剩餘聲音能夠隨著迭代的進行而逐步的更加突出，更利於分離，從而提高了聲音分離的準確度，分離效果更好。並且，該迭代式分離聲音的過程的終止條件是更新後的輸入聲音頻譜中未包含聲源聲音，這種終止條件並沒有限制固定的聲源數量，從而使得該方法能夠適用於聲源個數不確定的場景，模型的泛化能力得到提高。

圖2示出了本公開至少一個實施例提供的一種基於視覺的聲音分離方法，圖3是對應圖2的原理示意圖。結合圖2和圖3來看，該方法可以是基於輸入視頻幀對輸入聲音頻譜進行頻譜分離。該方法可以包括如下處理，需要說明的是，如下的200/202等步驟序號不作為對步驟執行順序的限制。

在步驟200中，獲取輸入聲音頻譜、以及該輸入聲音頻譜對應的輸入視頻幀。

本步驟中，輸入聲音頻譜可以是將波形形式的聲音轉化為聲音頻譜表示，例如可以是STFT（短時傅裏葉變換，Short-Time Fourier-Transform）頻譜。而輸入視頻幀中可以沒有聲音，只是一些畫面幀。該輸入視頻幀是輸入聲音頻譜對應的視頻幀，並且，該輸入視頻幀中包含多個聲源，所述輸入聲音頻譜中的各聲音頻譜對應於所述輸入視頻幀的各聲源。

在步驟202中，根據所述輸入聲音頻譜，得到k個基本分量。

本步驟中，可以將輸入聲音頻譜作為第一網路的輸入，該第一網路的輸出可以是k個基本分量，該第一網路可以對輸入聲音頻譜進行聲音特徵的提取，例如第一網路可以是U-Net網路。其中，該k個基本分量可以分別表示輸入聲音頻譜中的不同的聲音特徵。聲音特徵用於表示聲音在頻譜中的不同屬性。可以理解的是，不同聲源產生的聲音可以有相同的聲音特徵，同一個聲源產生的聲音也可以有不同的聲音特徵，在此不做具體限定。以輸入聲音頻譜包括三種聲源，鋼琴、小提琴和長笛為例，假設鋼琴、小提琴和長笛在演奏同一個C調，鋼琴、小提琴和長笛對應的聲音頻譜可能是不同的，且同一個聲源對應的聲音特徵數量可大於1，因此k的取值一般大於聲源的種類數。可以基於輸入聲音頻譜中聲音特徵的數量確定k。

在步驟204中，根據所述輸入視頻幀，得到視覺特徵圖，所述視覺特徵圖包括多個k維的視覺特徵向量。

本實施例中，輸入聲音頻譜和輸入視頻幀可以是來自同一個視頻檔案，該輸入聲音頻譜中包括的多種聲音頻譜分別對應於不同的聲源，而該多種不同的聲源可以是所述輸入視頻幀中的聲源。舉例來說，一個視頻幀中有一個男生在彈鋼琴，一個女生在拉小提琴，鋼琴和小提琴就是兩個聲源，而這兩個聲源發出的鋼琴聲和小提琴聲對應得到的聲音頻譜都包括在所述輸入聲音頻譜中。

本步驟中，可以將輸入視頻幀作為第二網路的輸入，可以得到包括多個視覺特徵向量的視覺特徵圖。其中，每一個視覺特徵向量可以對應輸入視頻幀中的一個聲源，並且，每個視覺特徵向量可以是k維向量。此外，上述的第二網路也可以是U-Net網路。

在步驟206中，根據其中一個所述視覺特徵向量和所述k個基本分量，獲得一個分離出來的預測聲音頻譜。

在一個示例性的例子中，請結合圖3的示例，可以由多個視覺特徵向量中選擇一個視覺特徵向量，將該k維的視覺特徵向量與由k個基本分量組成的向量進行相乘，就可以得到當前分離出來的預測聲音頻譜。上述的k維的視覺特徵向量與由k個基本分量組成的向量進行相乘，是視覺特徵向量的每一維元素分別與其中一個基本分量相乘後加和，具體可以參見下面的公式（1）。該預測聲音頻譜的聲源是所選擇的那個視覺特徵向量對應的聲源。

例如，k個基本分量可以用如下表示{

}，V(x,y,j)即視覺特徵圖，該視覺特徵圖是一個x*y*k的三維張量，j的取值是由1到k。

如下公式（1）示例一種根據視覺特徵向量和基本分量獲得預測聲音頻譜的方式：

即，如上述公式（1），將所述k個基本分量

和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和，得到所述預測聲音頻譜

。其中，視覺特徵向量在j維度的k個元素可以分別表示每個基本分量與視頻幀不同空間位置的視頻內容之間的關聯程度的估計值。

在另一實施方式中，還可以如下得到預測聲音頻譜：

首先，將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和；對加和結果進行非線性激活處理，獲得預測掩模。該預測掩模就是基本分量與視覺特徵向量之間的運算操作得到的結果，且該結果用於選定輸入聲音頻譜中的處理對象，以分離出輸入聲音頻譜中的預測聲音頻譜。如下的公式（2）示例了預測掩模M的獲得：

…………….（2）

其中，σ表示非線性激活函數，例如可以是sigmoid函數。可選的，M可以進行二值化處理，得到二值化掩模。

接著，可以將所述預測掩模和首次迭代時初始的輸入聲音頻譜進行點乘，得到所述預測聲音頻譜。如下公式（3）示例了預測聲音頻譜的獲得方式。需要說明的是，每次迭代該預測掩模都是與首次迭代時初始的輸入聲音頻譜進行點乘，儘管每次迭代後都會更新輸入聲音頻譜，但是該更新後的輸入聲音頻譜在下一次迭代是用於生成k個基本分量，該基本分量又使得預測掩模M進行更新，而預測掩模M如公式（3）所示的，每次迭代都是與初始的輸入聲音頻譜

進行點乘。

………………….（2）

公式（3）中，M是預測掩模，

表示第一次迭代時首次輸入的聲音頻譜，

表示第i次迭代分離出來的預測聲音頻譜。

在步驟208中，所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜。

例如，請參見如下的公式（4）：第i次迭代後更新的輸入聲音頻譜

可以是由第i-1次迭代的輸入聲音頻譜

中去除第i次迭代分離的預測聲音頻譜

得到。

………………….（4）

其中，

表示聲音頻譜之間的元素級（element-wise）的相減。

在步驟210中，判斷該更新後的輸入聲音頻譜是否包含聲源對應的聲音頻譜。

例如，可以設置一個預設閾值，若更新後的輸入聲音頻譜的平均能量小於該預設閾值，則表示更新後的輸入聲音頻譜中只包含無意義的雜訊或者為空。

若判斷結果為否，則結束迭代，表示已經分離完視頻中所有的聲源聲音。

若判斷結果為是，則返回執行步驟202，繼續根據更新後的輸入聲音頻譜和輸入視頻幀，執行下一次迭代，以繼續獲得下一個分離的預測聲音頻譜。

本實施例的聲音分離方法，具有如下優點：

第一、該方法是一個迭代式分離的過程，由輸入聲音頻譜獲得一個分離的預測聲音頻譜，再進行下一次迭代，即每次迭代都能夠分離出一個預測聲音頻譜。並且，每次迭代獲得的預測聲音頻譜要由輸入聲音頻譜中去除，再開始下一次迭代。在預測聲音頻譜被去除之後，能夠減小這部分預測聲音頻譜對剩餘聲音的干擾。例如可以先將音量大的聲音分離出去，從而減少音量大的聲音對音量小的聲音的干擾，從而使得剩餘聲音能夠隨著迭代的進行而逐步的更加突出，更利於分離。從而提高了聲音分離的準確度，分離效果更好。

第二、該迭代式分離聲音的過程，其終止條件是更新後的輸入聲音頻譜中未包含聲源聲音，比如更新後的輸入聲音頻譜的平均能量小於某個閾值，這種終止條件並沒有限制固定的聲源數量，使得該方法能夠適用於聲源個數不確定的場景，模型的泛化能力得到提高。

根據上述描述的基於視覺分離聲音的方法，例如可以分離一個視頻中包括的多種聲音，並識別出各聲音對應的發聲聲源。示例性的，一個視頻中包括兩個演奏音樂的女孩，一個女孩在吹長笛，另一個女孩在拉小提琴，在這個視頻中，兩種樂器的聲音是混合在一起的。那麼，根據上述的聲音分離過程可以將長笛和小提琴的聲音分離開，並且能夠識別出長笛的聲音是與視頻中的聲源物體“長笛”相對應，小提琴的聲音是與視頻中的聲源物體“小提琴”對應。

圖4是本公開提供的另一種聲音分離的方法，該方法對圖2所示的方法進行了進一步的改進，在圖2得到的預測聲音頻譜的基礎上，又對該預測聲音頻譜進行調整，得到了頻譜更為完整的完整預測聲音頻譜，使得聲音分離的效果進一步提高。圖5是對應圖4的網路結構示意圖。請結合圖4和圖5來看，該方法如下：

該網路結構包括：減網路（Minus Network，簡稱M-Net）和加網路（Plus Network，簡稱P-Net），該網路的整體可以稱為減-加網路（Minus-Plus Net）。

其中，M-Net的網路結構和所做的處理，可以詳細參見圖5。即M-Net的主要作用就是通過迭代式的過程由輸入聲音頻譜中分離出各個聲音即預測聲音頻譜，每次迭代可以分離出一種預測聲音頻譜，並且將預測聲音頻譜與視頻幀中對應的聲源關聯。M-Net每次分離的預測聲音頻譜可以用

表示第i次迭代獲得的預測聲音頻譜。

對該M-Net的處理過程，本實施例還示例如下內容：

首先，請參見圖5的示例，減網路包括第一網路和第二網路，第一網路以U-Net為例，輸入聲音頻譜通過U-Net處理後，得到k個基本分量。第二網路以特徵提取網路比如ResNet(Residual Network，殘差網路)18為例，輸入視頻幀通過ResNet18的處理後，該ResNet18可以輸出輸入視頻幀的視頻特徵。對該視頻特徵可以在時間維度進行最大池化，得到包含多個視覺特徵向量的視覺特徵圖。該視頻特徵是具有時間維度特性的特徵，可以將該視頻特徵在時間維度上進行取最大值的池化處理。

其次，預測聲音頻譜的獲得在圖5中以輸入聲音頻譜與預測掩模點乘得到為例。

再次，在根據其中一個視覺特徵向量和k個基本分量獲得預測聲音頻譜時，該視覺特徵向量的選擇也可以有多種方式。

例如，可以由視覺特徵圖中包括的多個視覺特徵向量中，隨機選取一個視覺特徵向量用於生成預測聲音頻譜。

又例如，還可以是選取輸入聲音頻譜中音量最大的那個聲源對應的視覺特徵向量。可選的，該最大音量對應的視覺特徵向量可以根據公式（5）得到：

…….（5）

如上述公式（5），視覺特徵圖中的每一個視覺特徵向量，都分別做如下處理：該視覺特徵向量與由所述k個基本分量組成的向量相乘，得到第一相乘結果

；對該第一相乘結果進行非線性激活處理後，並與首次迭代的初始輸入聲音頻譜

相乘，得到第二相乘結果；再對該第二相乘結果求取平均能量。然後，每一個視覺特徵向量都進行上述處理後，選取平均能量最大值對應的那個視覺特徵向量的坐標。簡單說，這個過程就是在選取振幅最大的那個音量。其中，E(.)表示括號內內容的平均能量，（x*,y*）即預測聲音頻譜對應的聲源的位置，該向量的視頻內容即預測聲音頻譜對應的視頻特徵。

即M-Net的迭代分離過程，可以在每次迭代時都選擇去分離最大音量的聲音，按照音量由大到小的順序將其中的各個聲音分離出來。采取這種順序的好處包括：隨著音量大的聲音分量被逐漸去除，輸入聲音頻譜中的音量較小的分量就會逐漸凸顯，從而有助於將音量較小的聲音分量較好的分離出來。

此外，本實施例中，M-Net在獲得預測聲音頻譜後，還可以通過P-Net對預測聲音頻譜進行完善調整，以將第一次迭代至第i-1次迭代中去除的那些聲音以及第i次迭代獲得的聲音所共享的一些聲音成分進行補充，從而使得第i次迭代的分離聲音的頻譜更加完整。請參見圖5所示，其中的歷史累計頻譜是當前迭代之前的歷史完整預測聲音頻譜的加和，比如，若第i次迭代是第一次迭代，那麼可以設歷史累計頻譜是0；第一次迭代結束後，P-Net將輸出一個完整預測聲音頻譜，那等第二次迭代時使用的歷史累計頻譜就是“0+第一次迭代得到的完整預測聲音頻譜”。

請繼續參見圖5和圖4，加網路所做的處理包括如下：

在步驟400中，預測聲音頻譜和歷史累計頻譜拼接，並輸入第三網路。

預測聲音頻譜和歷史累計頻譜在拼接（Concatenate）後，可以作為第三網路的輸入。例如，該第三網路也可以是一個U-Net網路。

在步驟402中，通過第三網路輸出，得到餘量掩模。

第三網路輸出後經過sigmoid函數非線性激活，就可以得到餘量掩模。

在步驟404中，基於所述餘量掩模和歷史累計頻譜，得到餘量頻譜。

例如，如下的公式（6），餘量掩模

與歷史累計頻譜

點乘，可以得到餘量頻譜

。

……….（6）

在步驟406中，將所述餘量頻譜和預測聲音頻譜相加，得到當前迭代輸出的完整預測聲音頻譜。

例如，如下的公式（7）示出該過程，最終得到了完整預測聲音頻譜

。

……….（7）

當然，該完整預測聲音頻譜（也可以稱為完整預測頻譜）可以結合其對應的相位訊息，通過逆短時傅裏葉變換，即可得到當前分離出來的聲音波形。

此外，本實施例中，第i次迭代輸出的完整預測聲音頻譜將從第i次迭代的輸入聲音頻譜中去除，得到更新後的輸入聲音頻譜；該更新後的輸入聲音頻譜作為第i+1次迭代的輸入聲音頻譜。並且，第i次迭代的完整預測聲音頻譜也將被累加至圖5中的歷史累計頻譜，該更新後的歷史累計頻譜參與第i+1次迭代。

可選的，在其他的實施方式中，所述歷史累計頻譜還可以是當前迭代之前的歷史預測聲音頻譜的加和，該歷史預測聲音頻譜是指減網路M-Net分離出的預測聲音頻譜。在更新輸入聲音頻譜時，也可以是由第i次迭代的輸入聲音頻譜中去除第i次迭代分離出的預測聲音頻譜

。

本實施例的聲音分離方法，不僅可以通過迭代式分離過程使得輸入聲音頻譜中的各種音量的聲音逐漸凸顯，從而得到更好的分離效果；而且還通過增加了加網路的處理，使得最終得到的完整預測聲音頻譜更加完整，頻譜質量更高。

介紹對於該減-加網路（Minus-Plus Net）的訓練過程：

關於訓練樣本的獲得：

為了獲得混合聲音中每個聲音分量的真實值，可以隨機選取N個只包含單個聲音的視頻，然後將這N個聲音的波形直接相加求平均，把這個平均值作為混合聲，那些單個聲音就是混合聲中每個聲音分量的真實值。而對於輸入視頻幀，可以直接拼接，也可以對單個視頻幀做空間-時間池化，得到一個k維向量，總共可以得到N個視覺特徵向量。

另外，這種單聲混合得到的視頻的製作數量，可以是足夠模型訓練的數量。

關於訓練方法：

例如，以圖5所示的減-加網路為例，該減-加網路涉及到如下幾個網路：第一網路、第二網路和第三網路。訓練過程就可以調整這三個網路中的至少任一網路的網路參數，比如可以調整三個網路的網路參數，或者也可以調整其中某一個網路的網路參數。

比如，單聲混合得到的視頻中共有N種聲音，那麼訓練過程就進行N次迭代預測。訓練階段時的聲音分離過程可以參見上述任一實施例的聲音分離方法，不再詳述。每一次迭代都能夠分離出一種聲音，得到完整預測聲音頻譜。

示例性的，訓練過程使用的損失函數可以包括第一損失函數和第二損失函數。例如，每次迭代的第一損失函數，可以用於衡量預測掩模M與餘量掩模Mr的真實值和預測值之間的誤差。比如，當掩模採用二值化掩模時，可以使用二值化交叉熵損失函數。此外，當N次迭代都執行完後，可以再使用一個第二損失函數，來用於衡量最後一次迭代完後更新的輸入聲音頻譜與空的聲音頻譜之間的誤差。一個包含N個聲音的單聲混合視頻可以是一個訓練樣本，多個樣本一起組成一個batch。

一個樣本的N次迭代結束之後進行一次反向傳播。當一個單聲混合得到的視頻進行N次迭代結束後，可以綜合上述提到的第一損失函數和第二損失函數，進行反向傳播，調整第一網路、第二網路和第三網路。接著，繼續通過下一個單聲混合得到的視頻對模型參數進行訓練調整，直至小於預定的誤差閾值或者達到預設的迭代次數。

此外，圖5所示的減-加網路的訓練可以分為三步：第一步，單獨訓練M-Net，第二步，在固定M-Net參數的情況下單獨訓練P-Net，第三步，對M-Net和P-Net進行聯合訓練。當然，也可以是只通過M-Net和P-Net聯合的方式訓練。

若聲音分離採用的網路是只有一個減網路，沒有加網路時，可以採用同上述類似的方法，對減網路中的第一網路和第二網路的網路參數進行調整。

以輸入聲音頻譜包括三種聲源，鋼琴、小提琴和長笛為例，具體描述本公開實施例提供的聲音分離方法。該聲音分離方法中共包括三次迭代，若小提琴的音量大於鋼琴，鋼琴的音量大於長笛，則在第一次迭代過程中分離出小提琴對應的第一預測聲音頻譜，在第二次迭代過程中分離出鋼琴對應的第二預測聲音頻譜，在第三次迭代過程中分離出長笛對應的第三預測聲音頻譜。

在第一次迭代過程中，獲取包括上述三種聲源的輸入聲音頻譜；根據該輸入聲音頻譜，得到k個基本分量；獲取該輸入聲音頻譜對應的輸入視頻幀；根據該輸入視頻幀，得到包括3個k維視覺特徵向量的視覺特徵圖，其中，第一個k維視覺特徵向量對應小提琴，第二個k維視覺特徵向量對應鋼琴，第三個k維視覺特徵向量對應長笛，第一個k維視覺特徵向量對應的音量大於第二個k維視覺特徵向量對應的音量，第二個k維視覺特徵向量對應的音量大於第三個k維視覺特徵向量對應的音量；基於該視覺特徵圖，選中第一個k維視覺特徵向量；將由k個基本分量組成的向量與第一個k維視覺特徵向量相乘；對這兩個向量的乘積進行非線性激活，得到第一個k維視覺特徵向量對應的第一預測掩模；將該第一預測掩模和輸入聲音頻譜進行點乘，得到第一預測聲音頻譜；從該輸入聲音頻譜中去除第一預測聲音頻譜，得到第一次更新後的輸入聲音頻譜。在得到第一次更新後額輸入聲音頻譜後，判斷第一次更新後的輸入聲音頻譜中是否包括聲音頻譜，如果是，繼續進行第二次迭代。在一些實施例中，在得到第一預測聲音頻譜後，將視覺特徵圖中第一個k維視覺特徵向量的值賦為-∞，得到第一次更新的視覺特徵圖。結合之前所述的公式5，在得到第一預測聲音頻譜後，第一個k維視覺特徵向量不會再被選中。

在第二次迭代過程中，根據第一次更新後的輸入聲音頻譜，得到k個基本分量，這k個基本分量中與小提琴對應的分量的值是0；從第一次更新的視覺特徵圖中選中對應的音量最大的第二個k維視覺特徵向量；將由k個基本分量組成的向量與第二個k維視覺特徵向量相乘；對這兩個向量的乘積進行非線性激活，得到第二個k維視覺特徵向量對應的第二預測掩模；將該第二預測掩模和輸入聲音頻譜進行點乘，得到第二預測聲音頻譜；從該第一次更新後的輸入聲音頻譜中去除第二預測聲音頻譜，得到第二次更新後的輸入聲音頻譜。在得到第二次更新後額輸入聲音頻譜後，判斷第二次更新後的輸入聲音頻譜中是否包括聲音頻譜，如果是，繼續進行第三次迭代。在一些實施例中，在得到第二預測聲音頻譜後，將第一次更新的視覺特徵圖中第二個k維視覺特徵向量的值賦為-∞，得到第二次更新的視覺特徵圖。結合之前所述的公式5，在得到第二預測聲音頻譜後，第二個k維視覺特徵向量不會再被選中。

在第三次迭代過程中，根據第二次更新後的輸入聲音頻譜，得到k個基本分量，這k個基本分量中與小提琴對應的分量的值是0，與鋼琴對應的分量的值是0；從第二次更新的視覺特徵圖中選中第三個k維視覺特徵向量；將由k個基本分量組成的向量與第三個k維視覺特徵向量相乘；對這兩個向量的乘積進行非線性激活，得到第三個k維視覺特徵向量對應的第三預測掩模；將該第三預測掩模和輸入聲音頻譜進行點乘，得到第三預測聲音頻譜；從該第二次更新後的輸入聲音頻譜中去除第三預測聲音頻譜，得到第三次更新後的輸入聲音頻譜。在得到第三次更新後額輸入聲音頻譜後，判斷第三次更新後的輸入聲音頻譜中是否包括聲音頻譜，如果否，結束迭代。

圖6提供一個實施例中的聲音分離裝置的結構示意圖，該裝置可以執行本公開任一實施例的聲音分離方法。如下的實施例對裝置部分簡單描述，該裝置各個模組的執行步驟詳細可以結合參見方法實施例部分。如圖6所示，該裝置可以包括：輸入獲取模組61、頻譜分離模組62和頻譜更新模組63。

輸入獲取模組61，用於獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應多種聲源的聲音頻譜；

頻譜分離模組62，用於對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出一個預測聲音頻譜，所述預測聲音頻譜對應所述輸入聲音頻譜中的其中一種聲源；通過更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲源對應的聲音頻譜時結束迭代；

頻譜更新模組63，用於從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到所述更新後的輸入聲音頻譜。

在一個實施例中，如圖7所示，該裝置的頻譜分離模組62可以包括：視頻處理子模組621和聲音分離子模組622。

視頻處理子模組621，用於獲取所述輸入聲音頻譜對應的輸入視頻幀，其中，所述輸入視頻幀中包含多個聲源，所述輸入聲音頻譜中的各聲音頻譜對應於所述輸入視頻幀的各聲源；

聲音分離子模組622，用於根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出一個預測聲音頻譜。

在一個實施例中，所述視頻處理子模組621，用於根據所述輸入視頻幀，得到視覺特徵圖，所述視覺特徵圖包括多個k維的視覺特徵向量，每個視覺特徵向量對應所述輸入視頻幀中的一個聲源；

所述聲音分離子模組622，用於：根據所述輸入聲音頻譜得到k個基本分量，所述k個基本分量分別表示所述輸入聲音頻譜中的不同聲音特徵，所述k為自然數；以及根據其中一個所述視覺特徵向量和所述k個基本分量，獲得一個分離出來的預測聲音頻譜，所述預測聲音頻譜的聲源是所述視覺特徵向量對應的聲源。

在一個實施例中，所述視頻處理子模組621，用於：將所述輸入視頻幀輸入特徵提取網路，輸出所述輸入視頻幀的視頻特徵；對所述視頻特徵在時間維度進行最大池化，得到包含多個視覺特徵向量的所述視覺特徵圖。

在一個實施例中，所述聲音分離子模組622，用於：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和，得到所述預測聲音頻譜。

在一個實施例中，聲音分離子模組622，用於：將所述k個基本分量和其中一個所述視覺特徵向量中的k維元素，分別相乘後加和；對加和結果進行非線性激活處理，獲得預測掩模；將所述預測掩模和首次迭代時初始的輸入聲音頻譜進行點乘，得到所述預測聲音頻譜。

在一個實施例中，所述聲音分離子模組622，用於：由所述多個視覺特徵向量中，隨機選取一個視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。

在一個實施例中，所述聲音分離子模組622，用於：由所述多個視覺特徵向量中，選取音量最大的聲源所對應的所述視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。

在一個實施例中，所述聲音分離子模組622，用於：將所述多個視覺特徵向量中的每一個視覺特徵向量，執行如下處理：所述視覺特徵向量與由所述k個基本分量組成的向量相乘，得到第一相乘結果；對非線性激活後的第一相乘結果與首次迭代的初始輸入聲音頻譜相乘，得到第二相乘結果；求取所述第二相乘結果的平均能量；選取平均能量最大值位置對應的視覺特徵向量。

在一個實施例中，如圖8所示，該裝置還可以包括：頻譜調整模組64，用於根據所述預測聲音頻譜和歷史累計頻譜，得到餘量掩模，所述歷史累計頻譜是在所述聲音分離過程中，當前迭代之前分離的歷史預測聲音頻譜的加和；基於所述餘量掩模和歷史累計頻譜，得到餘量頻譜；將所述餘量頻譜和預測聲音頻譜相加，得到所述完整預測聲音頻譜。

在一個實施例中，所述頻譜更新模組64，用於：所述輸入聲音頻譜中去除所述完整預測聲音頻譜，得到更新後的輸入聲音頻譜；所述歷史預測聲音頻譜的加和包括歷史完整預測聲音頻譜的加和。

在一個實施例中，所述頻譜分離模組62，用於：當所述更新後的輸入聲音頻譜的平均能量小於一個預設閾值時，確定所述輸入聲音頻譜未包含聲源對應的聲音頻譜。

本公開實施例還提供了一種電子設備，該設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的電腦指令，所述處理器用於在執行所述電腦指令時實現本公開任一實施例的聲音分離方法。

本公開實施例還提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，所述程式被處理器執行時實現本公開任一實施例所述的聲音分離方法。

本公開實施例還提供了一種電腦程式，所述電腦程式被處理器執行時實現本公開任一實施例所述的聲音分離方法。

本領域技術人員應明白，本公開一個或多個實施例可提供為方法、系統或電腦程式產品。因此，本公開一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本公開一個或多個實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒體（包括但不限於磁碟儲存器、CD-ROM、光學儲存器等）上實施的電腦程式產品的形式。

本公開實施例還提供一種電腦可讀儲存媒體，該儲存媒體上可以儲存有電腦程式，所述程式被處理器執行時實現本公開任一實施例描述的聲音分離方法的步驟，和/或，實現本公開任一實施例描述的加-減網路訓練方法的步驟。其中，所述的“和/或”表示至少具有兩者中的其中一個，例如，“A和/或B”包括三種方案：A、B、以及“A和B”。

本公開中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於資料處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本公開特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本公開中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的電腦軟體或韌體、包括本公開中公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本公開中描述的主題的實施例可以實現為一個或多個電腦程式，即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將訊息編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或串行存取儲存器設備、或它們中的一個或多個的組合。

本公開中描述的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式化電腦執行，以通過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可程式化門陣列）或ASIC（專用集成電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行電腦程式的電腦包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從只讀儲存器和/或隨機存取儲存器接收指令和資料。電腦的基本元件包括用於實施或執行指令的中央處理單元以及用於儲存指令和資料的一個或多個儲存器設備。通常，電腦還將包括用於儲存資料的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者電腦將可操作地與此大容量儲存設備耦接以從其接收資料或向其傳送資料，抑或兩種情況兼而有之。然而，電腦不是必須具有這樣的設備。此外，電腦可以嵌入在另一設備中，例如行動電話、個人數位助理（PDA）、行動音頻或視頻播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用串行匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存電腦程式指令和資料的電腦可讀媒體包括所有形式的非揮發性儲存器、媒介和儲存器設備，例如包括半導體儲存器設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或可移動碟）、磁光碟以及CD ROM和DVD-ROM碟。處理器和儲存器可由專用邏輯電路補充或並入專用邏輯電路中。

雖然本公開包含許多具體實施細節，但是這些不應被解釋為限制任何公開的範圍或所要求保護的範圍，而是主要用於描述特定公開的具體實施例的特徵。本公開內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變形。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和元件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式元件和系統通常可以一起集成在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附申請專利範圍的範圍以內。在某些情況下，申請專利範圍中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本公開一個或多個實施例的較佳實施例而已，並不用以限制本公開一個或多個實施例，凡在本公開一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本公開一個或多個實施例保護的範圍之內。

100~106、200~210、400~406:步驟 61:輸入獲取模組 62:頻譜分離模組 63:頻譜更新模組 621:視頻處理子模組 622:聲音分離子模組 64:頻譜更新模組

為了更清楚地說明本公開一個或多個實施例或相關技術中的技術方案，下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本公開一個或多個實施例中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。圖1示出了本公開至少一個實施例提供的一種聲音分離方法。圖2示出了本公開至少一個實施例提供的一種基於視覺的聲音分離方法。圖3是對應圖2的原理示意圖。圖4示出了本公開至少一個實施例提供的另一種聲音分離方法。圖5是對應圖4的網路結構示意圖。圖6示出了本公開至少一個實施例提供的一種聲音分離裝置的結構示意圖。圖7示出了本公開至少一個實施例提供的一種聲音分離裝置的結構示意圖。圖8示出了本公開至少一個實施例提供的一種聲音分離裝置的結構示意圖。

100~106:步驟

Claims

一種聲音分離方法，包括：獲取輸入聲音頻譜，所述輸入聲音頻譜中包括對應於多種聲源的聲音頻譜；對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜；從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到更新後的輸入聲音頻譜；通過所述更新後的輸入聲音頻譜，繼續獲得下一個分離的預測聲音頻譜，直至更新後的輸入聲音頻譜未包含聲音頻譜。
如申請專利範圍第1項所述的方法，其中對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出預測聲音頻譜的步驟包括：獲取所述輸入聲音頻譜對應的輸入視頻幀，其中，所述輸入視頻幀中包含所述多個聲源；根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出所述預測聲音頻譜。
如申請專利範圍第2項所述的方法，其中根據所述輸入視頻幀對所述輸入聲音頻譜進行頻譜分離處理，由所述輸入聲音頻譜中分離出所述預測聲音頻譜的步驟包括：根據所述輸入聲音頻譜，得到k個基本分量，所述k個基本分量分別表示所述輸入聲音頻譜中的不同聲音特徵，所述k為自然數；根據所述輸入視頻幀，得到視覺特徵圖，所述視覺特徵圖包括多個k維的視覺特徵向量，每個視覺特徵向量對應所述輸入視頻幀中的一個聲源；根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜，所述預測聲音頻譜的聲源是所述視覺特徵向量對應的聲源。
如申請專利範圍第3項所述的方法，其中根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜的步驟包括：由所述多個視覺特徵向量中，隨機選取一個視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。
如申請專利範圍第3項所述的方法，其中根據其中一個所述視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜的步驟包括：由所述多個視覺特徵向量中，選取音量最大的聲源所對應的所述視覺特徵向量；根據選取出的視覺特徵向量和所述k個基本分量，獲得所述預測聲音頻譜。
如申請專利範圍第1至5項任一所述的方法，其中由所述輸入聲音頻譜中分離出預測聲音頻譜的步驟之後，所述方法還包括：根據所述預測聲音頻譜和歷史累計頻譜，得到餘量掩模，所述歷史累計頻譜是在所述聲音分離的過程中，分離出的歷史預測聲音頻譜的加和；基於所述餘量掩模和所述歷史累計頻譜，得到餘量頻譜；將所述餘量頻譜和所述預測聲音頻譜相加，得到完整預測聲音頻譜。
如申請專利範圍第6項所述的方法，其中所述歷史預測聲音頻譜的加和包括歷史完整預測聲音頻譜的加和；從所述輸入聲音頻譜中去除所述預測聲音頻譜，得到所述更新後的輸入聲音頻譜的步驟包括：從所述輸入聲音頻譜中去除所述完整預測聲音頻譜，得到所述更新後的輸入聲音頻譜。
如申請專利範圍第1至7項任一所述的方法，其中直至所述更新後的輸入聲音頻譜未包含聲音頻譜的步驟包括：當所述更新後的輸入聲音頻譜的平均能量小於一個預設閾值時，確定所述輸入聲音頻譜未包含聲音頻譜。
一種電子設備，其中所述設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的電腦指令，所述處理器用於在執行所述電腦指令時實現申請專利範圍第1至8項任一所述的方法。
一種電腦可讀儲存媒體，其上儲存有電腦程式，其中，所述程式被處理器執行時實現申請專利範圍第1至8項任一所述的方法。