TWI768676B

TWI768676B - 音頻處理方法及音頻處理裝置以及非暫態計算機可讀取媒體

Info

Publication number: TWI768676B
Application number: TW110102634A
Authority: TW
Inventors: 冀泰石; 賴亞青; 沈奕良; 朱彥勳; 鄭家鈞
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-06-21
Also published as: US20220238128A1; TW202230341A; US11495242B2

Abstract

本發明提供音頻處理方法及裝置。該音頻處理方法可包含：利用第一捲積層電路及第二捲積層電路分別對一音頻混合訊號進行捲積處理，以產生一輸入特徵圖；對該輸入特徵圖進行對應於一預定神經網路模型的分離處理，以取得分別對應於第一類型及第二類型的第一輸出特徵圖及第二輸出特徵圖；以及利用第一去捲積層電路及第二去捲積層電路分別對該第一輸出特徵圖的不同部分進行去捲積處理，且利用該第一去捲積層電路及該第二去捲積層電路分別對該第二輸出特徵圖的不同部分進行去捲積處理，以產生對應的處理結果，以供產生多個音頻輸出訊號。

Description

音頻處理方法及音頻處理裝置以及非暫態計算機可讀取媒體

本發明是關於訊號處理(signal processing)，尤指一種音頻處理(audio processing)方法及音頻處理裝置，諸如基於多長度捲積/去捲積層的(multi-length-convolution/deconvolution-layer-based)音頻處理方法及裝置，以及非暫態計算機可讀取媒體(non-transitory computer-readable medium)。

音頻分離(audio separation)旨在分離音頻混合訊號(audio mixture signal)並提取我們感興趣的部分。它可以應用於許多不同的領域，例如耳機、揚聲器和電視產業，以改善用戶體驗。舉例來說，歌聲(singing voice)分離可將音頻混合訊號分離為人聲和背景音樂。乾淨的人聲可以用於歌手識別(singer identification)、自動歌詞轉錄(automatic lyrics transcriptions)、音調追踪(pitch tracking)、人聲增強效果(vocal enhancement effect)等。分離的背景音樂也可能是用於娛樂的資產(asset)。因此，需要一種新穎的方法及相關架構，以在沒有副作用或較不可能帶來副作用之狀況下實現可靠的音頻分離處理。

本發明之一目的在於提供一種音頻處理方法及音頻處理裝置，諸如基於多長度捲積/去捲積層的音頻處理方法及裝置，以及非暫態計算機可讀取媒體，以解決上述問題。

本發明之另一目的在於提供一種音頻處理方法及音頻處理裝置，諸如基於多長度捲積/去捲積層的音頻處理方法及裝置，以及非暫態計算機可讀取媒體，以提升針對音頻處理的神經網路(neural network)架構的整體效能。

本發明之至少一實施例提供一種音頻處理方法，其中該方法是可應用於(applicable to)具備音頻處理功能的一電子裝置(例如電視、影音系統等)。該方法可包含：利用一第一捲積(convolution)層電路及一第二捲積層電路分別對一音頻混合訊號進行捲積處理，以產生一輸入特徵圖(feature map)，其中該第一捲積層電路及該第二捲積層電路中的每一捲積層電路包含多層一維(one-dimensional,1D)捲積內核(convolution kernel)，以及該第一捲積層電路及該第二捲積層電路的捲積內核層長度分別等於一第一長度及一第二長度；對該輸入特徵圖進行對應於一預定神經網路模型的分離處理，以取得分別對應於一第一類型及一第二類型的一第一輸出特徵圖及一第二輸出特徵圖；以及利用一第一去捲積(deconvolution)層電路及一第二去捲積層電路分別對該第一輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第一音頻輸出訊號，且利用該第一去捲積層電路及該第二去捲積層電路分別對該第二輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第二音頻輸出訊號，其中該第一去捲積層電路及該第二去捲積層電路中的每一去捲積層電路包含多層一維捲積內核，以及該第一去捲積層電路及該第二去捲積層電路的捲積內核層長度分別等於該第一長度及該第二長度。

本發明之至少一實施例提供一種音頻處理裝置。該音頻處理裝置可包含：一音頻訊號分析器，其中該音頻訊號分析器包含一第一捲積層電路及一第二捲積層電路；一分離器，耦接至該音頻訊號分析器；以及一音頻訊號合成器，耦接至該分離器，其中該音頻訊號合成器包含一第一去捲積層電路及一第二去捲積層電路。例如：該第一捲積層電路及該第二捲積層電路可用來分別對一音頻混合訊號進行捲積處理，以產生一輸入特徵圖，其中該第一捲積層電路及該第二捲積層電路中的每一捲積層電路包含多層一維捲積內核，以及該第一捲積層電路及該第二捲積層電路的捲積內核層長度分別等於一第一長度及一第二長度；該分離器可用來對該輸入特徵圖進行對應於一預定神經網路模型的分離處理，以取得分別對應於一第一類型及一第二類型的一第一輸出特徵圖及一第二輸出特徵圖；以及該第一去捲積層電路及該第二去捲積層電路可用來分別對該第一輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第一音頻輸出訊號，且利用該第一去捲積層電路及該第二去捲積層電路分別對該第二輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第二音頻輸出訊號，其中該第一去捲積層電路及該第二去捲積層電路中的每一去捲積層電路包含多層一維捲積內核，以及該第一去捲積層電路及該第二去捲積層電路的捲積內核層長度分別等於該第一長度及該第二長度。

本發明之至少一實施例提供一種非暫態計算機可讀取媒體，其儲存有計算機可讀取指令碼使得一音頻處理裝置於執行所述計算機可讀取指令碼時進行一音頻處理程序，該音頻處理程序包含：利用一第一捲積層電路及一第二捲積層電路分別對一音頻混合訊號進行捲積處理，以產生一輸入特徵圖，其中該第一捲積層電路及該第二捲積層電路中的每一捲積層電路包含多層一維捲積內核，以及該第一捲積層電路及該第二捲積層電路的捲積內核層長度分別等於一第一長度及一第二長度；對該輸入特徵圖進行對應於一預定神經網路模型的分離處理，以取得分別對應於一第一類型及一第二類型的一第一輸出特徵圖及一第二輸出特徵圖；以及利用一第一去捲積層電路及一第二去捲積層電路分別對該第一輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第一音頻輸出訊號，且利用該第一去捲積層電路及該第二去捲積層電路分別對該第二輸出特徵圖的不同部分進行去捲積處理以產生對應的處理結果，以產生一第二音頻輸出訊號，其中該第一去捲積層電路及該第二去捲積層電路中的每一去捲積層電路包含多層一維捲積內核，以及該第一去捲積層電路及該第二去捲積層電路的捲積內核層長度分別等於該第一長度及該第二長度。

本發明的音頻處理方法及音頻處理裝置可藉助於不同長度的捲積層以及不同長度的去捲積層來進行音頻處理，以提升針對音頻處理的神經網路架構的整體效能。相較於相關技術，本發明的音頻處理方法及音頻處理裝置可大幅地改善音頻分離處理的聲音輸出的品質。

100:音頻處理裝置

110:音頻訊號分析器

110C:捲積層模組

110S:儲存電路

111,112:捲積層電路

120:分離器

120T:TCN分離模組

120K:遮罩模組

120MA,120MB:乘法器

130:音頻訊號合成器

130D:去捲積層模組

130S:儲存電路

131,132:去捲積層電路

130AA,130AB:加法器

FM0,FM1,FM2:特徵圖

FM01,FM02,FM11,FM12,FM21,FM22:局部特徵圖

MIXTURE(t):音頻混合訊號

VOCAL(t),MUSIC(t):音頻輸出訊號

120M:乘法電路

130A:加法電路

M,N,H,K:參數

S10~S30:步驟

100M:非暫態計算機可讀取媒體

100P:計算機可讀取指令碼

100C:控制電路

101:處理器

第1圖為依據本發明一實施例之一種音頻處理裝置的示意圖。

第2圖是依據本發明一實施例繪示的一種音頻處理方法的一基於多長度捲積/去捲積層的控制方案的示意圖。

第3圖繪示該音頻處理方法所涉及的1D捲積/去捲積層的例子。

第4圖繪示該音頻處理方法所涉及的特徵圖的例子。

第5圖繪示該音頻處理方法所涉及的遮罩(mask)的例子。

第6圖依據本發明一實施例繪示該音頻處理方法的流程圖。

第7圖依據本發明一實施例繪示該音頻處理方法所涉及的一種非暫態計算機可讀取媒體。

本發明的一或多個實施例提供一種音頻處理方法及音頻處理裝置以提升針對音頻處理的神經網路架構的整體效能。相較於採用短時傅立葉變換(short time Fourier transform，簡稱STFT)的傳統音頻分離方法，時域神經網路 (time-domain neural network)諸如全捲積時域音頻分離網路(fully-convolutional time-domain audio separation network，簡稱Conv-TasNet)，其可視為一種端到端音頻分離模型(end-to-end audio separation model)，能達到更好的性能。Conv-TasNet的編碼器和解碼器中的多個一維(one-dimensional，簡稱1D)捲積內核(convolution kernel)的長度相對較短並且長度都相同，這意味著編碼器輸出的內容具有較高的時間分辨率(temporal resolution)但具有較低的頻率分辨率(frequency resolution)。肇因於上述較低的頻率分辨率，聲音的諧波之間的多個時頻區域(time-frequency region)不能被妥善地解析(resolve)，所以音頻混合訊號不能被妥善地分離。基於Conv-TasNet的基本架構，本發明的音頻處理方法及音頻處理裝置可藉助於不同長度的捲積(convolution)層以及不同長度的去捲積(deconvolution)層來進行音頻處理，以提升針對音頻處理的神經網路架構的整體效能。

針對上述Conv-TasNet，請參照下列文件：Yi Luo,and Nima Mesgarani,“Conv-TasNet：Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation”,Transactions on Audio,Speech,and Language Processing(TASLP)2019,IEEE；通過以上參照，這個文件的整體被納入本發明的說明以提供某些相關實施細節的支持。

第1圖為依據本發明一實施例之一種音頻處理裝置100的示意圖，其中音頻處理裝置100可作為上述音頻處理裝置的例子。為了便於理解，音頻處理裝置100可代表具備音頻處理功能的一電子裝置(例如電視、影音系統等)，但本發明不限於此。於某些實施例中，音頻處理裝置100可包含該電子裝置的至少一部分(例如一部分或全部)。例如，音頻處理裝置100可包含該電子裝置的一部分，諸如該電子裝置的一控制電路，其可藉由積體電路(Integrated Circuit,IC)等方式來實施。再例如，音頻處理裝置100可包含儲存於該電子裝置中的非暫態計算機可讀取媒體(例如，記憶體)當中的特定計算機可讀取指令碼(例如，軟體指令碼或韌體指令碼)，該電子裝置的該控制電路或其他特殊功能電路可藉由執行該計算機可讀取指令碼以實施以下實施例所述之操作。又例如，音頻處理裝置100可包含該電子裝置的全部，諸如該電子裝置的整體(例如，包含軟體、韌體及硬體)。如第1圖所示，音頻處理裝置100可包含一音頻訊號分析器110及一音頻訊號合成器130，且包含一分離器120，其中分離器120耦接至音頻訊號分析器110，而音頻訊號合成器130耦接至分離器120。音頻訊號分析器110可包含一捲積層模組110C及一儲存電路110S，分離器120可包含一時間捲積網路(temporal convolution network，簡稱TCN)分離模組120T、一遮罩(mask)模組120K以及多個乘法器120MA及120MB，且音頻訊號合成器130可包含一去捲積層模組130D、一儲存電路130S以及多個加法器130AA及130AB。另外，捲積層模組110C可包含捲積層電路111及112，且捲積層電路111及112中的每一捲積層電路可包含多層1D捲積內核。捲積層電路111及112的各自的捲積內核層長度彼此不同，尤其，捲積層電路111及112的捲積內核層長度可分別等於一第一長度諸如長度M及一第二長度諸如長度N。此外，去捲積層模組130D可包含去捲積層電路131及132，且去捲積層電路131及132中的每一去捲積層電路可包含多層1D捲積內核。去捲積層電路131及132的各自的捲積內核層長度彼此不同，尤其，去捲積層電路131及132的捲積內核層長度可分別等於該第一長度諸如長度M及該第二長度諸如長度N。在一些實施例中，音頻訊號分析器110及音頻訊號合成器130可分別為音頻訊號編碼器及音頻訊號解碼器，但本發明不限於此。

針對上述Conv-TasNet，由於捲積/去捲積計算、TCN分離、遮罩處理(masking processing)等連同對應的捲積/去捲積層計算單元、TCN分離模組、遮罩等的實施方式為熟習Conv-TasNet領域的人士所熟知，故相關細節在此予以省略。本發明所提出的架構，諸如第1圖所示架構，可利用不同長度的捲積層來進行音頻訊號分析/編碼以及利用不同長度的去捲積層來進行音頻訊號合成/解碼，以提升整體效能。

基於第1圖所示架構，捲積層電路111及112可分別對一音頻混合訊號MIXTURE(t)進行捲積處理，以產生一輸入特徵圖FM0。舉例來說，捲積層電路111可對音頻混合訊號MIXTURE(t)的多個樣本(sample)進行對應於該第一長度諸如長度M的捲積處理，以產生輸入特徵圖FM0的一局部(partial)特徵圖FM01，且捲積層電路112可對音頻混合訊號MIXTURE(t)的該多個樣本進行對應於該第二長度諸如長度N的捲積處理，以產生輸入特徵圖FM0的一局部特徵圖FM02。儲存電路110S的多個儲存區(例如儲存區#1及#2)可暫時地儲存這些局部特徵圖FM01及FM02，且音頻訊號分析器110可組合這些局部特徵圖FM01及FM02成為輸入特徵圖FM0，以供輸入至分離器120中。

另外，分離器120可對輸入特徵圖FM0進行對應於一預定神經網路模型(例如：上述端到端音頻分離模型諸如Conv-TasNet模型)尤其對應於其內的分離模組之分離處理，以取得分別對應於一第一類型諸如類型A及一第二類型諸如類型B的輸出特徵圖FM1及FM2。舉例來說，分離器120可利用對應於該預定神經網路模型的TCN模組120T對輸入特徵圖FM0進行該分離處理(例如該TCN分離)以產生分別對應於該第一類型(例如類型A)及該第二類型(例如類型B)的遮罩#1及#2，以及利用乘法器120MA對輸入特徵圖FM0及對應於該第一類型的遮罩#1進行乘法計算以產生輸出特徵圖FM1，且利用乘法器120MB對輸入特徵圖FM0及對應於該第二類型的遮罩#2進行乘法計算以產生輸出特徵圖FM2。

此外，去捲積層電路131及132可分別對輸出特徵圖FM1的不同部分進行去捲積處理以產生對應的處理結果，以產生對應於該第一類型諸如類型A的一第一音頻輸出訊號，諸如音頻輸出訊號VOCAL(t)。舉例來說，音頻訊號合成器130可從分離器120接收輸出特徵圖FM1，且利用儲存電路130S的一組儲存區暫時地儲存輸出特徵圖FM1的上述不同部分，尤其，進行下列操作：(1)利用去捲積層電路131對輸出特徵圖FM1的一局部特徵圖FM11進行對應於該第一長度(例如長度M)的去捲積處理，以產生對應於局部特徵圖FM11的一組第一中間樣本；(2)利用去捲積層電路132對輸出特徵圖FM1的一局部特徵圖FM12(於圖中繪示為位於另一局部特徵圖FM2的圖層下方，僅以標號標記)進行對應於該第二長度的(例如長度N)去捲積處理，以產生對應於局部特徵圖FM12的一組第二中間樣本；以及(3)利用加法器130AA分別對對應於局部特徵圖FM11的該組第一中間樣本以及對應於局部特徵圖FM12的該組第二中間樣本進行加法計算，以產生一組加法計算結果作為該第一音頻輸出訊號(諸如音頻輸出訊號VOCAL(t))的多個樣本，其中該第一音頻輸出訊號諸如音頻輸出訊號VOCAL(t)可載有這多個樣本。

相仿地，去捲積層電路131及132可分別對輸出特徵圖FM2的不同部分進行去捲積處理以產生對應的處理結果，以產生對應於該第二類型諸如類型B的一第二音頻輸出訊號，諸如音頻輸出訊號MUSIC(t)。舉例來說，音頻訊號合成器130可從分離器120接收輸出特徵圖FM2，且利用儲存電路130S的另一組儲存區暫時地儲存輸出特徵圖FM2的上述不同部分，尤其，進行下列操作：(1)利用去捲積層電路131對輸出特徵圖FM2的一局部特徵圖FM21進行對應於該第一長度(例如長度M)的去捲積處理，以產生對應於局部特徵圖FM21的一組第一中間樣本；(2)利用去捲積層電路132對輸出特徵圖FM2的一局部特徵圖FM22進行對應於該第二長度(例如長度N)的去捲積處理，以產生對應於局部特徵圖FM22的一組第二中間樣本；以及(3)利用加法器130AB分別對對應於局部特徵圖FM21的該組第一中間樣本以及對應於局部特徵圖FM22的該組第二中間樣本進行加法計算，以產生一組加法計算結果作為該第二音頻輸出訊號(諸如音頻輸出訊號MUSIC(t))的多個樣本，其中該第二音頻輸出訊號諸如音頻輸出訊號MUSIC(t)可載有這多個樣本。

為了便於理解，於第1圖中繪示了非分離路徑、類型A分離路徑(例如對應於類型A的分離路徑)及類型B分離路徑(例如對應於類型B的分離路徑)，以分別指出相關資料的資料路徑及其上的資料流，但本發明不限於此。另外，上列訊號(例如音頻混合訊號MIXTURE(t)、音頻輸出訊號VOCAL(t)及MUSIC(t))的各自的符號中的「(t)」可指出這些訊號分別是時間的函數。在一些實施例中，該類型A及該類型B可根據音頻的特定頻率(例如，成年男性的人聲基本頻率大致為85~180Hz，成年女性的人聲基本頻率則大致為165~255Hz)來區分，該類型A大致對應於音頻混合訊號MIXTURE(t)當中的人聲成分(故標示為音頻輸出訊號VOCAL(t))，而該類型B大致對應於音頻混合訊號MIXTURE(t)當中的音樂(或稱背景)成分(故標示為音頻輸出訊號MUSIC(t))。

依據某些實施例，捲積層電路111可包含分別具有該第一長度(例如長度M)的一組1D捲積層，作為捲積層電路111中的該多層1D捲積內核。捲積層電路112可包含分別具有該第二長度(例如長度N)的一組1D捲積層，作為捲積層電路112中的該多層1D捲積內核。另外，去捲積層電路131可包含分別具有該第一長度(例如長度M)的一組1D去捲積層，作為去捲積層電路131中的該多層1D捲積內核。去捲積層電路132可包含分別具有該第二長度(例如長度N)的一組1D去捲積層，作為去捲積層電路132中的該多層1D捲積內核。

第2圖是依據本發明一實施例繪示的一種音頻處理方法的一基於多長度捲積/去捲積層的控制方案的示意圖。該方法是可應用於第1圖所示的音頻處理裝置100，尤其，具備音頻處理功能的該電子裝置(例如電視、影音系統等)。舉例來說，該第一長度可代表長度M，而該第二長度可代表長度N。為了便於理解，於第2圖中繪示了具有長度M的1D捲積/去捲積層(例如捲積層電路111中的該組1D捲積層及去捲積層電路131中的該組1D去捲積層)、具有長度N的1D捲積/去捲積層(例如捲積層電路112中的該組1D捲積層及去捲積層電路132中的該組1D去捲積層)、對應於具有長度M的1D捲積層(例如捲積層電路111中的該組1D捲積層)的特徵圖(例如局部特徵圖FM01、FM11及FM21)以及對應於具有長度N的1D捲積層(例如捲積層電路112中的該組1D捲積層)的特徵圖(例如局部特徵圖FM02、FM12及FM22)，但本發明不限於此。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第3圖繪示該音頻處理方法所涉及的1D捲積/去捲積層的例子，第4圖繪示該音頻處理方法所涉及的特徵圖的例子，且第5圖繪示該音頻處理方法所涉及的遮罩的例子，其中參數諸如M、N、H、K等可指出相關的1D捲積/去捲積層、特徵圖/局部特徵圖以及遮罩的大小。舉例來說，M、N、H及K中的任一者可為大於一的正整數，而在一些實施例中，H>M>N且H可遠大於M及N，但本發明不限於此。如第3圖所示，捲積層電路111中的任一捲積層的長度以及去捲積層電路131中的任一去捲積層的長度都等於長度M，捲積層電路112中的任一捲積層的長度以及去捲積層電路132中的任一去捲積層的長度都等於長度N，且捲積層電路111及112中的每一捲積層電路的層數以及去捲積層電路131及132中的每一去捲積層電路的層數都等於K。如第4圖所示，特徵圖FM0、FM1及FM2中的每一特徵圖的寬度及高度分別等於H及2K(例如，(K+K)=2K)，且特徵圖FM0、FM1及FM2的各自的局部特徵圖{FM01,FM02}、{FM11,FM12}及{FM21,FM22}中的每一局部特徵圖的寬度及高度分別等於H及K。如第5圖所示，遮罩#1及#2中的每一遮罩的寬度及高度分別等於H及2K。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

承前所述，若該類型A對應於音頻混合訊號MIXTURE(t)當中的人聲成分而該類型B對應於音頻混合訊號MIXTURE(t)當中的音樂成分，表示本發明的音頻處理方法可分別對音頻混合訊號MIXTURE(t)當中不同頻率的成分(前述實施例中的人聲成分與音樂成分)採用不同的捲積內核長度來處理，以期獲得優於先前技術以相同內核長度來處理的效果。

依據某些實施例，H=1001，M=480(對應於類型A分離路徑當中的捲積層/去捲積層的捲積內核長度)，N=32(對應於類型B分離路徑當中的捲積層/去捲積層的捲積內核長度)，且K=256，但本發明不限於此。為了簡明起見，於這些實施例中類似的內容在此不重複贅述。

表1展示依據本發明多個實施例中透過音頻處理裝置100來處理公開於網際網路的DSD100音頻資料組所得的實驗結果，表2展示依據本發明多個實施例中透過音頻處理裝置100來處理上述DSD100音頻資料組所得的實驗結果，而表3展示依據先前技術來處理上述DSD100音頻資料組所得的實驗結果，其中表1及表2中的每一表的任一組實驗結果對應於多個內核長度(標示為「(長，短)」以求簡明)，而表3的任一組實驗結果對應於一個內核長度。

表4展示依據本發明多個實施例中透過音頻處理裝置100來處理公開於網際網路的MUSDB18音頻資料組所得的實驗結果，表5展示依據本發明多個實施例中透過音頻處理裝置100來處理上述MUSDB18音頻資料組所得的實驗結果，而表6展示依據先前技術來處理上述MUSDB18音頻資料組所得的實驗結果，其中表4及表5中的每一表的任一組實驗結果對應於多個內核長度(標示為「(長，短)」以求簡明)，而表6的任一組實驗結果對應於一個內核長度。

表1~6中的欄位「邁步」(Stride)係指神經網路模型訓練中進行捲積運算時捲積層內核所移動的步數，其意義為熟習此領域者所熟知，故不贅述。另外，表1~6中的後續欄位包含人聲及音樂的各自的源失真比(Source to Distortion Ratio,SDR)及源失真比改善(Source to Distortion Ratio improvement,SDRi)平均(Mean)，以下分別簡稱SDR及SDRi。

表1~6指出依據本發明一些實施例來處理所得的實驗結果與依據先前技術來處理所得的實驗結果之間的差異。表1~2及表4~5分別顯示了在一些實施例中根據本發明的音頻處理裝置100以不同捲積層/去捲積層的捲積內核長度處理特定音頻資料組(例如，表1~2所處理的音頻資料組是公開於網際網路的DSD100音頻資料組，表4~5所處理的音頻資料組是公開於網際網路的MUSDB18音頻資料組)所得到的實驗結果。表3及表6則分別顯示了根據先前技術(傳統的Conv-TasNet)以相同捲積層/去捲積層的捲積內核長度處理上述特定音頻資料組(例如，表3所處理的音頻資料組是上述DSD100音頻資料組，表6所處理的音頻資料組是上述MUSDB18音頻資料組)所得到的實驗結果。

於實驗結果所示的多種組合中，又以前述的M=480且N=32的狀況為優選。在此狀況下，可以得到最大的SDR數值以及SDRi數值。

如實驗結果所示，SDR數值越大表示分離出的訊號與目標訊號越相近且較不受其他聲源訊號的干擾。SDRi則是一種增強的SDR，其計算方式可包含：(1)以未分離的訊號(例如前述的音頻混合訊號MIXTURE(t))與目標訊號來進行SDR計算以取得第一SDR；(2)以分離後的訊號與目標訊號來進行SDR計算以取得第二SDR；以及(3)依據第一SDR及第二SDR進行減法計算以產生一SDR差值，諸如將第二SDR減去第一SDR所獲得的數值，以作為SDRi；其中SDRi可用以表示分離後訊號相較於未分離訊號的優化程度。

而無論在表1~3或表4~6中，根據本發明的音頻處理裝置100以不同捲積層/去捲積層的捲積內核長度進行音頻處理時所獲得的實驗結果皆優於根據先前技術以相同捲積層/去捲積層的捲積內核長度進行音頻處理時所獲得的實驗結果。然應理解，不同資料組的特性差異可能影響所選擇的捲積內核長度，本發明的應用不以獲得實驗結果所使用的資料組及捲積內核長度為限制。一般而言，當未分離訊號中含有較複雜的樂器成分時，採用本發明的裝置/方法來處理會達到更佳的效果。

第6圖依據本發明一實施例繪示該音頻處理方法的流程圖。

於步驟S10中，音頻處理裝置100可利用捲積層電路111及112分別對音頻混合訊號MIXTURE(t)進行捲積處理，以產生輸入特徵圖FM0。

於步驟S20中，音頻處理裝置100可利用分離器120對輸入特徵圖FM0進行對應於該預定神經網路模型的分離處理，以取得分別對應於該第一類型諸如類型A及該第二類型諸如類型B的輸出特徵圖FM1及FM2。

於步驟S30中，音頻處理裝置100可利用去捲積層電路131及132分別對輸出特徵圖FM1的不同部分進行去捲積處理以產生對應的處理結果，以產生對應於該第一類型諸如類型A的該第一音頻輸出訊號，諸如音頻輸出訊號VOCAL(t)，且利用去捲積層電路131及132分別對輸出特徵圖FM2的不同部分進行去捲積處理以產生對應的處理結果，以產生對應於該第二類型諸如類型B的該第二音頻輸出訊號，諸如音頻輸出訊號MUSIC(t)。

為了簡明起見，於本實施例中類似的內容在此不重複贅述。

為了更好地理解，該音頻處理方法可用第6圖所示之工作流程來說明，但本發明不限於此。依據某些實施例，一個或多個步驟可於第6圖所示之工作流程中增加、刪除或修改。

依據某些實施例，該音頻處理方法可另包含執行一訓練程序，其中該訓練程序包含：依據預定輸入音頻訊號、對應於類型A的預定音頻輸出訊號及對應於類型B的預定音頻輸出訊號，對這個模型進行訓練以訓練(例如調整)這個模型的參數，以透過多次進行該訓練，使這個模型的參數達到這些參數之各自的最終值來完成訓練，以供進行上述音頻訊號處理。

第7圖依據本發明一實施例繪示該音頻處理方法所涉及的一種非暫態計算機可讀取媒體100M，其中非暫態計算機可讀取媒體100M儲存有計算機可讀取指令碼100P(computer-readable instruction code)使得音頻處理裝置100(例如，該電子裝置的該控制電路，諸如本實施例的控制電路100C，尤其，其內的處理器101)於執行上述計算機可讀取指令碼100P時進行一音頻處理程序諸如上述音頻處理(例如，上列實施例中所述的各種操作)。處理器101可代表控制電路100C中之至少一處理器(例如一或多個處理器)。為了便於理解，運行著上述計算機可讀取指令碼100P的處理器101(例如，處理器101的多個局部電路，諸如單一處理器的多個子電路、單一處理器的多個處理器核心、多個處理器/處理器核心等)可被配置為第1圖所示架構(例如音頻訊號分析器110、分離器120及音頻訊號合成器130，於第7圖中僅以標號標記)。非暫態計算機可讀取媒體100M可代表某一儲存裝置/元件，其可藉由硬式磁碟機、固態硬碟、通用快閃記憶體儲存(Universal Flash Storage,UFS)裝置、非揮發性記憶體元件(例如電子可抹除可編程唯讀記憶體(Electrically-Erasable Programmable Read-Only Memory,EEPROM)及快閃(Flash)記憶體)等方式來實施，但本發明不限於此。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

依據某些實施例，前述音頻訊號分析器110、分離器120及音頻訊號合成器130可藉由運行著軟體的一處理電路(例如處理器101)等方式來實施，而運行著軟體的該處理電路所產生的中介資料(intermediate data)可以藉由利用該電子裝置的記憶體來儲存/暫存。例如，在該電子裝置(例如電視)的該控制電路係被實施為IC(例如電視IC)的情況下，這個記憶體可位於此IC上。

本發明的多頻率分辨率架構(multi-frequency-resolution architecture，簡稱MF架構)，諸如第1圖、第2圖等所示實施例的架構，可將分別具有不同長度的兩類型的1D捲積內核一起應用於一神經網路模型，以同時提供不同頻率分辨率(承前所述，人聲成分及音樂成分，舉例來說)的內容，尤其，使對應的MF模型(例如，具備該MF架構的該神經網路模型)中的捲積內核能夠充當具有不同頻率分辨率的帶通濾波器以及學習用不同分辨率內核來分析不同頻率的訊號，其中這種現象與人耳蝸(human cochlear)的功能是一致的。因此，本發明的音頻處理方法及音頻處理裝置可大幅地改善音頻分離處理的聲音輸出的品質。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。