TWI831321B

TWI831321B - 音訊即時處理系統、音訊即時處理程式、及語音分析模型的訓練方法

Info

Publication number: TWI831321B
Application number: TW111129427A
Authority: TW
Inventors: 朱彥勳
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-02-01
Also published as: US20240046949A1; TW202407689A

Abstract

本發明是關於一種音訊即時處理系統、音訊即時處理程式產品、及語音分析模型的訓練方法，先對語音分析模型進行訓練，使其分析出的遮蔽資訊得以有效進行遮蔽，以取得目標音訊。如此一來，處理器可將原始音訊利用語音分析模型進行多次運算後，取得多個分析音訊及隱藏層狀態資訊，再根據依據該些分析音訊，獲得一重複音訊區段後將重複音訊區段輸出，藉以達成即時音訊處理之目的。

Description

音訊即時處理系統、音訊即時處理程式、及語音分析模型的訓練方法

本發明係關於音訊處理及音訊訓練，尤指一種音訊即時處理系統、音訊即時處理程式、及語音分析模型的訓練方法。

目前有關聲音輸出之設備(如電視、音響)，使用者在進行音量調整時，僅能將輸出的聲量整體進行提高或降低，無法針對目標聲音(如樂器聲、人聲)進行調整，這其中一個原因是因為內部音訊處理系統無法即時對音訊進行處理。

也因此本發明人認為，若可以即時對音訊進行處理，將可有效提升使用者的聽覺享受，為此，本發明人開始思考改善的方式。

有鑑於先前技術所述之內容，本發明人提供一種音訊即時處理系統，包括一語音分析模型及一處理器。

語音分析模型用以依據一原始音訊，獲得一分析結果及一隱藏層狀態資訊。處理器用以將該原始音訊，以該語音分析模型進行多次運算並對應獲得多個分析音訊及該隱藏層狀態資訊；依據該些分析音訊，獲得一重複音訊區段；及輸出該重複音訊區段。

本發明人同時提供一種語音分析模型的訓練方法，包括：

取一原始音訊進行轉換得到一相位資訊及一強度資訊；根據該強度資訊及一語音分析模型，得到一遮蔽資訊；根據該強度資訊與該遮蔽資訊，得到一強度預測資訊；以及根據該強度預測資訊、該相位資訊及一損失函數調整該語音分析模型。

本發明人同時提供一種音訊即時處理程式，用以執行下列步驟：

將一原始音訊，以一語音分析模型進行多次運算並對應獲得多個分析音訊及隱藏層狀態資訊；以及依據該些分析音訊，獲得一重複音訊區段。

本發明利用上述方法訓練語音分析模型，使得分析好的語音分析模型能有效對原始音訊進行分析(在一些實施例中語音分析模型可被利用於分離出原始音訊中的目標音訊及非目標音訊，從而處理器可利用語音分析模型以運算取得多個分析音訊進行處理，再將多個分析音訊中取得重複音訊區段進行輸出。如此一來可快速對原始音訊進行處理，以符合並提升使用者聽覺享受。

請參閱圖1所示，係關於本發明之語音分析模型的訓練方法，該方法包括下列步驟：

步驟S1：取一原始音訊進行轉換得到一相位(phase)資訊及一強度(magnitude)資訊。其中，原始音訊的取得可以透過收音元件對環境、音樂會、演唱會等進行收音而取得，也可透過擷取影音資訊內的音訊作為原始音訊，亦可透過不同種類音訊混成之方式取得，例如將樂器音訊、人聲、環境聲等進行混成後作為原始音訊，其中以混成方式取得原始音訊之實施方式請參閱後述，且，原始音訊的取樣率可以是44.1k Hz、48 k Hz 、96 k Hz 、192 k Hz。

步驟S1係對原始音訊進行一轉換，該轉換可以是傅立葉轉換(Fourier transform)、快速傅立葉轉換(fast Fourier transform)、或短時距傅立葉轉換(short-time Fourier transform、windowed Fourier transform或time-dependent Fourier transform)。以短時傅立葉轉換為例，在進行轉換的過程中，原始音訊的採樣率為48k Hz、窗口長度(window length)為4096個取樣點、位移長度(shifting length)為1024個取樣點，因此窗口長度的時間約為85.33ms(4096/48000)，位移長度的時間約為21.33ms(1024/48000)，這使得利用本發明之方法所訓練完成的語音分析模型，應用在語音辨識時具有較快速的處理速率，較低的延遲(latency)，同時兼顧音訊的清晰度。其中，窗口長度可以是512、1024、2048、4096個取樣點，前述實施例子中，窗口長度為位移長度的4倍，則位移長度是128、256、512、1024個取樣點，另外窗口長度與位移長度之間的關係但並不以此為限，窗口長度可以是位移長度的多數倍，例如2倍、8倍、16倍等。

在一些實施例中，在經過傅立葉轉換後，將原始音訊由時域轉換成頻域，也因此，相位資訊會以頻譜方式呈現出原始音訊中相位與頻率之間的關係，其中橫軸為頻率、縱軸為相位；同理，強度資訊是以頻譜方式呈現原始音訊中振幅與頻率之間的關係，其中橫軸為頻率，縱軸為振幅。

步驟S2：根據強度資訊及一語音分析模型，得到一遮蔽(mask)資訊。其中，遮蔽資訊是指對強度資訊中的部分資訊進行遮蔽，使其留下其餘強度資訊，舉例來說，當強度資訊中具有人聲資訊及樂器聲資訊，透過遮蔽資訊可選擇性將樂器聲資訊進行遮蔽，而留下具有人聲資訊的強度資訊。在一些實施例中，根據強度資訊及語音分析模型得到非目標遮蔽子資訊；在一些實施例中，根據強度資訊及語音分析模型得到目標遮蔽子資訊及非目標遮蔽子資訊。

步驟S3：根據強度資訊與遮蔽資訊，得到一強度預測資訊。其中，強度資訊具有目標強度子資訊及非目標強度子資訊，所以當目標遮蔽子資訊對強度資訊進行遮蔽時，會遮蔽住目標強度子資訊而得到非目標強度預測子資訊，同理，非目標遮蔽子資訊則是會遮蔽住強度資訊內的非目標強度子資訊，而得到目標強度預測子資訊。

步驟S4：根據強度預測資訊、相位資訊及一損失函數調整語音分析模型，在一些實施例中，步驟S4係以調整語音分析模型內的參數，此部分之實施例請參閱後述。在一些實施例中，參數是指語音分析模型中已訓練完成之權重值。其中，損失函數(loss function)又可稱之為代價函數(cost function)，是用來評估語音分析模型的分析準確程度，因此損失函數的值越小，代表語音分析模型準確程度高，反之則代表語音分析模型準確度低，須對參數進行調整，至於損失函數之實施例請參閱後述。

如此一來，透過上述步驟可對語音分析模型10進行訓練，使語音分析模型10所分析出的遮蔽資訊可有效用來遮蔽強度資訊內的資訊，以供一分離器50對強度資訊進行分離。舉例來說當原始音訊中具有人聲及樂器聲，可設定目標遮蔽子資訊為遮蔽人聲，而非目標遮蔽子資訊為遮蔽樂器聲，因此當分離器50利用目標遮蔽子資訊對強度資訊進行遮蔽後，便可分離出具有樂器聲的強度資訊，而作為非目標強度子資訊，接著將具有樂器聲的強度資訊與相位資訊進行反向傅立葉轉換時，便可取得僅具有樂器聲之音訊。同理，當分離器50利用非目標遮蔽子資訊對強度資訊進行遮蔽後，便可分離出具有人聲的強度資訊，而作為目標強度子資訊，接著將具有人聲的強度資訊與相位資訊進行反向傅立葉轉換時，便可取得僅具有人聲之音訊。

在一些實施例，步驟S1中是先將原始訊號進行離線處理或線上處理，以分離人聲為例，離線處理是進行數據增強，利用混合更多種聲音來製作更多數據，例如將人聲混合音樂而得到原始音訊，又或者由人聲、音樂、雜音三種聲音數據中，包括人聲取二種以上之聲音數據混合出原始音訊。至於線上處理則是讓數據增廣，利用隨機尺度改變原始音訊的響度，即data = data * random.uniform(low, high)，在一些實施例中low = 0.75、high = 0.9。也會進行反轉數據，即data = data [::-1]。其中，尺度適用於度量原始音訊，因此用不同大小的尺度對相同原始音訊度量後會有不同的響度。

請參閱圖2所示，在一些實施例中，語音分析模型10是先將原始音訊進行層化fc1、標準化bn1，在經過啟動函數f1後，再利用神經網絡NN進行處理，處理後的音訊再反覆經過層化fc2、fc3、標準化bn2、bn3，啟動函數f2、f3後得到遮蔽資訊，其中標準化是降低樣本之間的差異，以避免訓練過程中產生梯度消失或梯度爆炸，標準化可以是批量標準化(batch normalization, BN)，啟動函數(activation function, 又稱活化函數或激活函數)主要讓語音分析模型從資料中學習到非線性關係，啟動函數可以是step函數、sigmoid函數、tanh函數、relu函數、softmax函數；神經網絡可以是遞迴神經網絡(recurrent neural networks, RNN)、長短期記憶模型(long short-term memory, LSTM)。在一些實施例中，層化fc1、fc2、fc3為全連接層(fully connected)、標準化bn1、bn2、bn3為批次標準化，而啟動函數f1、f2、f3使用relu函數，且神經網絡NN為單向的長短期記憶模型，使訓練好的語音分析模型得以有效取得遮蔽資訊。

在一些實施例中，當步驟S2所得到的遮蔽資訊是非目標遮蔽子資訊時，進行步驟S3時，則利用非目標遮蔽子資訊將強度資訊中屬於非目標強度子資訊進行遮蔽，得到目標強度預測子資訊，以取得人聲為例，該非目標遮蔽子資訊則為對音樂、雜音等資訊進行屏蔽，如此一來強度資訊經非目標遮蔽子資訊進行遮蔽後會留下人聲。接著進行步驟S4時，如下列式1，根據目標強度預測子資訊(predict_magnitude)及目標強度子資訊(target_magnitude)，得到一頻域損失子函數(loss_freq)。其中，MAE為平均絕對值誤差(Mean absolute error，MAE)。式1 然後根據目標強度預測子資訊及相位資訊進行逆向傅立葉轉換，得到一目標預測子音訊(predict_signal)。接著如下列式2，根據原始音訊(target_signal)及目標預測子音訊，得到一時域損失子函數(loss_time)。式2 最後如下列式3，根據時域損失子函數與頻域損失子函數得到該損失函數(loss)，在一些實施例中，alpha為0.99。式3

在一些實施例中，當步驟S2所得到的遮蔽資訊是目標遮蔽子資訊及非目標遮蔽子資訊時，以下是以目標為人聲、非目標為音樂聲為例進行說明，在進行步驟S3是利用目標遮蔽子資訊及非目標遮蔽子資訊分別對強度資訊進行遮蔽，得到目標強度預測子資訊及非目標強度預測子資訊。接著進行步驟S4時如下列式4，根據目標強度預測子資訊(p_v_m)、非目標強度預測子資訊(p_m_m)、目標強度子資訊(t_v_m)、非目標強度子資訊(t_m_m)，得到一頻域損失子函數(l_f)。式4 然後如下列式5，原始音訊包括目標原始子音訊(t_v)與非目標原始子音訊(t_m)，再根據目標預測子音訊(p_v)、非目標預測子音訊(p_m)得到一時域損失子函數(l_t)；式5 接著如下列式6，根據時域損失子函數及頻域損失子函數，得到損失函數(loss)。式6

請參閱圖3及圖4所示，在介紹完語音分析模型10的訓練方法後，本發明利用訓練完後的語音分析模型10提出一種音訊即時處理系統及其音訊即時處理程式，包括一語音分析模型10及一處理器20。另外，需先聲明的是，圖4中箭頭A示意隱藏層狀態資訊之傳輸、箭頭B示意相位資訊的傳輸、箭頭C、D示意強度資訊的傳輸、箭頭E示意遮蔽資訊的傳輸、箭頭F示意遮蔽資訊對強度資訊進行遮蔽、箭頭G示意遮蔽後的強度資訊之傳輸、箭頭H示意分析音訊之傳輸。

請參閱圖3及圖4所示，語音分析模型10用以依據一原始音訊，獲得一分析結果及一隱藏層狀態資訊，在一些實施例中，該分析結果是遮蔽資訊，分離器50利用遮蔽資訊對強度資訊進行分離，此部分之實施原理及相關作動方式請參照前述語音分析模型的訓練方法，在此不再贅述。

請參閱圖4所示，處理器20用以將一原始音訊，以語音分析模型10進行多次運算並對應獲得多個該些分析音訊T00及隱藏層狀態資訊；依據該些分析音訊，獲得一重複音訊區段R；及輸出重複音訊區段R。其中，運算是指處理器20在利用語音分析模型10進行分析過程中，會將上一次的分析過程中產生的隱藏層狀態資訊作為下一次利用語音分析模型10進行分析的輸入層。在一些實施例中，運算是指長短期記憶模型(Long Short-Term Memory, LSTM)，循環神經網絡(Recurrent Neural Network, RNN)。

由上述可知，本發明可即時對原始音訊進行處理，例如即時分離出原始音訊中的目標聲音，又或者即時調整原始音訊中的目標聲音之音量大小，亦可同時調整原始音訊中目標聲音與非目標聲音之音量大小，用以突顯出目標聲音，舉例來說利用本發明可降低歌曲中屬於樂器之音訊，並保持人聲音量大小不變或提高人聲音量大小，藉此可突顯出歌曲中的人聲。

請參閱圖3，在一些實施例中，音訊即時處理系統更包括一接收元件30及一截取元件40，接收元件30用以接收來自指令輸入元件所發送的音量調整指令，音量調整指令包括目標音量調整指令，例如使用者欲調整影片中的人聲時，目標音量則為人聲音量，同理欲調整樂器音量或者環境音量時，目標音量則為相對應之樂器音量或環境音量。在一些實施例中，擷取元件40用以擷取一影音資料(如電視影像)中的音訊作為一原始音訊。其中，無論以何種形式進行傳輸音量調整指令，舉凡可供發出音量調整指令者均為本說明書所指之指令輸入元件，在一些實施例中指令輸入元件可為一鍵盤、遙控器，或是利用手機應用軟體之輔助，使智慧型手機得以發出音量調整指令至接收元件30，至於傳輸手段可為無線網路、紅外線、藍芽等。

請參閱圖4，在一些實施例中，處理器20將一影像音訊以語音分析模型10進行運算前，處理器20會將影像音訊以時間為區間，分割成多個連續原始子音訊組V10，各原始子音訊V10內包括多個子音訊(t0、t1、t2、t3、…、tn)，以圖4為例，第一原始子音訊組V11內包括連續多個子音訊(t0、t1、t2、t3)，第二原始子音訊組V12內包括多個連續子音訊(t1、t2、t3、t4)，以形成原始子音訊組V10內的尾部訊號與下一個原始子音訊組V10的頭部訊號相同。由上述可知，每次對原始子音訊組進行分析時，會將上一次原始子音訊組內部分的子音訊保留，另一部分的子音訊則剃除並加上等量其他子音訊，此種方式有助於後續進行語音分析之效率，另外，每次汰除的子音訊數量不限於上述，也可以是二或三，或是根據原始子音訊組之數量進行調整、改變，本實施例係以每次剃除一子音訊為例進行說明。在一些實施例中，子音訊之資料量為48K Hz取樣頻率下的1024個取樣點(21.33ms)。

當音訊即時處理系統的目的是輸出目標音訊時，處理器20進行第一次運算時，是將第一原始子音訊組V11以語音分析模型10及分離器50進行運算，其運算方式如前述在此不再贅述，運算後會得到一第一分析音訊T10及隱藏層狀態資訊。接著進行第二次運算時，處理器20會將第一次運算所取得之隱藏層資訊及第二原始子音訊組V12做為輸入，以利用語音分析模型10進行分析，而得到第二分析音訊T20。如此反覆進行運算，將得到第三分析音訊T30、第四分析音訊T40…，接著將各分析音訊T10~T40中重疊之部分取出做為重複音訊區段R作為目標音訊輸出。在一些實施例中，係以重疊-相加之摺積法(overlap-add method)取出重複音訊區段R。圖4中所呈現傅立葉轉換FFT及反向傅立葉轉換IFFT請參閱前述，在此不再贅述。

請參閱圖5，在一些實施例中，當音訊即時處理系統的目的是調整目標音訊的音量時，在取得目標音訊後會對目標音訊進行音量調整後，再與原始音訊進行混合而得到分析音訊，或是將目標音訊的音量維持不變但調整原始音訊的音量大小後作混合，藉以讓聲音聽起來可以更為自然、飽和。請參閱圖6，在一些實施例中，同樣遇到音訊即時處理系統的目的是調整目標音訊的音量時，會將原始音訊進行分析後得到目標音訊與非目標音訊，這時非目標音訊的音量大小不變，僅調整目標音訊的音量後，再將目標音訊與非目標音訊進行混合得到分析音訊，以使分析音訊中目標音訊的音量得以被突顯。請參閱圖7，與圖6不同之處在於非目標音訊的音量大小也會進行調整，或是使目標音訊大小不變但調小非目標音訊之音量，再將目標音訊與非目標音訊進行混合以得到分析音訊。

由上述方式可知，本發明之音訊即時處理系統及程式可即時對音訊進行處理，藉以滿足聽者對於聲音的要求，也因此，音訊即時處理系統及程式可應用於各種可發出聲音之設備，例如：音響、家庭影音設備、手機等。此外，對於智慧型手機、電腦等設備，也可利用下載方式取得音訊即時處理程式，讓原有的設備額外具有音訊即時處理之功能。

雖然本案的技術內容已經以各種實施例揭示如上，然，其並非用以限定本案之保障範圍，任何熟習本案所屬領域之通常知識者，在不脫離本案之精神所作更動或修潤，皆屬本案所欲保障之範疇內，因此本案之保障範圍應當以申請專利範圍所述之內容為准。

10:語音分析模型 20:處理器 30:接收元件 40:擷取元件 50:分離器 A~H:箭頭 FFT:傅立葉轉換 IFFT:反向傅立葉轉換 fc1~fc3:層化 bn1~bn3:標準化 f1~f3:啟動函數 NN:神經網絡 R:重複音訊區段 S1~S4:步驟 T00:分析音訊 T10:第一分析音訊 T20:第二分析音訊 T30:第三分析音訊 T40:第四分析音訊 V10:原始子音訊組 V11:第一原始子音訊組 V12:第二原始子音訊組

圖1繪示本發明一些實施例之工作流程示意圖。圖2繪示本發明一些實施例之語音分析模型工作示意圖。圖3繪示本發明一些實施例之各元件連結方塊圖。圖4繪示本發明一些實施例之運算示意圖。圖5繪示本發明一些實施例之目標音訊調整音量後與原始音訊進行混合之流程示意圖。圖6繪示本發明一些實施例之目標音訊調整音量後與非目標音訊進行混合之流程示意圖。圖7繪示本發明一些實施例之目標音訊與非目標音訊分別進行音量調整後再進行混合之流程示意圖。

S1~S4:步驟

Claims

一種音訊即時處理系統，包括：一語音分析模型，用以依據一原始音訊進行語音分析及語音訓練運算，獲得一分析結果及一隱藏層狀態資訊；及一處理器，用以：將該原始音訊，以該語音分析模型進行多次語音分析及語音訓練運算並對應獲得多個目標分析子音訊及該隱藏層狀態資訊，對每個目標分析子音訊進行音量調整後與該原始音訊進行混合，得到多個分析音訊；將該些分析音訊彼此重疊之部分取出，獲得一重複音訊區段；及輸出該重複音訊區段。
如請求項1所述之音訊即時處理系統，其中該處理器將該原始音訊，以該語音分析模型進行多次語音分析及語音訓練運算，獲得多個遮蔽資訊，該分離器再根據每個遮蔽資訊對該原始音訊進行遮蔽，得到該些目標分析子音訊。
如請求項2所述之音訊即時處理系統，其中該運算根據該分析音訊、該語音分析模型，及上一次運算產生的該隱藏層狀態資訊進行運算。
一種語音分析模型的訓練方法，包括：取一原始音訊進行傅立葉轉換得到一相位資訊及一強度資訊；根據該強度資訊及一語音分析模型進行分類，得到一遮蔽資訊；將該遮蔽資訊對該強度資訊進行遮蔽，得到一強度預測資訊；根據該強度預測資訊及該強度資訊，得到一頻域損失子函數；根據該強度預測資訊及該相位資訊，得到一預測音訊；根據該原始音訊與該預測音訊，得到一時域損失子函數；根據該時域損失子函數與該頻域損失子函數得到一損失函數；以及根據該強度預測資訊、該相位資訊及該損失函數進行分析準確度評估，以調整該語音分析模型的參數。
如請求項4所述之語音分析模型的訓練方法，其中該遮蔽資訊包括一目標遮蔽子資訊及一非目標遮蔽子資訊；該強度預測資訊包括一目標強度預測子資訊及一非目標強度預測子資訊；根據該強度預測資訊、該相位資訊及該損失函數調整該語音分析模型的步驟中，根據該目標強度預測子資訊、該非目標強度預測子資訊及該相位資訊，得到一目標預測子音訊及一非目標預測子音訊；根據該原始音訊、該目標預測子音訊、該目標預測子音訊得到該時域損失子函數；根據該目標強度預測子資訊、該目標強度預測子資訊、及該強度資訊，得到該頻域損失子函數；以及根據該時域損失子函數及該頻域損失子函數，得到該損失函數。
如請求項4或5所述之語音分析模型的訓練方法，其中該語音分析模型包括一relu函數及一長短期記憶模型(long short-term memory，LSTM)。
一種音訊即時處理程式，用以執行下列步驟：將一原始音訊，以一語音分析模型進行多次語音分析及語音訓練運算並對應獲得多個目標分析子音訊及隱藏層狀態資訊，對每個目標分析子音訊進行音量調整後與該原始音訊進行混合，得到多個分析音訊；以及將該些分析音訊彼此重疊之部分取出，獲得一重複音訊區段。