TWI759591B

TWI759591B - 語音增強方法及系統

Info

Publication number: TWI759591B
Application number: TW108111477A
Authority: TW
Inventors: 熊蓶蓶
Original assignee: 威聯通科技股份有限公司
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2022-04-01
Also published as: US20200312343A1; TW202038216A; US11482235B2

Abstract

本文提供了一種語音增強方法及系統，此方法利用數位訊號處理及神經網路分兩階段進行降噪操作，其中，經過數位訊號降噪處理後的結果被提供至神經網路進行降噪，而神經網路負責語音脈衝檢測以及第二階段的降噪，並且將語音脈衝檢測結果迴授至數位訊號降噪處理以協助在數位訊號降噪處理過程中建立更好的噪音模型。

Description

語音增強方法及系統

本發明是有關於一種語音增強方法及系統，特別是有關於一種兩階段降噪的語音增強方法及系統。

隨著行動語音助理以及智慧音箱的普及，科技產品對語音處理的需求日增月益。現實中這些裝置的準確度會被周圍的環境噪音所影響，例如在人聲喧鬧的餐廳，使用者即使嘴巴很靠近收音裝置，也不一定能夠被裝置正確判讀。現有的技術未能揭示解決低訊噪比及非穩態（non-stationary）噪音的手段，因此亟需要提供一種對低訊噪比與非穩態噪音能有理想效果的語音增強系統及其方法，以克服先前技術所存在的問題。

有鑑於此，本說明提供一種語音增強方法及系統，其提供更好的處理低訊噪比及非穩態噪音的能力，因此語音裝置在這類環境中進行語音判讀時能夠更容易得到正確的判讀結果。

從一個角度來看，本說明提供一種語音增強方法，其包括以下步驟：獲取聲音內容；將聲音內容轉換為連續的多個數位聲音訊號，這些數位聲音訊號包括一個第n數位聲音訊號與接續於其後的一個第n+1數位聲音訊號，其中，每一個數位聲音訊號對應至聲音內容中的一個音框，每一個數位聲音訊號包括一個頻譜訊號及一個相位訊號，且第n數位聲音訊號所對應的音框與第n+1數位聲音訊號所對應的音框有部分重疊；依序處理這些數位聲音訊號以產生對應的多個降噪後聲音訊號；以及輸出所產生的降噪後聲音訊號作為聲音內容經語音增強後的結果。其中，在依序處理數位聲音訊號以產生對應的多個降噪後聲音訊號的時候，包括以下步驟：根據一個穩態降噪條件來處理第n數位聲音訊號，藉此降低第n數位聲音訊號中的穩態噪音而產生對應的一個第n失真語音訊號；使第一神經網路根據此第n數位聲音訊號而產生對應的一個第n語音脈衝檢測訊號；使第二神經網路根據第n數位聲音訊號、第n失真語音訊號及第n語音脈衝檢測訊號而產生一個第n降噪訊號，其中，第n降噪訊號是降低前述第n失真語音訊號的非穩態噪音後所得的訊號；結合第n降噪訊號及第n數位聲音訊號的該相位訊號，產生一個前述的降噪後聲音訊號；以及根據第n語音脈衝檢測訊號決定調整前述的穩態降噪條件的方式，並根據調整後的穩態降噪條件處理第n+1數位聲音訊號以降低第n+1數位聲音訊號中的穩態噪音而產生對應的一個第n+1失真語音訊號。

在一個實施例中，在根據該穩態降噪條件，處理第n數位聲音訊號以降低第n數位聲音訊號中的穩態噪音而產生對應的第n失真語音訊號的時候，包括以下步驟：首先獲取一個先驗信噪比，並以此先驗信噪比為前述的穩態降噪條件；之後再根據此先驗信噪比調整第n數位聲音訊號的內容，產生第n失真語音訊號。

在一個實施例中，在根據第n語音脈衝檢測訊號決定調整穩態降噪條件的方式的時候，包括以下步驟：判斷第n語音脈衝檢測訊號是否大於臨界值；當第n語音脈衝檢測訊號小於臨界值時，先以第n數位聲音訊號的內容為噪音，更新表示噪音的噪音平均強度及噪音方差值，接著再根據更新後的噪音平均強度及噪音方差值，計算並更新前述的先驗信噪比；而當第n語音脈衝檢測訊號不小於臨界值時，則不調整先驗信噪比。

在一個實施例中，在使第一神經網路根據第n數位聲音訊號而產生對應的第n語音脈衝檢測訊號時，更將第n語音脈衝檢測訊號的值限制在0到1之間。

在一個實施例中，在使第一神經網路根據第n數位聲音訊號而產生對應的第n語音脈衝檢測訊號的時候，包括以下步驟：輸入第一輸入內容至第一神經網路，此第一輸入內容包含第n數位聲音訊號及與第n數位聲音訊號相近的至少一個數位聲音訊號，其中，不同時間輸入的第一輸入內容不完全相同；以第一神經網路處理第一輸入內容而產生對應的多個預測值，這些預測值包括對應至第n數位聲音訊號的第n預測值；以及根據第一神經網路處理在不同時間輸入的多個第一輸入內容所產生的多個第n預測值，藉此產生第n語音脈衝檢測訊號。

在一個實施例中，當執行前述根據第一神經網路處理在不同時間輸入的多個第一輸入內容所產生的多個第n預測值，藉此產生第n語音脈衝檢測訊號的步驟時，會先取得多個第n預測值，之後再平均這些第n預測值作為第n語音脈衝檢測訊號的值。

在一個實施例中，當執行前述根據第一神經網路處理在不同時間輸入的多個第一輸入內容所產生的多個第n預測值，藉此產生第n語音脈衝檢測訊號的步驟時，會先取得多個第n預測值，之後再根據這些第n預測值與一個預設值之間的關係來決定第n語音脈衝檢測訊號的值。

從另一個角度來看，本說明提供了一種語音增強系統，其利用收音裝置以提供聲音內容。此語音增強系統包括前處理裝置、數位處理降噪裝置、神經網路降噪裝置以及成形處理裝置。前處理裝置獲取聲音內容並將聲音內容轉換為連續的多個數位聲音訊號，其中，這些數位聲音訊號包括第n數位聲音訊號與接續於其後的第n+1數位聲音訊號，每一個數位聲音訊號對應至聲音內容中的一個音框，每一個數位聲音訊號包括一個頻譜訊號及一個相位訊號，且第n數位聲音訊號所對應的音框與第n+1數位聲音訊號所對應的音框有部分重疊。數位處理降噪裝置電性耦接至前處理裝置以接收數位聲音訊號，並根據一個穩態降噪條件處理第n數位聲音訊號以降低第n數位聲音訊號中的穩態噪音而產生對應的第n失真語音訊號。神經網路降噪裝置電性耦接至數位處理降噪裝置，並先根據第n數位聲音訊號而產生對應的第n語音脈衝檢測訊號，之後根據第n數位聲音訊號、第n失真語音訊號及第n語音脈衝檢測訊號而產生降低第n失真語音訊號的非穩態噪音後的第n降噪訊號。成形處理裝置電性耦接至神經網路降噪裝置及前處理裝置，其結合第n降噪訊號及第n數位聲音訊號的相位訊號而產生對應的降噪後聲音訊號。其中，數位處理降噪裝置更根據第n語音脈衝檢測訊號決定調整穩態降噪條件的方式，並根據調整後的穩態降噪條件處理第n+1數位聲音訊號以降低第n+1數位聲音訊號中的穩態噪音而產生對應的第n+1失真語音訊號。

在一個實施例中，神經網路降噪裝置為多對多循環神經網路。

根據上述，本說明提供的技術採用兩階段降噪的方式來增強語音訊號。其中，第一階段的數位訊號處理使用回授之語音脈衝檢測，提升語音對穩態噪音的訊噪比，同時也達到改善第二階段多對多循環神經網路的輸入訊號的效果，使下一次的語音脈衝檢測更準確；第二階段的神經網路在音節停頓處減少低能量語音及氣音預測錯誤的情況，因此可以增加語音脈衝檢測的正確性，進而降低第一階段在利用語音脈衝檢測建立噪音模型時受到未檢測出的語音干擾的機會。因此，本說明所提供的技術可以提供更好的處理低訊噪比及非穩態噪音的能力。

請參照圖1，其為根據本發明一實施例的語音增強系統的電路方塊圖。在本實施例中，語音增強系統使用收音裝置100（例如麥克風、監控攝影機或類似元件）接收存在於外界的各種聲音的集合，這些聲音的集合是以類比訊號的方式存在，並在之後被稱為類比聲音內容IS。為了系統後續的數位處理，在經過收音裝置100的處理之後，原本為類比訊號的類比聲音內容IS會被轉換成本體為數位訊號的數位聲音內容DA。在另一個實施例中，語音增強系統也可以直接接收從任何裝置傳來的數位聲音內容DA，並不是一定要搭配圖1所示的收音裝置100。除此之外，語音增強系統包括了前處理裝置120、數位處理降噪裝置140、神經網路降噪裝置160以及成形處理裝置180。如圖所示，前處理裝置120電性耦接至收音裝置100、數位處理降噪裝置140、神經網路降噪裝置160以及成形處理裝置180，數位處理降噪裝置140進一步電性耦接至神經網路降噪裝置160，神經網路降噪裝置160進一步電性耦接至成形處理裝置180。

在本實施例中，前處理裝置120先獲取了前述的數位聲音內容DA，接著將數位聲音內容DA中一段連續的內容進行取框運算而獲得多個音框。為了要能夠辨識數位聲音內容DA的連續性，在進行取框運算後所得到的多個音框中，連續的兩個音框之間會有部分重疊。換句話說，假設進行取框運算後得到一個第n音框以及緊接於第n音框之後的一個第n+1音框，那麼第n音框的內容會有一部份與第n+1音框的內容互相重疊。接下來，在取得多個音框之後，前處理裝置120會在這些音框上應用窗函數來強化連續的兩個音框之間的連續性，最後再進行短時距傅立葉變換而將音頻訊號轉換成連續的多個數位聲音訊號。

具體來說，在實時處理中，由於沒有辦法一次接收全部的訊號做計算，因此實際的作法是先進行取音框的操作，將一段連續的訊號切割成連續的數個音框，再分批執行短時距傅立葉變換來獲得對應的結果。這種作法就稱為短時距傅立葉變換分析。而為了確保轉換語音資料的連續性，在經過取框運算後，音框及音框之間會互相重疊（例如重疊率可設定為百分之五十），並且音框中的內容會乘上一個窗函数做加權，例如為Hamming或Hann窗，窗的形狀是中間高兩邊低，和音框相乘後，可以避免音框重疊造成的振幅失真。音框的寬度、重疊率及窗函数的設計，在數位訊號處理的領域中有多種實施作法，本發明實施例不以此為限。

前述的每一個數位聲音訊號對應到一個音框，而且每一個數位聲音訊號都包含一個頻譜訊號FS及一個相位訊號PS。也就是說，第n音框的內容經過前述處理之後會獲得一個第n數位聲音訊號，第n數位聲音訊號包含一個頻譜訊號FS及一個相位訊號PS；而第n+1音框的內容經過前述處理之後會獲得一個第n+1數位聲音訊號，且第n+1數位聲音訊號也包含一個頻譜訊號FS及一個相位訊號PS。由於第n音框的內容與第n+1音框的內容可能不完全相同，所以第n數位聲音訊號所包含的頻譜訊號FS及相位訊號PS也可能分別與第n+1數位聲音訊號所包含的頻譜訊號FS及相位訊號PS有不同之處。為使本領域的技術人員能容易地根據訊號處理的先後次序來設計適合的邏輯電路或程式指令，後續將舉第n數位聲音訊號與第n+1數位聲音訊號為例來進行說明。

在獲取第n數位聲音訊號之後，第n數位聲音訊號中的頻譜訊號FS被傳遞至數位處理降噪裝置140以及神經網路降噪裝置160，而第n數位聲音訊號中的相位訊號PS則被傳遞至成形處理裝置180。

數位處理降噪裝置140在接收到第n數位聲音訊號中的頻譜訊號FS之後，會根據先前已經設置好的一個穩態降噪條件來處理這個頻譜訊號FS並達到降低這個頻譜訊號FS中的穩態噪音的效果，進而產生對應的一個第n失真語音訊號DS。在本實施例中，數位處理降噪裝置140可以採用現有技術中用來降低穩態噪音的數位處理電路來執行相關的降噪操作；舉例來說，數位處理降噪裝置140可以將最開始一段預設時間內所獲得的數位聲音訊號當作純粹的噪音來建立最初的噪音模型並且獲得對應的噪音平均強度及噪音方差值，然後以所獲得的噪音平均強度及噪音方差值來確立先驗信噪比的值，並且以先驗信噪比為穩態降噪條件來執行降噪操作。

由數位處理降噪裝置140產生的第n失真語音訊號DS會被傳送至神經網路降噪裝置160。請參照圖2，其為為根據本發明一實施例的神經網路降噪裝置的電路方塊圖。在本實施例中，神經網路降噪裝置160包括用於語音脈衝檢測的循環神經網路162及用於降噪的循環神經網路164。首先，循環神經網路162根據第n數位聲音訊號中的頻譜訊號FS而產生對應的一個語音脈衝檢測訊號（後稱第n語音脈衝檢測訊號）VD，然後循環神經網路164根據第n數位聲音訊號中的頻譜訊號FS、第n失真語音訊號DS及第n語音脈衝檢測訊號VD而產生降低第n失真語音訊號DS的非穩態噪音後所得到的第n降噪訊號NS。進一步的，第n語音脈衝檢測訊號VD會被迴授至數位處理降噪裝置140，以使數位處理降噪裝置140根據第n語音脈衝檢測訊號VD來決定調整穩態降噪條件的方式，並根據調整後的穩態降噪條件處理第n+1數位聲音訊號以降低第n+1數位聲音訊號中的穩態噪音而產生對應的第n+1失真語音訊號。

為了使神經網路降噪裝置160能夠達到上述的功效，在訓練階段時，需要準備兩個資料庫：乾淨語音之資料庫及環境噪音之資料庫。將乾淨語音隨機以不同的訊噪比和環境噪音混合作為訓練的輸入樣本，混合前的乾淨語音作為訓練的輸出降噪樣本，並且乾淨語音訊號的音框在有能量的時候，語音脈衝檢測訊號為1，否則為0。其中，每個訓練樣本混合的訊噪比為d_Train ，例如d_Train 的範圍是從-5到20分貝之間均勻地隨機挑選，且頻譜的能量強度會正規化到d_Norm 之間，例如d_Norm 的範圍為-40到30分貝之間。在神經網路降噪裝置160中，循環神經網路162及循環神經網路164的內部分別由數層的長短期記憶（long short-term memory）層1620a～1620m與1640a～1640m所組成，再經過一個全聯節（fully connected）層（分別包括於S函數電路1625之中，以及包括於輸出電路1645之中）來產生輸出。語音脈衝檢測訊號VD在輸出至數位處理降噪裝置140前可以先經過S函數（sigmoid）電路1625將輸出改變成被限制在0到1之間的語音脈衝檢測訊號VD’，降噪訊號NS則經過輸出電路1645直接輸出而無須經過額外的限制函數進行處理。在訓練時，語音脈衝檢測屬於一個二分類問題，損失函數為真實資料的結果跟輸入訊號經過循環神經網路162處理所得的預測語音脈衝檢測訊號這兩者的交叉熵（cross entropy）；環境音降噪屬於回歸問題，損失函數為乾淨語音訊號跟輸入訊號經過神經網路降噪裝置160處理後所得的降噪訊號這兩者的均方誤差（meansquare error）。此外，網路層的選擇可以替換為其它循環神經網路層，以及分類和回歸的損失函數可以使用其它幫助深度神經網路訓練之函數，本發明實施例不以此為限。

在經過前述處理而獲得第n降噪訊號NS之後，成形處理裝置180就可以結合第n降噪訊號NS及先前接收的第n數位聲音訊號的相位訊號PS而產生對應的降噪後聲音訊號EV。

接下來將同時參照圖1與圖3來說明語音增強方法的具體實施例，其中，圖3為根據本發明一實施例的語音增強方法的流程圖。在本實施例中，首先自收音裝置100或其它裝置獲取聲音內容（可能為類比聲音內容IS或數位聲音內容DS）（步驟S300）。由於後續會以數位方式進行訊號處理，因此此處的聲音內容較佳是數位式的聲音內容；當然，此處的聲音內容也可以是類比式的聲音內容，但是在以數位方式進行訊號處理之前必須先轉換為數位式的聲音內容。在取得聲音內容之後，前處理裝置120會將聲音內容轉換為連續的數位聲音訊號（步驟S310）。如圖4所示，聲音內容40會先被切割成連續的多個音框400、402、404…410、412…，而且連續的兩個音框之間有部分內容互相重疊（如圖中的斜線區塊）。每一個音框以窗函數加權後進行短時距傅立葉變換分析而獲得相對應的數位聲音訊號，亦即相對應的頻譜訊號FS及相位訊號PS。具體的處理方式在先前的實施例中已經予以說明，在此不再重複。

在前述操作中獲得的數位聲音訊號會先被用來進行數位訊號降噪處理（步驟S320）。請同時參照圖5，其為根據本發明一實施例於進行數位訊號降噪處理時的流程圖。在本實施例中，於前述步驟S320進行數位訊號降噪處理時，首先先獲取目前設定完成的先驗訊噪比（步驟S500），然後再根據所獲取的先驗訊噪比來調整數位聲音訊號的內容（步驟S510）。在步驟S510調整後所得的結果就成為降低數位聲音訊號中的穩態噪音後的聲音訊號（亦即前述的失真語音訊號）。

更具體來說，請同時參照圖6，其為根據本發明一實施例於進行數位訊號降噪處理時的流程圖。在本實施例中，自流程進入步驟S320時，會先判斷是否需要進行初始化操作（步驟S600），假若需要進行初始化操作，則流程進入步驟S610以取得預設的噪音模型。在此處，預設的噪音模型可以是將最初一段預設時間（例如0.25秒）所收到的聲音全部當成噪音而獲得的噪音模型，以使初始時的噪音模型可以較為貼近現有的使用環境。

在取得噪音模型之後，本實施例會根據從神經網路降噪裝置160傳來的語音脈衝檢測訊號VD（或VD’）來判斷是否需要更新噪音模型（步驟S620）。假若語音脈衝檢測訊號VD小於事先設定好的臨界值，那就表示先前的聲音內容不具有語音，於是就可以將先前的聲音內容當成噪音並更新噪音模型（步驟S630）後再進行後續的操作；相對的，假若語音脈衝檢測訊號VD不小於事先設定好的臨界值，那麼就表示先前的聲音內容是語音，因此就不更新噪音模型而是以現有的噪音模型來進行後續的操作。值得一提的是，在更新噪音模型的時候，對於只包含環境音而不包含語音的聲音內容，可以統計它頻帶上的平均能量強度，並套用動量的定理來平滑更新噪音的能量強度以據此更新噪音模型。

在確定所使用的噪音模型之後，本實施例就自噪音模型中取得前述的噪音的能量強度，並利用所取得的能量強度來計算先驗訊噪比，接著使用維納濾波（Wiener filter）來求得一個頻譜增益函數，再透過增益函數降低音框的穩態噪音（步驟S640）。經過步驟S640處理之後所得的結果就是先前提到的失真語音訊號DS，而此失真語音訊號DS會進一步被輸出到神經網路降噪裝置160（步驟S650）以進行進一步的處理。在這之後，本實施例還進一步判斷是否還有需要處理的聲音內容（步驟S660）。假若已經沒有聲音內容需要處理，那麼就結束數位訊號降噪處理的操作；相對的，若還有聲音內容需要處理，那麼流程就回到步驟S620以準備處理下一段聲音內容。

請回頭再參照圖1與圖3，經由步驟S320執行完數位訊號降噪處理之後所產生的失真語音訊號DS以及先前產生的對應的數位聲音訊號的頻譜訊號FS會被傳送到神經網路降噪裝置160，然後神經網路降噪裝置160就根據所接收到的訊號來進行神經網路降噪處理（步驟S330）。神經網路降噪處理的運算分成兩部份，第一個部份為語音脈衝檢測操作，其負責學習聲紋的特徵，判斷當下處理的數位聲音訊號所對應的音框是否為語音，此判斷會回授給數位訊號處理之降噪裝置作為統計先驗訊噪比的依據（步驟S340）；第二個部份為降噪操作，其負責利用噪音的頻譜訊號來修補毀損的語音特徵，以及降低非穩態噪音。

經過上述處理而得以降低非穩態噪音後的結果，就是先前提過的降噪訊號NS。這個降噪訊號NS會被提供至成形處理裝置180，成形處理裝置180利用逆短時距傅立葉變換分析而將降噪前的相位訊號PS以及降噪後的頻譜訊號（就是此處的降噪訊號NS）轉換回原本時域上的訊號，再經由音框疊加的操作而將先前切段所得的音框組合為最終的、聲音內容經語音增強後的結果。其中，相位訊號不經過降噪處理，原因是根據統計模型指出訊號轉至頻域上的實數及虛數屬於獨立同分佈（independent and identically distributed），噪音頻域上的實數及虛數是獨立零和的高斯隨機變數，而語音頻域上的相位是在-π到π之間的均勻隨機變數。假設降噪後語音的實數及虛數沒有改變時，語音的能量方差變成條件零和的高斯隨機變數，因此一連串的語音能量方差屬於一個在統計上獨立的隨機過程，降噪後的相位訊號可以直接使用降噪前的相位訊號，用以減少計算的複雜度。

為了使本領域的技術人員能更清楚的明瞭語音脈衝檢測的過程，以下將參照圖7進行說明。在圖7所示的實施例中，聲音內容已在先前被切割為多個音框，每一個音框對應到圖中的一個數位聲音訊號的頻譜訊號。沿著時間軸T不斷前進，在每個時間點，神經網路降噪裝置160會接收到連續且數量固定的頻譜訊號，並利用這些頻譜訊號以及圖2所示的循環神經網路162來進行語音脈衝檢測的操作。其中，第m數位聲音訊號的頻譜訊號將被稱為第m頻譜訊號並被標示為f_m 。例如：第0數位聲音訊號的頻譜訊號是第0頻譜訊號f₀ 、第1數位聲音訊號的頻譜訊號是第1頻譜訊號f₁ ，而第n數位聲音訊號的頻譜訊號則是第n頻譜訊號f_n 。進一步的，隨著上述資料的輸入，循環神經網路162可以產出對應的預測語音脈衝的矩陣。在本實施例中，循環神經網路162可以在接收到各時間點的輸入資料之後產生與此輸入資料相對應的一組預測結果，其包括各頻譜訊號出現語音脈衝的預測值。在圖中，與時間點t-1的輸入資料中的第n頻譜訊號fn-1相對應的預測值將被標示為P_t-1,n-2 ，與時間點t的輸入資料中的第n頻譜訊號fn相對應的預測值將被標示為P_t,n-1 ，與時間點t+1的輸入資料中的第n頻譜訊號fn+1相對應的預測值將被標示為P_t+1,n ，以此類推。

在本實施例中，於每個時間點會提供n個頻譜訊號到循環神經網路162，而且每個時間點所提供的頻譜訊號並不完全相同。如圖所示，在時間點t-1的時候被提供到循環神經網路162的頻譜訊號包括連續的第0頻譜訊號f₀ 、第1頻譜訊號f₁ 、第2頻譜訊號f₂ …直到第n-1頻譜訊號f_n-1 ；在時間點t的時候提供到循環神經網路162的n個連續的頻譜訊號包括第1頻譜訊號f₁ 、第2頻譜訊號f₂ …直到第n頻譜訊號f_n ；在時間點t+1的時候提供到循環神經網路162的n個連續的頻譜訊號是從第2頻譜訊號f₂ 直到第n+1頻譜訊號f_n+1 ；而在時間點t+2的時候提供到循環神經網路162的n個連續的頻譜訊號則是從第3頻譜訊號f₃ 直到第n+2頻譜訊號f_n+2 。如本領域的技術人員所知，上述提供資料的方式可以由許多電路所完成，例如可以使用由n個級連（cascade-connected）移位暫存器所組成的電路以每一個時間點移位一次來達到所想要的效果。

隨著上述資料的輸入，循環神經網路162可以產出對應的預測結果組P0～PS+1，這些預測結果組P0～PS+1被用來預測每一個數位聲音訊號是否包含語音。由於每一次輸入到循環神經網路162的資料長度是n，於是每一個預測結果組P0～PS+1就各自包含n個預測值。為了採集最多的樣本，本實施例對於每一個特定數位聲音訊號，會以所有與其相關的預測值來決定語音脈衝檢測訊號。舉例來說，在要產出第0數位聲音訊號的語音脈衝檢測訊號的時候，所有與第0數位聲音訊號相關的預測值，也就是預測值P_t,0 ，會被用來決定第0數位聲音訊號的語音脈衝檢測訊號的內容；而在要產出第n數位聲音訊號的語音脈衝檢測訊號的時候，所有與第n數位聲音訊號相關的預測值，包括：預測值P_t+1,n 、預測值P_t+2,n 、預測值P_t+3,n …一直到預測值P_t+s,n 等共s個預測值，會被用來決定第n數位聲音訊號的語音脈衝檢測訊號的內容。藉由多個預測值來決定語音脈衝檢測訊號，可以平滑化語音脈衝檢測訊號的預測過程，進而得到較適合的預測結果。

在根據預測值決定每一個語音脈衝檢測訊號的時候，可以根據不同的需求來設計不同的方式。例如，可以以所有相關的預測值的平均來決定語音脈衝檢測訊號的內容，或者也可以以多數決的方式來決定語音脈衝檢測訊號的內容。更進一步的，在以多數決決定語音脈衝檢測訊號的內容的時候，可以根據所有相關的預測值與一預設值之間的大小關係的數量多寡而決定語音脈衝檢測訊號的內容。

最後，根據先前的說明可以知道，在數位處理降噪裝置140處理完對應於第n數位聲音訊號而產生對應的第n失真語音訊號後，循環神經網路162就會接著產生對應的第n語音脈衝檢測訊號，並將第n語音脈衝檢測訊號迴授至數位處理降噪裝置140，以使數位處理降噪裝置140可以根據第n語音脈衝檢測訊號來決定是否需要以第n數位聲音訊號的頻譜訊號來更新噪音模型。

根據上述內容，本說明採用兩階段降噪的方式來增強語音訊號。其中，第一階段的數位訊號處理使用回授的語音脈衝檢測訊號，提升語音對穩態噪音的訊噪比，同時也達到改善第二階段多對多循環神經網路的輸入訊號的效果，使下一次的語音脈衝檢測更準確；第二階段的神經網路藉由平滑能量處理，可以在音節停頓處減少低能量語音及氣音預測錯誤的情況，進而增加語音脈衝檢測的正確性並降低第一階段在利用語音脈衝檢測建立噪音模型時受到未檢測出的語音干擾的機會。因此，本說明所提供的技術可以提供更好的處理低訊噪比及非穩態噪音的能力。

40:聲音內容 100:收音裝置 120:前處理裝置 140:數位處理降噪裝置 160:神經網路降噪裝置 162、164:循環神經網路 180:成形處理裝置 400、402、404、410、412:音框 1620a～1620m、1640a～1640m、LSTM:長短期記憶層 1625:S函數電路 1645:輸出電路 DA:數位聲音內容 DS:失真語音訊號 EV:降噪後聲音訊號 f₀～f_n+2、FS:頻譜訊號 IS:類比聲音內容 NS:降噪訊號 P0～PS+1:預測結果組 PS:相位訊號 P_x,y:預測值 S300～S350:本發明一實施例的施行步驟 S500～S510:本發明一實施例執行數位訊號降噪處理時的施行步驟 S600～S660:本發明一實施例執行數位訊號降噪處理時的施行步驟 t-1、t、t+1、t+2:時間點 T:時間軸 VD、VD’:語音脈衝檢測訊號

圖1為根據本發明一實施例的語音增強系統的電路方塊圖。圖2為根據本發明一實施例的神經網路降噪裝置的電路方塊圖。圖3為根據本發明一實施例的語音增強方法的流程圖。圖4為根據本發明一實施例的聲音內容與音框的關係示意圖。圖5為根據本發明一實施例於進行數位訊號降噪處理時的流程圖。圖6為根據本發明一實施例於進行數位訊號降噪處理時的流程圖。圖7為根據本發明一實施例的語音脈衝檢測過程的示意圖。

S300~S350:本發明一實施例的施行步驟

Claims

一種語音增強方法，其特徵在於包括：獲取一聲音內容，該聲音內容包括多個音框，每一該些音框包括該聲音內容其中一部份的連續聲音；將該聲音內容轉換為連續的多個數位聲音訊號，該些數位聲音訊號包括一第n數位聲音訊號與接續於其後的一第n+1數位聲音訊號，其中，每一該些數位聲音訊號對應至該些音框之一，每一該些數位聲音訊號包括一頻譜訊號及一相位訊號，且該第n數位聲音訊號所對應的該音框與該第n+1數位聲音訊號所對應的該音框有部分重疊；依序處理該些數位聲音訊號以產生對應的多個降噪後聲音訊號，包括：根據一穩態降噪條件，處理該第n數位聲音訊號以降低該第n數位聲音訊號中的穩態噪音而產生對應的一第n失真語音訊號；使一第一神經網路根據該第n數位聲音訊號而產生對應的一第n語音脈衝檢測訊號；使一第二神經網路根據該第n數位聲音訊號、該第n失真語音訊號及該第n語音脈衝檢測訊號而產生降低該第n失真語音訊號的非穩態噪音後的一第n降噪訊號；結合該第n降噪訊號及該第n數位聲音訊號的該相位訊號，產生該些降噪後聲音訊號中的一者；以及根據該第n語音脈衝檢測訊號決定調整該穩態降噪條件的方式，並根據調整後的該穩態降噪條件處理該第n+1數位聲音訊號以降低該第n+1數位聲音訊號中的穩態噪音而產生對應的一第n+1失真語音訊號；以及輸出所產生的該些降噪後聲音訊號為該聲音內容經語音增強後的結果，其中，根據該穩態降噪條件，處理該第n數位聲音訊號以降低該第n數位聲音訊號中的穩態噪音而產生對應的一第n失真語音訊號，包括：獲取一先驗信噪比，並以該先驗信噪比為該穩態降噪條件；以及根據該先驗信噪比調整該第n數位聲音訊號的內容，產生該第n失真語音訊號，其中，根據該第n語音脈衝檢測訊號決定調整該穩態降噪條件的方式，包括：判斷該第n語音脈衝檢測訊號是否大於一臨界值；當該第n語音脈衝檢測訊號小於該臨界值時：以該第n數位聲音訊號的內容為噪音，更新表示噪音的一噪音平均強度及一噪音方差值；以及根據更新後的該噪音平均強度及該噪音方差值，計算並更新該先驗信噪比；以及當該第n語音脈衝檢測訊號不小於該臨界值時，不調整該先驗信噪比。
如申請專利範圍第1項所述的語音增強方法，其中，在使該第一神經網路根據該第n數位聲音訊號而產生對應的該第n語音脈衝檢測訊號時，更包括：將該第n語音脈衝檢測訊號的值限制在0到1之間。
如申請專利範圍第1項所述的語音增強方法，其中，使該第一神經網路根據該第n數位聲音訊號而產生對應的該第n語音脈衝檢測訊號，包括：輸入一第一輸入內容至該第一神經網路，該第一輸入內容包含該第n數位聲音訊號及與該第n數位聲音訊號相近的至少一個該些數位聲音訊號，其中，不同時間輸入的該第一輸入內容不完全相同；以該第一神經網路處理該第一輸入內容而產生對應的多個預測值，該些預測值包括對應至該第n數位聲音訊號的一第n預測值；以及根據該第一神經網路處理在不同時間輸入的多個該第一輸入內容所產生的多個該第n預測值而產生該第n語音脈衝檢測訊號。
如申請專利範圍第3項所述的語音增強方法，其中，根據該第一神經網路處理在不同時間輸入的多個該第一輸入內容所產生的多個該第n預測值而產生該第n語音脈衝檢測訊號，包括：取得多個該第n預測值；以及平均多個該第n預測值作為該第n語音脈衝檢測訊號的值。
如申請專利範圍第3項所述的語音增強方法，其中，根據該第一神經網路處理在不同時間輸入的多個該第一輸入內容所產生的多個該第n預測值而產生該第n語音脈衝檢測訊號，包括：取得多個該第n預測值；以及根據多個該第n預測值與一預設值之間的關係，決定該第n語音脈衝檢測訊號的值。
一種語音增強系統，利用一收音裝置以提供一聲音內容，該聲音內容包括多個音框，每一該些音框包括該聲音內容其中一部份的連續聲音，該語音增強系統的特徵在於包括：一前處理裝置，該前處理裝置獲取該聲音內容並將該聲音內容轉換為連續的多個數位聲音訊號，該些數位聲音訊號包括一第n數位聲音訊號與接續於其後的一第n+1數位聲音訊號，其中，每一該些數位聲音訊號對應至該些音框之一，每一該些數位聲音訊號包括一頻譜訊號及一相位訊號，且該第n數位聲音訊號所對應的該音框與該第n+1數位聲音訊號所對應的該音框有部分重疊；一數位處理降噪裝置，電性耦接至該前處理裝置以接收該些數位聲音訊號，該數位處理降噪裝置根據一穩態降噪條件處理該第n數位聲音訊號以降低該第n數位聲音訊號中的穩態噪音而產生對應的一第n失真語音訊號；一神經網路降噪裝置，電性耦接至該數位處理降噪裝置，該神經網路降噪裝置先根據該第n數位聲音訊號而產生對應的一第n語音脈衝檢測訊號，之後根據該第n數位聲音訊號、該第n失真語音訊號及該第n語音脈衝檢測訊號而產生降低該第n失真語音訊號的非穩態噪音後的一第n降噪訊號；以及一成形處理裝置，電性耦接至該神經網路降噪裝置及該前處理裝置，該成形處理裝置結合該第n降噪訊號及該第n數位聲音訊號的該相位訊號，產生對應的一降噪後聲音訊號，其中，該數位處理降噪裝置獲取一先驗信噪比並以該先驗信噪比為該穩態降噪條件、根據該先驗信噪比調整該第n數位聲音訊號的內容而產生該第n失真語音訊號，並且更根據該第n語音脈衝檢測訊號決定調整該穩態降噪條件的方式，並根據調整後的該穩態降噪條件處理該第n+1數位聲音訊號以降低該第n+1數位聲音訊號中的穩態噪音而產生對應的一第n+1失真語音訊號其中，根據該第n語音脈衝檢測訊號決定調整該穩態降噪條件的方式，包括：判斷該第n語音脈衝檢測訊號是否大於一臨界值；當該第n語音脈衝檢測訊號小於該臨界值時：以該第n數位聲音訊號的內容為噪音，更新表示噪音的一噪音平均強度及一噪音方差值；以及根據更新後的該噪音平均強度及該噪音方差值，計算並更新該先驗信噪比；以及當該第n語音脈衝檢測訊號不小於該臨界值時，不調整該先驗信噪比。
如申請專利範圍第6項所述的語音增強系統，其中該神經網路降噪裝置為多對多循環神經網路。