TWI763073B

TWI763073B - 融合骨振動感測器信號及麥克風信號的深度學習降噪方法

Info

Publication number: TWI763073B
Application number: TW109134873A
Authority: TW
Inventors: 閆永傑
Original assignee: 大陸商大象聲科（深圳）科技有限公司
Priority date: 2019-10-09
Filing date: 2020-10-08
Publication date: 2022-05-01
Also published as: CN110931031A; TW202115718A

Abstract

本發明係一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法其包括以下步驟：利用麥克風採集音訊信號以得到麥克風音訊信號；利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音。

Description

融合骨振動感測器信號及麥克風信號的深度學習降噪方法

本發明涉及電子設備語音降噪技術領域，更具體地說，涉及一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法。

語音降噪技術是指從帶噪語音信號中分離出語音信號，該技術擁有廣泛的應用，通常有單麥克風降噪技術及多麥克風降噪技術，然而傳統的降噪技術中存在一些缺陷，傳統的單麥克風降噪技術預先假設雜訊為平穩雜訊，適應性不高，局限較大；而傳統的多麥克風降噪技術需要兩個及以上的麥克風，增加了成本，多麥克風結構對於產品的結構設計要求更高，限制了產品的結構設計，而且，多麥克風降噪技術依靠方向資訊進行降噪，無法抑制來自目標人聲方向的噪音。

中國發明專利公告號CN109346075A，名稱為一種通過人體振動識別使用者語音以控制電子設備的系統，包括人體振動感測器，用於感應用戶的人體振動；處理電路，與所述人體振動感測器相耦合，用於當確定所述人體振動感測器的輸出信號包括使用者語音信號時，控制拾音設備開始拾音；通信模組，與處理電路及所述拾音設備相耦合，用於所述處理電路及所述拾音設備之間的通信。

中國發明專利公告號CN107452389A，名稱為一種通用的單聲道即時降噪方法，涉及一種通用的單聲道即時降噪方法，包括以下步驟：接收電子格式的帶噪語音，其中包含語音及非人聲干擾雜訊；從接收到的聲音中逐幀提取短時傅里葉幅度譜作為聲學特徵；使用具有長短期記憶的深度回歸神經網路逐幀產生比值膜；利用產生的比值膜對帶噪語音的幅度譜進行掩蔽；使用掩蔽後的幅度譜及帶噪語音的原始相位，經過逆傅里葉變換，再次合成語音波形。該發明採用有監督學習方法進行語音降噪，通過使用帶有長短期記憶的回歸神經網路來估計理想比值膜；該發明提出的回歸神經網路使用大量帶噪語音進行訓練，其中包含了各種現實聲學場景及麥克風脈衝回應，最終實現了獨立於背景雜訊、說話人及傳輸通道的通用語音降噪。其中，單聲道降噪是指對單個麥克風採集的信號進行處理，比較波束形成的麥克風陣列的降噪方法，單聲道降噪具有更廣泛的實用性及低成本。該發明採用有監督學習方法進行語音降噪，通過使用帶有長短期記憶的回歸神經網路來估計理想比值膜。該發明引入了消除對未來時間幀依賴的技術，並實現了降噪過程中回歸神經網路模型的高效計算，在不影響降噪性能的前提下，通過進一步的簡化計算，構造了一個非常小的回歸神經網路模型，從而實現了即時語音降噪。

然而傳統多麥克風及單麥克風通話降噪技術存在以下缺陷：麥克風數量與成本呈線性關係，麥克數量越多，成本越高。多麥克風對產品結構設計要求更高，限制產品的結構設計。多麥克降噪技術依靠方向資訊進行降噪，無法抑制來自於接近目標人聲方向的噪音。單麥克風降噪技術依賴雜訊估計，其預先架設雜訊為平穩聲，具有局限性，因此仍需改進。

本發明採用一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法，以解決現有技術中多麥克風限制產品結構，成本過高，及單麥克風降噪技術有局限性等問題。

為解決上述技術問題，本發明提供一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法，該方法包括以下步驟：利用麥克風採集音訊信號以得到麥克風音訊信號；利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音。

參考附圖，如圖1所示，它是本發明第一實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖，該方法包括步驟：(S1)利用麥克風採集音訊信號以得到麥克風音訊信號；(S2)利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；(S3)將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；(S4)將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；及(S5)深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音。

本發明引入了骨振動感測器，利用其不受空氣噪音干擾的特性，將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合，達到了在極低信噪比下也能有理想的降噪效果。

先前最先進的實用語音降噪方案是使用大量資料訓練的前饋型深度神經網路(Deep neural network, DNN)，儘管該方案可以實現從未經訓練的帶噪人聲中分離出特定人聲，但該模型對非特定人聲的降噪效果並不好。

為了增加非特定人聲的降噪效果，最有效的方法是在訓練集中加入多個說話人的語音，然而這樣會使得DNN對語音及背景雜訊出現混淆，並且傾向於將雜訊錯分為語音。

較佳地，該骨振動感測器能採集低頻語音、不受空氣噪音干擾。將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合，達到了在極低信噪比下也能有理想的全頻段降噪效果。

本實施例中的骨振動感測器為現有技術。

語音信號在時間維度上具有較強的相關性，而且這種相關性對語音分離有很大説明。為了利用上下文資訊提高分離性能，根據深度神經網路的方法將當前幀及前後連續幾幀拼接成一個維度較大的向量作為輸入特徵。本發明的方法由電腦程式執行，從帶噪語音中提取聲學特徵，估計理想時頻比值膜，並重新合成降噪後的語音波形。該方法包含一個或多個程式模組，任何系統或帶有可執行電腦程式設計指令的硬體設備用來執行上述的一個或多個模組。

較佳地，高通濾波模組修正骨振動感測器音訊信號的直流偏移，並濾除低頻雜波信號。

更較佳地，高通濾波模組可通過數位濾波器濾波實現。

參考圖2，它是本發明第二實施例的融合骨振動感測器信號及麥克風信號的深度學習語音提取及降噪方法的流程圖，該方法包括步驟：(T1)利用麥克風採集音訊信號以得到麥克風音訊信號；(T2)利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；(T3)將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；(T4)在高通濾波模組進一步地將高通濾波後的骨振動感測器音訊信號的頻率增加至兩千赫茲(2kHz)以上(即高頻重建，增加骨振動感測器音訊信號的頻寬)；(T5)將增加頻率後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；(T6)深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音。

較佳地，高頻重建的方法很多，深度神經網路是目前最有效的方法，本實施例中僅例出一種深度神經網路的結構作為範例。

參考圖3，高頻重建的作用是進一步增加骨振動感測器音訊信號的頻率範圍，可以採用深度神經網路進行重建，其中深度神經網路可以有多種實現方式，圖3給出了其中一種(但不限於該網路)根據長短期記憶的深度回歸神經網路的高頻重建方式。

較佳地，深度神經網路模組還包括融合模組，根據深度神經網路，融合模組的作用是完成麥克風音訊信號及骨振動感測器音訊信號的融合及降噪。

較佳地，深度神經網路模組的一種實現方法是通過卷積迴圈神經網路實現，並通過估計而得到純淨語音幅度譜(Speech Magnitude Spectrum)。

更較佳地，根據深度神經網路的融合模組中網路結構以卷積迴圈神經網路作為示例，也可替換成長短期神經網路，深度全卷積神經網路等結構。

參考圖4，它顯示本發明的深度神經網路融合模組結構的方塊圖，實現了深度神經網路模組的卷積迴圈神經網路，即深度神經網路模組的訓練目標(Training Target)是純淨語音幅度譜(Speech Magnitude Spectrum)，首先將純淨語音(Clear Speech)經過短時傅里葉變換(STFT)後，獲得純淨的語音幅度譜(Speech Magnitude Spectrum)作為訓練目標(Training Target)，即目標幅度譜(Target Magnitude Spectrum)。

作為示例，深度神經網路模組可由三層卷積神經網路、三層長短期記憶網路，及三層反卷積神經網路構成。

較佳地，深度神經網路模組的輸入信號是由骨振動感測器音訊信號的幅度譜及麥克風音訊信號的幅度譜堆疊(Stacking)而成。首先將骨振動感測器音訊信號及麥克風音訊信號分別經過短時傅里葉變換(STFT)，再分別得到兩路幅度譜(Magnitude Spectrum)，並進行堆疊(Stacking)。

較佳地，將堆疊(Stacking)後的幅度譜經過深度神經網路模組，以得到估計幅度譜(Estimated Magnitude Spectrum)，並輸出。

較佳地，將目標幅度譜與估計幅度譜(Estimated Magnitude Spectrum)分別作均方差(mean-square error, MSE)處理，均方差(MSE)是反映估計量與被估計量之間差異程度的度量。

更較佳地，訓練過程(Training)採用反向傳播-梯度下降的方式更新網路參數，不斷地送入網路訓練資料、更新網路參數，直至網路收斂。

較佳地，推理過程(Inference)將麥克風資料作短時傅里葉變換(STFT)，將產生的相位與估計的幅度譜(Estimated Magnitude Spectrum)結合，以恢復估計後的純淨語音(Clear Speech)。

相對於傳統多麥降噪技術，本發明採用單麥克風作為輸入。因此具有堅固性強，成本可控，及對產品結構設計要求低等特點。在本實施例，堅固性是指降噪系統的降噪性能受麥克風一致性等干擾的反應，堅固性強指的是對麥克風一致性及放置等沒有要求，能適應各種麥克風。

參考圖5，它是本發明的的骨振動感測器採集到的音訊信號頻譜圖示意。

參考圖6，它是本發明的的麥克風採集到的音訊信號頻譜圖示意。

參考圖7，它是本發明的深度學習降噪方法處理後的音訊信號頻譜圖示意。

參考圖8，它顯示本發明的融合骨振動感測器信號及麥克風信號的深度學習降噪方法與習知的無骨振動感測器的單聲道深度學習降噪方法的降噪效果對比。該圖具體對比了8種噪音場景下分別使用｢一種通用的單聲道即時降噪方法｣(中國發明專利公告號CN107452389A的方法(Mic Only)及本發明的方法(Sensor-Mic)的處理結果，以得到圖8中的客觀測試結果。八種雜訊分別為：酒吧雜訊，公路雜訊，十字路口雜訊，火車站雜訊，130km/h速度行駛的汽車雜訊，咖啡廳雜訊，餐桌上的雜訊以及辦公室雜訊。測試標準為主觀語音品質評估perceptual evaluation of speech quality(PESQ)，其值範圍為[-0.5, 4.5]。從表中我們可以看到，在各場景下經過本發明的方法處理後，PESQ得分都有很大增加，八個場景平均增加0.26。這表示本發明的方法對於語音的還原度更高，以及對於雜訊抑制能力更強。

本發明的方法利用骨振動感測器不受空氣噪音干擾的特性，將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合，達到了在極低信噪比下也能有理想的降噪效果。

與傳統單麥克風降噪技術比較，本發明不對雜訊做任何假設(傳統單麥風降噪技術一般預先假設雜訊為平穩雜訊)，利用深度神經網路強大的建模能力，有很好的人聲還原度及極強的雜訊抑制能力，可以解決複雜雜訊場景下的人聲提取問題。

本發明的方法可應用於耳機，手機等貼合耳部(或其它身體部位)的通話場景。不同於習知其他結合骨振動感測器及氣導麥克風降噪方式中僅利用骨振動感測器信號作為啟動檢測的標誌，本發明的方法利用骨振動感測器信號不受氣導雜訊干擾的特性，將骨傳信號作為低頻輸入信號，通過高頻重建(可選)後，與麥克風信號一同送入深度神經網路進行整體降噪及融合。

借助骨振動感測器，本發明的方法能夠得到優質的低頻信號，並以此為基礎，極大地提高深度神經網路估計的準確性，使得降噪效果更佳。亦可單獨將骨振動感測器信號經過頻帶增加後的結果直接作為輸出。

本發明的方法不同於中國發明專利專利公告號CN109346075A其將骨振動感測器信號作為語音活動檢測的標誌，本發明的方法將骨振動感測器信號與麥克風信號一起作為深度神經網路的輸入，進行信號層的深度融合，從而達到優良的降噪效果。

本發明提供一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法，結合骨振動感測器及傳統麥克風信號的各自優勢，利用深度神經網路強大的建模能力實現了很高的人聲還原度及極強的雜訊抑制能力，可以解決複雜雜訊場景下的人聲提取問題，實現提取目標人聲，降低干擾雜訊，並採用單麥克風結構，減少了實現複雜度及減少成本。

以上所述僅是本發明較佳實施例而已，舉凡應用本發明說明書及申請專利範圍所為的其它等效結構變化理應包含在本發明的申請專利範圍內。

S1:步驟 S2:步驟 S3:步驟 S4:步驟 S5:步驟 T1:步驟 T2:步驟 T3:步驟 T4:步驟 T5:步驟 T6:步驟

以下將配合附圖詳細說明本發明的實施例，以更佳地理解本發明，其中：圖1是本發明第一實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖；圖2是本發明第二實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖；圖3是高頻重建步驟的原理方塊圖；圖4是本發明的深度神經網路融合模組結構方塊圖；圖5是本發明的骨振動感測器採集到的音訊信號頻譜示意圖；圖6是本發明的麥克風採集到的音訊信號頻譜示意圖；圖7是本發明處理後的音訊信號頻譜示意圖；及圖8是本發明的降噪方法與習知無骨振動感測器的單聲道對應的深度學習即時降噪方法的降噪效果對比圖。

S1:步驟

S2:步驟

S3:步驟

S4:步驟

S5:步驟

Claims

一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法，該方法包括以下步驟：利用麥克風採集音訊信號以得到麥克風音訊信號；利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音；該深度神經網路模組以純淨語音幅度譜為訓練目標：首先將純淨語音經過短時傅里葉變換後，獲得純淨的語音幅度譜作為訓練目標，即目標幅度譜；該深度神經網路模組的輸入信號是由該骨振動感測器音訊信號的幅度譜及該麥克風音訊信號的幅度譜堆疊而成：首先將該骨振動感測器音訊信號及該麥克風音訊信號分別經過短時傅里葉變換，再分別得到兩路幅度譜，並進行堆疊；將該堆疊後的幅度譜經過該深度神經網路模組，以得到估計幅度譜，並輸出；將該目標幅度譜與該估計幅度譜分別作均方差處理，用以反映估計量與被估計量之間的差異程度；該訓練採用反向傳播-梯度下降的方式更新網路參數，不斷地送入網路訓練資料、更新網路參數，直至網路收斂；並將麥克風數據作短時傅里葉變換，將產生的相位與估計的幅度譜結合，以恢復估計後的純淨語音。
如請求項1所述之深度學習降噪方法，其中該高通濾波模組修正骨振動感測器音訊信號的直流偏移，並濾除低頻雜波信號。
如請求項1所述之深度學習降噪方法，其中該深度神經網路模組還包括一融合模組，該融合模組將麥克風音訊信號及骨振動感測器音訊信號融合及降噪。
如請求項1所述之深度學習降噪方法，其中該深度神經網路模組是通過卷積迴圈神經網路而實現，並通過估計而得到純淨的語音幅度譜。
如請求項1所述之深度學習降噪方法，其中該深度神經網路模組包括複數層卷積神經網路，複數層長短期記憶網路，及對應的複數層反卷積神經網路。
一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法，該方法包括以下步驟：利用麥克風採集音訊信號以得到麥克風音訊信號；利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號；將骨振動感測器音訊信號輸入高通濾波模組，並進行高通濾波；在高通濾波模組進一步地將高通濾波後的骨振動感測器音訊信號的頻率增加至兩千赫茲(2kHz)以上；將增加頻率後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組；及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號，以得到降噪後的純淨語音；該深度神經網路模組以純淨語音幅度譜為訓練目標：首先將純淨語音經過短時傅里葉變換後，獲得純淨的語音幅度譜作為訓練目標，即目標幅度譜；該深度神經網路模組的輸入信號是由該骨振動感測器音訊信號的幅度譜及該麥克風音訊信號的幅度譜堆疊而成：首先將該骨振動感測器音訊信號及該麥克風音訊信號分別經過短時傅里葉變換，再分別得到兩路幅度譜，並進行堆疊；將該堆疊後的幅度譜經過該深度神經網路模組，以得到估計幅度譜，並輸出；將該目標幅度譜與該估計幅度譜分別作均方差處理，用以反映估計量與被估計量之間的差異程度；該訓練採用反向傳播-梯度下降的方式更新網路參數，不斷地送入網路訓練資料、更新網路參數，直至網路收斂；並將麥克風數據作短時傅里葉變換，將產生的相位與估計的幅度譜結合，以恢復估計後的純淨語音。