TWI763073B - 融合骨振動感測器信號及麥克風信號的深度學習降噪方法 - Google Patents
融合骨振動感測器信號及麥克風信號的深度學習降噪方法 Download PDFInfo
- Publication number
- TWI763073B TWI763073B TW109134873A TW109134873A TWI763073B TW I763073 B TWI763073 B TW I763073B TW 109134873 A TW109134873 A TW 109134873A TW 109134873 A TW109134873 A TW 109134873A TW I763073 B TWI763073 B TW I763073B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio signal
- microphone
- vibration sensor
- neural network
- bone vibration
- Prior art date
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims description 70
- 210000000988 bone and bone Anatomy 0.000 claims description 69
- 238000001228 spectrum Methods 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本發明係一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法其包括以下步驟:利用麥克風採集音訊信號以得到麥克風音訊信號;利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音。
Description
本發明涉及電子設備語音降噪技術領域,更具體地說,涉及一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法。
語音降噪技術是指從帶噪語音信號中分離出語音信號,該技術擁有廣泛的應用,通常有單麥克風降噪技術及多麥克風降噪技術,然而傳統的降噪技術中存在一些缺陷,傳統的單麥克風降噪技術預先假設雜訊為平穩雜訊,適應性不高,局限較大;而傳統的多麥克風降噪技術需要兩個及以上的麥克風,增加了成本,多麥克風結構對於產品的結構設計要求更高,限制了產品的結構設計,而且,多麥克風降噪技術依靠方向資訊進行降噪,無法抑制來自目標人聲方向的噪音。
中國發明專利公告號CN109346075A,名稱為一種通過人體振動識別使用者語音以控制電子設備的系統,包括人體振動感測器,用於感應用戶的人體振動;處理電路,與所述人體振動感測器相耦合,用於當確定所述人體振動感測器的輸出信號包括使用者語音信號時,控制拾音設備開始拾音;通信模組,與處理電路及所述拾音設備相耦合,用於所述處理電路及所述拾音設備之間的通信。
中國發明專利公告號CN107452389A,名稱為一種通用的單聲道即時降噪方法,涉及一種通用的單聲道即時降噪方法,包括以下步驟:接收電子格式的帶噪語音,其中包含語音及非人聲干擾雜訊;從接收到的聲音中逐幀提取短時傅里葉幅度譜作為聲學特徵;使用具有長短期記憶的深度回歸神經網路逐幀產生比值膜;利用產生的比值膜對帶噪語音的幅度譜進行掩蔽;使用掩蔽後的幅度譜及帶噪語音的原始相位,經過逆傅里葉變換,再次合成語音波形。該發明採用有監督學習方法進行語音降噪,通過使用帶有長短期記憶的回歸神經網路來估計理想比值膜;該發明提出的回歸神經網路使用大量帶噪語音進行訓練,其中包含了各種現實聲學場景及麥克風脈衝回應,最終實現了獨立於背景雜訊、說話人及傳輸通道的通用語音降噪。其中,單聲道降噪是指對單個麥克風採集的信號進行處理,比較波束形成的麥克風陣列的降噪方法,單聲道降噪具有更廣泛的實用性及低成本。該發明採用有監督學習方法進行語音降噪,通過使用帶有長短期記憶的回歸神經網路來估計理想比值膜。該發明引入了消除對未來時間幀依賴的技術,並實現了降噪過程中回歸神經網路模型的高效計算,在不影響降噪性能的前提下,通過進一步的簡化計算,構造了一個非常小的回歸神經網路模型,從而實現了即時語音降噪。
然而傳統多麥克風及單麥克風通話降噪技術存在以下缺陷:麥克風數量與成本呈線性關係,麥克數量越多,成本越高。多麥克風對產品結構設計要求更高,限制產品的結構設計。多麥克降噪技術依靠方向資訊進行降噪,無法抑制來自於接近目標人聲方向的噪音。單麥克風降噪技術依賴雜訊估計,其預先架設雜訊為平穩聲,具有局限性,因此仍需改進。
本發明採用一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法,以解決現有技術中多麥克風限制產品結構,成本過高,及單麥克風降噪技術有局限性等問題。
為解決上述技術問題,本發明提供一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法,該方法包括以下步驟:利用麥克風採集音訊信號以得到麥克風音訊信號;利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音。
參考附圖,如圖1所示,它是本發明第一實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖,該方法包括步驟:(S1)利用麥克風採集音訊信號以得到麥克風音訊信號;(S2)利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;(S3)將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;(S4)將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;及(S5)深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音。
本發明引入了骨振動感測器,利用其不受空氣噪音干擾的特性,將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合,達到了在極低信噪比下也能有理想的降噪效果。
先前最先進的實用語音降噪方案是使用大量資料訓練的前饋型深度神經網路(Deep neural network, DNN),儘管該方案可以實現從未經訓練的帶噪人聲中分離出特定人聲,但該模型對非特定人聲的降噪效果並不好。
為了增加非特定人聲的降噪效果,最有效的方法是在訓練集中加入多個說話人的語音,然而這樣會使得DNN對語音及背景雜訊出現混淆,並且傾向於將雜訊錯分為語音。
較佳地,該骨振動感測器能採集低頻語音、不受空氣噪音干擾。將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合,達到了在極低信噪比下也能有理想的全頻段降噪效果。
本實施例中的骨振動感測器為現有技術。
語音信號在時間維度上具有較強的相關性,而且這種相關性對語音分離有很大説明。為了利用上下文資訊提高分離性能,根據深度神經網路的方法將當前幀及前後連續幾幀拼接成一個維度較大的向量作為輸入特徵。本發明的方法由電腦程式執行,從帶噪語音中提取聲學特徵,估計理想時頻比值膜,並重新合成降噪後的語音波形。該方法包含一個或多個程式模組,任何系統或帶有可執行電腦程式設計指令的硬體設備用來執行上述的一個或多個模組。
較佳地,高通濾波模組修正骨振動感測器音訊信號的直流偏移,並濾除低頻雜波信號。
更較佳地,高通濾波模組可通過數位濾波器濾波實現。
參考圖2,它是本發明第二實施例的融合骨振動感測器信號及麥克風信號的深度學習語音提取及降噪方法的流程圖,該方法包括步驟:(T1)利用麥克風採集音訊信號以得到麥克風音訊信號;(T2)利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;(T3)將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;(T4)在高通濾波模組進一步地將高通濾波後的骨振動感測器音訊信號的頻率增加至兩千赫茲(2kHz)以上(即高頻重建,增加骨振動感測器音訊信號的頻寬);(T5)將增加頻率後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;(T6)深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音。
較佳地,高頻重建的方法很多,深度神經網路是目前最有效的方法,本實施例中僅例出一種深度神經網路的結構作為範例。
參考圖3,高頻重建的作用是進一步增加骨振動感測器音訊信號的頻率範圍,可以採用深度神經網路進行重建,其中深度神經網路可以有多種實現方式,圖3給出了其中一種(但不限於該網路)根據長短期記憶的深度回歸神經網路的高頻重建方式。
較佳地,深度神經網路模組還包括融合模組,根據深度神經網路,融合模組的作用是完成麥克風音訊信號及骨振動感測器音訊信號的融合及降噪。
較佳地,深度神經網路模組的一種實現方法是通過卷積迴圈神經網路實現,並通過估計而得到純淨語音幅度譜(Speech Magnitude Spectrum)。
更較佳地,根據深度神經網路的融合模組中網路結構以卷積迴圈神經網路作為示例,也可替換成長短期神經網路,深度全卷積神經網路等結構。
參考圖4,它顯示本發明的深度神經網路融合模組結構的方塊圖,實現了深度神經網路模組的卷積迴圈神經網路,即深度神經網路模組的訓練目標(Training Target)是純淨語音幅度譜(Speech Magnitude Spectrum),首先將純淨語音(Clear Speech)經過短時傅里葉變換(STFT)後,獲得純淨的語音幅度譜(Speech Magnitude Spectrum)作為訓練目標(Training Target),即目標幅度譜(Target Magnitude Spectrum)。
作為示例,深度神經網路模組可由三層卷積神經網路、三層長短期記憶網路,及三層反卷積神經網路構成。
較佳地,深度神經網路模組的輸入信號是由骨振動感測器音訊信號的幅度譜及麥克風音訊信號的幅度譜堆疊(Stacking)而成。首先將骨振動感測器音訊信號及麥克風音訊信號分別經過短時傅里葉變換(STFT),再分別得到兩路幅度譜(Magnitude Spectrum),並進行堆疊(Stacking)。
較佳地,將堆疊(Stacking)後的幅度譜經過深度神經網路模組,以得到估計幅度譜(Estimated Magnitude Spectrum),並輸出。
較佳地,將目標幅度譜與估計幅度譜(Estimated Magnitude Spectrum)分別作均方差(mean-square error, MSE)處理,均方差(MSE)是反映估計量與被估計量之間差異程度的度量。
更較佳地,訓練過程(Training)採用反向傳播-梯度下降的方式更新網路參數,不斷地送入網路訓練資料、更新網路參數,直至網路收斂。
較佳地,推理過程(Inference)將麥克風資料作短時傅里葉變換(STFT),將產生的相位與估計的幅度譜(Estimated Magnitude Spectrum)結合,以恢復估計後的純淨語音(Clear Speech)。
相對於傳統多麥降噪技術,本發明採用單麥克風作為輸入。因此具有堅固性強,成本可控,及對產品結構設計要求低等特點。在本實施例,堅固性是指降噪系統的降噪性能受麥克風一致性等干擾的反應,堅固性強指的是對麥克風一致性及放置等沒有要求,能適應各種麥克風。
參考圖5,它是本發明的的骨振動感測器採集到的音訊信號頻譜圖示意。
參考圖6,它是本發明的的麥克風採集到的音訊信號頻譜圖示意。
參考圖7,它是本發明的深度學習降噪方法處理後的音訊信號頻譜圖示意。
參考圖8,它顯示本發明的融合骨振動感測器信號及麥克風信號的深度學習降噪方法與習知的無骨振動感測器的單聲道深度學習降噪方法的降噪效果對比。該圖具體對比了8種噪音場景下分別使用「一種通用的單聲道即時降噪方法」(中國發明專利公告號CN107452389A的方法(Mic Only)及本發明的方法(Sensor-Mic)的處理結果,以得到圖8中的客觀測試結果。八種雜訊分別為:酒吧雜訊,公路雜訊,十字路口雜訊,火車站雜訊,130km/h速度行駛的汽車雜訊,咖啡廳雜訊,餐桌上的雜訊以及辦公室雜訊。測試標準為主觀語音品質評估perceptual evaluation of speech quality(PESQ),其值範圍為[-0.5, 4.5]。從表中我們可以看到,在各場景下經過本發明的方法處理後,PESQ得分都有很大增加,八個場景平均增加0.26。這表示本發明的方法對於語音的還原度更高,以及對於雜訊抑制能力更強。
本發明的方法利用骨振動感測器不受空氣噪音干擾的特性,將骨振動感測器信號與氣導麥克風信號使用深度神經網路融合,達到了在極低信噪比下也能有理想的降噪效果。
與傳統單麥克風降噪技術比較,本發明不對雜訊做任何假設(傳統單麥風降噪技術一般預先假設雜訊為平穩雜訊),利用深度神經網路強大的建模能力,有很好的人聲還原度及極強的雜訊抑制能力,可以解決複雜雜訊場景下的人聲提取問題。
本發明的方法可應用於耳機,手機等貼合耳部(或其它身體部位)的通話場景。不同於習知其他結合骨振動感測器及氣導麥克風降噪方式中僅利用骨振動感測器信號作為啟動檢測的標誌,本發明的方法利用骨振動感測器信號不受氣導雜訊干擾的特性,將骨傳信號作為低頻輸入信號,通過高頻重建(可選)後,與麥克風信號一同送入深度神經網路進行整體降噪及融合。
借助骨振動感測器,本發明的方法能夠得到優質的低頻信號,並以此為基礎,極大地提高深度神經網路估計的準確性,使得降噪效果更佳。亦可單獨將骨振動感測器信號經過頻帶增加後的結果直接作為輸出。
本發明的方法不同於中國發明專利專利公告號CN109346075A其將骨振動感測器信號作為語音活動檢測的標誌,本發明的方法將骨振動感測器信號與麥克風信號一起作為深度神經網路的輸入,進行信號層的深度融合,從而達到優良的降噪效果。
本發明提供一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法,結合骨振動感測器及傳統麥克風信號的各自優勢,利用深度神經網路強大的建模能力實現了很高的人聲還原度及極強的雜訊抑制能力,可以解決複雜雜訊場景下的人聲提取問題,實現提取目標人聲,降低干擾雜訊,並採用單麥克風結構,減少了實現複雜度及減少成本。
以上所述僅是本發明較佳實施例而已,舉凡應用本發明說明書及申請專利範圍所為的其它等效結構變化理應包含在本發明的申請專利範圍內。
S1:步驟
S2:步驟
S3:步驟
S4:步驟
S5:步驟
T1:步驟
T2:步驟
T3:步驟
T4:步驟
T5:步驟
T6:步驟
以下將配合附圖詳細說明本發明的實施例,以更佳地理解本發明,其中:
圖1是本發明第一實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖;
圖2是本發明第二實施例的融合骨振動感測器信號及麥克風信號的深度學習降噪方法的流程圖;
圖3是高頻重建步驟的原理方塊圖;
圖4是本發明的深度神經網路融合模組結構方塊圖;
圖5是本發明的骨振動感測器採集到的音訊信號頻譜示意圖;
圖6是本發明的麥克風採集到的音訊信號頻譜示意圖;
圖7是本發明處理後的音訊信號頻譜示意圖;及
圖8是本發明的降噪方法與習知無骨振動感測器的單聲道對應的深度學習即時降噪方法的降噪效果對比圖。
S1:步驟
S2:步驟
S3:步驟
S4:步驟
S5:步驟
Claims (6)
- 一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法,該方法包括以下步驟:利用麥克風採集音訊信號以得到麥克風音訊信號;利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;將經過高通濾波後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音;該深度神經網路模組以純淨語音幅度譜為訓練目標:首先將純淨語音經過短時傅里葉變換後,獲得純淨的語音幅度譜作為訓練目標,即目標幅度譜;該深度神經網路模組的輸入信號是由該骨振動感測器音訊信號的幅度譜及該麥克風音訊信號的幅度譜堆疊而成:首先將該骨振動感測器音訊信號及該麥克風音訊信號分別經過短時傅里葉變換,再分別得到兩路幅度譜,並進行堆疊;將該堆疊後的幅度譜經過該深度神經網路模組,以得到估計幅度譜,並輸出;將該目標幅度譜與該估計幅度譜分別作均方差處理,用以反映估計量與被估計量之間的差異程度;該訓練採用反向傳播-梯度下降的方式更新網路參數,不斷地送入網路訓練資料、更新網路參數,直至網路收斂;並將麥克風數據作短時傅里葉變換,將產生的相位與估計的幅度譜結合,以恢復估計後的純淨語音。
- 如請求項1所述之深度學習降噪方法,其中該高通濾波模組修正骨振動感測器音訊信號的直流偏移,並濾除低頻雜波信號。
- 如請求項1所述之深度學習降噪方法,其中該深度神經網路模組還包括一融合模組,該融合模組將麥克風音訊信號及骨振動感測器音訊信號融合及降噪。
- 如請求項1所述之深度學習降噪方法,其中該深度神經網路模組是通過卷積迴圈神經網路而實現,並通過估計而得到純淨的語音幅度譜。
- 如請求項1所述之深度學習降噪方法,其中該深度神經網路模組包括複數層卷積神經網路,複數層長短期記憶網路,及對應的複數層反卷積神經網路。
- 一種融合骨振動感測器信號及麥克風信號的深度學習降噪方法,該方法包括以下步驟:利用麥克風採集音訊信號以得到麥克風音訊信號;利用骨振動感測器採集音訊信號以得到骨振動感測器音訊信號;將骨振動感測器音訊信號輸入高通濾波模組,並進行高通濾波;在高通濾波模組進一步地將高通濾波後的骨振動感測器音訊信號的頻率增加至兩千赫茲(2kHz)以上;將增加頻率後的骨振動感測器音訊信號與麥克風音訊信號一起輸入深度神經網路模組;及深度神經網路模組通過估計來融合高通濾波後的骨振動感測器音訊信號與麥克風音訊信號,以得到降噪後的純淨語音;該深度神經網路模組以純淨語音幅度譜為訓練目標:首先將純淨語音經過短時傅里葉變換後,獲得純淨的語音幅度譜作為訓練目標,即目標幅度譜; 該深度神經網路模組的輸入信號是由該骨振動感測器音訊信號的幅度譜及該麥克風音訊信號的幅度譜堆疊而成:首先將該骨振動感測器音訊信號及該麥克風音訊信號分別經過短時傅里葉變換,再分別得到兩路幅度譜,並進行堆疊;將該堆疊後的幅度譜經過該深度神經網路模組,以得到估計幅度譜,並輸出;將該目標幅度譜與該估計幅度譜分別作均方差處理,用以反映估計量與被估計量之間的差異程度;該訓練採用反向傳播-梯度下降的方式更新網路參數,不斷地送入網路訓練資料、更新網路參數,直至網路收斂;並將麥克風數據作短時傅里葉變換,將產生的相位與估計的幅度譜結合,以恢復估計後的純淨語音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910953534.9 | 2019-10-09 | ||
CN201910953534.9A CN110931031A (zh) | 2019-10-09 | 2019-10-09 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202115718A TW202115718A (zh) | 2021-04-16 |
TWI763073B true TWI763073B (zh) | 2022-05-01 |
Family
ID=69849105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109134873A TWI763073B (zh) | 2019-10-09 | 2020-10-08 | 融合骨振動感測器信號及麥克風信號的深度學習降噪方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110931031A (zh) |
TW (1) | TWI763073B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021237740A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 一种语音信号处理方法及其相关设备 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
WO2022027423A1 (zh) * | 2020-08-06 | 2022-02-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112055278B (zh) * | 2020-08-17 | 2022-03-08 | 大象声科(深圳)科技有限公司 | 融合入耳麦克风和耳外麦克风的深度学习降噪设备 |
CN111741419B (zh) * | 2020-08-21 | 2020-12-04 | 瑶芯微电子科技(上海)有限公司 | 骨传导声音处理系统、骨传导麦克风及其信号处理方法 |
CN111988702B (zh) * | 2020-08-25 | 2022-02-25 | 歌尔科技有限公司 | 音频信号的处理方法、电子设备及存储介质 |
TWI767696B (zh) * | 2020-09-08 | 2022-06-11 | 英屬開曼群島商意騰科技股份有限公司 | 自我語音抑制裝置及方法 |
CN112019967B (zh) * | 2020-09-09 | 2022-07-22 | 歌尔科技有限公司 | 一种耳机降噪方法、装置、耳机设备及存储介质 |
CN112017687B (zh) * | 2020-09-11 | 2024-03-29 | 歌尔科技有限公司 | 一种骨传导设备的语音处理方法、装置及介质 |
CN112412538B (zh) * | 2020-11-11 | 2022-12-16 | 中煤科工开采研究院有限公司 | 冲击地压监测预警系统 |
CN112767963B (zh) * | 2021-01-28 | 2022-11-25 | 歌尔科技有限公司 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
CN113113001A (zh) * | 2021-04-20 | 2021-07-13 | 深圳市友杰智新科技有限公司 | 人声激活检测方法、装置、计算机设备和存储介质 |
CN113411698B (zh) * | 2021-06-21 | 2022-11-25 | 歌尔科技有限公司 | 音频信号处理方法及智能音箱 |
CN113421583B (zh) * | 2021-08-23 | 2021-11-05 | 深圳市中科蓝讯科技股份有限公司 | 降噪方法、存储介质、芯片及电子设备 |
CN113421580B (zh) * | 2021-08-23 | 2021-11-05 | 深圳市中科蓝讯科技股份有限公司 | 降噪方法、存储介质、芯片及电子设备 |
CN114167315A (zh) * | 2021-11-18 | 2022-03-11 | 广东亿嘉和科技有限公司 | 一种变压器智能在线监测系统及其方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI451404B (zh) * | 2006-08-01 | 2014-09-01 | Dts Inc | 用來補償音訊換能器線性與非線性失真的類神經網路濾波技術 |
US20190038467A1 (en) * | 2018-03-05 | 2019-02-07 | Intel Corporation | Hearing protection and communication apparatus using vibration sensors |
CN109346075A (zh) * | 2018-10-15 | 2019-02-15 | 华为技术有限公司 | 通过人体振动识别用户语音以控制电子设备的方法和系统 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN110010143A (zh) * | 2019-04-19 | 2019-07-12 | 出门问问信息科技有限公司 | 一种语音信号增强系统、方法及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7346504B2 (en) * | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
US20150199950A1 (en) * | 2014-01-13 | 2015-07-16 | DSP Group | Use of microphones with vsensors for wearable devices |
US10313782B2 (en) * | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
CN107300971B (zh) * | 2017-06-09 | 2019-04-02 | 深圳大学 | 基于骨传导振动信号传播的智能输入方法及系统 |
CN107452389B (zh) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CA3075738C (en) * | 2017-09-12 | 2021-06-29 | Whisper. Ai Inc. | Low latency audio enhancement |
CN107886967B (zh) * | 2017-11-18 | 2018-11-13 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
US10455324B2 (en) * | 2018-01-12 | 2019-10-22 | Intel Corporation | Apparatus and methods for bone conduction context detection |
CN108681709B (zh) * | 2018-05-16 | 2020-01-17 | 深圳大学 | 基于骨传导振动与机器学习的智能输入方法及系统 |
CN109195042B (zh) * | 2018-07-16 | 2020-07-31 | 恒玄科技(上海)股份有限公司 | 低功耗的高效降噪耳机及降噪系统 |
CN109151635A (zh) * | 2018-08-15 | 2019-01-04 | 恒玄科技(上海)有限公司 | 实现主动降噪与耳外音拾取的自动切换系统及方法 |
CN108986834B (zh) * | 2018-08-22 | 2023-04-07 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
-
2019
- 2019-10-09 CN CN201910953534.9A patent/CN110931031A/zh active Pending
-
2020
- 2020-10-08 TW TW109134873A patent/TWI763073B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI451404B (zh) * | 2006-08-01 | 2014-09-01 | Dts Inc | 用來補償音訊換能器線性與非線性失真的類神經網路濾波技術 |
US20190038467A1 (en) * | 2018-03-05 | 2019-02-07 | Intel Corporation | Hearing protection and communication apparatus using vibration sensors |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109346075A (zh) * | 2018-10-15 | 2019-02-15 | 华为技术有限公司 | 通过人体振动识别用户语音以控制电子设备的方法和系统 |
CN110010143A (zh) * | 2019-04-19 | 2019-07-12 | 出门问问信息科技有限公司 | 一种语音信号增强系统、方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110931031A (zh) | 2020-03-27 |
TW202115718A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI763073B (zh) | 融合骨振動感測器信號及麥克風信號的深度學習降噪方法 | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
KR102429152B1 (ko) | 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법 | |
US10455325B2 (en) | Direction of arrival estimation for multiple audio content streams | |
CN111916101B (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN102164328B (zh) | 一种用于家庭环境的基于传声器阵列的音频输入系统 | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
WO2022027423A1 (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
Giri et al. | Personalized percepnet: Real-time, low-complexity target voice separation and enhancement | |
CN105869651A (zh) | 基于噪声混合相干性的双通道波束形成语音增强方法 | |
WO2020020247A1 (zh) | 信号处理方法、装置以及计算机存储介质 | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
CN105575403A (zh) | 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 | |
Stachurski et al. | Sound source localization for video surveillance camera | |
Zhang et al. | LCSM: A lightweight complex spectral mapping framework for stereophonic acoustic echo cancellation | |
Xiong et al. | Blind estimation of reverberation time based on spectro-temporal modulation filtering | |
Mesgarani et al. | Speech enhancement based on filtering the spectrotemporal modulations | |
Sadjadi et al. | A comparison of front-end compensation strategies for robust LVCSR under room reverberation and increased vocal effort | |
Tawara et al. | Adversarial autoencoder for reducing nonlinear distortion | |
Wang et al. | Distributed microphone speech enhancement based on deep learning | |
Rutkowski et al. | Speech enhancement using adaptive filters and independent component analysis approach | |
WO2023104215A1 (en) | Methods for synthesis-based clear hearing under noisy conditions | |
Romoli et al. | A voice activity detection algorithm for multichannel acoustic echo cancellation exploiting fundamental frequency estimation | |
Chen et al. | Early Reflections Based Speech Enhancement | |
Azarpour et al. | Adaptive binaural noise reduction based on matched-filter equalization and post-filtering |