TWI841229B - 語音增強方法及執行語音增強方法的處理電路 - Google Patents
語音增強方法及執行語音增強方法的處理電路 Download PDFInfo
- Publication number
- TWI841229B TWI841229B TW112104541A TW112104541A TWI841229B TW I841229 B TWI841229 B TW I841229B TW 112104541 A TW112104541 A TW 112104541A TW 112104541 A TW112104541 A TW 112104541A TW I841229 B TWI841229 B TW I841229B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- noise
- noise reduction
- reduction process
- intermediate signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000011946 reduction process Methods 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000003595 spectral effect Effects 0.000 claims abstract 3
- 238000001228 spectrum Methods 0.000 claims description 50
- 238000013135 deep learning Methods 0.000 claims description 33
- 230000001629 suppression Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 2
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Noise Elimination (AREA)
Abstract
本發明揭露了一種語音增強方法及執行語音增強方法的處理電路。該處理電路處理一待處理訊號以產生一目標訊號,並且執行複數個程式碼或程式指令來執行以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一噪音分析,以得到一噪音特徵;當該噪音特徵不滿足一目標條件時,對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號;以及,對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號。該第一降噪處理不同於該第二降噪處理。
Description
本發明是關於訊號處理,尤其是關於語音增強方法及執行語音增強方法的處理電路。
語音增強(speech enhancement, SE)是語音通話中的一項重要技術,它通過演算法對雜訊(或稱為噪音,包含穩態噪音(steady noise)和非穩態噪音(non-steady noise))進行抑制從而提升語音品質。雜訊抑制效果的好壞直接決定了語音增強的效果。因此,本發明提出一種裝置及方法來提升雜訊抑制的效果(即,提升語音增強的效果)。
鑑於先前技術之不足,本發明之一目的在於提供一種語音增強方法及執行語音增強方法的處理電路,以提升雜訊抑制的效果。
本發明之一實施例提供一種處理電路,用來處理一待處理訊號以產生一目標訊號。該處理電路執行複數個程式碼或程式指令來執行以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一噪音分析,以得到一噪音特徵;當該噪音特徵不滿足一目標條件時,對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號;以及,對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號。該第一降噪處理不同於該第二降噪處理。
本發明之另一實施例提供一種語音增強方法,用來處理一待處理訊號以產生一目標訊號,包含以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一噪音分析,以得到一噪音特徵;當該噪音特徵不滿足一目標條件時,對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號;以及,對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號。該第一降噪處理不同於該第二降噪處理。
本發明之另一實施例提供一種語音增強方法,用來處理一待處理訊號以產生一目標訊號,包含以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行該第二降噪處理,以產生一第二中間訊號;以及,對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號。該第一降噪處理不同於該第二降噪處理。
本發明之實施例所體現的技術手段可以改善先前技術之缺點的至少其中之一,因此本發明相較於先前技術可以提升雜訊抑制的效果。
有關本發明的特徵、實作與功效,茲配合圖式作實施例詳細說明如下。
以下說明內容之技術用語係參照本技術領域之習慣用語,如本說明書對部分用語有加以說明或定義,該部分用語之解釋係以本說明書之說明或定義為準。
本發明之揭露內容包含語音增強方法及執行語音增強方法的處理電路。由於本發明之執行語音增強方法的處理電路所包含之部分元件單獨而言可能為已知元件,因此在不影響該裝置發明之充分揭露及可實施性的前提下,以下說明對於已知元件的細節將予以節略。此外,本發明之語音增強方法的部分或全部流程可以是軟體及/或韌體之形式,並且可藉由本發明之執行語音增強方法的處理電路或其等效裝置來執行,在不影響該方法發明之充分揭露及可實施性的前提下,以下方法發明之說明將著重於步驟內容而非硬體。
圖1是本發明電子裝置之一實施例的功能方塊圖。電子裝置100包含晶片110、記憶體120、輸入裝置130及輸出裝置140。晶片110包含音頻傳輸電路111、處理電路112、音頻處理電路114、類比數位轉換器115(analog-to-digital converter, ADC)及數位類比轉換器116(digital-to-analog converter, DAC)。處理電路112包含處理器112_a及輔助處理器112_b。晶片110耦接記憶體120。記憶體120用來儲存複數個程式指令及/或程式碼,以及其他資料。
輸入裝置130用來將類比輸入訊號ASin(例如語音訊號(speech signal))輸入至晶片110。輸入裝置130可以是一個麥克風。
類比數位轉換器115用來將類比輸入訊號ASin轉換為數位訊號D1。
音頻傳輸電路111用來透過數位訊號傳收電路(包含但不限於有線網路模組、無線網路模組、藍牙模組等)接收數位輸入訊號DSin。
音頻處理電路114用來對數位輸入訊號DSin或數位訊號D1進行音頻處理,以產生待處理訊號SN。在一些實施例中,音頻處理電路114可以包含脈衝密度調變(pulse density modulation, PDM)轉脈衝編碼調變(pulse-code modulation, PCM)電路、重取樣(resampling)電路、濾波電路以及數位可編程增益放大器(digital programmable gain amplifier, DPGA)。脈衝密度調變轉脈衝編碼調變電路用來將脈衝密度調變訊號轉換為脈衝編碼調變訊號。重取樣電路用來將高取樣率的脈衝編碼調變訊號轉換為低取樣率的脈衝編碼調變訊號。濾波電路用來濾除高頻分量及直流分量。數位可編程增益放大器用來調整濾波後的訊號的增益。
在一些實施例中,晶片110還包含直接記憶體存取(direct memory access, DMA)電路,用來將音頻處理電路114所產生的待處理訊號SN儲存於記憶體120,以及將待處理訊號SN由記憶體120讀出,並提供給處理電路112。
處理電路112用來對待處理訊號SN進行語音增強處理,以產生目標訊號SE(即,雜訊抑制後的(語音增強後的)訊號)。處理電路112可以藉由執行儲存於記憶體120中的程式指令及/或程式碼來進行語音增強處理。
處理器112_a可以是具有程式執行能力的通用處理器,例如中央處理器、微處理器、微處理單元、數位訊號處理器、特殊應用積體電路(Application Specific Integrated Circuit, ASIC),或其等效電路。輔助處理器112_b可以是具有程式執行能力的專用處理器,例如智能處理器(intelligence processing unit, IPU)、神經網路處理器(neural-network processing unit, NPU)或圖形處理器(graphics processing unit, GPU)。處理器112_a與輔助處理器112_b協作以進行語音增強處理。也就是說,晶片110可以利用輔助處理器112_b的執行能力來提升整體語音增強處理的速度(即,提升晶片110的整體效能)。
在一個不同的實施例中,晶片110可以只包含處理器112_a但不包含輔助處理器112_b。也就是說,語音增強處理完全由處理器112_a執行。
音頻處理電路114對目標訊號SE進行音頻處理,以產生數位訊號D2。數位訊號D2可以經由音頻傳輸電路111輸出,或是經由數位類比轉換器116轉換為類比輸出訊號ASout後輸出至輸出裝置140。輸出裝置140可以是一個揚聲器。
請參閱圖2,圖2是本發明語音增強方法之一實施例的流程圖。圖2由處理電路112執行,包含以下步驟。
步驟S210:對待處理訊號SN進行傅立葉變換(Fourier transform,例如短時距傅立葉變換(short-time Fourier transform, STFT))以產生待處理訊號SN的頻譜訊號MG。
步驟S220:對頻譜訊號MG進行第一降噪處理,以產生第一中間訊號MM。
步驟S230:基於頻譜訊號MG及/或第一中間訊號MM進行噪音分析,以得到一噪音特徵。
步驟S240:判斷該噪音特徵是否滿足預設條件。如果是,則進行步驟S250;如果否,則進行步驟S260及步驟S270。
步驟S250:對第一中間訊號MM進行逆傅立葉變換(inverse Fourier transform,例如逆短時距傅立葉變換(inverse short-time Fourier transform, ISTFT)),以產生目標訊號SE。
步驟S260:對第一中間訊號MM進行第二降噪處理,以產生第二中間訊號SR。
步驟S270:對第二中間訊號SR進行逆傅立葉變換,以產生目標訊號SE。
圖2的實施細節將於下方配合圖3~圖9做說明。
請參閱圖3,圖3是本發明處理電路之功能模組之一實施例的方塊圖。處理電路112包含以下的功能模組:傅立葉變換模組310、基於深度學習(deep learning)的語音增強模組320、判斷模組330、基於訊號處理的語音增強模組340以及逆傅立葉變換模組350。
傅立葉變換模組310對應到圖2的步驟S210。逆傅立葉變換模組350對應到圖2的步驟S250及步驟S270。除了頻譜訊號MG之外,傅立葉變換模組310還產生相位訊號PH。逆傅立葉變換模組350根據相位訊號PH來對第一中間訊號MM或第二中間訊號SR進行逆傅立葉變換,以產生目標訊號SE。傅立葉變換模組310及逆傅立葉變換模組350的實施細節為本技術領域具有通常知識者所熟知,故不再贅述。
基於深度學習的語音增強模組320對應到圖2的步驟S220。詳言之,基於深度學習的語音增強模組320基於深度學習來對頻譜訊號MG進行雜訊抑制;也就是說,步驟S220的第一降噪處理是基於深度學習的降噪處理。第一中間訊號MM即為待處理訊號SN經過一次降噪處理後的訊號。基於深度學習的語音增強模組320包含特徵提取模組322、深度學習模型324及乘法電路326。在一些實施例中,與基於深度學習的語音增強模組320相關的操作可以由輔助處理器112_b執行。
特徵提取模組322用來提取頻譜訊號MG的語音特徵FT。語音特徵FT可以是頻譜訊號MG的振幅譜(amplitude spectrum)。在一些實施例中,深度學習模型324包含一維卷積層、循環神經網路層、線性層及激活層。深度學習模型324根據語音特徵FT計算出遮罩(mask)MK。乘法電路326藉由將頻譜訊號MG與遮罩MK相乘來抑制特定的頻譜。在一些實施例中,遮罩MK包含多個「1」與「0」;對應於「1」的頻譜會被保留,而對應於「0」的頻譜會被抑制。
本技術領域具有通常知識者知悉如何藉由提供基於深度學習的語音增強模組320各種輸入訊號及對應的輸出訊號來訓練深度學習模型324,因此不再贅述訓練細節。
判斷模組330對應到圖2的步驟S230及步驟S240。步驟S230及步驟S240的細節將於下方配合圖4~圖6詳述。
基於訊號處理的語音增強模組340對應到圖2的步驟S260。詳言之,基於訊號處理的語音增強模組340基於訊號處理來對第一中間訊號MM進行雜訊抑制;也就是說,步驟S260的第二降噪處理是基於訊號處理的降噪處理。相較於第一降噪處理之深度學習,第二降噪處理不採用深度學習模型而是基於訊號處理,其是透過檢測音頻訊號中的語音成分及估算噪音,再據以對語音訊號進行降噪處理。第二中間訊號SR即為待處理訊號SN經過兩次降噪處理後的訊號。基於訊號處理的語音增強模組340包含語音活性檢測模組342、噪音估算模組344、抑制因子(suppression gain)計算模組346及乘法電路348。
語音活性檢測模組342用來對第一中間訊號MM進行語音活動檢測,以產生檢測結果DR。在一些具體實施例中,該檢測結果DR包括每一頻點所對應的語音存在的概率。噪音估算模組344根據檢測結果DR估算第一中間訊號MM的殘留噪音的振幅譜SS。抑制因子計算模組346根據第一中間訊號MM及振幅譜SS計算抑制因子GS。乘法電路348將第一中間訊號MM與抑制因子GS相乘以產生第二中間訊號SR。
在一些實施例中,噪音估算模組344基於以下的算式估算第一中間訊號MM的殘留噪音的振幅譜SS。在以下的算式中,Y代表第一中間訊號MM,
代表殘留噪音的振幅譜SS,
為頻域平滑後的振幅譜,
為頻域平滑因子,w為頻域平滑窗長,S為時域平滑後的振幅譜,
為時域平滑因子,k為頻點,I為語音幀。
首先,基於方程式(1)~(2)對第一中間訊號MM(也就是深度學習語音增強後的頻譜Y)計算對應平滑的振幅譜S。
(1)
(2)
接著,基於方程式(3)~(5)計算局部最小值跟蹤,其中,
為全局最小值,
為局部最小值。方程式(3)為初始化,方程式(4)為跟蹤局部最小值和全局最小值,方程式(5)為更新跟蹤結果。
(3)
(4)
(5)
然後,基於方程式(6)~(7)計算訊號雜訊比和語音存在判決,其中,I為語音存在判決結果,1表示語音存在,0表示語音不存在,「otherwise」代表「其他」。
(6)
(7)
然後,基於方程式(8)更新語音存在概率。
(8)
然後,基於方程式(9)計算平滑因子。
(9)
最後,基於方程式(10)更新噪音的振幅譜。
(10)
在一些實施例中,抑制因子計算模組346基於方程式(11)計算抑制因子
。
(11)
請參閱圖4,圖4是圖3之判斷模組330(即,對應到圖2之步驟S230及步驟S240)之第一種實施例的細節。
步驟S230包含子步驟S410:基於頻譜訊號MG及第一中間訊號MM計算待處理訊號SN的訊號雜訊比(signal to noise ratio, SNR)。訊號雜訊比即前述的噪音特徵。更明確地說,處理電路112根據方程式(12)計算訊號雜訊比。
(12)
在一些實施例中,訊號雜訊比也可以使用尺度不變的源工件比(scale invariant source-to-artifact ratio, SI-SAR)或標度不變訊號失真比(scale invariant signal-to-distortion ratio, SI-SDR)來取代。
步驟S240包含子步驟S420:判斷訊號雜訊比是否大於門檻值。門檻值可以由使用者根據經驗及/或當前的應用環境決定。如果是(代表第一中間訊號MM的品質已夠好),則前往步驟S250;如果否,則前往步驟S260以進行第二降噪處理。
請參閱圖5,圖5是圖3之判斷模組330(即,對應到圖2之步驟S230及步驟S240)之第二種實施例的細節。
步驟S230包含子步驟S510:基於第一中間訊號MM計算穩態噪音。穩態噪音即前述的噪音特徵。穩態噪音是指背景中的穩定聲響(例如,風聲、冷氣機之運轉聲等持續存在之噪音)。可以藉由對第一中間訊號MM進行頻譜分析來計算第一中間訊號MM的穩態噪音。頻譜分析技巧為本技術領域具有通常知識者所熟知,故不再贅述。
步驟S240包含子步驟S520:判斷穩態噪音的振幅是否小於門檻值。如果是(代表第一中間訊號MM的穩態噪音已夠小),則前往步驟S250;如果否,則前往步驟S260以進行第二降噪處理。
請參閱圖6,圖6是圖3之判斷模組330(即,對應到圖2之步驟S230及步驟S240)之第三種實施例的細節。圖6的實施例是圖4的實施例及圖5的實施例的組合。步驟S230包含子步驟S410及步驟S510;換言之,在圖6的實施例中,噪音特徵包含訊號雜訊比及穩態噪音。步驟S240包含子步驟S420及步驟S520。更明確地說,當訊號雜訊比不大於第一門檻值時(步驟S420為否),處理電路112更判斷第一中間訊號MM之穩態噪音的振幅是否小於第二門檻值。當步驟S420及步驟S520皆為否時,前往步驟S260;否則,前往步驟S250。第一門檻值可以等於或不等於第二門檻值。
圖6的實施例與圖4的實施例的差別在於,在圖6的實施例中,噪音特徵更包含穩態噪音且步驟S240更包含步驟S520。也就是說,即使第一中間訊號MM的訊號雜訊比不大於第一門檻值(即,步驟S420為否,代表第一中間訊號MM的品質還未達使用者自訂的標準),處理電路112只有在穩態噪音的振幅不小於第二門檻值時(即,步驟S520為否)才對第一中間訊號MM進行基於訊號處理的降噪處理,如此可以節省晶片110的功耗。
請參閱圖7,圖7是本發明處理電路之功能模組之另一實施例的方塊圖。圖7與圖3相似,差別在於,在圖7的實施例中,對應於步驟S220的第一降噪處理是基於訊號處理的降噪處理,對應於步驟S260的第二降噪處理是基於深度學習的降噪處理。更明確地說,基於訊號處理的語音增強模組340對應到圖2的步驟S220,而基於深度學習的語音增強模組320對應到圖2的步驟S260。請參閱圖3的說明以了解傅立葉變換模組310、基於深度學習的語音增強模組320、基於訊號處理的語音增強模組340以及逆傅立葉變換模組350的操作細節。以下配合圖4、圖8及圖9說明判斷模組730的細節。
在判斷模組730的第一種實施例中,處理電路112是根據待處理訊號SN的訊號雜訊比進行判斷,細節請參考圖4的實施例。
請參閱圖8,圖8是圖7之判斷模組730(即,對應到圖2之步驟S230及步驟S240)之第二種實施例的細節。
步驟S230包含子步驟S810:基於第一中間訊號MM計算非穩態噪音。非穩態噪音即前述的噪音特徵。非穩態噪音是指背景中的突發聲響(例如,關門聲、物品掉落到地面的聲音等瞬間產生之噪音)。可以藉由對第一中間訊號MM進行頻譜分析來計算第一中間訊號MM的非穩態噪音。
步驟S240包含子步驟S820:判斷非穩態噪音的振幅是否小於門檻值。如果是(代表第一中間訊號MM的非穩態噪音已夠小),則前往步驟S250;如果否,則前往步驟S260以進行第二降噪處理。
請參閱圖9,圖9是圖7之判斷模組730(即,對應到圖2之步驟S230及步驟S240)之第三種實施例的細節。圖9的實施例是圖4的實施例及圖8的實施例的組合。步驟S230包含子步驟S410及步驟S810;換言之,在圖9的實施例中,噪音特徵包含訊號雜訊比及非穩態噪音。步驟S240包含子步驟S420及步驟S820。更明確地說,當訊號雜訊比不大於第一門檻值時(步驟S420為否),處理電路112更判斷第一中間訊號MM之非穩態噪音的振幅是否小於第二門檻值。當步驟S420及步驟S820皆為否時,前往步驟S260;否則,前往步驟S250。
圖9的實施例與圖4的實施例的差別在於,在圖9的實施例中,噪音特徵更包含非穩態噪音且步驟S240更包含步驟S820。也就是說,即使第一中間訊號MM的訊號雜訊比不大於第一門檻值(即,步驟S420為否,代表第一中間訊號MM的品質還未達使用者自訂的標準),處理電路112只有在非穩態噪音的振幅不小於第二門檻值時(即,步驟S820為否)才對第一中間訊號MM進行基於深度學習的降噪處理,如此可以節省晶片110的功耗。
在圖3的實施例中,基於訊號處理的語音增強模組340可以彌補基於深度學習的語音增強模組320的不足。舉例來說,當待處理訊號SN是一個不曾出現在深度學習模型324的訓練資料中的訊號時,基於深度學習的語音增強模組320無法對待處理訊號SN進行有效的雜訊抑制;此時基於訊號處理的語音增強模組340可以進一步對第一中間訊號MM進行雜訊抑制。換句話說,圖3的實施例可以有效地降低深度學習模型324所需的資料量、訓練時間和模型大小。
在圖7的實施例中,基於深度學習的語音增強模組320可以彌補基於訊號處理的語音增強模組340的不足。舉例來說,當待處理訊號SN包含非穩態噪音時,基於訊號處理的語音增強模組340無法對待處理訊號SN進行有效的雜訊抑制;此時基於深度學習的語音增強模組320可以進一步對第一中間訊號MM進行雜訊抑制。
就深度學習模型324的訓練而言,圖3的實施例比圖7的實施例更容易實作,原因在於待處理訊號SN(圖3之基於深度學習的語音增強模組320所處理的訊號)比第一中間訊號MM(圖7之基於深度學習的語音增強模組320所處理的訊號)更容易取得。換言之,圖3之實施例直接使用原始訊號(待處理訊號SN)對深度學習模型324進行訓練,而圖7之實施例在訓練深度學習模型324之前必須先對原始訊號進行基於訊號處理的降噪處理。
圖4之實施例比圖5之實施例及圖8之實施例更容易實作,原因在於,計算訊號雜訊比(方程式(12))比進行頻譜分析更為快速且需要較少的功耗(因為計算較簡單)。
雖然本發明之實施例如上所述,然而該些實施例並非用來限定本發明,本技術領域具有通常知識者可根據本發明之明示或隱含之內容對本發明之技術特徵施以變化,凡此種種變化均可能屬於本發明所尋求之專利保護範疇,換言之,本發明之專利保護範圍須視本說明書之申請專利範圍所界定者為準。
100:電子裝置
110:晶片
120:記憶體
130:輸入裝置
140:輸出裝置
111:音頻傳輸電路
112:處理電路
114:音頻處理電路
115:類比數位轉換器(ADC)
116:數位類比轉換器(DAC)
112_a:處理器
112_b:輔助處理器
ASin:類比輸入訊號
D1,D2:數位訊號
DSin:數位輸入訊號
SN:待處理訊號
SE:目標訊號
ASout:類比輸出訊號
MG:頻譜訊號
MM:第一中間訊號
SR:第二中間訊號
310:傅立葉變換模組
320:基於深度學習的語音增強模組
330,730:判斷模組
340:基於訊號處理的語音增強模組
350:逆傅立葉變換模組
PH:相位訊號
322:特徵提取模組
324:深度學習模型
326,348:乘法電路
FT:語音特徵
MK:遮罩
342:語音活性檢測模組
344:噪音估算模組
346:抑制因子計算模組
DR:檢測結果
SS:振幅譜
GS:抑制因子
S210,S220,S230,S240,S250,S260,S270,S410,S420,S510,S520,S810,S820:步驟
圖1是本發明電子裝置之一實施例的功能方塊圖;
圖2是本發明語音增強方法之一實施例的流程圖;
圖3是本發明處理電路之功能模組之一實施例的方塊圖;
圖4是圖3之判斷模組330之第一種實施例的細節;
圖5是圖3之判斷模組330之第二種實施例的細節;
圖6是圖3之判斷模組330之第三種實施例的細節;
圖7是本發明處理電路之功能模組之另一實施例的方塊圖;
圖8是圖7之判斷模組730之第二種實施例的細節;以及
圖9是圖7之判斷模組730之第三種實施例的細節。
S210,S220,S230,S240,S250,S260,S270:步驟
Claims (13)
- 一種處理電路,用來處理一待處理訊號以產生一目標訊號,該處理電路執行複數個程式碼或程式指令來執行以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一噪音分析,以得到一噪音特徵;當該噪音特徵不滿足一目標條件時,對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號,並對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號;以及當該噪音特徵滿足該目標條件時,對該第一中間訊號進行該逆傅立葉變換,以產生該目標訊號;其中,該第一降噪處理不同於該第二降噪處理。
- 如請求項1之處理電路,其中,該處理電路包括一通用處理器和一專用處理器,該第一降噪處理係由該專用處理器執行的一基於深度學習的降噪處理,該第二降噪處理係由該通用處理器執行的一基於訊號處理的降噪處理,該噪音分析包含基於該頻譜訊號及該第一中間訊號計算該待處理訊號之一訊號雜訊比,該噪音特徵包含該訊號雜訊比,而該目標條件係該訊號雜訊比大於一門檻值。
- 如請求項1之處理電路,其中,該處理電路包括一通用處理器和一專用處理器,該第一降噪處理係由該專用處理器執行的一基於深度學習的 降噪處理,該第二降噪處理係由該通用處理器執行的一基於訊號處理的降噪處理,該噪音分析包含基於該第一中間訊號計算一穩態噪音,該噪音特徵包含該穩態噪音,而該目標條件係該穩態噪音之一振幅小於一門檻值。
- 如請求項1之處理電路,其中,該處理電路包括一通用處理器和一專用處理器,該第一降噪處理係由該專用處理器執行的一基於深度學習的降噪處理,該第二降噪處理係由該通用處理器執行的一基於訊號處理的降噪處理,該基於深度學習的降噪處理係提取該頻譜訊號的一語音特徵、根據該語音特徵計算出一遮罩,以及將該頻譜訊號與該遮罩相乘以產生該第一中間訊號;該基於訊號處理的降噪處理係對該第一中間訊號進行一語音活動檢測以產生一檢測結果、根據該檢測結果估算該第一中間訊號的一殘留噪音的一振幅譜、根據該第一中間訊號及該振幅譜計算一抑制因子,以及將該第一中間訊號與該抑制因子相乘以產生該第二中間訊號。
- 如請求項1之處理電路,其中,該處理電路包括一通用處理器和一專用處理器,該第一降噪處理係由該通用處理器執行的一基於訊號處理的降噪處理,該第二降噪處理係由該專用處理器執行的一基於深度學習的降噪處理,該噪音分析包含基於該第一中間訊號計算一非穩態噪音,該噪音特徵包含該非穩態噪音,而該目標條件係該非穩態噪音之一振幅小於一門檻值。
- 如請求項1之處理電路,其中,該處理電路包括一通用處理器和一專用處理器,該第一降噪處理係由該通用處理器執行的一基於訊號處理的降噪處理,該第二降噪處理係由該專用處理器執行的一基於深度學習的降噪處理,該噪音分析包含基於該頻譜訊號及該第一中間訊號計算該待處理訊號 之一訊號雜訊比以及基於該第一中間訊號計算一非穩態噪音,該噪音特徵包含該訊號雜訊比及該非穩態噪音,而該目標條件係該訊號雜訊比大於一第一門檻值或該非穩態噪音之一振幅小於一第二門檻值。
- 一種語音增強方法,用來處理一待處理訊號以產生一目標訊號,包含以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一噪音分析,以得到一噪音特徵;當該噪音特徵不滿足一目標條件時,對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號;以及對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號;其中,該第一降噪處理不同於該第二降噪處理。
- 如請求項7之語音增強方法,其中,該第一降噪處理係一基於深度學習的降噪處理,該第二降噪處理係一基於訊號處理的降噪處理,該噪音分析包含基於該頻譜訊號及該第一中間訊號計算該待處理訊號之一訊號雜訊比,該噪音特徵包含該訊號雜訊比,而該目標條件係該訊號雜訊比大於一門檻值。
- 如請求項7之語音增強方法,其中,該第一降噪處理係一基於深度學習的降噪處理,該第二降噪處理係一基於訊號處理的降噪處理,該噪音 分析包含基於該第一中間訊號計算一穩態噪音,該噪音特徵包含該穩態噪音,而該目標條件係該穩態噪音之一振幅小於一門檻值。
- 如請求項7之語音增強方法,其中,該第一降噪處理係一基於深度學習的降噪處理,該第二降噪處理係一基於訊號處理的降噪處理,該基於深度學習的降噪處理係提取該頻譜訊號的一語音特徵、根據該語音特徵計算出一遮罩,以及將該頻譜訊號與該遮罩相乘以產生該第一中間訊號;該基於訊號處理的降噪處理係對該第一中間訊號進行一語音活動檢測以產生一檢測結果、根據該檢測結果估算該第一中間訊號的一殘留噪音的一振幅譜、根據該第一中間訊號及該振幅譜計算一抑制因子,以及將該第一中間訊號與該抑制因子相乘以產生該第二中間訊號。
- 一種語音增強方法,用來處理一待處理訊號以產生一目標訊號,包含以下步驟:對該待處理訊號進行一傅立葉變換,以產生該待處理訊號之一頻譜訊號;對該頻譜訊號進行一第一降噪處理,以得到一第一中間訊號;對該第一中間訊號進行一第二降噪處理,以產生一第二中間訊號;以及對該第二中間訊號進行一逆傅立葉變換,以產生該目標訊號;其中,該第一降噪處理不等於該第二降噪處理。
- 如請求項11之語音增強方法,其中,該語音增強方法更包含:對該第一中間訊號進行一噪音分析,以得到一噪音特徵;以及 根據該噪音特徵及一目標條件判斷是否對該第一中間訊號進行該第二降噪處理。
- 如請求項11之語音增強方法,其中,該第一降噪處理係一基於深度學習的降噪處理,該第二降噪處理係一基於訊號處理的降噪處理;該基於深度學習的降噪處理係提取該頻譜訊號的一語音特徵、根據該語音特徵計算出一遮罩,以及將該頻譜訊號與該遮罩相乘以產生該第一中間訊號;該基於訊號處理的降噪處理係對該第一中間訊號進行一語音活動檢測以產生一檢測結果、根據該檢測結果估算該第一中間訊號的一殘留噪音的一振幅譜、根據該第一中間訊號及該振幅譜計算一抑制因子,以及將該第一中間訊號與該抑制因子相乘以產生該第二中間訊號。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112104541A TWI841229B (zh) | 2023-02-09 | 2023-02-09 | 語音增強方法及執行語音增強方法的處理電路 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112104541A TWI841229B (zh) | 2023-02-09 | 2023-02-09 | 語音增強方法及執行語音增強方法的處理電路 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI841229B true TWI841229B (zh) | 2024-05-01 |
TW202433457A TW202433457A (zh) | 2024-08-16 |
Family
ID=92076889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112104541A TWI841229B (zh) | 2023-02-09 | 2023-02-09 | 語音增強方法及執行語音增強方法的處理電路 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI841229B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020125376A1 (zh) * | 2018-12-18 | 2020-06-25 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
TW202038216A (zh) * | 2019-04-01 | 2020-10-16 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
TW202215417A (zh) * | 2020-08-31 | 2022-04-16 | 弗勞恩霍夫爾協會 | 多聲道信號產生器、音頻編碼器及依賴混合噪音信號的相關方法 |
TW202247141A (zh) * | 2021-04-01 | 2022-12-01 | 大陸商深圳市韶音科技有限公司 | 語音增強方法和系統 |
-
2023
- 2023-02-09 TW TW112104541A patent/TWI841229B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020125376A1 (zh) * | 2018-12-18 | 2020-06-25 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
TW202038216A (zh) * | 2019-04-01 | 2020-10-16 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
TW202215417A (zh) * | 2020-08-31 | 2022-04-16 | 弗勞恩霍夫爾協會 | 多聲道信號產生器、音頻編碼器及依賴混合噪音信號的相關方法 |
TW202247141A (zh) * | 2021-04-01 | 2022-12-01 | 大陸商深圳市韶音科技有限公司 | 語音增強方法和系統 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101168002B1 (ko) | 잡음 신호 처리 방법 및 상기 방법을 구현하기 위한 장치 | |
CN107393550B (zh) | 语音处理方法及装置 | |
KR101163411B1 (ko) | 지각 모델을 사용한 스피치 개선 | |
JP2003534570A (ja) | 適応ビームフォーマーにおいてノイズを抑制する方法 | |
CN109643554A (zh) | 自适应语音增强方法和电子设备 | |
JP5927558B2 (ja) | ハウリング検出装置、ハウリング抑制装置、およびハウリング検出方法 | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
KR20090122251A (ko) | 스피치 개선을 위한 노이즈 분산 추정기 | |
KR102040986B1 (ko) | 두 개의 마이크로폰을 포함하는 휴대단말에서의 잡음제거방법 및 장치 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN103632677A (zh) | 带噪语音信号处理方法、装置及服务器 | |
Gil-Cacho et al. | Wiener variable step size and gradient spectral variance smoothing for double-talk-robust acoustic echo cancellation and acoustic feedback cancellation | |
CN105390142A (zh) | 一种数字助听器语音噪声消除方法 | |
CN112201273B (zh) | 一种噪声功率谱密度计算方法、系统、设备及介质 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN114664322B (zh) | 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机 | |
CN111988708A (zh) | 一种基于单麦克风的啸叫抑制方法及装置 | |
TWI841229B (zh) | 語音增強方法及執行語音增強方法的處理電路 | |
CN107045874A (zh) | 一种基于相关性的非线性语音增强方法 | |
TW202433457A (zh) | 語音增強方法及執行語音增強方法的處理電路 | |
WO2023124984A1 (zh) | 生成语音增强模型的方法和设备以及语音增强方法和设备 | |
CN107346658B (zh) | 混响抑制方法及装置 | |
CN111933169B (zh) | 一种二次利用语音存在概率的语音降噪方法 | |
CN116312585A (zh) | 语音增强方法及执行语音增强方法的处理电路 |