WO2020177374A1 - 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 - Google Patents
基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 Download PDFInfo
- Publication number
- WO2020177374A1 WO2020177374A1 PCT/CN2019/117078 CN2019117078W WO2020177374A1 WO 2020177374 A1 WO2020177374 A1 WO 2020177374A1 CN 2019117078 W CN2019117078 W CN 2019117078W WO 2020177374 A1 WO2020177374 A1 WO 2020177374A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speech
- noise
- speech signal
- target
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 238000011084 recovery Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Definitions
- Step 2 Estimate the noise power spectrum
- Step 1 Receive the noisy speech signal, perform frame and window processing on the noisy speech signal, and then use the short-time Fourier transform to obtain the time-frequency domain relationship.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Abstract
一种基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质,方法包括:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:语音功率谱的估计;步骤4:通过语音估计器对语音信号进行估计;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现语音恢复。有效地把目标语音信号分离出来,减小了语音信号中的噪声残余量,使得目标信号的质量得到提高。对自动语音识别、说话人识别、人机对话接口以及助听器等应用有重要的作用。
Description
本发明涉及语音处理技术领域,尤其涉及基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质。
生活中处处存在着噪声,语音增强算法的目的在于提高被噪声污染的目标语音信号的质量和可懂度。现有的语音增强算法通常采用语音活动检测器来估计背景噪声进而实现目标信号增强,这些算法在平稳噪声环境以及高信噪比条件下表现的良好。然而,当在低信噪比特别是在非平稳噪声环境下,这些算法的性能表现地非常有限。由于生活中的噪声比较复杂,例如汽车,火车通过,行人说话聊天都会产生各种噪声,开发一种能在非平稳噪声条件下很好工作的语音增强算法是非常有必要的。
发明内容
本发明提供了一种基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:
步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;
步骤2:对噪声功率谱进行估计;
步骤3:纯净语音功率谱的估计;
步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;
步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。
作为本发明的进一步改进,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
作为本发明的进一步改进,在所述步骤3中,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算。
作为本发明的进一步改进,在所述步骤4中,运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。
本发明还提供了一种基于连续噪声跟踪的目标语音信号增强系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。
图1是本发明的框架图。
图2是跟踪快速变化的噪声示意图。
图3是语音波形图,其中图(a)是纯净语音图、图(b)是带噪语音图、图(c)是增强后的语音图。
本发明公开了一种基于连续噪声跟踪的目标语音信号增强方法,能够针对生活中的噪声实现有效的目标源信号与背景噪声的分离。
如图1所示,本发明的框架包括两个主要部分:语音估计器,噪声跟踪器。
信号模型:我们考虑加性信号模型,y(n)=x(n)+d(n),其中y(n)是带噪语音信号,x(n)和d(n)分别代表纯净语音信号和噪声信号。通过使用短时傅里叶变换得到时频域的关系,Y(l,k)=X(l,k)+D(l,k),其中l和k分别代表帧数和频率点的索引。其极坐标的表示形式为:Y=Re
jα,X=Ae
jβ和D=Ne
jθ。E{|X(l,k)|
2}=λ
x和E{|D(l,k)|
2}=λ
d分别是语音与噪声信号的方差。从图1我们看到方法的主要流程:1.对带噪语音信号进行分帧加窗处理,然后做短时傅里叶变换→2.噪声功率谱估计→3.先验信噪比估计→4.语音信号估计→5.综合(反傅里叶变换,加窗并使用交叠相加技术实现语音恢复)。
基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:
在步骤1中:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系。
噪声跟踪器:
为了估计噪声功率谱,我们提出使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。所以,在步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
利用贝叶斯准则,我们能得到最小均方误差估计器,式子如下
在公式(1)中,n(N)代表噪声谱变量,θ代表噪声短时傅里叶变换系数的角度(实部与虚部有一个角度),
由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的,我们可以得到
通过推导我们得到
其中ξ=λ
x/λ
d和γ=R
2/λ
d分别代表先验信噪比和后验信噪比,R=|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。从公式(3)我们可以看出噪声估计器以来先验信噪比的计算,而先验信噪比的计算需要语音功率谱的信息。所以下一步骤是纯净语音功率谱的估计。
步骤3:纯净语音功率谱的估计,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算,其表达式为
在公式(4)中,A(a)均代表语音谱幅度,大写代表的是变量,小写代表的是变量的取值,前面的噪声和此情况一样。H
1和H
0代表二元假设,分别 指语音存在与不存在两种情况。
由于第二部分为零,所以我们只需要计算第一部分。通过使用贝叶斯公式可以算出
在公式(5)中,β指的语音短时傅里叶变换系数的角度。
进而通过推导并且使用特殊的积分函数贝塞尔函数积分,我们得到
对于语音存在概率我们通过使用固定的先验信噪比得到一个简单有效的概率估计方法。概率计算公式为
语音估计器:
该算法运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。先验的广义伽马概率模型为
我们参数选择为μ=1和ν=6。对于语音估计器的先验信噪比,我们利用判决引导算法估计器来实现。
为了评估本发明方法的性能,我们做了大量的实验并证明了该方法能够有效地抑制非平稳噪声从而实现目标语音信号的增强。通过图2和图3, 我们可以更加直观的看出该方法能实现了高效的噪声跟踪以及非平稳噪声的抑制。
图2显示了跟踪噪声的实验结果,我们可以非常清楚的看到所提出的噪声跟踪器能够快速并且准确的跟踪噪声水平的快速变化。图3表示干净语音,带噪语音以及增强后的语音的波形图,我们可以非常直观的看到非平稳噪声被抑制得很好。总体上,该方法对非平稳噪声的抑制起到了非常好的效果。
本发明具有如下有益效果:
1.本发明的目标语音信号增强方法不再需要语音活动检测器来检测语音段与语音段。
2.即使在语音段内也能够连续的对噪声进行跟踪,对快速变化的噪声水平的完成了准确的跟踪与估计。
3.有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
- 一种基于连续噪声跟踪的目标语音信号增强方法,其特征在于,包括如下步骤:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:纯净语音功率谱的估计;步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。
- 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
- 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤3中,使用基于语音存在概率的最小均方误差估计器来实现纯净语音功率谱的计算。
- 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤4中,运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。
- 一种基于连续噪声跟踪的目标语音信号增强系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-6中任一项所述的方法的步骤。
- 一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-6中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168105.0 | 2019-03-06 | ||
CN201910168105.0A CN109817234B (zh) | 2019-03-06 | 2019-03-06 | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020177374A1 true WO2020177374A1 (zh) | 2020-09-10 |
Family
ID=66608268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/117078 WO2020177374A1 (zh) | 2019-03-06 | 2019-11-11 | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109817234B (zh) |
WO (1) | WO2020177374A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817234B (zh) * | 2019-03-06 | 2021-01-26 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN112216303A (zh) * | 2019-07-11 | 2021-01-12 | 北京声智科技有限公司 | 一种语音处理方法、装置及电子设备 |
CN111564154B (zh) * | 2020-03-23 | 2023-08-08 | 北京邮电大学 | 基于语音增强算法的对抗样本攻击防御方法及装置 |
CN112002339B (zh) * | 2020-07-22 | 2024-01-26 | 海尔优家智能科技(北京)有限公司 | 语音降噪方法和装置、计算机可读的存储介质及电子装置 |
CN112289337B (zh) * | 2020-11-03 | 2023-09-01 | 北京声加科技有限公司 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
CN113472629A (zh) * | 2021-04-19 | 2021-10-01 | 重庆移通学院 | 一种基于物联网技术的即时语音的推送系统 |
CN113129922B (zh) * | 2021-04-21 | 2022-11-08 | 维沃移动通信有限公司 | 语音信号的处理方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
CN106448692A (zh) * | 2016-07-04 | 2017-02-22 | Tcl集团股份有限公司 | 应用语音存在概率优化的retf混响消除方法及系统 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN108074582A (zh) * | 2016-11-10 | 2018-05-25 | 电信科学技术研究院 | 一种噪声抑制信噪比估计方法和用户终端 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721694A (en) * | 1994-05-10 | 1998-02-24 | Aura System, Inc. | Non-linear deterministic stochastic filtering method and system |
CN108711432A (zh) * | 2017-04-10 | 2018-10-26 | 中山大学 | 一种单麦克风的感知增益函数的语音增强方法 |
CN107610712B (zh) * | 2017-10-18 | 2020-07-03 | 会听声学科技(北京)有限公司 | 一种结合mmse和谱减法的语音增强方法 |
CN108831499B (zh) * | 2018-05-25 | 2020-07-21 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
-
2019
- 2019-03-06 CN CN201910168105.0A patent/CN109817234B/zh not_active Expired - Fee Related
- 2019-11-11 WO PCT/CN2019/117078 patent/WO2020177374A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
CN106448692A (zh) * | 2016-07-04 | 2017-02-22 | Tcl集团股份有限公司 | 应用语音存在概率优化的retf混响消除方法及系统 |
CN108074582A (zh) * | 2016-11-10 | 2018-05-25 | 电信科学技术研究院 | 一种噪声抑制信噪比估计方法和用户终端 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109817234B (zh) | 2021-01-26 |
CN109817234A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020177374A1 (zh) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
CN112309417B (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
CN103559887A (zh) | 用于语音增强系统的背景噪声估计方法 | |
US20240046947A1 (en) | Speech signal enhancement method and apparatus, and electronic device | |
CN107731242B (zh) | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 | |
US20160055863A1 (en) | Signal processing apparatus, signal processing method, signal processing program | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
KR20160116440A (ko) | 음성인식 시스템의 신호대잡음비 추정 장치 및 방법 | |
May et al. | Generalization of supervised learning for binary mask estimation | |
CN111933169B (zh) | 一种二次利用语音存在概率的语音降噪方法 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
CN105788606A (zh) | 一种用于拾音器的基于递归最小追踪的噪声估计方法 | |
Ji et al. | A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system | |
Esch et al. | Combined reduction of time varying harmonic and stationary noise using frequency warping | |
Islam et al. | Enhancement of noisy speech based on decision-directed Wiener approach in perceptual wavelet packet domain | |
Selvi et al. | Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes | |
Feng et al. | Noise power spectrum estimation based on weak speech protection for speech enhancement | |
Kalamani et al. | Noise tracking algorithm for speech enhancement | |
Yong et al. | Real time noise suppression in social settings comprising a mixture of non-stationary anc transient noise | |
Cao et al. | Transient noise suppression algorithm in speech system | |
Qu et al. | A modified a priori SNR estimation for spectral subtraction speech enhancement | |
Nguyen et al. | An MC-SPP approach for noise reduction in dual microphone case with power level difference | |
Bao et al. | A robust voice activity detection method based on speech enhancement | |
Kumar et al. | A Novel Uncertainty Parameter SR (Signal to Residual Spectrum Ratio) Evaluation Approach for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19918184 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19918184 Country of ref document: EP Kind code of ref document: A1 |