WO2020177374A1 - 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 - Google Patents

基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 Download PDF

Info

Publication number
WO2020177374A1
WO2020177374A1 PCT/CN2019/117078 CN2019117078W WO2020177374A1 WO 2020177374 A1 WO2020177374 A1 WO 2020177374A1 CN 2019117078 W CN2019117078 W CN 2019117078W WO 2020177374 A1 WO2020177374 A1 WO 2020177374A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
noise
speech signal
target
signal
Prior art date
Application number
PCT/CN2019/117078
Other languages
English (en)
French (fr)
Inventor
张啟权
王明江
陆云
韩宇菲
张禄
孙凤娇
Original Assignee
哈尔滨工业大学(深圳)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 哈尔滨工业大学(深圳) filed Critical 哈尔滨工业大学(深圳)
Publication of WO2020177374A1 publication Critical patent/WO2020177374A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Definitions

  • Step 2 Estimate the noise power spectrum
  • Step 1 Receive the noisy speech signal, perform frame and window processing on the noisy speech signal, and then use the short-time Fourier transform to obtain the time-frequency domain relationship.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

一种基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质,方法包括:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:语音功率谱的估计;步骤4:通过语音估计器对语音信号进行估计;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现语音恢复。有效地把目标语音信号分离出来,减小了语音信号中的噪声残余量,使得目标信号的质量得到提高。对自动语音识别、说话人识别、人机对话接口以及助听器等应用有重要的作用。

Description

基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 技术领域
本发明涉及语音处理技术领域,尤其涉及基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质。
背景技术
生活中处处存在着噪声,语音增强算法的目的在于提高被噪声污染的目标语音信号的质量和可懂度。现有的语音增强算法通常采用语音活动检测器来估计背景噪声进而实现目标信号增强,这些算法在平稳噪声环境以及高信噪比条件下表现的良好。然而,当在低信噪比特别是在非平稳噪声环境下,这些算法的性能表现地非常有限。由于生活中的噪声比较复杂,例如汽车,火车通过,行人说话聊天都会产生各种噪声,开发一种能在非平稳噪声条件下很好工作的语音增强算法是非常有必要的。
发明内容
本发明提供了一种基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:
步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;
步骤2:对噪声功率谱进行估计;
步骤3:纯净语音功率谱的估计;
步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;
步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。
作为本发明的进一步改进,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
作为本发明的进一步改进,在所述步骤3中,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算。
作为本发明的进一步改进,在所述步骤4中,运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。
本发明还提供了一种基于连续噪声跟踪的目标语音信号增强系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。
附图说明
图1是本发明的框架图。
图2是跟踪快速变化的噪声示意图。
图3是语音波形图,其中图(a)是纯净语音图、图(b)是带噪语音图、图(c)是增强后的语音图。
具体实施方式
本发明公开了一种基于连续噪声跟踪的目标语音信号增强方法,能够针对生活中的噪声实现有效的目标源信号与背景噪声的分离。
如图1所示,本发明的框架包括两个主要部分:语音估计器,噪声跟踪器。
信号模型:我们考虑加性信号模型,y(n)=x(n)+d(n),其中y(n)是带噪语音信号,x(n)和d(n)分别代表纯净语音信号和噪声信号。通过使用短时傅里叶变换得到时频域的关系,Y(l,k)=X(l,k)+D(l,k),其中l和k分别代表帧数和频率点的索引。其极坐标的表示形式为:Y=Re ,X=Ae 和D=Ne 。E{|X(l,k)| 2}=λ x和E{|D(l,k)| 2}=λ d分别是语音与噪声信号的方差。从图1我们看到方法的主要流程:1.对带噪语音信号进行分帧加窗处理,然后做短时傅里叶变换→2.噪声功率谱估计→3.先验信噪比估计→4.语音信号估计→5.综合(反傅里叶变换,加窗并使用交叠相加技术实现语音恢复)。
基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:
在步骤1中:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系。
噪声跟踪器:
为了估计噪声功率谱,我们提出使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。所以,在步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
利用贝叶斯准则,我们能得到最小均方误差估计器,式子如下
Figure PCTCN2019117078-appb-000001
在公式(1)中,n(N)代表噪声谱变量,θ代表噪声短时傅里叶变换系数的角度(实部与虚部有一个角度),
由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的,我们可以得到
Figure PCTCN2019117078-appb-000002
在公式(2)中,n(N)代表噪声谱变量,λ d代表噪声功率谱密度,
Figure PCTCN2019117078-appb-000003
其中λ x代表语音功率谱密度,
通过推导我们得到
Figure PCTCN2019117078-appb-000004
其中ξ=λ xd和γ=R 2d分别代表先验信噪比和后验信噪比,R=|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。从公式(3)我们可以看出噪声估计器以来先验信噪比的计算,而先验信噪比的计算需要语音功率谱的信息。所以下一步骤是纯净语音功率谱的估计。
步骤3:纯净语音功率谱的估计,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算,其表达式为
Figure PCTCN2019117078-appb-000005
在公式(4)中,A(a)均代表语音谱幅度,大写代表的是变量,小写代表的是变量的取值,前面的噪声和此情况一样。H 1和H 0代表二元假设,分别 指语音存在与不存在两种情况。
由于第二部分为零,所以我们只需要计算第一部分。通过使用贝叶斯公式可以算出
Figure PCTCN2019117078-appb-000006
在公式(5)中,β指的语音短时傅里叶变换系数的角度。
进而通过推导并且使用特殊的积分函数贝塞尔函数积分,我们得到
Figure PCTCN2019117078-appb-000007
对于语音存在概率我们通过使用固定的先验信噪比得到一个简单有效的概率估计方法。概率计算公式为
Figure PCTCN2019117078-appb-000008
在公式(7)中,
Figure PCTCN2019117078-appb-000009
代表先验信噪比的估计值。
语音估计器:
该算法运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。先验的广义伽马概率模型为
Figure PCTCN2019117078-appb-000010
在公式(8)中,a代表的变量是是语音谱幅度,
Figure PCTCN2019117078-appb-000011
其他参数均为伽马模型的形状参数。
我们参数选择为μ=1和ν=6。对于语音估计器的先验信噪比,我们利用判决引导算法估计器来实现。
为了评估本发明方法的性能,我们做了大量的实验并证明了该方法能够有效地抑制非平稳噪声从而实现目标语音信号的增强。通过图2和图3, 我们可以更加直观的看出该方法能实现了高效的噪声跟踪以及非平稳噪声的抑制。
图2显示了跟踪噪声的实验结果,我们可以非常清楚的看到所提出的噪声跟踪器能够快速并且准确的跟踪噪声水平的快速变化。图3表示干净语音,带噪语音以及增强后的语音的波形图,我们可以非常直观的看到非平稳噪声被抑制得很好。总体上,该方法对非平稳噪声的抑制起到了非常好的效果。
本发明具有如下有益效果:
1.本发明的目标语音信号增强方法不再需要语音活动检测器来检测语音段与语音段。
2.即使在语音段内也能够连续的对噪声进行跟踪,对快速变化的噪声水平的完成了准确的跟踪与估计。
3.有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

  1. 一种基于连续噪声跟踪的目标语音信号增强方法,其特征在于,包括如下步骤:
    步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;
    步骤2:对噪声功率谱进行估计;
    步骤3:纯净语音功率谱的估计;
    步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;
    步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。
  2. 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
  3. 根据权利要求2所述的目标语音信号增强方法,其特征在于,在所述步骤2中,利用贝叶斯准则,能得到最小均方误差估计器,式子如下
    Figure PCTCN2019117078-appb-100001
    在公式(1)中,n(N)代表噪声谱变量,θ代表噪声短时傅里叶变换系数的角度,
    由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的,我们可以得到
    Figure PCTCN2019117078-appb-100002
    在公式(2)中,n(N)代表噪声谱变量,λ d代表噪声功率谱密度,
    Figure PCTCN2019117078-appb-100003
    其中λ x代表语音功率谱密度,
    通过推导我们得到
    Figure PCTCN2019117078-appb-100004
    其中ξ=λ xd和γ=R 2d分别代表先验信噪比和后验信噪比,R=|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。
  4. 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤3中,使用基于语音存在概率的最小均方误差估计器来实现纯净语音功率谱的计算。
  5. 根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤4中,运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。
  6. 根据权利要求5所述的目标语音信号增强方法,其特征在于,先验的广义伽马概率模型为
    Figure PCTCN2019117078-appb-100005
    参数选择为μ=1和ν=6;
    在公式(8)中,a代表的变量是是语音谱幅度,
    Figure PCTCN2019117078-appb-100006
    其他参数均为伽马模型的形状参数。
  7. 一种基于连续噪声跟踪的目标语音信号增强系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-6中任一项所述的方法的步骤。
  8. 一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-6中任一项所述的方法的步骤。
PCT/CN2019/117078 2019-03-06 2019-11-11 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 WO2020177374A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910168105.0 2019-03-06
CN201910168105.0A CN109817234B (zh) 2019-03-06 2019-03-06 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Publications (1)

Publication Number Publication Date
WO2020177374A1 true WO2020177374A1 (zh) 2020-09-10

Family

ID=66608268

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117078 WO2020177374A1 (zh) 2019-03-06 2019-11-11 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Country Status (2)

Country Link
CN (1) CN109817234B (zh)
WO (1) WO2020177374A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817234B (zh) * 2019-03-06 2021-01-26 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN112216303A (zh) * 2019-07-11 2021-01-12 北京声智科技有限公司 一种语音处理方法、装置及电子设备
CN111564154B (zh) * 2020-03-23 2023-08-08 北京邮电大学 基于语音增强算法的对抗样本攻击防御方法及装置
CN112002339B (zh) * 2020-07-22 2024-01-26 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN113472629A (zh) * 2021-04-19 2021-10-01 重庆移通学院 一种基于物联网技术的即时语音的推送系统
CN113129922B (zh) * 2021-04-21 2022-11-08 维沃移动通信有限公司 语音信号的处理方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及系统
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN108074582A (zh) * 2016-11-10 2018-05-25 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721694A (en) * 1994-05-10 1998-02-24 Aura System, Inc. Non-linear deterministic stochastic filtering method and system
CN108711432A (zh) * 2017-04-10 2018-10-26 中山大学 一种单麦克风的感知增益函数的语音增强方法
CN107610712B (zh) * 2017-10-18 2020-07-03 会听声学科技(北京)有限公司 一种结合mmse和谱减法的语音增强方法
CN108831499B (zh) * 2018-05-25 2020-07-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及系统
CN108074582A (zh) * 2016-11-10 2018-05-25 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Also Published As

Publication number Publication date
CN109817234B (zh) 2021-01-26
CN109817234A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
WO2020177374A1 (zh) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN112309417B (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
CN103559887A (zh) 用于语音增强系统的背景噪声估计方法
US20240046947A1 (en) Speech signal enhancement method and apparatus, and electronic device
CN107731242B (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
US20160055863A1 (en) Signal processing apparatus, signal processing method, signal processing program
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
May et al. Generalization of supervised learning for binary mask estimation
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
CN105788606A (zh) 一种用于拾音器的基于递归最小追踪的噪声估计方法
Ji et al. A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system
Esch et al. Combined reduction of time varying harmonic and stationary noise using frequency warping
Islam et al. Enhancement of noisy speech based on decision-directed Wiener approach in perceptual wavelet packet domain
Selvi et al. Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes
Feng et al. Noise power spectrum estimation based on weak speech protection for speech enhancement
Kalamani et al. Noise tracking algorithm for speech enhancement
Yong et al. Real time noise suppression in social settings comprising a mixture of non-stationary anc transient noise
Cao et al. Transient noise suppression algorithm in speech system
Qu et al. A modified a priori SNR estimation for spectral subtraction speech enhancement
Nguyen et al. An MC-SPP approach for noise reduction in dual microphone case with power level difference
Bao et al. A robust voice activity detection method based on speech enhancement
Kumar et al. A Novel Uncertainty Parameter SR (Signal to Residual Spectrum Ratio) Evaluation Approach for Speech Enhancement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19918184

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19918184

Country of ref document: EP

Kind code of ref document: A1