WO2020177374A1

WO2020177374A1 - 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Info

Publication number: WO2020177374A1
Application number: PCT/CN2019/117078
Authority: WO
Inventors: 张啟权; 王明江; 陆云; 韩宇菲; 张禄; 孙凤娇
Original assignee: 哈尔滨工业大学（深圳）
Priority date: 2019-03-06
Filing date: 2019-11-11
Publication date: 2020-09-10
Also published as: CN109817234B; CN109817234A

Abstract

一种基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质，方法包括：步骤1：接收带噪语音信号，对带噪语音信号进行分帧加窗处理，使用短时傅里叶变换得到时频域的关系；步骤2：对噪声功率谱进行估计；步骤3：语音功率谱的估计；步骤4：通过语音估计器对语音信号进行估计；步骤5：反傅里叶变换，加窗并使用交叠相加技术实现语音恢复。有效地把目标语音信号分离出来，减小了语音信号中的噪声残余量，使得目标信号的质量得到提高。对自动语音识别、说话人识别、人机对话接口以及助听器等应用有重要的作用。

Description

基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质。

背景技术

生活中处处存在着噪声，语音增强算法的目的在于提高被噪声污染的目标语音信号的质量和可懂度。现有的语音增强算法通常采用语音活动检测器来估计背景噪声进而实现目标信号增强，这些算法在平稳噪声环境以及高信噪比条件下表现的良好。然而，当在低信噪比特别是在非平稳噪声环境下，这些算法的性能表现地非常有限。由于生活中的噪声比较复杂，例如汽车，火车通过，行人说话聊天都会产生各种噪声，开发一种能在非平稳噪声条件下很好工作的语音增强算法是非常有必要的。

发明内容

本发明提供了一种基于连续噪声跟踪的目标语音信号增强方法，包括如下步骤：

步骤1：接收带噪语音信号，对带噪语音信号进行分帧加窗处理，然后使用短时傅里叶变换得到时频域的关系；

步骤2：对噪声功率谱进行估计；

步骤3：纯净语音功率谱的估计；

步骤4：通过语音估计器对纯净语音信号进行估计，对于语音估计器的先验信噪比，利用判决引导算法估计器来实现；

步骤5：反傅里叶变换，加窗并使用交叠相加技术实现纯净语音恢复。

作为本发明的进一步改进，在所述步骤2中，使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。

作为本发明的进一步改进，在所述步骤3中，使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算。

作为本发明的进一步改进，在所述步骤4中，运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。

本发明还提供了一种基于连续噪声跟踪的目标语音信号增强系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。

本发明的有益效果是：本发明有效地把目标语音信号分离出来，大大减小了语音信号中的噪声残余量，使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。

附图说明

图1是本发明的框架图。

图2是跟踪快速变化的噪声示意图。

图3是语音波形图，其中图(a)是纯净语音图、图(b)是带噪语音图、图(c)是增强后的语音图。

具体实施方式

本发明公开了一种基于连续噪声跟踪的目标语音信号增强方法，能够针对生活中的噪声实现有效的目标源信号与背景噪声的分离。

如图1所示，本发明的框架包括两个主要部分：语音估计器，噪声跟踪器。

信号模型：我们考虑加性信号模型，y(n)＝x(n)+d(n)，其中y(n)是带噪语音信号，x(n)和d(n)分别代表纯净语音信号和噪声信号。通过使用短时傅里叶变换得到时频域的关系，Y(l,k)＝X(l,k)+D(l,k)，其中l和k分别代表帧数和频率点的索引。其极坐标的表示形式为：Y＝Re ^jα,X＝Ae ^jβ和D＝Ne ^jθ。E{|X(l,k)| ²}＝λ _x和E{|D(l,k)| ²}＝λ _d分别是语音与噪声信号的方差。从图1我们看到方法的主要流程：1.对带噪语音信号进行分帧加窗处理，然后做短时傅里叶变换→2.噪声功率谱估计→3.先验信噪比估计→4.语音信号估计→5.综合(反傅里叶变换，加窗并使用交叠相加技术实现语音恢复)。

基于连续噪声跟踪的目标语音信号增强方法，包括如下步骤：

在步骤1中：接收带噪语音信号，对带噪语音信号进行分帧加窗处理，然后使用短时傅里叶变换得到时频域的关系。

噪声跟踪器：

为了估计噪声功率谱，我们提出使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。所以，在步骤2中，使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。

利用贝叶斯准则，我们能得到最小均方误差估计器，式子如下

在公式(1)中，n(N)代表噪声谱变量，θ代表噪声短时傅里叶变换系数的角度(实部与虚部有一个角度)，

由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的，我们可以得到

在公式(2)中，n(N)代表噪声谱变量，λ _d代表噪声功率谱密度，

其中λ _x代表语音功率谱密度，

通过推导我们得到

其中ξ＝λ _x/λ _d和γ＝R ²/λ _d分别代表先验信噪比和后验信噪比，R＝|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。从公式(3)我们可以看出噪声估计器以来先验信噪比的计算，而先验信噪比的计算需要语音功率谱的信息。所以下一步骤是纯净语音功率谱的估计。

步骤3：纯净语音功率谱的估计，使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算，其表达式为

在公式(4)中，A(a)均代表语音谱幅度，大写代表的是变量，小写代表的是变量的取值，前面的噪声和此情况一样。H ₁和H ₀代表二元假设，分别指语音存在与不存在两种情况。

由于第二部分为零，所以我们只需要计算第一部分。通过使用贝叶斯公式可以算出

在公式(5)中，β指的语音短时傅里叶变换系数的角度。

进而通过推导并且使用特殊的积分函数贝塞尔函数积分，我们得到

对于语音存在概率我们通过使用固定的先验信噪比得到一个简单有效的概率估计方法。概率计算公式为

在公式(7)中，

代表先验信噪比的估计值。

语音估计器：

该算法运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。先验的广义伽马概率模型为

在公式(8)中，a代表的变量是是语音谱幅度，

其他参数均为伽马模型的形状参数。

我们参数选择为μ＝1和ν＝6。对于语音估计器的先验信噪比，我们利用判决引导算法估计器来实现。

为了评估本发明方法的性能，我们做了大量的实验并证明了该方法能够有效地抑制非平稳噪声从而实现目标语音信号的增强。通过图2和图3，我们可以更加直观的看出该方法能实现了高效的噪声跟踪以及非平稳噪声的抑制。

图2显示了跟踪噪声的实验结果，我们可以非常清楚的看到所提出的噪声跟踪器能够快速并且准确的跟踪噪声水平的快速变化。图3表示干净语音，带噪语音以及增强后的语音的波形图，我们可以非常直观的看到非平稳噪声被抑制得很好。总体上，该方法对非平稳噪声的抑制起到了非常好的效果。

本发明具有如下有益效果：

1.本发明的目标语音信号增强方法不再需要语音活动检测器来检测语音段与语音段。

2.即使在语音段内也能够连续的对噪声进行跟踪，对快速变化的噪声水平的完成了准确的跟踪与估计。

3.有效地把目标语音信号分离出来，大大减小了语音信号中的噪声残余量，使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种基于连续噪声跟踪的目标语音信号增强方法，其特征在于，包括如下步骤：

步骤1：接收带噪语音信号，对带噪语音信号进行分帧加窗处理，然后使用短时傅里叶变换得到时频域的关系；

步骤2：对噪声功率谱进行估计；

步骤3：纯净语音功率谱的估计；

步骤4：通过语音估计器对纯净语音信号进行估计，对于语音估计器的先验信噪比，利用判决引导算法估计器来实现；

步骤5：反傅里叶变换，加窗并使用交叠相加技术实现纯净语音恢复。
根据权利要求1所述的目标语音信号增强方法，其特征在于，在所述步骤2中，使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。
根据权利要求2所述的目标语音信号增强方法，其特征在于，在所述步骤2中，利用贝叶斯准则，能得到最小均方误差估计器，式子如下

在公式(1)中，n(N)代表噪声谱变量，θ代表噪声短时傅里叶变换系数的角度，

由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的，我们可以得到

在公式(2)中，n(N)代表噪声谱变量，λ _d代表噪声功率谱密度，
其中λ _x代表语音功率谱密度，

通过推导我们得到

其中ξ＝λ _x/λ _d和γ＝R ²/λ _d分别代表先验信噪比和后验信噪比，R＝|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。
根据权利要求1所述的目标语音信号增强方法，其特征在于，在所述步骤3中，使用基于语音存在概率的最小均方误差估计器来实现纯净语音功率谱的计算。
根据权利要求1所述的目标语音信号增强方法，其特征在于，在所述步骤4中，运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。
根据权利要求5所述的目标语音信号增强方法，其特征在于，先验的广义伽马概率模型为

参数选择为μ＝1和ν＝6；

在公式(8)中，a代表的变量是是语音谱幅度，
其他参数均为伽马模型的形状参数。
一种基于连续噪声跟踪的目标语音信号增强系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－6中任一项所述的方法的步骤。
一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－6中任一项所述的方法的步骤。