WO2019119593A1

WO2019119593A1 - 语音增强方法及装置

Info

Publication number: WO2019119593A1
Application number: PCT/CN2018/073281
Authority: WO
Inventors: 胡伟湘; 苗磊
Original assignee: 华为技术有限公司
Priority date: 2017-12-18
Filing date: 2018-01-18
Publication date: 2019-06-27
Also published as: US11164591B2; CN111226277A; CN111226277B; US20200279573A1

Abstract

一种语音增强方法及装置，方法包括：根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数（S201）；根据第一谱减参数以及参考功率谱确定第二谱减参数（S202）；根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理（S203）；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率。通过考虑到终端设备的用户语音功率谱特性和/或用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据优化后的第二谱减参数对带噪语音信号进行谱减处理，提高了去噪后的语音信号的可懂度和自然度，从而提高了降噪性能。

Description

语音增强方法及装置

本申请要求于2017年12月18日提交中国专利局、申请号为201711368189.X、申请名称为“一种自适应降噪的方法和终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音增强方法及装置。

背景技术

随着通讯技术和网络技术的飞速发展，语音通信已远远超越了传统的以固定电话为主要形式的范畴，在手机通信、电视/电话会议、车载免提通信、网络电话(Voice over Internet Protocol，VoIP)电话等诸多领域中被广泛应用。在语音通信的应用中，可能由于环境中的噪声(例如街道、餐馆、候车室、候机厅等)使得用户的语音信号变得模糊，可懂度降低。因此，如何消除麦克风采集到的声音信号中的噪声是亟待解决的问题。

通常情况下采用谱减法消除声音信号中的噪声。图1为传统的谱减法的流程示意图，如图1所示，通过语音检测(Voice Activity Detection，VAD)将麦克风采集到的声音信号划分为带噪语音信号和噪声信号。进一步地，带噪语音信号通过快速傅立叶变换(Fast Fourier Transform，FFT)变换得到幅度信息和相位信息(其中，幅度信息通过功率谱估计得到带噪语音信号的功率谱)，以及噪声信号通过噪声功率谱估计得到噪声信号的功率谱。进一步地，根据噪声信号的功率谱以及带噪语音信号的功率谱，通过谱减参数计算处理得到谱减参数；其中，谱减参数包括但不限于以下至少一项：过减因子α(α>1)和频谱阶β(0≤β≤1)。进一步地，根据噪声信号的功率谱以及谱减参数，对带噪语音信号的幅度信息进行谱减处理得到去噪后的语音信号。进一步地，根据去噪后的语音信号以及带噪语音信号的相位信息进行快速傅里叶反变换(Inverse Fast Fourier Transform，IFFT)变换以及叠加等处理，得到增强后的语音信号。

但传统的谱减法中功率谱直接相减的方式，会使去噪后的语音信号容易产生“音乐噪声”，从而会直接影响语音信号的可懂度和自然度。

发明内容

本申请实施例提供一种语音增强方法及装置，通过根据用户语音功率谱特性和/或用户所处环境噪声功率谱特性对谱减参数的适应性调整，从而提高了去噪后的语音信号的可懂度和自然度，提高了降噪性能。

第一方面，本申请实施例提供一种语音增强方法，包括：

根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，带噪语音信号以及噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的；

根据第一谱减参数以及参考功率谱确定第二谱减参数；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱；

根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理。

第一方面提供的语音增强方法实施例中，通过根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；进一步地，根据第一谱减参数以及参考功率谱确定第二谱减参数，并根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱。可见，本实施例中，通过考虑到终端设备的用户语音功率谱特性和/或用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据优化后的第二谱减参数对带噪语音信号进行谱减处理，不仅可以适用较宽的信噪比范围，而且提高了去噪后的语音信号的可懂度和自然度，提高了降噪性能。

在一种可能的实现方式中，若参考功率谱包括：用户语音预测功率谱，根据第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第一谱减函数F1(x,y)确定第二谱减参数；其中，x代表第一谱减参数；y代表用户语音预测功率谱；F1(x,y)的值与x成正向关系，F1(x,y)的值与y成负向关系。

本实现方式提供的语音增强方法实施例中，通过考虑到终端设备的用户语音功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了去噪后的语音信号的可懂度和自然度。

在一种可能的实现方式中，若参考功率谱包括：环境噪声预测功率谱，根据第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第二谱减函数F2(x,z)确定第二谱减参数；其中，x代表第一谱减参数；z代表环境噪声预测功率谱；F2(x,z)的值与x成正向关系，F2(x,z)的值与z成正向关系。

本实现方式提供的语音增强方法实施例中，通过考虑到用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

在一种可能的实现方式中，若参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，根据第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第三谱减函数F3(x,y,z)确定第二谱减参数；其中，x代表第一谱减参数；y代表用户语音预测功率谱；z代表环境噪声预测功率谱；F3(x,y,z)的值与x成正向关系，F3(x,y,z)的值与y成负向关系，且F3(x,y,z)的值与z成正向关系。

本实现方式提供的语音增强方法实施例中，通过考虑到终端设备的用户语音功率谱特性和用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而不仅可以对终端设备的用户语音进行保护，还可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

在一种可能的实现方式中，根据第一谱减参数以及参考功率谱确定第二谱减参数之前，还包括：

根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类；

根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱。

本实现方式提供的语音增强方法实施例中，通过根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；进一步地，根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱，以便进一步地根据用户语音预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了去噪后的语音信号的可懂度和自然度。

根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类；

根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱。

本实现方式提供的语音增强方法实施例中，通过根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；进一步地，根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱，以便进一步地根据环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类，以及根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类；噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类；

根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱；

本实现方式提供的语音增强方法实施例中，通过根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类，以及根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；进一步地，根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱，以及根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱，以便进一步地根据用户语音预测功率谱和环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而不仅可以对终端设备的用户语音进行保护，还可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

在一种可能的实现方式中，根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱，包括：

根据第一估计函数F4(SP,SPT)确定用户语音预测功率谱；其中，SP代表带噪语音信号的功率谱；SPT代表目标用户功率谱聚类；F4(SP,PST)＝a*SP+(1-a)*PST，a代表第一估计系数。

在一种可能的实现方式中，根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱，包括：

根据第二估计函数F5(NP,NPT)确定环境噪声预测功率谱；其中，NP代表噪声信号的功率谱；NPT代表目标噪声功率谱聚类；F5(NP,NPT)＝b*NP+(1-b)*NPT，b代表第二估计系数。

在一种可能的实现方式中，根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类之前，还包括：

获取用户功率谱分布类。

本实现方式提供的语音增强方法实施例中，通过每次根据去噪后的语音信号动态调整用户功率谱分布类，以便后续可以更加准确地确定用户语音预测功率谱，进一步根据用户语音预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了降噪性能。

在一种可能的实现方式中，根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类之前，还包括：

获取噪声功率谱分布类。

本实现方式提供的语音增强方法实施例中，通过每次根据噪声信号的功率谱动态调整噪声功率谱分布类，以便后续可以更加准确地确定环境噪声预测功率谱，进一步根据环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了降噪性能。

第二方面，本申请实施例提供一种语音增强装置，包括：

第一确定模块，用于根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，带噪语音信号以及噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的；

第二确定模块，用于根据第一谱减参数以及参考功率谱确定第二谱减参数；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱；

谱减模块，用于根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理。

在一种可能的实现方式中，若参考功率谱包括：用户语音预测功率谱，第二确定模块具体用于：

在一种可能的实现方式中，若参考功率谱包括：环境噪声预测功率谱，第二确定模块具体用于：

在一种可能的实现方式中，若参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，第二确定模块具体用于：

在一种可能的实现方式中，该装置还包括：

第三确定模块，用于根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类；

第四确定模块，用于根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱。

在一种可能的实现方式中，该装置还包括：

第五确定模块，用于根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类；

第六确定模块，用于根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱。

在一种可能的实现方式中，该装置还包括：

第三确定模块，用于根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；

第五确定模块，用于根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类；噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类；

第四确定模块，用于根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱；

在一种可能的实现方式中，第四确定模块具体用于：

在一种可能的实现方式中，第六确定模块具体用于：

在一种可能的实现方式中，该装置还包括：

第一获取模块，用于获取用户功率谱分布类。

在一种可能的实现方式中，该装置还包括：

第二获取模块，用于获取噪声功率谱分布类。

上述第二方面的实现方式所提供的语音增强装置，其有益效果可以参见上述第一方面的实现方式所带来的有益效果，在此不再赘述。

第三方面，本申请实施例提供一种语音增强装置，包括处理器和存储器；

其中，存储器，用于存储程序指令；

处理器，用于调用并执行存储器中存储的程序指令，实现如上述第一方面所描述的任意一种方法。

上述第三方面的实现方式所提供的语音增强装置，其有益效果可以参见上述第一方面的实现方式所带来的有益效果，在此不再赘述。

第四方面，本申请实施例提供一种程序，该程序在被处理器执行时用于执行以上第一方面的方法。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面的方法。

附图说明

图1为传统的谱减法的流程示意图；

图2A为本申请实施例提供的应用场景示意图；

图2B为本申请一实施例提供的具有麦克风的终端设备的结构示意图；

图2C为本申请实施例提供的不同用户的语音频谱示意图；

图2D为本申请一实施例提供的语音增强方法的流程示意图；

图3A为本申请另一实施例提供的语音增强方法的流程示意图；

图3B为本申请实施例提供的用户功率谱分布类示意图；

图3C为本申请实施例提供的用户语音功率谱特性的学习流程示意图；

图4A为本申请另一实施例提供的语音增强方法的流程示意图；

图4B为本申请实施例提供的噪声功率谱分布类示意图；

图4C为本申请实施例提供的噪声功率谱特性的学习流程示意图；

图5为本申请另一实施例提供的语音增强方法的流程示意图；

图6A为本申请另一实施例提供的语音增强方法的流程示意图一；

图6B为本申请另一实施例提供的语音增强方法的流程示意图二；

图7A为本申请另一实施例提供的语音增强方法的流程示意图三；

图7B为本申请另一实施例提供的语音增强方法的流程示意图四；

图8A为本申请另一实施例提供的语音增强方法的流程示意图五；

图8B为本申请另一实施例提供的语音增强方法的流程示意图六；

图9A为本申请一实施例提供的语音增强装置的结构示意图；

图9B为本申请另一实施例提供的语音增强装置的结构示意图；

图10为本申请另一实施例提供的语音增强装置的结构示意图；

图11为本申请另一实施例提供的语音增强装置的结构示意图。

具体实施方式

首先，对本申请实施例中所涉及的应用场景和部分词汇进行解释说明。

图2A为本申请实施例提供的应用场景示意图。如图2A所示，当任意两个终端设备之间进行语音通信时，该终端设备中可以执行本申请实施例提供的语音增强方法；当然，本申请实施例还可以应用于其它场景，本申请实施例中，对此并不作限制。

需要说明的是，为了便于理解，图2A中仅示出两个终端设备(如终端设备1和终端设备2)，当然还可以包括其它数量的终端设备，本申请实施例中对此并不作限制。

本申请实施例中，执行语音增强方法的装置可以是终端设备，也可以是终端设备中语音增强方法的装置。示例性地，终端设备中语音增强方法的装置可以是芯片系统、电路或者模块等，本申请不作限制。

本申请涉及的终端设备可以包括但不限于以下任一项：手机、平板电脑、个人数字助理等具有语音通信功能的设备，还可以是其它具有语音通信功能的设备。

本申请所涉及的终端设备可以包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。该硬件层包括中央处理器(Central Processing Unit，CPU)、内存管理单元(Memory Management Unit，MMU)和内存(也称为主存)等硬件。该操作系统可以是任意一种或多种通过进程(Process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用。

本申请实施例中的编号“第一”以及“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，不应对本申请实施例构成任何限定。

本申请实施例涉及的第一谱减参数可以包括但不限于以下至少一项：第一过减因子α(α>1)和第一频谱阶β(0≤β≤1)。

本申请实施例中涉及的第二谱减参数为对第一谱减参数作优化处理后得到的谱减参数。

本申请实施例涉及的第二谱减参数可以包括但不限于以下至少一项：第二过减因子α'(α'>1)和第二频谱阶β'(0≤β'≤1)。

本申请实施例涉及的各功率谱可以指：不考虑子带划分的功率谱，或者考虑子带划分的功率谱(或者称之为子带功率谱)。示例性地，1)若考虑子带划分，则带噪语音信号的功率谱可以称之为带噪语音信号的子带功率谱；2)若考虑子带划分，则噪声信号的功率谱可以称之为噪声信号的子带功率谱；3)若考虑子带划分，则用户语音预测功率谱可以称之为用户语音预测子带功率谱；4)若考虑子带划分，则环境噪声预测功率谱可以称之为带环境噪声预测子带功率谱；5)若考虑子带划分，则用户功率谱分布类可以称之为用户子带功率谱分布类；6)若考虑子带划分，则用户历史功率谱聚类可以称之为用户历史子带功率谱聚类；7)若考虑子带划分，则目标用户功率谱聚类可以称之为目标用户子带功率谱聚类；8)若考虑子带划分，则噪声功率谱分布类可以称之为噪声子带功率谱分布类；9)若考虑子带划分，则噪声历史功率谱聚类可以称之为噪声历史子带功率谱聚类；10)若考虑子带划分，则目标噪声功率谱聚类可以称之为目标噪声子带功率谱聚类。

通常情况下采用谱减法消除声音信号中的噪声。如图1所示，通过VAD将麦克风采集到的声音信号划分为带噪语音信号和噪声信号。进一步地，带噪语音信号通过FFT变换得到幅度信息和相位信息(其中，幅度信息通过功率谱估计得到带噪语音信号的功率谱)，以及噪声信号通过噪声功率谱估计得到噪声信号的功率谱。进一步地，根据噪声信号的功率谱以及带噪语音信号的功率谱，通过谱减参数计算处理得到谱减参数。进一步地，根据噪声信号的功率谱以及谱减参数，对带噪语音信号的幅度信息进行谱减处理得到去噪后的语音信号。进一步地，根据去噪后的语音信号以及带噪语音信号的相位信息进行IFFT变换以及叠加等处理，得到增强后的语音信号。

但传统的谱减法中功率谱直接相减的方式，一方面适用的信噪比范围较窄，在信噪比较低时对语音的可懂度损伤较大，另一方面也会使去噪后的语音信号容易产生“音乐噪声”，都会直接影响语音信号的可懂度和自然度。

本申请实施例涉及的麦克风所采集到的声音信号可以为通过终端设备中的双麦克(示例性地，图2B为本申请一实施例提供的具有麦克风的终端设备的结构示意图，如图2B所示的第一麦克风和第二麦克风)所采集到的声音信号，当然还可以为通过终端设备中的其它数量个麦克风所采集到的声音信号，本申请实施例中对此并不作限制。需要说明的是，图2B中每个麦克风的位置仅为示例性地，还可以设置在终端设备的其它位置，本申请实施例中对此并不作限制。

随着终端设备的普遍使用，终端设备个性化使用趋势明显(或者说终端设备通常只会对应一个特定的用户)，由于不同用户的声道特性差异明显，不同用户的语音频谱特性明显不同(或者说用户的语音频谱特性具有明显的个性化)。示例性地，图2C为本申请实施例提供的不同用户的语音频谱示意图，如图2C所示，在同样的环境噪声中(如图2C中的环境噪声频谱)，不同用户即使说相同的词语，其语音频谱特性(如图2C中的女声AO对应的语音频谱、女声DJ对应的语音频谱、男声MH对应的语音频谱和男声MS对应的语音频谱)互不相同。

另外，考虑到特定用户的通话场景具有一定的规律性(例如，该用户通常8：00至17：00处于安静的室内办公，17：10至19：00处于嘈杂的地铁上等)，因此，特定用户所处环境噪声功率谱特性存在一定的规律性。

本申请实施例提供的语音增强方法及装置，考虑到终端设备的用户语音功率谱特性的规律性和/或用户所处环境噪声功率谱特性的规律性，通过对第一谱减参数进行优化处理得到第二谱减参数，以便根据优化后的第二谱减参数对带噪语音信号进行谱减处理，不仅可以适用较宽的信噪比范围，而且提高了去噪后的语音信号的可懂度和自然度，提高了降噪性能。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2D为本申请一实施例提供的语音增强方法的流程示意图。如图2D所示，本申请实施例的方法可以包括：

步骤S201、根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数。

本步骤中，根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，带噪语音信号以及噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的。

可选地，根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数的方式可以参考现有技术中的谱减参数计算过程，此处不再赘述。

可选地，第一谱减参数可以包括：第一过减因子α和/或第一频谱阶β，当然还可以包括其它参数，本申请实施例中对此并不作限制。

步骤S202、根据第一谱减参数以及参考功率谱确定第二谱减参数。

本步骤中，考虑到终端设备的用户语音功率谱特性和/或用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以提高去噪后的语音信号的可懂度和自然度。

具体地，根据第一谱减参数以及参考功率谱确定第二谱减参数；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱。示例性地，根据第一谱减参数、参考功率谱以及谱减函数确定第二谱减参数；其中，谱减函数可以包括但不限于以下至少一项：第一谱减函数F1(x,y)、第二谱减函数F2(x,z)以及第三谱减函数F3(x,y,z)。

本实施例中涉及的用户语音预测功率谱为：根据用户历史功率谱以及带噪语音信号的功率谱所预测的用户语音功率谱(可以用于体现用户语音功率谱特性)。

本实施例中涉及的环境噪声预测功率谱为：根据噪声历史功率谱以及噪声信号的功率谱所预测的环境噪声功率谱(可以用于体现用户所处环境噪声功率谱特性)。

本申请实施例下述部分中以参考功率谱所包括的内容不同，分别对“根据第一谱减参数以及参考功率谱确定第二谱减参数”的具体实现方式进行说明：

第一种可实现方式：若参考功率谱包括：用户语音预测功率谱，根据第一谱减函数F1(x,y)确定第二谱减参数。

本实现方式中，若考虑到终端设备的用户语音功率谱特性的规律性(参考功率谱包括：用户语音预测功率谱)，则根据第一谱减函数F1(x,y)确定第二谱减参数；其中，x代表第一谱减参数；y代表用户语音预测功率谱；F1(x,y)的值与x成正向关系(即x越大，则F1(x,y)的值越大)，F1(x,y)的值与y成负向关系(即y越大，则F1(x,y)的值越小)。可选地，第二谱减参数大于或等于预设最小谱减参数，且小于或等于第一谱减参数。

示例性地，1)若第一谱减参数包括第一过减因子α，则根据第一谱减函数F1(x,y)确定第二谱减参数(包括第二过减因子α')；其中，α'∈[min_α，α]，min_α代表第一预设最小谱减参数。2)若第一谱减参数包括第一频谱阶β，则根据第一谱减函数F1(x,y)确定第二谱减参数(包括第二频谱阶β')；其中，β'∈[min_β，β]，min_β代表第二预设最小谱减参数。3)若第一谱减参数包括第一过减因子α和第一频谱阶β，则根据第一谱减函数F1(x,y)确定第二谱减参数(包括第二过减因子α'和第二频谱阶β')；示例性地，根据第一谱减函数F1(α,y)确定α'，以及根据第一谱减函数F1(β,y)确定β'；其中，α'∈[min_α，α]，β'∈[min_β，β]，min_α代表第一预设最小谱减参数，min_β代表第二预设最小谱减参数。

本实现方式中，通过考虑到终端设备的用户语音功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了去噪后的语音信号的可懂度和自然度。

第二种可实现方式：若参考功率谱包括：环境噪声预测功率谱，根据第二谱减函数F2(x,z)确定第二谱减参数。

本实现方式中，若考虑到用户所处环境噪声功率谱特性的规律性(参考功率谱包括：环境噪声预测功率谱)，则根据第二谱减函数F2(x,z)确定第二谱减参数；其中，x代表第一谱减参数；z代表环境噪声预测功率谱；F2(x,z)的值与x成正向关系(即x越大，则F2(x,z)的值越大)，F2(x,z)的值与z成正向关系(即z越大，则F2(x,z)的值越大)。可选地，第二谱减参数大于或等于第一谱减参数，且小于或等于预设最大谱减参数。

示例性地，1)若第一谱减参数包括第一过减因子α，则根据第二谱减函数F2(x,z)确定第二谱减参数(包括第二过减因子α')；其中，α'∈[α，max_α]，max_α代表第一预设最大谱减参数。2)若第一谱减参数包括第一频谱阶β，则根据第二谱减函数F2(x,z)确定第二谱减参数(包括第二频谱阶β')；其中，β'∈[β，max_β]，max_β代表第二预设最大谱减参数。3)若第一谱减参数包括第一过减因子α和第一频谱阶β，则根据第二谱减函数F2(x,z)确定第二谱减参数(包括第二过减因子α'和第二频谱阶β')；示例性地，根据第二谱减函数F2(α,z)确定α'，以及根据第二谱减函数F2(β,z)确定β'；其中，α'∈[α，max_α]，β'∈[β，max_β]，max_α代表第一预设最大谱减参数，max_β代表第二预设最大谱减参数。

本实现方式中，通过考虑到用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

第三种可实现方式：若参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，根据第三谱减函数F3(x,y,z)确定第二谱减参数。

本实现方式中，若考虑到终端设备的用户语音功率谱特性和用户所处环境噪声功率谱特性的规律性(参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱)，则根据第三谱减函数F3(x,y,z)确定第二谱减参数；其中，x代表第一谱减参数；y代表用户语音预测功率谱；z代表环境噪声预测功率谱；F3(x,y,z)的值与x成正向关系(即x越大，则F3(x,y,z)的值越大)，F3(x,y,z)的值与y成负向关系(即y越大，则F3(x,y,z)的值越小)，且F3(x,y,z)的值与z成正向关系(即z越大，则F3(x,y,z)的值越大)。可选地，第二谱减参数大于或等于预设最小谱减参数，且小于或等于预设最大谱减参数。

示例性地，1)若第一谱减参数包括第一过减因子α，则根据第三谱减函数F3(x,y,z)确定第二谱减参数(包括第二过减因子α')。2)若第一谱减参数包括第一频谱阶β，则根据第三谱减函数F3(x,y,z)确定第二谱减参数(包括第二频谱阶β')。3)若第一谱减参数包括第一过减因子α和第一频谱阶β，则根据第三谱减函数F3(x,y,z)确定第二谱减参数(包括第二过减因子α'和第二频谱阶β')；示例性地，根据第三谱减函数F3(α,y,z)确定α'，以及根据第三谱减函数F3(β,y,z)确定β'。

本实现方式中，通过考虑到终端设备的用户语音功率谱特性和用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而不仅可以对终端设备的用户语音进行保护，还可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

当然，根据第一谱减参数以及参考功率谱，还可通过其它方式确定第二谱减参数，本申请实施例中对此并不作限制。

步骤S203、根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理。

本步骤中，根据噪声信号的功率谱和第二谱减参数(对第一谱减参数优化处理后得到的)对带噪语音信号进行谱减处理得到去噪后的语音信号，以便进一步地根据去噪后的语音信号以及带噪语音信号的相位信息进行IFFT变换以及叠加等处理，得到增强后的语音信号。可选地，根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理的方式可以参考现有技术中的谱减处理过程，此处不再赘述。

本实施例中，通过根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；进一步地，根据第一谱减参数以及参考功率谱确定第二谱减参数，并根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱。可见，本实施例中，通过考虑到终端设备的用户语音功率谱特性和/或用户所处环境噪声功率谱特性的规律性，对第一谱减参数进行优化处理得到第二谱减参数，以便根据优化后的第二谱减参数对带噪语音信号进行谱减处理，不仅可以适用较宽的信噪比范围，而且提高了去噪后的语音信号的可懂度和自然度，提高了降噪性能。

图3A为本申请另一实施例提供的语音增强方法的流程示意图。本申请实施例涉及的是如何确定用户语音预测功率谱的一种可选地实现过程。如图3A所示，在上述实施例的基础上，步骤S202之前，还包括：

步骤S301、根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类。

其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类。

本步骤中，示例性地，通过分别计算用户功率谱分布类中各用户历史功率谱聚类与带噪语音信号的功率谱之间的距离，并将各用户历史功率谱聚类中与带噪语音信号的功率谱之间的距离最近的用户历史功率谱聚类确定为目标用户功率谱聚类。可选地，任一用户历史功率谱聚类与带噪语音信号的功率谱之间的距离的计算方式可以采用以下算法中的任意算法：欧氏距离(Euclidean Distance)算法、曼哈顿距离(Manhattan Distance)算法、标准化欧氏距离(Standardized Euclidean distance)算法，以及夹角余弦(Cosine)算法，当然，还可以采用其它算法，本申请实施例中对此并不作限制。

步骤S302、根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱。

本步骤中，示例性地，根据带噪语音信号的功率谱、目标用户功率谱聚类以及估计函数确定用户语音预测功率谱。

可选地，根据第一估计函数F4(SP,SPT)确定用户语音预测功率谱；其中，SP代表带噪语音信号的功率谱；SPT代表目标用户功率谱聚类；F4(SP,PST)＝a*SP+(1-a)*PST，a代表第一估计系数，0≤a≤1。可选地，a的值可以随着用户功率谱分布类的逐步完善，而逐步减小。

当然，第一估计函数F4(SP,SPT)还可以等于a*SP+(1-a)*PST的其它等效或变形公式(或者还可以根据第一估计函数F4(SP,SPT)的其它等效或变形估计函数确定用户语音预测功率谱)，本申请实施例中对此并不作限制。

本实施例中，通过根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；进一步地，根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱，以便进一步地根据用户语音预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了去噪后的语音信号的可懂度和自然度。

可选地，在上述实施例的基础上，步骤S301之前还包括：获取用户功率谱分布类。

本实施例中，通过对用户历史去噪后的语音信号进行用户功率谱在线学习，统计分析用户语音功率谱特性，以生成用户个性化相关的用户功率谱分布类来实现对用户语音的自适应。可选地，具体的获取方式可以参见如下内容：

图3B为本申请实施例提供的用户功率谱分布类示意图，图3C为本申请实施例提供的用户语音功率谱特性的学习流程示意图。示例性地，通过应用聚类算法对用户历史去噪后的语音信号进行用户功率谱离线学习，生成用户功率谱初始分布类；可选地，还可结合其他用户历史去躁后的语音信号进行用户功率谱离线学习)。示例性地，聚类算法可以包括但不限于以下任意项：K-聚类中心值(K-means)和K最近邻(K-Nearest Neighbor，K-NN)。可选地，在用户功率谱初始分布类的构建过程中可以结合发音类型(如声母、韵母、清音、浊音、爆破音等)的分类，当然还可以结合其它分类因素，本申请实施例中对此并不作限制。

结合图3B所示，以上一次调整后的用户功率谱分布类包括：用户历史功率谱聚类A1、用户历史功率谱聚类A2和用户历史功率谱聚类A3，以及用户去噪后的语音信号为A4为例进行说明。结合图3B和图3C所示，在语音通话过程中，应用传统的谱减算法或者本申请提供的语音增强方法确定用户去噪后的语音信号，进一步地，根据该用户去噪后的语音信号(如图3B中的A4)以及上一次调整后的用户功率谱分布类进行自适应聚类迭代(即用户功率谱在线学习)，对上一次调整后的用户功率谱分布类的聚类中心进行修改，以输出本次调整后的用户功率谱分布类。

可选地，当第一次自适应聚类迭代时(即上一次调整后的用户功率谱分布类为用户功率谱初始分布类)，则根据该用户去噪后的语音信号和用户功率谱初始分布类中的初始聚类中心进行自适应聚类迭代；当非第一次自适应聚类迭代时，则根据该用户去噪后的语音信号和上一次调整后的用户功率谱分布类中的历史聚类中心进行自适应聚类迭代。

本申请实施例中，通过每次根据用户去噪后的语音信号动态调整用户功率谱分布类，以便后续可以更加准确地确定用户语音预测功率谱，进一步根据用户语音预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了降噪性能。

图4A为本申请另一实施例提供的语音增强方法的流程示意图。本申请实施例涉及的是如何确定环境噪声预测功率谱的一种可选地实现过程。如图4A所示，在上述实施例的基础上，步骤S202之前，还包括：

步骤S401、根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类。

其中，噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类。

本实施例中，示例性地，通过分别计算噪声功率谱分布类中各噪声历史功率谱聚类与噪声信号的功率谱之间的距离，并将各噪声历史功率谱聚类中与噪声信号的功率谱之间的距离最近的噪声历史功率谱聚类确定为目标噪声功率谱聚类。可选地，任一噪声历史功率谱聚类中与噪声信号的功率谱之间的距离的计算方式可以采用以下算法中的任意算法：欧氏距离算法、曼哈顿距离算法、标准化欧氏距离算法，以及夹角余弦算法，当然，还可以采用其它算法，本申请实施例中对此并不作限制。

步骤S402、根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱。

本步骤中，示例性地，根据噪声信号的功率谱、目标噪声功率谱聚类以及估计函数确定环境噪声预测功率谱。

可选地，根据第二估计函数F5(NP,NPT)确定环境噪声预测功率谱；其中，NP代表噪声信号的功率谱；NPT代表目标噪声功率谱聚类；F5(NP,NPT)＝b*NP+(1-b)*NPT，b代表第二估计系数，0≤b≤1。可选地，b的值可以随着噪声功率谱分布类的逐步完善，而逐步减小。

当然，第二估计函数F5(NP,NPT)还可以等于b*NP+(1-b)*NPT的其它等效或变形公式(或者还可以根据第二估计函数F5(NP,NPT)的其它等效或变形估计函数确定环境噪声预测功率谱)，本申请实施例中对此并不作限制。

本实施例中，通过根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；进一步地，根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱，以便进一步地根据环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

可选地，在上述实施例的基础上，步骤S401之前还包括：获取噪声功率谱分布类。

本实施例中，通过对用户所处环境的历史噪声信号进行噪声功率谱在线学习，统计分析用户所处环境的噪声功率谱特性，以生成用户个性化相关的噪声功率谱分布类来实现对用户语音的自适应。可选地，具体的获取方式可以参见如下内容：

图4B为本申请实施例提供的噪声功率谱分布类示意图，图4C为本申请实施例提供的噪声功率谱特性的学习流程示意图。示例性地，通过应用聚类算法对用户所处环境的历史噪声信号进行噪声功率谱离线学习，生成噪声功率谱初始分布类；可选地，还可结合其它用户所处环境的历史噪声信号进行噪声功率谱离线学习。示例性地，聚类算法可以包括但不限于以下任意项：K-means和K-NN。可选地，在噪声功率谱初始分布类的构建过程中可以结合典型的环境噪声场景(如人员密集场所等)的分类，当然还可以结合其它分类因素，本申请实施例中对此并不作限制。

结合图4B所示，以上一次调整后的噪声功率谱分布类包括：噪声历史功率谱聚类B1、噪声历史功率谱聚类B2和噪声历史功率谱聚类B3，以及噪声信号的功率谱为B4为例进行说明。结合图4B和图4C所示，在语音通话过程中，应用传统的谱减算法或者本申请提供的语音增强方法确定噪声信号的功率谱，进一步地，根据噪声信号的功率谱(如图4B中的B4)以及上一次调整后的噪声功率谱分布类进行自适应聚类迭代(即噪声功率谱在线学习)，对上一次调整后的噪声功率谱分布类的聚类中心进行修改，以输出本次调整后的噪声功率谱分布类。

可选地，当第一次自适应聚类迭代时(即上一次调整后的噪声功率谱分布类为噪声功率谱初始分布类)，则根据噪声信号的功率谱和噪声功率谱初始分布类中的初始聚类中心进行自适应聚类迭代；当非第一次自适应聚类迭代时，则根据噪声信号的功率谱和上一次调整后的噪声功率谱分布类中的历史聚类中心进行自适应聚类迭代。

本申请实施例中，通过每次根据噪声信号的功率谱动态调整噪声功率谱分布类，以便后续可以更加准确地确定环境噪声预测功率谱，进一步根据环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了降噪性能。

图5为本申请另一实施例提供的语音增强方法的流程示意图。本申请实施例涉及的是如何确定用户语音预测功率谱和环境噪声预测功率谱的一种可选地实现过程。如图5所示，在上述实施例的基础上，步骤S202之前，还包括：

步骤S501、根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类，以及根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类。

其中，用户功率谱分布类包括：至少一个用户历史功率谱聚类；目标用户功率谱聚类为至少一个用户历史功率谱聚类中与带噪语音信号的功率谱距离最近的聚类；噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；目标噪声功率谱聚类为至少一个噪声历史功率谱聚类中与噪声信号的功率谱距离最近的聚类。

可选地，本步骤的具体实现方式可以参见上述实施例中关于步骤S301和步骤S401的相关内容，此处不再赘述。

步骤S502、根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱。

可选地，本步骤的具体实现方式可以参见上述实施例中关于步骤S302的相关内容，此处不再赘述。

步骤S503、根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱。

可选地，本步骤的具体实现方式可以参见上述实施例中关于步骤S402的相关内容，此处不再赘述。

可选地，在上述实施例的基础上，步骤S501之前还包括：获取用户功率谱分布类和噪声功率谱分布类。

可选地，具体的获取方式可以参见上述实施例中的相关内容，此处不再赘述。

需要说明的是，上述步骤S502和步骤S503的执行顺序可以同时并行执行，或者先执行步骤S502后执行步骤S503，或者先执行步骤S503后执行步骤S502，本申请实施例中对此并不作限制。

本实施例中，通过根据带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类，以及根据噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；进一步地，根据带噪语音信号的功率谱以及目标用户功率谱聚类确定用户语音预测功率谱，以及根据噪声信号的功率谱以及目标噪声功率谱聚类确定环境噪声预测功率谱，以便进一步地根据用户语音预测功率谱和环境噪声预测功率谱对第一谱减参数进行优化处理得到第二谱减参数，并根据优化后的第二谱减参数对带噪语音信号进行谱减处理，从而不仅可以对终端设备的用户语音进行保护，还可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

图6A为本申请另一实施例提供的语音增强方法的流程示意图一，图6B为本申请另一实施例提供的语音增强方法的流程示意图二。结合上述任意实施例，本申请实施例涉及的是当考虑到终端设备的用户语音功率谱特性的规律性以及考虑子带划分时，如何实现语音增强方法的一种可选地实现过程。如图6A和6B所示，本申请实施例的具体实现过程如下：

通过VAD将双麦克风采集到的声音信号划分为带噪语音信号和噪声信号。进一步地，带噪语音信号通过FFT变换得到幅度信息和相位信息(其中，幅度信息通过子带功率谱估计得到带噪语音信号的子带功率谱SP(m,i))，以及噪声信号通过噪声子带功率谱估计得到噪声信号的子带功率谱。进一步地，根据噪声信号的子带功率谱以及带噪语音信号的子带功率谱SP(m,i)，通过谱减参数计算处理得到第一谱减参数，m代表第m个子带(m的取值范围为根据预设的子带数量确定的)，i代表第i帧(i的取值范围为根据所处理的带噪语音信号的帧序列数目确定的)。进一步地，根据用户语音预测子带功率谱PSP(m,i)对第一谱减参数进行优化，示例性地，根据用户语音预测子带功率谱PSP(m,i)以及第一谱减参数得到第二谱减参数，其中，用户语音预测子带功率谱PSP(m,i)为：根据带噪语音信号的子带功率谱SP(m,i)和用户子带功率谱分布类中与带噪语音信号的子带功率谱SP(m,i)距离最近的用户历史子带功率谱聚类(即目标用户功率谱聚类，SPT(m))进行语音子带功率谱估计确定的。进一步地，根据噪声信号的子带功率谱以及第二谱减参数，对带噪语音信号的幅度信息进行谱减处理得到去噪后的语音信号。进一步地，根据去噪后的语音信号以及带噪语音信号的相位信息进行IFFT变换以及叠加等处理，得到增强后的语音信号。

可选地，还可以对去噪后的语音信号进行用户子带功率谱在线学习，以实时更新用户子带功率谱分布类，进而以便后续根据下一次的带噪语音信号的子带功率谱和更新后的用户子带功率谱分布类中与该带噪语音信号的子带功率谱距离最近的用户历史子带功率谱聚类(即下一次的目标用户功率谱聚类)，进行语音子带功率谱估计确定下一次的用户语音预测子带功率谱，以便后续优化下一次的第一谱减参数。

综上所述，本申请实施例中，通过考虑到终端设备的用户语音功率谱特性的规律性，根据用户语音预测子带功率谱对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以对终端设备的用户语音进行保护，提高了去噪后的语音信号的可懂度和自然度。

可选地，本申请实施例涉及的子带划分的方式可以参考表1所示的划分方式(可选地，Bark域的值b＝6.7asinh[(f-20)/600]，f代表对信号进行傅里叶变换后的频域取值)，当然还可以采用其它的划分方式，本申请实施例中对此并不作限制。

表1为Bark临界频带划分参考示意表

图7A为本申请另一实施例提供的语音增强方法的流程示意图三，图7B为本申请另一实施例提供的语音增强方法的流程示意图四。结合上述任意实施例，本申请实施例涉及的是当考虑到用户所处环境噪声功率谱特性的规律性以及考虑子带划分时，如何实现语音增强方法的一种可选地实现过程。如图7A和7B所示，本申请实施例的具体实现过程如下：

通过VAD将双麦克风采集到的声音信号划分为带噪语音信号和噪声信号。进一步地，带噪语音信号通过FFT变换得到幅度信息和相位信息(其中，幅度信息通过子带功率谱估计得到带噪语音信号的子带功率谱)，以及噪声信号通过噪声子带功率谱估计得到噪声信号的子带功率谱NP(m,i)。进一步地，根据噪声信号的子带功率谱NP(m,i)以及带噪语音信号的子带功率谱，通过谱减参数计算处理得到第一谱减参数。进一步地，根据环境噪声预测功率谱PNP(m,i)对第一谱减参数进行优化，示例性地，根据环境噪声预测功率谱PNP(m,i)以及第一谱减参数得到第二谱减参数，其中，环境噪声预测功率谱PNP(m,i)为：根据噪声信号的子带功率谱NP(m,i)和噪声子带功率谱分布类中与噪声信号的子带功率谱NP(m,i)距离最近的噪声历史子带功率谱聚类(即目标噪声子带功率谱聚类，NPT(m))进行噪声子带功率谱估计确定的。进一步地，根据噪声信号的子带功率谱以及第二谱减参数，对带噪语音信号的幅度信息进行谱减处理得到去噪后的语音信号。进一步地，根据去噪后的语音信号以及带噪语音信号的相位信息进行IFFT变换以及叠加等处理，得到增强后的语音信号。

可选地，还可以对噪声信号的子带功率谱NP(m,i)进行噪声子带功率谱在线学习，以实时更新噪声子带功率谱分布类，进而以便后续根据下一次的噪声信号的子带功率谱和更新后的噪声子带功率谱分布类中与该噪声信号的子带功率谱距离最近的噪声历史子带功率谱聚类(即下一次的目标噪声子带功率谱聚类)，进行噪声子带功率谱估计确定下一次的环境噪声预测子带功率谱，以便后续优化下一次的第一谱减参数。

综上所述，本申请实施例中，通过考虑到用户所处环境噪声功率谱特性的规律性，根据环境噪声预测子带功率谱对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

图8A为本申请另一实施例提供的语音增强方法的流程示意图五，图8B为本申请另一实施例提供的语音增强方法的流程示意图六。结合上述任意实施例，本申请实施例涉及的是当考虑到终端设备的用户语音功率谱特性、用户所处环境噪声功率谱特性的规律性以及考虑子带划分时，如何实现语音增强方法的一种可选地实现过程。如图8A和8B所示，本申请实施例的具体实现过程如下：

通过VAD将双麦克风采集到的声音信号划分为带噪语音信号和噪声信号。进一步地，带噪语音信号通过FFT变换得到幅度信息和相位信息(其中，幅度信息通过子带功率谱估计得到带噪语音信号的子带功率谱SP(m,i))，以及噪声信号通过噪声子带功率谱估计得到噪声信号的子带功率谱NP(m,i)。进一步地，根据噪声信号的子带功率谱以及带噪语音信号的子带功率谱，通过谱减参数计算处理得到第一谱减参数。进一步地，根据用户语音预测子带功率谱PSP(m,i)、环境噪声预测功率谱PNP(m,i)对第一谱减参数进行优化，示例性地，根据用户语音预测子带功率谱PSP(m,i)、环境噪声预测功率谱PNP(m,i)以及第一谱减参数得到第二谱减参数；其中，用户语音预测子带功率谱PSP(m,i)为：根据带噪语音信号的子带功率谱SP(m,i)和用户子带功率谱分布类中与带噪语音信号的子带功率谱SP(m,i)距离最近的用户历史子带功率谱聚类(即目标用户功率谱聚类，SPT(m))进行语音子带功率谱估计确定的；环境噪声预测功率谱PNP(m,i)为：根据噪声信号的子带功率谱NP(m,i)和噪声子带功率谱分布类中与噪声信号的子带功率谱NP(m,i)距离最近的噪声历史子带功率谱聚类(即目标噪声子带功率谱聚类，NPT(m))进行噪声子带功率谱估计确定的。进一步地，根据噪声信号的子带功率谱以及第二谱减参数，对带噪语音信号的幅度信息进行谱减处理得到去噪后的语音信号。进一步地，根据去噪后的语音信号以及带噪语音信号的相位信息进行IFFT变换以及叠加等处理，得到增强后的语音信号。

可选地，还可以对去噪后的语音信号进行用户子带功率谱在线学习以实时更新用户子带功率谱分布类，进而以便后续根据下一次的带噪语音信号的子带功率谱和更新后的用户子带功率谱分布类中与该带噪语音信号的子带功率谱距离最近的用户历史子带功率谱聚类(即下一次的目标用户功率谱聚类)，进行语音子带功率谱估计确定下一次的用户语音预测子带功率谱，以便后续优化下一次的第一谱减参数。

可选地，还可以对噪声信号的子带功率谱进行噪声子带功率谱在线学习，以实时更新噪声子带功率谱分布类，进而以便后续根据下一次的噪声信号的子带功率谱和更新后的噪声子带功率谱分布类中与该噪声信号的子带功率谱距离最近的噪声历史子带功率谱聚类(即下一次的目标噪声子带功率谱聚类)，进行噪声子带功率谱估计确定下一次的环境噪声预测功率谱，以便后续优化下一次的第一谱减参数。

综上所述，本申请实施例中，通过考虑到终端设备的用户语音功率谱特性和用户所处环境噪声功率谱特性的规律性，根据用户语音预测子带功率谱和环境噪声预测子带功率谱对第一谱减参数进行优化处理得到第二谱减参数，以便根据第二谱减参数对带噪语音信号进行谱减处理，从而可以更加准确地去掉带噪语音信号中的噪声信号，提高了去噪后的语音信号的可懂度和自然度。

图9A为本申请一实施例提供的语音增强装置的结构示意图。如图9A所示，本申请实施例提供的语音增强装置90，包括：第一确定模块901、第二确定模块902以及谱减模块903。

其中，第一确定模块901，用于根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，带噪语音信号以及噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的；

第二确定模块902，用于根据第一谱减参数以及参考功率谱确定第二谱减参数；其中，参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱；

谱减模块903，用于根据噪声信号的功率谱和第二谱减参数对带噪语音信号进行谱减处理。

可选地，若参考功率谱包括：用户语音预测功率谱，第二确定模块902具体用于：

可选地，若参考功率谱包括：环境噪声预测功率谱，第二确定模块902具体用于：

可选地，若参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，第二确定模块902具体用于：

可选地，语音增强装置90还包括：

可选地，第四确定模块具体用于：

可选地，第六确定模块具体用于：

可选地，语音增强装置90还包括：

第一获取模块，用于获取用户功率谱分布类。

可选地，语音增强装置90还包括：

第二获取模块，用于获取噪声功率谱分布类。

本实施例的语音增强装置，可以用于执行本申请上述语音增强方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9B为本申请另一实施例提供的语音增强装置的结构示意图。如图9B所示，本申请实施例提供的语音增强装置可以包括：VAD模块、噪声估计模块、谱减参数计算模块、频谱分析模块、谱减模块、在线学习模块、参数优化模块、以及相位恢复模块。其中，VAD模块分别连接至噪声估计模块和频谱分析模块，噪声估计模块分别连接至在线学习模块和谱减参数计算模块，频谱分析模块分别连接至在线学习模块和谱减模块，参数优化模块分别连接至在线学习模块、谱减参数计算模块和谱减模块，谱减模块还与谱减参数计算模块和相位恢复模块连接。

可选地，VAD模块用于将麦克风采集到的声音信号划分为带噪语音信号和噪声信号；噪声估计模块用于估计噪声信号的功率谱；频谱分析模块用于估计带噪语音信号的功率谱；相位恢复模块用于根据频谱分析模块中确定的相位信息和谱减模块处理后的去噪后的语音信号恢复得到增强后的语音信号。结合图9A所示，谱减参数计算模块的功能可以与上述实施例中的第一确定模块901的功能相同；参数优化模块的功能可以与上述实施例中的第二确定模块902的功能相同；谱减模块的功能可以上述实施例中的谱减模块903的功能相同；在线学习模块的功能可以由上述实施例中的第三确定模块、第四确定模块、第五确定模块、第六确定模块、第一获取模块和第二获取模块的所有功能相同。

图10为本申请另一实施例提供的语音增强装置的结构示意图。如图10所示，本申请实施例提供的语音增强装置，包括：处理器1001和存储器1002；

其中，存储器1001，用于存储程序指令；

处理器1002，用于调用并执行所述存储器中存储的程序指令，实现本申请上述语音增强方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可以理解的是，图10仅仅示出了语音增强装置的简化设计。在其他的实施方式中，语音增强装置还可以包含任意数量的发射器、接收器、处理器、存储器和/或通信单元等，本申请实施例中对此并不作限制。

图11为本申请另一实施例提供的语音增强装置的结构示意图。可选地，本申请实施例提供的语音增强装置可以是终端设备。如图11所示，本申请实施例中以终端设备为手机100为例进行说明。应该理解的是，图示手机100仅是终端设备的一个范例，并且手机100可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。

如图11所示，手机100具体可以包括：处理器101、射频(Radio Frequency，RF)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、无线保真(WIreless-Fidelity，Wi-Fi)装置107、定位装置108、音频电路109、扬声器113、麦克风114、外设接口110以及电源装置111等部件。可选地，触摸屏104中可以包括：触控板104-1和显示器104-2。这些部件可通过一根或多根通信总线或信号线(图11中未示出)进行通信。

需要说明的是，本领域技术人员可以理解，图11中示出的硬件结构并不构成对手机的限定，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合本申请所涉及的部件对手机100的音频部件进行具体的介绍，而其他部件暂不做详细描述。

示例性地，音频电路109、扬声器113、麦克风114可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号，传输到扬声器113，由扬声器113转换为声音信号输出；另一方面，麦克风114一般是2个或者2两个以上麦克风的组合，麦克风114将收集的声音信号转换为电信号，由音频电路109接收后转换为音频数据，再将音频数据输出至RF电路102以发送给比如另一手机，或者将音频数据输出至存储器103以便进一步处理。同时，音频电路可以包括专用处理器。

可选地，本申请上述语音增强方法实施例中的技术方案可以运行在音频电路109中的专用处理器，也可以运行在图11中所示的处理器101中，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种程序，该程序在被处理器执行时用于执行本申请上述语音增强方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请上述语音增强方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请上述语音增强方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述各实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、终端设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

Claims

一种语音增强方法，其特征在于，包括：

根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，所述带噪语音信号以及所述噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的；

根据所述第一谱减参数以及参考功率谱确定第二谱减参数；其中，所述参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱；

根据所述噪声信号的功率谱和所述第二谱减参数对所述带噪语音信号进行谱减处理。
根据权利要求1所述的方法，其特征在于，若所述参考功率谱包括：用户语音预测功率谱，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第一谱减函数F1(x,y)确定所述第二谱减参数；其中，x代表所述第一谱减参数；y代表所述用户语音预测功率谱；F1(x,y)的值与x成正向关系，F1(x,y)的值与y成负向关系。
根据权利要求1所述的方法，其特征在于，若所述参考功率谱包括：环境噪声预测功率谱，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第二谱减函数F2(x,z)确定所述第二谱减参数；其中，x代表所述第一谱减参数；z代表所述环境噪声预测功率谱；F2(x,z)的值与x成正向关系，F2(x,z)的值与z成正向关系。
根据权利要求1所述的方法，其特征在于，若所述参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数，包括：

根据第三谱减函数F3(x,y,z)确定所述第二谱减参数；其中，x代表所述第一谱减参数；y代表所述用户语音预测功率谱；z代表所述环境噪声预测功率谱；F3(x,y,z)的值与x成正向关系，F3(x,y,z)的值与y成负向关系，且F3(x,y,z)的值与z成正向关系。
根据权利要求2所述的方法，其特征在于，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数之前，还包括：

根据所述带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；其中，所述用户功率谱分布类包括：至少一个用户历史功率谱聚类；所述目标用户功率谱聚类为所述至少一个用户历史功率谱聚类中与所述带噪语音信号的功率谱距离最近的聚类；

根据所述带噪语音信号的功率谱以及所述目标用户功率谱聚类确定所述用户语音预测功率谱。
根据权利要求3所述的方法，其特征在于，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数之前，还包括：

根据所述噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，所述噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；所述目标噪声功率谱聚类为所述至少一个噪声历史功率谱聚类中与所述噪声信号的功率谱距离最近的聚类；

根据所述噪声信号的功率谱以及所述目标噪声功率谱聚类确定所述环境噪声预测功率谱。
根据权利要求4所述的方法，其特征在于，所述根据所述第一谱减参数以及参考功率谱确定第二谱减参数之前，还包括：

根据所述带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类，以及根据所述噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，所述用户功率谱分布类包括：至少一个用户历史功率谱聚类；所述目标用户功率谱聚类为所述至少一个用户历史功率谱聚类中与所述带噪语音信号的功率谱距离最近的聚类；所述噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；所述目标噪声功率谱聚类为所述至少一个噪声历史功率谱聚类中与所述噪声信号的功率谱距离最近的聚类；

根据所述带噪语音信号的功率谱以及所述目标用户功率谱聚类确定所述用户语音预测功率谱；

根据所述噪声信号的功率谱以及所述目标噪声功率谱聚类确定所述环境噪声预测功率谱。
根据权利要求5或7所述的方法，其特征在于，所述根据所述带噪语音信号的功率谱以及所述目标用户功率谱聚类确定所述用户语音预测功率谱，包括：

根据第一估计函数F4(SP,SPT)确定所述用户语音预测功率谱；其中，SP代表所述带噪语音信号的功率谱；SPT代表所述目标用户功率谱聚类；F4(SP,PST)＝a*SP+(1-a)*PST，a代表第一估计系数。
根据权利要求6或7所述的方法，其特征在于，所述根据所述噪声信号的功率谱以及所述目标噪声功率谱聚类确定所述环境噪声预测功率谱，包括：

根据第二估计函数F5(NP,NPT)确定所述环境噪声预测功率谱；其中，NP代表所述噪声信号的功率谱；NPT代表所述目标噪声功率谱聚类；F5(NP,NPT)＝b*NP+(1-b)*NPT，b代表第二估计系数。
根据权利要求5、7或8所述的方法，其特征在于，所述根据所述带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类之前，还包括：

获取所述用户功率谱分布类。
根据权利要求6、7或9所述的方法，其特征在于，所述根据所述噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类之前，还包括：

获取所述噪声功率谱分布类。
一种语音增强装置，其特征在于，包括：

第一确定模块，用于根据带噪语音信号的功率谱以及噪声信号的功率谱，确定第一谱减参数；其中，所述带噪语音信号以及所述噪声信号为对麦克风所采集到的声音信号进行划分处理后得到的；

第二确定模块，用于根据所述第一谱减参数以及参考功率谱确定第二谱减参数；其中，所述参考功率谱包括：用户语音预测功率谱和/或环境噪声预测功率谱；

谱减模块，用于根据所述噪声信号的功率谱和所述第二谱减参数对所述带噪语音信号进行谱减处理。
根据权利要求12所述的装置，其特征在于，若所述参考功率谱包括：用户语音预测功率谱，所述第二确定模块具体用于：

根据第一谱减函数F1(x,y)确定所述第二谱减参数；其中，x代表所述第一谱减参数；y代表所述用户语音预测功率谱；F1(x,y)的值与x成正向关系，F1(x,y)的值与y成负向关系。
根据权利要求12所述的装置，其特征在于，若所述参考功率谱包括：环境噪声预测功率谱，所述第二确定模块具体用于：

根据第二谱减函数F2(x,z)确定所述第二谱减参数；其中，x代表所述第一谱减参数；z代表所述环境噪声预测功率谱；F2(x,z)的值与x成正向关系，F2(x,z)的值与z成正向关系。
根据权利要求12所述的装置，其特征在于，若所述参考功率谱包括：用户语音预测功率谱和环境噪声预测功率谱，所述第二确定模块具体用于：

根据第三谱减函数F3(x,y,z)确定所述第二谱减参数；其中，x代表所述第一谱减参数；y代表所述用户语音预测功率谱；z代表所述环境噪声预测功率谱；F3(x,y,z)的值与x成正向关系，F3(x,y,z)的值与y成负向关系，且F3(x,y,z)的值与z成正向关系。
根据权利要求13所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于根据所述带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；其中，所述用户功率谱分布类包括：至少一个用户历史功率谱聚类；所述目标用户功率谱聚类为所述至少一个用户历史功率谱聚类中与所述带噪语音信号的功率谱距离最近的聚类；

第四确定模块，用于根据所述带噪语音信号的功率谱以及所述目标用户功率谱聚类确定所述用户语音预测功率谱。
根据权利要求14所述的装置，其特征在于，所述装置还包括：

第五确定模块，用于根据所述噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，所述噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；所述目标噪声功率谱聚类为所述至少一个噪声历史功率谱聚类中与所述噪声信号的功率谱距离最近的聚类；

第六确定模块，用于根据所述噪声信号的功率谱以及所述目标噪声功率谱聚类确定所述环境噪声预测功率谱。
根据权利要求15所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于根据所述带噪语音信号的功率谱以及用户功率谱分布类确定目标用户功率谱聚类；

第五确定模块，用于根据所述噪声信号的功率谱以及噪声功率谱分布类确定目标噪声功率谱聚类；其中，所述用户功率谱分布类包括：至少一个用户历史功率谱聚类；所述目标用户功率谱聚类为所述至少一个用户历史功率谱聚类中与所述带噪语音信号的功率谱距离最近的聚类；所述噪声功率谱分布类包括：至少一个噪声历史功率谱聚类；所述目标噪声功率谱聚类为所述至少一个噪声历史功率谱聚类中与所述噪声信号的功率谱距离最近的聚类；

第四确定模块，用于根据所述带噪语音信号的功率谱以及所述目标用户功率谱聚类确定所述用户语音预测功率谱；

第六确定模块，用于根据所述噪声信号的功率谱以及所述目标噪声功率谱聚类确定所述环境噪声预测功率谱。
根据权利要求16或18所述的装置，其特征在于，所述第四确定模块具体用于：

根据第一估计函数F4(SP,SPT)确定所述用户语音预测功率谱；其中，SP代表所述带噪语音信号的功率谱；SPT代表所述目标用户功率谱聚类；F4(SP,PST)＝a*SP+(1-a)*PST，a代表第一估计系数。
根据权利要求17或18所述的装置，其特征在于，所述第六确定模块具体用于：

根据第二估计函数F5(NP,NPT)确定所述环境噪声预测功率谱；其中，NP代表所述噪声信号的功率谱；NPT代表所述目标噪声功率谱聚类；F5(NP,NPT)＝b*NP+(1-b)*NPT，b代表第二估计系数。
根据权利要求16、18或19所述的装置，其特征在于，所述装置还包括：

第一获取模块，用于获取所述用户功率谱分布类。
根据权利要求17、18或20所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取所述噪声功率谱分布类。
一种语音增强装置，其特征在于，包括处理器和存储器；

其中，所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中存储的程序指令，实现如权利要求1至11中任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其所述指令在计算机上运行时，使得所述计算机执行如权利要求1至11中任一项所述的方法。