WO2021179424A1

WO2021179424A1 - 结合ai模型的语音增强方法、系统、电子设备和介质

Info

Publication number: WO2021179424A1
Application number: PCT/CN2020/088399
Authority: WO
Inventors: 康力; 叶顺舟; 陆成; 巴莉芳
Original assignee: 紫光展锐(重庆)科技有限公司
Priority date: 2020-03-13
Filing date: 2020-04-30
Publication date: 2021-09-16
Also published as: CN111445919A; CN111445919B

Abstract

一种结合AI模型的语音增强方法、系统、电子设备和介质，其中结合AI模型的语音增强方法包括以下步骤：根据目标AI模型获取语音存在概率（S11）；根据语音存在概率得到噪声功率（S12）；根据噪声功率得到先验信噪比（S13）；根据先验信噪比得到语音增强增益（S14）。可以在复杂嘈杂场景下改善语音的可懂度，也能提高关键词唤醒和语音识别功能的性能。

Description

结合AI模型的语音增强方法、系统、电子设备和介质

本申请要求申请日为2020/3/13的中国专利申请2020101737400的优先权。本申请引用上述中国专利申请的全文。

技术领域

本发明属于语音增强技术领域，尤其涉及一种结合AI模型的语音增强方法、系统、电子设备和介质。

背景技术

当人处于嘈杂的环境中进行通话时，比如汽车，街道或咖啡馆中，环境中的噪声使得远端处的用户分心，理解困难，使得交流不顺利。类似场景下，如果使用虚拟助手(Virtual Assistant)，其关键词唤醒(voice trigger detection)功能和自动语音识别(Automatic speech detection)功能都会出现误识率增加，识别率降低的现象，造成使用困难。

语音增强的目的是从带噪语音中分离出干净语音信号。得到的语音信号能够使得通话更清晰，可懂度更高，使得人与人之间交流更高效。也能帮助虚拟助手更好地理解用户的目的，提高用户体验。语音增强已经进行了数十年的研究，广泛用于通信，安防，家居等场景。相较于麦克风阵列技术，单通道的语音增强具有非常广泛的应用场景。一方面，单通道语音增强成本低，使用更加灵活便捷。另一方面，单通道语音增强无法利用到达角等空间信息，对于复杂场景，尤其是非平稳噪声场景，处理起来非常困难。

传统的语音增强的处理方法是建立在语音信号和噪声信号的统计分析之上的。一旦遇到不符合预期的统计特征，则语音增强的效果会减弱，或者降噪性能下降，或者语音失真增多。

传统的单通道语音增强技术基于两个假设，一是噪声信号的非平稳性比语音信号要弱，二是噪声信号和语音信号，其幅度都满足高斯分布。基于这些假设，参照图1，传统的单通道语音增强的方法分为两个步骤，一是噪声功率谱估计，二是语音增强增益计算。噪声功率谱估计根据当前带噪语音信号估计出当中可能包含的噪声，更新噪声功率谱。增益计算部分根据噪声功率谱估计先验信噪比，并计算增益。输入的带噪语音信号乘以计算出来的增益，就得到了增强后的语音信号。

传统方法在计算语音存在概率时，假设噪声信号和语音信号符合高斯分布。基于这个假设，然后使用贝叶斯后验概率公式能够计算出语音存在概率，是一个后验概率。然后使用语音存在概率估计噪声功率谱，这样就完成了噪声估计。

在增益计算部分，可以利用这个噪声功率估计先验信噪比和计算增益。先验信噪比的估计有判决引导法(DD)，倒谱平滑，改进型的判决引导法，等等。增益计算有多种方法，分别是维纳(Wiener)滤波，最小均方误差估计(MMSE-STSA)，对数域最小均方误差估计(MMSE-LogSTSA)，以及最优对数幅度谱估计(OMLSA)。

最后将输入带噪语音信号乘以这个增益，就可以得到增强后的语音信号。传统的语音增强的处理方法是建立在语音信号和噪声信号的统计分析的基础之上。这些统计分析主要用于语音存在概率的估计。一旦遇到不符合预期的统计特征，比如一些非平稳噪声，则语音增强的效果会下降。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音增强效果不佳的缺陷，提供一种结合AI模型的语音增强方法、系统、电子设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种结合AI模型的语音增强方法，包括以下步骤：

根据目标AI(人工智能)模型获取语音存在概率；

根据语音存在概率得到噪声功率；

根据噪声功率得到先验信噪比；

根据先验信噪比得到语音增强增益。

较佳地，在根据目标AI模型获取语音存在概率的步骤之前，结合AI模型的语音增强方法还包括以下步骤：

构建目标AI模型。

较佳地，构建目标AI模型的步骤包括：

将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号，并构建训练集，训练集的输入为带噪语音信号，训练集的输出为带噪语音信号的实际信噪比；

根据训练集对AI模型进行训练以得到目标AI模型，以均方误差作为AI模型训练的评价指标，均方误差为训练后验信噪比与实际信噪比的均方误差，训练后验信噪比根据训练噪声功率谱得到，训练噪声功率谱根据训练语音存在概率得到，训练语音存在概率为AI模型的输出。

较佳地，得到语音增强增益的步骤包括：

根据预设算法得到语音增强增益，预设算法包括Wiener(一种语音增强算法)、MMSE-STSA(一种语音增强算法)或MMSE-LogSTSA(一种语音增强算法)、OMLSA。

较佳地，AI模型包括LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(一种神经网络)。

本发明还提供一种语音增强系统，包括概率获取单元、噪声功率获取单元、信噪比获取单元、增益获取单元；

概率获取单元用于根据目标AI模型获取语音存在概率；

噪声功率获取单元用于根据语音存在概率得到噪声功率；

信噪比获取单元用于根据噪声功率得到先验信噪比；

增益获取单元用于根据先验信噪比得到语音增强增益。

较佳地，语音增强系统还包括模型构建单元；

模型构建单元用于构建目标AI模型。

较佳地，模型构建单元还用于：

较佳地，增益获取单元还用于：

根据预设算法得到语音增强增益，预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA或OMLSA。

较佳地，AI模型包括LSTM或GRU。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本发明的结合AI模型的语音增强方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的结合AI模型的语音增强方法的步骤。

本发明的积极进步效果在于：本发明可以在复杂嘈杂场景下改善语音的可懂度，也能提高关键词唤醒和语音识别功能的性能。

附图说明

图1为现有技术的语音增强的方法的流程图。

图2为本发明的实施例1的结合AI模型的语音增强方法的流程图。

图3为本发明的实施例2的结合AI模型的语音增强方法的流程图。

图4为本发明的实施例2的结合AI模型的语音增强方法的一种可选的实施方式的流程图。

图5为本发明的实施例3的结合AI模型的语音增强方法的系统的结构示意图。

图6为本发明的实施例4的结合AI模型的语音增强方法的系统的结构示意图。

图7为本发明的实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种结合AI模型的语音增强方法，包括以下步骤：

步骤S11、根据目标AI模型获取语音存在概率。

步骤S12、根据语音存在概率得到噪声功率。

步骤S13、根据噪声功率得到先验信噪比。

步骤S14、根据先验信噪比得到语音增强增益。

本实施例的结合AI模型的语音增强方法可以在复杂嘈杂场景下改善语音的可懂度，也能提高关键词唤醒和语音识别功能的性能。

实施例2

在实施例1的基础上，本实施例提供一种结合AI模型的语音增强方法，参照图3，在步骤S11之前，该结合AI模型的语音增强方法还包括以下步骤：

步骤S10、构建目标AI模型。

在步骤S10中，首先，将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号，并构建训练集，训练集的输入为带噪语音信号，训练集的输出为带噪语音信号的实际信噪比。然后，根据训练集对AI模型进行训练以得到目标AI模型，以均方误差作为AI模型训练的评价指标，均方误差为训练后验信噪比与实际信噪比的均方误差，训练后验信噪比根据训练噪声功率谱得到，训练噪声功率谱根据训练语音存在概率得到，训练语音存在概率为AI模型的输出。

将纯净语音信号和纯噪声信号，根据不同的比例混合，可以得到具有不同信噪比的带噪语音信号。混合得到的带噪语音信号作为训练集的输入，实际信噪比作为训练集的目标输出。AI模型的输出是语音存在概率，根据语音存在概率估计噪声功率谱并进一步估计后验信噪比。将估计的后验信噪比与计算的实际信噪比进行比较，计算均方误差，作为AI模型训练的评价指标。

具体实施时，在步骤S10中，信号是在频域进行处理的。在一种可选的实施方式中，参照图4，对于输入纯净语音信号s[t]和纯噪声信号n[t]，都需要通过分帧加窗，然后使用傅里叶变换转换到频域。此时分别得到纯净语音信号的频谱S[k,n]和纯噪声信号的频谱N[k,n]，其中k表示频点索引，n表示帧索引。根据不同的比例混合，可以得到具有不同信噪比的带噪语音信号X[k,n]，信号混合的公式如下：

X[k,n]＝a S[k,n]+(1-a)N[k,n]，

其中系数a的范围为[0,1]。

信号混合之后，其实际信噪比为：

其中σ _x＝E{|X[k,n]| ²}是带噪语音信号方差，σ _n＝E{|N[k,n]| ²}是噪声信号方差。混合得到的带噪语音信号X[k,n]作为训练集的输入，实际信噪比γ _truth[k,n]作为训练集的目标输出。

AI模型的输入是带噪语音的幅度谱，输出是语音存在概率P[k,n]。得到语音存在概率后，先计算平滑因子a _n[k,n]，

a _n[k,n]＝a ₀+(1-a ₀)P[k,n]，

其中a ₀是一个固定值，取值范围[0.7,0.95]。

然后，再基于平滑因子a _n估计噪声功率谱

根据估计出来的噪声功率谱，计算后验信噪比

将估计的后验信噪比与计算的实际信噪比进行比较，计算均方误差MSE，作为AI模型训练的评价指标：

然后在步骤S11中，先将训练得到的目标AI模型参数导入。目标AI模型的输入是带噪语音的幅度谱，输出是语音存在概率P[k,n]。带噪语音的幅度谱由输入带噪声语音信号经过分帧加窗FFT之后计算得到。语音信号得到语音存在概率后，先计算平滑因子a _n[k,n]，其中a ₀是一个固定值，取值范围[0.7,0.95]，

a _n[k,n]＝a ₀+(1-a ₀)P[k,n]。

然后，在步骤S12中，基于平滑因子a _n估计噪声功率谱

公式如下：

然后，在步骤S13中，先根据估计出来的噪声功率谱，计算后验信噪比

使用判决引导法得到先验信噪比：

其中a _dd是判决引导法的平滑因子，取值范围[0.9，0.98]。

在估计得到先验信噪比

之后，在步骤S14中，继续计算增益G[k,n]。

在一种可选的实施方式中，增益计算采用Wiener(维纳增益)算法，其运算量最少，公式如下：

在第二种可选的实施方式中，增益计算采用结合语音存在概率的MMSE-LogSTSA增益估计，其降噪性能最优，其公式如下：

其中G _LSA代表MMSE-LogSTSA增益。

在第三种可选的实施方式中，采用G _OMLSA[k,n]增益，其噪声抑制和语音保真效果最好，其公式如下：

其中，p ₁[k,n]代表语音存在概率，GH0代表纯噪声段噪声抑制最小增益阈值，G _min代表整体噪声抑制最小增益阈值。

G _LSA代表MMSE-LogSTSA增益，公式如下：

在其他可选的实施方式中，增益的计算可采用MMSE-STSA等。

然后，输入的带噪语音信号经过分帧加窗FFT后乘以增益得到增强后的语音信号 Y[k,n]：

Y[k,n]＝X[k,n]*G[k,n]。该过程中，信号幅度乘增益，信号相位不变。

最后需要经过逆傅里叶变换(IFFT重叠相加)，然后合成到时域信号y[t](增强语音信号)。

作为一种可选的实施方式，AI模型包括LSTM、GRU，但不限于LSTM、GRU。

本实施例的结合AI模型的语音增强方法是单通道的结合AI模型的语音增强方法，仅需要一个通道的语音幅度谱信息。本实施例的结合AI模型的语音增强方法既可以用在单麦克风的场景，也可以用在多麦克风阵列的后处理。因为其硬件条件限制较少，应用场景更加广泛。

本实施例的结合AI模型的语音增强方法使用神经网络对语音存在概率进行估计，得到语音存在概率之后，可以估计出噪声功率，先验信噪比，然后再计算输出增益。这样为后续的计算提供了更多的灵活性。比如在计算增益时，可以是维纳增益，也可以是OMLSA增益。而且还可以根据应用场景设置相应的参数，比如维纳增益和OMLSA增益都有参数可以设置降噪的程度。

本实施例的结合AI模型的语音增强方法使用LSTM和GRU作为AI模型的结构更适合语音增强这一类的时间序列问题，但并不仅限于LSTM和GRU。

本实施例的结合AI模型的语音增强方法是单通道语音增强，既可以用于单麦克风语音增强，也可以用于麦克风阵列后处理部分。除麦克风外，其他声电传感器也可以。比如骨传导技术，以及骨传导和麦克风的结合。

本实施例的结合AI模型的语音增强方法用于先验信噪比计算，使用的是判决引导法(DD)，但并不仅限于判决引导法。其他方法，包括可变的判决引导法，倒谱平滑估计也是可以用的。

本实施例的结合AI模型的语音增强方法用于增益计算，使用的是G _OMLSA，但并不限于G _OMLSA。其他方法，包括维纳增益，MMSE-STSA增益，MMSE-LogSTSA增益，以及结合语音存在概率的MMSE-STSA增益都是可用的。

本实施例的结合AI模型的语音增强方法提出的参考值范围是基于实践得出的经验值，实际应用中并不以这些值作为限制。

本实施例的结合AI模型的语音增强方法使用的AI模型，是LSTM和GRU，但是并不局限这两种模型，其他DNN(一种神经网络)，CNN(一种神经网络)，CRNN(一种神经网络)，GMM-HMM(一种神经网络)，凡是基于机器学习，深度学习，为了得到语音存在概率的模型均可以作为本实施例的结合AI模型的语音增强方法中的AI模型。

实施例3

本实施例提供一种语音增强系统。参照图5，该语音增强系统包括概率获取单元21、噪声功率获取单元22、信噪比获取单元23、增益获取单元24。

概率获取单元21用于根据目标AI模型获取语音存在概率。噪声功率获取单元22用于根据语音存在概率得到噪声功率。信噪比获取单元23用于根据噪声功率得到先验信噪比。增益获取单元24用于根据先验信噪比得到语音增强增益。

本实施例的语音增强系统可以在复杂嘈杂场景下改善语音的可懂度，也能提高关键词唤醒和语音识别功能的性能。

实施例4

在实施例3的基础上，本实施例提供一种语音增强系统。参照图6，该语音增强系统还包括模型构建单元25；模型构建单元25用于构建目标AI模型。

具体实施时，模型构建单元25将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号，并构建训练集，训练集的输入为带噪语音信号，训练集的输出为带噪语音信号的实际信噪比；然后根据训练集对AI模型进行训练以得到目标AI模型，以均方误差作为AI模型训练的评价指标，均方误差为训练后验信噪比与实际信噪比的均方误差，训练后验信噪比根据训练噪声功率谱得到，训练噪声功率谱根据训练语音存在概率得到，训练语音存在概率为AI模型的输出。

作为一种可选的实施方式，模型构建单元25在构建目标AI模型时，信号是在频域进行处理的。对于输入纯净语音信号s[t]和纯噪声信号n[t]，都需要通过分帧加窗，然后使用傅里叶变换转换到频域。此时分别得到纯净语音信号的频谱S[k,n]和纯噪声信号的频谱N[k,n]，其中k表示频点索引，n表示帧索引。根据不同的比例混合，可以得到具有不同信噪比的带噪语音信号X[k,n]，信号混合的公式如下：

X[k,n]＝a S[k,n]+(1-a)N[k,n]，

其中系数a的范围为[0,1]。

信号混合之后，其实际信噪比为：

a _n[k,n]＝a ₀+(1-a ₀)P[k,n]，

其中a ₀是一个固定值，取值范围[0.7,0.95]。

然后，再基于平滑因子a _n估计噪声功率谱

根据估计出来的噪声功率谱，计算后验信噪比

将估计的后验信噪比与计算的实际信噪比进行比较，计算均方误差，作为AI模型训练的评价指标：

然后，概率获取单元21根据目标AI模型获取语音存在概率。先将训练得到的目标AI模型参数导入。目标AI模型的输入是带噪语音的幅度谱，输出是语音存在概率P[k,n]。带噪语音的幅度谱由输入带噪声语音信号经过分帧加窗FFT之后计算得到。得到语音存在概率后，先计算平滑因子a _n[k,n]，其中a ₀是一个固定值，取值范围[0.7,0.95]，

a _n[k,n]＝a ₀+(1-a ₀)P[k,n]。

然后，噪声功率获取单元22用于根据语音存在概率得到噪声功率。噪声功率获取单元22基于平滑因子a _n估计噪声功率谱

公式如下：

然后，信噪比获取单元23用于根据噪声功率得到先验信噪比。信噪比获取单元23先根据估计出来的噪声功率谱，计算后验信噪比

使用判决引导法得到先验信噪比：

其中a _dd是判决引导法的平滑因子，取值范围[0.9，0.98]。

在估计得到先验信噪比

之后，增益获取单元24用于根据先验信噪比得到语音增强增益，继续计算增益G[k,n]。

其中G _LSA代表MMSE-LogSTSA增益。

G _LSA代表MMSE-LogSTSA增益，公式如下：

在其他可选的实施方式中，增益的计算可采用MMSE-STSA等。

然后，输入的带噪语音信号经过分帧加窗FFT后乘以增益得到增强后的语音信号Y[k,n]：

本实施例的语音增强系统是单通道的语音增强系统，仅需要一个通道的语音幅度谱信息。本实施例的语音增强系统既可以用在单麦克风的场景，也可以用在多麦克风阵列的后处理。因为其硬件条件限制较少，应用场景更加广泛。

本实施例的语音增强系统使用神经网络对语音存在概率进行估计，得到语音存在概率之后，可以估计出噪声功率，先验信噪比，然后再计算输出增益。这样为后续的计算提供了更多的灵活性。比如在计算增益时，可以是维纳增益，也可以是OMLSA增益。而且还可以根据应用场景设置相应的参数，比如维纳增益和OMLSA增益都有参数可以设置降噪的程度。

本实施例的语音增强系统使用LSTM和GRU作为AI模型的结构更适合语音增强这一类的时间序列问题，但并不仅限于LSTM和GRU。

本实施例的语音增强系统是单通道语音增强，既可以用于单麦克风语音增强，也可以用于麦克风阵列后处理部分。除麦克风外，其他声电传感器也可以。比如骨传导技术，以及骨传导和麦克风的结合。

本实施例的语音增强系统用于先验信噪比计算，使用的是判决引导法(DD)，但并不仅限于判决引导法。其他方法，包括可变的判决引导法，倒谱平滑估计也是可以用的。

本实施例的语音增强系统用于增益计算，使用的是G _OMLSA，但并不限于G _OMLSA。其他方法，包括维纳增益，MMSE-STSA增益，MMSE-LogSTSA增益，以及结合语音存在概率的MMSE-STSA增益都是可用的。

本实施例的语音增强系统提出的参考值范围是基于实践得出的经验值，实际应用中并不以这些值作为限制。

本实施例的语音增强系统使用的AI模型，是LSTM和GRU，但是并不局限这两种模型，其他DNN，CNN，CRNN，GMM-HMM，凡是基于机器学习，深度学习，为了得到语音存在概率的模型均可以作为本实施例的语音增强系统中的AI模型。

实施例5

图7为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。在一种可选的实施方式中，所述处理器执行所述程序时实现实施例1或实施例2的结合AI模型的语音增强方法。图7显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的结合AI模型的语音增强方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或实施例2的结合AI模型的语音增强方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2的结合AI模型的语音增强方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改。因此，本发明的保护范围由所附权利要求书限定。

Claims

一种结合AI模型的语音增强方法，其特征在于，包括以下步骤：

根据目标AI模型获取语音存在概率；

根据所述语音存在概率得到噪声功率；

根据所述噪声功率得到先验信噪比；

根据所述先验信噪比得到语音增强增益。
如权利要求1所述的结合AI模型的语音增强方法，其特征在于，在所述根据目标AI模型获取语音存在概率的步骤之前，所述结合AI模型的语音增强方法还包括以下步骤：

构建所述目标AI模型。
如权利要求2所述的结合AI模型的语音增强方法，其特征在于，所述构建所述目标AI模型的步骤包括：

将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号，并构建训练集，所述训练集的输入为所述带噪语音信号，所述训练集的输出为所述带噪语音信号的实际信噪比；

根据所述训练集对AI模型进行训练以得到所述目标AI模型，以均方误差作为所述AI模型训练的评价指标，所述均方误差为训练后验信噪比与所述实际信噪比的均方误差，所述训练后验信噪比根据训练噪声功率谱得到，所述训练噪声功率谱根据训练语音存在概率得到，所述训练语音存在概率为所述AI模型的输出。
如权利要求1-3中至少一项所述的结合AI模型的语音增强方法，其特征在于，所述得到语音增强增益的步骤包括：

根据预设算法得到所述语音增强增益，所述预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA或OMLSA。
如权利要求3所述的结合AI模型的语音增强方法，其特征在于，所述AI模型包括LSTM或GRU。
一种语音增强系统，其特征在于，包括概率获取单元、噪声功率获取单元、信噪比获取单元和增益获取单元；

所述概率获取单元用于根据目标AI模型获取语音存在概率；

所述噪声功率获取单元用于根据所述语音存在概率得到噪声功率；

所述信噪比获取单元用于根据所述噪声功率得到先验信噪比；

所述增益获取单元用于根据所述先验信噪比得到语音增强增益。
如权利要求6所述的语音增强系统，其特征在于，所述语音增强系统还包括模型构建单元；

所述模型构建单元用于构建所述目标AI模型。
如权利要求7所述的语音增强系统，其特征在于，所述模型构建单元还用于：

将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号，并构建训练集，所述训练集的输入为所述带噪语音信号，所述训练集的输出为所述带噪语音信号的实际信噪比；

根据所述训练集对AI模型进行训练以得到所述目标AI模型，以均方误差作为所述AI模型训练的评价指标，所述均方误差为训练后验信噪比与所述实际信噪比的均方误差，所述训练后验信噪比根据训练噪声功率谱得到，所述训练噪声功率谱根据训练语音存在概率得到，所述训练语音存在概率为所述AI模型的输出。
如权利要求6-8中至少一项所述的语音增强系统，其特征在于，所述增益获取单元还用于：

根据预设算法得到所述语音增强增益，所述预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA或OMLSA。
如权利要求8所述的语音增强系统，其特征在于，所述AI模型包括LSTM或GRU。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的结合AI模型的语音增强方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的结合AI模型的语音增强方法的步骤。