WO2021203880A1

WO2021203880A1 - 一种语音增强方法、训练神经网络的方法以及相关设备

Info

Publication number: WO2021203880A1
Application number: PCT/CN2021/079047
Authority: WO
Inventors: 王午芃; 邢超; 陈晓; 孙凤宇
Original assignee: 华为技术有限公司
Priority date: 2020-04-10
Filing date: 2021-03-04
Publication date: 2021-10-14
Also published as: CN113516990B; CN113516990A

Abstract

一种语音增强方法，涉及人工智能领域，包括：获取待增强语音和参考图像(701)，待增强语音和参考图像为同时获取的数据。根据第一神经网络输出待增强语音的第一增强信号(702)。根据第二神经网络输出参考图像的掩蔽函数(703)，掩蔽函数指示参考图像对应的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声。根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号(704)。通过提供的技术方案，可以将图像信息应用于语音增强的过程中，在一些相对嘈杂的环境中，也可以很好的提升语音增强的能力，提升听感。

Description

一种语音增强方法、训练神经网络的方法以及相关设备

本申请要求于2020年4月10日提交中国专利局、申请号为202010281044.1、申请名称为“一种语音增强方法、训练神经网络的方法以及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，具体涉及一种语音增强方法、训练神经网络的方法以及相关设备。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

语音识别(automatic speech recognition,ASR)是指一种从语音波形中识别出对应的文字内容的技术，是人工智能领域的重要技术之一。在语音识别系统中，语音增强技术是非常重要的一项技术，通常也称为语音降噪技术。通过语音增强技术可以消除语音信号中的高频噪声、低频噪声、白噪声以及各种其他噪声，从而提高语音识别的效果。因此，如何提高语音增强效果，亟待解决。

发明内容

本申请实施例提供一种语音增强方法，可以将图像信息应用于语音增强的过程中，在一些相对嘈杂的环境中，也可以很好的提升语音增强的能力，提升听感。

为达到上述目的，本申请实施例提供如下技术方案：

本申请第一方面提供一种语音增强方法，可以包括：获取待增强语音和参考图像，待增强语音和参考图像为同时获取的数据。根据第一神经网络输出待增强语音的第一增强信号，第一神经网络是以第一掩码mask为训练目标，对语音和噪声的混合数据进行训练得到的神经网络。根据第二神经网络输出参考图像的掩蔽函数，掩蔽函数指示参考图像对应的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声，第二神经网络是以第二掩码mask为训练目标，对第一神经网络采用的语音的声源处对应的可以包括唇部特征的图像进行训练得到的神经网络。根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。由第一方面可知，利用第一神经网络输出待增强语音的第一增强信号，利用第二神经网络对图像信息和语音信息的关联关系进行建模，使第二神经网络输出的参考图像的掩蔽函数可以指示该参考图像对应的待增强语音为噪声或者语音。通过本申请提供的技术方案，可以将图像信息应用于语音增强的过程中，在一些相对嘈杂的环境中，也可以很好的提升语音增强的能力，提升听感。

可选地，结合上述第一方面，在第一种可能的实现方式中，参考图像为待增强语音的声源处对应的可以包括唇部特征的图像。

可选地，结合上述第一方面或第一方面第一种可能的实现方式，在第二种可能的实现方式中，根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号，可以包括：以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

可选地，结合上述第一方面第二种可能的实现方式，在第三种可能的实现方式中，该方法还可以包括：确定参考图像是否可以包括人脸信息或者唇部信息。参考图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

可选地，结合上述第一方面第二种或第一方面第三种可能的实现方式，在第四种可能的实现方式中，修正信号是第一增强信号和掩蔽函数的乘积运算结果。

可选地，结合上述第一方面第四种可能的实现方式，在第五种可能的实现方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号可以包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

可选地，结合上述第一方面或第一方面第一种至第五种可能的实现方式，在第六种可能的实现方式，待增强语音可以包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，参考图像可以包括第一图像帧，第一图像帧为第二神经网络的输入数据，根据第二神经网络输出参考图像的掩蔽函数，可以包括：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

可选地，结合上述第一方面或第一方面第一种至第六种可能的实现方式，在第七种可能的实现方式，该方法还可以包括：对待增强语音进行特征变换，以得到待增强语音的频域特征。方法还可以包括：对第二增强信号进行特征反变换，以得到增强语音。

可选地，结合上述第一方面第七种可能的实现方式，在第八种可能的实现方式，对待增强语音进行特征变换，可以包括：对待增强语音进行短时傅里叶变换STFT。对第二增强信号进行特征反变换，可以包括：对第二增强信号进行逆短时傅里叶变换ISTFT。

可选地，结合上述第一方面第一种至第八种可能的实现方式，在第九种可能的实现方式，该方法还可以包括对参考图像进行采样，使参考图像可以包括的图像帧的帧率为预设的帧率。

可选地，结合上述第一方面或第一方面第一种至第八种可能的实现方式，在第十种可能的实现方式，唇部特征通过对人脸图进行特征抽取获得，人脸图为对参考图像进行人脸检测获得。

可选地，结合上述第一方面或第一方面第一种至第十种可能的实现方式，在第十一种可能的实现方式，参考图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

可选地，结合上述第一方面或第一方面第一种至第十一种可能的实现方式，在第十二种可能的实现方式，待增强语音通过单个音频通道获取。

可选地，结合上述第一方面或第一方面第一种至第十二种可能的实现方式，在第十三种可能的实现方式，第一mask是理想浮值掩蔽IRM，第二mask是理想二值掩蔽IBM。

本申请第二方面提供一种训练神经网络的方法，该神经网络用于语音增强，该方法可以包括：获取训练数据，训练数据可以包括语音和噪声的混合数据以及语音的声源处对应的可以包括唇部特征的图像。以理想浮值掩蔽IRM为训练目标，对混合数据进行训练得到第一神经网络，训练好的第一神经网络用于输出待增强语音的第一增强信号。以理想二值掩蔽IBM为训练目标，对图像进行训练得到第二神经网络，训练好的第二神经网络用于输出参考图像的掩蔽函数，掩蔽函数指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音频段为噪声，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号。

可选地，结合上述第二方面，在第一种可能的实现方式中，参考图像为待增强语音的声源处对应的可以包括唇部特征的图像。

可选地，结合上述第二方面或第二方面第一种可能的实现方式，在第二种可能的实现方式中，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号，可以包括：以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

可选地，结合上述第二方面第二种可能的实现方式，在第三种可能的实现方式中，方法还可以包括：确定图像是否可以包括人脸信息或者唇部信息。图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

可选地，结合上述第二方面第二种或第二方面第三种可能的实现方式，在第四种可能的实现方式中，修正信号是第一增强信号和掩蔽函数的乘积运算结果。

可选地，结合上述第二方面第四种可能的实现方式，在第五种可能的实现方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号可以包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

可选地，结合上述第二方面或第二方面第一种至第五种可能的实现方式，在第六种可能的实现方式，待增强语音可以包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，图像可以包括第一图像帧，第一图像帧为第二神经网络的输入数据，根据第二神经网络输出图像的掩蔽函数，可以包括：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

可选地，结合上述第二方面或第二方面第一种至第六种可能的实现方式，在第七种可能的实现方式，该方法还可以包括：对待增强语音进行特征变换，以得到待增强语音的频域特征。该方法还可以包括：对第二增强信号进行特征反变换，以得到增强语音。

可选地，结合上述第二方面第七种可能的实现方式，在第八种可能的实现方式，对待增强语音进行特征变换，可以包括：对待增强语音进行短时傅里叶变换STFT。对第二增强信号进行特征反变换，可以包括：对第二增强信号进行逆短时傅里叶变换ISTFT。

可选地，结合上述第二方面第一种至第八种可能的实现方式，在第九种可能的实现方式，该方法还可以包括：对图像进行采样，使图像可以包括的图像帧的帧率为预设的帧率。

可选地，结合上述第二方面或第二方面第一种至第八种可能的实现方式，在第十种可能的实现方式，唇部特征通过对人脸图进行特征抽取获得，人脸图为对图像进行人脸检测获得。

可选地，结合上述第二方面或第二方面第一种至第十种可能的实现方式，在第十一种可能的实现方式，图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

可选地，结合上述第二方面或第二方面第一种至第十一种可能的实现方式，在第十二种可能的实现方式，待增强语音通过单个音频通道获取。

可选地，结合上述第二方面或第二方面第一种至第十二种可能的实现方式，在第十三种可能的实现方式，第一mask是理想浮值掩蔽IRM，第二mask是理想二值掩蔽IBM。

本申请第三方面提供一种语音增强装置，其特征在于，包括：获取模块，用于获取待增强语音和参考图像，所述待增强语音和所述参考图像为同时获取的数据。音频处理模块，用于根据第一神经网络输出待增强语音的第一增强信号，第一神经网络是以第一掩码mask为训练目标，对语音和噪声的混合数据进行训练得到的神经网络。图像处理模块，用于根据第二神经网络输出参考图像的掩蔽函数，掩蔽函数指示参考图像对应的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声，第二神经网络是以第二掩码mask为训练目标，对第一神经网络采用的语音的声源处对应的包括唇部特征的图像进行训练得到的神经网络。综合处理模块，用于根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。

可选地，结合上述第三方面，在第一种可能的实现方式中，参考图像为待增强语音的声源处对应的包括唇部特征的图像。

可选地，结合上述第三方面或第三方面第一种可能的实现方式，在第二种可能的实现方式中，综合处理模块，具体用于：以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

可选地，结合上述第三方面第二种可能的实现方式，在第三种可能的实现方式中，装置还包括：特征提取模块，特征提取模块，用于确定参考图像是否包括人脸信息或者唇部信息。参考图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

可选地，结合上述第三方面第二种或第三方面第三种可能的实现方式，在第四种可能的实现方式中，修正信号是第一增强信号和掩蔽函数的乘积运算结果。

可选地，结合上述第三方面第四种可能的实现方式，在第五种可能的实现方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

可选地，结合上述第三方面或第三方面第一种至第五种可能的实现方式，在第六种可能的实现方式，待增强语音包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，参考图像包括第一图像帧，第一图像帧为第二神经网络的输入数据，图像处理模块，具体用于：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

可选地，结合上述第三方面第七种可能的实现方式，在第八种可能的实现方式，对待增强语音进行特征变换，可以包括：对待增强语音进行短时傅里叶变换STFT。对第二增强信号进行特征反变换，可以包括：对第二增强信号进行逆短时傅里叶变换ISTFT。

可选地，结合上述第三方面第一种至第八种可能的实现方式，在第九种可能的实现方式，特征提取模块，还用于对参考图像进行采样，使参考图像可以包括的图像帧的帧率为预设的帧率。

可选地，结合上述第三方面或第三方面第一种至第八种可能的实现方式，在第十种可能的实现方式，唇部特征通过对人脸图进行特征抽取获得，人脸图为对参考图像进行人脸检测获得。

可选地，结合上述第三方面或第三方面第一种至第十种可能的实现方式，在第十一种可能的实现方式，参考图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

可选地，结合上述第三方面或第三方面第一种至第十一种可能的实现方式，在第十二种可能的实现方式，待增强语音通过单个音频通道获取。

可选地，结合上述第三方面或第三方面第一种至第十二种可能的实现方式，在第十三种可能的实现方式，第一mask是理想浮值掩蔽IRM，第二mask是理想二值掩蔽IBM。

本申请第四方面提供一种训练神经网络的装置，神经网络用于语音增强，装置包括：获取模块，用于获取训练数据，训练数据包括语音和噪声的混合数据以及语音的声源处对应的包括唇部特征的图像。音频处理模块，用于以理想浮值掩蔽IRM为训练目标，对混合数据进行训练得到第一神经网络，训练好的第一神经网络用于输出待增强语音的第一增强信号。图像处理模块，用于以理想二值掩蔽IBM为训练目标，对图像进行训练得到第二神经网络，训练好的第二神经网络用于输出参考图像的掩蔽函数，掩蔽函数指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音频段为噪声，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号。

可选地，结合上述第四方面，在第一种可能的实现方式中，参考图像为待增强语音的声源处对应的包括唇部特征的图像。

可选地，结合上述第四方面或第四方面第一种可能的实现方式，在第二种可能的实现方式中，还包括：综合处理模块。

综合处理模块，用于以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

可选地，结合上述第四方面第二种可能的实现方式，在第三种可能的实现方式中，装置还包括：特征特征提取模块，

特征特征提取模块，用于确定图像是否包括人脸信息或者唇部信息。图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

可选地，结合上述第四方面第二种或第四方面第三种可能的实现方式，在第四种可能的实现方式中，修正信号是第一增强信号和掩蔽函数的乘积运算结果。

可选地，结合上述第四方面第四种可能的实现方式，在第五种可能的实现方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

可选地，结合上述第四方面或第四方面第一种至第五种可能的实现方式，在第六种可能的实现方式待增强语音包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，图像包括第一图像帧，第一图像帧为第二神经网络的输入数据，图像处理模块，具体用于：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

可选地，结合上述第四方面第七种可能的实现方式，在第八种可能的实现方式，对待增强语音进行特征变换，可以包括：对待增强语音进行短时傅里叶变换STFT。对第二增强信号进行特征反变换，可以包括：对第二增强信号进行逆短时傅里叶变换ISTFT。

可选地，结合上述第四方面第一种至第八种可能的实现方式，在第九种可能的实现方式，特征提取模块，还用于对参考图像进行采样，使参考图像可以包括的图像帧的帧率为预设的帧率。

可选地，结合上述第四方面或第四方面第一种至第八种可能的实现方式，在第十种可能的实现方式，唇部特征通过对人脸图进行特征抽取获得，人脸图为对参考图像进行人脸检测获得。

可选地，结合上述第四方面或第四方面第一种至第十种可能的实现方式，在第十一种可能的实现方式，参考图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

可选地，结合上述第四方面或第四方面第一种至第十一种可能的实现方式，在第十二种可能的实现方式，待增强语音通过单个音频通道获取。

可选地，结合上述第四方面或第四方面第一种至第十二种可能的实现方式，在第十三种可能的实现方式，第一mask是理想浮值掩蔽IRM，第二mask是理想二值掩蔽IBM。

本申请第五方面提供一种语音增强装置，其特征在于，包括：存储器，用于存储程序。处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如第一方面或第一方面任意一种可能的实现方式所描的方法。

本申请第六方面提供一种训练神经网络的装置，其特征在于，包括：存储器，用于存储程序。处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如第二方面或第二方面任意一种可能的实现方式所描的方法。

本申请第七方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码包括用于执行如第一方面或第一方面任意一种可能的实现方式所描的方法。

本申请第八方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码包括用于执行如第二方面或第二方面任意一种可能的实现方式所描的方法。

通过本申请实施例提供的方案，利用第一神经网络输出待增强语音的第一增强信号，利用第二神经网络对图像信息和语音信息的关联关系进行建模，使第二神经网络输出的参考图像的掩蔽函数可以指示该参考图像对应的待增强语音为噪声或者语音。通过本申请提供的技术方案，可以将图像信息应用于语音增强的过程中，在一些相对嘈杂的环境中，也可以很好的提升语音增强的能力，提升听感。

附图说明

图1为本申请实施例提供的一种人工智能主体框架示意图；

图2为本申请提供的一种系统架构；

图3为本申请实施例提供的一种卷积神经网络的结构示意图；

图4为本申请实施例提供的一种卷积神经网络的结构示意图；

图5为本申请实施例提供的一种芯片的硬件结构；

图6为本申请实施例提供的一种系统架构示意图；

图7为本申请实施例提供的一种语音增强方法的流程示意图；

图8为本申请实施例提供的一种方案的适用场景的示意图；

图9为本申请实施例提供的一种方案的适用场景的示意图；

图10为本申请实施例提供的一种方案的适用场景的示意图；

图11为本申请实施例提供的一种方案的适用场景的示意图；

图12为本申请实施例提供的一种关于时间序列对齐的示意图；

图13为本申请实施例提供的另一种语音增强方法的流程示意图；

图14为本申请实施例提供的另一种语音增强方法的流程示意图；

图15为本申请实施例提供的另一种语音增强方法的流程示意图；

图16为本申请实施例提供的另一种语音增强方法的流程示意图；

图17为本申请实施例提供的一种语音增强装置的结构示意图；

图18为本申请实施例提供的一种训练神经网络的装置的结构示意图；

图19为本申请实施例提供的另一种语音增强装置的结构示意图；

图20为本申请实施例提供的另一种训练神经网络的装置的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些端口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

为了更好的理解本申请提供的方案可以适用的领域以及场景，在对本申请提供的技术方案进行具体的介绍之前，首先对人工智能主体框架、本申请提供的方案适用的系统架构以及神经网络的相关知识进行介绍。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“信息技术(information technology，IT)价值链”(垂直轴)两个维度对上述人工智能主题框架进行详细的阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。

基础设施可以通过传感器与外部沟通，基础设施的计算能力可以由智能芯片提供。

这里的智能芯片可以是中央处理器(central processing unit，CPU)、神经网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processingunit，GPU)、专门应用的集成电路(application specific integrated circuit，ASIC)以及现场可编程门阵列(field programmable gate array，FPGA)等硬件加速芯片。

基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。

例如，对于基础设施来说，可以通过传感器和外部沟通获取数据，然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据：

基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理：

上述数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等处理方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力：

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用：

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

本申请实施例可以应用在人工智能中的很多领域，例如，智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市等领域。

具体地，本申请实施例可以具体应用在语音增强、语音识别需要使用(深度)神经网络的领域。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(3)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

如图2所示，本申请实施例提供了一种系统架构100。在图2中，数据采集设备160用于采集训练数据。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的原始数据进行处理，将输出的数据与原始数据进行对比，直到训练设备120输出的数据与原始数据的差值小于一定的阈值，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的语音增强方法，上述训练设备可以用于实现本申请实施例提供的训练神经网络的方法。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图2所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)AR/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图2中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理图像。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理图像)进行预处理，在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图2中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图2仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图2中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图2所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是本申请中的神经网络，具体的，本申请实施例提供的神经网络可以CNN，深度卷积神经网络(deep convolutional neural networks,DCNN)，循环神经网络(recurrent neural network，RNNS)等等。

由于CNN是一种非常常见的神经网络，下面结合图3重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

本申请实施例的语音增强方法和训练模型的方法具体采用的神经网络的结构可以如图3所示。在图3中，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。其中，输入层210可以获取待处理图像，并将获取到的待处理图像交由卷积层/池化层220以及后面的神经网络层230进行处理，可以得到图像的处理结果。下面对图3中的CNN 200中内部的层结构进行详细的介绍。

卷积层/池化层220：

卷积层：

如图3所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同，再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图3中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图3所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图3由210至240方向的传播为前向传播)完成，反向传播(如图3由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

本申请实施例的语音增强方法和训练模型的方法具体采用的神经网络的结构可以如图4所示。在图4中，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。与图3相比，图4中的卷积层/池化层220中的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层230进行处理。

需要说明的是，图3和图4所示的卷积神经网络仅作为一种本申请实施例的语音增强方法和训练模型的方法的两种可能的卷积神经网络的示例，在具体的应用中，本申请实施例的语音增强方法和训练模型的方法所采用的卷积神经网络还可以以其他网络模型的形式存在。

图5为本申请实施例提供的一种芯片的硬件结构，该芯片包括神经网络处理器。该芯片可以被设置在如图2所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图2所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图3或图4所示的卷积神经网络中各层的算法均可在如图5所示的芯片中得以实现。

神经网络处理器NPU作为协处理器挂载到主中央处理器(centralprocessing unit，CPU，host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路303，控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路303内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

向量计算单元307可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器306用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器305(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，以及将统一存储器306中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)310，用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。

与控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令；

控制器304，用于调用取指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

入口：可以根据实际发明说明这里的数据是说明数据，比如探测到车辆速度？障碍物距离等。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。

如图6所示，本申请实施例提供了一种系统架构。该系统架构包括本地设备401、本地设备402以及执行设备210和数据存储系统150，其中，本地设备401和本地设备402通过通信网络与执行设备210连接。

执行设备210可以由一个或多个服务器实现。可选的，执行设备210可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统150中的数据，或者调用数据存储系统150中的程序代码来实现本申请实施例的语音增强方法或者训练神经网络的方法。

通过上述过程执行设备210能够搭建成一个目标神经网络，该目标神经网络可以用于语音增强或者语音识别处理等等。

用户可以操作各自的用户设备(例如本地设备401和本地设备402)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备401、本地设备402从执行设备210获取到目标神经网络的相关参数，将目标神经网络部署在本地设备401、本地设备402上，利用该目标神经网络进行语音增强或者语音识别等等。

在另一种实现中，执行设备210上可以直接部署目标神经网络，执行设备210通过从本地设备401和本地设备402获取待处理图像，并根据目标神经网络对待增强语音进行语音增强或者其他类型的语音处理。

上述执行设备210也可以称为云端设备，此时执行设备210一般部署在云端。

上文中介绍的图2中的执行设备110能够执行本申请实施例的语音增强方法，上文中介绍的图4中的训练设备120能够执行本申请实施例的训练神经网络的方法的各个步骤，图5和图6所示的CNN模型和图5所示的芯片也可以用于执行本申请实施例的语音增强方法和训练模型的方法的各个步骤。下面结合附图对本申请实施例的语音增强方法和训练模型的方法进行详细的介绍。

如图7所示，为本申请实施例提供的一种语音增强方法的流程示意图。

如图7所示，本申请实施例提供的一种语音增强方法可以包括如下步骤：

701、获取待增强语音和参考图像。

本申请可以通过多声道的麦克风阵列获取待增强语音也可以通过单个音频通道(以下简称为单声道)获取待增强语音。

通过单声道语音增强只利用了时域和频域的信息，而麦克风阵列语音增强不仅利用了时域和频域的信息，还利用了空域的信息。由于时域和频域信息在音源分离中起主导作用，而空域信息只是起到辅助作用，所以本申请提供的方案的待增强语音可以通过单声道的麦克风阵列获取。

需要说明的是，通过单个音频通道获取待增强语音为本申请实施例提供的一个更为优选的方案。单声道语音增强对硬件成本要求相对低，可以形成通用的解决方案，并且广泛应用到各个产品中。但是复杂的环境会限制单声道的声学概率模型的效果，单声道语音增强的任务更为困难。而本申请提供的方案可以为声学模型提供视觉信息来增强语音降噪模型的效果。随着第五代移动通信技术(5th generation mobile networks或5th generation wireless systems、5th-Generation，5G)的发展，视频通话和摄像头在5G智能家居中使用越来越广泛，因此本申请提供的可以基于单声道的语音增强方法会在不远的将来大范围应用。

本申请提供的技术方案中涉及的参考图像可以通过相机、摄像机等可以记录影像或者图像的设备获取。下面结合本申请可能适用的几个典型的场景，对获取待增强语音和参考图像进行举例说明。需要说明的是，下面介绍的几个典型的场景只是对本申请提供的方案可能的适用场景的举例说明，并不代表本申请提供的方案可以适用的全部场景。

场景一：视频语音通话

如图8所示，为本申请实施例提供的一种方案的适用场景的示意图。如图8中的a所示，设备A与设备B正在建立视频语音通话。其中，设备A和设备B可以是手机、平板、笔记本电脑或者智能穿戴设备。假设设备A采用了本申请提供的方案，则在设备A和设备B建立视频语音通过的过程中，设备A获取到的声音为待增强语音，此时的待增强语音可能包括设备A的用户的语音以及周围环境的噪声。设备A获取到的图像为参考图像，此时的参考图像可以是设备A的相机镜头对准的区域的图像，比如设备A的用户将摄像头对准了自己的脸(需要说明的是，本申请中的相机镜头和摄像头在不强调二者区别之时，表达相同的意思，都是表示记录影像或图像的器件)，则此时参考图像为设备A的用户的人脸。或者设备A的用户在视频语音通过的过程中，没有将摄像头对准自己，而是对准了周围的环境，则此时参考图像为周围的环境。

由于本申请提供的技术方案可以结合图像信息对语音增强，具体的，需要结合人脸的图像信息对语音进行增强，所以在摄像头对准人脸的时候将会有更好的语音的增强效果。为了方便用户可以更好的感受到本申请提供的方案带来的良好的语音增强效果。在一种具体的场景中，可以提示用户将摄像头对准人脸，将获得更好的语音增强效果。如图8中的b所示，为本申请提供的另一种方案的适用场景的示意图。以A设备为例，假设设备A采用了本申请提供的方案，在与设备B建立视频语音通过的过程中，可以在视频对话的窗口显示文字提示。比如图8中的b所示的，在视频的过程中，在视频窗口显示文字“将摄像头对准人脸，语音效果会更好”，或者“请将摄像头对准人脸”或者“正在进行语音增强，请将摄像头对准脸部”等等。或者如图8中的c所示，在视频的过程中，如果设备A检测到用户已经将摄像头对准了人脸则不进行提示，当检测到在视频的过程中，设备A的用户没有将摄像头对准人脸，而是对准了环境时，在视频窗口显示文字提示，比如可以显示“将摄像头对准人脸，语音效果会更好”，或者“请将摄像头对准人脸”等等。需要说明的是，当用户了解了这一功能后，可以选择关闭文字提示，即用户了解了视频语音通过过程中，将摄像头对准人脸，可以有更好的语音增强效果后，用户可以主动关掉文字提示的功能，或者可以预先设定，采用了本方案的设备只在第一次视频语音通过的过程显示文字提示。

场景二：会议录音

如图9所示，为本申请实施例提供的另一种适用场景的示意图。目前，为了提高工作效率，通过会议协调多方人士的工作是比较重要的手段。为了能够回溯会议内容，在会议过程中对每个发言人发言内容的记录以及会议记录的整理成为了基本要求。当前记录发言人的发言和整理会议记录可以采用多种方式，比如：秘书的人工速记。或者录音笔等录音设备先全程录音，会后人工整理录音内容形成会议记录等。但是这些方式均因为需要人工介入而导致效率较低。

语音识别技术引用到会议系统给会议记录的整理带来的便捷，比如：在会议系统中，通过录音设备录制与会者的发言内容，以及语音识别软件识别与会者的发言内容，进一步可以形成会议记录，这大大提高了会议记录的整理的效率。本申请提供的方案可以应用到对会议录音这一场景中，进一步提升语音识别的效果。在这一场景中，假设会议上A正在发言，则可以录制A的发言内容，在录制A的发言内容的同时，同步获取图像。此时A的发言内容为待增强语音，该待增强语音可以包括A的纯语音以及会议中产生的其他噪声，此时同步拍摄的图像为参考图像，在一个优选的实施方式中，该参考图像为A的人脸图像。在一些实际情况中，拍摄者有可能并未在A发言的过程中，全程拍摄A的人脸，则在A发言的过程中，获取到的其他非人脸图像也可以看做是本方案中的参考图像。

在另一种场景中，假设会议上正在发言的有A，B，C三人，可以选择对A，B，C三人中的至少一个人的发言内容进行增强。举例说明，当选择对A的发言内容进行增强时，可以在A发言的过程中，同步拍摄A的人脸图像，此时，A的发言内容为待增强语音，该待增强语音可以包括A的纯语音以及会议中产生的其他噪声(比如其他噪声可以是B的发言内容或者C的发言内容)，此时同步拍摄的A的人脸图像为参考图像。当选择对B的发言内容进行增强时，可以在B发言的过程中，同步拍摄B的人脸图像，此时，B的发言内容为待增强语音，该待增强语音可以包括B的纯语音以及会议中产生的其他噪声(比如其他噪声可以是A的发言内容或者C的发言内容)，此时同步拍摄的B的人脸图像为参考图像。当选择对C的发言内容进行增强时，可以在C发言的过程中，同步拍摄C的人脸图像,此时，C的发言内容为待增强语音，该待增强语音可以包括C的纯语音以及会议中产生的其他噪声(比如其他噪声可以是A的发言内容或者B的发言内容)，此时同步拍摄的C的人脸图像为参考图像。或者，当选择对A和B的发言内容进行增强时，可以在A和B发言的过程中，同步拍摄A和B的人脸图像，此时，A和B的发言内容为待增强语音，该待增强语音可以包括A的纯语音和B的纯语音以及会议中产生的其他噪声(比如其他噪声可以是C的发言内容)，此时同步拍摄的A和B的人脸图像为参考图像。当选择对B和C的发言内容进行增强时，可以在B和C发言的过程中，同步拍摄和B和C的人脸图像此时，B和C的发言内容为待增强语音，该待增强语音可以包括B的纯语音和C的纯语音以及会议中产生的其他噪声(比如其他噪声可以是A的发言内容)，此时同步拍摄的B和C的人脸图像为参考图像。当选择对A和C的发言内容进行增强时，可以在A和C发言的过程中，同步拍摄A和C的人脸图像,A和C的发言内容为待增强语音，该待增强语音可以包括A的纯语音和C的纯语音以及会议中产生的其他噪声(比如其他噪声可以是B的发言内容)，此时同步拍摄的A和C的人脸图像为参考图像。或者，当选择对A和B以及C的发言内容进行增强时，可以在A和B以及C发言的过程中，同步拍摄A和B以及C的人脸图像，此时，A和B以及C的发言内容为待增强语音，该待增强语音可以包括A的纯语音和B的纯语音以及C的纯语音以及会议中产生的其他噪声(比如除ABC之外的其他与会人发出的声音或者其他环境噪声)，此时同步拍摄的A和B以及C的人脸图像为参考图像。

场景三：与可穿戴设备的语音交互

本场景所指的可穿戴设备是指可以直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。比如，可穿戴设备可以是智能手表，智能手环，智能眼镜等等。基于语音识别的输入法和语义理解被大幅应用于可穿戴设备中，虽然触控目前仍然是人和它们之间通信的主要方式，但是由于这些设备的屏幕普遍较小，且人和它们之间的交流都是以简单直接的任务为主，语音必然成为这些设备的下一代信息入口，以此也能解放人的手指，使得人与这些设备之间的通信更为便捷自然。但是，这些设备通常都在比较复杂的声学环境中被用户所用，周围有各种突发噪声的干扰，比如人和手机以及穿戴设备之间的交流通常会发生在大街上或商场里，这些场景里都有非常嘈杂的背景噪音，复杂的噪声环境通常让语音的识别率显著下降，识别率的下降意味着这些设备无法准确理解用户的指令，这就会大幅降低用户的体验。本申请提供的方案也可以应用于与可穿戴设备的语音交互场景中。如图10所示，可穿戴设备在获取用户的语音指令时，可以同步获取用户的人脸图像，根据本申请提供的方案，对用户的语音指令进行语音增强，进而可以使可穿戴设备可以更好的识别用户的指令，做出对应用户的指令的响应。在这一场景中，可以将用户的语音指令看做待增强语音，将同步获取的人脸图像看做参考图像，通过本申请提供的方案，在语音增强的过程中引入视觉信息，如参考图像，使在有非常嘈杂的背景噪声的环境中，也有很好的语音增强以及语音识别的效果。

场景四：与智能家居的语音交互

智能家居(smart home,home automation)是以住宅为平台，利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日程事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境。比如，智能家居可以包括智能照明系统，智能窗帘，智能电视，智能空调等等。如图11所示，当用户对智能家居发出语音控制指令时，具体的可以包括用户直接对智能家居发出语音控制指令，或者用户通过其他设备对智能家居发出语音控制指令，比如通过手机等设备，远程对智能家居发出语音控制指令。此时可以通过智能家居或者其他设备获取预设区域的图像。比如当用户通过手机对智能家居发出语音控制指令时，手机可以获取此时拍摄到的图像，在这种场景中，用户发出的语音控制指令为待增强语音，同步拍摄到的图像为参考图像。在一个具体的实施场景中，当预设区域没有检测到人脸时，可以发出语音提示用户将摄像头对准人脸，比如发出提示“正在进行语音增强，请将摄像头对准脸部”等等。

702、根据第一神经网络输出待增强语音的第一增强信号。

第一神经网络是以理想浮值掩蔽(ideal ratio mask，IRM)为训练目标，对语音和噪声的混合数据进行训练得到的神经网络。

时频掩蔽是语音分离的常用目标，常见的时频掩蔽有理想的二值掩蔽和理想浮值掩蔽，它们能显著地提高分离语音的可懂度和感知质量，一旦估计出了时频掩蔽目标，不考虑相位信息，通过逆变换技术即可合成语音的时域波形。示例性的，下面给出一种傅里叶变换域的理想浮值掩蔽的定义：

其中，Ys(t,f)是混合数据中纯净语音的短时傅里叶变换系数，Yn(t,f)是混合数据中噪声的短时傅里叶变换系数，Ps(t,f)是Ys(t,f)对应的能量密度，Pn(t,f)是Yn(t,f)对应的能量密度。

上面给出了傅里叶变换域的理想浮值掩蔽的定义，需要说明的是，本领域的技术人员在获知了本申请提供的方案后，容易联想到还可以采用其他的语音分离的目标作为第一神经网络的训练目标。比如还可以采用短时傅里叶变换掩蔽，隐式时频掩蔽等等作为第一神经网络的训练目标。换句话说，现有技术中，语音和噪声的混合数据，经过某个神经网络进行语音分离后，可以得到该神经网络的输出信号在任意一个时刻的信噪比，则该神经网络采用的训练目标，本申请提供的方案都可以采用。

上述语音可以是指纯净语音或者干净语音，是指未保护任何噪声的语音。语音和噪声的混合数据是指加噪语音，即向该干净语音中添加预设分布的噪声得到的语音。本实施例中将干净语音和加噪语音作为待训练的语音。

具体的，在生成加噪语音时，可以通过向干净语音中添加各种不同分布的噪声得到该干净语音对应的多个加噪语音。例如：向干净语音1中添加第一分布的噪声得到加噪语音1，向干净语音2中添加第二分布的噪声得到加噪语音2，向干净语音1中添加第三分布的噪声得到加噪语音3，依次类推。经过上述加噪过程，可以得到多个干净语音和加噪语音的数据对，例如：{干净语音1，加噪语音1}，{干净语音1，加噪语音2}，{干净语音1，加噪语音3}等等。

实际训练过程中，可以先获取多个干净语音，并且向每个干净语音中添加多种不同分布的噪声，从而得到海量的{干净语音，加噪语音}的数据对。将这些数据对作为待训练的语音。例如：可以选取主流报刊媒体等500个语句，尽可能包含所有的发声，再选取100位不同的人进行朗读，作为干净语音信号(即模拟的含噪语音对应的干净语音)。然后再选取公共场景、交通、工作场景、咖啡厅等18中生活常见噪音，与干净语音信号进行交叉合成，得到带噪音的语音信号(相当于模拟的含噪语音)。干净语音信号与带噪音的语音信号一一匹配作为标记好的数据。将这些数据随机打乱，并选取其中80％作为训练集进行神经网络模型训练，另外20％作为验证集用于验证神经网络模型的结果，最后训练好的神经网络模型即相当于本申请实施例中的第一神经网络。

第一神经网络训练完成后，在语音增强时，将待增强语音转换成二维时频信号，输入到第一神经网络，得到该待增强语音的第一增强信号。

可以采用短时傅立叶变换(short-time-fourier-transform，STFT)的方式对待增强语音信号进行时频转换，以得到待增强语音的二维时频信号。需要说明的是，本申请有时也将时频转换称为特征变换，在不强调二者的区别之时，二者表示相同的意思，本申请有时也将二维时频信号称为频域特征，在不强调二者的区别之时，二者表示相同的意思。下面对此进行举例说明，假设待增强语音的表达式如下：

y(t)＝x(t)+n(t)

其中，y(t)表示t时刻待增强语音的时域信号，x(t)表示t时刻干净语音的时域信号，n(t)表示t时刻噪声的时域信号。对待增强语音进行STFT变换，可以表示如下：

Y(t，d)＝X(t，d)+N(t，d)t-1，2，...，T；d＝1，2，...，D

其中，Y(t,d)表示待增强语音在第t声学特征帧和第d频带的频域信号的表示，X(t,d)表示干净语音在第t声学特征帧和第d频带的频域信号的表示，N(t,d)表示噪声在第t声学特征帧和第d频带的频域信号的表示。T和D分别表示待增强信号总共有多少声学特征帧和总频带数。

需要说明的是，对语音信号进行特征变换的方式不止限于STFT的方式，在一些其他的实施方式中也可以采用其他方式，例如Gabor变换和Wigner-Ville分布等方式。现有技术中关于对于语音信号进行特征变换得到语音信号的二维时频信号的方式，本申请实施例均可以采用。在一个具体的实施方式中，为了加速神经网络的收敛速度和收敛性，还可以对特征变换后的频域特征进行规范化处理。比如，可以对频域特征进行减均值除以标准差的运算，以得到规范化后的频域特征。在一个具体的实施方式中，可以将经过规范化后的频域特征作为第一神经网络的输入，以得到第一增强信号，以长短期记忆网络(long short-term memory，LSTM)为例，可以通过如下公式表示：

其中，上述等式的右边为训练目标IRM,上文已经对此进行了介绍。在本公式中，Ps(aclean,j)代表干净信号在j时刻的能量谱(也可以称为能量密度)，Ps(anoise,j)代表噪声信号在j时刻的能量谱。上述等式的左边表示通过神经网络对训练目标的近似。a _j 代表神经网络的输入，在本实施方式中，可以是频域特征，g()代表一个函数关系，比如这里可以是对神经网络的输入进行减均值除以标准差的规范化而后做对数变换的函数关系。

需要说明的是，上述LSTM仅仅是为了举例说明，本申请的第一神经网络可以是任意一种时序模型，即可以在每一个时间步提供对应的输出，确保模型的实时性。第一神经网络训练完毕后，可以将权重冻结，即保持第一神经网络的权重参数不变，使第二神经网络或者其他神经网络不会影响到第一神经网络的性能，确保在缺乏视觉模态(即参考图像不包括人脸信息或者唇部信息)的情况下的模型能按照第一神经网络的输出，保证模型的健壮性。

703、根据第二神经网络输出参考图像的掩蔽函数。

掩蔽函数指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音为噪声，频段能量不小于预设值表示参考图像对应的待增强语音为干净语音。第二神经网络是以理想二值掩蔽(ideal binary mask，IBM)为训练目标，对第一神经网络采用的语音的声源处对应的包括唇部特征的图像进行训练得到的神经网络。

从生理学的角度出发，可以认为不同人说出同样话语的音量，音色等是不同的，导致每一个音的发音时频谱有差异，但它们的能量分布是相同的。发音的能量分布可以作为原始音频对说话人和音量等因素做规范化后的结果，这也是从音频的共振峰可以推测音节的原因。因此我们对干净信号的能量分布做建模，用人嘴的图像拟合这种能量分布。事实上，人嘴图像直接拟合上述的能量分布是很困难的，人的发音不只是通过嘴型来确定，而是通过口腔内部共振腔的形状及舌部的位置等因素确定，但人嘴的图像并不能准确反映这些因素，导致同一段嘴型的视频可以对应不同的发音，即不能一一映射。因此我们设计了这种弱相关(weak reference)的方式，将原有的精细的分布通过二值化的方式转化成粗糙的分布，以便于图像端去拟合。而这种粗糙分布刻画的是嘴型是否会对应某一组频段的发音状况。本申请要通过第二神经网络建立图像的频段能量和语音的频段能量的映射关系，具体的要建立每个时刻的图像帧的每个频段的能量和每个时刻的声学特征帧的每个频段的能量之间的关联关系。

下面分别对第二神经网络的训练目标以及训练用到的数据进行说明。

第二神经网络的训练目标IBM为一种符号函数，下面通过如下表达式对其定义进行说明。

其中，dist函数为能量分布函数，其定义如下：

其中，j是指在j时刻，或者是第j帧的持续时长结束的时刻。每一帧可以包括多个频段，比如包括k个频段，k是指j时刻纯净语音的第k个频段，k为正整数。每个时刻包括多少个频段可以预先设定，比如可以设定一个时刻包括4个频段，或者一个时刻包括5个频段，本申请实施例对此并不做限定。P _s(a ^kj)是指干净信号在j时刻第k个频段的能量谱。因此dist(aj)表征的是在j时刻对应的k个频段上音频能量的分布。threshold为预先设定的阈值，在一个具体的实施方式中，threshold一般可取10 ^-5。如果dist(aj)和threshold的差值大于等于0，即dist(aj)大于threshold，则认为dist(aj)是语音主导或者无法判断dist(aj)是语音主导还是噪声主导，将其对应的函数值设定为1。如果dist(aj)和threshold的差值小于0，即dist(aj)小于threshold，则认为dist(aj)是噪音主导，将其对应的函数值设定为0。

第二神经网络的训练数据为第一神经网络采用的语音的声源处对应的包括唇部特征的图像。比如，上述在步骤702中提到，可以选取主流报刊媒体等500个语句，尽可能包含所有的发声，再选取100位不同的人进行朗读，作为干净语音信号(即模拟的含噪语音对应的干净语音)，则第二神经网络的训练数据可以包括该100位不同的人的人脸图像，或者包括该100位不同的人的人嘴图像，或者包括该100位不同的人的包括人脸的图像，比如上半身的图像。需要说明的是，第二神经网络的训练数据并不是只包括第一神经网络采用的语音的声源处对应的包括唇部特征的图像，第二神经网络的训练数据还可以包括一些不包含唇部特征的图像数据或者不包括人脸图像的数据。

下面结合以下公式进行具体的解释说明。

v代表训练数据，上面已经对训练数据进行了介绍，此处不再重复赘述。sigmoid定义为

sigmoid是一种激活函数，通过该激活函数表示图像的每个时刻每个频段的能量，通过神经网络使sigmoid的值逼近dist(aj)-threshold的取值，比如上述公式中用到的LSTM。f()代表特征提取函数。需要说明的是，这里的sigmoid只是为了举例说明，本申请实施方式中还可以采取其他的激活函数去逼近训练目标。

此外，在一个具体的实施方式中，可以使第二神经网络的处理的图像帧与第一神经网络的声学特征帧进行时间序列的对齐。通过时间序列的对齐，可以保证在后续流程中，同一时刻处理的第二神经网络输出的数据与第一神经网络输出的数据是对应的。举例说明，假设有一段视频，该段视频中包括1帧的图像帧和4帧的声学特征帧。这里的图像帧和声学帧的数目的倍数关系可以通过对该段视频按照预设的帧率进行重采样确定，比如按照图像帧的帧率为40帧/s对该段视频包括的图像数据进行重采样，按照声学特征帧的帧率为10帧/s对该段视频包括的音频数据进行重采样。在这段视频中，该1帧的图像帧与4帧的声学特征帧在时间上是对齐的。换句话说，该1帧的图像帧的持续时长与该4帧的声学特征帧的持续时长是对齐的。在本方案中，第一神经网络对该4帧的声学特征帧进行处理，第二神经网络对该1帧的图像帧进行处理，对第二神经网络的处理的图像帧与第一神经网络的声学特征帧进行时间序列的对齐，在这个例子中，是为了使第一神经网络和第二神经网络在处理过程中，以及处理完成后，该4帧声学特征帧与该1帧图像帧在时间上仍然是对齐的。不仅如此，通过本申请提供的方案，通过第二神经网络对该1帧图像帧进行时间对齐处理后，可以得到与该4帧声学特征帧分别对应的4帧图像帧，并输出该4帧图像帧对应的掩蔽函数。下面对本申请实施例给出的一种时间序列对齐的方式进行具体的介绍。

在一个具体的实施方式中，待增强语音包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，图像包括第一图像帧，第一图像帧为第二神经网络的输入数据，根据第二神经网络输出图像的掩蔽函数，包括：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定，以使第一时刻为第一声学特征帧对应的时刻。举例说明，上述公式中，m代表倍数，根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。比如第一声学特征帧的帧率为10帧/s，第一图像帧的帧率为40帧/s,则第一声学特征帧的帧率与第一图像帧的帧率的比值为1/4(10/40)，则上述公式中m取4。再比如第一声学特征帧的帧率为25帧/s，第一图像帧的帧率为50帧/s,则第一声学特征帧的帧率与第一图像帧的帧率的比值为1/2(25/50)，则上述公式中m取2。为了更清楚的解释时间队列对齐，下面以m取4，结合图12进行进一步的说明。图12所示，为本申请实施例提供的一种关于时间序列对齐的示意图。如图12所示，图中的白色方框代表第二神经网络的输入的图像帧，如图12所示，示出了4帧输入的图像帧。假设输入的1帧图像帧持续时间与4帧声学特征帧持续时长相同，即m取4时，经过第二神经网络的时间序列对齐的处理后，该输入的一帧图像帧对应4帧处理后的图像帧，该4帧处理后的图像帧的每一帧的持续时长与声学帧持续时长相同。如图12所示，黑色方框代表经过第二神经网络时间对齐处理后的图像帧，第二神经网络会输出对齐处理后的图像帧的掩蔽函数，如图12所示，共包括16个时间对齐处理后的图像帧，则会输出与该16个时间对齐处理后的图像帧对应的掩蔽函数。该16个图像帧分别与一个声学特征帧在时间上是对齐的，换句话说，白色方框代表的1个图像帧与4个声学特征帧在时间上是对齐的，黑色方框代表的1个图像帧与1个声学特征帧在时间上是对齐的。

第二神经网络训练完成后，在语音增强时，将参考图像输入到第二神经网络，得到该参考图像的掩蔽函数。在实际执行的过程中，可以对参考图像做一些预处理，将预处理后的参考图像输入到第二神经网络，比如还可以将参考图像采样到制定的图像帧率。还可以对参考图像进行人脸特征提取，以得到人脸图，人脸特征提取可以通过人脸特征提取算法进行。人脸特征提取算法包括基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法等。比如，可以是基于人脸特征点检测算法的人脸检测。人脸特征提取也可以通过神经网络进行。可以通过卷积神经网络模型进行人脸特征的提取，比如基于多任务卷积神经网络的人脸检测等。可以将经过人脸特征提取的人脸图作为第二神经网络的输入。第二神经网络还可以对人脸图进行进一步的处理，比如可以提取人嘴部的运动特征对应的图像帧，对这些人嘴部的运动特征对应的图像帧进行时间序列对齐的处理。

704、根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。

本实施例可以通过第一神经网络输出第一增强信号，通过第二神经网络输出参考图像的掩蔽函数。由于第二神经网络建立图像的频段能量和语音的频段能量的映射关系，掩蔽函数可以指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音为噪声，频段能量不小于预设值表示参考图像对应的待增强语音为干净语音。通过第一增强信号和掩蔽函数的运算结果确定的待增强语音的第二增强信号，相比于第一增强信号，即相比于只通过单一的神经网络进行语音增强的方案，可以获得更好的语音增强效果。举例说明，假设对于某一时刻的待增强音频包括的第一频段，第一神经网络输出该第一频段的信噪比为A，假设A代表第一神经网络确定该第一频段为语音主导，第二神经网络输出该第一频段的频段能量为B，B小于预设值，即假设B代表第二神经网络确定该第一频段为噪音主导，通过A和B进行数学运算，比如可以对A和B进行加和，乘积，或者平方中的一种或者几种运算，得到A和B之间的运算结果，通过该运算结果可以确定A和B在最后输出的第二增强信号中的占比。具体的，第一增强信号和掩蔽函数的运算的原理在于掩蔽函数的实际意义是衡量某一频段是否有足够的能量。当第一神经网络输出的第一增强信号与第二神经网络输出的掩蔽函数指示不一致性时，会反应为：

第二神经网络输出的值小而第一神经网络输出的值大，对应第一神经网络(音频端)认为某个频段(比如第一频段)有能量构成发音，而第二神经网络(视频端)认为人的口型并不能发出对应的声音；

第二神经网络输出的值大而第一神经网络输出的值小，对应第一神经网络(音频端)认为某个频段(比如第一频段)没有能量构成发音，而第二神经网络(视频端)认为人的口型正在发出某种可能的声音；

通过第一增强信号和掩蔽函数的运算的操作方式会将以上不一致的部分缩放到一个较小的值，而一致的部分则会保持不变，得到融合后的新输出第二增强信号，其中不发音或音视频不一致的的频段能量都会被压缩到一个较小的值。

由图7对应的实施例可知，利用第一神经网络输出待增强语音的第一增强信号，利用第二神经网络对图像信息和语音信息的关联关系进行建模，使第二神经网络输出的参考图像的掩蔽函数可以指示该参考图像对应的待增强语音为噪声或者语音。通过本申请提供的技术方案，可以将图像信息应用于语音增强的过程中，在一些相对嘈杂的环境中，也可以很好的提升语音增强的能力，提升听感。

上面图7对应的实施例中介绍了可以根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。下面给出一种优选的方案，通过第三神经网络确定待增强语音的第二增强信号，具体的，根据第三神经网络输出的权值确定第二增强信号。权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果。第三神经网络是以IRM为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

如图13所示，为本申请实施例提供的另一种语音增强方法的流程示意图。

如图13所示，本申请实施例提供的另一种语音增强方法可以包括如下步骤：

1301、获取待增强语音和参考图像。

步骤1301可以参照图7对应的实施例中的步骤701进行理解，此处不再重复赘述。

1302、根据第一神经网络输出待增强语音的第一增强信号。

步骤1302可以参照图7对应的实施例中的步骤702进行理解，此处不再重复赘述。

1303、根据第二神经网络输出参考图像的掩蔽函数。

步骤1303可以参照图7对应的实施例中的步骤703进行理解，此处不再重复赘述。

在一个具体的实施方式中，还可以包括：确定参考图像是否包括人脸信息。若确定参考图像包括人脸信息，则根据第二神经网络输出参考图像的掩蔽函数。

1304、根据第三神经网络输出的权值确定第二增强信号。

以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号。权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果。第三神经网络是以IRM为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

第三神经网络对第一神经网络的输出数据以及第二神经网络的输出数据进行训练，具体的，对第一神经网络在训练过程中输出的多组第一增强信号以及第二神经网络在训练过程中输出的多组掩蔽函数进行训练。由于在步骤1302中，第二神经网络对图像帧与第一神经网络的声学特征帧进行时间序列的对齐，所以第三神经网络在同一时刻接收到的第一神经网络的输出以及第二神经网络的输出是时间对齐后的数据。第三神经网络可以对第一增强信号以及掩蔽函数的运算结果进行训练，关于第一增强信号以及掩蔽函数之间的数学运算已经在上文进行了介绍，这里不再重复赘述。本申请并不限制第三神经网络的类型，示例性的，第三神经网络为LSTM，第一增强信号和掩蔽函数之间的数学运算为乘法运算时，第三神经网络对第一神经网络的输出数据以及第二神经网络的输出数据进行训练，以输出权值(gate)，可以通过如下公式表示：

gate＝LSTM(IBMI×IRM)

上文步骤701中提到了几种本方案可能适用的具体场景，其中参考图像可能包括人脸信息，具体的，是待增强语音的声源处的包括人脸信息的图像。在一些场景中，参考图像也可能与人脸信息无关，比如，参考图像可能与声源处对应的图像无关。本申请第二神经网络的训练数据中既包括了第一神经网络采用的语音的声源处对应的包括唇部特征的图像，还可以包括一些不包含唇部特征的图像数据或者不包括人脸图像的数据。所以在不同的场景中，是否要结合第二神经网络的输出对语音进行增强，以及如果要结合第二神经网络的输出对语音进行增强，第二神经网络的输出以及第一神经网络的输出在最终输出的第二增强信号中的占比是多少，这些问题通过第三神经网络输出的权值确定。示例性性，以第一增强信号和掩蔽函数之间的数学运算为乘法运算为例，第二增强信号可以通过下面的公式表示，其中IRM’代表第二增强信号：

IRM′＝gate×(IBM×IRM)+(1-gate)×IRM

由于第二神经网络的输出并不是完全准确的，可能导致错误的将一部分的第一增强信号缩放，因此我们添加了第三神经网络网络，通过权值，保留确信的部分，而不确信的部分由第一增强信号填补。这种设计方案也确保了当检测不到视觉模态(即检测不到参考图像中包括人脸信号或者唇部信息)的情况下，可以通过将权值置为0，使得IRM’＝IRM，即第二增强信号即为第一增强信号，保证了本申请提供的方案可以在不同情况下都有良好的语音增强的性能。

在一个具体的实施方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。下面结合图14对这一过程举例说明。如图14所示，为本申请实施例提供的另一种语音增强方法的流程示意图。如图14所示，给出了一段待增强语音的频率的分布曲线，如图14所示，第一时刻的待增强语音包括一帧声学特征帧，该一帧声学特征帧包括4个频段，需要说明的是，第一时刻可以是待增强语音对应的任意一个时刻，第一时刻包括4个频段仅仅是为了举例说明，每个时刻包括多少个频段可以预先设定，比如可以设定一个时刻包括4个频段，或者一个时刻包括5个频段，本申请实施例对此并不做限定。假设该4个频段对应的信噪比分别为0.8，0.5，0.1以及0.6。第二神经网络在第一时刻会输出参考图像对应的4个频段的掩蔽函数，这是因为第二神经网络对图像帧与第一神经网络的声学特征帧进行时间序列的对齐，这里不再重复赘述。假设该4个频段对应的掩蔽函数分别为1，1，0以及1。则修正信号包括4个频段，每个频段的能量分别为0.8(1x0.8),0.5(1x0.5),0(0x0.1),0.6(1x0.6)。

通过本申请提供的这种实施方式，使本申请提供的方案可以支持流式解码，理论上界为单位声学特征帧的持续时间。以单位声学特征帧的持续时长为10ms为例，则通过本申请提供的方案，输出的第二增强语音的时延的理论上界为10ms。因为第二神经网络是按照声学特征帧对应的时刻输出掩蔽函数(具体的可以参照上面关于时间序列对齐的描述进行理解，这里不再重复赘述)，所以第三神经网络接收到一帧声学特征帧对应的第一增强信号，就可以对该第一增强信号，以及同一时刻对应的掩蔽函数进行处理，输出该时刻的第二增强信号。由于可以逐帧对待增强语音进行处理，所以可以逐帧播放第二增强信号。换句话说，由于可以以声学特征帧为单位，一帧一帧对待增强语音进行处理，相应的第二神经网络也是按照声学特征帧对应的时刻输出掩蔽函数，所以第三神经网络可以以声学特征帧为单位输出第二增强信号，所以本申请提供的方案，理论时延上界为单位声学特征帧的持续时长。

为了更好的理解本申请提供的方案，下面结合图15进行描述。

图15为本申请实施例提供的另一种语音增强方法的流程示意图。假设有一段视频，该段视频包括待增强语音以及参考图像。对该待增强语音进行特征变换得到该待增强语音对应的频域特征后，将该频域特征输入到第一神经网络。如图15所示，假设该段待增强语音被采样为3段音频，每一段音频经过特征变换后，包括4帧声学特征帧，即图15中的第一神经网络的输入。假设按照预设的图像帧的帧率与声学特征帧的帧率的比值对参考图像进行重采样，确定每4帧声学特征帧对应1帧图像帧。第二神经网络对该1帧图像帧进行时间对齐处理后，可以输出与该4帧声学特征帧对应的4帧图像帧，即图15中的第二神经网络的输出。可以依次将第一神经网络输出的该4帧声学特征帧对应的第一增强信号，以及第二神经网络输出的4帧图像帧对应的掩蔽函数输入至第三神经网络，第三神经网络会输出该4帧声学特征帧对应的第二增强信号，即图15中的第三神经网络的输出。再对该第二增强信号进行特征反变换，即可得到该待增强语音的时域增强信号。

第三神经网络训练好后，在语音增强时，可以以所述第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号。

在一个具体的实施方式中，第三神经网络训练后，在语音增强时，还可以包括对第三神经网络输出的结果进行特征反变换，以得到时域信号。比如待增强语音通过短时傅里叶变换后得到的频域特征为第一神经网络的输入，则可以对第三神经网络出书的第二增强信号进行逆短时傅里叶变换(inverse short-time-fourier-transform，ISTFT)，以得到时域信号。

由图7和图15对应的实施例可知，第二神经网络的训练数据中还可以包括一些不包含唇部特征的图像数据或者不包括人脸图像的数据。需要说明的是，在一些具体的实施方式中，第二神经网络的训练数据中也可以只包括包含唇部特征的图像数据或者包括人脸图像的数据。在一些具体的实施方式中，可以先判断参考图像中是否包括人脸信息或者唇部信息，如果参考图像中不包括人脸信息或者唇部信息，则只根据第一神经网络输出待增强语音的增强信号，参考图像中包括人脸信息或者唇部信息时，则根据第一神经网络、第二神经网络以及第三神经网络输出待增强语音的增强信号。下面结合图16进行说明，图16为本申请实施例提供的另一种语音增强方法的流程示意图。系统先判断参考图像中是否包括人脸信息或者唇部信息，如果没有包括人脸信息或者唇部信息则根据第一神经网络输出的第一增强信号确定待增强语音的增强信号，即第二增强信号即为第一增强信号。如果系统判断参考图像中包括人脸信息或者唇部信息，则根据第二神经网络输出的掩码函数以及第一神经网络输出的第一增强信号，通过第三神经网络确定第二增强信号，具体如何根据第三神经网络确定第二增强信号，上文已经进行了详细的描述，这里不再重复赘述。

本申请实施例提供的语音增强方法的流程包括“应用”流程和“训练”流程两部分。以上对本申请提供的应用流程进行了介绍，具体的对一种语音增强方法进行了介绍，下面对本申请提供的训练流程进行介绍，具体的介绍一种训练神经网络的方法。

本申请提供一种训练神经网络的方法，该神经网络用于语音增强，该方法可以包括：获取训练数据，训练数据可以包括语音和噪声的混合数据以及语音的声源处对应的可以包括唇部特征的图像。以理想浮值掩蔽IRM为训练目标，对混合数据进行训练得到第一神经网络，训练好的第一神经网络用于输出待增强语音的第一增强信号。以理想二值掩蔽IBM为训练目标，对图像进行训练得到第二神经网络，训练好的第二神经网络用于输出参考图像的掩蔽函数，掩蔽函数指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音频段为噪声，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号。

在一个具体的实施方式中，参考图像为待增强语音的声源处对应的可以包括唇部特征的图像。

在一个具体的实施方式中，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号，可以包括：以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

在一个具体的实施方式中，方法还可以包括：确定图像是否可以包括人脸信息或者唇部信息。图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

在一个具体的实施方式中，修正信号是第一增强信号和掩蔽函数的乘积运算结果。

在一个具体的实施方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号可以包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

在一个具体的实施方式中，待增强语音可以包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，图像可以包括第一图像帧，第一图像帧为第二神经网络的输入数据，根据第二神经网络输出图像的掩蔽函数，可以包括：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

在一个具体的实施方式中，该方法还可以包括：对待增强语音进行特征变换，以得到待增强语音的频域特征。该方法还可以包括：对第二增强信号进行特征反变换，以得到增强语音。

在一个具体的实施方式中，对待增强语音进行特征变换，可以包括：对待增强语音进行短时傅里叶变换STFT。对第二增强信号进行特征反变换，可以包括：对第二增强信号进行逆短时傅里叶变换ISTFT。

在一个具体的实施方式中，该方法还可以包括：对图像进行采样，使图像可以包括的图像帧的帧率为预设的帧率。

在一个具体的实施方式中，唇部特征通过对人脸图进行特征抽取获得，人脸图为对图像进行人脸检测获得。

在一个具体的实施方式中，图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

在一个具体的实施方式中，待增强语音通过单个音频通道获取。

在一个具体的实施方式中，第一mask是理想浮值掩蔽IRM，第二mask是理想二值掩蔽IBM。

实验数据集采用Grid数据集作为纯净语音语料，32组说话人每人1000条，共32000条语料被分为训练集27000条(30组说话人，每组900条)，Seentest测试集3000条(30组说话人，每组100条)和Unseentest测试集2000条(2组说话人，每组1000条)。CHiME background数据集按8:2分为训练噪声集和普通环境测试噪声集，Audioset Human noise作为人声环境测试集。主要对比的基线是声学模型(AO)，Visual Speech Enhancement(VSE)模型和Looking to Listen(L2L)模型。实验主要由PESQ评分作为评估方式。通过实验数据证实，本申请提供的方案能够利用视觉信息对语音增强任务在-5到20dB上有全面提升。

上文结合附图对本申请实施例的语音增强方法和神经网络训练方法进行了详细的描述，下面对本申请实施例的相关装置进行详细的介绍。应理解，相关装置能够执行本申请实施例的语音增强方法以及神经网络训练的各个步骤，下面在介绍相关装置时适当省略重复的描述。

在一个具体的实施方式中，该一种语音增强装置，包括：获取模块1701，用于获取待增强语音和参考图像，所述待增强语音和所述参考图像为同时获取的数据。音频处理模块1702，用于根据第一神经网络输出待增强语音的第一增强信号，第一神经网络是以第一掩码mask为训练目标，对语音和噪声的混合数据进行训练得到的神经网络。图像处理模块1703，用于根据第二神经网络输出参考图像的掩蔽函数，掩蔽函数指示参考图像对应的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声，第二神经网络是以第二掩码mask为训练目标，对第一神经网络采用的语音的声源处对应的包括唇部特征的图像进行训练得到的神经网络。综合处理模块1704，用于根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。

在一个具体的实施方式中，参考图像为待增强语音的声源处对应的包括唇部特征的图像。

在一个具体的实施方式中，综合处理模块1704，具体用于：以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

在一个具体的实施方式中，装置还包括：特征提取模块，特征提取模块，用于确定参考图像是否包括人脸信息或者唇部信息。参考图像不包括人脸信息或者唇部信息时，权值指示第二增强信号中修正信号的输出比例为0，第一增强信号的输出比例为百分之百。

在一个具体的实施方式中，修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，M为正整数，第一时刻第一神经网络输出的第一增强信号包括M个频段，M个频段中的每一个频段对应一个信噪比，第一时刻的掩蔽函数为第二神经网络在第一时刻输出的掩蔽函数。

在一个具体的实施方式中，待增强语音包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，参考图像包括第一图像帧，第一图像帧为第二神经网络的输入数据，图像处理模块1703，具体用于：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

在一个具体的实施方式中，特征提取模块，还用于对参考图像进行采样，使参考图像可以包括的图像帧的帧率为预设的帧率。

在一个具体的实施方式中，唇部特征通过对人脸图进行特征抽取获得，人脸图为对参考图像进行人脸检测获得。

在一个具体的实施方式中，参考图像的频段能量由激活函数表示，使激活函数的取值逼近IBM，以得到第二神经网络。

图18为本申请实施例提供的一种训练神经网络的装置的结构示意图。

本申请提供一种训练神经网络的装置，神经网络用于语音增强，装置包括：获取模块1801，用于获取训练数据，训练数据包括语音和噪声的混合数据以及语音的声源处对应的包括唇部特征的图像。音频处理模块1802，用于以理想浮值掩蔽IRM为训练目标，对混合数据进行训练得到第一神经网络，训练好的第一神经网络用于输出待增强语音的第一增强信号。图像处理模块1803，用于以理想二值掩蔽IBM为训练目标，对图像进行训练得到第二神经网络，训练好的第二神经网络用于输出参考图像的掩蔽函数，掩蔽函数指示参考图像的频段能量是否小于预设值，频段能量小于预设值表示参考图像对应的待增强语音频段为噪声，第一增强信号和掩蔽函数的运算结果用于确定待增强语音的第二增强信号。

在一个具体的实施方式中，还包括：综合处理模块1804，综合处理模块1804，用于以第一增强信号以及掩蔽函数作为第三神经网络的输入数据，根据第三神经网络输出的权值确定第二增强信号，权值指示第二增强信号中第一增强信号和修正信号的输出比例，修正信号是掩蔽函数和第一增强信号的运算结果，第三神经网络是以第一mask为训练目标，对第一神经网络的输出数据以及第二神经网络的输出数据进行训练得到的神经网络。

在一个具体的实施方式中，装置还包括：特征特征提取模块，

在一个具体的实施方式中，待增强语音包括第一声学特征帧，第一声学特征帧对应的时刻由第一时间索引指示，图像包括第一图像帧，第一图像帧为第二神经网络的输入数据，图像处理模块1803，具体用于：根据第二神经网络输出第一图像帧在第一时刻对应的掩蔽函数，第一时刻由第一时间索引的倍数指示，倍数根据第一声学特征帧的帧率与第一图像帧的帧率的比值确定。

图19为本申请实施例提供的另一种语音增强装置的结构示意图

图19是本申请实施例的语音增强装置的示意性框图。图19所示的语音增强装置模块包括存储器1901、处理器1902、通信接口1903以及总线1904。其中，存储器1901、处理器1902、通信接口1903通过总线1904实现彼此之间的通信连接。

上述通信接口1903相当于语音增强装置中的图像获取模块901，上述处理器1902相当于语音增强装置中的特征提取模块902和检测模块903。下面对语音增强装置模块中的各个模块和模块进行详细的介绍。

存储器1901可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1901可以存储程序，当存储器1901中存储的程序被处理器1902执行时，处理器1902和通信接口1903用于执行本申请实施例的语音增强方法的各个步骤。具体地，通信接口1903可以从存储器或者其他设备中获取待检测图像，然后由处理器1902对该待检测图像进行语音增强。

处理器1902可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音增强装置中的模块所需执行的功能(例如，处理器1902可以实现上述语音增强装置中的特征提取模块902和检测模块903所需执行的功能)，或者执行本申请实施例的语音增强方法。

处理器1902还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的语音增强方法的各个步骤可以通过处理器1902中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1902还可以是通用处理器、数字信号处理器(digital signalprocessing， DSP)、ASIC、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1901，处理器1902读取存储器1901中的信息，结合其硬件完成本申请实施例的语音增强装置中包括的模块所需执行的功能，或者执行本申请方法实施例的语音增强方法。

通信接口1903使用例如但不限于收发器一类的收发装置，来实现装置模块与其他设备或通信网络之间的通信。例如，可以通过通信接口1903获取待处理图像。

总线1904可包括在装置模块各个部件(例如，存储器1901、处理器1902、通信接口1903)之间传送信息的通路。

图20是本申请实施例的训练神经网络装置的硬件结构示意图。与上述装置类似，图20所示的训练神经网络装置包括存储器2001、处理器2002、通信接口2003以及总线2004。其中，存储器2001、处理器2002、通信接口2003通过总线2004实现彼此之间的通信连接。

存储器2001可以存储程序，当存储器2001中存储的程序被处理器2002执行时，处理器2002用于执行本申请实施例的神经网络的训练方法的各个步骤。

处理器2002可以采用通用的CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的神经网络的训练方法。

处理器2002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的神经网络的训练方法的各个步骤可以通过处理器2002中的硬件的集成逻辑电路或者软件形式的指令完成。

应理解，通过图20所示的训练神经网络装置对神经网络进行训练，训练得到的神经网络就可以用于执行本申请实施例的方法。

具体地，图20所示的装置可以通过通信接口2003从外界获取训练数据以及待训练的神经网络，然后由处理器根据训练数据对待训练的神经网络进行训练。

应注意，尽管上述装置模块和装置仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置模块和装置还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置模块和装置还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置模块和装置也可仅仅包括实现本申请实施例所必须的器件，而不必包括图19和图20中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音增强方法，其特征在于，包括：

获取待增强语音和参考图像，所述待增强语音和所述参考图像为同时获取的数据；

根据第一神经网络输出所述待增强语音的第一增强信号，所述第一神经网络是以第一掩码mask为训练目标，对语音和噪声的混合数据进行训练得到的神经网络；

根据第二神经网络输出所述参考图像的掩蔽函数，所述掩蔽函数指示所述参考图像对应的频段能量是否小于预设值，所述频段能量小于所述预设值表示所述参考图像对应的所述待增强语音的频段为噪声，所述第二神经网络是以第二掩码mask为训练目标，对所述第一神经网络采用的所述语音的声源处对应的包括唇部特征的图像进行训练得到的神经网络；

根据所述第一增强信号和所述掩蔽函数的运算结果确定所述待增强语音的第二增强信号。
根据权利要求1所述的语音增强方法，其特征在于，所述参考图像为所述待增强语音的声源处对应的包括唇部特征的图像。
根据权利要求1或2所述的语音增强方法，其特征在于，所述根据所述第一增强信号和所述掩蔽函数的运算结果确定所述待增强语音的第二增强信号，包括：

以所述第一增强信号以及所述掩蔽函数作为第三神经网络的输入数据，根据所述第三神经网络输出的权值确定所述第二增强信号，所述权值指示所述第二增强信号中所述第一增强信号和修正信号的输出比例，所述修正信号是所述掩蔽函数和所述第一增强信号的运算结果，所述第三神经网络是以所述第一mask为训练目标，对所述第一神经网络的输出数据以及所述第二神经网络的输出数据进行训练得到的神经网络。
根据权利要求3所述的语音增强方法，其特征在于，所述方法还包括：

确定所述参考图像是否包括人脸信息或者唇部信息；

所述参考图像不包括所述人脸信息或者唇部信息时，所述权值指示所述第二增强信号中所述修正信号的输出比例为0，所述第一增强信号的输出比例为百分之百。
根据权利要求3或4所述的语音增强方法，其特征在于，所述修正信号是所述第一增强信号和所述掩蔽函数的乘积运算结果。
根据权利要求5所述的语音增强方法，其特征在于，所述修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，所述M为正整数，所述第一时刻所述第一神经网络输出的所述第一增强信号包括M个频段，所述M个频段中的每一个频段对应一个信噪比，所述第一时刻的掩蔽函数为所述第二神经网络在所述第一时刻输出的所述掩蔽函数。
根据权利要求1至6任一项所述的语音增强方法，其特征在于，所述待增强语音包括第一声学特征帧，所述第一声学特征帧对应的时刻由第一时间索引指示，所述参考图像包括第一图像帧，所述第一图像帧为所述第二神经网络的输入数据，所述根据第二神经网络输出所述参考图像的掩蔽函数，包括：

根据所述第二神经网络输出所述第一图像帧在第一时刻对应的掩蔽函数，所述第一时刻由所述第一时间索引的倍数指示，所述倍数根据所述第一声学特征帧的帧率与所述第一图像帧的帧率的比值确定。
根据权利要求1至7任一项所述的语音增强方法，其特征在于，所述方法还包括：

对所述待增强语音进行特征变换，以得到所述待增强语音的频域特征；

所述方法还包括：

对所述第二增强信号进行特征反变换，以得到增强语音。
根据权利要求8所述的语音增强方法，其特征在于，

所述对所述待增强语音进行特征变换，包括：

对所述待增强语音进行短时傅里叶变换STFT；

所述对所述第二增强信号进行特征反变换，包括：

对所述第二增强信号进行逆短时傅里叶变换ISTFT。
根据权利要求1至9任一项所述的语音增强方法，其特征在于，所述方法还包括：

对所述参考图像进行采样，使所述参考图像包括的图像帧的帧率为预设的帧率。
根据权利要求1至10任一项所述的语音增强方法，其特征在于，所述唇部特征通过对人脸图进行特征抽取获得，所述人脸图为对所述参考图像进行人脸检测获得。
根据权利要求1至11任一项所述的语音增强方法，其特征在于，所述参考图像的频段能量由激活函数表示，使所述激活函数的取值逼近所述IBM，以得到所述第二神经网络。
根据权利要求1至12任一项所述的语音增强方法，其特征在于，所述待增强语音通过单个音频通道获取。
根据权利要求1至13任一项所述的语音增强方法，其特征在于，所述第一mask是理想浮值掩蔽IRM，所述第二mask是理想二值掩蔽IBM。
一种训练神经网络的方法，其特征在于，所述神经网络用于语音增强，所述方法包括：

获取训练数据，所述训练数据包括语音和噪声的混合数据以及所述语音的声源处对应的包括唇部特征的图像；

以理想浮值掩蔽IRM为训练目标，对所述混合数据进行训练得到第一神经网络，训练好的所述第一神经网络用于输出待增强语音的第一增强信号；

以理想二值掩蔽IBM为训练目标，对所述图像进行训练得到第二神经网络，训练好的所述第二神经网络用于输出参考图像的掩蔽函数，所述掩蔽函数指示所述参考图像的频段能量是否小于预设值，所述频段能量小于所述预设值表示所述参考图像对应的所述待增强语音频段为噪声，所述第一增强信号和所述掩蔽函数的运算结果用于确定所述待增强语音的第二增强信号。
根据权利要求15所述的训练神经网络的方法，其特征在于，所述参考图像为所述待增强语音的声源处对应的包括唇部特征的图像。
根据权利要求15或16所述的训练神经网络的方法，其特征在于，所述第一增强信号和所述掩蔽函数的运算结果用于确定所述待增强语音的第二增强信号，包括：

以所述第一增强信号以及所述掩蔽函数作为第三神经网络的输入数据，根据所述第三神经网络输出的权值确定所述第二增强信号，所述权值指示所述第二增强信号中所述第一增强信号和修正信号的输出比例，所述修正信号是所述掩蔽函数和所述第一增强信号的运算结果，所述第三神经网络是以所述第一mask为训练目标，对所述第一神经网络的输出数据以及所述第二神经网络的输出数据进行训练得到的神经网络。
根据权利要求17所述的训练神经网络的方法，其特征在于，所述方法还包括：

确定所述图像是否包括人脸信息或者唇部信息；

所述图像不包括所述人脸信息或者唇部信息时，所述权值指示所述第二增强信号中所述修正信号的输出比例为0，所述第一增强信号的输出比例为百分之百。
根据权利要求17或18所述的训练神经网络的方法，其特征在于，所述修正信号是所述第一增强信号和所述掩蔽函数的乘积运算结果。
根据权利要求19所述的训练神经网络的方法，其特征在于，所述修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，所述M为正整数，所述第一时刻所述第一神经网络输出的所述第一增强信号包括M个频段，所述M个频段中的每一个频段对应一个信噪比，所述第一时刻的掩蔽函数为所述第二神经网络在所述第一时刻输出的所述掩蔽函数。
根据权利要求15至20任一项所述的训练神经网络的方法，其特征在于，所述待增强语音包括第一声学特征帧，所述第一声学特征帧对应的时刻由第一时间索引指示，所述图像包括第一图像帧，所述第一图像帧为所述第二神经网络的输入数据，所述根据第二神经网络输出所述图像的掩蔽函数，包括：

根据所述第二神经网络输出所述第一图像帧在第一时刻对应的掩蔽函数，所述第一时刻由所述第一时间索引的倍数指示，所述倍数根据所述第一声学特征帧的帧率与所述第一图像帧的帧率的比值确定。
根据权利要求15至21任一项所述的训练神经网络的方法，其特征在于，所述方法还包括：

对所述待增强语音进行特征变换，以得到所述待增强语音的频域特征；

所述方法还包括：

对所述第二增强信号进行特征反变换，以得到增强语音。
根据权利要求22所述的训练神经网络的方法，其特征在于，

所述对所述待增强语音进行特征变换，包括：

对所述待增强语音进行短时傅里叶变换STFT；

所述对所述第二增强信号进行特征反变换，包括：

对所述第二增强信号进行逆短时傅里叶变换ISTFT。
根据权利要求15至23任一项所述的训练神经网络的方法，其特征在于，所述方法还包括：

对所述图像进行采样，使所述图像包括的图像帧的帧率为预设的帧率。
根据权利要求15至24任一项所述的训练神经网络的方法，其特征在于，所述唇部特征通过对人脸图进行特征抽取获得，所述人脸图为对所述图像进行人脸检测获得。
根据权利要求15至25任一项所述的训练神经网络的方法，其特征在于，所述图像的频段能量由激活函数表示，使所述激活函数的取值逼近所述IBM，以得到所述第二神经网络。
根据权利要求15至26任一项所述的训练神经网络的方法，其特征在于，所述待增强语音通过单个音频通道获取。
根据权利要求15至27任一项所述的训练神经网络的方法，其特征在于，所述第一mask是理想浮值掩蔽IRM，所述第二mask是理想二值掩蔽IBM。
一种语音增强装置，其特征在于，包括：

获取模块，用于获取待增强语音和参考图像，所述待增强语音和所述参考图像为同时获取的数据；

音频处理模块，用于根据第一神经网络输出所述待增强语音的第一增强信号，所述第一神经网络是以第一掩码mask为训练目标，对语音和噪声的混合数据进行训练得到的神经网络；

图像处理模块，用于根据第二神经网络输出所述参考图像的掩蔽函数，所述掩蔽函数指示所述参考图像对应的频段能量是否小于预设值，所述频段能量小于所述预设值表示所述参考图像对应的所述待增强语音的频段为噪声，所述第二神经网络是以第二掩码mask为训练目标，对所述第一神经网络采用的所述语音的声源处对应的包括唇部特征的图像进行训练得到的神经网络；

综合处理模块，用于根据所述第一增强信号和所述掩蔽函数的运算结果确定所述待增强语音的第二增强信号。
根据权利要求29所述的语音增强装置，其特征在于，所述参考图像为所述待增强语音的声源处对应的包括唇部特征的图像。
根据权利要求29或30所述的语音增强装置，其特征在于，所述综合处理模块，具体用于：

以所述第一增强信号以及所述掩蔽函数作为第三神经网络的输入数据，根据所述第三神经网络输出的权值确定所述第二增强信号，所述权值指示所述第二增强信号中所述第一增强信号和修正信号的输出比例，所述修正信号是所述掩蔽函数和所述第一增强信号的运算结果，所述第三神经网络是以所述第一mask为训练目标，对所述第一神经网络的输出数据以及所述第二神经网络的输出数据进行训练得到的神经网络。
根据权利要求31所述的语音增强装置，其特征在于，所述装置还包括：特征提取模块，

所述特征提取模块，用于确定所述参考图像是否包括人脸信息或者唇部信息；所述参考图像不包括所述人脸信息或者唇部信息时，所述权值指示所述第二增强信号中所述修正信号的输出比例为0，所述第一增强信号的输出比例为百分之百。
根据权利要求31或32所述的语音增强装置，其特征在于，所述修正信号是所述第一增强信号和所述掩蔽函数的乘积运算结果。
根据权利要求33所述的语音增强装置，其特征在于，所述修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，所述M为正整数，所述第一时刻所述第一神经网络输出的所述第一增强信号包括M个频段，所述M个频段中的每一个频段对应一个信噪比，所述第一时刻的掩蔽函数为所述第二神经网络在所述第一时刻输出的所述掩蔽函数。
根据权利要求29至34任一项所述的语音增强装置，其特征在于，所述待增强语音包括第一声学特征帧，所述第一声学特征帧对应的时刻由第一时间索引指示，所述参考图像包括第一图像帧，所述第一图像帧为所述第二神经网络的输入数据，所述图像处理模块，具体用于：

根据所述第二神经网络输出所述第一图像帧在第一时刻对应的掩蔽函数，所述第一时刻由所述第一时间索引的倍数指示，所述倍数根据所述第一声学特征帧的帧率与所述第一图像帧的帧率的比值确定。
一种训练神经网络的装置，其特征在于，所述神经网络用于语音增强，所述装置包括：

获取模块，用于获取训练数据，所述训练数据包括语音和噪声的混合数据以及所述语音的声源处对应的包括唇部特征的图像；

音频处理模块，用于以理想浮值掩蔽IRM为训练目标，对所述混合数据进行训练得到第一神经网络，训练好的所述第一神经网络用于输出待增强语音的第一增强信号；

图像处理模块，用于以理想二值掩蔽IBM为训练目标，对所述图像进行训练得到第二神经网络，训练好的所述第二神经网络用于输出参考图像的掩蔽函数，所述掩蔽函数指示所述参考图像的频段能量是否小于预设值，所述频段能量小于所述预设值表示所述参考图像对应的所述待增强语音频段为噪声，所述第一增强信号和所述掩蔽函数的运算结果用于确定所述待增强语音的第二增强信号。
根据权利要求36所述的训练神经网络的装置，其特征在于，所述参考图像为所述待增强语音的声源处对应的包括唇部特征的图像。
根据权利要求36或37所述的训练神经网络的装置，其特征在于，还包括：综合处理模块,

所述综合处理模块，用于以所述第一增强信号以及所述掩蔽函数作为第三神经网络的输入数据，根据所述第三神经网络输出的权值确定所述第二增强信号，所述权值指示所述第二增强信号中所述第一增强信号和修正信号的输出比例，所述修正信号是所述掩蔽函数和所述第一增强信号的运算结果，所述第三神经网络是以所述第一mask为训练目标，对所述第一神经网络的输出数据以及所述第二神经网络的输出数据进行训练得到的神经网络。
根据权利要求38所述的训练神经网络的装置，其特征在于，所述装置还包括：特征特征提取模块，

所述特征特征提取模块，用于确定所述图像是否包括人脸信息或者唇部信息；

所述图像不包括所述人脸信息或者唇部信息时，所述权值指示所述第二增强信号中所述修正信号的输出比例为0，所述第一增强信号的输出比例为百分之百。
根据权利要求38或39所述的训练神经网络的装置，其特征在于，所述修正信号是所述第一增强信号和所述掩蔽函数的乘积运算结果。
根据权利要求40所述的训练神经网络的装置，其特征在于，所述修正信号根据M个信噪比和第一时刻的掩蔽函数的乘积运算结果确定，所述M为正整数，所述第一时刻所述第一神经网络输出的所述第一增强信号包括M个频段，所述M个频段中的每一个频段对应一个信噪比，所述第一时刻的掩蔽函数为所述第二神经网络在所述第一时刻输出的所述掩蔽函数。
根据权利要求36至41任一项所述的训练神经网络的装置，其特征在于，所述待增强语音包括第一声学特征帧，所述第一声学特征帧对应的时刻由第一时间索引指示，所述图像包括第一图像帧，所述第一图像帧为所述第二神经网络的输入数据，所述图像处理模块，具体用于：

根据所述第二神经网络输出所述第一图像帧在第一时刻对应的掩蔽函数，所述第一时刻由所述第一时间索引的倍数指示，所述倍数根据所述第一声学特征帧的帧率与所述第一图像帧的帧率的比值确定。
一种语音增强装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-14中任一项所述的方法。
一种训练神经网络的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求15-28中任一项所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码包括用于执行如权利要求1-14中任一项所述的方法中的步骤的指令。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码包括用于执行如权利要求15-28中任一项所述的方法中的步骤的指令。