WO2021169023A1

WO2021169023A1 - 语音识别方法、装置、设备及存储介质

Info

Publication number: WO2021169023A1
Application number: PCT/CN2020/087115
Authority: WO
Inventors: 吴华鑫; 景子君; 刘迪源; 胡金水; 潘嘉
Original assignee: 科大讯飞股份有限公司
Priority date: 2020-02-28
Filing date: 2020-04-27
Publication date: 2021-09-02
Also published as: CN111312217A

Abstract

一种语音识别方法、装置、设备及存储介质，在获取语音信号和与语音信号同步采集的图像序列（S11）后，以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的信息，作为融合信息（S12）；利用融合信息进行语音识别，得到语音信号的语音识别结果（S13）。该语音识别方案，在获取语音信号和图像序列的融合特征时，是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的，即所获得到的融合信息趋近于无噪声语音信号的语音信息，降低了语音信号中的噪声对语音识别的干扰，从而提高语音识别率。

Description

语音识别方法、装置、设备及存储介质

本申请要求于2020年02月28日提交中国专利局、申请号为202010129952.9、发明创造名称为“语音识别方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种语音识别方法、装置、设备及存储介质。

背景技术

传统的语音识别技术是单语音识别，即通过仅对语音信号进行处理得到识别结果，这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而，在一些高噪声，远场的环境下，传统的语音识别技术的识别率会迅速下降。为了提高语音识别率，有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法，在一定程度上提高了高噪声场景下语音的识别率。

然而，现有的多模态语音识别方法是利用唇部动作视频进行唇语识别，然后根据唇语识别结果和单语音识别结果准确度确定最终的语音识别结果，其语音识别效果仍然较低。

因此，如何提高多模态语音识别方法的识别率成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种语音识别方法、装置、设备及存储介质，以提高多模态语音识别方法的识别率。

为了实现上述目的，现提出的方案如下：

一种语音识别方法，包括：

获取语音信号和与所述语音信号同步采集的图像序列；所述图像序列中的图像为唇动相关区域的图像；

以趋近于对所述语音信号去除噪声后的语音信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。

一种语音识别装置，包括：

获取模块，用于获取语音信号和与所述语音信号同步采集的图像序列；所述图像序列中的图像为唇动相关区域的图像；

特征提取模块，用于以趋近于对所述语音信号去除噪声后的语音信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

识别模块，用于利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。

一种语音识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的语音识别方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音识别方法、装置、设备及存储介质，在获取语音信号和与语音信号同步采集的图像序列后，以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的信息，作为融合信息；利用融合信息进行语音识别，得到语音信号的语音识别结果。本申请实施例提供的语音识别方案，在获取语音信号和图像序列的融合特征时，是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的，即所获得到的融合信息趋近于无噪声语音信号的语音信息，降低了语音信号中的噪声对语音识别的干扰，从而提高语音识别率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的语音识别方法的一种实现流程图；

图2为本申请实施例公开的多模态语音识别模型的一种结构示意图；

图3为本申请实施例公开的融合特征获取模块的一种结构示意图；

图4a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图；

图4b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图；

图5a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图；

图5b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图；

图6a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图；

图6b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图；

图7a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图；

图7b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图；

图8a为本申请实施例公开的对多模态语音识别模型进行训练的另一种架构示意图；

图8b为本申请实施例公开的对多模态语音识别模型进行训练的另一种实现流程图；

图9a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图；

图9b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图；

图10a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图；

图10b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图；

图11a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图；

图11b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图；

图12a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图；

图12b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图；

图13a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图；

图13b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图；

图14为本申请实施例公开的语音识别装置的一种结构示意图；

图15为本申请实施例公开的语音识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人研究发现，目前的借助唇部动作视频协助进行语音识别的多模态语音识别方法，是利用唇语识别结果的准确度和单语音识别结果的准确度对比，将准确度高的结果作为最终的语音识别结果，从而在一定程度上提高语音识别率。但是，该多模特语音识别方法的实质是唇语识别结果对语音识别结果的修正能力，其并没有发掘视频信号对高噪声语音信号的修正能力，因而难以获得高质量的识别效果。

为了提高高噪声场景下的语音识别效果，本申请的基本思想是，把降噪的思想显式的加入到多模态语音识别任务中，从而能更好的提取视频信息对语音信息的修正作用，达到更好的识别效果。

基于上述基本思想，本申请实施例提供的语音识别方法的一种实现流程图如图1所示，可以包括：

步骤S11：获取语音信号和与语音信号同步采集的图像序列；该图像序列中的图像为唇动相关区域的图像。

本申请实施例中，在采集讲话者的语音信号的同时，还采集该讲话者的脸部视频。上述图像序列即为对讲话者的脸部视频中的各帧图像裁剪唇动相关区域得到的图像序列。比如，可以在脸部视频的各帧图像中，以嘴部中心点为中心，取固定大小(比如，80×80)的区域作为目标图像序列。

其中，唇动相关区域可以是指仅唇部区域；或者，

唇动相关区域可以是唇部及其周围区域，比如，唇部和下巴区域；或者，

唇动相关区域可以是整个脸部区域。

步骤S12：以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的信息，作为融合信息。

对语音信号去除噪声后的语音信息可以是指：从对语音信号进行去噪处理得到的降噪语音信号中提取的信息。

本申请实施例中，通过融合语音信号和图像序列，得到趋近于降噪语音信号中的语音信息的融合信息，相当于对语音信号进行了降噪处理。

步骤S13：利用融合信息进行语音识别，得到语音信号的语音识别结果。

由于融合信息趋近于降噪后的语音信号中的语音信息，因此，利用融合信息进行语音识别降低了语音信号中的噪声对语音识别的干扰，从而提高语音识别的准确率。

在一可选的实施例中，可以利用多模态语音识别模型获取融合信息，并利用融合信息进行语音识别，得到语音信号的语音识别结果。具体的，

可以利用多模态语音识别模型处理语音信号和图像序列，得到多模态语音识别模型输出的语音识别结果；

其中，多模态语音识别模型具备以趋近于对语音信号去除噪声后的信息为获取方向，获取融合语音信号和图像序列的信息，作为融合信息；利用该融合信息进行语音识别，得到语音信号的语音识别结果的能力。

如图2所示，为本申请实施例提供的多模态语音识别模型的一种结构示意图，可以包括：

融合特征获取模块21和识别模块22；其中，

融合特征获取模块21用于以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的融合特征。

识别模块22用于基于融合特征获取模块21获取的融合特征进行语音识别，得到语音信号的语音识别结果。

基于图2所示多模态语音识别模型，前述利用多模态语音识别模型处理语音信号和图像序列，得到多模态语音识别模型输出的语音识别结果的具体实现过程可以为：

利用多模态语音识别模型的融合特征获取模块21，以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的融合特征；

利用多模态语音识别模型的识别模块22，基于融合特征获取模块21获取的融合特征进行语音识别，得到语音信号的语音识别结果。

在一可选的实施例中，融合特征获取模块21的一种结构示意图如图3所示，可以包括：

语音信息提取模块31，图像特征提取模块32和特征融合模块33；其中，

语音信息提取模块31用于以对语音信号提取的语音信息与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的语音信息为提取方向，从语音信号中提取语音信息。

本申请实施例中，语音信息提取模块31在从语音信号中提取语音信息时，以从语音信号中提取的语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去噪后的语音信息为提取方向，从语音信号中提取语音信息。

图像特征提取模块32用于以对图像序列提取的图像特征序列与语音信息提取模块31对语音信号提取的语音信息融合后的特征趋近于对语音信号去除噪声后的语音信息为提取方向，从图像序列中提取图像特征序列。

本申请实施例中，图像特征提取模块32在从图像序列中提取图像特征序列时，以从图像序列中提取的图像特征序列与语音信息提取模块31从语音信号中提取的语音信息融合后的特征趋近于对语音信号去噪后的语音信息为提取方向，从图像序列中提取图像特征序列。

特征融合模块33用于以趋近于对语音信号去除噪声后的语音信息为融合方向，对提取的语音信息和图像特征序列进行融合，得到融合特征。

本申请实施例中，特征融合模块33在对语音信号和图像特征序列进行融合时，以融合特征趋近于对语音信号去除噪声后的语音信息为融合方向，对提取的语音信号和图像特征序列进行融合。

本申请实施例中，不管是进行语音信息提取，还是进行图像特征提取，还是对提取的语音信息和图像特征序列进行融合，均以提取的语音信息和图像特征序列融合后的特征趋近于对语音信号去除噪声后的语音信息为方向而执行。

基于上述融合特征获取模块21的结构，上述利用融合特征获取模块21以趋近于对语音信号去除噪声后的语音信息为获取方向，获取融合语音信号和图像序列的融合特征的一种实现方式可以为：

以趋近于对语音信号去除噪声后的语音信息为获取方向，利用语音信息提取模块31从语音信号中提取语音信息，利用图像特征提取模块32从图像序列中提取图像特征序列；利用特征融合模块33对语音信息提取模块31提取的语音信息和图像特征提取模块32提取的图像特征序列进行融合，获取融合语音信号和图像序列的融合特征。具体可以为：

以对语音信号提取的语音信息与从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的语音信息为提取方向，利用语音信息提取模块31从语音信号中提取语音信息，利用图像特征提取模块32从图像序列中提取图像特征序列。

以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33，对提取的语音信息和图像特征序列进行融合，得到融合特征。

在一可选的实施例中，从语音信号中提取的语音信息可以为N种，N为大于或等于1的正整数。则上述利用语音信息提取模块31从语音信号中提取语音信息的过程可以包括如下两种提取方式中的任意一种：

提取方式一：利用语音信息提取模块31，以提取的N种语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的一种语音信息为提取方向，从语音信号中提取N种语音信息。

该提取方式一中，不管语音信息提取模块31提取的语音信息为几种，均以融合后的特征趋近于对语音信号去除噪声后的一种语音信息为提取方向。具体的，

若从语音信号中提取的语音信息为一种(为便于叙述记为目标种类)，则提取方式一的具体实现方式可以为：

利用语音信息提取模块31以提取的该目标种类的语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的该目标种类的语音信息为提取方向，从语音信号中提取该目标种类的语音信息。

若从语音信号中提取的语音信息为至少两种，即N大于1，则提取方式一的具体实现方式可以为：

利用语音信息提取模块31以提取的N种语音信息与从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的其中一种语音信息为提取方向，从语音信号中提取N种语音信息。

本申请实施例中，虽然需要提取至少两种语音信息，但在提取该至少两种语音信息时，是以其中一种语音信息(去噪后的)为提取方向进行提取的。比如，假设提取的语音信息为两种，分别为A类语音信息和B类语音信息，则本申请实施例中，

可以利用语音信息提取模块31以提取的A类语音信息和B类语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的A类语音信息为提取方向，从语音信号中提取A类语音信息和B类语音信息。

或者，

可以利用语音信息提取模块31以提取的A类语音信息和B类语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的B类语音信息为提取方向，从语音信号中提取A类语音信息和B类语音信息。

提取方式二：若N大于1，则利用语音信息提取模块31以提取的每一种语音信息与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的该种语音信息为提取方向，从语音信号中提取N种语音信息。

该提取方式二中，对于每一种语音信息，以语音信息提取模块31提取的该种语音信息与图像特征序列融合后的特征趋近于对语音信号去除噪声后的该种语音信息为提取方向，从语音信号中提取N种语音信息。其中，

该种语音信息与图像特征序列融合包括：该种语音信息仅与图像特征序列融合。或者，将该种语音信息，以及，图像特征序列和提取的其它种语音信息的融合特征进行融合。

在一可选的实施例中，从语音信号中提取的语音信息可以为仅为声学特征(比如，fbank特征，或者，Mel频率倒谱系数MFCC特征)，或者，可以仅为频谱图特征，或者，可以包括声学特征和频谱图特征。

上述以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33对语音信息和图像特征序列进行融合，获取融合语音信号和图像序列的融合特征的过程可以包括：

根据如下三种融合方式中的任意一种或任意两种的组合得到的融合特征获取融合语音信号和图像序列的融合特征：

融合方式一：利用特征融合模块33，以趋近于对语音信号去噪后的声学特征为融合方向，对提取的声学特征和图像特征序列进行融合，得到融合方式一对应的融合特征；

融合方式二：利用特征融合模块33，以趋近于对语音信号去噪后的频谱图特征为融合方向，对提取的频谱图特征和图像特征序列进行融合，得到融合方式二对应的融合特征；

融合方式三：利用特征融合模块33，以趋近于对语音信号去噪后的声学特征或频谱图特征为融合方向，对提取的声学特征、频谱图特征和图像特征序列进行融合，得到融合方式三对应的融合特征。

当根据上述任意一种融合方式得到的融合特征获取融合语音信号和图像序列的融合特征时，该种融合方式对应的融合特征即为融合语音信号和图像序列的融合特征。比如，若根据融合方式一得到的融合特征获取融合语音信号和图像序列的融合特征，则上述融合方式一对应的融合特征即为融合语音信号和图像序列的融合特征；若根据融合方式二得到的融合特征获取融合语音信号和图像序列的融合特征，则上述融合方式二对应的融合特征即为融合语音信号和图像序列的融合特征；同理，若根据融合方式三得到的融合特征获取融合语音信号和图像序列的融合特征，则上述融合方式三对应的融合特征即为融合语音信号和图像序列的融合特征。

当根据融合方式一和融合方式二得到的融合特征获取融合语音信号和图像序列的融合特征时，将融合方式一对应的融合特征和融合方式二对应的融合特征进行融合，得到融合语音信号和图像序列的融合特征；

当根据融合方式一和融合方式三得到的融合特征获取融合语音信号和图像序列的融合特征，或者，根据融合方式二和融合方式三得到的融合特征获取融合语音信号和图像序列的融合特征时，融合方式三对应的融合特征即为融合语音信号和图像序列的融合特征。

下面以语音信息为声学特征和/或频谱图特征为例对提取语音信息和获取融合语音信号和图像序列的融合特征的过程进行解释说明。

可选的，若上述目标种类的语音信息为声学特征，则利用语音信息提取模块31从语音信号中提取目标种类的语音信息时，具体可以用于：

利用语音信息提取模块31以从语音信号中提取的声学特征与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征。可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块，用于以从语音信号中提取的声学特征与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征。

该示例中，输入多模态语音识别模型的语音信号可以是通过滑窗从原始语音信号(即音频采集装置采集的语音信号)中提取的声学特征(为便于叙述，记为初始声学特征)，语音信息提取模块31从语音信号中提取的声学特征可以为初始声学特征的隐层特征。通过滑窗从原始语音信号中提取初始声学特征的具体实现过程可以参看已有的方案，这里不再详述。

相应的，上述以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33，对语音信息和图像特征序列进行融合，得到融合特征的一种实现方式可以为：

利用特征融合模块33以趋近于对语音信号去除噪声后的声学特征为融合方向，对提取的声学特征和图像特征序列进行融合，得到融合语音信号和图像序列的融合特征。

可选的，若上述目标种类的语音信息为频谱图特征，则利用语音信息提取模块31从语音信号中提取目标种类的语音信息时，具体可以包括：

利用语音信息提取模块31以从语音信号中提取的频谱图特征与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。可以利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括频谱图特征提取模块，用于以从语音信号中提取的频谱图特征与图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

该示例中，输入多模态语音识别模型的语音信号可以是通过对原始语音信号进行短时傅里叶变换得到的频谱图，语音信息提取模块31从语音信号中提取的频谱图特征可以为频谱图的隐层特征。

相应的，上述以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33，对语音信息和图像特征序列进行融合，得到融合特征的另一种实现方式可以为：

利用特征融合模块33以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对提取的频谱图特征和图像特征序列进行融合，得到融合语音信号和图像序列的融合特征。

可选的，若从语音信号中提取两种语音信息，分别为声学特征和频谱图特征，则利用语音信息提取模块31从语音信号中提取两种语音信息的一种实现方式可以为：

利用语音信息提取模块31以提取的频谱图特征、声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，声学特征提取模块用于以从语音信号中提取的声学特征，频谱图特征提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取声学特征；频谱图特征提取模块用于以从语音信号中提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

相应的，上述以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33，对语音信息和图像特征序列进行融合，得到融合特征的又一种实现方式可以为：

利用特征融合模块33的三号特征融合模块，对提取的声学特征和图像特征序列进行融合，得到第一融合特征；

利用特征融合模块33的五号特征融合模块，以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和第一融合特征进行融合，得到融合语音信号和图像序列的融合特征。

可选的，若从语音信号中提取两种语音信息，分别为声学特征和频谱图特征，则利用语音信息提取模块31从语音信号中提取两种语音信息的另一种实现方式可以为：

利用语音信息提取模块31以提取的频谱图特征、声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征，频谱图提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征。

相应的，上述以趋近于对语音信号去除噪声后的语音信息为融合方向，利用特征融合模块33，对提取的语音信息和图像特征序列进行融合，得到融合特征的一种实现方式可以为：

利用特征融合模块33的一号特征融合模块，对提取的频谱图特征和图像特征序列进行融合，得到第二融合特征；

利用特征融合模块33的二号特征融合模块，以趋近于对语音信号去除噪声后的声学特征为融合方向，对提取的声学特征和第二融合特征进行融合，得到融合语音信号和图像序列的融合特征。

可选的，若从语音信号中提取两种语音信息，分别为声学特征和频谱图特征，则利用语音信息提取模块31从语音信号中提取两种语音信息的又一种实现方式可以为：

利用语音信息提取模块31以提取的频谱图特征、声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征，以及提取的声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征，频谱图特征提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征，以及提取的声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征。

利用特征融合模块33的二号特征融合模块，以趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和第二融合特征进行融合，得到融合语音信号和图像序列的融合特征。

利用语音信息提取模块31以提取的频谱图特征、声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，以及提取的频谱图特征和从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征，频谱图特征提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，以及提取的频谱图特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

利用特征融合模块33的五号特征融合模块，以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对提取的频谱图特征和第一融合特征进行融合，得到融合语音信号和图像序列的融合特征。

利用语音信息提取模块31以提取的频谱图特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，以及提取的声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

利用特征融合模块33的三号特征融合模块，以趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和图像特征序列进行融合，得到第一融合特征；

利用特征融合模块33的一号特征融合模块，以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和图像特征序列进行融合，得到第二融合特征；

利用特征融合模块33的四号特征融合模块，将第一融合特征和第二融合特征进行融合，得到融合语音信号和图像序列的融合特征。

利用语音信息提取模块31以提取的声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征，以及提取的频谱图特征、声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征，频谱图特征提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，提取的声学特征与图像特征提取模块32提取的图像特征序列融合后的特征趋近于去除噪声后的声学特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

利用特征融合模块33的五号特征融合模块，以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和三号特征融合模块得到的第一融合特征进行融合，得到融合语音信号和图像序列的融合特征。

利用语音信息提取模块31以提取的频谱图特征和从图像序列中提取的图像特征序列融合后的特征趋近于去除噪声后的频谱图特征，以及提取的频谱图特征、声学特征和图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征和声学特征。可选的，可以利用语音信息提取模块31的声学特征提取模块从语音信号中提取声学特征，利用语音信息提取模块31的频谱图特征提取模块从语音信号中提取频谱图特征。也就是说，本申请实施例中，语音信息提取模块31包括声学特征提取模块和频谱图特征提取模块，其中，

声学特征提取模块用于以提取的声学特征，频谱图特征提取模块从语音信号中提取的频谱图特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征；

频谱图特征提取模块用于以提取的频谱图特征，声学特征提取模块从语音信号中提取的声学特征，以及图像特征提取模块32从图像序列中提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征，提取的频谱图特征与图像特征提取模块32提取的图像特征序列融合后的特征趋近于去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征。

利用特征融合模块33的一号特征融合模块，以趋近于对语音信号去除噪声后的频谱图特征为融合方向，对提取的频谱图特征和图像特征序列进行融合，得到第二融合特征；

本申请的上述各个实施例中，输入多模态语音识别模型的语音信号可以是通过滑窗从原始语音信号中提取的初始声学特征，以及通过对原始语音信号进行短时傅里叶变换得到的频谱图，则语音信息提取模块31从语音信号中提取的声学特征可以是初始声学特征的隐层特征，从语音信号中提取的频谱图特征可以是频谱图的隐层特征。

下面说明多模态语音识别模型的训练过程。

在一可选的实施例中，请参阅图4a和图4b，其中，图4a为本申请实施例提供的对多模态语音识别模型进行训练的一种架构示意图，图4b为对多模态语音识别模型进行训练的一种实现流程图，可以包括：

步骤S41：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号(也可称为清晰语音信号)的无噪声语音信息(即图4a中的清晰语音信息)，和训练样本中包含上述无噪声语音信号的噪声语音信号的噪声语音信息。

其中，可以通过对无噪声语音信号添加噪声生成噪声语音信号，比如，对无噪声语音信号分别加噪到信噪比snr＝10、snr＝5、snr＝0三个程度来模拟真实场景中的噪声程度。

或者，可以通过对噪声语音信号进行去噪处理，得到无噪声语音信号。

步骤S42：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。可以通过图像特征提取模块32从样本图像序列中提取样本图像特征序列。

步骤S43：通过多模态语音识别模型将噪声语音信息和样本图像特征序列进行融合，得到训练样本的融合特征。可以通过特征融合模块33将噪声语音信息和样本图像特征序列进行融合，得到训练样本的融合特征。

步骤S44：通过多模态语音识别模型利用训练样本的融合特进行语音识别，得到训练样本对应的语音识别结果。可以通过识别模块22利用训练样本的融合特进行语音识别，得到训练样本对应的语音识别结果。

步骤S45：通过多模态语音识别模型以训练样本的融合特征趋近于无噪声语音信息，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。具体的，可以通过第一损失函数计算训练样本的融合特征与无噪声语音信息的差异(为便于叙述，记为第一差异)，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的差异(为便于叙述，记为第二差异)，根据第一差异和第二差异的加权和对多模态语音识别模型的参数进行更新。

基于图4a-图4b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，具备以趋近于对语音信号去除噪声后的信息为获取方向，获取融合语音信号和图像序列的信息，作为融合信息；利用该融合信息进行语音识别，得到语音信号的语音识别结果的能力。

下面根据语音信息的不同分别说明多模态语音识别模型的训练过程。

在一可选的实施例中，若语音信息仅为声学特征，请参看图5a和图5b，其中，图5a为对多模态语音识别模型进行训练的一种架构示意图，图5b为对多模态语音识别模型进行训练的一种实现流程图，可以包括：

步骤S51：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的声学特征(即图5a中的清晰声学特征，也可称为无噪声声学特征)，和训练样本中包含上述无噪声语音信号的噪声语音信号的声学特征(即图5a中的噪声声学特征)。可以通过语音信息提取模块31的声学特征提取模块从无噪声语音信号中提取清晰声学特征，从噪声语音信号中提取噪声声学特征。噪声语音信号和无噪声语音信号的获取过程可以参看前述实施例，这里不再赘述。

步骤S52：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S53：通过多模态语音识别模型将噪声声学特征和样本图像特征序列进行融合，得到训练样本的融合特征。

步骤S54：通过多模态语音识别模型利用训练样本的融合特进行语音识别，得到训练样本对应的语音识别结果。

步骤S55：通过多模态语音识别模型以训练样本的融合特征趋近于无噪声声学特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的融合特征和清晰声学特征的第一差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第二差异，根据第一差异和第二差异的加权和对多模态语音识别模型的参数进行更新。

基于图5a-图5b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合后的特征趋近于对语音信号去除噪声后的声学特征为融合方向，对提取的声学特征和图像特征序列进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息仅为频谱图特征，请参看图6a和图6b，其中，图6a为对多模态语音识别模型进行训练的一种架构示意图，图6b为对多模态语音识别模型进行训练的一种实现流程图，可以包括：

步骤S61：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图6a中的清晰频谱图特征，也可称为无噪声频谱图特征)，训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图6a中的噪声频谱图特征)。可以通过语音信息提取模块31的频谱图特征提取模块从无噪声语音信号中提取清晰频谱图特征，从噪声语音信号中提取噪声频谱图特征。噪声语音信号和无噪声语音信号的获取过程可以参看前述实施例，这里不再赘述。

步骤S62：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S63：通过多模态语音识别模型将噪声频谱图特征和样本图像特征序列进行融合，得到训练样本的融合特征。可以通过特征融合模块33将噪声语音信号的频谱图特征和样本图像特征序列进行融合，得到训练样本的融合特征。

步骤S64：通过多模态语音识别模型利用训练样本的融合特进行语音识别，得到训练样本对应的语音识别结果。

步骤S65：通过多模态语音识别模型以训练样本的融合特征趋近于无噪声频谱图特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算融合特征和清晰频谱图特征的第一差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第二差异，根据第一差异和第二差异的加权和对多模态语音识别模型的参数进行更新。

基于图6a-图6b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，频谱图特征提取模块具备以对语音信号提取的频谱图特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合后的特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对提取的频谱图特征和图像特征序列进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图7a和图7b，其中，图7a为对多模态语音识别模型进行训练的一种架构示意图，图7b为对多模态语音识别模型进行训练的一种实现流程图，可以包括：

步骤S71：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图7a中的清晰频谱图特征，即无噪声频谱图特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图7a中的噪声频谱图特征)和声学特征(即图7a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S72：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S73：通过多模态语音识别模型对噪声声学特征和图像特征序列进行融合，得到训练样本的第一融合特征。

步骤S74：通过多模态语音识别模型对噪声语音信号的频谱图特征和训练样本的第一融合特征进行融合，得到训练样本的融合特征。

步骤S75：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S76：通过多模态语音识别模型以训练样本的融合特征趋近于无噪声频谱图特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

基于图7a-图7b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与声学特征提取模块对语音信号提取的声学特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合后的特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对声学特征、频谱图特征和图像特征序列进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图8a和图8b，其中，图8a为对多模态语音识别模型进行训练的另一种架构示意图，图8b为对多模态语音识别模型进行训练的另一种实现流程图，可以包括：

步骤S81：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的声学特征(即图8a中的清晰声学特征，即无噪声声学特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图8a中的噪声频谱图特征)和声学特征(即图8a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S82：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S83：通过多模态语音识别模型对噪声频谱图特征和图像特征序列进行融合，得到训练样本的第二融合特征。

步骤S84：通过多模态语音识别模型对噪声语音信号的声学特征和训练样本的第二融合特征进行融合，得到训练样本的融合特征。

步骤S85：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S86：通过多模态语音识别模型以训练样本的融合特征趋近于无噪声声学特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算融合特征和清晰声学特征的第一差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第二差异，根据第一差异和第二差异的加权和对多模态语音识别模型的参数进行更新。

基于图8a-图8b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与声学特征提取模块对语音信号提取的声学特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合后的特征趋近于对语音信号去除噪声后的声学特征为融合方向，对提取的声学特征、频谱图特征和图像特征序列进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图9a和图9b，其中，图9a为对多模态语音识别模型进行训练的又一种架构示意图，图9b为对多模态语音识别模型进行训练的又一种实现流程图，可以包括：

步骤S91：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的声学特征(即图9a中的清晰声学特征，即无噪声声学特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图9a中的噪声频谱图特征)和声学特征(即图9a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S92：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S93：通过多模态语音识别模型对噪声语音信号的声学特征和图像特征序列进行融合，得到训练样本的第一融合特征。

步骤S94：通过多模态语音识别模型对噪声频谱图特征和图像特征序列进行融合，得到训练样本的第二融合特征。

步骤S95：通过多模态语音识别模型对噪声声学特征和训练样本的第二融合特征进行融合，得到训练样本的融合特征。

步骤S96：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S97：通过多模态语音识别模型以训练样本的第一融合特征趋近于无噪声声学特征，训练样本的融合特征趋近于无噪声声学特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的第一融合特征和清晰声学特征的第一差异，通过第一损失函数计算训练样本的融合特征和清晰声学特征的第二差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第三差异，根据第一差异、第二差异和第三差异的加权和对多模态语音识别模型的参数进行更新。

本示例中，计算第一差异和第二差异使用的损失函数相同，在一可选的实施例中，计算第一差异和第二差异使用的损失函数也可以不同，本申请不做具体限定。

基于图9a-图9b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征，对语音信号提取的声学特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的声学特征，对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合得到的特征趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和图像特征序列进行融合，得到第一融合特征，对频谱图特征和图像特征序列进行融合，得到第二融合特征，对声学特征和第二融合特征进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图10a和图10b，其中，图10a为对多模态语音识别模型进行训练的又一种架构示意图，图10b为对多模态语音识别模型进行训练的又一种实现流程图，可以包括：

步骤S101：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图10a中的清晰频谱图特征，即无噪声频谱图特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图10a中的噪声频谱图特征)和声学特征(即图10a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S102：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S103：通过多模态语音识别模型对噪声频谱图特征和图像特征序列进行融合，得到训练样本的第二融合特征。

步骤S104：通过多模态语音识别模型对噪声声学特征和图像特征序列进行融合，得到训练样本的第一融合特征。

步骤S105：通过多模态语音识别模型对噪声频谱图特征和训练样本的第一融合特征进行融合，得到训练样本的融合特征。

步骤S106：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S107：通过多模态语音识别模型以训练样本的第二融合特征趋近于无噪声频谱图特征，训练样本的融合特征趋近于无噪声频谱图特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的第二融合特征和无噪声频谱图特征的第一差异，通过第一损失函数计算训练样本的融合特征和无噪声频谱图特征的第二差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第三差异，根据第一差异、第二差异和第三差异的加权和对多模态语音识别模型的参数进行更新。

基于图10a-图10b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与声学特征提取模块对语音信号提取的声学特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，对语音信号提取的频谱图特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征，对图像序列提取的图像特征序列与频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合后的特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和图像特征序列进行融合，得到第二融合特征，对声学特征和图像特征序列进行融合，得到第一融合特征，对频谱图特征和第一融合特征进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图11a和图11b，其中，图11a为对多模态语音识别模型进行训练的又一种架构示意图，图11b为对多模态语音识别模型进行训练的又一种实现流程图，可以包括：

步骤S111：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图11a中的清晰频谱图特征，即无噪声频谱图特征)和声学特征(即图11a中的清晰声学特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图11a中的噪声频谱图特征)和声学特征(即图11a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S112：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S113：通过多模态语音识别模型对噪声声学特征和图像特征序列进行融合，得到训练样本的第一融合特征。

步骤S114：通过多模态语音识别模型对噪声频谱图特征和图像特征序列进行融合，得到训练样本的第二融合特征。

步骤S115：通过多模态语音识别模型对训练样本的第一融合特征和训练样本的第二融合特征进行融合，得到训练样本的融合特征。

步骤S116：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S117：通过多模态语音识别模型以训练样本的第一融合特征趋近于无噪声声学特征，训练样本的第二融合特征趋近于无噪声频谱图特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的第一融合特征和无噪声声学特征的第一差异，通过第一损失函数计算训练样本的第二融合特征和无噪声频谱图特征的第二差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第三差异，根据第一差异、第二差异和第三差异的加权和对多模态语音识别模型的参数进行更新。

基于图11a-图11b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从语音信号中提取频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征融合后的特征趋近于对语音信号去除噪声后的声学特征，对图像序列提取的图像特征序列与频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合得到的第二融合特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和图像特征序列进行融合，得到第二融合特征；以融合得到的第一融合特征趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和图像特征序列进行融合，得到第一融合特征能力，还具有对第一融合特征和第二融合特征进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图12a和图12b，其中，图12a为对多模态语音识别模型进行训练的又一种架构示意图，图12b为对多模态语音识别模型进行训练的又一种实现流程图，可以包括：

步骤S121：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图12a中的清晰频谱图特征，即无噪声频谱图特征)和声学特征(即图12a中的清晰声学特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图12a中的噪声频谱图特征)和声学特征(即图12a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S122：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S123：通过多模态语音识别模型对噪声声学特征和图像特征序列进行融合，得到训练样本的第一融合特征。

步骤S124：通过多模态语音识别模型对噪声频谱图特征和训练样本的第一融合特征进行融合，得到训练样本的融合特征。

步骤S125：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S126：通过多模态语音识别模型以训练样本的第一融合特征趋近于无噪声声学特征，训练样本的融合特征趋近于无噪声频谱图特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的第一融合特征和无噪声声学特征的第一差异，通过第一损失函数计算训练样本的融合特征和无噪声频谱图特征的第二差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第三差异，根据第一差异、第二差异和第三差异的加权和对多模态语音识别模型的参数进行更新。

基于图12a-图12b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征，对语音信号提取的声学特征与图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与声学特征提取模块对语音信号提取的声学特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征，对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合得到的第一融合特征趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和图像特征序列进行融合，得到第一融合特征，以融合后的融合特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和第一融合特征进行融合，得到融合特征的能力。

在一可选的实施例中，若语音信息包括声学特征和频谱图特征，请参看图13a和图13b，其中，图13a为对多模态语音识别模型进行训练的又一种架构示意图，图13b为对多模态语音识别模型进行训练的又一种实现流程图，可以包括：

步骤S131：通过多模态语音识别模型分别获取训练样本中的无噪声语音信号的频谱图特征(即图13a中的清晰频谱图特征，即无噪声频谱图特征)和声学特征(即图13a中的清晰声学特征)，以及训练样本中包含上述无噪声语音信号的噪声语音信号的频谱图特征(即图13a中的噪声频谱图特征)和声学特征(即图13a中的噪声声学特征)。具体获取过程可以参看前述实施例，这里不再赘述。

步骤S132：通过多模态语音识别模型获取训练样本中的样本图像序列的样本图像特征序列。

步骤S133：通过多模态语音识别模型对噪声频谱图特征和图像特征序列进行融合，得到训练样本的第二融合特征。

步骤S134：通过多模态语音识别模型对噪声声学特征和训练样本的第二融合特征进行融合，得到训练样本的融合特征。

步骤S135：通过多模态语音识别模型对训练样本的融合特征进行语音识别，得到训练样本对应的语音识别结果。

步骤S136：通过多模态语音识别模型以训练样本的第二融合特征趋近于无噪声频谱图特征，训练样本的融合特征趋近于无噪声声学特征，训练样本对应的语音识别结果趋近于训练样本的样本标签为目标，对多模态语音识别模型的参数进行更新。

可选的，可以通过第一损失函数计算训练样本的第二融合特征和无噪声频谱图特征的第一差异，通过第一损失函数计算训练样本的融合特征和无噪声声学特征的第二差异，通过第二损失函数计算训练样本对应的语音识别结果与训练样本的样本标签的第三差异，根据第一差异、第二差异和第三差异的加权和对多模态语音识别模型的参数进行更新。

基于图13a-图13b所示的多模态语音识别模型训练方法训练得到的多模态语音识别模型，声学特征提取模块具备以对语音信号提取的声学特征与频谱图特征提取模块对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征为提取方向，从语音信号中提取声学特征的能力；

频谱图特征提取模块具备以对语音信号提取的频谱图特征与声学特征提取模块对语音信号提取的声学特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的声学特征，对语音信号提取的频谱图特征和图像特征提取模块32对图像序列提取的图像特征序列融合后的特征趋近于对语音信号去除噪声后的频谱图特征的能力；

图像特征提取模块32具备以对图像序列提取的图像特征序列与声学特征提取模块对语音信号提取的声学特征和频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的声学特征，对图像序列提取的图像特征序列与频谱图特征提取模块对语音信号提取的频谱图特征融合后的特征趋近于对语音信号去除噪声后的频谱图特征为提取方向，从图像序列中提取图像特征序列的能力；

特征融合模块33具备以融合得到的第二融合特征趋近于对语音信号去除噪声后的频谱图特征为融合方向，对频谱图特征和图像特征序列进行融合，得到第二融合特征，以融合得到的融合特征趋近于对语音信号去除噪声后的声学特征为融合方向，对声学特征和第二融合特征进行融合，得到融合特征的能力。

前述各个实施例中，不对各个差异的权重进行限定，各个差异对应的权重可以相同，也可以不同。各个差异的权重可以预先设置好，也可以在多模态语音识别模型训练过程中学习得到。以图5a所示实施例为例，可选的，第一差异的权重可以为0.2，第二差异的权重可以为0.8。

可选的，第一损失函数可以为L2范数或L1范数，而第二损失函数可以为交叉熵函数。

本申请的发明人研究发现，同步采集的音/视频的数据量通常较少，只以同步采集的音/视频数据作为训练样本训练得到多模态语音识别模型可能会出现过拟合现象，为了避免过拟合现象，同时为了近一步提高多模态语音识别模型的识别准确率，在对多模态语音识别模型训练之前，可以对一些功能模块进行预训练。

在一可选的实施例中，在对多模态语音识别模型训练之前，语音信息提取模块31的声学特征提取模块的初始参数为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于对语音信号进行声学特征提取的特征提取模块的参数。

也就是说，声学特征提取模块的初始参数是利用纯语音样本训练好的语音识别模型中的特征提取模块的参数。

本申请实施例中，不对语音识别模型的具体架构进行限定，但不管语音识别模型的架构是怎样的，特征提取模块是必须的功能模块。比如，在一可选的实施例中，语音识别模型可以包括：特征提取模块，用于提取输入语音识别模型的声学特征的隐层特征；识别模块，用于根据特征提取模块提取的隐层特征进行语音识别。语音识别模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练语音识别模型的语音样本中可以包含用于训练上述多模态语音识别模型的语音样本，也可以不包含上述用于训练上述多模态语音识别模型的语音样本，本申请对此不做具体限定。

在一可选的实施例中，在对多模态语音识别模型训练之前，频谱图特征提取模块的初始参数为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。

也就是说，频谱图特征提取模块的初始参数是利用纯语音样本训练好的语音分离模型中的频谱图特征提取模块的参数。

本申请实施例中，不对语音分离模型的具体架构进行限定，但不管语音分离模型的架构是怎样的，频谱图特征提取模块是必须的功能模块。比如，在一可选的实施例中，语音分离模型可以包括：频谱图特征提取模块，用于提取输入语音分离模型的频谱图的隐层特征；分离模块，用于根据频谱图特征提取模块提取的隐层特征进行语音分离。语音分离模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练语音分离模型的语音样本中可以包含用于训练上述多模态语音识别模型的语音样本，也可以不包含上述于训练上述多模态语音识别模型的语音样本，本申请对此不做具体限定。

在一可选的实施例中，在对多模态语音识别模型训练之前，图像特征提取模块的初始参数为，以图像序列及其对应的发音内容为训练数据训练好的唇语识别模型中，用于对图像序列进行特征提取的图像特征提取模块的参数。

也就是说，图像特征提取模块的初始参数是利用纯图像序列样本训练好的唇语识别模型中的图像特征提取模块的参数。

本申请实施例中，不对唇语识别模型的具体架构进行限定，但不管唇语识别模型的架构是怎样的，图像特征提取模块是必须的功能模块。比如，在一可选的实施例中，唇语识别模型可以包括：图像特征提取模块，用于提取输入唇语识别模型的图像序列的隐层特征序列；识别模块，用于根据图像特征提取模块提取的隐层特征序列进行唇语识别。唇语识别模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练唇语识别模型的图像序列样本中可以包含用于训练上述多模态语音识别模型的图像序列样本，也可以不包含上述用于训练上述多模态语音识别模型的图像序列样本，本申请对此不做具体限定。

需要说明的是，识别模块22利用融合特征进行语音识别，得到的语音识别结果通常为音素级识别结果，比如为三音素(triphone)，在得到三音素后，可以将音素通过维特比算法解码成文字序列。具体解码过程可以参已有的方法，这里不再详述。

另外，本申请实施例中，输入多模态语音识别模型的语音信号可以为从原始的语音信号中提取的声学特征和/或由原始的语音信号通过短时傅里叶变换得到的频谱图。

若多模态语音识别模型仅需要提取语音信号的声学特征，则输入多模态语音识别模型的是从原始语音信号中提取的声学特征(比如，fbank特征)；以fbank特征为例，可以通过滑动窗口提取fbank特征，其中，窗长可以为25ms，帧移为10ms，即相邻两个滑动窗口位置的语音信号有15ms的重叠，滑动窗口每滑动到一个位置，提取该位置处的语音信号的40维fbank特征(当然也可以是其它维度，本申请不做具体限定)向量，这样得到的fbank特征为100fps的fbank特征向量序列。多模态语音识别模型从输入的fbank特征中提取的特征为fbank特征的隐层特征。

若多模态语音识别模型仅需要提取语音信号的频谱图特征，则输入多模态语音识别模型的是由原始的语音信号通过短时傅里叶变换得到的频谱图；多模态语音识别模型从输入的频谱图中提取的是频谱图的隐层特征。

若多模态语音识别模型既需要提取语音信号的声学特征，又需要提取语音信号的频谱图特征，则输入多模态语音识别模型的是从原始语音信号中提取的声学特征和由原始的语音信号通过短时傅里叶变换得到的频谱图。

视频的帧率通常为25fps。为了简化多模态语音识别模型的数据处理流程，本申请实施例中，在对多模态语音识别模型进行训练之前，还对样本语音信号的文字标注进行预处理，具体可以使用forcealignment将文字发音音素对齐到语音信号上，其中，每4帧语音信号(滑动窗口每滑动到一个位置，确定一帧语音信号)对应到一个三音素(triphone)上，这样实际上文字标注被转化为triphone标注，标注帧率为25fps，是音频帧率的四分之一，与视频帧率同步。具体对齐方式可以参看已有的实现方式，这里不再赘述。

以基于图5a所示实施例为例，在模型的训练阶段，输入多模态语音识别模型的噪声语音信号可以是100fps的语音帧(为便于叙述，记为噪声语音帧，该噪声语音帧通过窗长为25ms，帧移为10ms的滑动窗口在原始噪声语音信号中进行滑动得到)的初始fbank特征向量序列(为便于叙述，记为初始噪声fbank特征向量序列)，初始噪声fbank特征向量序列中的每个初始噪声fbank特征向量均为40维的特征向量。同理，输入多模态语音识别模型的无噪声语音信号可以是100fps的语音帧(为便于叙述，记为无噪声语音帧，该无噪声语音帧通过窗长为25ms，帧移为10ms的滑动窗口在原始无噪声语音信号中进行滑动得到)的初始fbank特征向量序列(为便于叙述，记为初始无噪声fbank特征向量序列)，初始无噪声fbank特征向量序列中的每个初始无噪声fbank特征向量均为40维的特征向量。

初始噪声fbank特征向量序列经过声学特征提取模块后会在时间维度下采样4倍，得到25fps的512维的噪声fbank特征向量序列；初始无噪声fbank特征向量序列经过声学特征提取模块后会在时间维度下采样4倍，得到25fps的512维的无噪声fbank特征向量序列。

输入多模态语音识别模型的图像序列可以是25fps的图像序列，图像大小为80×80的RGB三通道图像，经过图像特征提取模块后得到25fps的512维的图像特征向量序列。

25fps的512维的噪声fbank特征向量序列和25fps的512维的图像特征向量序列输入特征融合模块，特征融合模块每接收一个噪声fbank特征向量和一个图像特征向量，将该噪声fbank特征向量和该图像特征向量进行融合(如，将噪声fbank特征向量和图像特征向量进行拼接)，再通过一个小的融合神经网络，生成512维的融合特征向量，该512维的融合特征向量输出到识别模块。

识别模块经过softmax分类将接收到的512维的融合特征向量进行音素识别，得到三音素识别结果。

本示例中，用于对多模态语音识别模型的参数进行更新的损失函数由两部分构成：为了显式表达图像信息对高噪声语音信息的降噪功能，将512维的融合特征向量与对应的512维的无噪声fbank特征向量做L2范数作为损失函数的一部分，使得融合后的特征向量与对应的512维的无噪声fbank特征向量更接近，从而起到在特征层面上降噪约束效果。同时，计算识别模块的识别结果与三音素标签的交叉熵函数作为损失函数的另一部分。

在多模态语音识别模型的训练或使用阶段，输入多模态语音识别模型的语音信号可以是100fps的语音帧的初始fbank特征向量序列；初始fbank特征向量序列经过声学特征提取模块后会在时间维度下采样4倍，得到25fps的512维的fbank特征向量序列；输入多模态语音识别模型的图像序列可以是25fps的图像序列，图像大小为80×80的RGB三通道图像，经过图像特征提取模块后得到25fps的512维的图像特征向量序列；25fps的512维的fbank特征向量序列和25fps的512维的图像特征向量序列输入特征融合模块，特征融合模块每接收一个fbank特征向量和一个图像特征向量，将该fbank特征向量和该图像特征向量进行融合，生成512维的融合特征向量，该512维的融合特征向量输出到识别模块。

此外，本申请的发明人研究发现，目前的借助唇部动作视频协助进行语音识别的多模态语音识别方法，对训练数据集极其敏感，比如，如果训练集中大部分数据为英文数据，少量为中文数据，唇部动作信息的加入可能使高噪声下的中文识别成英文，反而降低了语音识别效果。

而由于降噪本身是与语种无关的，因而基于本申请的方案能够显著缓解训练数据集语种不均衡带来的识别混乱问题，进一步提升了高噪声环境下的多模态语音识别效果。

也就是说，本申请的多模态语音识别模型对训练集的依赖性较低，即便训练数据集中样本的语种分布不均匀，训练好的多模态语音识别模型也可以准确进行多语种(可识别的语种为训练样本集中包含的语种)的语音识别，大大减轻了识别混乱问题。

因而，基于本申请的方案，训练上述多模态语音识别模型所使用的训练样本集合中，可以仅包含单一语种的训练样本，也可以包含两种或多种语种的训练样本。当训练样本集合中包含两种或多种语种的训练样本时，训练样本集合中各个语种的训练样本所占的比例随机确定，或为预置比例。

如表1所示，为基于本申请公开的方案(具体为图5a所示实施例)与现有技术中的语音识别效果的对比。这里进行测试的测试集以英文语料为主，中文语料只有一小部分。

表1

从表1可以看出，如果单纯对语音信号进行处理实现语音识别(即表1中的单语音识别网络)，不管是清晰语音还是高噪声语音，识别错误率都较高。

而在语音识别过程中加入唇部动作视频辅助语音识别(即表1中的已有的多模态识别网络)后，清晰语音和高噪声语音的识别错误率均降低了。

而基于本申请的方案，在多模态语音识别过程中加入降噪的思想后，清晰语音和高噪声语音的识别错误率进一步降低了。

与方法实施例相对应，本申请实施例还提供一种语音识别装置，本申请实施例提供的语音识别装置的一种结构示意图如图14所示，可以包括：

获取模块141，特征提取模块142和识别模块143；其中，

获取模块141用于获取语音信号和与所述语音信号同步采集的图像序列；所述图像序列中的图像为唇动相关区域的图像；

特征提取模块142用于以趋近于对所述语音信号去除噪声后的语音信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

识别模块143用于利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。

本申请实施例提供的语音识别装置，在获取语音信号和图像序列的融合特征时，是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的，即所获得到的融合信息趋近于无噪声语音信号的语音信息，降低了语音信号中的噪声对语音识别的干扰，从而提高语音识别率。

在一可选的实施例中，特征提取模块142和识别模块143的功能可以通过多模态语音识别模型实现，具体的：

特征提取模块142具体可以用于：通过多模态语音识别模型以趋近于对所述语音信号去除噪声后的信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

识别模块143具体可以用于：通过多模态语音识别模型利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果的能力。

在一可选的实施例中，特征提取模块142具体可以用于：以趋近于对所述语音信号去除噪声后的语音信息为获取方向，利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息，利用所述多模态语音识别模型的图像特征提取模块从所述图像序列中提取图像特征序列；利用所述多模态语音识别模型的特征融合模块对所述语音信息和所述图像特征序列进行融合，获取融合所述语音信号和所述图像序列的融合特征；

识别模块143具体可以用于：利用多模态语音识别模型的识别模块，基于所述融合特征进行语音识别，得到所述语音信号的语音识别结果。

在一可选的实施例中，特征提取模块142具体可以包括：

提取模块，用于以对所述语音信号提取的语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的语音信息为提取方向，利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息，利用所述多模态语音识别模型的图像特征提取模块从所述图像序列中提取图像特征序列；

融合模块，用于以趋近于对所述语音信号去除噪声后的语音信息为融合方向，利用所述多模态语音识别模型的特征融合模块，对所述语音信息和所述图像特征序列进行融合，得到融合特征。

在一可选的实施例中，所述语音信息为N种，所述N为大于或等于1的正整数；提取模块在利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息时，具体用于：

利用所述多模态语音识别模型的语音信息提取模块，以提取的N种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的一种语音信息为提取方向，从所述语音信号中提取N种语音信息；或者，

若所述N大于1，则利用所述多模态语音识别模型的语音信息提取模块，以提取的每一种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的该种语音信息为提取方向，从所述语音信号中提取N种语音信息。

在一可选的实施例中，所述语音信息为声学特征和/或频谱图特征，所述融合模块具体可以用于：

根据如下三种融合方式中的任意一种或任意两种的组合得到的融合特征获取融合所述语音信号和所述图像序列的融合特征：

融合方式一：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的声学特征为融合方向，对所述声学特征和所述图像特征序列进行融合，得到融合方式一对应的融合特征；

融合方式二：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的频谱图特征为融合方向，对所述频谱图特征和所述图像特征序列进行融合，得到融合方式二对应的融合特征；

融合方式三：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的声学特征或频谱图特征为融合方向，对所述声学特征、所述频谱图特征和所述图像特征序列进行融合，得到融合方式三对应的融合特征。

在一可选的实施例中，所述语音识别装置还包括训练模块，用于：

通过所述多模态语音识别模型分别获取训练样本中的无噪声语音信号的无噪声语音信息，和所述训练样本中包含所述无噪声语音信号的噪声语音信号的噪声语音信息；

通过所述多模态语音识别模型获取所述训练样本中的样本图像序列的样本图像特征序列；

通过所述多模态语音识别模型将所述噪声语音信息和所述样本图像特征序列进行融合，得到所述训练样本的融合特征；

通过所述多模态语音识别模型利用所述训练样本的融合特进行语音识别，得到所述训练样本对应的语音识别结果；

通过所述多模态语音识别模型以所述训练样本的融合特征趋近于所述无噪声语音信息，所述训练样本对应的语音识别结果趋近于所述训练样本的样本标签为目标，对所述多模态语音识别模型的参数进行更新。

在一可选的实施例中，在训练多模态语音识别模型之前，所述声学特征提取模块的初始参数为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于对语音信号进行声学特征提取的特征提取模块的参数。

在一可选的实施例中，在训练多模态语音识别模型之前，所述频谱图特征提取模块的初始参数为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。

在一可选的实施例中，在训练多模态语音识别模型之前，所述图像特征提取模块的初始参数为，以图像序列及其对应的发音内容为训练数据训练好的唇语识别模型中，用于对图像序列进行特征提取的图像特征提取模块的参数。

在一可选的实施例中，训练所述多模态语音识别模型所使用的训练样本集合中，包括不同语种的训练样本，所述训练样本集合中各个语种的训练样本所占的比例随机确定，或为预置比例。

本申请实施例提供的语音识别装置可应用于语音识别设备，如PC终端、云平台、服务器及服务器集群等。可选的，图15示出了语音识别设备的硬件结构框图，参照图15，语音识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific IntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种语音识别方法，其特征在于，包括：

获取语音信号和与所述语音信号同步采集的图像序列；所述图像序列中的图像为唇动相关区域的图像；

以趋近于对所述语音信号去除噪声后的语音信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。
根据权利要求1所述的方法，其特征在于，获取融合信息，利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果的过程，包括：

利用多模态语音识别模型处理所述语音信号和所述图像序列，得到所述多模态语音识别模型输出的语音识别结果；

其中，所述多模态语音识别模型具备以趋近于对所述语音信号去除噪声后的信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果的能力。
根据权利要求2所述的方法，其特征在于，所述利用多模态语音识别模型处理所述语音信号和所述图像序列，得到所述多模态语音识别模型输出的语音识别结果，包括：

以趋近于对所述语音信号去除噪声后的语音信息为获取方向，利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息，利用所述多模态语音识别模型的图像特征提取模块从所述图像序列中提取图像特征序列；利用所述多模态语音识别模型的特征融合模块对所述语音信息和所述图像特征序列进行融合，获取融合所述语音信号和所述图像序列的融合特征；

利用多模态语音识别模型的识别模块，基于所述融合特征进行语音识别，得到所述语音信号的语音识别结果。
根据权利要求3所述的方法，其特征在于，所述语音信息为N种，所述N为大于或等于1的正整数；所述利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息，包括：

利用所述多模态语音识别模型的语音信息提取模块，以提取的N种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的一种语音信息为提取方向，从所述语音信号中提取N种语音信息；或者，

若所述N大于1，则利用所述多模态语音识别模型的语音信息提取模块，以提取的每一种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的该种语音信息为提取方向，从所述语音信号中提取N种语音信息。
根据权利要求4所述的方法，其特征在于，所述语音信息为声学特征和/或频谱图特征，所述以趋近于对所述语音信号去除噪声后的语音信息为融合方向，利用所述多模态语音识别模型的特征融合模块，对所述语音信息和所述图像特征序列进行融合，获取融合所述语音信号和所述图像序列的融合特征，包括：

根据如下三种融合方式中的任意一种或任意两种的组合得到的融合特征获取融合所述语音信号和所述图像序列的融合特征：

融合方式一：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的声学特征为融合方向，对所述声学特征和所述图像特征序列进行融合，得到融合方式一对应的融合特征；

融合方式二：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的频谱图特征为融合方向，对所述频谱图特征和所述图像特征序列进行融合，得到融合方式二对应的融合特征；

融合方式三：利用所述多模态语音识别模型的特征融合模块，以趋近于对所述语音信号去噪后的声学特征或频谱图特征为融合方向，对所述声学特征、所述频谱图特征和所述图像特征序列进行融合，得到融合方式三对应的融合特征。
根据权利要求2所述的方法，其特征在于，所述多模态语音识别模型的训练过程包括：

分别获取训练样本中的无噪声语音信号的无噪声语音信息，和所述训练样本中包含所述无噪声语音信号的噪声语音信号的噪声语音信息；

获取所述训练样本中的样本图像序列的样本图像特征序列；

将所述噪声语音信息和所述样本图像特征序列进行融合，得到所述训练样本的融合特征；

利用所述训练样本的融合特进行语音识别，得到所述训练样本对应的语音识别结果；

以所述训练样本的融合特征趋近于所述无噪声语音信息，所述训练样本对应的语音识别结果趋近于所述训练样本的样本标签为目标，对所述多模态语音识别模型的参数进行更新。
根据权利要求6所述的方法，其特征在于，分别获取无噪声语音信息和噪声语音信息的过程，包括：

利用所述多模态语音识别模型中的声学特征提取模块获取所述无噪声语音信号的无噪声声学特征和所述噪声语音信号的噪声声学特征；和/或，利用所述多模态语音识别模型中的频谱图特征提取模块获取所述无噪声语音信号的无噪声频谱图特征和所述噪声语音信号的噪声频谱图特征；

所述声学特征提取模块的初始参数为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于对语音信号进行声学特征提取的特征提取模块的参数；

所述频谱图特征提取模块的初始参数为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。
根据权利要求6所述的方法，其特征在于，所述获取所述训练样本中的样本图像序列的样本图像特征序列，包括：

利用所述多模态语音识别模型中的图像特征提取模块获取所述样本图像序列的样本图像特征序列；

所述图像特征提取模块的初始参数为，以图像序列及其对应的发音内容为训练数据训练好的唇语识别模型中，用于对图像序列进行特征提取的图像特征提取模块的参数。
根据权利要求6所述的方法，其特征在于，训练所述多模态语音识别模型所使用的训练样本集合中，包括不同语种的训练样本，所述训练样本集合中各个语种的训练样本所占的比例随机确定，或为预置比例。
一种语音识别装置，其特征在于，包括：

获取模块，用于获取语音信号和与所述语音信号同步采集的图像序列；所述图像序列中的图像为唇动相关区域的图像；

特征提取模块，用于以趋近于对所述语音信号去除噪声后的语音信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

识别模块，用于利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。
根据权利要求10所述的装置，其特征在于，所述特征提取模块具体用于：通过多模态语音识别模型以趋近于对所述语音信号去除噪声后的信息为获取方向，获取融合所述语音信号和所述图像序列的信息，作为融合信息；

所述识别模块具体用于：通过所述多模态语音识别模型利用所述融合信息进行语音识别，得到所述语音信号的语音识别结果。
根据权利要求11所述的装置，其特征在于，所述特征提取模块具体用于：以趋近于对所述语音信号去除噪声后的语音信息为获取方向，利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息，利用所述多模态语音识别模型的图像特征提取模块从所述图像序列中提取图像特征序列；利用所述多模态语音识别模型的特征融合模块，对所述语音信息和所述图像特征序列进行融合，获取融合所述语音信号和所述图像序列的融合特征；

所述识别模块具体用于：利用所述多模态语音识别模型的识别模块，基于所述融合特征进行语音识别，得到所述语音信号的语音识别结果。
根据权利要求12所述的装置，其特征在于，所述语音信息为N种，所述N为大于或等于1的正整数；所述提取模块在利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息时，具体用于：

利用所述多模态语音识别模型的语音信息提取模块，以提取的N种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的一种语音信息为提取方向，从所述语音信号中提取N种语音信息；或者，

若所述N大于1，则利用所述多模态语音识别模型的语音信息提取模块，以提取的每一种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的该种语音信息为提取方向，从所述语音信号中提取N种语音信息。
一种语音识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-9中任一项所述的语音识别方法的各个步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-9中任一项所述的语音识别方法的各个步骤。