WO2021196802A1

WO2021196802A1 - 多模态语音识别模型训练方法、装置、设备及存储介质

Info

Publication number: WO2021196802A1
Application number: PCT/CN2020/142166
Authority: WO
Inventors: 景子君; 潘嘉; 吴华鑫
Original assignee: 科大讯飞股份有限公司
Priority date: 2020-03-31
Filing date: 2020-12-31
Publication date: 2021-10-07
Also published as: CN111462733A; CN111462733B

Abstract

一种多模态语音识别模型训练方法、装置、设备及存储介质，在多模态语音识别模型的训练过程中，训练数据包含单音频信号，以及用于基于单音频信号生成对应的图像特征的数据集，丰富了多模态语音识别模型训练过程中的训练数据集，从而提高了多模态语音处理方法的泛化能力，提高了多模态语音识别模型的可靠性。

Description

多模态语音识别模型训练方法、装置、设备及存储介质

本申请要求于2020年03月31日提交中国专利局、申请号为202010247184.7、发明创造名称为“多模态语音识别模型训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种多模态语音识别模型训练方法、装置、设备及存储介质。

背景技术

传统的语音识别技术是通过仅对语音信号进行处理得到识别结果，这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而，在一些高噪声，远场的环境下，传统的语音识别技术的识别率会迅速下降。为了提高语音识别率，有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法，在一定程度上提高了高噪声场景下语音的识别率。

然而，现有的用于多模态语音识别的多模态语音识别模型的泛化能力弱，导致多模态语音识别模型的可靠性差。

因此，如何提高多模态语音识别模型的可靠性成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种多模态语音识别模型训练方法、装置、设备及存储介质，以提高多模态语音识别模型的可靠性。

为了实现上述目的，现提出的方案如下：

一种多模态语音识别模型训练方法，包括：

通过所述多模态语音识别模型获取训练数据；

若所述训练数据仅包含样本语音信号，则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。

上述方法，优选的，还包括：

若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则所述多模态语音识别模型获取所述唇动相关区域图像的特征，作为与所述样本语音信号对应的目标图像特征。

上述方法，优选的，所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，包括：

利用所述样本语音信号获得各个基本图像特征的权重；

利用各个基本图像特征的权重，将所述各个基本图像特征加权求和，得到与所述样本语音信号对应的目标图像特征。

上述方法，优选的，所述利用所述样本语音信号获得各个基本图像特征的权重，包括：

利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换；

利用转换后的语音特征，以及转换后的基本图像特征，计算各个基本图像特征的权重。

上述方法，优选的，所述对所述多模态语音识别模型的参数进行更新，包括对所述空间转换参数的更新。

上述方法，优选的，所述样本语音信号为第一语种的语音信号；在所述多模态语音识别模型训练好之后，还包括：

通过所述多模态语音识别模型的语音特征提取模块，获取第二语种的样本语音信号的语音特征；

通过所述多模态语音识别模型的图像特征生成模块，利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理，得到与所述第二语种的样本语音信号对应的目标图像特征；

通过所述多模态语音识别模型的识别模块，根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别，得到所述第二语种的样本语音信号的语音识别结果；

以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标，对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。

上述方法，优选的，根据已知的唇动相关区域图像获得基本图像特征的过程，包括：

获取与若干已知的语音信号同步采集的唇动相关区域图像序列；

分别对每个唇动相关区域图像序列进行采样，得到每一个语音信号对应的基本唇动相关区域图像；

获取每一个基本唇动相关区域图像的特征，作为所述基本图像特征。

上述方法，优选的，根据已知的唇部相关图像获得基本图像特征的过程，包括：

获取若干已知的唇动相关区域图像的特征；

将所述若干已知的唇动相关区域图像的特征聚类，得到多个聚类簇；

提取每个聚类簇的聚类中心，作为所述基本图像特征。

上述方法，优选的，所述将所述若干已知的唇部相关图像的特征聚类，包括：

对于每一个待聚类的唇动相关区域图像的特征，确定与该唇动相关区域图像的特征的距离最小的聚类中心，作为目标聚类中心；

将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇；

更新所述目标聚类中心所属的聚类簇的聚类中心。

上述方法，优选的，所述获取若干已知的唇部相关图像的特征，包括：

利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征。

上述方法，优选的，所述图像特征提取模型为：以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于对唇动相关区域图像进行特征提取的图像特征提取模块。

一种语音识别方法，包括：

获取待识别对象，所述待识别对象为待识别语音信号，或者，所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像；

将所述待识别对象输入多模态语音识别模型，得到语音识别结果；其中，所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。

一种多模态语音识别模型训练装置，包括：

数据获取模块，用于通过所述多模态语音识别模型获取训练数据；

第一特征获取模块，用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

识别模块，用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

更新模块，用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。

一种语音识别装置，包括：

识别对象获取模块，用于获取待识别对象，所述待识别对象为待识别语音信号，或者，所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像；

多模态识别模块，用于将所述待识别对象输入多模态语音识别模型，得到语音识别结果；其中，所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。

一种设备，包括：包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的多模态语音识别模型训练方法的各个步骤，或者，实现如上所述的语音识别方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的多模态语音识别模型训练方法的各个步骤，或者，实现如上所述的语音识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的多模态语音识别模型训练方法、装置、设备及存储介质，多模态语音识别模型获取训练数据后，若训练数据仅包含样本语音信号，则利用样本语音信号，对根据已知的唇部相关图像获得的预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征；根据样本语音信号的语音特征和目标图像特征进行语音识别，得到样本语音信号的语音识别结果；以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标，对多模态语音识别模型的参数进行更新。基于本申请的模型训练方案，在多模态语音处理模型的训练过程中，训练数据可以包含单音频信号(即未同步采集视频信号)，以及用于基于单音频信号生成对应的图像特征的数据集，丰富了多模态语音处理模型训练过程中的训练数据集，从而提高了多模态语音处理方法的泛化能力，提高了多模态语音识别模型的可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1a为本申请实施例公开的多模态语音识别模型训练方法的一种实现流程图；

图1b为本申请实施例公开的多模态语音识别模型训练方法的另一种实现流程图；

图2a为本申请实施例公开的根据已知的唇动相关区域图像获得基本图像特征的一种实现流程图；

图2b为本申请实施例公开的根据已知的唇动相关区域图像获得基本图像特征的另一种实现流程图；

图3为本申请实施例公开的多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征的一种实现流程图；

图4为本申请实施例公开的多模态语音识别模型的一种结构示意图；

图5为本申请实施例公开的在得到第一多模态语音识别模型之后，利用第二语种的样本语音信号对第一多模态语音识别模型进行进一步训练的一种实现流程图；

图6a为本申请实施例公开的多模态语音识别模型训练装置的一种结构示意图；

图6b为本申请实施例公开的多模态语音识别模型训练装置的另一种结构示意图；

图7为本申请实施例公开的多模态语音识别模型训练设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人研究发现，目前的多模态语音识别模型是通过音视频同步数据(即，同步采集了发声人的语音和唇部视频)进行训练得到的，而音视频同步数据获取难度较大，数量较少，导致目前的多模态语音识别模型只能在小数据集上训练，这造成了多模态语音识别模型的泛化性差，存在过拟合现象。即训练好的多模态语音识别模型在训练数据集上效果好，但在测试数据集上效果差。

为了克服上述技术问题，本申请方案的基本思想是可以通过单音频数据(即只采集了发声人的语音，未采集发声人的视频)，也可以结合同步采集的音频数据和视频数据，丰富多模态语音处理模型训练过程中的训练数据集，从而提高多模态语音处理模型的泛化能力，提高多模态语音识别的可靠性。

基于上述基本思想，本申请实施例提供的多模态语音识别模型训练方法的一种实现流程图如图1a所示，可以包括：

步骤S111：通过多模态语音识别模型获取训练数据。

该训练数据可能仅包含样本语音信号，也可能既包含样本语音信号，又包含与该样本语音信号同步采集的唇动相关区域图像。也就是说，用于对多模态语音识别模型进行训练的训练数据集中可能包含两类训练数据，其中，一类为单语音信号，另一类为同步采集的语音信号和视频。本申请实施例中，将训练数据集中的语音信号统称为样本语音信号。

步骤S112：若训练数据仅包含样本语音信号，则通过多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征；基本图像特征根据已知的唇动相关区域图像获得。

若训练数据仅包含样本语音信号，说明在采集该样本语音信号时未同步采集唇动相关区域图像。

已知的唇动相关区域图像是指音视频同步数据中的图像或图像中的部分。其中，

唇动相关区域可以是指仅唇部区域；或者，

唇动相关区域可以是唇部及其周围区域，比如，唇部和下巴区域；或者，

唇动相关区域可以是整个脸部区域。

本申请实施例中，预先根据若干已知的唇动相关区域图像确定基本图像特征集，即上述预置数据集。在对多模态语音识别模型进行训练的过程中，若训练数据为单语音，则利用单语音和基本图像特征集生成与单语音对应的虚拟唇语特征作为与样本语音信号对应的目标图像特征。

基本图像特征的获取方式有多种，下面列举两种优选的实现方式进行说明：

请参阅图2a，图2a为本申请实施例提供的根据已知的唇动相关区域图像获得基本图像特征的一种实现流程图，可以包括：

步骤S211：获取与若干已知的语音信号同步采集的唇动相关区域图像序列。

假设有N个已知的语音信号同步采集了唇动相关区域图像序列，则唇动相关区域图像序列的个数也为N。

步骤S212：分别对每个唇动相关区域图像序列进行采样，得到每一个语音信号对应的基本唇动相关区域图像。

每个唇动相关区域图像序列的采样率不做具体限定，可以每个唇动相关区域图像序列中仅采样一帧唇动相关区域图像，也可以每个唇动相关区域图像序列中采样两帧或更多帧唇动相关区域图像。

具体的采样方式可以为随机采样，或者，可以按照预定的采样方式进行采样。比如，每Q帧中采样1帧等。

步骤S213：获取每一个基本唇动相关区域图像的特征，作为基本图像特征。

可选的，可以利用图像特征提取模型获取基本唇动相关区域图像的特征。其中，图像特征提取模型具体可以为：以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于对唇动相关区域图像进行特征提取的图像特征提取模块。具体的，可以将基本唇动相关区域图像输入唇语识别模型，该唇语识别模型中的图像特征提取模块输出的特征即为基本图像特征。

本申请实施例中，不对唇语识别模型的具体架构进行限定，但不管唇语识别模型的架构是怎样的，均可以包含图像特征提取模块。比如，在一可选的实施例中，唇语识别模型可以包括：图像特征提取模块，用于提取输入唇语识别模型的图像序列的特征；唇语识别模块，用于根据图像特征提取模块提取的特征进行唇语识别。唇语识别模型的训练过程可以包括但不限于以下的实现方式：将唇动相关区域图像样本输入唇语识别模型，得到唇语识别模型输出的文本内容，以唇语识别模型输出的文本内容趋近于唇动相关区域图像样本对应的发音内容为目标，对唇语识别模型的参数进行更新，得到训练好的唇语识别模型。

请参阅图2b，图2b为本申请实施例提供的根据已知的唇动相关区域图像获得基本图像特征的另一种实现流程图，可以包括：

步骤S221：获取若干已知的唇动相关区域图像的特征。

该若干已知的唇动相关区域图像可以是与多个已知的语音信号同步采集的唇动相关区域图像序列中的所有图像。唇动相关区域图像的特征可以是利用图2a所示实施例中的图像特征提取模型获取的唇动相关区域图像的特征。唇动相关区域图像的特征可以为一定维度的特征向量，比如，512维的特征向量，或者，1024维的特征向量，或者，256维的特征向量，或者128维的特征向量等等。可选的，唇语识别模块是一个帧分类网络，其可以仅包含一层全连接，使得唇语识别模型中的图像特征提取模块提取的特征能够更直接的反映唇语特征，为基本图像特征的获取提供便利。

步骤S222：将若干已知的唇动相关区域图像的特征聚类，得到多个聚类簇。

可选的，可以对所有的特征向量进行基于余弦距离的聚类，比如，kmeans聚类。聚类的类别数可以为128，或者，56，或者，256等等，还可以为其它数量，这里不做具体限定。具体聚类过程可以包括：

对于每一个待聚类的唇动相关区域图像的特征，确定与该唇动相关区域图像的特征的距离最小的聚类中心，作为目标聚类中心；即，对于每一个待聚类的唇动相关区域图像的特征，分别计算该唇动相关区域图像的特征与每一个聚类中心的距离，将计算得到的各个距离进行比较，确定最小距离。具体的，唇动相关区域图像的特征P与聚类中心Center的距离Distance可以通过如下公式计算得到：

将该唇动相关区域图像的特征聚合到目标聚类中心所属的聚类簇。若该唇动相关区域图像的特征与聚类中心J的距离最小，则将该唇动相关区域图像的特征聚合到目标聚类中心J所属的聚类簇。

更新目标聚类中心所属的聚类簇的聚类中心。可选的，可以根据目标聚类中心所属的聚类簇的聚类中心、该唇动相关区域图像的特征，以及目标聚类中心所属的聚类簇中的图像特征的数量，确定目标聚类中心所属的聚类簇的新的聚类中心。具体的，假设目标聚类中心所属的聚类簇更新前，该聚类簇中有n个成员，即1个聚类中心(为便于叙述，记为Center _n-1)，以及该聚类中心的n-1个聚类点(即聚合到聚类中心所属的聚类簇中的唇动相关区域图像的特征)，将唇动相关区域图像的特征P聚合到目标聚类中心所属的聚类簇后，该目标聚类中心所属的聚类簇的聚类中心更新为Center _n，则更新后的聚类中心Center _n可以通过如下公式得到：

步骤S223：提取每个聚类簇的聚类中心，作为基本图像特征。

步骤S113：通过多模态语音识别模型根据样本语音信号的语音特征和样本语音信号对应的目标图像特征进行语音识别，得到样本语音信号的语音识别结果。

步骤S114：通过多模态语音识别模型以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标，对多模态语音识别模型的参数进行更新。

本申请实施例公开的多模态语音识别模型训练方法，在多模态语音处理模型的训练过程中，训练数据可以包含单音频信号(即未同步采集视频信号)，以及用于基于单音频信号生成对应的图像特征的数据集，丰富了多模态语音处理模型训练过程中的训练数据集，从而提高了多模态语音处理方法的泛化能力，提高了多模态语音识别模型的可靠性。

为了进一步丰富训练集，训练数据还可以包括同步采集的音频数据和视频数据，基于此，请参阅图1b，图1b为本申请实施例提供的多模态语音识别模型训练方法的另一种实现流程图，可以包括：

步骤S121：通过多模态语音识别模型获取训练数据。

步骤S122：若训练数据仅包含样本语音信号，则通过多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征；基本图像特征根据已知的唇动相关区域图像获得。

步骤S121-步骤S122的具体实现方式可以参看前述步骤S111-步骤S112，这里不再赘述。

步骤S123：若训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则通过多模态语音识别模型获取唇动相关区域图像的特征，作为与样本语音信号对应的目标图像特征。

若训练数据同时包含语音和唇动相关区域图像，则直接从唇动相关区域图像中提取特征，得到与样本语音信号对应的目标图像特征。本申请实施例中，不管唇动相关区域图像是直接采集的，还是从采集的图像中裁剪得到的，均统称为与语音信号同步采集的唇动相关区域图像。

步骤S124通过多模态语音识别模型根据样本语音信号的语音特征和样本语音信号对应的目标图像特征进行语音识别，得到样本语音信号的语音识别结果。

步骤S125：通过多模态语音识别模型以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标，对多模态语音识别模型的参数进行更新。

步骤S124-步骤S125的具体实现方式可以参看前述步骤S113-步骤S114，这里不再赘述。

本申请实施例中，训练数据集中包括两类训练数据(一类训练数据为单语音数据，另一类训练数据为同步采集的音频数据和视频数据)，基于该训练数据集对多模态语音识别模型进行训练，可以进一步提高多模态语音处理方法的泛化能力，从而进一步提高多模态语音识别模型的可靠性。

在一可选的实施例中，多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征的一种实现流程图如图3所示，可以包括：

步骤S31：利用样本语音信号获得各个基本图像特征的权重。

对于同一基本图像特征而言，样本语音信号不同，该基本图像特征的权重可能是不同的。

可选的，可以利用空间转换参数对样本语音信号的语音特征以及各个基本图像特征分别进行空间转换，利用转换后的语音特征，以及转换后的基本图像特征，计算各个基本图像特征的权重。通过将样本语音信号的语音特征以及各个基本图像特征分别进行空间转换，使得转换后的语音特征，以及转换后的基本图像特征处于同一空间，从而能准确得到各个基本图像特征的权重。

其中，可以利用第一空间转换参数对样本语音信号的语音特征进行空间转换，得到转换后的语音特征，利用第二空间转换参数对基本图像特征进行空间转换，得到转换后的基本图像特征。第二空间转换参数由多个子空间转换参数组成，每个基本图像特征对应一个子空间转换参数。

第一空间转换参数和各个子空间转换参数均可以为空间转换矩阵。

可选的，可以利用如下公式计算语音特征为A时，第i(i＝1，2，3，……，n；n为预置数据集中的基本图像特征的数量)个基本图像特征的权重a _Ai：

其中，K _A表示语音特征A对应的空间转换矩阵；M _i表示第i个基本图像特征；

表示第i个基本图像特征M _i对应的空间转换矩阵；

表示第j个基本图像特征M _j对应的空间转换矩阵；M _j表示第j个基本图像特征。

体现了语音特征A与第i个基本图像特征M _i的相关性，本申请实施例中，利用进行空间转换得到的转换后的语音特征，以及转换后的基本图像特征计算语音特征A与第i个基本图像特征M _i的相关性，保证了语音特征A与第i个基本图像特征M _i的相关性的准确性，从而保证计算得到各个基本图像特征的权重的准确性。

步骤S32：利用各个基本图像特征的权重，将各个基本图像特征加权求和，得到与样本语音信号对应的目标图像特征。

如果对语音信号进行特征提取得到语音特征A，则语音特征A对应的目标图像特征M _Ao用公式可以表示为：

在一可选的实施例中，上述多模态语音识别模型的一种结构示意图如图4所示，可以包括：

语音特征提取模块41，图像特征生成模块42，图像特征提取模块43和识别模块44；其中，

语音特征提取模块41用于获取样本语音信号的语音特征。语音特征可以为声学特征(比如fbank特征，或者，梅尔频率倒谱系数(MFCC)特征等)的隐层特征。

图像特征生成模块42用于若多模态语音识别模型获取的训练数据仅包含样本语音信号，则利用样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与样本语音信号对应的目标图像特征。

图像特征提取模块43用于若多模态语音识别模型获取的训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则对该唇动相关区域图像进行特征提取，得到与样本语音信号对应的目标图像特征。

在采集音视频同步数据的实时，通常是采集一定时长的音频信号，以及该一定时长内的视频。

以唇动相关区域图像仅包含唇部区域为例，唇动相关区域区域图像可以为以嘴部中心点为中心，在采集的视频图像中取预定大小的嘴部区域图像。预定大小可以为80×80。

采集的视频帧率通常为25fps，为了与视频数据同步，本申请实施例中，对采集的语音信号采用滑窗进行分帧，具体的，可以通过窗长为25ms，帧移为10ms的滑动窗口在采集得到的语音信号中进行滑动得到100fps的语音帧，对于每个语音帧，进行初始特征(比如fbank特征)提取，得到初始fbank特征序列，该初始fbank特征为40维向量。本申请实施例中，输入多模态语音识别模型的样本语音信号为样本语音信号的100fps的初始fbank特征序列。图像特征提取模块43对该100fps的初始fbank特征序列进行特征提取，得到25fps的512维的语音特征向量(通常为隐层特征)。

识别模块44用于根据语音特征和目标图像特征进行语音识别，得到样本语音信号的语音识别结果。具体的，识别模块将语音特征和目标图像特征进行融合，得到融合特征，然后利用融合特征进行语音识别，得到语音识别结果。

该多模态语音识别模型的损失函数Loss可以为：

Loss＝α*CELoss(φ(A,V),Label)+(1-α)*CELoss(φ _M(A,M),Label)

其中，若多模态语音识别模型获取的训练数据仅包含样本语音信号，则α＝0，若多模态语音识别模型获取的训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则α＝1。φ(A,V)表示训练数据同时包含样本语音信号及唇动相关区域图像时多模态语音识别模型的输出；φ _M(A,M)表示训练数据仅包含样本语音信号时多模态语音识别模型的输出；Label表示训练数据对应的标签，即真实语音内容；CELoss表示交叉熵损失函数，当然，本申请实施例中，损失函数并不限于交叉熵损失函数，还可以是其它损失函数，本申请不做具体限定。

在一可选的实施例中，上述对多模态语音识别模型的参数进行更新包括对上述语音特征提取模块41的参数，图像特征生成模块42的参数，图像特征提取模块43的参数和识别模块44的参数的更新。其中，图像特征生成模块42的参数包括上述空间转换参数，因此，上述对多模态语音识别模型的参数进行更新包括对上述空间转换参数的更新。

在一可选的实施例中，为了进一步提高多模态语音识别模型的识别准确率，在对多模态语音识别模型训练之前，可以对一些功能模块进行预训练。

可选的，在对多模态语音识别模型训练之前，语音特征提取模块41初始参数可以为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于对语音信号进行特征提取的特征提取模块的参数。

也就是说，语音特征提取模块41的初始参数是利用纯语音样本训练好的语音识别模型中的特征提取模块的参数。

本申请实施例中，不对语音识别模型的具体架构进行限定，但不管语音识别模型的架构是怎样的，均可以包含特征提取模块。比如，在一可选的实施例中，语音识别模型可以包括：特征提取模块，用于提取输入语音识别模型的声学特征；识别模块，用于根据特征提取模块提取的特征进行语音识别。语音识别模型的训练过程不做限定，可以用已有或未来可以用的训练方法

这里用于训练语音识别模型的语音样本中可以包含用于训练上述多模态语音识别模型的语音样本，也可以不包含上述用于训练上述多模态语音识别模型的语音样本，本申请对此不做具体限定。

可选的，在对多模态语音识别模型训练之前，图像特征提取模块43的初始参数可以为，以图像序列及其对应的发音内容为训练数据训练好的唇语识别模型中，用于对图像序列进行特征提取的图像特征提取模块的参数。

也就是说，图像特征提取模块43的初始参数是利用纯图像序列样本训练好的唇语识别模型中的图像特征提取模块的参数。

本申请实施例中，不对唇语识别模型的具体架构进行限定，但不管唇语识别模型的架构是怎样的，均可以包含图像特征提取模块。比如，在一可选的实施例中，唇语识别模型可以包括：图像特征提取模块，用于提取输入唇语识别模型的图像序列的特征；识别模块，用于根据图像特征提取模块提取的特征进行唇语识别。唇语识别模型的训练过程不做限定，可以用已有的或未来可能用的训练方法。

这里用于训练唇语识别模型的图像序列样本中可以包含用于训练上述多模态语音识别模型的图像序列样本，也可以不包含上述用于训练上述多模态语音识别模型的图像序列样本，本申请对此不做具体限定。

在一可选的实施例中，上述训练数据中包含的语音信号为第一语种的语音信号，则在多模态语音识别模型训练好之后，训练好的多模态语音识别模型可以用于进行第一语种的语音识别。第一语种可以为任意一种语种，比如，可以为如下几种语种中的任意一种：汉语、英语、韩语、日语、法语、意大利语等等。

在利用第一语种的训练数据训练好多模态语音识别模型之后，还可以在第二语种的训练数据没有视频数据的情况下，将前述训练好的多模态语音识别模型(为便于叙述，记为第一多模态语音识别模型)迁移到用于第二语种的多模态语音识别的多模态语音识别模型(为便于叙述，记为第二多模态语音识别模型)的训练。即若第一语种的训练数据集中具有音视频同步数据，而第二语种的训练数据集中没有音视频同步数据，则可以先利用第一语种的训练数据集按照前述方法训练多模态语音识别模型，在利用第一语种的训练数据集训练得到第一多模态语音识别模型后，再利用第二语种的训练数据集对训练好的第一多模态语音识别模型进行进一步训练，得到第二多模态语音识别模型，该第二多模态语音识别模型即可以利用第二语种的音视频同步数据实现多模态语音识别了。由于第二多模态语音识别模型是在第一多模态语音识别模型的基础上训练得到的，而第一多模态语音识别模型是预训练得到的，因此，利用第二语种的训练数据集对第一多模态语音识别模型进行训练，收敛速度快，且训练得到的多模态语音识别模型对第二语种的音视频同步数据进行多模态语音识别的准确率较高，实现了多模态语音识别模型在不同语种间的迁移。

具体的，在得到第一多模态语音识别模型之后，利用第二语种的样本语音信号对第一多模态语音识别模型进行进一步训练的一种实现流程图如图5所示，可以包括：

步骤S51：通过第一多模态语音识别模型的语音特征提取模块41，获取第二语种的样本语音信号的语音特征。

步骤S52：通过第一多模态语音识别模型的图像特征生成模块42，利用第二语种的样本语音信号的语音特征对上述预置数据集中的各个基本图像特征进行处理，得到与第二语种的样本语音信号对应的目标图像特征。

步骤S53：通过第一多模态语音识别模型的识别模块44，根据第二语种的样本语音信号的语音特征和第二语种的样本语音信号对应的目标图像特征进行语音识别，得到第二语种的样本语音信号的语音识别结果。

步骤S54：以第二语种的样本语音信号的语音识别结果趋近于第二语种的样本语音信号的语音内容为目标，对语音特征提取模块41、图像特征生成模块42和识别模块44的参数进行更新。

由于第二语种的训练数据集中仅包含单语音数据，因而在利用第二语种的训练数据集对第一多模态语音识别模型进行进一步训练时，不会用到图像特征提取模块43，所以训练得到的第二多模态语音识别模型中的图像特征提取模块与第一多模态语音识别模型中的图像特征提取模块的参数是相同的。

在训练得到的多模态语音识别模型后，就可以利用多模态语音识别模型进行多模态语音识别了，基于此，本申请实施例提供的语音识别方法的一种实现方式可以为：

获取待识别对象，该待识别对象为待识别语音信号，或者，该待识别对象为待识别语音信号以及与待识别语音信号同步采集的唇动相关区域图像。其中，待识别语音信号为第一语种的语音信号，或者，为第二语种的语音信号，具体根据多模态语音识别模型确定，即如果多模态语音识别模型为第一多模态语音识别模型，则待识别语音信号为第一语种的语音信号，如果多模态语音识别模型为第二多模态语音识别模型，则待识别语音信号为第二语种的语音信号。

将待识别对象输入多模态语音识别模型，得到语音识别结果。

可选的，多模态语音识别模型得到语音识别结果的过程可以包括：

如果待识别对象为待识别语音信号，则多模态语音识别模型利用待识别语音信号对预置数据集中的各个基本图像特征进行处理，得到与待识别语音信号对应的目标图像特征；

根据待识别语音信号的语音特征和目标图像特征进行语音识别，得到待识别语音信号的语音识别结果

如果待识别对象为待识别语音信号以及与待识别语音信号同步采集的唇动相关区域图像，则多模态语音识别模型获取待识别语音信号的语音特征，以及唇动相关区域图像的特征，根据待识别语音信号的语音特征，以及唇动相关区域图像的特征进行语音识别，得到待识别语音信号对应的语音识别结果。

与方法实施例相对应，本申请实施例还提供一种多模态语音识别模型训练装置。

如图6a所示，为本申请实施例提供的多模态语音识别模型训练装置的一种结构示意图，可以包括：

数据获取模块611，第一特征获取模块612，识别模块613和更新模块614；其中，

数据获取模块611用于通过所述多模态语音识别模型获取训练数据；

第一特征获取模块612用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

识别模块613用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

更新模块614用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。

本申请实施例提供的多模态语音识别模型训练装置，在多模态语音处理模型的训练过程中，训练数据可以包含单音频信号(即未同步采集视频信号)，以及用于生成单音频信号对应的图像特征的数据集，丰富了多模态语音处理模型训练过程中的训练数据集，从而提高了多模态语音处理方法的泛化能力，提高了多模态语音识别模型的可靠性。

在一可选的实施例中，第一特征获取模块612可以包括：

权重获取模块，用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用所述样本语音信号获得各个基本图像特征的权重；

目标获取模块，用于通过所述多模态语音识别模型利用各个基本图像特征的权重，将所述各个基本图像特征加权求和，得到与所述样本语音信号对应的目标图像特征。

在一可选的实施例中，权重获取模块可以包括：

空间转换模块，用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换；

计算模块，用于通过所述多模态语音识别模型利用转换后的语音特征，以及转换后的基本图像特征，计算各个基本图像特征的权重。

在一可选的实施例中，更新模块614对所述多模态语音识别模型的参数进行更新包括：对所述空间转换参数的更新。

在一可选的实施例中，所述样本语音信号为第一语种的语音信号；所述多模态语音识别模型训练装置还用于：通过所述多模态语音识别模型的语音特征提取模块，获取第二语种的样本语音信号的语音特征；

所述第一特征获取模块612还用于：通过所述多模态语音识别模型的图像特征生成模块，利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理，得到与所述第二语种的样本语音信号对应的目标图像特征；

所述识别模块613还用于：通过所述多模态语音识别模型的识别模块，根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别，得到所述第二语种的样本语音信号的语音识别结果；

所述更新模块614还用于：以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标，对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。

在一可选的实施例中，所述多模态语音识别模型训练装置还可以包括：

基本图像特征获取模块，用于获取与若干已知的语音信号同步采集的唇动相关区域图像序列；分别对每个唇动相关区域图像序列进行采样，得到每一个语音信号对应的基本唇动相关区域图像；获取每一个基本唇动相关区域图像的特征，作为所述基本图像特征。

基本图像特征获取模块，用于获取若干已知的唇动相关区域图像的特征；将所述若干已知的唇动相关区域图像的特征聚类，得到多个聚类簇；提取每个聚类簇的聚类中心，作为所述基本图像特征。

在一可选的实施例中，基本图像特征获取模块将所述若干已知的唇动相关区域图像的特征聚类时，具体用于：

更新所述目标聚类中心所属的聚类簇的聚类中心。

在一可选的实施例中，所述基本图像特征获取模块获取若干已知的唇部相关图像的特征时，具体用于：

在一可选的实施例中，所述图像特征提取模型为：以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于对唇动相关区域图像进行特征提取的图像特征提取模块。

如图6b所示，为本申请实施例提供的多模态语音识别模型训练装置的另一种结构示意图，可以包括：

数据获取模块621，第一特征获取模块622，第二特征获取模块623，识别模块624和更新模块625；其中，

数据获取模块621用于通过所述多模态语音识别模型获取训练数据；

第一特征获取模块622用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

第二特征获取模块623用于若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则通过所述多模态语音识别模型获取所述唇动相关区域图像的特征，作为与所述样本语音信号对应的目标图像特征；

识别模块624用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

更新模块625用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。

本申请实施例提供的多模态语音识别模型训练装置，在多模态语音处理模型的训练过程中，训练数据不局限于同步采集的音频数据和视频数据，还包含单音频信号(即未同步采集视频信号)，以及用于生成单音频信号对应的图像特征的数据集，进一步丰富了多模态语音处理模型训练过程中的训练数据集，从而进一步提高了多模态语音处理方法的泛化能力，也就进一步提高了多模态语音识别模型的可靠性。

与方法实施例相对应，本申请实施例还提供一种语音识别装置，本申请实施例提供的语音识别装置可以包括：

识别对象获取模块，用于获取待识别对象，所述待识别对象为待识别语音信号，或者，所述待识别对象为待识别语音信号，以及与所述待识别语音信号同步采集的唇动相关区域图像；

多模态识别模块，用于将所述待识别对象输入多模态语音识别模型，得到语音识别结果；其中，所述多模态语音识别模型通过如上任意一实施例所述的多模态语音识别模型训练方法训练得到。

本申请实施例提供的多模态语音识别模型训练装置可应用于多模态语音识别模型训练设备，如PC终端、云平台、服务器及服务器集群等。可选的，图7示出了多模态语音识别模型训练设备的硬件结构框图，参照图7，多模态语音识别模型训练设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

通过所述多模态语音识别模型获取训练数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

通过所述多模态语音识别模型获取训练数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例提供的语音识别装置可应用于语音识别设备，如PC终端、云平台、服务器及服务器集群等。可选的，该语音识别设备的硬件结构框图可以参看图7，这里不再赘述，与多模态语音识别模型训练设备中的存储器存储的程序不同，语音识别设备中的存储器存储的程序用于：

语音识别设备和多模态语音识别模型训练设备的功能可以集成于同一设备中。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种多模态语音识别模型训练方法，其特征在于，包括：

通过所述多模态语音识别模型获取训练数据；

若所述训练数据仅包含样本语音信号，则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。
根据权利要求1所述的方法，其特征在于，还包括：

若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则所述多模态语音识别模型获取所述唇动相关区域图像的特征，作为与所述样本语音信号对应的目标图像特征。
根据权利要求1所述的方法，其特征在于，所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，包括：

利用所述样本语音信号获得各个基本图像特征的权重；

利用各个基本图像特征的权重，将所述各个基本图像特征加权求和，得到与所述样本语音信号对应的目标图像特征。
根据权利要求3所述的方法，其特征在于，所述利用所述样本语音信号获得各个基本图像特征的权重，包括：

利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换；

利用转换后的语音特征，以及转换后的基本图像特征，计算各个基本图像特征的权重。
根据权利要求4所述的方法，其特征在于，所述对所述多模态语音识别模型的参数进行更新，包括对所述空间转换参数的更新。
根据权利要求1所述的方法，其特征在于，所述样本语音信号为第一语种的语音信号；在所述多模态语音识别模型训练好之后，还包括：

通过所述多模态语音识别模型的语音特征提取模块，获取第二语种的样本语音信号的语音特征；

通过所述多模态语音识别模型的图像特征生成模块，利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理，得到与所述第二语种的样本语音信号对应的目标图像特征；

通过所述多模态语音识别模型的识别模块，根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别，得到所述第二语种的样本语音信号的语音识别结果；

以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标，对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。
根据权利要求1-6任意一项所述的方法，其特征在于，根据已知的唇动相关区域图像获得基本图像特征的过程，包括：

获取与若干已知的语音信号同步采集的唇动相关区域图像序列；

分别对每个唇动相关区域图像序列进行采样，得到每一个语音信号对应的基本唇动相关区域图像；

获取每一个基本唇动相关区域图像的特征，作为所述基本图像特征。
根据权利要求1-6任意一项所述的方法，其特征在于，根据已知的唇部相关图像获得基本图像特征的过程，包括：

获取若干已知的唇动相关区域图像的特征；

将所述若干已知的唇动相关区域图像的特征聚类，得到多个聚类簇；

提取每个聚类簇的聚类中心，作为所述基本图像特征。
根据权利要求8所述的方法，其特征在于，所述将所述若干已知的唇部相关图像的特征聚类，包括：

对于每一个待聚类的唇动相关区域图像的特征，确定与该唇动相关区域图像的特征的距离最小的聚类中心，作为目标聚类中心；

将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇；

更新所述目标聚类中心所属的聚类簇的聚类中心。
根据权利要求8所述的方法，其特征在于，所述获取若干已知的唇部相关图像的特征，包括：

利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征；

所述图像特征提取模型为：以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于对唇动相关区域图像进行特征提取的图像特征提取模块。
一种语音识别方法，其特征在于，包括：

获取待识别对象，所述待识别对象为待识别语音信号，或者，所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像；

将所述待识别对象输入多模态语音识别模型，得到语音识别结果；其中，所述多模态语音识别模型通过如权利要求1-10任意一项所述的多模态语音识别模型训练方法训练得到。
一种多模态语音识别模型训练装置，其特征在于，包括：

数据获取模块，用于通过所述多模态语音识别模型获取训练数据；

第一特征获取模块，用于若所述训练数据仅包含样本语音信号，则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

识别模块，用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

更新模块，用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。
一种语音识别装置，其特征在于，包括：

识别对象获取模块，用于获取待识别对象，所述待识别对象为待识别语音信号，或者，所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像；

多模态识别模块，用于将所述待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像输入多模态语音识别模型，得到语音识别结果；其中，所述多模态语音识别模型通过如权利要求1-10任意一项所述的多模态语音识别模型训练方法训练得到。
一种设备，其特征在于，包括：包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-10中任一项所述的多模态语音识别模型训练方法的各个步骤，或者，实现如权利要求11所述的语音识别方法的各个步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-10中任一项所述的多模态语音识别模型训练方法的各个步骤，或者，实现如权利要求11所述的语音识别方法的各个步骤。