WO2020186886A1

WO2020186886A1 - 一种人脸识别模型的生成方法及设备

Info

Publication number: WO2020186886A1
Application number: PCT/CN2019/130815
Authority: WO
Inventors: 乔宇; 邓重英; 彭小江
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2019-03-18
Filing date: 2019-12-31
Publication date: 2020-09-24
Also published as: CN110046551A; CN110046551B

Abstract

本申请适用于图像处理技术领域，提供了一种人脸识别模型的生成方法及设备，包括：获取训练对象在各个预设模态对应的人脸图像；通过预设的第一卷积神经网络提取第一人脸图像的第一深度特征向量；通过预设的第二卷积神经网络以及关于次模态的待调整的残差补偿模型提取第二人脸图像的第二深度特征向量；基于多个训练对象对应的第一深度特征向量以及第二深度特征向量对残差补偿模型进行调整，根据调整后的残差补偿模型、第一卷积神经网络以及第二卷积神经网络生成人脸识别模型。本申请通过输入训练对象的人脸信息来生成人脸识别模型，从而能够提高多模态下人脸识别的准确性，减少人力成本。

Description

一种人脸识别模型的生成方法及设备

技术领域

本发明属于图像处理技术领域，尤其涉及一种人脸识别模型的生成方法及设备。

背景技术

多模态人脸识别在安防监控和公安执法方面的具有广阔的应用前景。例如，在夜间黑暗场景下，普通的监控摄像头往往难以较好成像，这限制了监控摄像头在夜间的作用。而由于近红外摄像头在夜间具有较好的成像能力，能够弥补基于可视光成像原理的监控摄像头的不足。再比如，公安部门在抓捕嫌疑犯时，可以根据目击证人的相关描述，通过图像合成的手段来生成关于嫌疑犯的合成人脸照片。而公安部门在制作颁发身份证时会在可见光的条件下用普通照相机采集公民的人脸图像，即公安部门只记录可视光下的人脸图像。因此，如何根据合成的人脸图像或基于各种探测光采集的人脸图像来进行人脸识别，即多模态人脸识别技术在现今的作用越来越重要。

现有的多模态人脸识别技术，一般采用的是基于人工设计特征的多模态人脸识别技术，然而上述方式受限于人工特征的表达能力，而由于人工特征无法穷举所有人脸的不同特征，而且当描述不准确时则会直接影响该人脸识别技术的识别准确性，由此可见，基于人工设计特征的多模态人脸识别技术的准确率低，而且人力成本较高。

技术问题

有鉴于此，本发明实施例提供了一种人脸识别模型的生成方法及设备，以解决现有的多模态人脸识别技术，主要是基于人工设计特征进行多模态人脸识别，导致人脸识别的准确率低，而且人力成本较高的问题。

技术解决方案

本发明实施例的第一方面提供了一种人脸识别模型的生成方法，包括：

获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像；

通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量；

通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量；

基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值；

根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。

本发明实施例的第二方面提供了一种人脸识别模型的生成设备，包括：

人脸图像获取单元，用于获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像；

第一深度特征向量获取单元，用于通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量；

第二深度特征向量获取单元，用于通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量；

残差补偿模型调整单元，用于基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值；

人脸识别模型生成单元，用于根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

有益效果

实施本发明实施例提供的一种人脸识别模型的生成方法及设备具有以下有益效果：

本发明实施例通过获取训练对象在不同模态下的人脸图像，并通过待调整的残差补偿模型以及卷积神经网络提取次模态的第二深度特征向量，基于关于主模态的第一深度特征向量以及第二深度特征向量再对残差补偿模型进行反馈调整，以使第一深度特征向量以及第二深度特征向量之间的差异度小于预设的差异阈值，即识别结果收敛，由于主模态以及次模态的人脸图像属于同一个实体人，且深度特征向量用于表示人脸各个关键点的特征，因此若残差补偿模块调整完毕，则两个模态的深度特征向量的偏差值较小，因而当两个深度特征向量之间的差异度小于预设的差异度阈值时，则可以确定该残差补偿模块已调整完毕，并基于该残差补偿模块生成人脸识别模型。与现有的多模态人脸识别技术相比，本发明不依赖用户对人脸信息进行人工特征描述，可以通过输入训练对象的人脸信息来生成人脸识别模型，从而能够提高多模态下人脸识别的准确性，减少人力成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种人脸识别模型的生成方法的实现流程图；

图2是本发明一实施例提供的一种十层残差网络的结构示意图；

图3是本发明一实施例提供的4种多模态人脸识别网络的结构示意图；

图4是本发明一实施例提供的残差补偿模块配置于卷积层后的第二卷积神经网络的结构示意图；

图5是本发明第二实施例提供的一种人脸识别模型的生成方法S104具体实现流程图；

图6是本发明第三实施例提供的一种人脸识别模型的生成方法S1042具体实现流程图；

图7是本发明一实施例提供的人脸识别模型的网络结构图；

图8是本发明第四实施例提供的一种人脸识别模型的生成方法S1042具体实现流程图；

图9是本发明第五实施例提供的一种人脸识别模型的生成方法S101具体实现流程图；

图10是本发明第六实施例提供的一种人脸识别模型的生成方法的具体实现流程图；

图11是本发明第七实施例提供的一种人脸识别模型的生成方法的具体实现流程图；

图12是本发明一实施例提供的一种人脸识别模型的生成设备的结构框图；

图13是本发明另一实施例提供的一种终端设备的示意图。

本发明的实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过获取训练对象在不同模态下的人脸图像，并通过待调整的残差补偿模型以及卷积神经网络提取次模态的第二深度特征向量，基于关于主模态的第一深度特征向量以及第二深度特征向量再对残差补偿模型进行反馈调整，以使第一深度特征向量以及第二深度特征向量之间的差异度小于预设的差异阈值，即识别结果收敛，由于主模态以及次模态的人脸图像属于同一个实体人，且深度特征向量用于表示人脸各个关键点的特征，因此若残差补偿模块调整完毕，则两个模态的深度特征向量的偏差值较小，因而当两个深度特征向量之间的差异度小于预设的差异度阈值时，则可以确定该残差补偿模块已调整完毕，并基于该残差补偿模块生成人脸识别模型，解决了现有多模态人脸识别技术，主要是基于人工设计特征进行多模态人脸识别，导致人脸识别的准确率低，而且人力成本较高的问题。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行人脸识别模型的生成操作的设备。优选地，该终端设备具体为一人脸识别装置，可以通过输入的人脸图像确定目标对象的对象属性，该终端设备具有多个输入通道，每个输入通道可以用于识别预设模态的人脸图像，从而实现多模态的人脸识别。图1示出了本发明第一实施例提供的人脸识别模型的生成方法的实现流程图，详述如下：

在S101中，获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像。

在本实施例中，终端设备可以从数据库中提取关于训练对象在不同的预设模态下的人脸图像，各个人脸图像所对应的实体人相同，继而可以将关于不同模态的人脸图像识别为同一个人脸图像组。如上所述，不同模态的人脸图像具体指的是通过不同的成像原理所输出的人脸图像。其中，不同模态的人脸图像包括但不限于：基于可视光下生成的人脸图像、基于红外光下生成的人脸图像、基于热成像原理生成的人脸图像、基于测距原理生成的景深人脸图像、基于动画合成原理生成的人脸图像以及基于手绘生成的人脸图像等。终端设备可以选取其中一种模态作为主模态，则除主模态外的其余模态则为次模态。

优选地，在本实施例中，终端设备可以将基于可视光原理生成的人脸图像作为主模态对应的人脸图像，由于基于可视光的人脸图像的获取方式被广泛使用，因此能够较易地采集得到大量关于可视光下的人脸图像，并且对可视光的人脸图像的深度特征向量的提取算法较为成熟，从而能够大大提高人脸识别模型的准确性。多模态人脸识别中有两个核心难点，一是多模态数据采集不便，因而可以使用的数据集太少，二是不同模态的图像之间存在着巨大的模态差异。围绕这两个问题，现有技术采用一些对不同模态信息具有鲁棒性的特征表达方法来处理这一问题。如：现有技术中提出了一种共有成分分析的方法来学习来自不同模态的图片对之间的共有成分，从而将属于不同模态的图片对投影到同一特征空间，减少模态差异的影响。另一现有技术中又提出通过模态独立成分分析算法来得到不同模态图片的共同子空间，再通过自我学习的策略在共同子空间中得到与模态独立的词典。再一现有技术中则提出了基于图表达的多模态人脸识别方法。该方法利用马尔科夫网络来建模邻近的图像块之间的相容性关系，并使用了成对表达的相似性度量方法来衡量图片之间的相似性，实现人脸的比对。

而近年来，由于深度学习在视觉领域的良好表现，有些研究工作也开始将深度学习方法应用于多模态人脸识别任务，这既可以充分利用深度神经网络来提取具有较强判别力的特征，还可以利用其来学习到不同模态数据之间的高度非线性关系。现有技术中可以通过在给定数据集上混合不同图片的某些区域来合成图片，从而可以极大地增加数据量，减轻卷积神经网络的过拟合问题。还有现有技术中使用了一个成对的深度学习方法来将不同模态的数据映射到同一个的特征空间。该技术设计了一个目标函数来使不同模态的成对图片的特征向量聚集到一起，同时使属于不同身份的人的图片相互远离，并通过构造三元组的训练样本的方式来隐式地增加训练样本数，减少过拟合。而基于人工设计特征的多模态人脸识别技术受限于人工特征的表达能力，识别的准确率较低；基于深度学习的一些现有技术难以同时解决好减轻卷积神经网络过拟合和减少模态差异这两个问题，且设计较为复杂，使用相对不便，识别效果也难以满足实际应用的需要。为了解决上述技术问题，本发明提出了一种简单有效的基于残差补偿网络的多模态人脸识别方法。

在本实施例中，终端设备可以实现对多模态的人脸图像进行识别，其中包括一个主模态以及至少一个次模态。终端设备可以基于人脸识别模型的模态个数，为不同的模态配置对应的人脸图像输入通道，终端设备在获取到人脸图像后，可以识别该人脸图像的模态类型，并根据该模态类型确定对应的输入通道。其中，若检测到人脸图像为基于主模态的第一人脸图像，则跳转至S102进行处理；反之，若检测到人脸图像为基于次模态的第二人脸图像，则跳转至S103进行处理。优选地，若终端设备可以识别两个或以上次模态的人脸图像，则终端设备可以为不同的次模态配置对应的第二卷积神经网络以及对应的残差补偿模型，以使残差补偿模型与对应的次模态的图像特性相匹配，从而提高识别的准确性。

在S102中，通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量。

在本实施例中，终端设备需要对第一人脸图像进行特征提取，因此会将第一人脸图像导入到预设的第一卷积神经网络中，输出关于第一人脸图像的第一深度特征向量。该第一卷积神经网络可以为基于VGGNet、GoogLeNet、DenseNet、SENet、Xception、light CNN等卷积神经网络结构构建的卷积神经网络。

可选地，该第一卷积神经网络具体为十层残差网络。图2示出了本实施例提供的一种十层残差网络的结构示意图。如图2所示，该十层残差网络包括10个卷积层以及一个全连接(FC)层构成，其中卷积通道数从32逐步增加到512，其中，除了第一层的卷积步长为2外，其余所有卷积层的步长均为1，全连接层输出的128维向量即为主模态下的人脸图像的特征。其中，“3*3Conv”用于表示该卷积层的卷积核的尺寸；而“2*2max pool”则用于表示池化层的卷积核的尺寸。

在S103中，通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量。

在本实施例中，为了调整模态差异所对深度特征向量的影响，终端设备在将第二人脸图像导入到第二卷积神经网络，提取关于次模态的第二人脸图像的人脸特征值后，需要通过残差补偿模型对该人脸特征值进行模态残差补偿，输出关于次模态的第二深度特征向量，通过残差模态补偿模型来消除主模态与次模态之间的模态差异。需要说明的是，若人脸识别模型可以对多个次模态进行人脸识别，则可以基于每个次模态的模态特征，为各个次模态配置对应的残差补偿网络。

可选地，在本实施例中，第一卷积神经网络与第二卷积神经网络内的卷积参数相同，即两个卷积神经网络的卷积参数共享，这两个分支的卷积参数以在大规模可见光人脸图像上训练得到的卷积神经网络来初始化，并且两个分支的卷积参数共享且在训练过程中不再更新，从而不同模态的差异均通过残差补偿模块进行调整，如此可以极大地减少可学习的参数，进而减少过拟合。

在本实施例中，对于属于同一个人i的主模态下的人脸图像

和次模态下的人脸图像

可以使用卷积神经网络提取其深度特征向量

由于f _θ(*)是在主模态下的人脸数据上训练得到的，因而可以用它来提取

的深度特征向量。但是，次模态的人脸特征分布与主模态下的人脸特征分布差异较大，所以使用f _θ(*)提取的

深度特征向量可能会得到较差的人脸特征表达，从而带来模态差异。

由于预训练卷积神经网络的输出

是属于同一个实体人i的，因此，它们应该都和一个仅与该人物身份相关的隐向量x _i相关。假定

是由x _i经过不同变换所得：

其中，

为变换函数。记

为

的近似逆函数，它使得

于是有

其中

上述表明，

之间的模态差异可以近似建模成一个残差补偿模块，即

第二深度特征向量可以基于第二人脸图像经过第二卷积神经网络提取特征值后，与残差补偿模块输出的补偿值进行叠加后生成得到，且第二深度特征向量可以近似等同于第一深度特征向量。

在S104中，基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值。

在本实施例中，由于残差补偿网络中的学习参数为未调整状态，即该残差补偿网络未与次模态的图像特征相匹配，因此，终端设备可以根据多个训练对象的第一深度特征向量以及第二深度特征向量，对残差补偿网络进行反馈调整，以使经过残差补偿网络输出的第二深度特征向量与第一深度特征向量之间的差异度小于预设的差异阈值，即输出结果收敛。

在S105中，根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。

在本实施例中，终端设备在确定了残差补偿模型输出的第二深度特征向量与第一深度特征向量的差异度小于预设的差异阈值时，则表示该残差补偿网络的输出结果收敛，其中的参数与次模态的图像特征相匹配，可以将次模态的人脸图像所对应的深度特征向量经过残差补偿模块的转换后，生成与主模态一致的深度特征向量，从而可以将所有次模态的人脸特征向量统一到主模态，从而可以与基于主模态生成的各个标准人脸向量进行比对，确定次模态的人脸图像所对应的对象属性。

图3示出了本发明提供的4种多模态人脸识别网络。参见图3所示，其中，图3a为微调全连接层的卷积神经网络，图3b为在原始全连接层后新增了一个全连接和PReLU层所构成的卷积神经网络，图3c为含两个模态分支的人脸识别网络，并在次模态分支增加了一个全连接和PReLU层，图3d为本发明提供的在次模态下增加残差补偿模块的人脸识别网络。以上四种结构都使用交叉熵损失函数来对神经网络进行调整学习，并采集基于CASIA NIR-VIS 2.0和IIIT-D Viewed Sketch两个跨模态人脸数据集下人脸识别的实验结果。具体实验结果参见表1所示，根据实验结果可以得出：

1)预训练的卷积神经网络在两个数据集上均难以取得较好地结果，说明仅在可见光人脸数据集上训练的模型无法有效处理模态差异。

2)按照传统的迁移学习方法微调预训练的卷积神经网络的所有层可以较大地提升模型的性能，但是，只微调全连接层的图3a的模型的准确率比微调所有层更高，这一现象在IIIT-D数据集上尤为明显。这是因为仅微调全连接层可以降低卷积神经网络过拟合的风险。

3)与图3a的模型相比，图3b的模型增加新的全连接层甚至会降低准确率。这种现象的原因是新增全连接层虽然增加了模型的表达能力，在跨模态人脸的小数据集上反而更容易过拟合。

4)图3c的准确率甚至比微调所有层的准确率还低，这是因为仅在次模态的分支增加PReLU而在主模态的人脸图像分支无PReLU会导致不同模态数据的特征差异相对更大，即，它引入了新的导致模态差异的因素。

5)本发明提供的人脸识别模型中增加了残差补偿模块，其准确率也上述几种模型的高，这说明了残差补偿模块确实能有效提升跨模态人脸识别的准确率。与图3c的模型相比，残差补偿模块可以保持主干网络的主要特征基本不变，同时通过一个非线性的残差映射来补偿不同模态特征之间的差异，从而可以减少模态差异。

表1

除与基准模型对比外，我们还进一步比较了本发明实施例提供的人脸识别模型和现有的人脸识别模型在性能的差异，具体差异参见表2至表3的内容。

表2 CASIA NIR-VIS 2.0数据集上准确率对比

表3 IIIT-D Viewed Sketch数据集上的准确率对比

表4 CUHK NIR-VIS和Forensic Sketch数据集上的准确率对比

由表2～4可知，本发明提供的基于残差补偿网络实现的多模态人脸识别模型在CASIA NIR-VIS 2.0，IIIT-D Viewed Sketch，Forensic Sketch和CUHK NIR-VIS等多模态数据集取得了识别准确率最高的实现结果。这说明了基于残差补偿模型的多模态人脸识别模型能有效应对过拟合问题，并减少了模态差异。

可选地，在本实施例中，残差补偿模型的实现方式不仅可以是全连接层+非线性激活函数的方式，也可以是多个全连接层+非线性激活函数的堆叠，或者非线性激活函数+全连接层，或者非线性激活函数+全连接层+非线性激活函数，或者非线性激活函数+全连接层+非线性激活函数，也可以是通过卷积层+非线性激活函数的形式加在卷积层后。图4为本发明一实施例提供的残差补偿模块配置于卷积层后的第二卷积神经网络示意图。如图4所示，该第一卷积神经网络的卷积层在初始化后不再更新参数，可以将残差补偿模型加在第二卷积神经网络的固定参数不更新的上下两个卷积层之间。同时残差补偿模型的结构不再是全连接层+PReLU的形式，而是卷积层+PReLU的形式。

以上可以看出，本发明实施例提供的一种人脸识别模型的生成方法通过获取训练对象在不同模态下的人脸图像，并通过待调整的残差补偿模型以及卷积神经网络提取次模态的第二深度特征向量，基于关于主模态的第一深度特征向量以及第二深度特征向量再对残差补偿模型进行反馈调整，以使第一深度特征向量以及第二深度特征向量之间的差异度小于预设的差异阈值，即识别结果收敛，由于主模态以及次模态的人脸图像属于同一个实体人，且深度特征向量用于表示人脸各个关键点的特征，因此若残差补偿模块调整完毕，则两个模态的深度特征向量的偏差值较小，因而当两个深度特征向量之间的差异度小于预设的差异度阈值时，则可以确定该残差补偿模块已调整完毕，并基于该残差补偿模块生成人脸识别模型。与现有的多模态人脸识别技术相比，本发明不依赖用户对人脸信息进行人工特征描述，可以通过输入训练对象的人脸信息来生成人脸识别模型，从而能够提高多模态下人脸识别的准确性，减少人力成本。

图5示出了本发明第二实施例提供的一种人脸识别模型的生成方法S104的具体实现流程图。参见图1，相对于图1所述实施例，本实施例提供的一种人脸识别模型的生成方法S104包括：S1041～S1043，具体详述如下：

进一步地，所述基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，包括：

在S1041中，将所述第一深度特征向量以及所述第二深度特征向量导入到预设的差异度计算模型，确定待调整的所述残差补偿模型的偏差值。

在本实施例中，终端设备首先需要确定待调整的残差补偿模型当前的偏差值，因此可以将第一深度特征向量以及第二深度特征向量导入预设的差异度计算模型，确定两个深度特征向量之间的偏差值，在S1041中，终端设备会将训练对象在多个预设模态下的不同深度特征向量，以人脸图像组的形式成对输入至该差异度计算模型，从而可以确定关于同一训练对象在不同模态下的深度特征向量的偏差值。

可选地，在本实施例中，所述残差补偿模型具体为有一全连接层和增加额外的全连接层PReLU层构成，可以基于多个训练对象的偏差值采用dropout技巧对该残差补偿网络进行调整学习。

在1042中，将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值。

在本实施例中，终端设备除了通过不同模态的深度特征向量之间的偏差值对残差损失模型进行调整外，还可以根据多个训练对象经过残差补偿模型计算后的损失值，对残差补偿模型进行监督学习，从而避免残差补偿函数的过拟合以及减少不同模态之间的差异。具体地，该多模损失计算模型可以为基于Center loss的损失模型和/或基于Contrastive loss的损失模型。

在S1043中，基于所述损失值以及所述偏差值调整所述残差补偿模型，以使所述残差补偿模型满足收敛条件；所述收敛条件为：

其中，τ为所述残差补偿函数的学习参数；

为所述第一深度特征向量；

为所述第二深度特征向量；diff(*,*)为向量偏差函数；

为所述向量偏差函数取最小值或极小值时τ的取值。

在本实施例中，残差补偿模型以在大规模主模态的第一人脸图像上训练得到的第二卷积神经网络作为主干网络，同时针对次模态的第二人脸图像添加了残差补偿模型和多模损失函数。残差补偿模型的主干网络，即第二卷积神经网络的卷积参数不更新，只在多模损失函数。的联合监督下学习残差补偿模型的参数，因而大大减少了参数量，从而可以有效减轻卷积神经网络的过拟合问题。此外，残差补偿模型对模态差异的补偿和多模损失函数。的优化都可以减少模态差异。

在本实施例中，当

取最小值或极小值时，则表示该残差补偿模型已调整完毕，其中第一深度特征向量以及第二深度特征向量满足如下公式：

其中，

为第一深度特征向量，diff(*,*)函数用于衡量两个深度特征向量的偏差度。如果加入RC模块的同时也对预训练的第二卷积神经网络做微调，则将上述公式中的f _θ改为f _θ+Δ，其中Δ为预训练的第二卷积神经网络的参数的改变量。

在本发明实施例中，通过第一深度特征向量以及第二深度特征向量，确定残差补偿模型的偏差值，并通过多模损失函数计算多个训练对象的损失值以及偏差值对残差补偿网络进行调整学习，能够减少残差补偿模型的过拟合的情况，同时也能够减少不同模态所带来的差异，提高人脸识别的准确率。

图6示出了本发明第三实施例提供的一种人脸识别模型的生成方法S1042的具体实现流程图。参见图6，相对于图5所述的实施例，本实施例提供的一种人脸识别模型的生成方法S1042包括：S601～S602，具体详述如下：

进一步地，若所述偏差值为余弦偏差值，则所述将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值，包括：

在S601中，将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第一模态差异损失函数，计算所述残差补偿模型的第一模态损失量；所述第一模态差异损失函数具体为：

其中，L _MD1为所述模态损失量；N为所述训练对象的个数；

为余弦相似度函数。

在本实施例中，若diff(*,*)为余弦偏差函数，则计算第一深度特征向量以及第二深度特征向量之间的偏差值为余弦偏差值，则在后续计算多个训练对象整体的损失量时，则可以通过

余弦相似度函数，计算两个深度特征向量之间的余弦相似度，并基于余弦相似度计算对于单个训练对象的损失分量，并对N个训练对象的损失分量进行加权求和，即可以计算出残差补偿函数的第一模态损失量。

在S602中，将所述第一模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD1

其中，L为所述损失值；L _softmax为用于人脸分类的交叉熵损失函数；λ为基于所述交叉熵损失函数以及所述模态差异损失函数的超参数。

举例性地，图7示出了本发明一实施例提供的人脸识别模型的网络结构图。如图7所示，该人脸模型的网络结构有两个输入通道，分别为用于输出主模态的第一人脸图像通道以及用于输入次模态的第二人脸图像通道，其中第二人脸图像通道配置有残差补偿模型，该残差补偿模型具体由全连接层以及非线性激活函数构成，人脸识别网络将第一深度特征向量以及第二深度特征向量导入到多模损失函数计算模型来计算两个模态的第一模态损失量以及总的损失值，并对残差补偿模型进行监督学习。

在本发明实施例中，采用模态损失函数和交叉熵损失函数联合监督来训练残差补偿网络，训练过程中可以采用反向传播算法来更新残差补偿模型中的可学习参数，得到训练好的残差补偿模型后，可以用残差补偿网络的不同分支去提取对应模态的人脸图像的深度特征向量，进而可以在测试的时候使用深度特征向量来计算两张人脸图像的相似度，从而确定人脸图像中的人物身份。

图8示出了本发明第四实施例提供的一种人脸识别模型的生成方法S1042的具体实现流程图。参见图8，相对于图5所述实施例，本实施例提供的一种人脸识别模型的生成方法S1042包括：S801～S802，具体详述如下：

进一步地，若所述偏差值为欧氏距离偏差值，则所述将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值，包括：

在S801中，将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第二模态差异损失函数，计算所述残差补偿模型的第二模态损失量；所述第二模态差异损失函数具体为：

其中，L _MD2为所述模态损失量；N为所述训练对象的个数；

为欧氏距离函数。

在本实施例中，若diff(*,*)为欧氏距离函数，则计算第一深度特征向量以及第二深度特征向量之间的偏差值为欧氏距离偏差值，则在后续计算多个训练对象整体的损失量时，则可以通过

欧氏距离函数，计算两个深度特征向量之间的欧氏距离，并将欧氏距离值作为训练对象的损失分量，并对N个训练对象的损失分量进行加权求和，即可以计算出残差补偿函数的第二模态损失量。

在S802中，将所述第二模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD2

图9示出了本发明第五实施例提供的一种人脸识别模型的生成方法S101的具体实现流程图。参见图9，相对于图1-8所述实施例，本实施例提供的一种人脸识别模型的生成方法S101包括：S1011～S1015，具体详述如下：

进一步地，所述获取训练对象在各个预设模态对应的人脸图像，包括：

在S1011中，获取所述训练对象在各个所述预设模态的对象图像，并通过人脸检测算法确定所述对象图像中的人脸特征点。

在本实施例中，由于终端设备采集到的图像并非只包含训练对象的人脸信息，因此为了提高识别的准确率，终端设备可以对训练对象的对象图像进行预处理，从而能够提高后续对于残差补偿模型调整学习的准确性。基于此，终端设备在获取得到训练对象的对象图像后，可以通过人脸检测算法，识别出关于训练对象的多个人脸特征点，并在对象图像中标记出各个人脸特征点。该人脸特征点可以为各个面部器官，例如双眼、双耳、鼻子、嘴巴、眉毛等。

在S1012中，基于所述人脸特征点从所述对象图像中提取所述训练对象的人脸区域；所述人脸区域包括所述主模态的第一人脸区域以及所述次模态的第二人脸区域。

在本实施例中，终端设备可以在识别了各个模态的人脸特征点后，可以基于人脸特征点所在坐标信息，确定该训练对象的人脸所在位置，从而可以从训练图像中提取人脸所在区域的图像，即上述的人脸区域。对不同模态的训练图像均执行上述的操作，从而可以生成主模态的第一人脸区域以及次模态的第二人脸区域。

在S1013中，基于所述第一人脸区域中各个所述人脸特征点的第一坐标信息以及所述第一人脸区域的区域尺寸，对所述第二人脸区域进行标准化变换，以使所述第二人脸区域中各个所述人脸特征点的第二坐标信息与所述第一坐标信息相匹配。

在本实施例中，终端设备在获取了人脸区域后还需要对不同的人脸区域进行预处理，从而便于输出深度特征向量。基于此，终端设备可以根据主模态下的第一人脸区域的区域尺寸，调整第二人脸区域的尺寸大小，并根据第一人脸区域中所有人脸特征点的坐标信息，对第二人脸区域进行相似变换或仿射变换，从而可以将不同模态的人脸特征点进行对齐，即同类型的人脸特征点在不同模态的坐标信息相同，得到统一尺寸且人脸姿态相同的关于不同模态的人脸图像。

可选地，在本实施例中，终端设备设置有标准人脸模板，该标准人脸模板配置有标准模板尺寸以及标准人脸特征点，终端设备可以根据该标准人脸模板调整第一人脸区域以及第二人脸区域，将第一人脸区域的人脸特征点以及第二人脸区域的人脸特征点与标准人脸模板的人脸特征点对齐。

可选地，在本实施例中，若主模态与次模态所包含的通道数不同，例如主模态为三基色图像，即包含RGB三个通道的彩色图像，而次模态为单色图像，则终端设备可以对次模态的单色图像进行三通道扩展，或对主模态的彩色图像进行灰度化处理，从而保证主模态与次模态所包含的通道个数一直。

在S1014中，将所述第一人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第一人脸区域识别为所述第一人脸图像。

在本实施例中，终端设备可以获取第一人脸区域中各个像素点的像素值，并基于该像素值对其进行归一化处理。其中，可以将该像素值除以255，即像素值的最大值，从而保证了人脸区域中各个像素值均为0-1之间的值。终端设备还可以先将像素点的像素值减去127.5，即最大像素值的二分之一，在将差值除以128，从而使得归一化后的像素值会在[-1,1]的范围内，并将归一化后的人脸区域识别为第一人脸图像。

在S1015中，将变换后的所述第二人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第二人脸区域识别为所述第二人脸图像。

在本实施例中，归一化操作与S1014的具体实现过程相同，具体阐述可以参见S1014的相关描述，在此不再赘述。

在本发明实施例中，通过从训练图像中提取人脸区域，并对不同模态的人脸区域进行统一变换、人脸特征点对齐以及归一化处理，从而能够提高后续的深度特征向量的统一性，提高残差补偿模型的训练准确性。

图10示出了本发明第六实施例提供的一种人脸识别模型的生成方法的具体实现流程图。参见图10，相对于图1-8所述实施例，本实施例提供的一种人脸识别模型的生成方法在所述根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型之后，还包括：S1001～S1004，具体详述如下：

在S1001中，获取待识别对象的目标图像，并确定所述目标图像的模态类型。

在本实施例中，终端设备在生成人脸识别模型后，可以实现多模态的人脸识别，确定不同的人脸图像多对应的对象属性。用户可以向终端设备发送待识别的对象图像，终端设备从对象图像中提取关于待识别对象的目标图像。其中，提取目标图像的方式可以采用图9提供的实施例的方式，在此不再赘述。

在本实施例中，终端设备在获取了目标图像后，需要确定该目标图像的模态类型，即该目标图像是基于主模态成像原理生成的人脸图像，或是基于次模态成像原理生成的人脸图像。若该目标图像为基于主模态生成的人脸图像，则通过第一卷积神经网络输出该目标对象的目标特征向量，并将该目标特征向量与对象库中的各个标准特征向量进行匹配，从而确定该待识别对象的对象属性。

在S1002中，若所述模态类型为所述次模态，则通过所述第二卷积神经网络以及调整后的所述残差补偿模型计算所述目标图像的目标特征向量。

在本实施例中，若该目标图像是基于次模态成像原理生成的人脸图像，则可以通过与该次模态对应的残差补偿模型以及第二卷积神经网络输出目标图像的目标特征向量，由于通过残差补偿网络进行参量补偿，即目标特征向量可以近似相当于基于主模态下的目标特征向量，因此可以与基于主模态生成的各个标准特征向量进行匹配。

在S1003中，计算所述目标特征向量与对象库中的各个标准特征向量之间的匹配度。

在本实施例中，终端设备可以将待识别对象的目标特征向量分别于对象库中各个已登记对象的标准特征向量进行匹配度计算，优选地，可以通过最小邻近算法计算目标特征向量与各个标准特征向量之间的距离值，并将该距离值的倒数作为两者之间的匹配度。

在S1004中，将匹配度最高的所述标准特征向量对应的已录入对象作为所述待识别对象的匹配对象。

在本实施例中，终端设备将匹配度最高的标准特征向量所对应的已录入对象作为待识别对象的匹配对象，从而实现了对次模态的人脸图像进行识别的目的。需要说明的是，该对象库中各个已录入对象的标准特征向量是基于主模态下生成的特征向量。

在本发明实施例中，通过包含有残差补偿网络的多模态人脸识别模型对人脸图像进行人脸识别，能够提高识别的准确率。

图11示出了本发明第七实施例提供的一种人脸识别模型的生成方法的具体实现流程图。参见图11，相对于图1-8所述实施例，本实施例提供的一种人脸识别模型的生成方法在所述根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型之后，还包括：S1101～S1104，具体详述如下：

在S1101中，获取第一对象的第一图像以及第二对象的第二图像；所述第一图像的模态类型为主模态类型；所述第二图像的模态类型为次模态类型。

在本实施例中，终端设备可以用于检测两个对象是否属于同一个实体用户，因此，终端设备可以获取关于待匹配的第一对象的第一图像，以及另一待匹配的第二对象的第二图像，当然第二图像可以包括多个，不同的第二图像可以对应不同的模态类型或同一模态类型，在此不做限定。

在S1102中，通过所述第一卷积神经网络提取所述第一图像的第一目标向量。

在本实施例中，终端设备可以通过第一卷积神经网络计算第一对象的第一深度特征向量，即上述的第一目标向量。

在S1103中，通过所述第二卷积神经网络以及调整后的所述残差补偿模型提取所述第二图像的第二目标向量。

在本实施例中，终端设备可以通过第二卷积神经网络以及调整后的残差补偿模型确定关于第二图像的第二深度特征向量，即上述的第二目标向量。

在S1104中，计算所述第一目标向量以及所述第二目标向量之间的偏差值，若所述偏差值小于预设的偏差阈值，则识别所述第一对象以及所述第二对象属于同一实体对象。

在本实施例中，终端设备可以计算第一目标向量以及第二目标向量之间的偏差值，例如通过余弦距离函数或欧氏距离函数等方式，计算两个向量之间的差异程度，即上述的偏差值，若该偏差值小于预设的偏差阈值，则识别两个对象属于同一实体对象；反之，若该偏差值大于或等于预设的偏差阈值，则表示两个对象属于两个不同的实体对象。

在本发明实施例中，可以将两个模态的图像导入到人脸识别网络中，计算两个模态对应的深度特征向量，基于两个深度特征向量之间的偏差值，确定两个人脸图像是否属于同一实体对象，实现了实体对象的分类以及识别的目的。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图12示出了本发明一实施例提供的一种人脸识别模型的生成设备的结构框图，该人脸识别模型的生成设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图12，所述人脸识别模型的生成设备包括：

人脸图像获取单元121，用于获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像；

第一深度特征向量获取单元122，用于通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量；

第二深度特征向量获取单元123，用于通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量；

残差补偿模型调整单元124，用于基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值；

人脸识别模型生成单元125，用于根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。

可选地，所述残差补偿模型调整单元124包括：

补偿偏差值计算单元，用于将所述第一深度特征向量以及所述第二深度特征向量导入到预设的差异度计算模型，确定待调整的所述残差补偿模型的偏差值；

补偿损失值计算单元，用于将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值；

模型收敛调整单元，用于基于所述损失值以及所述偏差值调整所述残差补偿模型，以使所述残差补偿模型满足收敛条件；所述收敛条件为：

其中，τ为所述残差补偿函数的学习参数；

为所述第一深度特征向量；

为所述第二深度特征向量；diff(*,*)为向量偏差函数；

为所述向量偏差函数取最小值时τ的取值。

可选地，若所述偏差值为余弦偏差值，则所述补偿损失值计算单元包括：

第一模态损失量计算单元，用于将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第一模态差异损失函数，计算所述残差补偿模型的第一模态损失量；所述第一模态差异损失函数具体为：

其中，L _MD1为所述模态损失量；N为所述训练对象的个数；

为余弦相似度函数；

第一损失值输出单元，用于将所述第一模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD1

可选地，若所述偏差值为欧氏距离偏差值，则所述偿损失值计算单元包括：

第二模态损失量计算单元，用于将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第二模态差异损失函数，计算所述残差补偿模型的第二模态损失量；所述第二模态差异损失函数具体为：

其中，L _MD2为所述模态损失量；N为所述训练对象的个数；

为欧氏距离函数；

第二损失值输出单元，用于将所述第二模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD2

可选地，所述人脸图像获取单元121包括：

人脸特征点识别单元，用于获取所述训练对象在各个所述预设模态的对象图像，并通过人脸检测算法确定所述对象图像中的人脸特征点；

人脸区域提取单元，用于基于所述人脸特征点从所述对象图像中提取所述训练对象的人脸区域；所述人脸区域包括所述主模态的第一人脸区域以及所述次模态的第二人脸区域；

人脸特征点调整单元，用于基于所述第一人脸区域中各个所述人脸特征点的第一坐标信息以及所述第一人脸区域的区域尺寸，对所述第二人脸区域进行标准化变换，以使所述第二人脸区域中各个所述人脸特征点的第二坐标信息与所述第一坐标信息相匹配；

第一归一化处理单元，用于将所述第一人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第一人脸区域识别为所述第一人脸图像；

第二归一化处理单元，用于将变换后的所述第二人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第二人脸区域识别为所述第二人脸图像。

可选地，所述人脸识别模型的生成设备还包括：

模态类型识别单元，用于获取待识别对象的目标图像，并确定所述目标图像的模态类型；

目标特征向量输出单元，用于若所述模态类型为所述次模态，则通过所述第二卷积神经网络以及调整后的所述残差补偿模型计算所述目标图像的目标特征向量；

人脸匹配度计算单元，用于计算所述目标特征向量与对象库中的各个标准特征向量之间的匹配度；

人脸识别单元，用于将匹配度最高的所述标准特征向量对应的已录入对象作为所述待识别对象的匹配对象。

可选地，所述人脸识别模型的生成设备还包括：

多对象图像获取单元，用于获取第一对象的第一图像以及第二对象的第二图像；所述第一图像的模态类型为主模态类型；所述第二图像的模态类型为次模态类型；

第一目标向量计算单元，用于通过所述第一卷积神经网络提取所述第一图像的第一目标向量；

第二目标向量计算单元，用于通过所述第二卷积神经网络以及调整后的所述残差补偿模型提取所述第二图像的第二目标向量；

相同实体对象识别单元，用于计算所述第一目标向量以及所述第二目标向量之间的偏差值，若所述偏差值小于预设的偏差阈值，则识别所述第一对象以及所述第二对象属于同一实体对象

因此，本发明实施例提供的人脸识别模型的生成设备同样不依赖用户对人脸信息进行人工特征描述，可以通过输入训练对象的人脸信息来生成人脸识别模型，从而能够提高多模态下人脸识别的准确性，减少人力成本。

图13是本发明另一实施例提供的一种终端设备的示意图。如图13所示，该实施例的终端设备13包括：处理器130、存储器131以及存储在所述存储器131中并可在所述处理器130上运行的计算机程序132，例如人脸识别模型的生成程序。所述处理器130执行所述计算机程序132时实现上述各个人脸识别模型的生成方法实施例中的步骤，例如图1所示的S101至S105。或者，所述处理器130执行所述计算机程序132时实现上述各装置实施例中各单元的功能，例如图112所示模块1121至1125功能。

示例性的，所述计算机程序132可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器131中，并由所述处理器130执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序132在所述终端设备13中的执行过程。例如，所述计算机程序132可以被分割成人脸图像获取单元、第一深度特征向量获取单元、第二深度特征向量获取单元、残差补偿模型调整单元以及人脸识别模型生成单元，各单元具体功能如上所述。

所述终端设备13可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器130、存储器131。本领域技术人员可以理解，图13仅仅是终端设备13的示例，并不构成对终端设备13的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器130可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器131可以是所述终端设备13的内部存储单元，例如终端设备13的硬盘或内存。所述存储器131也可以是所述终端设备13的外部存储设备，例如所述终端设备13上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器131还可以既包括所述终端设备13的内部存储单元也包括外部存储设备。所述存储器131用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器131还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

一种人脸识别模型的生成方法，其特征在于，包括：

获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像；

通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量；

通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量；

基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值；

根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。
根据权利要求1所述的生成方法，其特征在于，所述基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，包括：

将所述第一深度特征向量以及所述第二深度特征向量导入到预设的差异度计算模型，确定待调整的所述残差补偿模型的偏差值；

将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值；

基于所述损失值以及所述偏差值调整所述残差补偿模型，以使所述残差补偿模型满足收敛条件；所述收敛条件为：

其中，τ为所述残差补偿函数的学习参数；
为所述第一深度特征向量；
为所述第二深度特征向量；diff(*,*)为向量偏差函数；
为所述向量偏差函数取最小值或极小值时τ的取值。
根据权利要求2所述的生成方法，其特征在于，若所述偏差值为余弦偏差值，则所述将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值包括：

将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第一模态差异损失函数，计算所述残差补偿模型的第一模态损失量；所述第一模态差异损失函数具体为：

其中，L _MD1为所述模态损失量；N为所述训练对象的个数；
为余弦相似度函数；

将所述第一模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD1

其中，L为所述损失值；L _softmax为用于人脸分类的交叉熵损失函数；λ为基于所述交叉熵损失函数以及所述模态差异损失函数的超参数。
根据权利要求2所述的生成方法，其特征在于，若所述偏差值为欧氏距离偏差值，则所述将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值包括：

将多个所述训练对象的所述第一深度特征向量以及所述第二深度特征向量导入预设的第二模态差异损失函数，计算所述残差补偿模型的第二模态损失量；所述第二模态差异损失函数具体为：

其中，L _MD2为所述模态损失量；N为所述训练对象的个数；
为欧氏距离函数；

将所述第二模态损失量导入预设的人脸识别损失函数，计算所述残差补偿模型的所述损失值；所述人脸识别损失函数具体为：

L＝L _softmax+λL _MD2

其中，L为所述损失值；L _softmax为用于人脸分类的交叉熵损失函数；λ为基于所述交叉熵损失函数以及所述模态差异损失函数的超参数。
根据权利要求1-4任一项所述的生成方法，其特征在于，所述获取训练对象在各个预设模态对应的人脸图像，包括：

获取所述训练对象在各个所述预设模态的对象图像，并通过人脸检测算法确定所述对象图像中的人脸特征点；

基于所述人脸特征点从所述对象图像中提取所述训练对象的人脸区域；所述人脸区域包括所述主模态的第一人脸区域以及所述次模态的第二人脸区域；

基于所述第一人脸区域中各个所述人脸特征点的第一坐标信息以及所述第一人脸区域的区域尺寸，对所述第二人脸区域进行标准化变换，以使所述第二人脸区域中各个所述人脸特征点的第二坐标信息与所述第一坐标信息相匹配；

将所述第一人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第一人脸区域识别为所述第一人脸图像；

将变换后的所述第二人脸区域中各个像素点的像素值进行归一化处理，将归一化后的所述第二人脸区域识别为所述第二人脸图像。
根据权利要求1-4任一项所述的生成方法，其特征在于，在所述根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型之后，还包括：

获取待识别对象的目标图像，并确定所述目标图像的模态类型；

若所述模态类型为所述次模态，则通过所述第二卷积神经网络以及调整后的所述残差补偿模型计算所述目标图像的目标特征向量；

计算所述目标特征向量与对象库中的各个标准特征向量之间的匹配度；

将匹配度最高的所述标准特征向量对应的已录入对象作为所述待识别对象的匹配对象。
根据权利要求1-4任一项所述的生成方法，其特征在于，在所述根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型之后，还包括：

获取第一对象的第一图像以及第二对象的第二图像；所述第一图像的模态类型为主模态类型；所述第二图像的模态类型为次模态类型；

通过所述第一卷积神经网络提取所述第一图像的第一目标向量；

通过所述第二卷积神经网络以及调整后的所述残差补偿模型提取所述第二图像的第二目标向量；

计算所述第一目标向量以及所述第二目标向量之间的偏差值，若所述偏差值小于预设的偏差阈值，则识别所述第一对象以及所述第二对象属于同一实体对象。
一种人脸识别模型的生成设备，其特征在于，包括：

人脸图像获取单元，用于获取训练对象在各个预设模态对应的人脸图像；所述人脸图像包括主模态对应的第一人脸图像以及至少一个次模态对应的第二人脸图像；

第一深度特征向量获取单元，用于通过预设的第一卷积神经网络提取所述第一人脸图像的第一深度特征向量；

第二深度特征向量获取单元，用于通过预设的第二卷积神经网络以及关于所述次模态的待调整的残差补偿模型提取所述第二人脸图像的第二深度特征向量；

残差补偿模型调整单元，用于基于多个所述训练对象对应的所述第一深度特征向量以及所述第二深度特征向量对所述残差补偿模型进行调整，以使所述第一深度特征向量与所述第二深度特征向量之间差异度小于预设的差异阈值；

人脸识别模型生成单元，用于根据调整后的所述残差补偿模型、所述第一卷积神经网络以及所述第二卷积神经网络生成人脸识别模型。
根据权利要求8所述的生成设备，其特征在于，所述残差补偿模型调整单元包括：

补偿偏差值计算单元，用于将所述第一深度特征向量以及所述第二深度特征向量导入到预设的差异度计算模型，确定待调整的所述残差补偿模型的偏差值；

补偿损失值计算单元，用于将所述第一深度特征向量以及所述第二深度特征向量导入预设的多模损失函数计算模型，确定所述残差补偿模型的损失值；

模型收敛调整单元，用于基于所述损失值以及所述偏差值调整所述残差补偿模型，以使所述残差补偿模型满足收敛条件；所述收敛条件为：

其中，τ为所述残差补偿函数的学习参数；
为所述第一深度特征向量；
为所述第二深度特征向量；diff(*,*)为向量偏差函数；
为所述向量偏差函数取最小值或极小值时τ的取值。
一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。