WO2022037541A1

WO2022037541A1 - 图像处理模型训练方法、装置、设备及存储介质

Info

Publication number: WO2022037541A1
Application number: PCT/CN2021/112829
Authority: WO
Inventors: 邱海波; 龚迪洪; 李志鋒; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-08-20
Filing date: 2021-08-16
Publication date: 2022-02-24
Also published as: CN111914812B; EP4099217A4; US20230033052A1; CN111914812A; EP4099217A1

Abstract

本申请公开了一种图像处理模型训练方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，第一遮挡指示信息用于指示第一样本人脸图像的人脸遮挡区域的图像特征；基于预测识别结果和第一样本人脸图像对应的目标识别结果，获取识别误差；基于第一遮挡指示信息和第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，第一样本人脸图像的遮挡模式用于指示人脸遮挡区域的位置以及尺寸；根据识别误差和分类误差，对图像处理模型的模型参数进行更新。

Description

图像处理模型训练方法、装置、设备及存储介质

本申请要求于2020年08月20日提交的申请号为202010845864.9、发明名称为“图像处理模型训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请实施例中。

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像处理模型训练方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，人工智能应用在各个领域，基于人工智能来代替人的工作，能够大大提高业务处理效率。在图像处理方面，基于人工智能技术能够对图像处理模型进行训练，得到训练好的图像处理模型，之后，将待识别的图像输入训练好的图像处理模型，即可得到相应的处理结果。

发明内容

本申请实施例提供了一种图像处理模型训练方法、装置、设备及存储介质。所述技术方案如下：

一方面，提供了一种图像处理模型训练方法，所述方法包括：

基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，所述第一遮挡指示信息用于指示所述第一样本人脸图像的人脸遮挡区域的图像特征；

基于所述预测识别结果和所述第一样本人脸图像对应的目标识别结果，获取识别误差；

基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，所述第一样本人脸图像的遮挡模式用于指示所述人脸遮挡区域的位置以及尺寸；

根据所述识别误差和所述分类误差，对所述图像处理模型的模型参数进行更新。

另一方面，提供了一种图像处理方法，所述方法包括：

响应于图像处理指令，对待识别的目标人脸图像进行特征提取，得到所述目标人脸图像的第二整体图像特征；

确定所述第二整体图像特征对应的第二遮挡指示信息，所述第二遮挡指示信息用于指示所述目标人脸图像的人脸遮挡区域的图像特征；

根据所述第二遮挡指示信息，去除所述第二整体图像特征中所述人脸遮挡区域的图像特征，得到第二目标图像特征；

基于所述第二目标图像特征，对所述目标人脸图像进行人脸识别。

另一方面，提供了一种图像处理模型训练装置，所述装置包括：

第一获取模块，用于基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，所述第一遮挡指示信息用于指示所述第一样本人脸图像的人脸遮挡区域的图像特征；

第二获取模块，用于基于所述预测识别结果和所述第一样本人脸图像对应的目标识别结果，获取识别误差；

第三获取模块，用于基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，所述第一样本人脸图像的遮挡模式用于指示所述人脸遮挡区域的位置以及尺寸；

更新模块，用于根据所述识别误差和所述分类误差，对所述图像处理模型的模型参数进行更新。

另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述的图像处理模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的图像处理模型训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述的图像处理模型训练方法。

另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述的图像处理方法。

本申请实施例引入了遮挡模式，通过人脸识别过程中产生的第一遮挡指示信息，确定该第一样本人脸图像的预测遮挡模式，并与该第一样本人脸图像对应的目标遮挡模式做对比，以此能够训练图像处理模型确定出更准确的第一遮挡指示信息，进而基于准确的第一遮挡指示信息进行人脸识别，得到的识别结果也就更准确，该图像处理模型能够更准确地处理存在遮挡的人脸图像，也即是该图像处理模型的鲁棒性更好。换言之，该图像处理模型能够直接对第一样本人脸图像进行处理得到识别结果，无需借助外部网络，能够端到端地进行图像处理，因此显著地减少了计算量，提升了设备的运行速度，也能够有效减少模型的个数，且由于该图像处理模型处理图像的准确性不受外部网络因素影响，因此准确性得到了显著提升。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理模型训练方法的实施环境的示意图；

图2是本申请实施例提供的一种考勤系统的示意图；

图3是本申请实施例提供的一种图像处理模型训练方法的流程图；

图4是相关技术提供的一种图像处理模型训练方法的示意图；

图5是相关技术提供的一种图像处理模型使用方法的示意图；

图6是本申请实施例提供的一种图像处理模型训练方法的流程图；

图7是本申请实施例提供的一种人脸图像的示意图；

图8是本申请实施例提供的一种人脸遮挡区域和遮挡模式数量确定的示意图；

图9是本申请实施例提供的一种图像处理模型的结构示意图；

图10是本申请实施例提供的一种图像处理模型的结构示意图；

图11是本申请实施例提供的一种解码器的结构示意图；

图12是本申请实施例提供的一种图像处理模型使用过程的示意图；

图13是本申请实施例提供的一种图像处理模型训练过程的示意图；

图14是本申请实施例提供的一种图像处理方法的流程图；

图15是本申请实施例提供的一种图像处理模型训练装置的结构示意图；

图16是本申请实施例提供的一种终端的结构示意图；

图17是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都是图像，并且在某些情况下，是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

下面对本申请涉及到的名词进行说明。

人脸遮挡区域是指图像中人脸被遮挡的区域。

卷积特征：是深度卷积网络的卷积层输出，通常是具有C个通道，高为H，宽为W的三维张量，即f(·)∈R ^C*H*W。卷积特征元素指的是坐标为(C，H，W)的张量元素。其中，张量概念是矢量概念的推广，矢量是一阶张量。在一些实施例中，张量是一个多线性函数，可用来表示一些矢量、标量和其他张量之间的线性关系。

特征掩码：是与卷积特征大小相同的三维张量，特征掩码中每位元素的取值在[0,1]之间。在一些实施例中，该特征掩码的作用是去除被污染的特征元素，该被污染的特征元素也就是指人脸遮挡区域的特征元素。

端到端系统：是指该系统无需借助外部网络或系统的帮助，只依靠自身系统，从输入得到预期的输出。端到端也即是指上述仅依靠自身，从输入得到预期的输出的方式。

鲁棒性：鲁棒是Robust的音译，是健壮和强壮的意思。在计算机方面，它是指在异常和危险情况下系统生存的能力。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该计算机软件的鲁棒性。所谓“鲁棒性”，也是指控制系统在参数(例如，结构或大小)摄动下，维持其它某些性能的特性。

下面对本申请的实施环境进行说明。

图1是本申请实施例提供的一种图像处理模型训练方法的实施环境的示意图。该实施环境包括终端101，或者，该实施环境包括终端101和图像处理平台102。终端101通过无线网络或有线网络与图像处理平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器，膝上型便携计算机，安检设备，考勤设备中的至少一种。终端101安装和运行有支持图像处理模型训练的应用程序，例如，该应用程序能够是安检应用、考勤应用、系统应用、即时通讯应用、购物应用、在线视频应用、社交应用。

在一些实施例中，该终端101具有图像采集功能和图像处理功能，能够对采集到的图像进行图像处理，并根据处理结果执行相应的功能。该终端101能够独立完成该工作，也能够通过图像处理平台102为其提供数据服务或图像处理服务。

在一些实施例中，图像处理平台102能够获取样本人脸图像训练图像处理模型，在终端101采集到图像后，将采集到的图像发送至图像处理平台102，由图像处理平台102基于训练好的图像处理模型为终端101提供图像处理服务。

图像处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像处理平台102用于为支图像处理模型训练的应用程序提供后台服务。在一些实施例中，图像处理平台102承担主要处理工作，终端101承担次要处理工作；或者，图像处理平台102承担次要处理工作，终端101承担主要处理工作；或者，图像处理平台102或终端101分别能够单独承担处理工作。或者，图像处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

在一些实施例中，该图像处理平台102包括至少一台服务器1021以及数据库1022，该数据库1022用于存储数据，在本申请实施例中，该数据库1022中能够存储样本人脸图像，为至少一台服务器1021提供数据服务。

服务器1021能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员能够知晓，上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021仅为一个，或者上述终端101、服务器1021为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量不加以限定。另外，本申请实施例对终端或服务器的设备类型也不加以限定。

下面对本申请的应用场景进行说明。

利用本申请实施例提供的图像处理模型训练方法，训练得到图像处理模型后，该图像处理模型能够提供图像处理服务，该图像处理服务能够应用于任意的人脸识别场景，在任意的人脸识别场景中，无论采集到的人脸图像中人脸是否被遮挡，均可以由该图像处理模型准确地进行识别。例如，该图像处理模型可以应用于考勤系统、安检系统、手机或电脑的人脸解锁、或人脸识别支付等人脸识别场景。用户只需要在系统初始建立时上传一张正面无遮挡人脸图像，作为待识别图像存储在系统数据库中，识别时只需获取用户的待识别图像即可，无需其他多余操作。

例如，在考勤这个应用场景中，如图2所示，在考勤系统200中，用户201只需要位于考勤设备202的摄像头前面，由考勤设备202为该用户201采集人脸图像203，然后对该人脸图像203进行人脸识别，确定该用户201的身份信息204，即可记录该身份信息204的用户已进行考勤打卡。当然，在其他应用场景中，可以将考勤设备202替换为其他设备，比如安检系统中，该考勤设备能够被替换为安检设备，在识别得到身份信息后，能够显示“身份验证通过”，或者，安检设施放行。

图3是本申请实施例提供的一种图像处理模型训练方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图3，该方法包括以下步骤。

301、电子设备基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，该第一遮挡指示信息用于指示该第一样本人脸图像的人脸遮挡区域的图像特征。

第一样本人脸图像是包括有人脸的图像，在此将包括有人脸的图像作为样本来训练图像处理模型。样本(specimen)是指观测或调查的一部分个体。

在本申请实施例中，图像处理模型用于对输入的第一样本人脸图像进行处理，输出预测识别结果。该第一样本人脸图像可以包括不存在遮挡的人脸图像，也可以包括存在遮挡的人脸图像。在训练过程中，基于该第一样本人脸图像对图像处理模型进行训练，相应地，在使用过程中，无论待识别的目标人脸图像是否存在遮挡，该图像处理模型均能够准确进行人脸识别。

在图像处理过程中，图像处理模型能够对第一样本人脸图像进行特征提取，再确定出哪些图像特征是受人脸遮挡区域影响的图像特征，将其去除后，即可基于未被遮挡人脸区域的图像特征进行人脸识别。上述第一遮挡指示信息就是用来标识出这些受人脸遮挡区域影响的图像特征，也可以将这些受人脸遮挡区域影响的图像特征作为被污染的图像特征。

该步骤301中，该图像处理模型的模型参数可以为初始值，该初始值可以通过初始化得到，或者，也可以是通过其他的第一样本人脸图像进行预训练得到的初始值，本申请实施例对此不作限定。

302、电子设备基于该预测识别结果和该第一样本人脸图像对应的目标识别结果，获取识别误差。

该识别误差用于确定是否需要调整图像处理模型的模型参数以及如何调整模型参数，以提高图像处理模型处理图像的准确性。

在训练过程中，该图像处理模型输出的预测识别结果为该图像处理模型预测的识别结果，也可以将其称为“预测值”。该预测识别结果的准确性与该图像处理模型处理图像的准确性一致。每个第一样本人脸图像所标注的目标识别结果是真实的、正确的识别结果，也可以将其称为“真值”。通过对比“预测值”和“真值”得到的识别误差，能够衡量该预测识别结果的准确性，也就能够衡量该图像处理模型处理图像的准确性。

可以理解地，如果该识别误差比较大，则该图像处理模型处理图像的准确性比较差；如果该识别误差比较小，则该图像处理模型处理图像的准确性比较好。

303、电子设备基于该第一遮挡指示信息和该第一样本人脸图像对应的目标遮挡模式，获取分类误差。

其中，该第一样本人脸图像的遮挡模式用于指示该人脸遮挡区域的位置以及尺寸。

在一些实施例中，基于该第一遮挡指示信息和该第一样本人脸图像对应的目标遮挡模式，获取分类误差，包括：基于该第一遮挡指示信息，确定该第一样本人脸图像的预测遮挡模式。之后，基于该预测遮挡模式和该目标遮挡模式，获取所分类误差。其中，确定该第一样本人脸图像的预测遮挡模式，也即是对该第一样本人脸图像的遮挡模式进行分类，得到该预测遮挡模式。

不同的第一样本人脸图像中人脸遮挡区域的位置或尺寸可能不同，自然地，受人脸遮挡区域影响的图像特征不同，也即是第一遮挡指示信息不同。根据人脸遮挡区域的位置和尺寸的不同，设置有不同的遮挡模式，每种遮挡模式对应一种人脸遮挡区域的位置和尺寸。

预测遮挡模式是“预测值”，目标遮挡模式是真实的、正确的遮挡模式，也即是一种“真值”，通过对比该遮挡模式的“预测值”和“真值”，得到的分类误差能够衡量预测遮挡模式的准确性，由于该预测遮挡模式是基于第一遮挡指示信息确定的，因此也就能够衡量第一遮挡指示信息的准确性。

在训练过程中，加入遮挡模式的监督学习，能够监督图像处理模型学习到准确的第一遮挡指示信息的能力，进而根据准确的第一遮挡指示信息与图像特征进行人脸识别，得到的识别结果也就更准确。

304、电子设备根据该识别误差和该分类误差，对该图像处理模型的模型参数进行更新。

在训练过程中，既考虑到了识别误差，又考虑到了分类误差，其中，该识别误差训练该图像处理模型具备良好的人脸识别能力，该分类误差训练该图像处理模型输出更准确的第一遮挡指示信息，进而提升人脸识别的准确性。

一方面，本申请实施例引入了遮挡模式，通过人脸识别过程中产生的第一遮挡指示信息，确定该第一样本人脸图像的预测遮挡模式，并与该第一样本人脸图像所标注的目标遮挡模式做对比，以此训练图像处理模型输出更准确的遮挡指示信息，进而基于准确的遮挡指示信息进行人脸识别，得到的识别结果也就更准确，换言之，该图像处理模型能够更准确地处理存在遮挡的人脸图像，也即是该图像处理模型的鲁棒性更好。另一方面，该图像处理模型能够直接对第一样本人脸图像进行处理得到识别结果，无需借助外部网络，能够端到端地进行图像处理，因此显著地减少了计算量，提升了设备的运行速度，也能够有效减少模型的个数，且由于该图像处理模型处理图像的准确性不受外部网络因素影响，因此准确性得到了显著提升。

下面提供一种相关技术中图像处理模型的训练方法，并对该相关技术与本申请提供的方法进行对比分析。

图4和图5分别是相关技术提供的一种图像处理模型训练方法和图像处理模型使用方法，图4示出了一种成对差分孪生网络，该成对差分孪生网络能够显式地学习人脸遮挡区域与受该人脸遮挡区域影响的图像特征之间的映射关系，可以将其称为学习掩码生成器(Learn Mask Generators)。基于该映射关系，建立一个遮挡块(人脸遮挡区域)-掩码对应的字典，该掩码即用于指示人脸遮挡区域受影响大的图像特征，该过程也即是建立掩码字典(Establish Mask Dictionary)的过程。该掩码字典(Mask Dictionary)中的每个索引项表示人脸上某块区域发生遮挡时，受影响大的图像特征；如果将图像特征中的每个元素称之为卷积特征元素，该字典中的每个索引项表示人脸上某块区域发生遮挡时，受影响大的顶层卷积特征元素。如图5所示，在测试时，先利用全卷积网络(Fully Convolutional Network，FCN)检测输入的人脸图像的人脸遮挡区域，然后根据上述字典，能够得到该遮挡条件下应该被去除的卷积特征元素，利用掩码去除这些卷积特征元素后再进行识别。

相关技术中通过外部网络(上述成对差分孪生网络)学习映射关系，将其建立为字典，后续在对图像处理模型进行训练以及使用图像处理模型时，均需要通过该外部网络检测人脸遮挡区域，通过查询字典得到映射后的掩码，该图像处理模型基于映射后的掩码再进行人脸识别。图像处理模型依赖于外部网络，且外部网络与图像处理模型分开训练。由于外部网络的存在导致计算量显著增加，设备的运行速度较慢。该外部网络检测人脸遮挡区域的精度，也极大地影响应该被去除的特征元素的确定，即如果人脸遮挡区域检测不准确，则后续对被污染的特征元素的去除也会不准确，从而干扰到最后的人脸识别。

一方面，本申请实施例提供的图像处理模型为一种端到端系统，无需借助外部网络，该图像处理模型能够基于输入的人脸图像，动态学习人脸遮挡区域与受该人脸遮挡区域影响的图像特征之间的映射关系，这样该图像处理模型能够直接基于输入的人脸图像输出识别结果，能够显著地减少计算量，提升设备的运行速度，也能够有效减少模型的个数，且该图像处理模型处理图像的准确性不受外部网络因素影响，准确性得到了显著提升。

另一方面，本申请实施例通过引入遮挡模式，训练图像处理模型能够输出更准确的第一遮挡指示信息，进而提高了该图像处理模型处理图像的准确性，该图像处理模型能够更准确地处理存在遮挡的人脸图像，也即是该图像处理模型的鲁棒性更好。

另外，相关技术中建立遮挡块-掩码对应字典的过程中，将人脸分成了9个不同区域。对于每一个区域均需要独立训练一个网络来学习该区域的映射。也即是，在建立字典时需要训练9个不同的模型，大大增加了训练时长和训练成本，且由于模型个数较多进而占据的存储空间会非常大，不容易将其部署到实际应用上去。

本申请实施例仅需要训练一个图像处理模型，该图像处理模型能够动态地根据人脸图像确定出它的第一遮挡指示信息，能够大大降低模型训练时长和训练成本，该图像处理模型相对于相关技术中的9个模型，更容易部署到各种类型的设备上以实现相应的图像处理功能，因而，该图像处理模型的适用性和实用性更好。

图6是本申请实施例提供的一种图像处理模型训练方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图6，该方法包括以下步骤。

600、电子设备获取第一样本人脸图像，该第一样本人脸图像标注有目标识别结果和目标遮挡模式。

该第一样本人脸图像可以包括未遮挡人脸图像，也可以包括遮挡人脸图像。其中，未遮挡人脸图像是指人脸未被遮挡的图像，可以称其为干净的人脸图像。遮挡人脸图像是指人脸被遮挡的图像，可以称其为带遮挡的人脸图像。

例如，如图7中的(a)所示，图像701中人脸完整体现，并不存在遮挡，该图像701也即是未遮挡人脸图像、干净的人脸图像。如图7中的(b)所示，图像702中人脸的一部分被另一张图片或其他图案遮挡，从图像702中仅能够清楚看到部分人脸，因而，该图像702也即是遮挡人脸图像、带遮挡的人脸图像。

对于该第一样本人脸图像的获取过程，根据该第一样本人脸图像的存储地址不同，电子设备可以通过多种方式获取第一样本人脸图像。在一些实施例中，该第一样本人脸图像可以存储于图像数据库中，电子设备需要对图像处理模型进行训练时，可以从该数据库中提取该第一样本人脸图像。

在另一些实施例中，该第一样本人脸图像可以为网站中的资源，电子设备能够从目标网站下载第一样本人脸图像。

在另一些实施例中，该第一样本人脸图像可以存储于该电子设备中，例如，该第一样本人脸图像为其他设备发送至该电子设备的历史图像，或者，该电子设备生成的图像，电子设备可以从本地存储空间中提取该第一样本人脸图像。

上述提供了获取第一样本人脸图像的几种可能实现方式，电子设备还可以通过其他方式获取第一样本人脸图像，本申请实施例对第一样本人脸图像的获取方式不作具体限定。

对于目标识别结果，该图像处理模型的识别功能不同，该目标识别结果也不同。例如，该图像处理模型用于对图像中人脸进行身份认证，相应地，该目标识别结果为身份认证信息。又例如，该图像处理模型用于对图像中人脸的人脸属性或人脸类型进行识别，比如判断人脸是否带有眼镜，又比如判断人脸的性别等，相应地，该目标识别结果为人脸属性或人脸类型。

在一些实施例中，该目标识别结果可以与该第一样本人脸图像存储在一起，该第一样本人脸图像标注有该目标识别结果。例如，电子设备获取第一样本人脸图像时，可以获取第一样本人脸图像以及对应的目标识别结果。

在另一些实施例中，该目标识别结果基于标注操作确定。例如，可以由相关技术人员对第一样本人脸图像进行标注，标注出每个第一样本人脸图像对应的目标识别结果。

对于目标遮挡模式，该目标遮挡模式用于指示该第一样本人脸图像中人脸遮挡区域的位置以及尺寸。第一样本人脸图像可以包括多种遮挡模式，该目标遮挡模式即为多种遮挡模式中的一种。

在一些实施例中，第一样本人脸图像或待识别的目标人脸图像可以包括至少两个区域，每种遮挡模式对应有遮挡区域信息，该遮挡区域信息用于指示上述至少两个区域中每个区域是否被遮挡。根据人脸遮挡区域的不同，可以划分得到多种遮挡模式。

在一些实施例中，该第一样本人脸图像或待识别的目标人脸图像包括能够分成K*K个区域，每个区域都代表了人脸中一个可能被遮挡的小块(也即是图像块)。其中，K为大于1的整数。这样在不同区域被遮挡时，能够得到不同的遮挡模式。

电子设备可以根据划分出的区域的数量，获取遮挡模式的数量。在一些实施例中，每个区域都存在两种可能性，即遮挡与不被遮挡，则可以将遮挡情况划分为2 ^K*K种不同的遮挡模式。例如，当K取4的时候，会有65536中不同的遮挡模式。

在一些实施例中，考虑到遮挡模式与区域数量之间的指数关系，如果增加K以提高人脸划分的精细度，则会带来指数型的遮挡模式数量的增长。这样可能会影响到图像处理速度。在此提出一种新的遮挡模式确定机制。通过对人脸图像的观察发现，邻近的区域通常具有相似的遮挡状态，也即是，一个区域被遮挡时，与该区域邻近的区域被遮挡的可能性比较大。比如当左眼区域被遮挡时，右眼区域也有比较大的概率被遮挡，在此称这个特性为邻近性。基于该邻近性，可以对人脸遮挡区域进行约束，进而能够确定出数量少的遮挡模式。

在一些实施例中，在此约束遮挡模式覆盖m*n个区域，其中，m,n的取值范围为[1,K]，m和n分别为人脸遮挡区域的宽和高。例如，如图8中的(a)所示，该图中示出了当K取4时的几种遮挡模式下人脸遮挡区域801(以加粗框线标出)的位置和尺寸。一个人脸图像中的人脸遮挡区域为连通域，且该人脸遮挡区域为四边形区域。由此电子设备可以根据人脸划分的区域的数量，获取到遮挡模式的数量。例如，如图8中的(b)所示，当K取4时，人脸遮挡区域的尺寸发生变化时对应的遮挡模式的数量802。该矩阵中第(i,j)位置上的值代表的是，人脸遮挡区域的尺寸为(i*j)时遮挡模式的数量。比如，(1,1)位置上的值16，该值是指人脸遮挡区域的尺寸为1*1时，遮挡模式可以包括16种，也即是，该人脸遮挡区域位于16个区域时对应16种遮挡模式。矩阵中其它位置上的值的计算方式同理，在此不一一列举。则当K取4时，能够确定出101种遮挡模式。在一些实施例中，图8中的(b)示出了人脸存在遮挡的情况，共16+12+12+8+8+9+4+6+6+4+3+4+3+2+2+1＝100种，还有一种人脸不存在遮挡的情况。

601、电子设备基于图像处理模型，对第一样本人脸图像进行特征提取，得到该第一样本人脸图像的图像特征。

其中，该第一样本图像的图像特征，在本文中也称为第一整体图像特征。

该图像处理模型为初始模型，电子设备可以将第一样本人脸图像输入图像处理模型中，由图像处理模型对第一样本人脸图像进行处理。在一些实施例中，电子设备可以对第一样本人脸图像进行特征提取，以图像特征来对第一样本人脸图像的像素特点或像素之间关系进行表达。

在一些实施例中，电子设备在对第一样本人脸图像进行特征提取之前，可以先对第一样本人脸图像进行预处理，再对预处理后的第一样本人脸图像进行特征提取。通过预处理过程使得特征提取时的第一样本人脸图像更符合特征提取规范，以提高处理效率，降低计算复杂度和计算量，提高提取到的图像特征的准确性。在一些实施例中，该步骤601可以通过下述6011和6012实现。在该实现方式中，该步骤601至步骤602也即是基于该图像处理模型，对该第一样本人脸图像进行预处理，基于预处理后的第一样本人脸图像，获取该第一样本人脸图像的图像特征以及该图像特征对应的第一遮挡指示信息的过程。

6011、基于该图像处理模型，对该第一样本人脸图像进行预处理。

该图像处理模型能够对第一样本人脸图像进行预处理，将与人脸识别无关的信息去除，或者，将一些缺失的信息或有误的信息进行修补或修正。

在一些实施例中，该预处理过程包括人脸检测和对齐过程。

在一些实施例中，电子设备基于该图像处理模型，对该第一样本人脸图像进行人脸检测，基于人脸检测结果，对该第一样本人脸图像进行裁剪，得到预处理后的第一样本人脸图像。

可以理解地，第一样本人脸图像中的背景内容对人脸识别几乎没有影响，人脸识别所需的是人脸区域的图像特征。通过人脸检测，电子设备能够确定出人脸关键点的位置，通过人脸关键点的位置，可以将人脸区域裁剪出来作为预处理后的第一样本人脸图像。这样特征提取时的第一样本人脸图像去除了冗余信息，减小了提取特征时的计算量，且提取到的图像特征中人脸区域的图像特征被突出，进而通过这样的图像特征进行人脸识别，能够有效提高识别准确率。

在一些实施例中，可以提供人脸图像模板，该人脸图像模板中标识有各人脸部位的位置。对于人脸检测，电子设备能够检测出人脸图像中左眼、右眼、鼻子、左嘴角和右嘴角的坐标位置，然后根据五个关键点的坐标位置与人脸图像模板中人脸部位的位置之间的映射关系，对第一样本人脸图像进行裁剪(crop)，得到预处理后的第一样本人脸图像。该裁剪过程可以理解为，将第一样本人脸图像中的人脸通过仿射变换对齐到统一的模板位置，并裁剪成固定大小。

该预处理过程可以通过人脸预处理的相关算法实现，例如，该预处理过程可以采用MTCNN(Multi-Task Convolutional Neural Network，多任务卷积神经网络)算法完成。

当然，该预处理过程还可以包括其他方式，例如，电子设备还可以对第一样本人脸图像进行异常值处理、灰度级变换等，本申请实施例对此不作限定。

6012、对预处理后的第一样本人脸图像进行特征提取。

电子设备对第一样本人脸图像进行预处理后，将预处理后的第一样本人脸图像中的图像像素信息转换为图像特征，该图像特征用于表示图像像素信息，图像相邻像素之间的关系等。

在一些实施例中，该特征提取过程可以通过卷积神经网络(Convolutional Neural Networks，CNN)实现，电子设备可以将预处理后的第一样本人脸图像输入卷积神经网络中，通过卷积处理，得到该第一整体图像特征。在一些实施例中，该卷积神经网络也能够进行上述预处理过程。在另一些实施例中，上述预处理过程通过另一卷积神经网络进行，本申请实施例对此不作限定。

在一些实施例中，该图像特征表达为(C，H，W)，其中，C为通道，H为高，W为宽。响应于该图像特征是通过卷积神经网络得到的，可以称该图像特征为卷积特征。其中，该卷积神经网络可以包括多个卷积层，对于预处理后的第一样本人脸图像，能够通过多层卷积操作，得到表达能力十分强大的卷积特征(也即是图像特征)。C与该卷积神经网络的最后一个卷积层的输出通道数一致。在一些实施例中，该卷积神经网络可以采用任一种能够进行准确特征提取的框架，例如，可以采用LResnet50E-IR框架，当然，也可以采用其他框架，比如GoogLeNet框架。本申请实施例对该卷积神经网络的框架不作限定。

在一些实施例中，以预处理和特征提取采用该卷积神经网络实现为例，电子设备可以先基于未遮挡人脸图像对该卷积神经网络进行预训练，预训练后，再基于步骤600获取到的第一样本人脸图像对图像处理模型的模型参数进行微调。在一些实施例中，该步骤601之前，电子设备可以基于第二样本人脸图像对该卷积神经网络进行训练，该第二样本人脸图像中人脸未被遮挡。

通过干净的人脸图像对该卷积神经网络进行预训练，这样该卷积神经网络具备对未遮挡人脸图像进行处理的先验知识，后续再针对未遮挡和带遮挡的人脸图像微调图像处理模型的模型参数，该图像处理模型对图像处理的效果会更好。

在一些实施例中，该图像处理模型的结构可以如图9所示，该图像处理模型包括卷积神经网络901、解码器902、识别网络903和遮挡模式预测网络904。该卷积神经网络901用于执行该步骤601。该解码器902用于执行下述步骤602，也即是第一遮挡指示信息的获取步骤。该识别网络903用于执行下述步骤603，也即是基于步骤601得到的图像特征与步骤602得到的第一遮挡指示信息进行人脸识别，得到该第一样本人脸图像的预测识别结果。该遮挡模式预测网络904用于执行下述步骤605，也即是基于步骤602得到的第一遮挡指示信息，对该第一样本人脸图像的遮挡模式进行分类，得到预测遮挡模式。

602、电子设备基于该第一样本人脸图像的图像特征，确定对应的第一遮挡指示信息，该第一遮挡指示信息用于指示该第一样本人脸图像的人脸遮挡区域的图像特征。

电子设备获取到第一整体图像特征后，该第一整体图像特征中有些图像特征受人脸遮挡区域影响可能会对人脸识别造成干扰，因而，电子设备需要分析哪些图像特征受到了人脸遮挡区域影响，从而执行下述步骤603，将这部分图像特征的影响去除，提高人脸识别的准确率。

在一些实施例中，第一遮挡指示信息可以为特征向量的形式，特征向量中的每一位元素的值，用于指示每个图像特征元素是否受人脸遮挡区域的影响。例如，该每一位元素的值，用于表示对应的图像特征元素受人脸遮挡区域影响的概率。在一些实施例中，该第一遮挡指示信息可以采用掩码的形式，该第一遮挡指示信息可以称为特征掩码。

在一些实施例中，确定该第一遮挡指示信息可以为一个分类过程，对图像特征进行进一步处理，再对处理后的图像特征进行分类，得到第一遮挡指示信息。在一些实施例中，电子设备对该第一整体图像特征进行卷积处理，对卷积处理后的图像特征进行分类，确定该第一整体图像特征对应的第一遮挡指示信息。

在一些实施例中，该第一遮挡指示信息的确定过程通过解码器实现，在该第一遮挡指示信息采用掩码的形式时，该解码器还可以称为掩码解码器，该掩码解码器用于将图像特征(也可以称为卷积特征)映射为对应的特征掩码。

在一些实施例中，该图像处理模型1000的结构可以如图10所示，其中，解码器(Decoder)1001包括Conv(Convolution，卷积)层、PRelu(Parametric Rectified Linear Unit，线性整流函数)层、BN(Batch Normalization，批标准化)层和Sigmoid(S型生长曲线)层。该解码器1001能够先对图像特征进行卷积处理，然后对卷积结果进行线性整流处理，再进行批量标准化处理，通过Sigmoid层，预测每个图像特征保留(也即是不被去除，不受人脸遮挡区域影响)的概率，得到第一遮挡指示信息(也即是特征掩码)。可以理解地，通过Sigmoid层能够将图像特征映射到[0，1]之间。每个图像特征保留的概率与每个图像特征受人脸遮挡区域影响的概率负相关。通过Sigmoid层预测的过程，实质为预测每个图像特征受人脸遮挡区域影响的概率，其中，每个图像特征受人脸遮挡区域影响的概率越大，其保留的概率越小，其在第一遮挡指示信息中对应位的数值越小，越接近于0。相反地，每个图像特征受人脸遮挡区域影响的概率越小，其保留的概率越大，其在第一遮挡指示信息中对应位的数值越大，越接近于1。该解码器1001的具体结构可以如图11所示。

该解码器1001从前面卷积网络生成的特征X ₁中解码出相应的特征掩码M ₁。M ₁的功能就是找到X ₁中被污染的特征元素，通过两者相乘将这些元素去除得到干净的特征X′ ₁，该特征用于后续的识别任务。

该步骤601和步骤602是基于图像处理模型，获取第一样本人脸图像的图像特征以及该图像特征对应的第一遮挡指示信息的过程，上述过程中对特征提取和确定第一遮挡指示信息的方式进行了说明，在一些实施例中，该第一遮挡指示信息也可以不基于该图像特征确定，而是直接对第一样本人脸图像进行处理，确定对应的第一遮挡指示信息。本申请实施例对此不作限定。

603、电子设备基于该第一样本人脸图像的图像特征和该第一遮挡指示信息进行人脸识别，得到该第一样本人脸图像的预测识别结果。

电子设备在确定出第一遮挡指示信息后，即获知该第一整体图像特征中哪些图像特征受人脸遮挡区域影响，从而可以将这部分图像特征去除后再进行人脸识别，这样识别结果不受人脸遮挡区域的影响，则会更加准确。

在一些实施例中，步骤603通过6031和6032实现。

6031、基于该第一遮挡指示信息，去除该第一整体图像特征中人脸遮挡区域的图像特征，得到第一目标图像特征。

该第一遮挡指示信息已经指示受人脸遮挡区域影响的图像特征，通过第一遮挡指示信息能够对该第一整体图像特征进行处理，将受影响的图像特征去除，这样可以去除人脸遮挡影响，从而进行准确的人脸识别过程。

在一些实施例中，该去除过程可以为：电子设备将该第一整体图像特征与该第一遮挡指示信息相乘，得到该第一目标图像特征。该第一遮挡指示信息可以采用矩阵或向量的形式，如果某个图像特征受影响大，则该第一遮挡指示信息中该图像特征对应位的数值比较小，在相乘后该图像特征对应的数值则被变小，这样第一目标图像特征中受人脸遮挡区域影响的图像特征即被削弱，几乎无法体现，达到了去除效果。

6032、根据该第一目标图像特征，对该第一样本人脸图像中的人脸进行识别，得到预测识别结果。

电子设备在得到第一目标图像特征后，即可进行人脸识别，确定第一样本人脸图像的识别结果。在一些实施例中，该人脸识别过程可以为分类过程，通过分类确定该人脸的身份，或者，通过分类确定人脸属性或者人脸类型等。

在一些实施例中，该分类过程为获取第一目标图像特征与候选人脸图像特征之间的匹配度，将匹配度最大的候选人脸图像特征对应的识别结果确定为该预测识别结果。

例如，通过全连接层提取特征向量后，计算测试人脸的特征向量f _p(也即是第一目标图像特征)与数据库中各人脸特征向量

的余弦相似度：

一般来说，人脸识别有两个场景，一个是人脸鉴别场景，一个是人脸认证场景。

根据不同的识别场景，该识别过程可以不同。对于人脸鉴别场景，需要识别出测试人脸属于数据库中哪个人脸类别。本方案采用最近邻分类器，即数据库中与测试人脸相似度最高的人脸的类别，即为该测试人脸所属类别。也可以采用其他分类器，例如支持向量机(Support Vector Machines，SVM)等。

对于人脸认证场景，需要识别出测试人脸与数据库中人脸或者说另一比对人脸是否属于同一类。本方案采用阈值判断，即二者的相似度高于某阈值时认为是同一个人，反之认为不是同一个人。也可以根据特征向量专门学习一个用于人脸认证的分类器。

上述步骤603为获取第一样本人脸图像的预测识别结果的过程，除此之外，该图像处理模型还可以通过其他处理方式获取该预测识别结果，例如，基于提取到的图像特征直接进行人脸识别，本申请实施例对此不作具体限定。

604、电子设备基于该预测识别结果和该第一样本人脸图像对应的目标识别结果，获取识别误差。

电子设备确定出预测识别结果后，可以与目标识别结果对比，确定二者之间的差距，该差距即为该识别误差。

在一些实施例中，该识别误差可以通过损失函数获取，该损失函数可以为任一种损失函数，例如，CosFace分类损失函数、交叉熵损失函数、L1、L2等距离回归损失函数或指数损失函数等。在一些实施例中，该识别误差可以通过CosFace分类损失函数获取得到。本申请实施例对识别误差的获取方式不作具体限定。

605、电子设备基于该第一样本人脸图像的第一遮挡指示信息，获取该第一样本人脸图像的第一遮挡区域信息。

上述步骤602之后，电子设备还可以根据该第一遮挡指示信息，预测第一样本人脸图像的遮挡模式，在预测遮挡模式时，需要通过遮挡区域信息匹配实现。第一遮挡区域信息用于指示第一样本人脸图像中每个区域是否被遮挡。换一种表达方式，第一遮挡区域信息用于指示第一样本人脸图像中多个图像块的被遮挡情况。

606、电子设备将第一遮挡区域信息与至少两个候选遮挡模式对应的遮挡区域信息进行匹配，得到至少两个匹配度；根据该至少两个匹配度，在至少两个候选遮挡模式中确定预测遮挡模式。

在一些实施例中，步骤606可以将匹配度最大的候选遮挡模式，确定为该第一样本人脸图像的预测遮挡模式。

通过对比该第一样本人脸图像的遮挡区域信息与候选遮挡模式的遮挡区域信息，确定出该第一遮挡指示信息更符合哪一种候选遮挡模式，即可将其作为该预测遮挡模式。

可以设置至少两个候选遮挡模式，也即是有多个候选遮挡模式，每个候选遮挡模式对应有遮挡区域信息。该遮挡区域信息可以在划分遮挡模式时建立。例如，针对遮挡区域信息，如果一个区域被遮挡，则该区域对应位的值可以设置为0；如果该区域没有被遮挡，则该区域对应位的值可以设置为1。如图7中的(a)所示，未遮挡人脸图像701的遮挡区域信息中每一位元素的值均可以为1，在此以黑色表示。如图7中的(b)所示，遮挡人脸图像702的遮挡区域信息中属于遮挡区域的位置上数值为1，在此以黑色表示，属于未遮挡区域的位置上数值为0，在此以白色表示。

在一些实施例中，该至少两个候选遮挡模式可以存储于遮挡模式库中，在匹配时，电子设备能够将本次需要匹配的遮挡区域信息与该遮挡模式库中的数据进行匹配。

在一些实施例中，该遮挡模式的确定过程可以通过遮挡模式预测器(Occlusion Pattern Predictor)实现，也即是上述图9所示的遮挡模式预测网络或图10所示的遮挡模式预测器1002，该遮挡模式预测器1002也即是遮挡模式预测网络。在一些实施例中，该遮挡模式预测网络可以采用“BN-FC-BN”的顺序结构，也即是，该遮挡模式预测网络能够先对第一遮挡指示信息进行标准化处理，再对标准化处理后的信息进行卷积处理，卷积处理后再进行标准化，得到预测遮挡模式。该遮挡模式预测网络输出的数据的维度与遮挡模式的数量相同。也即是，该预测遮挡模式能够采用多维向量的形式。维度与遮挡模式的数量相同。例如，遮挡模式的数量为101，则该预测遮挡模式可以采用101维度的向量表示。向量中每一位元素的数值用于表征该第一样本人脸图像的遮挡模式为该元素对应的候选遮挡模式的概率。

该步骤606为基于该第一样本人脸图像的第一遮挡指示信息，对该第一样本人脸图像的遮挡模式进行分类，得到预测遮挡模式的过程，上述过程中通过将第一遮挡指示信息转换为第一遮挡区域信息，进而通过遮挡区域信息匹配，来确定预测遮挡模式。在一些实施例中，电子设备中也可以设置有至少两个候选遮挡模式的遮挡指示信息，直接将该第一遮挡指示信息与候选遮挡模式的遮挡指示信息进行匹配，本申请实施例对采用哪种方式不作具体限定。

607、电子设备基于该预测遮挡模式和该第一样本人脸图像对应的目标遮挡模式，获取分类误差。

该分类误差用于衡量预测遮挡模式和该目标遮挡模式之间的差距，该分类误差的获取过程与上述步骤605同理，可以通过损失函数获取。

在一些实施例中，该分类误差L _pred可以采用交叉熵损失函数确定。例如，通过下述公式(1)获取分类误差：

其中，N是参与训练的第一样本人脸图像的总数量，C是遮挡模式的总数量，p _i是第一样本人脸图像x _i被正确分类的概率，f _i是第一样本人脸图像x _i相应的特征向量。i和j是标识，i和j的取值均为正整数。

608、电子设备根据该识别误差和该分类误差，对该图像处理模型的模型参数进行更新。

电子设备获取到两种误差后，可以综合两种误差对模型参数进行更新，能够既考虑到该图像处理模型人脸识别的鲁棒性和准确性，也考虑到该图像处理模型确定第一遮挡指示信息的鲁棒性和准确性，这样训练出来的模型在两方面的性能均能有所提升。

结合该两种误差的更新过程可以包括两种方式，本申请实施例能够采用任一种方式实现更新步骤。下面提供两种可选方式。

方式一、电子设备获取该分类误差和该分类误差的权重的乘积，将该乘积与该识别误差之和作为目标误差，基于该目标误差，对该图像处理模型的模型参数进行更新。

在方式一中，可以为分类误差设置权重，该分类误差的权重可以由相关技术人员根据需求进行设置，该分类误差的权重可以为该模型的超参数，还可以为之前训练模型得到的经验值，例如，该权重可以设置为1，在另一些实施例中，该权重还可以在本次模型训练中与模型参数一起进行更新得到，本申请实施例对此不作限定。

例如，该目标误差L _total的获取过程通过下述公式(2)实现：

L _total＝L _cls+w*L _pred (2)

其中，L _cls是人脸识别的损失函数(比如采用的是CosFace分类损失函数)；而L _pred是公式(1)所定义的预测遮挡模式的损失函数。w是一个权重系数，该权重系数用于平衡两种损失函数在训练过程中重要性。通过交叉验证发现，w的取值为1.0时识别效果最好。

方式二、基于该分类误差和该识别误差各自的权重，对该分类误差和该识别误差进行加权求和，得到目标误差，基于该目标误差，对该图像处理模型的模型参数进行更新。

在方式二中，每种误差均设置有权重，该权重的设置与方式一中同理，在此不多做赘述。

通过上述方法训练得到图像处理模型后，该图像处理模型能够提供图像处理功能。在一些实施例中，电子设备响应于图像处理指令，基于该图像处理模型，对待识别的目标人脸图像进行特征提取，基于提取到的第二整体图像特征与该第二整体图像特征对应的第二遮挡指示信息进行人脸识别，得到该目标人脸图像的图像识别结果。在一些实施例中，该图像处理模型处理图像的具体流程可以参见下述图14所示的实施例。

下面提供一个具体示例，模型使用过程可以如图12所示，电子设备能够执行输入待识别图片的步骤1201，然后基于人脸预处理模块进行人脸检测和对齐，即步骤1202，通过上述步骤1202能够得到预处理后的人脸图像，电子设备可以继续基于深度卷积网络(CNN)提取卷积特征(也即是图像特征)，即步骤1203。提取到卷积特征后，基于该卷积特征可以进行两个步骤，在步骤1204中，电子设备能够基于掩码解码器(Mask Decoder)生成相应掩码，再在步骤1205中，基于生成的掩码和卷积特征，通过相乘运算，去除被污染的特征元素。在步骤1206中，电子设备再基于全连接网络(FC)来得到最终人脸特征用于识别，最终在步骤 1207中，电子设备能够输出测试人脸类别或是否属于同一类。对于模型训练过程还可以如图13所示，训练过程可以包括两个步骤，步骤1中，通过普通的人脸数据训练深度卷积网络，步骤2中，在第一步训练好模型的基础上，再次利用混合的人脸数据微调整个网络参数。

本申请实施例引入了遮挡模式，通过人脸识别过程中产生的第一遮挡指示信息，确定该第一样本人脸图像的预测遮挡模式，并与该第一样本人脸图像所标注的目标遮挡模式做对比，以此能够训练图像处理模型输出更准确的第一遮挡指示信息，进而基于准确的第一遮挡指示信息进行人脸识别，得到的识别结果也就更准确，换言之，该图像处理模型能够更准确地处理存在遮挡的人脸图像，也即是该图像处理模型的鲁棒性更好。另一方面，该图像处理模型能够直接对第一样本人脸图像进行特征提取，再基于提取到的图像特征以及对应的第一遮挡指示信息进行人脸识别，无需借助外部网络，能够端到端地进行图像处理，因此显著地减少了计算量，提升了设备的运行速度，也能够减少模型的个数，且由于该图像处理模型处理图像的准确性不受外部网络因素影响，因此准确性得到了显著提升。

上述图3和图6所示实施例对图像处理模型的训练过程进行了说明，该图像处理模型在训练完成后，能够用于图像处理，图像处理流程可以如下述图14所示。图14是本申请实施例提供的一种图像处理方法的流程图，参见图14，该方法包括：

1401、电子设备对待识别的目标人脸图像进行特征提取，得到该目标人脸图像的第二整体图像特征。

该步骤1401与上述步骤601中获取第一整体图像特征的过程同理，在此不多做赘述。

在一些实施例中，电子设备首先对该目标人脸图像进行预处理，再对预处理后的目标人脸图像进行特征提取，得到该目标人脸图像的第二整体图像特征。

在一些实施例中，该预处理过程可以为：电子设备对该目标人脸图像进行人脸检测，基于人脸检测结果，对该目标人脸图像进行裁剪，得到预处理后的目标人脸图像。

1402、电子设备确定该第二整体图像特征对应的第二遮挡指示信息，该第二遮挡指示信息用于指示目标人脸图像的人脸遮挡区域的图像特征。

该步骤1402与上述步骤602同理，在此不多做赘述。

在一些实施例中，该第二遮挡指示信息的确定过程可以为：电子设备对该第二整体图像特征进行卷积处理，对卷积处理后的图像特征进行分类，得到该第二遮挡指示信息。

1403、电子设备根据该目标人脸图像的第二整体图像特征和该第二遮挡指示信息，获取第二目标图像特征。

1404、电子设备基于该第二目标图像特征，对该目标人脸图像中的人脸进行识别。

该步骤1403和步骤1404与上述步骤603中的6011和6012同理，在此不多做赘述。

在一些实施例中，上述步骤1403可以为：电子设备基于该第二遮挡指示信息，去除该第二整体图像特征中该人脸遮挡区域的图像特征，得到第二目标图像特征。

在一些实施例中，去除的方式可以通过相乘实现，电子设备将该第二整体图像特征与该第二遮挡指示信息相乘，得到该第二目标图像特征。

在一些实施例中，上述图像处理方法可以通过图像处理模型实现，电子设备可以将该目标人脸图像输入图像处理模型中，由该图像处理模型执行该特征提取、确定第二遮挡指示信息、获取第二目标图像特征以及人脸识别过程，输出识别结果。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图15是本申请实施例提供的一种图像处理模型训练装置的结构示意图，参见图15，该装置包括：

第一获取模块1501，用于基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，所述第一遮挡指示信息用于指示所述第一样本人脸图像的人脸遮挡区域的图像特征；

第二获取模块1502，用于基于所述预测识别结果和所述第一样本人脸图像对应的目标识别结果，获取识别误差；

第三获取模块1503，用于基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，所述第一样本人脸图像的遮挡模式用于指示所述人脸遮挡区域的位置以及尺寸；

更新模块1504，用于根据该识别误差和该分类误差，对该图像处理模型的模型参数进行更新。

在一些实施例中，该第三获取模块1503用于：

基于所述第一遮挡指示信息，确定所述第一样本人脸图像的预测遮挡模式；

基于所述预测遮挡模式和所述目标遮挡模式，获取所述分类误差。

在一些实施例中，该第三获取模块1503用于：

基于所述第一遮挡指示信息，获取第一遮挡区域信息，所述第一遮挡区域信息用于指示所述第一样本人脸图像中多个图像块的被遮挡情况；

将所述第一遮挡区域信息与至少两个候选遮挡模式对应的遮挡区域信息进行匹配，得到至少两个匹配度；

根据所述至少两个匹配度，在所述至少两个候选遮挡模式中确定所述预测遮挡模式。

在一些实施例中，该更新模块1504用于执行下述任一项：

获取所述分类误差和所述分类误差的权重的乘积，将所述乘积与所述识别误差之和作为目标误差，基于所述目标误差，对所述图像处理模型的模型参数进行更新；

基于所述分类误差和所述识别误差各自的权重，对所述分类误差和所述识别误差进行加权求和，得到目标误差，基于所述目标误差，对所述图像处理模型的模型参数进行更新。

在一些实施例中，该第一获取模块1501包括：第一获取单元和识别单元；

该第一获取单元，用于基于所述图像处理模型，获取所述第一样本人脸图像的第一整体图像特征以及所述第一整体图像特征对应的第一遮挡指示信息；

该识别单元，用于基于所述第一整体图像特征和所述第一遮挡指示信息进行人脸识别，得到所述第一样本人脸图像的预测识别结果。

在一些实施例中，该第一获取单元包括：特征提取子单元和确定子单元；

该特征提取子单元，用于基于所述图像处理模型，对第一样本人脸图像进行特征提取，得到所述第一整体图像特征；

该确定子单元，用于确定所述第一整体图像特征对应的第一遮挡指示信息。

在一些实施例中，该特征提取子单元用于：

对所述第一整体图像特征进行卷积；

对卷积后的图像特征进行分类，得到所述第一遮挡指示信息。

在一些实施例中，该识别单元包括：去除子单元和识别子单元；

该去除子单元，用于基于所述第一遮挡指示信息，去除所述第一整体图像特征中所述人脸遮挡区域的图像特征，得到第一目标图像特征；

该识别子单元，用于根据所述第一目标图像特征，对所述第一样本人脸图像进行人脸识别，得到所述预测识别结果。

在一些实施例中，该去除子单元，用于将所述第一整体图像特征与所述第一遮挡指示信息进行相乘，得到所述第一目标图像特征。

在一些实施例中，该第一获取单元还包括预处理子单元；

该预处理子单元，用于基于所述图像处理模型，对所述第一样本人脸图像进行预处理；

该特征提取子单元和该确定子单元，用于基于预处理后的第一样本人脸图像，获取所述第一整体图像特征以及所述第一遮挡指示信息。

在一些实施例中，该预处理子单元用于：

基于所述图像处理模型，对所述第一样本人脸图像进行人脸检测；

基于人脸检测结果，对所述第一样本人脸图像进行裁剪，得到预处理后的第一样本人脸图像像。

在一些实施例中，该图像处理模型包括卷积神经网络、解码器、识别网络和遮挡模式预测网络；

所述卷积神经网络用于执行所述预处理和所述第一整体图像特征的获取步骤；

所述解码器用于执行所述第一遮挡指示信息的获取步骤；

所述识别网络用于基于所述第一整体图像特征和所述第一遮挡指示信息进行人脸识别，得到所述第一样本人脸图像的预测识别结果；

所述遮挡模式预测网络用于基于所述第一遮挡指示信息，确定所述第一样本人脸图像的预测遮挡模式。

在一些实施例中，该装置还包括训练模块，该训练模块，用于基于第二样本人脸图像对所述卷积神经网络进行训练，所述第二样本人脸图像中人脸未被遮挡。

在一些实施例中，该装置还包括识别模块，该识别模块，用于响应于图像处理指令，基于该图像处理模型，对待识别的目标人脸图像进行特征提取，基于提取到的第二整体图像特征与该第二整体图像特征对应的第二遮挡指示信息进行人脸识别，得到该目标人脸图像的图像识别结果。

需要说明的是：上述实施例提供的图像处理模型训练装置在图像处理模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将图像处理模型训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理模型训练装置与图像处理模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述方法实施例中的电子设备能够实现为终端。例如，图16是本申请实施例提供的一种终端的结构示意图。该终端1600可以是便携式移动终端，比如：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器 1601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的图像处理模型训练方法或图像处理方法。

本领域技术人员可以理解，图16中示出的结构并不构成对终端1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备能够实现为服务器。例如，图17是本申请实施例提供的一种服务器的结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)1701和一个或一个以上的存储器1702，其中，该存储器1702中存储有至少一条程序代码，该至少一条程序代码由该处理器1701加载并执行以实现上述各个方法实施例提供的图像处理模型训练方法或图像处理方法。当然，该服务器还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

在一些实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码由可由处理器执行以完成上述实施例中的图像处理模型训练方法或图像处理方法。例如，计算机可读存储介质能够是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在一些实施例中，还提供一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得电子设备能够执行上述图像处理模型训练方法或图像处理方法。

Claims

一种图像处理模型训练方法，由电子设备执行，所述方法包括：

基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，所述第一遮挡指示信息用于指示所述第一样本人脸图像的人脸遮挡区域的图像特征；

基于所述预测识别结果和所述第一样本人脸图像对应的目标识别结果，获取识别误差；

基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，所述第一样本人脸图像的遮挡模式用于指示所述人脸遮挡区域的位置以及尺寸；

根据所述识别误差和所述分类误差，对所述图像处理模型的模型参数进行更新。
根据权利要求1所述的方法，其中，所述基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，包括：

基于所述第一遮挡指示信息，确定所述第一样本人脸图像的预测遮挡模式；

基于所述预测遮挡模式和所述目标遮挡模式，获取所述分类误差。
根据权利要求2所述的方法，其中，所述基于所述第一遮挡指示信息，确定所述第一样本人脸图像的预测遮挡模式，包括：

基于所述第一遮挡指示信息，获取第一遮挡区域信息，所述第一遮挡区域信息用于指示所述第一样本人脸图像中多个图像块的被遮挡情况；

将所述第一遮挡区域信息与至少两个候选遮挡模式对应的遮挡区域信息进行匹配，得到至少两个匹配度；

根据所述至少两个匹配度，在所述至少两个候选遮挡模式中确定所述预测遮挡模式。
根据权利要求1所述的方法，其中，所述根据所述识别误差和所述分类误差，对所述图像处理模型的模型参数进行更新，包括下述任一项：

获取所述分类误差和所述分类误差的权重的乘积，将所述乘积与所述识别误差之和作为目标误差，基于所述目标误差，对所述图像处理模型的模型参数进行更新；

基于所述分类误差和所述识别误差各自的权重，对所述分类误差和所述识别误差进行加权求和，得到目标误差，基于所述目标误差，对所述图像处理模型的模型参数进行更新。
根据权利要求1所述的方法，其中，所述基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，包括：

基于所述图像处理模型，获取所述第一样本人脸图像的第一整体图像特征以及所述第一整体图像特征对应的第一遮挡指示信息；

基于所述第一整体图像特征和所述第一遮挡指示信息进行人脸识别，得到所述第一样本人脸图像的预测识别结果。
根据权利要求5所述的方法，其中，所述基于所述图像处理模型，获取第一样本人脸图像的第一整体图像特征以及所述第一整体图像特征对应的第一遮挡指示信息，包括：

基于所述图像处理模型，对第一样本人脸图像进行特征提取，得到所述第一整体图像特征；

确定所述第一整体图像特征对应的第一遮挡指示信息。
根据权利要求6所述的方法，其中，所述确定所述第一整体图像特征对应的第一遮挡指示信息，包括：

对所述第一整体图像特征进行卷积；

对卷积后的图像特征进行分类，得到所述第一遮挡指示信息。
根据权利要求5所述的方法，其中，所述基于所述第一整体图像特征和所述第一遮挡指示信息进行人脸识别，得到所述第一样本人脸图像的预测识别结果，包括：

基于所述第一遮挡指示信息，去除所述第一整体图像特征中所述人脸遮挡区域的图像特征，得到第一目标图像特征；

根据所述第一目标图像特征，对所述第一样本人脸图像进行人脸识别，得到所述预测识别结果。
根据权利要求5所述的方法，其中，所述基于所述图像处理模型，获取所述第一样本人脸图像的第一整体图像特征以及所述第一整体图像特征对应的第一遮挡指示信息，包括：

基于所述图像处理模型，对所述第一样本人脸图像进行预处理；

基于预处理后的第一样本人脸图像，获取所述第一整体图像特征以及所述第一遮挡指示信息。
根据权利要求9所述的方法，其中，所述基于所述图像处理模型，对所述第一样本人脸图像进行预处理，包括：

基于所述图像处理模型，对所述第一样本人脸图像进行人脸检测；

基于人脸检测结果，对所述第一样本人脸图像进行裁剪，得到预处理后的第一样本人脸图像。
根据权利要求9所述的方法，其中，所述图像处理模型包括卷积神经网络、解码器、识别网络和遮挡模式预测网络；

所述卷积神经网络用于执行所述预处理和所述第一整体图像特征的获取步骤；

所述解码器用于执行所述第一遮挡指示信息的获取步骤；

所述识别网络用于基于所述第一整体图像特征和所述第一遮挡指示信息进行人脸识别，得到所述第一样本人脸图像的预测识别结果；

所述遮挡模式预测网络用于基于所述第一遮挡指示信息，确定所述第一样本人脸图像的预测遮挡模式。
根据权利要求11所述的方法，其中，所述方法还包括：

基于第二样本人脸图像对所述卷积神经网络进行训练，所述第二样本人脸图像中人脸未被遮挡。
根据权利要求8所述的方法，其中，所述基于所述第一遮挡指示信息，去除所述第一整体图像特征中所述人脸遮挡区域的图像特征，得到第一目标图像特征，包括：

将所述第一整体图像特征与所述第一遮挡指示信息进行相乘，得到所述第一目标图像特征。
一种图像处理方法，由电子设备执行，所述方法包括：

响应于图像处理指令，对待识别的目标人脸图像进行特征提取，得到所述目标人脸图像的第二整体图像特征；

确定所述第二整体图像特征对应的第二遮挡指示信息，所述第二遮挡指示信息用于指示所述目标人脸图像的人脸遮挡区域的图像特征；

根据所述第二遮挡指示信息，去除所述第二整体图像特征中所述人脸遮挡区域的图像特征，得到第二目标图像特征；

基于所述第二目标图像特征，对所述目标人脸图像进行人脸识别。
根据权利要求14所述的方法，其中，所述方法包括：

将所述目标人脸图像输入图像处理模型中，由所述图像处理模型执行所述特征提取、确定第二遮挡指示信息、获取第二目标图像特征以及人脸识别过程，输出识别结果。
一种图像处理模型训练装置，其中，所述装置包括：

第一获取模块，用于基于图像处理模型，获取第一样本人脸图像的预测识别结果和第一遮挡指示信息，所述第一遮挡指示信息用于指示所述第一样本人脸图像的人脸遮挡区域的图像特征；

第二获取模块，用于基于所述预测识别结果和所述第一样本人脸图像对应的目标识别结果，获取识别误差；

第三获取模块，用于基于所述第一遮挡指示信息和所述第一样本人脸图像对应的目标遮挡模式，获取分类误差，其中，所述第一样本人脸图像的遮挡模式用于指示所述人脸遮挡区域的位置以及尺寸；

更新模块，用于根据所述识别误差和所述分类误差，对所述图像处理模型的模型参数进行更新。
一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至13中任一项所述的图像处理模型训练方法。
一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求14或15所述的图像处理方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至13中任一项所述的图像处理模型训练方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求14或15所述的图像处理方法。