WO2021077984A1

WO2021077984A1 - 对象识别方法、装置、电子设备及可读存储介质

Info

Publication number: WO2021077984A1
Application number: PCT/CN2020/117764
Authority: WO
Inventors: 宋凌雪; 龚迪洪; 李志锋; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-10-23
Filing date: 2020-09-25
Publication date: 2021-04-29
Also published as: US20220058426A1; CN110728330A

Abstract

本申请提供了一种基于人工智能的对象识别方法、装置、设备及存储介质，涉及人工智能技术，方法包括：检测待识别图像的待识别对象的潜在的遮挡区域，获取表征待识别对象的遮挡区域以及未遮挡区域的二值图像；从二值图像中获取表征遮挡区域的遮挡二值图像块；基于遮挡二值图像块，查询二值掩码字典包括的遮挡二值图像块与二值掩码的映射关系，得到对应遮挡二值图像块的二值掩码；将基于每个遮挡二值图像块查询到的二值掩码进行合成，得到对应二值图像的二值掩码；基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征，确定待识别图像与预存对象图像的匹配关系。

Description

对象识别方法、装置、电子设备及可读存储介质

相关申请的交叉引用

本申请基于申请号为201911013447.1、申请日为2019年10月23日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的对象识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

深度学习(DL，Deep Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

随着近年来人工智能技术的发展，深度学习在人工智能技术中的对象识别领域已经处于支配地位，但是基于目前的深度学习算法，在对象被部分遮挡的情况下，算法识别性能也会遭遇严重下降。

申请内容

本申请实施例提供一种基于人工智能的对象识别方法、装置及计算机可读存储介质，能够保持识别非遮挡对象的识别准确率，且能够提高识别部分遮挡对象的识别准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的对象识别方法，所述方法由电子设备执行，所述方法包括：

检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像；

从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块；

基于所述遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应所述遮挡二值图像块的二值掩码；

将基于每个所述遮挡二值图像块查询到的二值掩码进行合成，得到对应所述二值图像的二值掩码；

基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征，确定所述待识别图像与所述预存对象图像的匹配关系。

本申请实施例提供一种基于人工智能的对象识别装置，包括：

遮挡检测模块，配置为检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像；

遮挡二值图像块获取模块，配置为从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块；

二值掩码查询模块，配置为基于所述遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应所述遮挡二值图像块的二值掩码；

二值掩码合成模块，配置为将基于每个所述遮挡二值图像块查询到的二值掩码进行合成，得到对应所述二值图像的二值掩码；

匹配关系确定模块，配置为基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征，确定所述待识别图像与所述预存对象图像的匹配关系。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，配置为存储实现本申请实施例提供的基于人工智能的对象识别方法的可执行指令；

处理器，配置执行所述存储器中存储的所述可执行指令，以实现本申请实施例提供的基于人工智能的对象识别方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述计算机可执行指令被处理器执行时实现本申请实施例提供的基于人工智能的对象识别方法。

本申请实施例具有以下有益效果：

本申请实施例提供的基于人工智能的对象识别方法对待识别图像中遮挡区域与未遮挡区域进行区分，并获取待识别图像中遮挡区域的二值掩码，从而基于二值掩码、待识别图像及预存图像进行图像识别，从而实现了在待识别对象被遮挡的情况下，遮挡区域对待识别对象的特征元素的产生的影响被抑制，使得遮挡对象被识别的准确性大幅提高的技术效果。

附图说明

图1是相关技术中的通过掩膜网络进行遮挡识别的示意图；

图2是本申请实施例提供的基于人工智能的对象识别系统的应用场景示意图；

图3是本申请实施例提供的电子设备的结构示意图；

图4是本申请实施例提供的基于人工智能的对象识别方法的流程示意图；

图5A-5D是本申请实施例提供的基于人工智能的对象识别方法的流程示意图；

图6是本申请实施例提供的基于人工智能的对象识别系统的进行对象识别的流程示意图；

图7是本申请实施例提供的基于人工智能的对象识别方法的人脸图像的分割示意图；

图8是本申请实施例提供的基于人工智能的对象识别方法中的成对差分孪生网络的结构示意图；

图9是本申请实施例提供的基于人工智能的对象识别方法的二值掩码字典中的每个索引项M _j的计算流程示意图；

图10是本申请实施例提供的基于人工智能的对象识别方法中合成待识别人脸图像的二值掩码M的流程示意图；

图11是本申请实施例提供的基于人工智能的对象识别方法中特征提取的示意图；

图12是本申请实施例提供的基于人工智能的对象识别方法的模型构建示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积特征f(·)：在本文中指的是卷积神经网络卷积层的输出，通常是具有C个通道，高为H，宽为W的三维张量，即f(·)∈R ^C*H*W。

2)卷积特征元素：坐标为(c,h,w)的张量元素。

3)卷积特征的同一空间位置的特征元素：h维和w维坐标相同的C个通道的元素。

4)掩码：与顶层卷积特征大小相同的三维张量

深度学习在对象识别领域已经处于支配地位，然而，相关技术的深度学习算法在部分遮挡的条件下也会遭遇严重的性能下降。参见图1，图1是相关技术中的通过掩膜网络进行遮挡识别的示意图。在相关技术中，在基础卷积神经网络的中层嵌入一个掩膜网络模块，形成识别网络，该模块利用两层卷积直接从输入对象图像中学习一组权值M(i，j)，通过卷积层对输入图像进行特征提取处理后，通过池化层进行最大池化处理，再通过卷积层对输入图像进行特征提取处理，再通过池化层进行最大池化处理，得到一组权值M(i，j)，每个权值与基础卷积网络中层卷积特征的对应空间位置的特征相乘，通过端到端的训练学习，使该模块对有用的特征输出较高的权值，对被遮挡破坏的特征输出较低的权值，从而达到减弱遮挡影响的目的。

然而，该方案的掩膜网络模块分支对卷积特征上相同空间位置所有通道的特征元素输出相同的权值，即认为卷积特征每个通道的特征元素受到遮挡影响的情况是一致的，如图1所示，由原始特征U变换到加权之后的特征V，在通道维度上，特征元素并未经过不同加权处理，本申请经分析和实验验证发现，即使是对卷积特征上的同一空间位置，各个通道此位置的特征元素值在遮挡条件下的变化情况也是存在较大差异的，因此，相关技术的方案在原理上存在着漏洞，并且在对象识别系统的应用场景中，通常是计算一张待识别对象的特征与数据库中各对象特征之间的相似度，然后进行识别，图1所示的方案的思路仅仅是降低待识别遮挡对象特征中遮挡部分的影响，并没有解决计算待识别对象特征与数据库中对象特征相似度时存在的信息不一致性，例如对一张戴墨镜的待识别对象，该方案仅仅使墨镜部分尽可能少地影响测试对象的特征，而数据库中的无遮挡对象在该方案的网络结构下仍会保留被墨镜遮挡的原始部分的特征，因此在计算相似度时该原始部分的区域仍会造成很强的不一致性影响，那么原始部分被遮挡的影响实际上还是存在的。

因而，本申请要解决的问题是：基于一般识别场景(无遮挡或少遮挡)下性能良好的深度卷积网络，提出一种对遮挡鲁棒的对象识别系统，从人眼的视觉经验出发，显式的找到任意遮挡条件下被破坏的卷积特征元素，并在对待识别对象进行识别时，将这些特征元素携带的干扰信息从计算相似度的步骤中剔除，确保识别是根据待识别对象中未被遮挡的部分进行的，符合人眼的视觉经验。

在本申请实施例中提出一种成对差分孪生网络结构，来显式地学习有遮挡区域与被遮挡破坏的特征元素之间的映射关系，基于此映射关系，建立一个二值掩码字典，字典中的每个索引项表示某块区域发生遮挡时，受影响大的特征元素，根据这一字典，能够得到任意遮挡条件下应该被去除的特征元素，在识别时抑制这些元素的响应值，从而实现对遮挡的鲁棒性。

本申请实施例提供一种基于人工智能的对象识别方法、装置、电子设备和计算机可读存储介质，能够在待识别对象被遮挡的情况下，抑制遮挡区域对待识别对象的特征元素所产生的影响，使得遮挡对象被识别的准确性大幅提高，下面说明本申请实施例提供的基于人工智能的对象识别设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的基于人工智能的对象识别系统的应用场景示意图，对象识别系统100中还包括：终端400、网络300、服务器200以及数据库500，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，通过终端400的摄像头采集到待识别图像，响应于接收到终端400的对象识别请求，服务器200读取数据库500中预存的对象图像，并确定待识别图像与预存的对象图像的匹配关系，服务器200将确定的匹配关系作为对象识别结果返回给终端400的显示界面，以对其进行显示。

参见图3，图3是本申请实施例提供的电子设备的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器250中的基于人工智能的对象识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：遮挡检测模块2551、遮挡二值图像块获取模块2552、二值掩码查询模块2553、二值掩码合成模块2554、匹配关系确定模块2555、二值掩码字典构建模块2556、对象识别模型训练模块2557和仿射变换模块2558。这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于人工智能的对象识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于人工智能的对象识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于人工智能的对象识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的对象识别方法。

下面分两个阶段说明本申请实施例提供的基于人工智能的对象识别方法，第一个部分是模型的训练阶段，第二个部分是利用模型的识别阶段。

下面说明模型的训练阶段，参见图4，图4是本申请实施例提供的基于人工智能的对象识别方法的流程示意图，将结合图4示出的步骤101-104进行说明，下述方法的步骤可以在上述任意类型的电子设备(例如终端或服务器)上实现。

在步骤101中，基于对象图像数据库，构建由针对不同位置编号的对象图像样本对组成的训练样本集合；其中，对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本。

这里的对象可以是人、动物或者是物品，对于人而言，遮挡识别可以基于用于进行人脸识别的对象识别模型进行，对于动物而言，遮挡识别可以基于用于进行动物面部识别的对象识别模型进行，可以识别出某种动物的品种或者不同动物的类别，对于物品而言，遮挡识别可以基于专门用于进行某类物品识别的对象识别模型进行。

在一些实施例中，在构建二值掩码字典之前，还可以先构建训练样本集合，训练样本集合的构建基础是对象图像数据库，在步骤101中基于对象图像数据库，构建由针对不同位置编号的对象图像样本对组成的训练样本集合，可以通过下述技术方案实现：获取对象图像数据库中的对象图像样本，并对对象图像样本进行均匀分割，以获取对应不同对象图像样本块的位置编号；针对位置编号在对象图像样本中对应的对象图像样本块，进行遮挡处理；将对象图像样本以及经过遮挡处理的对象图像样本，构造为针对位置编号的对象图像样本对；基于不同位置编号的对象图像样本对，形成训练样本集合。

在一些实施例中，将对象图像样本进行均匀分割，例如，经过均匀分割后，形成12个对象图像样本块，对12个对象图像样本块进行对应的位置编号，每一个对象图像样本块对应一个位置编号，针对位置编号在对象图像样本中对应的对象图像样本块，进行遮挡处理，例如，对于位置编号11而言，在对应位置编号11的对象图像样本块上进行遮挡处理，得到一个对象图像样本对，这个对象图像样本对中包括未经遮挡处理的原始的对象图像样本和在对应的对象图像样本块进行遮挡处理之后的对象图像样本，针对于同一位置编号，可以构造多个对象图像样本对，虽然不同的对象图像样本对中的对象有区别，但是均是在同一位置进行了遮挡处理。

在步骤102中，基于基础对象识别模型以及掩码生成模型，构建成对差分孪生网络模型。

在一些实施例中，基于基础对象识别模型以及掩码生成模型，构建成对差分孪生网络模型，接着基于训练样本集合，训练成对差分孪生网络模型，基于经过训练的成对差分孪生网络模型，构建二值掩码字典，其中，二值掩码字典的索引是遮挡二值图像块，二值掩码字典的索引项是二值掩码。这里，成对差分孪生网络模型由两个完全相同的基础对象识别模型组成，基础对象识别模型的结构基础是卷积神经网络，将两个基础对象识别模型所提取出的特征的差值的绝对值作为注意力机制，使得掩码生成模型对绝对值进行处理，其实质是关注了那些被遮挡所影响到的特征元素，掩码生成模型由常见的神经网络单元构成，包括批归一层，卷积层等等。训练成对孪生差分网络的过程实际上是相当于训练掩码生成模型，其中的基础对象识别模型是经过训练的能够进行对象识别的一般模型，在训练成对差分孪生网络的过程中，基础对象识别模型的参数是固定的，仅训练更新掩码生成模型的参数。

在步骤103中，基于训练样本集合，训练成对差分孪生网络模型。

在一些实施例中，步骤103中基于训练样本集合，训练成对差分孪生网络模型，具体通过如下技术方案实现，初始化成对差分孪生网络模型中的掩码生成模型，并初始化包括输入样本、输入样本特征、分类概率、以及掩码生成模型参数的损失函数；在成对差分孪生网络模型每次迭代训练过程中执行以下处理：将训练样本集合包括的对象图像样本对作为输入样本，通过成对差分孪生网络模型对输入样本进行特征提取，得到输入样本特征；通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别，得到分类概率；将输入样本、输入样本特征和分类概率代入损失函数，以确定损失函数取得最小值时对应的成对差分孪生网络模型参数；根据所确定的掩码生成模型参数更新成对差分孪生网络模型。

在一些实施例中，训练样本集合中包括针对不同位置编号的对象图像样本对，通过针对某一位置编号的对象图像样本对，对成对差分孪生网络模型进行训练，训练后所得到的掩码生成模型即是针对于该位置编号的掩码生成模型，以通过掩码生成模型找出各个位置编号的图像块被遮挡时，对象图像的卷积特征中受遮挡影响大从而应该被抑制的特征元素。

在一些实施例中，对掩码生成模型进行初始化，并初始化损失函数中的输入样本，输出结果以及掩码生成模型的参数，这里的输出结果包括输入样本特征和分类概率。这里的输入样本是训练样本集合包括的对象图像样本对，在训练针对一个位置编号的掩码生成模型的过程中，利用针对相应位置编号的样本对进行训练，通过成对差分孪生网络模型对输入样本进行特征提取，得到输入样本特征，这里的输入样本特征是经过掩码生成模型处理后得到的。

在一些实施例中，将所述训练样本集合包括的对象图像样本对作为输入样本，通过所述成对差分孪生网络模型对所述输入样本进行特征提取，得到所述输入样本特征的过程具体可以通过如下技术方案实现，将训练样本集合中的针对同一位置编号的对象图像样本对作为输入样本，通过成对差分孪生网络模型中的卷积层对输入样本进行特征提取，得到分别对应对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征；通过成对差分孪生网络模型中的掩码生成模型对第一特征和第二特征的差值的绝对值进行掩码生成处理，得到针对位置编号的掩码；通过掩码分别对第一特征以及第二特征进行乘运算，得到输入样本特征。

这里的掩码生成模型由常见的神经网络单元构成，包括归一化层，卷积层等等，将卷积层得到的特征映射到[0,1]的范围内，通过掩码生成模型得到一个与卷积特征大小相同的掩码，即，针对位置编号的掩码是与第一特征以及第二特征大小相同的三维张量，掩码中的每个元素和第一特征以及第二特征的对应元素相乘，得到新的卷积特征作为输入样本特征。

在一些实施例中，通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别，得到分类概率，这里的分类概率可以是分类正确的概率，这里通过分类正确的概率以及输入样本特征来对掩码生成模型进行修正更新，即将输入样本、输入样本特征和分类概率代入损失函数，以确定损失函数取得最小值时对应的成对差分孪生网络模型参数；根据所确定的掩码生成模型参数更新成对差分孪生网络模型。

在步骤104中，基于经过训练的成对差分孪生网络模型，构建二值掩码字典；其中，二值掩码字典的索引是遮挡二值图像块，二值掩码字典的索引项是二值掩码。

在一些实施例中，步骤104中基于经过训练的成对差分孪生网络模型，构建二值掩码字典，具体可以通过以下技术方案实现，通过成对差分孪生网络模型对同一位置编号的对象图像样本对进行掩码提取，得到对应位置编号的掩码集合；对掩码集合中的每个掩码进行归一化处理，并基于每个掩码的归一化结果计算平均值，以确定对应位置编号的平均掩码；将对应位置编号的遮挡二值图像块作为二值掩码字典的索引，并对平均掩码进行二值化，以将生成的二值掩码作为二值掩码字典的索引项。

在一些实施例中，通过已经训练好的成对差分孪生网络提取训练样本集合中针对一个位置编号的对象图像样本对的掩码集合，当训练样本集合中有N对对象图像样本对时，掩码集合中包括N个掩码，对N个掩码中的每个掩码进行归一化处理，并基于每个掩码的归一化结果计算平均值，以确定对应位置编号的平均掩码，将对应位置编号的遮挡二值图像块作为二值掩码字典的索引，并对平均掩码进行二值化，以将生成的二值掩码作为二值掩码字典的索引项。

作为示例，在平均掩码中，掩码值越小代表着对应的卷积特征元素被抑制得越多，针对于任意一个位置编号，将平均掩码中最小的τ*K个掩码值对应的卷积特征元素看作是被遮挡破坏的部分，τ是[0，1]范围内的实数，可以为0.25；K是任意一个位置编号的平均掩码的元素总数，也是顶层卷积特征的元素总数，K＝C*H*W，C为通道数，H为高度，W为宽度，由于经分析和实验验证发现，即使是对卷积特征上的同一空间位置，各个通道此位置的特征元素值在遮挡条件下的变化情况也是存在较大差异的，因此，由平均掩码

得到二值掩码字典的索引项M _j的过程实际上是基于顶层卷积特征的K个元素(每个空间位置的每个通道的元素)进行的，二值化的方式如下：

M _j[k]＝1,else (1)；

其中，k表示第k个掩码值，

表示平均掩码中最小的τ*K个掩码值。

在一些实施例中，在执行对象识别之前，还可以执行下述技术方案，基于由对象图像数据库构成的训练样本集合，训练用于获取预存对象图像的特征以及待识别图像的特征的基础对象识别模型；基于训练样本集合，训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型；其中，对象识别模型包括基础对象识别模型以及二值掩码处理模块。

在一些实施例中，上述技术方案中的基于训练样本集合，训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型，可以通过下述技术方案实现，初始化对象识别模型的全连接层，并初始化包括输入样本、分类识别结果、以及对象识别模型中全连接层参数的损失函数；在对象识别模型每次迭代训练过程中执行以下处理：将训练样本集合包括的经过遮挡处理的对象图像样本以及在二值掩码字典中对应的二值掩码作为输入样本，通过对象识别模型对输入样本进行分类识别，得到对应输入样本的分类识别结果；将输入样本和分类识别结果代入损失函数，以确定损失函数取得最小值时对应的对象识别模型中全连接层参数；根据所确定的全连接层参数更新对象识别模型。

下面说明本申请实施例提供的基于人工智能的对象识别方法的识别阶段。

参见图5A，图5A是本申请实施例提供的基于人工智能的对象识别方法的一个可选的流程示意图，将结合图5A示出的步骤201-205进行说明，下述方法的步骤可以在上述任意类型的电子设备(例如终端或服务器)上实现。

在步骤201中，检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征待识别对象的遮挡区域以及未遮挡区域的二值图像。

这里，待识别对象的潜在的遮挡区域表征待识别对象可以被遮挡，也可以不被遮挡，在获取的二值图像中，用0表示非遮挡像素，1代表遮挡像素。通过全卷积神经网络结构对待识别图像的待识别对象进行遮挡检测，这里的全卷积网络结构经由基于人工合成的遮挡数据以及自行标注的真实遮挡数据的训练得到。

在步骤202中，从二值图像中获取表征遮挡区域的遮挡二值图像块。

参见图5B，基于图5A，步骤202中从二值图像中获取表征遮挡区域的遮挡二值图像块，可以通过下述步骤2021-2023实现。

在步骤2021中，将二值图像分割为多个二值图像块。

在步骤2022中，确定分割得到的每个二值图像块中遮挡像素的数目比例。

在步骤2023中，当遮挡像素的数目比例超过数目比例阈值时，将对应的二值图像块确定为表征遮挡区域的遮挡二值图像块。

在一些实施例中，对二值图像进行均匀分割得到多个二值图像块，例如将二值图像分割成25个二值图像块，每一行有5个图像块，每一列也有5个图像块，每个图像块的大小相同，同时，每个二值图像块均带有各自的位置编号，例如，第一行第二个位置的图像块可以被编号为12，第三行第四个位置的图像块可以被编号为34。

在一些实施例中，对每个二值图像进行遮挡判断，以确定所有二值图像块表征遮挡区域的遮挡二值图像块，有些二值图像块中有部分遮挡像素，但是二值图像块中的遮挡像素的占比较少，则不将这些二值图像块判断为遮挡二值图像块，对于二值图像块中遮挡像素的占比超过数目比例阈值的二值图像块，将这些二值图像块判断为遮挡二值图像块，即首先确定分割得到的每个二值图像块中遮挡像素的数目比例，当遮挡像素的数目比例超过数目比例阈值时，将对应的二值图像块确定为表征遮挡区域的遮挡二值图像块。

在步骤203中，基于获取的遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应遮挡二值图像块的二值掩码。

参见图5C，基于图5A，步骤203中查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，可以通过下述步骤2031-2032实现。

在步骤2031中，获取对应遮挡二值图像块的位置编号。

在步骤2032中，基于对应遮挡二值图像块的位置编号，在二值掩码字典中查询遮挡二值图像块的位置编号与二值掩码的映射关系。

在一些实施例中，这里的位置编号即为上文所述的位置编号，在二值掩码字典中记录了各个遮挡二值图像块和二值掩码M的映射关系，由于遮挡二值图像块和各自的位置编号是一一对应的，所以通过查询位置编号各个遮挡二值图像块的位置编号和二值掩码的映射关系，可以获得对应遮挡二值图像块的二值掩码。二值掩码可以表征出对应的遮挡二值图像块所影响的卷积特征元素，受到影响较大的卷积特征元素可以被二值掩码中的0值抑制，受到影响较大的卷积特征元素可以通过二值掩码中的1值保留。

在步骤204中，将基于每个遮挡二值图像块查询到的二值掩码进行合成，得到对应二值图像的二值掩码。

在一些实施例中，对针对每个遮挡二值图像块查询到的二值掩码进行合成，这里的合成可以是或逻辑运算，例如，对于对应编号为12、13和14的遮挡二值图像块，所查询到的二值掩码分别为M ₁₂、M ₁₃和M ₁₄，对上述所查询到的二值掩码进行如下所示的或运算：

其中，

表示逻辑求或运算。

在步骤205中，基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征，确定待识别图像与预存对象图像的匹配关系。

参见图5D，基于图5A，步骤205中基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征，确定待识别图像与预存对象图像的匹配关系，可以通过下述步骤2051-2053实现。

在步骤2051中，确定预存对象图像的特征以及待识别图像的特征。

在步骤2052中，将二值掩码分别与预存对象图像的特征以及待识别图像的特征进行乘运算，得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征。

在步骤2053中，确定预存特征与待识别特征之间的相似度，当相似度超过相似度阈值时，确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。

在一些实施例中，确定预存对象图像的特征以及待识别图像的特征，将二值掩码分别与预存对象图像的特征以及待识别图像的特征进行乘运算，得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征，确定预存特征与待识别特征之间的相似度，当相似度超过相似度阈值时，确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。

在一些实施例中，通过基础对象识别模型对预存对象图像和待识别图像分别进行特征提取，确定预存对象图像的预存特征以及待识别图像的待识别特征，通过对象识别模型中的二值掩码处理模块，将二值掩码分别与预存对象图像的预存特征以及待识别图像的待识别特征进行乘运算，以分别获得预存对象图像的预存特征以及对应待识别图像的待识别特征。

在一些实施例中，计算预存特征与待识别特征之间的余弦相似度，由于在特征提取阶段，将预存的干净的无遮挡的对象图像中提取出的特征也和二值掩码相乘，因此，能够确保相似度的计算是根据待识别图像中的对象的未遮挡部分进行的，以及对应于干净的无遮挡的对象图像中的相应的部分进行的，例如，对于被遮挡了眼睛部分的人脸而言，相似度的计算均是基于除了人眼的其他部分进行的，即便是对于预存的干净的人脸图像而言，所提取出的最终的特征，仍然是除人眼以外的部分，能够确保待识别图像与预存对象图像保留相似的信息量，当相似度超过相似度阈值时，确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。

在一些实施例中，在执行步骤201之前，还可以执行下述技术方案，检测待识别图像中待识别对象的关键点，并确定关键点的坐标位置；根据关键点的坐标位置，对待识别对象进行仿射变换，以将关键点对齐到与预存对象图像一致的标准模板位置，在仿射变换的过程中，将待识别对象的关键点仿射变换到标准模板位置，从而减少由于待识别对象的位置姿势不同导致的识别误差。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请中的对象识别方法可以应用于任意的人脸识别场景中，例如考勤系统、监控寻人系统、安检系统、手机电脑解锁等等。用户只需要在系统初始化时在系统中注册一张正面无遮挡人脸图像存在系统数据库中，作为预存人脸图像，在进行识别时只需获取用户的待识别图像即可。

参见图6，图6是本申请实施例提供的基于人工智能的对象识别系统的进行对象识别的流程示意图。

预处理模块进行人脸检测和对齐处理，通过预处理模块对输入的待识别人脸图像601进行预处理，在预处理过程中，首先，检测输入的待识别人脸图像中的人脸，并对左眼、右眼、鼻子、左嘴角和右嘴角的坐标位置进行定位，接着，根据五个关键点的坐标位置，将输入的待识别人脸图像中的人脸通过仿射变换，对齐到统一的模板位置并裁剪成固定大小，由此获得对齐后的待识别人脸图像602。

遮挡检测模块检测遮挡区域，通过遮挡检测模块对待识别的人脸图像进行遮挡检测，检测待识别人脸图像上发生部分遮挡的区域，输出与待识别人脸图像大小相同的二值图像603，其中，0代表非遮挡像素，1代表遮挡像素。

这里所使用到的人脸关键点检测基于多任务卷积神经网络实现，这里所使用到的遮挡检测基于全卷积网络结构实现，训练样本包括人工合成的遮挡数据和自行标注的真实遮挡数据。

掩码生成模块生成二值掩码M，这里的掩码生成模块即为顶层卷积特征掩码生成模块，通过掩码生成模块接收待识别人脸图像的经过遮挡检测的检测结果，从二值掩码字典中合成待识别人脸图像的二值掩码M。

识别模块提取特征并进行人脸鉴别或认证，通过识别模块中的特征提取模块，利用基础卷积神经网络和待识别图像的二值掩码分别提取对齐后的待识别人脸图像和系统数据库中预存人脸图像的特征；通过识别模块中的分类模块，根据获取的待识别人脸图像的特征以及预存人脸图像的特征对待识别人脸图像进行识别，在人脸认证的应用场景中，输出结果表征待识别人脸图像与系统数据库中的预存人脸图像是否为同一个人，对于人脸鉴别的应用场景中，输出结果表征待识别人脸图像所属的系统数据库中人脸图像的类别，即输出待识别人脸类别与预存人脸是否属于同一类别。

下面详细说明构建上述二值掩码字典的过程，该字典中的索引是人脸图像的遮挡块，索引项是二值掩码，该字典是针对一个基础人脸识别模型生成的，例如主干卷积神经网络(Trunk CNN，Convolutional Neural Networks)，这个Trunk CNN也是识别模块所使用的模型。

构建二值掩码字典分两个步骤：掩码生成模型的训练以及基于训练好的掩码生成模型建立一个二值化的掩码字典，即二值掩码字典。

在掩码生成模型的训练过程中，首先，根据人脸对齐的模板，将人脸区域划分为B*B个不重叠的区域，表示为

参见图7，图7是本申请实施例提供的基于人工智能的对象识别方法的人脸图像的分割示意图，例如，将人脸图像划分为5*5块，针对每个人脸图像块训练一个掩码生成模型(MG，Mask G enerator)，这里的掩码生成模型即为前述的掩码生成模型，每个MG的目的是找出，在人脸上某块b _j被遮挡时，该人脸图像的顶层卷积特征中受遮挡影响大从而应该减弱其响应值的元素，本申请实施例提供一种成对差分孪生网络(PD SN，Pairwise Differential Siamese Network)结构来学习每个MG。

参见图8，图8是本申请实施例提供的基于人工智能的对象识别方法中的成对差分孪生网络的结构示意图，成对差分孪生网络由两个相同Trunk CNN构成，训练第j个MG时，PDSN网络整体的输入是成对的人脸图像

x ⁱ表示干净无遮挡的人脸，

表示有遮挡的人脸，N表示人脸对的对数。

与x ⁱ属于同一个类别人脸图像，唯一的区别是

人脸上的b _j块被遮挡。成对人脸图像通过共享的Trunk CNN分别提取各自的顶层卷积特征

将二者的顶层卷积特征差值的绝对值

作为MG的输入，差值输入起到注意力机制的作用，使得MG关注那些被遮挡改变了的特征元素。

成对差分孪生网络中的核心模块是MG，MG由常见的神经网络单元构成，包括批归一化层(BN，Batch Normalization)、卷积层(Convolutional layer)等，最后通过逻辑回归激活函数将MG的输出值映射到[0,1]范围内，该MG输出一个与顶层卷积特征相同大小的掩码

其是与顶层卷积特征大小相同的三维张量，掩码中的每个元素与原顶层卷积特征的对应元素相乘，得到新的卷积特征

这里的卷积特征f(·)指的是卷积神经网络卷积层的输出，通常是具有C个通道，高为H，宽为W的三维张量，即f(·)∈R ^C*H*W，这里的卷积特征元素指的是坐标为(c,h,w)的张量元素，这里的卷积特征的同一空间位置的特征元素指的是h维和w维坐标相同的C个通道的元素。

在训练过程中的损失函数由两种损失函数联合构成，包括分类损失函数l _cls和对比损失函数l _diff，分类损失函数的目的在于，遮挡人脸的顶层卷积特征与掩码相乘后的新特征

能够提高Trunk CNN分类器的识别率，由此使得MG对阻碍识别的特征元素赋予较低的掩码值；对比损失函数的目的在于，使遮挡人脸的新特征

与其对应的干净人脸的卷积特征

尽可能的接近，由此使得MG对二者差异较大的特征元素赋予较低的掩码值，两个损失函数的共同作用能够促使MG对遮挡人脸卷积特征与干净人脸卷积特征中差异较大且影响识别的元素赋予低的掩码值，这些元素就是本方案所关心的被遮挡破坏了的元素，由此，损失函数为构造为：

其中，

表示MG的输出，F表示Trunk CNN顶层卷积层后面的全连接层或者平均池化层，

表示Trunk CNN分类正确的概率。

在本申请实施例中，将人脸区域划分为B*B个不重叠的区域，因此一共需要训练B*B个MG，这些MG的Trunk CNN部分都相同且参数固定，它们的训练数据来自同一数据库。

在基于训练好的掩码生成模型建立一个二值化的掩码字典的过程中，在各个MG的训练阶段完成后，通过MG的输出得到人脸图像上各块被遮挡时，该人脸图像的顶层卷积特征中被遮挡破坏从而应该减弱其响应值的元素，被减弱的元素对应着MG输出中较低的值。二值掩码字典的索引是人脸块b _j，索引项是一个二值掩码M _j，掩码M _j与Trunk CNN的顶层卷积特征大小相同，M _j中的0值代表着人脸块b _j被遮挡时应该被从识别中去除的特征元素。

参见图9，图9是本申请实施例提供的基于人工智能的对象识别方法的二值掩码字典中的每个索引项M _j的计算流程示意图。

在步骤901中：将多个人脸图像样本对输入上述经过训练的PDSN，得到一系列MG的输出掩码集合，这个掩码集合可以为

N代表样本对的数目，j代表针对位置编号为j的MG输出的掩码，这里的人脸图像样本对和上述训练MG过程中所使用的训练样本可以相同。

在步骤902中：对步骤901中生成的掩码集合中的每个掩码进行归一化处理，例如对于

其对应的归一化公式为：

其中，max()为样本数据的最大值，min()为样本数据的最小值。

在步骤903中：计算归一化后的这些掩码的均值，得到该第j个MG对应的平均掩码：

在步骤904中：对平均掩码进行二值化得到二值的字典索引项，这里的二值的字典索引项即为二值掩码M _j。

在平均掩码中，掩码值越小代表着对应的卷积特征元素被抑制得越多，据此本申请实施例中将平均掩码中最小的τ*K个掩码值对应的卷积特征元素看作是被遮挡破坏的部分(τ是[0,1]范围内的实数，可以为0.25；K是掩码的元素总数，也是顶层卷积特征的元素总数，K＝C*H*W)，则由平均掩码

得到二值掩码字典的索引项M _j的方式为：

M _j[k]＝1,else (5)；

其中k表示第k个掩码值，

表示平均掩码中最小的τ*K个掩码值。

按照图9所述的流程，对每个MG都生成其对应的二值掩码，由此构建了遮挡人脸图像块与二值掩码对应的二值掩码字典：

这里的字典即为遮挡块-掩码字典。

下面描述基于二值掩码字典，合成待识别人脸图像的二值掩码M的过程。参见图10，图10是本申请实施例提供的基于人工智能的对象识别方法中合成待识别人脸图像的二值掩码M的流程示意图。

在步骤1001中：根据输入的待识别人脸图像的遮挡检测结果，确定遮挡人脸图像块，遮挡检测结果是与待识别人脸图像大小相同的二值图像，0代表非遮挡像素，1代表遮挡像素，当遮挡检测结果中某个人脸图像块范围内值为1 的像素数目大于该人脸图像块范围内总像素数目的一半时，该人脸图像块即被确定是发生了遮挡的遮挡人脸图像块。

在步骤1002中：从二值掩码字典中查询遮挡人脸图像块的索引项，合成该待识别人脸的二值掩码M，这里的索引项即为M _j，以图6示的人脸图像为例，当人脸图像被分为5*5块时，在步骤1001中所确定的发生遮挡的人脸块为b ₁₂,b ₁₃,b ₁₄，根据训练阶段建立的二值掩码字典，得到该待识别人脸图像对应的二值掩码为：

其中

表示逻辑求或运算。

参见图11，图11是本申请实施例提供的基于人工智能的对象识别方法中特征提取的示意图。

特征提取阶段所使用的Trunk CNN与构建字典阶段的参数完全相同，结构上多了一个输入二值掩码M的分支，即在基础对象识别模型上多了一个输入二值掩码M的分支，为了使Trunk CNN顶层卷积层之后的全连接层适应二值化的掩码，通过任意遮挡的人脸样本及其二值掩码微调全连接层的参数，全连接层以前的所有参数保持不变，此微调阶段采用很小的学习率1e ^-4，可以完成6次训练，损失函数采用与训练Trunk CNN时相同的分类损失函数。

在实际应用中，数据库中可直接存储人脸图像的顶层卷积特征，识别待识别人脸图像时，将掩码M分别与待识别人脸图像的顶层卷积特征和数据库中的顶层卷积特征相乘，然后通过Trunk CNN微调过的全连接层或平均池化层得到分类时所用的最终的特征向量。

在提取特征向量后，计算待识别人脸图像(图11中的测试人脸)的特征向量f _p与数据库中各人脸图像(图11中的数据库人脸)的特征向量

的余弦相似度：

其中，s(p,g _i)即为特征向量f _p与数据库中各人脸图像的特征向量

余弦相似度。

在特征提取阶段，将数据库中干净无遮挡人脸的特征也与掩码M相乘，能够确保相似度的计算是根据待识别人脸图像中未被遮挡的部分进行的，即待识别人脸图像与数据库中人脸图像特征保留相似的信息量。

对于人脸鉴别场景中，需要识别出待识别人脸图像属于数据库中哪个人脸类别，可以采用最近邻分类器，即与测试人脸相似度最高的数据库中人脸图像的类别即为该待识别人脸所属的类别，也可以采用其他常用的分类器。

对于人脸认证场景，需要识别出待识别人脸图像与数据库中人脸图像是否属于同一个人，可以采用阈值判断的方式，即二者的相似度高于某阈值时即认为是同一个人，反之认为不是同一个人，也可以根据特征向量专门训练一个用于人脸认证的分类器。

参见图12，图12是是本申请实施例提供的基于人工智能的对象识别方法的模型构建示意图。

在本申请实施例提供的系统架构中，除了需要对特征提取模块中的全连接层参数进行微调，以及建立二值掩码字典外，还可以训练一个基础的人脸识别模型，训练样本的来源数据库不被限制，可以用常见的人脸公开数据库，也可以是用户自己的私有数据库，只要保证训练数据的预处理过程与前述预处理过程相同。本申请实施例提供的对象识别方法的模型训练过程如下，在步骤1201中，用人脸数据库训练一个基础对象识别模型，在步骤1202中，固定基础对象识别模型参数，用(干净，遮挡)人脸样本对训练B*B个成对差分孪生网络模型，建立二值化的遮挡块-掩码字典，在步骤1203中，固定Trunk CNN全连接层之前的参数，用任意遮挡的人脸及其对应掩码微调Trunk CNN的全连接层参数。

下面继续说明本申请实施例提供的基于人工智能的对象识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的基于人工智能的对象识别装置255中的软件模块可以包括：遮挡检测模块2551，配置为检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征待识别对象的遮挡区域以及未遮挡区域的二值图像；遮挡二值图像块获取模块2552，配置为从二值图像中获取表征遮挡区域的遮挡二值图像块；二值掩码查询模块2553，配置为基于遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应遮挡二值图像块的二值掩码；二值掩码合成模块2554，配置为将基于每个遮挡二值图像块查询到的二值掩码进行合成，得到对应二值图像的二值掩码；匹配关系确定模块2555，配置为基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征，确定待识别图像与预存对象图像的匹配关系。

在一些实施例中，遮挡二值图像块获取模块2552，还配置为：将二值图像分割为多个二值图像块；确定分割得到的每个二值图像块的遮挡像素的数目比例；当遮挡像素的数目比例超过数目比例阈值时，将二值图像块确定为表征遮挡区域的遮挡二值图像块。

在一些实施例中，二值掩码查询模块2553，还配置为：获取对应遮挡二值图像块的位置编号；基于对应遮挡二值图像块的位置编号，在二值掩码字典中查询遮挡二值图像块的位置编号与二值掩码的映射关系。

在一些实施例中，匹配关系确定模块2555，还配置为：确定预存对象图像的特征以及待识别图像的特征；将二值掩码与预存对象图像的特征以及待识别图像的特征分别相乘，得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征；确定预存特征与待识别特征之间的相似度，当相似度超过相似度阈值时，确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。

在一些实施例中，基于人工智能的对象识别装置255还包括：二值掩码字典构建模块2556，配置为：基于对象图像数据库，构建由针对不同位置编号的对象图像样本对组成的训练样本集合；其中，对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本；基于基础对象识别模型以及掩码生成模型，构建成对差分孪生网络模型；基于训练样本集合，训练成对差分孪生网络模型；基于经过训练的成对差分孪生网络模型，构建二值掩码字典；其中，二值掩码字典的索引是遮挡二值图像块，二值掩码字典的索引项是二值掩码。

在一些实施例中，二值掩码字典构建模块2556，还配置为：获取对象图像数据库中的对象图像样本，并对对象图像样本进行均匀分割，以获取对应不同对象图像样本块的位置编号；针对位置编号，对对象图像样本进行对应对象图像样本块的遮挡处理；将对象图像样本以及经过遮挡处理的对象图像样本，构造为针对位置编号的对象图像样本对；基于针对不同位置编号的对象图像样本对，形成训练样本集合。

在一些实施例中，二值掩码字典构建模块2556，还配置为：初始化成对差分孪生网络模型中的掩码生成模型，并初始化包括输入样本、输入样本特征、分类概率、以及掩码生成模型参数的损失函数；在成对差分孪生网络模型每次迭代训练过程中执行以下处理：将训练样本集合包括的对象图像样本对作为输入样本，通过成对差分孪生网络模型对输入样本进行特征提取，得到输入样本特征；通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别，得到分类概率；将输入样本、输入样本特征和分类概率代入损失函数，以确定损失函数取得最小值时对应的成对差分孪生网络模型参数；根据所确定的掩码生成模型参数更新成对差分孪生网络模型。

在一些实施例中，二值掩码字典构建模块2556，还配置为：将训练样本集合中的针对同一位置编号的对象图像样本对作为输入样本，通过成对差分孪生网络模型中的卷积层对输入样本进行特征提取，得到分别对应对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征；通过成对差分孪生网络模型中的掩码生成模型对第一特征和第二特征的差值的绝对值进行掩码生成处理，得到针对位置编号的掩码；通过掩码分别对第一特征以及第二特征进行相乘运算，得到输入样本特征。

在一些实施例中，二值掩码字典构建模块2556，还配置为：通过成对差分孪生网络模型对针对同一位置编号的对象图像样本对进行掩码提取，得到对应位置编号的掩码集合；对掩码集合中的每个掩码进行归一化处理，并确定对应位置编号的平均掩码；将对应位置编号的遮挡二值图像块作为二值掩码字典的索引，并对平均掩码进行二值化，以生成二值掩码作为二值掩码字典的索引项。

在一些实施例中，基于人工智能的对象识别装置255还包括：对象识别模型训练模块2557，配置为：基于由对象图像数据库构成的训练样本集合，训练用于获取预存对象图像的特征以及待识别图像的特征的基础对象识别模型；基于训练样本集合，训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型；其中，对象识别模型包括基础对象识别模型以及二值掩码处理模块。

在一些实施例中，对象识别模型训练模块2557，还配置为：初始化对象识别模型的全连接层，并初始化包括输入样本、分类识别结果、以及对象识别模型中全连接层参数的损失函数；在对象识别模型每次迭代训练过程中执行以下处理：将训练样本集合包括的经过遮挡处理的对象图像样本以及在二值掩码字典中对应的二值掩码确定为输入样本，通过对象识别模型对输入样本进行分类识别，得到对应输入样本的分类识别结果；将输入样本和分类识别结果代入损失函数，以确定损失函数取得最小值时对应的对象识别模型中全连接层参数；根据所确定的全连接层参数更新对象识别模型。

在一些实施例中，基于人工智能的对象识别装置255还包括：仿射变换模块2558，配置为：检测待识别图像中待识别对象的关键点，并确定关键点的坐标位置；根据关键点的坐标位置，对待识别对象进行仿射变换，以将关键点对齐到与预存对象图像一致的标准模板位置。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的对象识别方法，例如，如图4和图5A-5D示出的基于人工智能的对象识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，在待识别对象未被遮挡时，能够保持其识别非遮挡对象的性能，同时，在待识别对象被遮挡的情况下，遮挡区域对待识别对象的特征元素的产生的影响被抑制，使得遮挡对象被识别的准确性大幅提高，其在真实遮挡数据库和合成遮挡数据库中的测试性能均高于相关技术中的方案。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

工业实用性

本申请实施例中电子设备对待识别图像中遮挡区域与未遮挡区域进行区分，并获取待识别图像中遮挡区域的二值掩码，从而基于二值掩码、待识别图像及预存图像进行图像识别，从而实现了在待识别对象被遮挡的情况下，遮挡区域对待识别对象的特征元素所产生的影响被抑制，使得遮挡对象被识别的准确性大幅提高的技术效果。

Claims

一种基于人工智能的对象识别方法，所述方法由电子设备执行，所述方法包括：

检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像；

从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块；

基于所述遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应所述遮挡二值图像块的二值掩码；

将基于每个所述遮挡二值图像块查询到的二值掩码进行合成，得到对应所述二值图像的二值掩码；

基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征，确定所述待识别图像与所述预存对象图像的匹配关系。
根据权利要求1所述的方法，其中，所述从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块，包括：

将所述二值图像分割为多个二值图像块；

确定分割得到的每个二值图像块中遮挡像素的数目比例；

当所述遮挡像素的数目比例超过数目比例阈值时，将对应的二值图像块确定为表征所述遮挡区域的遮挡二值图像块。
根据权利要求1所述的方法，其中，所述查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，包括：

获取对应所述遮挡二值图像块的位置编号；

基于对应所述遮挡二值图像块的位置编号，在所述二值掩码字典中查询所述遮挡二值图像块的位置编号与二值掩码的映射关系。
根据权利要求1所述的方法，其中，所述基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征，确定所述待识别图像与所述预存对象图像的匹配关系，包括：

确定所述预存对象图像的特征以及所述待识别图像的特征；

将所述二值掩码分别与所述预存对象图像的特征以及所述待识别图像的特征进行乘运算，得到对应所述预存对象图像的预存特征以及对应所述待识别图像的待识别特征；

确定所述预存特征与所述待识别特征之间的相似度，当所述相似度超过相似度阈值时，确定所述待识别图像包括的对象与所述预存对象图像包括的对象属于相同类别。
根据权利要求1所述的方法，其中，所述查询二值掩码字典之前，所述方法还包括：

基于对象图像数据库，构建由针对不同位置编号的对象图像样本对组成的训练样本集合；

其中，所述对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本；

基于基础对象识别模型以及掩码生成模型，构建成对差分孪生网络模型；

基于所述训练样本集合，训练所述成对差分孪生网络模型；

基于经过训练的成对差分孪生网络模型，构建所述二值掩码字典；

其中，所述二值掩码字典的索引是所述遮挡二值图像块，所述二值掩码字典的索引项是所述二值掩码。
根据权利要求5所述的方法，其中，所述基于对象图像数据库，构建由针对不同位置编号的对象图像样本对组成的训练样本集合，包括：

获取所述对象图像数据库中的对象图像样本，并对所述对象图像样本进行均匀分割，以获取对应不同对象图像样本块的位置编号；

针对所述位置编号在所述对象图像样本中对应的对象图像样本块，进行遮挡处理；

将所述对象图像样本以及经过遮挡处理的对象图像样本，构造为针对所述位置编号的对象图像样本对；

基于不同位置编号的对象图像样本对，形成所述训练样本集合。
根据权利要求5所述的方法，其中，所述基于所述训练样本集合，训练所述成对差分孪生网络模型，包括：

初始化所述成对差分孪生网络模型中的掩码生成模型，并初始化包括输入样本、输入样本特征、分类概率、以及所述掩码生成模型参数的损失函数；

在所述成对差分孪生网络模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的对象图像样本对作为输入样本，通过所述成对差分孪生网络模型对所述输入样本进行特征提取，得到所述输入样本特征；

通过所述对象识别模型对所述经过遮挡处理的对象图像样本进行分类识别，得到所述分类概率；

将所述输入样本、所述输入样本特征和所述分类概率代入所述损失函数，以确定所述损失函数取得最小值时对应的成对差分孪生网络模型参数；

根据所确定的掩码生成模型参数更新所述成对差分孪生网络模型。
根据权利要求7所述的方法，其中，所述将所述训练样本集合包括的对象图像样本对作为输入样本，通过所述成对差分孪生网络模型对所述输入样本进行特征提取，得到所述输入样本特征，包括：

将所述训练样本集合中的针对同一位置编号的对象图像样本对作为所述输入样本，通过所述成对差分孪生网络模型中的卷积层对所述输入样本进行特征提取，得到分别对应所述对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征；

通过所述成对差分孪生网络模型中的掩码生成模型对所述第一特征和所述第二特征的差值的绝对值进行掩码生成处理，得到针对所述位置编号的掩码；

通过所述掩码分别对所述第一特征以及所述第二特征进行乘运算，得到所述输入样本特征。
根据权利要求5所述的方法，其中，所述基于经过训练的成对差分孪生网络模型，构建所述二值掩码字典，包括：

通过所述成对差分孪生网络模型对同一位置编号的对象图像样本对进行掩码提取，得到对应所述位置编号的掩码集合；

对所述掩码集合中的每个掩码进行归一化处理，并基于所述每个掩码的归一化结果计算平均值，以确定对应所述位置编号的平均掩码；

将对应所述位置编号的遮挡二值图像块作为所述二值掩码字典的索引，并对所述平均掩码进行二值化，以将生成的所述二值掩码作为所述二值掩码字典的索引项。
根据权利要求1所述的方法，其中，所述方法还包括：

基于由对象图像数据库构成的训练样本集合，训练用于获取预存对象图像的特征以及所述待识别图像的特征的基础对象识别模型；

基于所述训练样本集合，训练用于确定所述待识别图像与所述预存对象图像的匹配关系的对象识别模型；

其中，所述对象识别模型包括所述基础对象识别模型以及二值掩码处理模块。
根据权利要求10所述的方法，其中，所述基于所述训练样本集合，训练用于确定所述待识别图像与所述预存对象图像的匹配关系的对象识别模型，包括：

初始化所述对象识别模型的全连接层，并初始化包括输入样本、分类识别结果、以及所述对象识别模型中全连接层参数的损失函数；

在所述对象识别模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的经过遮挡处理的对象图像样本以及在所述二值掩码字典中对应的二值掩码作为所述输入样本，通过所述对象识别模型对所述输入样本进行分类识别，得到对应所述输入样本的分类识别结果；

将所述输入样本和所述分类识别结果代入所述损失函数，以确定所述损失函数取得最小值时对应的对象识别模型中全连接层参数；

根据所确定的全连接层参数更新所述对象识别模型。
根据权利要求1所述的方法，其中，所述方法还包括：

检测所述待识别图像中待识别对象的关键点，并确定所述关键点的坐标位置；

根据所述关键点的坐标位置，对所述待识别对象进行仿射变换，以将所述关键点对齐到与所述预存对象图像一致的标准模板位置。
一种基于人工智能的对象识别装置，包括：

遮挡检测模块，配置为检测待识别图像的待识别对象的潜在的遮挡区域，以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像；

遮挡二值图像块获取模块，配置为从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块；

二值掩码查询模块，配置为基于所述遮挡二值图像块，查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系，得到对应所述遮挡二值图像块的二值掩码；

二值掩码合成模块，配置为将基于每个所述遮挡二值图像块查询到的二值掩码进行合成，得到对应所述二值图像的二值掩码；

匹配关系确定模块，配置为基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征，确定所述待识别图像与所述预存对象图像的匹配关系。
一种电子设备，包括：

存储器，配置为存储可执行指令；

处理器，配置为执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的对象识别方法。
一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的对象识别方法。