WO2022198821A1

WO2022198821A1 - 人脸和人体匹配的方法、装置、电子设备、存储介质及程序

Info

Publication number: WO2022198821A1
Application number: PCT/CN2021/102829
Authority: WO
Inventors: 王彤舟
Original assignee: 深圳市商汤科技有限公司
Priority date: 2021-03-25
Filing date: 2021-06-28
Publication date: 2022-09-29
Also published as: CN112949568A

Abstract

本公开实施例提供一种人脸和人体匹配的方法、装置、电子设备、存储介质及程序，所述方法包括：确定目标图像中的至少一个人脸框；确定所述目标图像中的至少一个人体掩膜；基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。如此，本公开实施例可提高人脸和人体匹配的准确率。

Description

人脸和人体匹配的方法、装置、电子设备、存储介质及程序

相关申请的交叉引用

本专利申请要求2021年03月25日提交的中国专利申请号为202110321139.6申请人为深圳市商汤科技有限公司，申请名称为“人脸和人体匹配的方法及装置、电子设备和存储介质”的优先权，该申请文件以引用的方式并入本公开中。

技术领域

本公开实施例涉及计算机技术领域，尤其涉及一种人脸和人体匹配的方法、装置、电子设备、存储介质及程序。

背景技术

通过人的图像信息来确定人员身份的技术日趋成熟，将人脸和人体匹配能够更准确地确定人员身份。人脸和人体匹配过程中，会将检测出来的人脸和人体进行“同一个人”的关联操作。

人脸和人体匹配的应用场景日益广泛，如在智能安防系统中，由于摄像头的数量、布置及图像信息等问题较难做到全部的人脸抓拍，可能某个时间只能抓拍到人体。虽然没有抓拍到清晰的人脸，但仍然可以在人脸-人体关联的数据库中，对抓拍到的人体进行检索，检索到匹配的人体后，进而获取关联的人脸信息，从而确定该人体的身份信息。

人脸-人体关联的数据库中，预先对人脸和人体进行了关联，关联的过程通过人脸和人体匹配的方式来实现，使得人脸和人体匹配的准确率较低。

发明内容

本公开实施例提出了一种人脸和人体匹配的方法、装置、电子设备、存储介质及程序。

本公开实施例提供了一种人脸和人体匹配的方法，所述方法由电子设备执行，所述方法包括：

确定目标图像中的至少一个人脸框；

确定所述目标图像中的至少一个人体掩膜；

基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。如此，基于人脸框和人体掩膜进行人脸人体匹配，能够准确地得到人脸和人体之间的匹配关系。

在一些实施例中，所述确定所述目标图像中的至少一个人体掩膜，包括：

确定所述目标图像中的至少一个人体框，以及所述至少一个人体框中的人体掩膜；

在所述至少一个人体框中的单个人体框中包含不止一个人体掩膜的情况下，确定所述单个人体框中的目标人体掩膜；

删除所述单个人体框中目标人体掩膜以外的其它人体掩膜。如此，在单个人体框中包含不止一个人体掩膜的情况下，可以确定单个人体框中的目标人体掩膜，然后删除单个人体框中目标人体掩膜以外的其它人体掩膜，这样得到的人体框中即只包含一个人体掩膜，能够提高人脸和人体匹配的准确率。

在一些实施例中，所述确定所述单个人体框中的目标人体掩膜，包括：

确定单个人体框中面积最大的两个第一人体掩膜；

在所述两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将所述两个第一人体掩膜中面积大的第一人体掩膜作为目标人体掩膜。如此，能够快速地获取单个人体框中图像质量最好的人体掩膜，能够提高人脸和人体匹配的准确率，并且，使得匹配后的人体的图像质量较高，以满足后续对匹配结果的使用需求。

在一些实施例中，在所述确定单个人体框中面积最大的两个第一人体掩膜后，所述方法还包括：

在所述两个第一人体掩膜面积的差异值不大于所述设定阈值的情况下，删除所述单个人体框及所述单个人体框中的人体掩膜。如此，可以将图像质量差的人体框及人体框中的人体掩膜删除，以减小对其它人体掩膜中的人体和人脸进行匹配时的影响，提高人脸和人体匹配的准确率，并且，使得匹配后的人体的图像质量较高，以满足后续对匹配结果的使用需求。

在一些实施例中，所述确定所述目标图像中的至少一个人体框，包括：

在所述目标图像中包含多个人体框的情况下，确定所述多个人体框中置信度最高的第一人体框；

确定所述第一人体框与各第二人体框的重叠度，所述第二人体框为所述多个人体框中第一人体框以外的人体框；

删除所述第二人体框中重叠度大于重叠度阈值的第二人体框；

将删除后的第二人体框和所述第一人体框，确定为所述至少一个人体框。如此，通过去除重复人体框，能够得到置信度较高的人体框，提高了得到的人体框的准确度，提高了人脸和人体匹配的准确率。

在一些实施例中，所述基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系，包括：

基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。如此，基于人脸框与人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系，由此，能够准确地得到人脸和人体的匹配关系。

在一些实施例中，所述基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系，包括：

在所述目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集；其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一组一一对应关系；

根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；

将匹配分值最大的对应关系集中的对应关系，作为所述目标图像中所述各人脸框和所述各人体掩膜之间的匹配关系。如此，得到的匹配分值最大的对应关系集中的人脸-人体匹配关系整体最优，得到的人脸人体匹配关系在整体上更加准确。

在一些实施例中，在得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系后，所述方法还包括：

将所述匹配关系存储到匹配关系库中，所述匹配关系库用于存储人脸和人体的匹配关系；

响应于针对目标人体的身份信息查询请求，在所述匹配关系库中查找所述目标人体；

在查找到所述目标人体的情况下，确定与所述目标人体具备匹配关系的人脸；

根据所述人脸确定所述目标人体的身份信息。如此，在得到了人脸和人体的匹配关系后，在摄像头采集到的图像中只有人体的情况下，可以基于该人体，查找与该人体具备匹配关系的人脸，然后基于匹配到的人脸确定身份信息，即确定了采集到的图像中的人体的身份信息。

本公开实施例提供了一种人脸和人体匹配的装置，包括：

人脸框确定单元，配置为确定目标图像中的至少一个人脸框；

人体掩膜确定单元，配置为确定所述目标图像中的至少一个人体掩膜；

匹配关系确定单元，配置为基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。

在一些实施例中，所述人体掩膜确定单元，包括：

人体框确定单元，配置为确定所述目标图像中的至少一个人体框，以及所述至少一个人体框中的人体掩膜；

目标人体掩膜确定单元，配置为在所述至少一个人体框中的单个人体框中包含不止一个人体掩膜的情况下，确定所述单个人体框中的目标人体掩膜；

人体掩膜删除单元，配置为删除所述单个人体框中目标人体掩膜以外的其它人体掩膜。

在一些实施例中，所述目标人体掩膜确定单元，包括：

第一人体掩膜确定子单元，配置为确定单个人体框中面积最大的两个第一人体掩膜；

目标人体掩膜确定子单元，配置为在所述两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将所述两个第一人体掩膜中面积大的第一人体掩膜作为目标人体掩膜。

在一些实施例中，所述装置还包括：

人体框删除单元，配置为在所述两个第一人体掩膜面积的差异值不大于所述设定阈值的情况下，删除所述单个人体框及所述单个人体框中的人体掩膜。

在一些实施例中，所述人体框确定单元，包括：

第一人体框确定单元，配置为在所述目标图像中包含多个人体框的情况下，确定所述多个人体框中置信度最高的第一人体框；

重叠度确定单元，配置为确定所述第一人体框与各第二人体框的重叠度，所述第二人体框为所述多个人体框中第一人体框以外的人体框；

第二人体框删除单元，配置为删除所述第二人体框中重叠度大于重叠度阈值的第二人体框；

至少一个人体框确定单元，配置为将删除后的第二人体框和所述第一人体框，确定为所述至少一个人体框。

在一些实施例中，所述匹配关系确定单元，配置为基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。

在一些实施例中，所述匹配关系确定单元，包括：

对应关系集建立单元，配置为在所述目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集，其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一组一一对应关系；

匹配分值确定单元，配置为根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值；其中，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；

匹配关系确定子单元，配置为将匹配分值最大的对应关系集中的对应关系，作为所述目标图像中所述各人脸框和所述各人体掩膜之间的匹配关系。

在一些实施例中，所述装置还包括：

存储单元，配置为将所述匹配关系存储到匹配关系库中，所述匹配关系库用于存储人脸和人体的匹配关系；

查找单元，配置为响应于针对目标人体的身份信息查询请求，在所述匹配关系库中查找所述目标人体；

人脸确定单元，配置为在查找到所述目标人体的情况下，确定与所述目标人体具备匹配关系的人脸；

身份信息确定单元，配置为根据所述人脸，确定所述目标人体的身份信息。

本公开实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

在本公开实施例中，通过确定目标图像中的至少一个人脸框，以及至少一个人体掩膜，然后基于人脸框的位置和人体掩膜的位置，来得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系。由此，相对于通过人脸框和人体框进行人脸人体匹配而言，由于人体掩膜能够准确地反映人体的位置，因此基于人脸框和人体掩膜进行人脸人体匹配，能够准确地得到人脸和人体之间的匹配关系。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开实施例。根据下面参考附图对示例性实施例的详细说明，本公开实施例的其它特征及方面将变得清楚。

附图说明

为了更清楚地说明本公开实施例或背景技术中的技术方案，下面将对本公开实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开实施例的技术方案。

图1示出根据本公开实施例的人脸和人体匹配方法的流程图。

图2示出根据本公开实施例的人脸和人体匹配方法的系统架构示意图；

图3示出根据本公开实施例的人脸和人体匹配方法的方案流程示意图；

图4示出根据本公开实施例的人脸和人体匹配方法的效果示意图；

图5示出根据本公开实施例的人脸和人体匹配方法的实际场景示意图；

图6示出根据本公开实施例的一种人脸和人体匹配装置的框图；

图7示出根据本公开实施例的一种电子设备的框图；

图8示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开实施例，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开实施例同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开实施例的主旨。

人脸和人体匹配可以基于同一图像中的人物来实现，在同一图像中的人物既包含人脸也包含人体的情况下，则可以方便快速地实现人脸和人体的匹配。在相关技术中，往往通过人脸检测和人体检测得到人脸框和人体框，然后通过人脸框和人体框来进行人脸人体匹配，但是人体框往往无法准确反映人体的位置，或者人体框中可能会存在多个人体，因此，在比较复杂的场景下得到匹配结果准确度较低。

本公开实施例提供的人脸和人体匹配方法在很多领域都具备较高的应用价值，例如，在检测目标对象的过程中，在人群密度较高的场景下，或者在人脸被遮挡的情况下，通过拍摄到的目标对象的人体，以及预先建立的人脸-人体之间的匹配关系，即可得到目标对象的人脸，进而依据人脸确定目标对象的身份。

在一种可能的实现方式中，所述人脸和人体匹配方法可以由终端设备或服务器等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者，可通过服务器执行所述方法。

为便于描述，本说明书一个或多个实施例中，人脸和人体匹配方法的执行主体可以是人脸和人体匹配设备，后文以执行主体为人脸和人体匹配设备为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为人脸和人体匹配设备只是一种示例性的说明，并不应理解为对该方法的限定。

图1示出根据本公开实施例的人脸和人体匹配方法的流程图，如图1所示，所述人脸和人体匹配方法包括：

在步骤S11中，确定目标图像中的至少一个人脸框。

人脸框是包含人脸的图像中的区域，人脸框一般为矩形框，可以用矩形的顶点表示(左上角、左下角、右上角和右下角)矩形框的详细位置。

人脸框是对人脸进行跟踪定位的定位结果，对人脸进行定位的方式可以有多种，例如，可以通过滑动窗口的方式来确定目标图像中的人脸框，在滑动窗口内检测人脸特征，检测到人脸特征的窗口即可确定为人脸框。人脸特征例如可以是人脸关键点，人脸关键点是人脸上的关键点，例如，眼睛(如眼角、眼球中心、眼尾)、鼻子(如鼻尖、鼻翼)、嘴巴(如嘴唇、唇角、唇边)、下巴、眉角等关键点，基于对这些关键点的检测，即可定位出人脸框。

在一些实施例中，确定出的目标图像中的人脸框可以有一个，也可以有多个。

在步骤S12中，确定所述目标图像中的至少一个人体掩膜。

人体掩膜用来指示人体的轮廓所在的区域，人体掩膜可以基于实例分割得到，实例分割是在语义分割的基础上，区分同一类物体的不同个体，因此，确定出的人体掩膜对应单个的人体，即一个人体掩膜对应一个人体。

实例分割可以基于目标检测技术和语义分割技术实现，例如，首先在目标图像中将人体检测出来，然后对每个人体对应的像素打上标签，对于图像中每个人体都可以进行区分和标注。例如，通过目标检测技术，能够得到表征人体所在位置的人体框，在人体框的基础之上，再分割出人体框中的各人体的轮廓区域，即得到了人体掩膜。

在步骤S13中，基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。

人脸和人体具备匹配关系，则表征人脸和人体属于同一人，而在同一张图像中，人体的位置和人脸的位置具备较强的相关性，一般情况下，距离人体最近的人脸大概率是属于同一人的。因此，在确定出人脸框和人体掩膜之后，即确定了人脸框和人体掩膜的位置，那么，可以基于人脸框的位置和人体掩膜的位置，确定人脸框中的人脸和人体掩膜中的人体之间的匹配关系。

图2为可以应用本公开实施例的人脸和人体匹配的方法的系统架构示意图；如图2所示，该系统架构中包括：目标图像采集设备201、网络202、控制终端203。为实现支撑一个示例性应用，目标图像获取终端201和控制终端203通过网络202建立通信连接，目标图像获取终端201通过网络202向控制终端203上报目标图像中的至少一个人脸框和至少一个人体掩膜，控制终端203响应于至少一个人脸框和至少一个人体掩膜，确定至少一个人脸框的位置和至少一个人体掩膜的位置；基于至少一个人脸框的位置和至少一个人体掩膜的位置，确定出人脸框中的人脸和人体掩膜中的人体之间的匹配关系。最后，控制终端203将匹配关系上传至网络202，并通过网络202发送给目标图像获取终端201。从而可以基于人脸框和人体掩膜进行人脸人体匹配，能够准确地得到人脸和人体之间的匹配关系。

作为示例，目标图像获取终端201可以包括图像采集设备，控制终端203可以包括具有视觉信息处理能力的视觉处理设备或远程服务器。网络202可以采用有线或无线连接方式。其中，在控制终端203为视觉处理设备的情况下，目标图像获取终端201可以通过有线连接的方式与视觉处理设备通信连接，例如通过总线进行数据通信；在控制终端203为远程服务器的情况下，目标图像获取终端201可以通过无线网络与远程服务器进行数据交互。

或者，在一些场景中，目标图像获取终端201可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本公开实施例的增强现实场景下的展示方法可以由目标图像获取终端201执行，上述系统架构可以不包含网络202和控制终端203。

在一种可能的实现方式中，所述确定所述目标图像中的至少一个人体掩膜，包括：确定所述目标图像中的至少一个人体框，以及所述至少一个人体框中的人体掩膜；在所述至少一个人体框中的单个人体框中包含不止一个人体掩膜的情况下，确定所述单个人体框中的目标人体掩膜；删除所述单个人体框中目标人体掩膜以外的其它人体掩膜。

人体框是包含人体的图像中的区域，人体框一般为矩形框，可以用矩形的顶点表示(左上角、左下角、右上角和右下角)矩形框的详细位置。

人体框是对人体进行跟踪定位的定位结果，对人体进行定位的方式可以有多种，例如可以通过滑动窗口的方式来检测目标图像中的人体框，在滑动窗口内检测人体特征，检测到人体特征的窗口即可确定为人体框。

单个人体框应该包含一个人体掩膜，因此，在单个人体框中包含不止一个人体掩膜的情况下，可以确定单个人体框中的目标人体掩膜，然后删除单个人体框中目标人体掩膜以外的其它人体掩膜，这样得到的人体框中即只包含一个人体掩膜。

在本公开实施例中，目标人体掩膜可以是图像质量较高的人体的掩膜，如果一个人体框中同时包含多个人体掩膜，表明人体检测过程中无法将这两个人体区分开，这表明人体框中可能存在图像质量较低的人体，因此，通过去除图像质量较低的人体的掩膜，能够提高人脸和人体匹配的准确率，并且，使得匹配后的人体的图像质量较高，以满足后续对匹配结果的使用需求。

针对目标图像中的同一人物，可能会存在多个人体框将其框中的情况，针对这种情况，可以对同一人物的多个人体框进行去重，只保留一个人体框。在一种可能的实现方式中，所述确定所述目标图像中的至少一个人体框，包括：在所述目标图像中包含多个人体框的情况下，确定所述多个人体框中置信度最高的第一人体框；确定所述第一人体框与各第二人体框的重叠度，所述第二人体框为所述多个人体框中第一人体框以外的人体框；删除所述第二人体框中重叠度大于重叠度阈值的第二人体框。

在通过滑动窗口检测人体特征的过程中，会得到窗口中包含人体特征的置信度，置信度高于置信度阈值的窗口即确定为人体框，因此，可能会存在同一人物存在多个人体框将其框中的情况，那么，可以保留框中同一人物的多个人体框中置信度最高的一个人体框，为便于描述，后文将置信度最高的人体框描述为第一人体框。

而同一人物的多个人体框往往会存在重叠部分，那么，可以将与置信度最高的人体框存在较多重叠的人体框删除，为便于描述，后文将与置信度最高的人体框存在重叠的人体框描述为第二人体框。可以通过重叠度来衡量人体框之间的重叠程度，然后删除第二人体框中重叠度大于重叠度阈值的第二人体框。

这里的重叠度，例如可以是两个人体框重叠部分的面积除以两个人体框的面积之和，或者，也可以是重叠部分的面积的值。当然，也可以通过其它标准来衡量人体框的重叠度，本公开实施例对此不作限定。

在本公开实施例中，在同一人物对应多个人体框的情况下，通过确定多个人体框中置信度最高的第一人体框，然后确定第一人体框与各第二人体框的重叠度，删除第二人体框中重叠度大于重叠度阈值的第二人体框。由此，通过去除重复人体框，得到置信度较高的人体框，提高了得到的人体框的准确度，提高了人脸和人体匹配的准确率。

在一种可能的实现方式中，所述确定所述单个人体框中的目标人体掩膜，包括：确定单个人体框中面积最大的两个第一人体掩膜；在所述两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将所述两个第一人体掩膜中面积大的第一人体掩膜作为目标人体掩膜。

考虑到面积越大的情况下人体的图像质量越高，因此，在单个人体框中存在多个人体掩膜的情况下，可以确定这多个人体掩膜的面积，然后选取面积最大的两个人体掩膜，为便于后续描述，这里将面积最大的两个人体掩膜称为第一人体掩膜。

而如果两个第一人体掩膜的面积相差较大，则表明面积最大的人体掩膜的质量要远好于其它人体掩膜的质量，而如果两个第一人体掩膜的面积相差不大，且人体检测的过程中无法将二者区分开，则表明两个第一人体掩膜的质量都不太好。

因此，在两个第一人体掩膜的面积之间的差异值大于设定阈值的情况下，可以将面积大的第一人体掩膜作为目标人体掩膜，这里的差异值用于反映两个第一人体掩膜的面积的差异程度，该差异值例如可以是两个第一人体掩膜的差值，或者是两个第一人体掩膜的比值。

设定阈值为提前设定的阈值，该阈值可以基于经验来设定，例如，在差异值为两个第一人体掩膜的比值的情况下，该差异值可以是0.6。

在本公开实施例中，通过确定单个人体框中面积最大的两个第一人体掩膜，在两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将面积大的第一人体掩膜作为目标人体掩膜。由此，能够快速地获取单个人体框中图像质量最好的人体掩膜，能够提高人脸和人体匹配的准确率，并且，使得匹配后的人体的图像质量较高，以满足后续对匹配结果的使用需求。

在一种可能的实现方式中，在所述确定单个人体框中面积最大的两个第一人体掩膜后，所述方法还包括：

在所述两个第一人体掩膜面积的差异值不大于设定阈值的情况下，删除所述单个人体框及所述单个人体框中的人体掩膜。

如果两个第一人体掩膜的面积相差不大，且人体检测的过程中无法将二者区分开，则表明两个第一人体掩膜的质量都不太好，因此，可以将该人体框及人体框中的人体掩膜删除，以减小对其它人体掩膜中的人体和人脸进行匹配时的影响，提高人脸和人体匹配的准确率，并且，使得匹配后的人体的图像质量较高，以满足后续对匹配结果的使用需求。

在一种可能的实现方式中，所述基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系，包括：基于所述人脸框与所述人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系。

由于人脸和人体属于同一人的情况下，人脸和人体具备匹配关系，而在同一张图像中，同一人的人脸往往是位于人体顶端的，因此，可以基于人脸框与人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系，例如，将距离人体掩膜顶端最近的人脸框中的人脸，作为与该人体掩膜中的人体匹配的人脸。

在一种可能的实现方式中，可以基于人体掩膜中人体的关键点，来确定人体掩膜的顶端。人体关键点包括人体的头部、四肢、腰部等主要部位，基于人体关键点，能够确定人体的顶端(即头部所在的方向)。

在本公开实施例中，基于人脸框与人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系，由此，能够准确地确定人脸和人体的匹配关系。

在一种可能的实现方式中，所述基于所述人脸框与所述人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系，包括：在所述目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集，其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一组一一对应关系；根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。

在目标图像中包含多个人脸框和多个人体掩膜的情况下，人脸和人体之间的对应方式具备多种可能，那么，可以根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集。例如，目标图像中包含人脸框a、b、c，人体掩膜A、B、C，那么可能的匹配关系包括：{a-A，b-B，c-C}；{a-A，b-C，c-B}；{a-B，b-A，c-C}；{a-B，b-C，c-A}；{a-C，b-A，c-B}；{a-C，b-B，c-A}。其中，{}中的一组对应关系即为一个对应关系集，单个对应关系集中包含目标图像中的各人脸框和各人体掩膜之间的一组一一对应关系。

对于单个人体掩膜而言，寻找与其顶端距离最近的人脸框，即视为找到了与其匹配的人脸，即对单个人体掩膜而言，距离最近的人脸和人体即为最优的人脸-人体匹配关系。然而，对于单个对应关系集而言，需要使得单个对应关系集这一个整体中的多个人脸-人体的匹配关系最优。

基于使得单个对应关系集中的多个人脸-人体的匹配关系最优的需求，可以根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，第一距离即为具备对应关系的人脸框和人体掩膜顶端之间的距离。该匹配分值即可用于表征单个对应关系集的整体是否是最优的，匹配分值越大，即表明第一距离之和越小，第一距离之和越小，表明单个对应关系集中的人脸-人体匹配关系整体越优。

那么，匹配分值最大的对应关系集中的人脸-人体匹配关系整体最优，因此，可以将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。

在一种可能的实现方式中，可以基于最小费用最大流算法，来确定匹配分值最大的对应关系集。首先构建网络，通过把目标图像中的所有人脸框作为二分图中顶点Xi，所有人体掩膜作为二分图中顶点Yi，建立源点S和汇点T。从S向每个Xi连一条容量为1，费用为0的有向边，从每个Yi向T连一条容量为1，费用为0的有向边。从每个Xi向每个Yj连接一条容量为1，费用为(-score)的有向边，即构建了多个对应关系集，socre的值为每一个人体掩膜和每一个人脸框之间的匹配分数，即人脸框位置越接近人体掩膜的顶端，score的值越高。

构建的该网络即为构建了多个对应关系集，而求解匹配分值最大的对应关系集的过程，即为求构建的网络的最小费用最大流，流量即为匹配数，所有满流边是一组可行解，求最小费用匹配分数的相反数，即使得每组可行解的匹配分数最大，即可得到匹配分值最大的对应关系集。

在本公开实施例中，在目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集，然后根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，最终将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。由此，得到的匹配分值最大的对应关系集中的人脸-人体匹配关系整体最优，得到的人脸人体匹配关系在整体上更加准确。

在一种可能的实现方式中，在得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系后，所述方法还包括：将所述匹配关系存储到匹配关系库中，所述匹配关系库用于存储人脸和人体的匹配关系；响应于针对目标人体的身份信息查询请求，在所述匹配关系库中查找所述目标人体；在查找到所述目标人体的情况下，确定与所述目标人体具备匹配关系的人脸；根据所述人脸确定所述目标人体的身份信息。

本公开实施例提供的人脸和人体匹配方法在很多领域都具备较高的应用价值，基于人脸识别，能够得到人脸的身份信息，那么，在得到了人脸和人体的匹配关系后，在摄像头采集到的图像中只有人体的情况下，可以基于该人体，查找与该人体具备匹配关系的人脸，然后基于匹配到的人脸确定身份信息，即确定了采集到的图像中的人体的身份信息。

在一些可实现的实施方式中，对本公开实施例提供的人脸和人体匹配方法进行说明，该实施方式包括如下步骤：

步骤S21，输入目标图像，基于实例分割技术，检测目标图像中的人脸和人体，得到人脸框和人体框，以及人体框中的人体掩膜。

步骤S22，在单个人体框中包含不止一个人体掩膜的情况下，确定单个人体框中面积最大的两个第一人体掩膜，在两个第一人体掩膜的面积的比值大于0.6的情况下，将面积大的第一人体掩膜保留，删除其它人体掩膜。

在两个第一人体掩膜面积的比值小于0.6的情况下，删除该人体框及该人体框中的人体掩膜。

在一些实施例中，通过人脸人体检测模型可得到人脸和人体的位置框信息，通过人体实例分割模型来对人体框中的人体提取掩膜信息，如：图像、面积、掩膜外接矩形框和置信度等。为了对生成的人体掩膜候选框进行处理，去除冗余的候选框，得到最佳掩膜信息，可选用非极大值抑制算法对人体掩膜进行过滤。即通过迭代的形式，不断的以最大置信度的掩膜框去与其他框做重叠度操作，从而过滤那些重叠度较大的掩膜框，最终得到保留的掩膜框，即保留的目标图中的至少一个人体掩膜。

在一些实施例中，还需要进行非主要人体框的过滤。由于本公开实施例的匹配方法使用的是人体掩膜，即一个人体对应一条掩膜，因此当一个人体框中出现多个人体掩膜时，为了不影响在后续应用下人脸与人体的匹配、部分信息检索、整体属性的提取及多摄像头下人脸人体的聚类等需求，必须对非主要人体进行过滤。这里采用通过比较最大两个人体掩膜的面积的方法，如果两个最大面积的比例大于设定的阈值则需要过滤该人体框，否则只保留最大面积的人体掩膜信息。

步骤S23，在目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集，其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一种一一对应关系。

在一些实施例中，经过对人体框和人体掩膜的过滤操作后，就得到了目标图像中的至少一个人脸框的集合和带掩膜的人体框的集合，接下来就需要对人脸框和掩膜进行匹配。

在进行匹配的过程中，为了能够匹配更多和更准确的结果，利用网络流中的最大流去解决二分图匹配的问题。因此使用最小费用最大流(MinCostMaxFlow)算法。“更多”用最大流去保证，“更准确”用最小消费去保证。

步骤S24，根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，匹配分值与第一距离之和负相关。

步骤S25，将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。

图3为本公开实施例的一种人脸和人体匹配方法的方案流程图，如图3所示，301为输入检测到目标图像中的人脸框和带掩膜的人体框，302对冗余人体框和一个人体框的冗余掩膜进行过滤，确定出目标图像中包含多个人脸框和多个人体掩膜。303进行匹配，对得到的目标图像中的多个人脸框和多个掩膜进行匹配，从而确定出人脸和人体的匹配关系。最后执行304输出匹配关系。

图4为本公开实施例的一种人脸和人体匹配方法的效果示意图，401为拍摄场景下抓拍的实际人体图像，402为采用人脸框和人体框的匹配算法的匹配效果图，403为采用本公开实施例的人脸和人体匹配方法的匹配效果图，可见，本公开实施例提供的人脸和人体匹配方法的匹配效果优于采用人脸框和人体框的匹配算法的匹配效果。

图5为本公开实施例的一种人脸和人体匹配方法的实际场景示意图，501、504和505为目标图像中的至少一个人体框，502为目标图像中的人脸框，503为目标图像中的人体掩膜，根据图5所示可知，根据本公开实施例的一种人脸和人体匹配方法进行匹配，可得到准确的人脸和人体之间的匹配关系。

可以理解，本公开实施例提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例。本领域技术人员可以理解，在实施方式的上述方法中，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开实施例还提供了人脸和人体匹配的装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种人脸和人体匹配方法，相应技术方案和描述和参见方法部分的相应记载。

图6示出根据本公开实施例的人脸和人体匹配的装置的框图，如图6所示，所述装置60包括：

人脸框确定单元61，配置为确定目标图像中的至少一个人脸框；

人体掩膜确定单元62，配置为确定所述目标图像中的至少一个人体掩膜；

匹配关系确定单元63，配置为基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。

在一种可能的实现方式中，所述人体掩膜确定单元62，包括：

在一种可能的实现方式中，所述目标人体掩膜确定单元，包括：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述人体框确定单元，包括：

在一种可能的实现方式中，所述匹配关系确定单元63，配置为基于所述人脸框与所述人体掩膜顶端之间的距离，得到人脸框中的人脸和人体掩膜中的人体之间的匹配关系。

在一种可能的实现方式中，所述匹配关系确定单元63，包括：

匹配分值确定单元，配置为根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；

匹配关系确定子单元，配置为将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。

在一种可能的实现方式中，所述装置还包括：

身份信息确定单元，配置为根据所述人脸确定所述目标人体的身份信息。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其实现和技术效果可以参照上文方法实施例的描述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述人脸和人体匹配的方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述人脸和人体匹配的方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，在计算机可读代码在设备上运行的情况下，设备中的处理器执行用于实现如上任一实施例提供的人脸和人体匹配方法的指令。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的人脸和人体匹配方法的操作。

电子设备可以被提供为终端、服务器或其它形态的设备。

图7示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。在电子设备800处于操作模式，如拍摄模式或视频模式的情况下，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，在电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式的情况下，麦克风被配置为接收外部音频信号。所接收的音频信号可以被存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如无线网络(WiFi)，第二代移动通信技术(2G)或第三代移动通信技术(3G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图8示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图8，电子设备1900包括处理组件1922，其包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统(Windows ServerTM)，苹果公司推出的基于图形用户界面操作系统(Mac OS XTM)，多用户多进程的计算机操作系统(UnixTM),自由和开放原代码的类Unix操作系统(LinuxTM)，开放原代码的类Unix操作系统(FreeBSDTM)或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开实施例的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开实施例的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

工业实用性

本公开实施例公开了一种人脸和人体匹配的方法、装置、电子设备、存储介质及程序。所述方法包括：确定目标图像中的至少一个人脸框；确定所述目标图像中的至少一个人体掩膜；基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。如此，本公开实施例可提高人脸和人体匹配的准确率。

Claims

一种人脸和人体匹配的方法，所述方法由电子设备执行，所述方法包括：

确定目标图像中的至少一个人脸框；

确定所述目标图像中的至少一个人体掩膜；

基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。
根据权利要求1所述的方法，其中，所述确定所述目标图像中的至少一个人体掩膜，包括：

确定所述目标图像中的至少一个人体框，以及所述至少一个人体框中的人体掩膜；

在所述至少一个人体框中的单个人体框中包含不止一个人体掩膜的情况下，确定所述单个人体框中的目标人体掩膜；

删除所述单个人体框中目标人体掩膜以外的其它人体掩膜。
根据权利要求2所述的方法，其中，所述确定所述单个人体框中的目标人体掩膜，包括：

确定所述单个人体框中面积最大的两个第一人体掩膜；

在所述两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将所述两个第一人体掩膜中面积大的第一人体掩膜作为目标人体掩膜。
根据权利要求3所述的方法，其中，在所述确定所述单个人体框中面积最大的两个第一人体掩膜后，所述方法还包括：

在所述两个第一人体掩膜面积的差异值不大于所述设定阈值的情况下，删除所述单个人体框及所述单个人体框中的人体掩膜。
根据权利要求2至4任一所述的方法，其中，所述确定所述目标图像中的至少一个人体框，包括：

在所述目标图像中包含多个人体框的情况下，确定所述多个人体框中置信度最高的第一人体框；

确定所述第一人体框与各第二人体框的重叠度，所述第二人体框为所述多个人体框中第一人体框以外的人体框；

删除所述第二人体框中重叠度大于重叠度阈值的第二人体框；

将删除后的第二人体框和所述第一人体框，确定为所述至少一个人体框。
根据权利要求1至5任一所述的方法，其中，所述基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系，包括：

基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。
根据权利要求6所述的方法，其中，所述基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系，包括：

在所述目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集；其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一组一一对应关系；

根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值；其中，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；

将匹配分值最大的对应关系集中的对应关系，作为所述目标图像中所述各人脸框和所述各人体掩膜之间的匹配关系。
根据权利要求1至7任一所述的方法，其中，在得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系后，所述方法还包括：

将所述匹配关系存储到匹配关系库中，所述匹配关系库用于存储人脸和人体的匹配关系；

响应于针对目标人体的身份信息查询请求，在所述匹配关系库中查找所述目标人体；

在查找到所述目标人体的情况下，确定与所述目标人体具备匹配关系的人脸；

根据所述人脸，确定所述目标人体的身份信息。
一种人脸和人体匹配的装置，包括：

人脸框确定单元，配置为确定目标图像中的至少一个人脸框；

人体掩膜确定单元，配置为确定所述目标图像中的至少一个人体掩膜；

匹配关系确定单元，配置为基于所述人脸框的位置和所述人体掩膜的位置，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。
根据权利要求9所述的装置，所述人体掩膜确定单元，包括：

人体框确定单元，配置为确定所述目标图像中的至少一个人体框，以及所述至少一个人体框中的人体掩膜；

目标人体掩膜确定单元，配置为在所述至少一个人体框中的单个人体框中包含不止一个人体掩膜的情况下，确定所述单个人体框中的目标人体掩膜；

人体掩膜删除单元，配置为删除所述单个人体框中目标人体掩膜以外的其它人体掩膜。
根据权利要求10所述的装置，所述目标人体掩膜确定单元，包括：

第一人体掩膜确定子单元，配置为确定单个人体框中面积最大的两个第一人体掩膜；

目标人体掩膜确定子单元，配置为在所述两个第一人体掩膜的面积的差异值大于设定阈值的情况下，将所述两个第一人体掩膜中面积大的第一人体掩膜作为目标人体掩膜。
根据权利要求11所述的装置，所述装置还包括：

人体框删除单元，配置为在所述两个第一人体掩膜面积的差异值不大于所述设定阈值的情况下，删除所述单个人体框及所述单个人体框中的人体掩膜。
根据权利要求10至12所述的装置，所述人体框确定单元，包括：

第一人体框确定单元，配置为在所述目标图像中包含多个人体框的情况下，确定所述多个人体框中置信度最高的第一人体框；

重叠度确定单元，配置为确定所述第一人体框与各第二人体框的重叠度，所述第二人体框为所述多个人体框中第一人体框以外的人体框；

第二人体框删除单元，配置为删除所述第二人体框中重叠度大于重叠度阈值的第二人体框；

至少一个人体框确定单元，配置为将删除后的第二人体框和所述第一人体框，确定为所述至少一个人体框。
根据权利要求9至13所述的装置，所述匹配关系确定单元，配置为基于所述人脸框与所述人体掩膜顶端之间的距离，得到所述人脸框中的人脸和所述人体掩膜中的人体之间的匹配关系。
根据权利要求14所述的装置，所述匹配关系确定单元，包括：

对应关系集建立单元，配置为在所述目标图像中包含多个人脸框和多个人体掩膜的情况下，根据各人脸框和各人体掩膜之间不同的对应方式，建立多个对应关系集，其中，单个对应关系集中包含各人脸框和各人体掩膜之间的一组一一对应关系；

匹配分值确定单元，配置为根据单个对应关系集中多个第一距离之和，确定单个对应关系集的匹配分值；其中，所述第一距离为具备对应关系的人脸框和人体掩膜顶端之间的距离，所述匹配分值与所述第一距离之和负相关；

匹配关系确定子单元，配置为将匹配分值最大的对应关系集中的对应关系，作为目标图像中各人脸框和各人体掩膜之间的匹配关系。
根据权利要求9至15所述的装置，所述装置还包括：

存储单元，配置为将所述匹配关系存储到匹配关系库中，所述匹配关系库用于存储人脸和人体的匹配关系；

查找单元，配置为响应于针对目标人体的身份信息查询请求，在所述匹配关系库中查找所述目标人体；

人脸确定单元，配置为在查找到所述目标人体的情况下，确定与所述目标人体具备匹配关系的人脸；

身份信息确定单元，配置为根据所述人脸，确定所述目标人体的身份信息。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至8中任意一项所述的人脸和人体匹配的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的人脸和人体匹配的方法。
一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如权利要求1至8中任意一项所述的人脸和人体匹配的方法。