WO2022121498A1

WO2022121498A1 - 身份识别方法、模型训练方法、装置、设备和存储介质

Info

Publication number: WO2022121498A1
Application number: PCT/CN2021/124112
Authority: WO
Inventors: 陆建国; 刘明; 申光; 侯春华
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-12-09
Filing date: 2021-10-15
Publication date: 2022-06-16
Also published as: CN114612813A

Abstract

一种身份识别方法、模型训练方法、装置、设备和存储介质。身份识别方法包括：获取监控场景内的视频图像（101）；若检测到视频图像中出现目标人物，根据预先训练的多属性分类模型，确定目标人物的多种属性（102）；其中，多属性分类模型根据预先构建的样本集训练得到，样本集包括若干标注有属性的图像；确定符合监控场景的进入条件的身份的标准属性（103）；根据目标人物的多种属性和标准属性，识别目标人物的身份是否符合所述进入条件（104）。

Description

身份识别方法、模型训练方法、装置、设备和存储介质

相关申请的交叉引用

本申请基于申请号为“202011448967.8”、申请日为2020年12月09日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请德实施例涉及安防监控技术领域，特别涉及一种身份识别方法、模型训练方法、装置、设备和存储介质。

背景技术

近年来，安防监控领域的技术取得了飞速发展，人物识别是安防监控领域的一个典型应用。有些场所仅允许特定身份并穿着特定服装的工作人员进入，不允许闲杂人等进入。如果该区域中出现不符合着装要求的人，需要报警。例如，在军事管辖区仅允许出现穿着指定服装的军人，当系统检测到着装不符合要求的人时，说明检测到了可疑人员，系统需要报警并请求工作人员对可疑人员的身份进行核实。使用传统的图像处理方法的身份识别系统精度较低，故现有的身份识别系统主要采用深度学习的方法。

目前，大多数深度学习系统都需要在每个应用场景中收集大量的数据作为训练集，并训练出一个适用于指定场景的模型。然而，这样的模型存在以下缺点：特定场景下样本集的获取非常困难，训练得到的模型容易过拟合，且模型的泛化能力较差，难以适应更多监控场景的监控需求。

发明内容

本申请实施例提供了一种身份识别方法，包括：获取监控场景内的视频图像；若检测到所述视频图像中出现目标人物，根据预先训练的多属性分类模型，确定所述目标人物的多种属性；其中，所述多属性分类模型根据预先构建的样本集训练得到，所述样本集包括若干标注有属性的图像；确定符合所述监控场景的进入条件的身份的标准属性；根据所述目标人物的多种属性和所述标准属性，识别所述目标人物的身份是否符合所述进入条件。

本申请实施例还提供了一种多属性分类模型的训练方法，包括：获取公开的图像数据集；对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建所述样本集；确定网络的结构，并配置所述网络的网络超参数；根据所述样本集训练配置有所述网络超参数的网络，得到所述多属性分类模型。

本申请实施例还提供了一种多属性分类模型的训练装置，包括：获取模块，用于获取公开的图像数据集；标注模块，用于对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建所述样本集；配置模块，用于确定网络的结构，并配置所述网络的网络超参数；训练模块，用于根据所述样本集训练配置有所述网络超参数的网络，得到所述多属性分类模型。

本申请实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的身份识别方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的身份识别方法。

附图说明

图1是本申请第一实施例提到的身份识别方法的流程图；

图2是本申请第一实施例提到的多任务分类模型与单任务分类模型的示意图；

图3是本申请第二实施例提到的在多属性分类模型中引入注意力机制的示意图；

图4是本申请第二实施例提到的标注的未进行标注的原图；

图5是本申请第二实施例提到的用不同颜色标注的不同区域的示意图；

图6是本申请第二实施例提到的根据预先训练的多属性分类模型，确定目标人物的多种属性的实现方式的流程图；

图7是本申请第二实施例提到的上衣区域对应的掩码图像的示意图；

图8是本申请第三实施例提到的多属性分类模型的训练方法的流程图；

图9是本申请第四实施例提到的多属性分类模型的训练装置的示意图；

图10是本申请第五实施例提到的电子设备的结构示意图。

具体实施方式

本申请实施例的主要目的在于提出一种身份识别方法、模型训练方法、装置、设备和存储介质，旨在简化样本集的获取过程，降低模型过拟合的风险，提高模型的泛化能力以适应更多监控场景的监控需求。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

大多数深度学习系统都需要在每个应用场景中收集大量的数据作为训练集，并训练出一个适用于指定场景的模型，然而，本申请的发明人发现，这样的模型存在以下缺点：

(1)特定场景下高质量样本集的获取非常困难，训练深度学习网络模型需要海量且多样化的数据。有些场所属于涉密场所，从这些涉密场所中能获取的数据量有限。同时，在特定场景下获取的数据的模式较为单一，多样性有限，不利于深度学习网络模型的训练，极易导致网络模型过拟合。

(2)适用于指定场景的模型应用于指定场景中的精度较高，但如果切换到其他类似场景，模型可能会完全失效。例如，将应用于A医院资料室的模型迁移到B医院资料室，B医院工作人员制服的款式和颜色可能与A医院不同。但由于该模型仅关注A医院工作人员制服的特征，因此将该模型应用到B医院资料室时，模型可能会完全失效。如果需要将该模型应用于B医院，则需要在B医院资料室采集数据，并对模型进行重新训练。这限制了模型的规模化部署，模型的泛化能力较差。

为了解决上述的特定场景下样本集的获取非常困难，训练得到的模型容易过拟合，且模型的泛化能力较差的技术问题，本申请实施例提供如下的身份识别方法，旨在简化样本集的获取过程，降低模型过拟合的风险，提高模型的泛化能力。

本申请第一实施例涉及一种身份识别方法，应用于电子设备；其中，电子设备可以为服务器。本实施例的应用场景可以包括但不限于：医院资料室、警局资料室、银行资料室、军事管辖区域、监狱和工厂生产车间等具有安防监控需求的场景。下面对本实施例的身份识别方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施例的身份识别方法的流程图可以参考图1，包括：

步骤101：获取监控场景内的视频图像。

在一个例子中，监控场景可以为上述的医院资料室、警局资料室、银行资料室、军事管辖区域、监狱和工厂生产车间等。监控场景内可以部署若干个监控摄像头，对监控场景内的视频图像进行采集，并将采集的视频图像传输到服务器，使得服务器可以获取到监控场景内的视频图像。

在具体实现中，若干个监控摄像头可以对监控场景内的视频图像进行实时采集，使得服务器可以实时获取到监控场景内的视频图像，以提高监控的可靠性。

步骤102：若检测到视频图像中出现目标人物，根据预先训练的多属性分类模型，确定目标人物的多种属性。

在一个例子中，目标人物可以理解为出现在视频图像中的任意一个人物。也就是说，如果检测到视频图像中出现任意一个人物，则可以确定检测到视频图像中出现目标人物。

在具体实现中，也可以理解为，服务器对视频图像进行目标检测，当检测到的目标为人物时，确定检测到视频图像中出现目标人物。

在一个例子中，确定视频图像中是否出现目标人物的方式可以为：使用预先训练的行人检测模型检测视频图像中的目标是否为人物。下面对行人检测模型的训练方式进行说明：

(1)图像数据集的建立：获取公开的图像数据集。也就是说，上述图像数据集可以使用大量的公开数据集，在实际的部署场景中采集数据的工作量很大，且数据的多样性有限，使用公开的图像数据集，而不必到实际的部署场景中去采集数据，简化了繁杂的图像数据集制作过程，且可以利用更多的数据训练模型。然而，在具体实现中，也可以收集多种监控场景下的图像，构建图像数据集。

(2)行人检测模型的训练：选择目标检测网络结构，并配置网络超参数，使用构建的图像数据集训练行人检测模型。其中，目标检测网络结构可以为一阶段目标检测网络结构或二阶段目标检测网络结构，一阶段目标检测网络结构可以包括但不限于Single Shot Detector简称SSD、You Only Look Once简称YOLO、Fully Convolutional One-Stage Object Detection简称FCOS，二阶段目标检测网络结构可以为Faster Region CNN简称Faster RCNN。

可选的，为了提高训练得到的行人检测模型的可靠性，在训练得到行人检测模型之后，还可以包括：

(3)行人检测模型的性能评估：对训练好的行人检测模型的性能进行评估。如果性能不满足应用的需求，则可以返回上述第(2)步，重新选择目标检测网络结构，或者重新配置网络超参数，重新训练行人检测模型。

可选的，为了提高训练得到的行人检测模型的运行效率，在第(3)步中，如果性能满足应用的需求，则还可以进行如下步骤：

(4)行人检测模型的量化压缩：该行人检测模型处理的数据为视频数据，由于硬件计算能力有限，为了保证模型运行的效率，可以对训练好的行人检测模型进行量化压缩，模型的加速和量化压缩可有效提高模型运行的效率。

本实施例中，若检测到视频图像中出现目标人物，根据预先训练的多属性分类模型，确定目标人物的多种属性；其中，多属性分类模型根据预先构建的样本集训练得到，样本集包括若干标注有属性的图像。上述的多属性分类模型可以理解为多任务分类模型，每一项分类任务可以理解为一种属性的分类，多项分类任务可以理解为多种属性的分类。相比于单项任务分类模型，多项分类任务共享同一个骨干网络，多项任务学习可以促进模型学到共享的特征表示，提升模型的泛化能力。上述多种属性可以包括但不限于：是否佩戴帽子、是否佩戴肩章、衣服的颜色、衣服的纹理、衣服的款式。

为便于理解本实施例中的多任务分类模型与单任务分类模型的区别，可以参考图2。其中，单任务分类模型，即为图中的分类模型1、分类模型2……分类模型n，分类模型1的分类任务为对衣服款式这一属性的分类，分类模型2的分类任务为对衣服颜色这一属性的分类，分类模型n的分类任务为对是否佩戴帽子这一属性的分类。多任务分类模型的分类任务为：对衣服款式、衣服颜色、是否佩戴帽子等多种属性的分类。也就是说，每个单任务分类模型均需要一个骨干网络，完成多分类任务需要多个骨干网络，而本实施例中，多任务分类模型仅需一个骨干网络，完成多分类任务共享一个骨干网络，有利于提升网络的运行效率。

在一个例子中，多属性分类模型的训练方式可以如下：

(1)获取公开的图像数据集；其中，该图像数据集可以为训练上述的行人检测模型时构建的图像数据集。在具体实现中，上述图像数据集可以使用大量的公开数据集，在实际的部署场景中采集数据的工作量很大，且数据的多样性有限。本实施例在训练模型时可使用大量的公开数据集，而不必到实际的部署场景中去采集数据，简化了繁杂的图像数据集制作过程，且可以利用更多的数据训练模型。

(2)对图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集；其中，预设标注条件可以根据实际需要进行设置，比如可以为：图像中的人物未被遮挡、图像中的人物所占区域面积大于预设面积、图像中的人物显示出的身体部位的数量超过预设数量等。上述的预设面积和预设数量均可以根据实际需要进行设置，本实施例对此不做具体限定。在具体实现中，对图像中的人物标注的多种属性包括但不限于：该人物穿着的衣服的款式、颜色、纹理、该人物是否佩戴帽子、是否佩戴肩章等。也就是说，可以对图像数据集中的部分人物的属性进行标注，构建人物属性样本集。

(3)确定网络的结构，并配置网络的网络超参数。其中，网络的结构包括骨干网络，骨干网络可以选择MobileNet，MobileNet属于轻量级网络，运行效率较高。

(4)根据样本集训练配置有网络超参数的网络，得到多属性分类模型。

可选的，为了提高训练得到的多属性分类模型的可靠性，在训练得到多属性分类模型之后，还可以包括：

(5)对训练好的多属性分类模型的性能进行评估。如果模型性能不满足应用的需求，则重新设计多属性分类模型的骨干网络或者重新配置网络超参数，重新训练多属性分类模型。

可选的，为了提高训练得到的多属性分类模型的运行效率，在第(5)步中，如果性能满足应用的需求，则还可以进行如下步骤：

(6)模型量化压缩，比如可以对训练好的多属性分类模型使用TensorRT进行量化压缩。模型的加速和量化压缩可有效提高模型运行的效率。TensorRT是一个高性能的深度学习推理优化器，可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。

步骤103：确定符合监控场景的进入条件的身份的标准属性。

在一个例子中，针对不同的监控场景的监控需求，允许进入不同的监控场景的人物的身份可能存在区别，因此，不同的监控场景可能对应不同的标准属性。

在一个例子中，监控场景为A医院资料室，允许进入A医院资料室的人物的身份为医生、护士以及医院后勤人员，其中，医生和护士均穿着白色长款工作服，后勤人员均穿着蓝色短款上衣，以及蓝色裤子。针对A医院资料室设置的符合监控场景的进入条件的身份的标准属性即包括：白色长款工作服(医生和护士的标准属性)、蓝色短款上衣以及蓝色裤子(后勤人员的标准属性)。

在另一个例子中，监控场景为a工厂生产车间，工厂的生产车间属于危险区域，非工厂工作人员严禁入内。该工厂的生产车间的工作人员包含三种：穿着蓝色上衣和灰色裤子的工种A，穿着红色上衣和红色裤子的工种B，以及穿着橘色马甲和橘色裤子的工种C。针对a工厂生产车间设置的符合监控场景的进入条件的身份的标准属性即包括：蓝色上衣和灰色裤子(工种A的标准属性)、红色上衣和红色裤子(工种B的标准属性)、橘色马甲和橘色裤子(工种C的标准属性)。

在具体实现中，服务器中可以预存有符合监控场景的进入条件的身份的标准属性。比如，监控场景为A医院资料室，则服务器可以为A医院资料室的监控服务器，该监控服务器中可以预存符合A医院资料室的进入条件的身份的标准属性。再比如，监控场景为a工厂生产车间，则服务器可以为a工厂生产车间的监控服务器，该监控服务器中可以预存符合a工厂生产车间的进入条件的身份的标准属性。

步骤104：根据目标人物的多种属性和标准属性，识别目标人物的身份是否符合进入条件。

具体的说，服务器可以将目标人物的多种属性和标准属性进行匹配，如果匹配成功，则识别出目标人物的身份符合进入条件，否则识别出目标人物的身份不符合进入条件。其中，匹配的方式可以为：服务器将目标人物的多种属性和标准属性进行对比，如果目标人物的多种属性中存在和标准属性相同的属性，则可以认为目标人物的身份符合进入条件。

在一个例子中，符合监控场景的进入条件的身份的标准属性包括多种身份对应的多种标准属性，根据目标人物的多种属性和标准属性，识别目标人物的身份是否符合进入条件的方式可以为：服务器将目标人物的多种属性分别和每种标准属性进行匹配，若目标人物的多种属性与任意一种身份对应的标准属性匹配成功，识别目标人物的身份符合进入条件。也就是说，服务器将目标人物的多种属性依次和每种标准属性进行匹配，直到匹配成功确定目标人物的身份符合进入条件，或者，直到匹配失败，确定目标人物的身份不符合进入条件。

比如，上述示例中提到的a工厂生产车间设置的符合监控场景的进入条件的身份的标准属性包括：工种A的标准属性、工种B的标准属性、工种C的标准属性，即符合监控场景的进入条件的身份的标准属性包括：3种身份对应的3种标准属性。服务器可以先将目标人物的多种属性和工种A的标准属性进行匹配，即确定目标人物的多种属性中是否存在和工种A的标准属性相同的属性，如果存在，则认为目标人物的多种属性与工种A的标准属性匹配成功。如果目标人物的多种属性中不存在和工种A的标准属性相同的属性，则可以再将目标人物的多种属性和工种B的标准属性进行匹配，即确定目标人物的多种属性中是否存在和工种B的标准属性相同的属性，如果存在，则认为目标人物的多种属性与工种B的标准属性匹配成功。如果为目标人物的多种属性中不存在和工种B的标准属性相同的属性，则可以再将目标人物的多种属性和工种C的标准属性进行匹配，即确定目标人物的多种属性中是否存在和工种C的标准属性相同的属性，如果存在，则认为目标人物的多种属性与工种C的标准属性匹配成功，如果不存在，说明目标人物的多种属性与上述3种标准属性均不匹配，则可以识别出目标人物的身份不符合进入条件。

在一个例子中，将目标人物的多种属性分别和每种标准属性进行匹配的方式可以为：确定多种标准属性的优先级，按照多种标准属性的优先级，依次将目标人物的多种属性分别和每种标准属性进行匹配。其中，多种标准属性的优先级可以根据实际需要预先设置，并存储在服务器中。比如，上述工种A的标准属性、工种B的标准属性、工种C的标准属性的优先级从高到底依次为：工种C的标准属性、工种B的标准属性、工种A的标准属性。则服务器在进行匹配时，可以先将目标人物的多种属性和工种C的标准属性进行匹配，如果匹配不成功，再将目标人物的多种属性和工种B的标准属性进行匹配，如果依旧匹配不成功，再将目标人物的多种属性和工种A的标准属性进行匹配。通过对多种标准属性设定优先级，有利于以合理的顺序将目标人物的多种属性分别和每种标准属性进行匹配。

在一个例子中，优先级可以基于监控场景下多种身份分别对应的实际人数确定；其中，实际人数越多的身份对应的标准属性的优先级越高。比如，上述工种A对应的实际人数为50人，工种B对应的实际人数为60人，工种C对应的实际人数为70人。也就是说，上述的a工厂生产车间中，理论上属于工种A的工人50人、属于工种B的工人60人、属于工种C的工人60人。则上述3种工种对应的3种标准属性的优先级从高到底依次为：工种C的标准属性、工种B的标准属性、工种A的标准属性。由于，a工厂生产车间的工人中属于工种C的工人的人数最多，那么进入a工厂生产车间的工人中属于工种C的概率较大，因此，在进行匹配时，优先将目标人物的多种属性和优先级高的标准属性进行匹配，更容易匹配成功，从而无需再进行下一个优先级的标准属性的匹配，有利于提高身份识别的速度。

在具体实现中，如果识别出目标人物的身份不符合进入条件，则可以触发报警机制，以提醒相关人员监控场景内可能存在非法人员入侵，从而及时进行核查。其中，报警机制可以根据实际需要进行设置，本实施例对此不做具体限定。

为便于对实施例的理解，下面以两种具体的监控场景进行说明：

监控场景一：A医院资料室，仅允许医生和护士以及医院后勤人员进入，不允许其他人进入。其中，医生和护士均穿着白色长款工作服，后勤人员均穿着蓝色短款工作上衣，以及蓝色裤子。因此，可以预先设置符合A医院资料室的进入条件的身份的标准属性包括：白色长款工作服(医生和护士两种身份对应的标准属性)、蓝色短款工作上衣和蓝色裤子(后勤人员对应的标准属性)。上述三种身份对应的标准属性可以预存在A医院资料室的监控服务器中，监控流程可以如下：

S1、在需要监控的A医院资料室中的关键位置部署若干个监控摄像头，对需要监控区域内的影像进行实时采集，并将采集的视频图像传输到A医院资料室的监控服务器。

S2、A医院资料室的监控服务器使用行人检测模型检测出视频图像中出现了人物目标。

S3、A医院资料室的监控服务器使用多属性分类模型对上一步骤中检测出的人物目标的相关属性进行分类，得到该人物的多种属性。其中，该人物的多种属性包括是否佩戴帽子，衣服的颜色、纹理、款式，是否有肩章等。

S4、白名单身份设置，将医生和护士以及医院后勤工作人员加入白名单。其中，将医生和护士定义为白色长款工作服，医院后勤工作人员定义为蓝色短款上衣及蓝色裤子。即将符合A医院资料室的进入条件的身份的标准属性加入白名单。在具体实现中，也可以根据实际需要设置禁止进入A医院资料室的黑名单，本实施例对此不做具体限定。

S5、人物身份匹配：当系统发现不符合白名单中身份的目标时，会记录非法入侵事件，并进行报警，通知相关工作人员对非法入侵者的身份进行核验。也就是说，根据S3中得到的人物的多种属性和白名单中的标准属性，识别进入A医院资料室的人物的身份是否为A医院的医生、护士或医院后勤工作人员。

监控场景二：B医院资料室，B医院的资料室也仅允许医生、护士和后勤人员进入，医生仅可能穿着白色长款工作服，但护士会穿着白色或粉色短款工作服，后勤人员穿着绿色短款上衣及绿色裤子。因此，可以预先设置符合B医院资料室的进入条件的身份的标准属性包括：白色长款工作服(医生对应的标准属性)、白色或粉色短款工作服(护士对应的标准属性)、绿色短款上衣及绿色裤子(后勤人员对应的标准属性)。上述三种身份对应的标准属性可以预存在B医院资料室的监控服务器中，监控流程可以如下：

S1、在需要监控的B医院资料室中的关键位置部署若干个监控摄像头，对需要监控区域内的影像进行实时采集，并将采集的视频图像传输到B医院资料室的监控服务器。

S2、B医院资料室的监控服务器使用行人检测模型检测出视频图像中出现了人物目标。其中，在训练好用于A医院的行人检测模型后，可直接将该行人检测模型应用于B医院，无需对行人检测模型进行重新训练。

S3、B医院资料室的监控服务器使用多属性分类模型对上一步骤中检测出的人物目标的相关属性进行分类，得到该人物的多种属性。其中，该人物的多种属性包括是否佩戴帽子，衣服的颜色、纹理、款式，是否有肩章等。在具体实现中，当训练好部署在A医院资料室的多属性分类模型时，可直接将该多属性分类模型应用到B医院资料室，不需要对多属性分类模型进行重新训练。

S4、白名单身份设置，将医生和护士以及医院后勤工作人员加入白名单。其中，将医生定义为白色长款工作服，护士定义为白色或粉色短款工作服，医院后勤工作人员定义为绿色短款上衣及绿色裤子。即将符合B医院资料室的进入条件的身份的标准属性加入白名单。在具体实现中，也可以根据实际需要设置禁止进入B医院资料室的黑名单，本实施例对此不做具体限定。

S5、人物身份匹配：当系统发现不符合白名单中身份的目标时，会记录非法入侵事件，并进行报警，通知相关工作人员对非法入侵者的身份进行核验。也就是说，根据S3中得到的人物的多种属性和白名单中的标准属性，识别进入B医院资料室的人物的身份是否为B医院的医生、护士或医院后勤工作人员。

需要说明的是，本实施例中的上述各示例均为为方便理解进行的举例说明，并不对本申请的技术方案构成限定。

本实施例的有益效果在于：泛化性能强、灵活性好、效率高，可实现对身份的有效验证，提高非法入侵事件的应急响应能力，有利于及时预警并进行防范。主要表现在以下几个方面：

1、相比于适用于指定场景的模型，本实施例通过标准属性来定义符合监控场景的进入条件的身份，不同的监控场景可以定义不同的标准属性，从而使得本实施例中可以通过训练一个多属性分类模型来适应不同监控场景的监控需求。因此，本实施例中的多属性分类模型在迁移到其他监控场景时无需重新训练网络，具有更强的泛化能力，可灵活应用到多种监控场景中，有利于模型的规模化部署。

2、本实施例可以使用大量的公开图像数据集进行网络模型的训练。在实际的部署场景中采集数据的工作量很大，且数据的多样性有限。本实施例在训练多属性分类模型时可使用大量的公开图像数据集，而不必到实际的部署场景中去采集数据，这简化了繁杂的数据集获取过程，且可以利用更多的数据训练多属性分类模型。

3、本实施例使用的多属性分类模型，即多任务分类网络采用共享骨干网络的形式，可以让网络学习到更多共享的特征表示，提升网络的泛化效果。相较于如图2所示的对每个任务分别训练出一个模型，本实施例仅使用了一个多属性分类模型模型，有效地提高了网络的运行效率。

本申请第二实施例涉及一种身份识别方法，本实施例是对第一实施例的进一步改进，主要改进之处在于：在多属性分类模型中引入注意力机制，如图3所示，在使用共享的骨干网络提取特征得到中间特征图后，在对目标人物的某一区域的属性进行分类时，可以先预测出该区域对应的掩码图像，然后将不同区域对应的掩码图像，应用到中间特征图，得到中间特征图中不同区域分别对应的目标区域特征图，最后根据不同区域分别对应的目标区域特征图，确定目标对象的多种属性。例如，在预测人物上衣的颜色时，可在共享的骨干网络提取特征得到中间特征图后，先预测出上衣区域对应的掩码图像，然后将该掩码图像应用到中间特征图上，去除中间特征图中与上衣区域无关的区域，最后再预测出上衣的颜色。下面主要对本申请的主要改进之处进行说明：

本实施例中相当于是对第一实施例中“根据预先训练的多属性分类模型，确定目标人物的多种属性”进行的进一步改进。本实施例中的多属性分类模型与第一实施例中的多属性分类模型的不同之处在于：训练模型时构建的样本集不同。第一实施例中，对图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集；本实施例中，对图像数据集中满足预设标注条件的图像中的人物的多种属性和人物的不同区域进行标注，构建样本集。也就是说，第一实施例中标注的是人物的多种属性，本实施例中除了标注人物的多种属性，还标注了人物的不同区域。

在一个例子中，对人物的不同区域的标注可以参考图4、图5。其中，图4为未进行标注的原图，图5中用不同颜色标注出上衣区域、裤子区域、头部的帽子区域。本实施例中，“根据预先训练的多属性分类模型，确定目标人物的多种属性”的实现方式可以如图6所示，包括：

步骤501：将视频图像输入多属性分类模型中的骨干网络，得到中间特征图。

本实施例中的多属性分类模型中的骨干网络可以为残差网络(Residual Neural Network，简称：ResNet)，ResNet可以进一步为ResNet18，ResNet18的参数量较少，可实现较高的速度与精度。ResNet18可以提取视频图像的特征，得到该视频图像对应的中间特征图。

步骤502：确定中间特征图中目标人物的不同区域对应的掩码图像。

具体的说，中间特征图经过多属性分类模型中的若干个卷积层后可以得到中间特征图中目标人物的不同区域对应的掩码图像。其中，掩码图像可以理解为二值图像，比如中间特征图的上衣区域对应的掩码图像可以参考图7，即上衣区域内的值均为1，其余区域内的值均为0。

步骤503：将不同区域对应的掩码图像应用到中间特征图，得到中间特征图中不同区域分别对应的目标区域特征图。

步骤504：根据不同区域分别对应的目标区域特征图，确定目标对象的多种属性。

在一个例子中，可以将中间特征图分别与不同区域对应的掩码图像相乘，得到中间特征图中不同区域分别对应的目标区域特征图。根据不同区域分别对应的目标区域特征图，确定目标对象的多种属性。通过将中间特征图分别与不同区域对应的掩码图像相乘，可以去除与当前关注的区域无关的信息，这样就可将网络的注意力集中到需要重点关注的目标区域。

比如，当关注上衣区域的相关属性时，图像中不属于上衣区域的信息可能会影响网络的判断，因此，可以将中间特征图与上衣区域对应的掩码图像相乘，去除与上衣区域无关的信息，这样就可将网络的注意力集中到需要重点关注的上衣区域，即得到上衣区域对应的目标区域特征图。然后，根据上衣区域对应的目标区域特征图，确定目标对象的上衣区域的相关属性。比如，根据上衣区域对应的目标区域特征图，确定目标对象的上衣颜色和/或上衣款式。

再比如，当关注裤子区域的相关属性时，图像中不属于裤子区域的信息可能会影响网络的判断，因此可以将中间特征图与裤子区域对应的掩码图像相乘，去除与裤子区域无关的信息，这样就可将网络的注意力集中到需要重点关注的裤子区域，即得到裤子区域对应的目标区域特征图。然后，根据裤子区域对应的目标区域特征图，确定目标对象的裤子区域的相关属性。比如，根据裤子区域对应的目标区域特征图，确定目标对象的裤子颜色和/或裤子款式。

在具体实现中，根据不同区域分别对应的目标区域特征图，确定目标对象的多种属性可以包括：可以根据上衣区域对应的目标区域特征图，确定目标对象的上衣颜色和/或上衣款式；根据裤子区域对应的目标区域特征图，确定目标对象的裤子颜色和/或裤子款式；根据头部区域对应的目标区域特征图，确定目标对象是否佩戴帽子和/或是否佩戴眼镜等。

本实施例中，通过添加注意力机制，即在确定目标人物某一区域的属性时，先确定出该区域的掩码图像，将该区域的掩码图像应用于中间特征图可去除无关的背景信息，再进行该区域的属性分类，可有效提高确定的目标对象的多种属性的准确性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请第三实施例涉及一种多属性分类模型的训练方法，如图8所示，包括：

步骤701：获取公开的图像数据集。

步骤702：对图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集。

步骤703：确定网络的结构，并配置网络的网络超参数。

步骤704：根据样本集训练配置有网络超参数的网络，得到多属性分类模型。

不难发现，本实施例中的多属性分类模型的训练方法的实现过程，在第一实施例和第二实施例中已经介绍过。第一实施例和第二实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第一实施例至第二实施例中。

本实施例中，可以使用大量的公开图像数据集进行网络模型的训练。在实际的部署场景中采集数据的工作量很大，且数据的多样性有限。本实施例在训练多属性分类模型时可使用大量的公开图像数据集，而不必到实际的部署场景中去采集数据，这简化了繁杂的数据集获取过程，且可以利用更多的数据训练多属性分类模型。而且，本实施例使用的多属性分类模型，即多任务分类网络采用共享骨干网络的形式，可以让网络学习到更多共享的特征表示，提升网络的泛化效果。

本申请第四实施例涉及一种多属性分类模型的训练装置，如图9所示，包括：

获取模块801，用于获取公开的图像数据集；

标注模块802，用于对图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集；

配置模块803，用于确定网络的结构，并配置网络的网络超参数；

训练模块804，用于根据样本集训练配置有网络超参数的网络，得到多属性分类模型。

不难发现，本实施例为与第三实施例相对应的装置实施例，第三实施例提到的相关技术细节和技术效果在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第三实施例中。

本申请第五实施例涉及一种电子设备，如图10所示，包括至少一个处理器901；以及，与至少一个处理器901通信连接的存储器902；其中，存储器902存储有可被至少一个处理器901执行的指令，指令被至少一个处理器901执行，以使至少一个处理器901能够执行第一、或第二实施例中的身份识别方法。

其中，存储器902和处理器901采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器901和存储器902的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器901处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器901。

处理器901负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器902可以被用于存储处理器901在执行操作时所使用的数据。

本申请第六实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

一种身份识别方法，包括：

获取监控场景内的视频图像；

若检测到所述视频图像中出现目标人物，根据预先训练的多属性分类模型，确定所述目标人物的多种属性；其中，所述多属性分类模型根据预先构建的样本集训练得到，所述样本集包括若干标注有属性的图像；

确定符合所述监控场景的进入条件的身份的标准属性；

根据所述目标人物的多种属性和所述标准属性，识别所述目标人物的身份是否符合所述进入条件。
根据权利要求1所述的身份识别方法，其中，所述多属性分类模型通过以下训练方式训练得到：

获取公开的图像数据集；

对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建所述样本集；

确定网络的结构，并配置所述网络的网络超参数；

根据所述样本集训练配置有所述网络超参数的网络，得到所述多属性分类模型。
根据权利要求2所述的身份识别方法，其中，所述对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建所述样本集，包括：

对所述图像数据集中满足预设标注条件的图像中的人物的多种属性和所述人物的不同区域进行标注，构建所述样本集；

所述根据预先训练的多属性分类模型，确定所述目标对象的多种属性，包括：

将所述视频图像输入所述多属性分类模型中的骨干网络，得到中间特征图；

确定所述中间特征图中所述目标人物的不同区域对应的掩码图像；

将所述不同区域对应的掩码图像应用到所述中间特征图，得到所述中间特征图中所述不同区域分别对应的目标区域特征图；

根据所述不同区域分别对应的目标区域特征图，确定所述目标对象的多种属性。
根据权利要求3所述的身份识别方法，其中，所述将所述不同区域对应的掩码图像应用到所述中间特征图，得到所述中间特征图中所述不同区域分别对应的目标区域特征图，包括：

将所述中间特征图分别与所述不同区域对应的掩码图像相乘，得到所述中间特征图中所述不同区域分别对应的目标区域特征图。
根据权利要求1-4任一项所述的身份识别方法，其中，所述标准属性包括多种身份对应的多种标准属性，所述根据所述目标人物的多种属性和所述标准属性，识别所述目标人物的身份是否符合所述进入条件，包括：

将所述目标人物的多种属性分别和每种所述标准属性进行匹配；

若所述目标人物的多种属性与任意一种所述身份对应的标准属性匹配成功，识别所述目标人物的身份符合所述进入条件。
根据权利要求5所述的身份识别方法，其中，所述将所述目标人物的多种属性分别和每种所述标准属性进行匹配，包括：

确定所述多种标准属性的优先级；

按照所述多种标准属性的优先级，依次将所述目标人物的多种属性分别和每种所述标准属性进行匹配。
一种多属性分类模型的训练方法，包括：

获取公开的图像数据集；

对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集；

确定网络的结构，并配置所述网络的网络超参数；

根据所述样本集训练配置有所述网络超参数的网络，得到所述多属性分类模型。
一种多属性分类模型的训练装置，包括：

获取模块，用于获取公开的图像数据集；

标注模块，用于对所述图像数据集中满足预设标注条件的图像中的人物的多种属性进行标注，构建样本集；

配置模块，用于确定网络的结构，并配置所述网络的网络超参数；

训练模块，用于根据所述样本集训练配置有所述网络超参数的网络，得到所述多属性分类模型。
一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的身份识别方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的身份识别方法。