WO2023273075A1

WO2023273075A1 - 行为识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2023273075A1
Application number: PCT/CN2021/127654
Authority: WO
Inventors: 梁博; 熊梓云; 陈伟; 罗玮杰; 刘雁萍
Original assignee: 深圳市商汤科技有限公司
Priority date: 2021-06-30
Filing date: 2021-10-29
Publication date: 2023-01-05
Also published as: CN113255606A

Abstract

本申请提供了一种行为识别方法、装置、计算机设备及存储介质，包括：通过对预先抽取的关键帧图像进行人体检测，确定关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框以及与预设重点监测区域的重叠面积；选取重叠面积与人体检测框面积或者重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；对每个目标人体检测框的目标截取图像进行动作识别，得到检测结果；响应于检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。这样，通过检测目标动作判断重点监测区域中是否存在异常行动，提高针对重点监测区域的检测效率。

Description

行为识别方法、装置、计算机设备及存储介质

相关申请的交叉引用

本专利申请要求2021年06月30日提交的中国专利申请号为202110737409.1、申请人为深圳市商汤科技有限公司，申请名称为“行为识别方法、装置、计算机设备及存储介质”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本申请实施例涉及图像识别技术领域，涉及但不限于一种行为识别方法、装置、计算机设备及存储介质。

背景技术

随着智能设备的普及，如智能手机、平板电脑、智能手表等，为人们的生活工作带来了极大的便利。与此同时，智能设备上的游戏、购物、聊天功能对于人们一定程度的诱惑，导致人们可能在使用智能设备的同时，未能注意到自身以及周边环境的安全，由此引发安全事故。

相关技术中，一些监控设备可以就人员使用的智能设备进行识别检测，但是在无法明确识别出智能设备的情况下，识别效率较低。

发明内容

本申请实施例至少提供一种行为识别方法、装置、计算机设备及存储介质。

第一方面，本申请实施例提供了一种行为识别方法，所述识别方法包括：

通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积；

基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；

对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；

响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

在本实施例中，通过对关键帧图像中的人体检测框进行目标动作识别，从而确定是否存在执行目标动作的人员，进而起到对重点监测区域中人员的行为进行监控的目的。

在一些实施例中，所述方法还包括，获取关键帧图像；所述获取关键帧图像，包括：

对获取的实时视频流进行解码处理，得到与所述实时视频流对应的多帧原始帧图像；

基于预设的抽帧规则，从所述多帧所述原始帧图像中抽取所述关键帧图像。

这样，可以按照一定的处理需求，确定不同的抽帧规则，抽取关键帧图像。

在一些实施例中，所述通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，包括：

对所述关键帧图像进行人体位置检测得到至少一个人体位置检测点；

获取所述关键帧图像中，每个人体位置检测点在所述关键帧图像中的坐标位置；

基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框。

这样，通过对关键帧图像进行人体位置检测，绘制对应每个人体图像的人体检测框，从而排除不属于重点监测区域的人体图像，便于后续针对重点监测区域的监控。

在一些实施例中，所述基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框，包括：

针对每个人体位置检测点，基于所述人体位置检测点的坐标位置，得到覆盖与所述人体位置检测点对应的人体图像的延伸区域，其中，所述人体位置检测点位于所述延伸区域内；

基于所述人体图像的延伸区域，确定所述关键帧图像中的所述人体图像，并按照所述延伸区域的边缘，绘制对应所述人体图像的人体检测框。

这样，通过确定每个人体图像的延伸区域，能够按照所述延伸区域的边缘，绘制对应每个人体图像的人体检测框，从而使得人体检测框与该人体图像更加匹配。

在一些实施例中，所述对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果，包括：

将至少一个所述目标人体检测框对应的目标截取图像输入至预先训练好的人体动作识别模型中，获取每个目标截取图像的、包括预设目标动作的置信度的检测结果；

针对所述每个目标截取图像，在所述置信度大于预设的置信度阈值情况下，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作。

这样，按照置信度的大小，能够更加准确地判断图像中是否包括预设目标动作。

在一些实施例中，通过以下步骤训练所述人体动作识别模型：

获取包括目标动作的正样本图像，以及不包括所述目标动作的负样本图像；

基于所述正样本图像以及与所述正样本图像对应的正样本标签构建正样本，并基于所述负样本图像以及与所述负样本图像对应的负样本标签构建负样本，所述正样本标签为所述正样本图像中的动作与所述预设目标动作一致，所述负样本标签为所述负样本图像中的动作与所述预设目标动作不一致；

将所述正样本及所述负样本输入至待训练的人体动作识别模型中，对所述待训练的人体动作识别模型进行模型训练，得到训练好的人体动作识别模型。

这样，将正样本及负样本输入至待训练的人体动作识别模型中，对待训练的人体动作识别模型进行模型训练，直至该模型的模型损失满足预设的损失阈值，完成训练过程，使得训练好的人体动作识别模型的识别结果更加精确。

针对每个目标人体检测框对应的目标截取图像，识别所述目标截图图像中至少两个目标检测点之间的位置关系，得到所述目标截取图像的、包括所述位置关系的检测结果；

响应于所述位置关系与预设目标动作中对应的至少两个检测点之间的预设位置关系相匹配，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作；

其中，所述位置关系包括至少两个目标检测点之间的距离、所述人体图像中至少两个目标检测点之间的偏移角、在预设时间范围内所述人体图像中至少两个目标检测点之间的移动距离和/或偏移角变化范围中的一者或者多者。

这样，通过识别目标截图图像中至少两个目标检测点之间的位置关系，能够进一步更加精确地判断目标截取图像中是否包括预设目标动作。

在一些实施例中，所述识别方法还包括：

将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示；

所述告警信息包括以下至少一种：所述告警信息包括以下至少一种：所述预设目标动作执行人员的数量、每个预设目标动作执行人员相对于所述关键帧图像的检测点位置以及通过所述人体动作识别模型数据输出的每个预设目标动作执行人员执行所述目标动作的置信度数值。

这样，通过显示包括预设目标动作的关键帧图像以及对应的告警信息，为监测人员提高处理依据，便于监测人员基于上述信息进行处理。

在一些实施例中，所述目标动作包括以下动作中的一种或者多种：

玩手机、打电话、查看手机。

第二方面，本申请实施例还提供一种行为行为识别装置，所述行为识别装置包括：

检测模块，配置为通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积；

选取模块，配置为基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；

识别模块，配置为对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；

确定模块，配置为响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

在一些实施例中，所述行为识别装置还包括：获取模块；

所述获取模块，配置为获取关键帧图像；

所述获取模块，还配置为：对获取的实时视频流进行解码处理，得到与所述实时视频流对应的多帧原始帧图像；

在一些实施例中，所述检测模块，包括：

检测单元，配置为对所述关键帧图像进行人体位置检测得到至少一个人体位置检测点；

获取单元，配置为获取所述关键帧图像中，每个人体位置检测点在所述关键帧图像中的坐标位置；

确定单元，配置为基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框。

在一些实施例中，所述确定单元还配置为：

在一些实施例中，所述识别模块还配置为：

针对所述每个目标截取图像，在所述置信度大于预设的置信度阈值的情况下，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作。

在一些实施例中，所述行为识别装置还包括训练模块，所述训练模块，配置为；

所述训练模块，配置为获取包括目标动作的正样本图像，以及不包括所述目标动作的负样本图像；

在一些实施例中，所述识别模块还配置为：

在一些实施例中，所述行为识别装置还包括：

展示模块，配置为将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示；

玩手机、打电话、查看手机。

第三方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种行为识别方法、装置、计算机设备及存储介质，包括：通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框；基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，则确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

本申请实施例中，通过对关键帧图像进行人体检测，并选取目标人体检测框，对目标人体检测框中目标截取图像进行人体动作识别，进行确定目标截取图像是否存在目标动作，从而判断关键帧图像是否包括目标动作。这样，可以通过检测目标动作判断重点监测区域中是否存在异常行动，无需检测到对应的执行物品，提高针对重点监测区域的检测效率。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1A示出了本申请实施例所提供的一种行为识别方法的流程图；

图1B示出可以应用本申请实施例的行为识别方法的一种系统架构示意图；

图2示出了本申请实施例所提供的人体检测示意图；

图3示出了本申请实施例所提供的另一种行为识别方法的流程图；

图4示出了本申请实施例所提供的一种行为行为识别装置的示意图；

图5示出了本申请实施例所提供的另一种行为行为识别装置的示意图；

图6示出了本申请实施例所提供的行为行为识别装置中，检测模块的具体示意图；

图7示出了本申请实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，目前，一些监控设备可以就人员使用的智能设备进行识别检测，即当监控画面中出现智能设备时，可以就该识别结果进行判断并执行对应的警示作用。但是上述方法中，往往只能够针对监控画面中可以明确识别为智能设备的情况进行警示，针对无法明确识别出智能设备时的识别效率较低。

基于上述研究，本申请提供了一种行为识别方法，通过对关键帧图像进行人体检测，并选取目标人体检测框，对目标人体检测框中目标截取图像进行人体动作识别，进行确定目标截取图像是否存在目标动作，从而判断关键帧图像是否包括目标动作。这样，可以通过检测目标动作判断重点监测区域中是否存在异常行动，无需检测到对应的执行物品，提高针对重点监测区域的检测效率。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种行为识别方法进行详细介绍，本申请实施例所提供的行为识别方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该行为识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1A所示，为本申请实施例提供的一种行为识别方法的流程图，所述识别方法包括步骤S101至S104，其中：

S101：通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积。

一些可能的实现方式中，可以对抽取得到的关键帧图像进行人体检测，检测出该关键帧图像中所包括的至少一个人体图像，并对每个人体图像添加对应的人体检测框，并基于每个人体检测框的位置及大小，确定出每个人体检测框与预设的重点监测区域之间的重叠面积。

在本申请的一个实施例中，在对关键帧图像进行人体检测之前，还包括：获取关键帧图像。一些可能的实现方式中，可以通过以下步骤抽取所述关键帧图像：

示例性的，视频的帧数一般都是30帧/秒，最低可以降到25帧/秒，因此可以基于实时视频流的帧数对其进行解码处理。一些可能的实现方式中，可以在实时接收到监控视频的同时，对其进行解码处理，从而得到与实时视频流对应的多帧原始帧图像。在获取多帧原始帧图像之后，鉴于处理资源的限制，以及基于目标业务的需求，一般无需对每一帧原始帧图像进行处理，因此，可以基于一定的抽帧规则，例如每10帧抽取一帧、或者每5帧抽取一帧的规则，从多帧所述原始帧图像中抽取帧图像，作为关键帧图像。

在本申请实施例中，在获取到关键帧图像之后，便可以对关键帧图像进行人体检测处理，从而可以检测出关键帧图像中的至少一个人体图像，并对每个人体图像添加对应的人体检测框。

参阅图2，图2为本申请实施例所提供的人体检测示意图。

一些可能的实现方式中，所述通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，包括：

示例性的，可以通过将关键帧图像输入至人体检测模型，或者是对关键帧图像进行人体识别，从而筛选出关键帧图像中包括的人体图像，以及对应的大致位置。为了更为准确的确定人体图像的对应位置，因此可以通过标定人体检测点的方法，准确的确定人体的位置，例如，以人体的头顶、脚尖、颈部等人体部位作为人体检测点，并检测预设的人体检测点在关键帧图像中所在的坐标位置，接下来，可以以确定的人体检测点的坐标位置为基准，确定关键帧图像中包括的人体图像，并针对每一个人体图像绘制对应的人体检测框。

一些可能的实现方式中，所述基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框，包括：

示例性的，当人体检测点设定为人体头部时，以确定的人体头部检测点为中心，向预设的指定方向，例如水平垂直方向，或者是预先预测的人体直立方向以及对应的垂直方向，向外延伸，直至覆盖每个人体图像，得到覆盖每个人体图像的延伸区域。例如，从头部延伸至人体的双脚之间，形成线段，并以线段上各点为基准，向垂直线段方向延伸，直至覆盖整个人体图像，得到覆盖每个人体图像的延伸区域，对应延伸区域内的图像即为关键帧图像中的至少一个人体图像。之后，可以按照所述延伸区域的边缘，绘制对应每个人体图像的人体检测框。

承接于上述S101，该识别方法还包括：

S102：基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框。

一些可能的实现方式中，在确定出每个所述人体检测框与预设重点监测区域的重叠面积之后，便可以确定出重叠面积相对于每个人体检测框的占比，以及重叠面积相对于整个重点监测区域的占比，从而可以选取出满足预设条件的人体检测框作为目标人体检测框。

示例性的，如图2所示，假设预设比例为50％，关键帧图像中包括1、2、3、4，四个人体检测框，对应的曲线区域为重点监测区域，由图可知，人体检测框1完全位于重点监控区域内部，因此重叠面积与人体检测框面积的面积比为1，大于预设比例50％，可以确定为目标人体检测框，人体检测框2完全脱离于重点监控区域，因此重叠面积与人体检测框面积的面积比为0，小于预设比例50％，不能够作为目标人体检测框，可以直接筛除掉。针对于3、4两个人体检测框，人体检测框3的重叠面积与人体检测框面积的面积比大于预设比例50％，因此可以判断人体检测框3为目标人体检测框，对应的，人体检测框4的重叠面积与人体检测框面积的面积比小于预设比例50％，因此可以判断4不能够作为目标人体检测框。

在本申请实施例中，还可以通过选取重叠面积与重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框，与上述通过选取重叠面积与人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框的方法类似，在此不再赘述。

在另一个实施例中，选取出满足预设条件的人体检测框作为目标人体检测框的方法还可以包括：

确定所述人体检测框位于所述重点监测区域的内部面积，以及所述人体检测框位于所述重点监测区域的外部面积；

选取所述内部面积大于所述外部面积的人体检测框为所述目标人体检测框。

示例性的，如图2所示，关键帧图像中包括1、2、3、4，四个人体检测框，对应的曲线区域为重点监测区域，由图可知，1完全位于重点监控区域内部，因此可以确定为目标人体检测框，2完全脱离于重点监控区域，因此，可以直接筛除掉。针对于3、4两个人体检测框，3位于重点监测区域的面积要大于位于重点区域之外的面积，因此可以判断3为目标人体检测框，对应的，4位于重点监测区域的面积要小于位于重点区域之外的面积，因此可以判断4不是目标人体检测框。

承接与上述S102，所述识别方法还包括：

S103：对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果。

一些可能的实现方式中，在确定了目标人体检测框之后，便可以基于预设的动作识别方法对目标截取图像进行动作识别，进而得到每个目标截取图像对应的检测结果。

所述目标动作包括以下动作中的一种或者多种：玩手机、打电话、查看手机。

在一个实施例中，可以通过训练完成的动作识别模块完成动作识别，得到检测结果。一些可能的实现方式中，将至少一个所述目标人体检测框对应的目标截取图像输入至预先训练好的人体动作识别模型中，获取每个目标截取图像的、包括预设目标动作的置信度的检测结果。针对所述每个目标截取图像，在所述置信度大于预设的置信度阈值情况下，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作。

示例性的，将目标人体检测框对应的目标截取图像输入至预先训练好的人体动作识别模型中之后，该模型可以输出针对每张目标截取图像的存在预设目标动作的置信度，例如：A图像的置信度为95％，B图像的置信度为80％，那么基于预设的置信度阈值，例如90％，可以判定A图像存在预设的目标动作。

在本申请一个实施例中，通过以下步骤训练所述人体动作识别模型：

示例性的，以检测目的为玩手机为例，可以设定目标动作为双手靠近，左手或右手靠近耳部、低头等。对应的，正样本图像对应的标签为所述正样本图像中的动作与所述预设目标动作一致，负样本图像对应的标签为所述负样本图像中的动作与所述预设目标动作不一致。之后，将所述正样本及所述负样本输入至待训练的人体动作识别模型中，对所述待训练的人体动作识别模型进行模型训练，直至该模型的模型损失满足预设的损失阈值，完成训练过程，得到用于确定输入样本包括目标动作的置信度的训练好的人体动作识别模型。

在另一实施例中，所述目标动作可以包括所述人体图像中至少两个目标检测点之间的距离、所述人体图像中至少两个目标检测点之间的偏移角、在预设时间范围内所述人体图像中至少两个目标检测点之间的移动距离和/或偏移角变化范围。

示例性的，以检测目的为玩手机为例，由于玩手机时，手部会靠近眼睛或是两个手靠近，又或者，手部与面部的偏移角缩小或双手之间的偏移角缩小至一定的角度阈值，还可以监测在一定时间范围内，手部或头部不发生移动或是发生较小范围的移动等，由此，可以通过监测上述动作确定监测人员是否进行玩手机的动作。以检测目的为打电话为例，可以监测手部与耳部之间的距离，或是偏移角，又或是在一定时间范围内，手部或头部不发生移动或是发生较小范围的移动等，在此不再赘述。

本申请实施例可应用于在监控区域对目标人员进行监控，例如，在安置运作机器工厂里，禁止工作人员溜号、走神等，尤其是玩手机、打电话等容易造成安全隐患的违规行为，因此可以通过监测是否存在目标动作判断监控区域内的人员是否存在违规行为；又或者，对于在一些考试场景下，禁止人员传递消息时，可以通过监测监控区域内的人员是否存在目标动作进而判定是否存在违规行为；又或者，在马路上，尤其是在路口等车流密集位置，如果行人在过马路时玩手机会存在较大的交通安全隐患，也可以通过监测是否存在目标动作判断监控区域内的人员是否存在违规行为，在此不再赘述。

承接于上述S103，所述识别方法还包括：

S104：响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，则确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

该步骤中，通过判定是否存在包括预设目标动作的目标截取图像，从而判断关键帧图像是否包括目标动作，进而判定关键帧对应的检测区域是否存在目标行为。

示例性的，一个区域对应一个负责管理者，因此当判定存在包括目标动作的目标截取图像，可以将包括目标动作的关键帧图像直接发送至对应的负责管理者，从而便于负责管理者基于该图像进行对应处理。

本申请实施例通过对关键帧图像进行人体检测，并选取目标人体检测框，对目标人体检测框中目标截取图像进行人体动作识别，进行确定目标截取图像是否存在目标动作，从而判断关键帧图像是否包括目标动作。这样，可以通过检测目标动作判断重点监测区域中是否存在异常行动，无需检测到对应的执行物品，提高针对重点监测区域的检测效率。

图1B示出可以应用本申请实施例的行为识别方法的一种系统架构示意图；如图1B所示，该系统架构中包括：行为识别终端201、网络202和电子设备203。为实现支撑一个示例性应用，行为识别终端201和电子设备203通过网络202建立通信连接，电子设备203通过网络202向行为识别终端201上报获取的关键帧图像；关键帧图像201对关键帧图像进行人体检测；首先，确定关键帧图像中的至少一个人体图像、对应每个人体图像的人体检测框，以及每个人体检测框与预设重点监测区域的重叠面积；其次，根据重叠面积选取目标人体检测框，并对每个目标人体检测框进行动作识别。最后，基于检测结果，判断关键帧图像中是否包括目标行为。行为识别终端201将输出的关键帧图像上传至网络202。

作为示例，电子设备203可以包括图像采集设备或者图像扫描设备，行为识别终端201可以包括具有视觉信息处理能力的视觉处理设备或远程服务器。网络202可以采用有线或无线连接方式。其中，当行为识别终端201为视觉处理设备时，电子设备203可以通过有线连接的方式与视觉处理设备通信连接，例如通过总线进行数据通信；当行为识别终端201为远程服务器时，电子设备203可以通过无线网络与远程服务器进行数据交互。

或者，在一些场景中，电子设备203可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本申请实施例的位姿获取方法可以由电子设备203执行，上述系统架构可以不包含网络202和服务器。

参见图3所示，为本申请实施例提供的另一种行为识别方法的流程图，所述识别方法包括步骤S301至S305，其中：

S301：通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积。

S302：基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框。

S303：对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果。

S304：响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

其中，步骤S301至步骤S304的描述可以参考步骤S101至步骤S104的描述，并且可以达到相同的技术效果，在此不再赘述。

S305：将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示。

该步骤中，在确定出包括预设目标动作的关键帧图像之后，可以将该关键帧图像以及与该关键帧图像对应的告警信息进行前端展示，便于对应的负责人员执行对应的操作。

其中，所述告警信息包括以下至少一种：所述告警信息包括以下至少一种：所述预设目标动作执行人员的数量、每个预设目标动作执行人员相对于所述关键帧图像的检测点位置以及通过所述人体动作识别模型数据输出的每个预设目标动作执行人员执行所述目标动作的置信度数值。

示例性的，当目标动作执行人员的数量超过一定数值时，可以确定该关键帧图像存在较为严重的违规行为，应处于较高级别的预警处理。每个目标动作执行人员相对于所述关键帧图像的检测点位置便于负责人员查找对应的目标动作执行人员，或是基于该坐标位置判定处于该位置的人员信息。通过所述人体动作识别模型数据输出的每个目标动作执行人员执行所述目标动作的置信度数值便于负责人员判定进行相关处理的紧急程度，在置信度极高的情况下，即确定存在目标动作的概率极高，应及时予以对应处理。

本申请实施例通过前端展示存在目标动作的关键帧图像以及相应的告警信息，为负责人员处理相关问题提供了便利，进而提高了针对目标动作的处理效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本申请实施例中还提供了与行为识别方法对应的行为行为识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述行为识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4、图5、图6所示，图4为本申请实施例提供的一种行为识别的示意图；图5为了本申请实施例所提供的另一种行为行为识别装置的示意图；图6为本申请实施例所提供的行为行为识别装置中，检测模块的具体示意图。所述行为识别装置包括：检测模块410、选取模块420、识别模块430、确定模块440；其中：

检测模块410，配置为通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积；

选取模块420，配置为基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；

识别模块430，配置为对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；

确定模块440，配置为响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

在一些实施例中，如图5所示，所述行为识别装置还包括：获取模块450；

所述获取模块450，配置为获取关键帧图像

所述获取模块450，还配置为：对获取的实时视频流进行解码处理，得到与所述实时视频流对应的多帧原始帧图像；

在一些实施例中，如图6所示，所述检测模块410，包括：

检测单元411，配置为对所述关键帧图像进行人体位置检测得到至少一个人体位置检测点；

获取单元412，配置为获取所述关键帧图像中，每个人体位置检测点在所述关键帧图像中的坐标位置；

确定单元413，配置为基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框。

在一些实施例中，所述确定单元413还配置为：

基于所述人体图像的延伸区域，确定所述关键帧图像中的所述人体图像，并按照所述延伸区域的边缘，绘制对应所述人体图像的人体检测框

在一些实施例中，所述识别模块430还配置为：

在一些实施例中，如图5所示，所述行为识别装置还包括训练模块460；

所述训练模块460，配置为获取包括目标动作的正样本图像，以及不包括所述目标动作的负样本图像；

在一些实施例中，所述识别模块430还配置为：

在一些实施例中，如图5所示，所述行为识别装置还包括：

展示模块470，配置为将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示；

在一些实施例中，所述预设目标动作包括以下动作中的一种或者多种：

玩手机、打电话、查看手机。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1A中的一种行为识别方法，本申请实施例还提供了一种计算机设备，如图7所示，为本申请实施例提供的计算机设备结构示意图，包括：

处理器701、存储器702、和总线703；存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当所述计算机设备运行时，所述处理器701与所述存储器702之间通过总线703通信，使得所述处理器701执行以下指令：

响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，则确定所述关键帧图像包括与所述预设目标动作对应的目标行为。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的行为识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本申请实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的行为识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

工业实用性

Claims

一种行为识别方法，所述方法由电子设备执行，所述识别方法包括：

通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像、对应每个人体图像的人体检测框，以及每个所述人体检测框与预设重点监测区域的重叠面积；

基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；

对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；

响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。
根据权利要求1所述的行为识别方法，其中，所述方法还包括，获取关键帧图像；

所述获取关键帧图像，包括：

对获取的实时视频流进行解码处理，得到与所述实时视频流对应的多帧原始帧图像；

基于预设的抽帧规则，从所述多帧所述原始帧图像中抽取所述关键帧图像。
根据权利要求1所述的行为识别方法，其中，所述通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框，包括：

对所述关键帧图像进行人体位置检测得到至少一个人体位置检测点；

获取所述关键帧图像中，每个人体位置检测点在所述关键帧图像中的坐标位置；

基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框。
根据权利要求3所述的行为识别方法，其中，所述基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框，包括：

针对每个人体位置检测点，基于所述人体位置检测点的坐标位置，得到覆盖与所述人体位置检测点对应的人体图像的延伸区域；其中，所述人体位置检测点位于所述延伸区域内；

基于所述人体图像的延伸区域，确定所述关键帧图像中的所述人体图像，并按照所述延伸区域的边缘，绘制对应所述人体图像的人体检测框。
根据权利要求1所述的行为识别方法，其中，所述对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果，包括：

将至少一个所述目标人体检测框对应的目标截取图像输入至预先训练好的人体动作识别模型中，获取每个目标截取图像的、包括预设目标动作的置信度的检测结果；

针对所述每个目标截取图像，在所述置信度大于预设的置信度阈值的情况下，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作。
根据权利要求5所述的行为识别方法，其中，通过以下步骤训练所述人体动作识别模型：

获取包括目标动作的正样本图像，以及不包括所述目标动作的负样本图像；

基于所述正样本图像以及与所述正样本图像对应的正样本标签构建正样本，并基于所述负样本图像以及与所述负样本图像对应的负样本标签构建负样本，所述正样本标签为所述正样本图像中的动作与所述预设目标动作一致，所述负样本标签为所述负样本图像中的动作与所述预设目标动作不一致；

将所述正样本及所述负样本输入至待训练的人体动作识别模型中，对所述待训练的人体动作识别模型进行模型训练，得到训练好的人体动作识别模型。
根据权利要求1所述的行为识别方法，其中，所述对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果，包括：

针对每个目标人体检测框对应的目标截取图像，识别所述目标截图图像中至少两个目标检测点之间的位置关系，得到所述目标截取图像的、包括所述位置关系的检测结果；

响应于所述位置关系与预设目标动作中对应的至少两个检测点之间的预设位置关系相匹配，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作；

其中，所述位置关系包括至少两个目标检测点之间的距离、所述人体图像中至少两个目标检测点之间的偏移角、在预设时间范围内所述人体图像中至少两个目标检测点之间的移动距离和/或偏移角变化范围中的一者或者多者。
根据权利要求1至7任一项所述的行为识别方法，其中，所述识别方法还包括：

将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示；

所述告警信息包括以下至少一种：所述预设目标动作执行人员的数量、每个预设目标动作执行人员相对于所述关键帧图像的检测点位置以及通过所述人体动作识别模型数据输出的每个预设目标动作执行人员执行所述目标动作的置信度数值。
根据权利要求1所述的方法，其中，所述预设目标动作包括以下动作中的一种或者多种：

玩手机、打电话、查看手机。
一种行为识别装置，其中，所述行为识别装置包括：

检测模块，配置为通过对预先抽取的关键帧图像进行人体检测，确定所述关键帧图像中的至少一个人体图像以及对应每个人体图像的人体检测框；

选取模块，配置为基于每个所述人体检测框与所述重点监测区域的重叠面积，选取所述重叠面积与所述人体检测框面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；或者选取所述重叠面积与所述重点监测区域面积的面积比大于或等于预设比例的人体检测框为目标人体检测框；

输入模块，配置为对每个目标人体检测框对应的目标截取图像进行动作识别，得到每个目标截取图像的检测结果；

确定模块，配置为响应于所述检测结果指示存在至少一个目标截取图像包括预设目标动作，确定所述关键帧图像包括与所述预设目标动作对应的目标行为。
根据权利要求10所述的行为识别装置，其中，

所述行为识别装置还包括：获取模块；

所述获取模块，配置为获取关键帧图像；

所述获取模块，还配置为：对获取的实时视频流进行解码处理，得到与所述实时视频流对应的多帧原始帧图像；

基于预设的抽帧规则，从所述多帧所述原始帧图像中抽取所述关键帧图像。
根据权利要求10所述的行为识别装置，其中，所述检测模块，包括：

检测单元，配置为对所述关键帧图像进行人体位置检测得到至少一个人体位置检测点；

获取单元，配置为获取所述关键帧图像中，每个人体位置检测点在所述关键帧图像中的坐标位置；

确定单元，配置为基于每个人体位置检测点在所述关键帧图像中的坐标位置，确定所述关键帧图像中的至少一个人体图像，并绘制所述至少一个人体图像中每个人体图像的人体检测框。
根据权利要求12所述的行为识别装置，其中，所述确定单元还配置为：

针对每个人体位置检测点，基于所述人体位置检测点的坐标位置，得到覆盖与所述人体位置检测点对应的人体图像的延伸区域，其中，所述人体位置检测点位于所述延伸区域内；

基于所述人体图像的延伸区域，确定所述关键帧图像中的所述人体图像，并按照所述延伸区域的边缘，绘制对应所述人体图像的人体检测框。
根据权利要求10所述的行为识别装置，其中，所述识别模块还配置为：

将至少一个所述目标人体检测框对应的目标截取图像输入至预先训练好的人体动作识别模型中，获取每个目标截取图像的、包括预设目标动作的置信度的检测结果；

针对所述每个目标截取图像，在所述置信度大于预设的置信度阈值的情况下，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作。
根据权利要求14所述的行为识别装置，其中，所述行为识别装置还包括训练模块，所述训练模块，配置为；

所述训练模块，配置为获取包括目标动作的正样本图像，以及不包括所述目标动作的负样本图像；

基于所述正样本图像以及与所述正样本图像对应的正样本标签构建正样本，并基于所述负样本图像以及与所述负样本图像对应的负样本标签构建负样本，所述正样本标签为所述正样本图像中的动作与所述预设目标动作一致，所述负样本标签为所述负样本图像中的动作与所述预设目标动作不一致；

将所述正样本及所述负样本输入至待训练的人体动作识别模型中，对所述待训练的人体动作识别模型进行模型训练，得到训练好的人体动作识别模型。
根据权利要求10所述的行为识别装置，其中，所述识别模块还配置为：

针对每个目标人体检测框对应的目标截取图像，识别所述目标截图图像中至少两个目标检测点之间的位置关系，得到所述目标截取图像的、包括所述位置关系的检测结果；

响应于所述位置关系与预设目标动作中对应的至少两个检测点之间的预设位置关系相匹配，确定所述目标截取图像的检测结果为所述目标截取图像中包括所述预设目标动作；

其中，所述位置关系包括至少两个目标检测点之间的距离、所述人体图像中至少两个目标检测点之间的偏移角、在预设时间范围内所述人体图像中至少两个目标检测点之间的移动距离和/或偏移角变化范围中的一者或者多者。
根据权利要求10至16任一项所述的行为识别装置，其中，所述行为识别装置还包括：

展示模块，配置为将包括所述预设目标动作的关键帧图像以及与所述关键帧图像对应的告警信息进行前端展示；

所述告警信息包括以下至少一种：所述告警信息包括以下至少一种：所述预设目标动作执行人员的数量、每个预设目标动作执行人员相对于所述关键帧图像的检测点位置以及通过所述人体动作识别模型数据输出的每个预设目标动作执行人员执行所述目标动作的置信度数值。
根据权利要求10所述的行为识别装置，其中，所述目标动作包括以下动作中的一种或者多种：

玩手机、打电话、查看手机。
一种计算机设备，其中，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的行为识别方法的步骤。
一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一项所述的行为识别方法的步骤。