WO2022252642A1

WO2022252642A1 - 基于视频图像的行为姿态检测方法、装置、设备及介质

Info

Publication number: WO2022252642A1
Application number: PCT/CN2022/072290
Authority: WO
Inventors: 吕根鹏; 庄伯金; 刘玉宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-06-01
Filing date: 2022-01-17
Publication date: 2022-12-08
Also published as: CN113239874B; CN113239874A

Abstract

本申请涉及人工智能的活体检测技术领域，本申请公开了一种基于视频图像的行为姿态检测方法、装置、设备及介质，所述方法包括：通过实时获取预设帧数且包含有待检测图像和历史视频图像的视频片段；运用最小矩形框边界法，对所有历史视频图像进行关节点框定，得到预测矩形区域；运用图像像素差算法，对待检测图像和待检测图像的前一帧历史视频图像进行对比，得到差异矩形区域；运用最大边界法，确定出待识别区域图像；通过行为姿态检测模型进行姿态特征提取，根据提取的姿态特征输出行为结果。因此，本申请实现了通过简单的关节点的框定和图像对比，确定出含有人物的待识别区域图像，自动识别出行为姿态结果，加快了姿态识别的效率。

Description

基于视频图像的行为姿态检测方法、装置、设备及介质

本申请要求于2021年6月1日提交中国专利局、申请号为202110609422.9，发明名称为“基于视频图像的行为姿态检测方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的活体检测技术领域，尤其涉及一种基于视频图像的行为姿态检测方法、装置、设备及介质。

背景技术

目前，发明人发现在通过客户端或者终端进行单人姿态检测的场景中，例如在自助取款机操作时，通过客户端检测取款人是否摔倒或者突然倒下的场景，或者通过用户的移动终端检测家中老人是否跌倒或者突然倒下的场景，经常会出现人物在监控图像中所占的区域很小，导致对监控图像进行姿态检测时识别的性能很差，为了提高姿态检测的性能，在现有技术中，往往需要定位出人物的位置，将人物的区域从监控图像中提取出来，再将提取的图像放入姿态检测模型中进行检测，如此，就必然需要一个目标检测模型以检测出人物的位置及区域，从而导致额外增加一个模型以至拉长了整个姿态检测的时长，以及增加了整个姿态检测模型的运行容量，造成对客户端的性能要求较高，无法让性能较差的移动终端达到应有的检测水平，大大降低了姿态检测模型的性能。

技术问题

本申请提供一种基于视频图像的行为姿态检测方法、装置、计算机设备及存储介质，实现了通过简单的关节点的框定和图像对比，就可以识别出含有人物的待识别区域图像，从而自动识别出该视频片段中的人物所体现的行为姿态的结果，减少了整个姿态检测模型的运行容量，并且降低了对客户端的性能要求，加快了姿态识别的效率，提升了客户体验满意度。

技术解决方案

一种基于视频图像的行为姿态检测方法，包括：

实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。

一种基于视频图像的行为姿态检测装置，包括：

获取模块，用于实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

框定模块，用于运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

对比模块，用于运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

确定模块，用于运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

输出模块，用于通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

有益效果

本申请提供的基于视频图像的行为姿态检测方法、装置、计算机设备及存储介质，通过实时获取预设帧数且包含有待检测图像和历史视频图像的视频片段；运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果，如此，实现了通过实时获取预设帧数的视频片段，运用最小矩形框边界法，框定出预测矩形区域，再运用图像像素差算法，对比出差异矩形区域，并运用最大边界法，确定出包含有人物的待识别区域图像，最后，运用行为姿态检测模型自动识别出该待识别区域图像的行为姿态，无需通过目标检测模型对图像进行目标检测，通过简单的关节点的框定和图像对比，就可以识别出含有人物的待识别区域图像，最后仅仅通过提取该待识别区域图像中的姿态特征，自动识别出该视频片段中的人物所体现的行为姿态的结果，减少了整个姿态检测模型的运行容量，并且降低了对客户端的性能要求，降低了运行门槛，提高了姿态检测模型的兼容性，保证姿态检测的性能水平，缩短了整个姿态检测的时长，加快了姿态识别的效率，达到识别不卡顿和及时响应的效果，从而提升了客户体验满意度。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于视频图像的行为姿态检测方法的应用环境示意图；

图2是本申请一实施例中基于视频图像的行为姿态检测方法的流程图；

图3是本申请一实施例中基于视频图像的行为姿态检测方法的步骤S20的流程图；

图4是本申请一实施例中基于视频图像的行为姿态检测方法的步骤S30的流程图；

图5是本申请一实施例中基于视频图像的行为姿态检测方法的步骤S40的流程图；

图6是本申请一实施例中基于视频图像的行为姿态检测方法的步骤S50的流程图；

图7是本申请一实施例中基于视频图像的行为姿态检测装置的原理框图；

图8是本申请一实施例中计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的基于视频图像的行为姿态检测方法，可应用在如图1的应用环境中，其中，客户端（计算机设备或终端）通过网络与服务器进行通信。其中，客户端（计算机设备或终端）包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于视频图像的行为姿态检测方法，其技术方案主要包括以下步骤S10-S50：

S10，实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像。

可理解地，用户通过客户端或者终端的摄像头采集实时视频，对实时采集的视频进行获取，从而能够获取所述预设帧数的视频片段，所述预设帧数为预设的包含连续帧的总数，且所述预设帧数大于二，比如预设帧数为2帧、5帧、10帧、20帧等等，通过实时获取视频片段可以实现滚动式的识别出视频片段的行为姿态，即视频片段可以随着时间的变化，而不断滚动式的刷新，从而可以实现滚动式的识别，所述视频片段包括所述待检测图像和所述历史视频图像，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像。

S20，运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域。

可理解地，所述最小矩形框边界法为运用最小的矩形边框框定出所有所述历史视频图像中的需要关注的关节点的方法，所述关节点框定的过程可以通过行为姿态检测模型中的识别人物的关节点特征的关节点检测模型对所有所述历史视频图像进行关节点的识别，即识别出各个所述历史视频图像中的人物的关节点，再通过将识别到的所有关节点进行干扰点去除，最终通过所述最小矩形框边界法框定所有经过干扰点去除的关节点，并进行预测扩充处理得到矩形区域的过程。

其中，所述预测矩形区域为预测出所有所述历史视频图像的下一帧图像的大概位置的区域，所述预测矩形区域为矩形的相对于所述历史视频图像的坐标范围的区域。

在一实施例中，如图3所示，所述步骤S20中，即所述运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域，包括：

S201，通过行为姿态检测模型中的关节点检测模型对所有所述历史视频图像进行关节点识别，识别出各所述历史视频图像中的关节点，并标识出各所述历史视频图像中的关节点。

可理解地，所述行为姿态检测模型包括所述关节点检测模型，所述关节点检测模型用于检测输入图像中的人物关节点的模型，所述关节点检测模型为关节点识别和行为姿态检测的过程中共用的模型，如此，能够保证识别出的关节点的一致性，通过对历史视频图像进行关节点识别，能够大概地识别出历史视频图像中的人物的位置，为后续行为姿态检测提供了基础，所述关节点识别的过程为通过所述关节点检测模型对所述历史视频图像进行关节点特征提取，根据提取的所述关节点特征进行关节点分类，从而分类得到所述历史视频图像中的关节点，及关节点类别，并在所述历史视频图像中标注出关节点和与其对应的关节点类别，所述关节点类别包括头部、右肩、右肘、、右手、右臀、右膝、右脚、颈部、脊椎、左肩、左肘、左手、左臀、左膝、左脚等等。

其中，所述关节点特征为与人物肢体的连接关节点相关的特征，例如：头部特征、右肩特征、右肘特征、、右手特征、右臀特征、右膝特征、右脚特征、颈部特征、脊椎特征、左肩特征、左肘特征、左手特征、左臀特征、左膝特征、左脚特征等等。

S202，运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域。

可理解地，所述最小矩形框边界法为运用最小的矩形边框框定出所有所述历史视频图像中的需要关注的关节点的方法，建立与所述历史视频图像尺寸相同的空间坐标图，即按照所述历史视频图像尺寸建立横轴和纵轴坐标，将所有所述历史视频图像中的所述关节点按照在历史视频图像中的位置映射至所述空间坐标图中，根据所述空间坐标图中所有映射完的所述关节点的分布情况，寻找聚合中心，通过去除远离该聚合中心的干扰点，从而得到待处理坐标图，运用所述最小矩形边框边界法，通过所述最小矩形区域框定出所述待处理坐标图中的坐标点。

在一实施例中，所述步骤S202中，即所述运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域，包括：

获取各所述关节点的坐标点，可理解地，获取每个所述关节点的坐标点，所述坐标点体现了该关节点在历史视频图像中的位置。

对所有所述关节点进行聚合，聚合在与所述历史视频图像尺寸相同的空间坐标图中。

可理解地，构建与所述历史视频图像尺寸相同的空间坐标图，将所有所述关节点按照其在历史视频图像中的位置一一映射至所述空间坐标图中，运用聚合方式，寻找一个聚合中心，使该聚合中心离各个所述空间坐标图中的坐标点的欧式距离最佳，从而得到聚合后的聚合中心的坐标点。

对所述空间坐标图进行干扰点去除，将去除后的所述空间坐标图确定为待处理坐标图。

可理解地，以所述聚合中心为圆心，预设半径画圆，只要扫描出映射的坐标点，就按照预设增量增加预设半径，不断扩大圆形，直至扫描不出映射的坐标点，将此时的圆形以外的坐标点记录为干扰点，将所有所述干扰点去除，将去除后的所述空间坐标图记录为所述待处理坐标图。

根据所述待处理坐标图中的所有坐标点，运用所述最小矩形边框边界法，得到所述最小矩形区域。

可理解地，从所述待处理坐标图中所有坐标点中，获取横轴方向的最小值和最大值，以及纵轴方向的最小值和最大值，根据获取的横轴方向的最小值和最大值，以及纵轴方向的最小值和最大值，构成一个矩形区域，将该区域确定为所述最小矩形区域。

本申请实现了通过获取各所述关节点的坐标点；对所有所述关节点进行聚合，聚合在与所述历史视频图像尺寸相同的空间坐标图中；对所述空间坐标图进行干扰点去除，将去除后的所述空间坐标图确定为待处理坐标图；根据所述待处理坐标图中的所有坐标点，运用所述最小矩形边框边界法，得到所述最小矩形区域，如此，能够自动聚合所有关节点，并识别出干扰点进行去除，并运用个最小矩形边框边界法准确地确定出最小矩形区域。

S203，对所述最小矩形区域进行预测扩充处理，得到所述预测矩形区域。

可理解地，按照预设扩充量，对所述最小矩形区域的四周进行扩充，增大所述最小矩形区域的范围，所述预设扩充量为根据历史收集的人物行为移动的幅度统计输出的距离，所述预测扩充处理为对最小矩形区域的四周分别扩充所述预设扩充量，预测出人物向四周可能移动的范围。

本申请实现了通过行为姿态检测模型中的关节点检测模型对所有所述历史视频图像进行关节点识别，识别出各所述历史视频图像中的关节点，并标识出各所述历史视频图像中的关节点；运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域；对所述最小矩形区域进行预测扩充处理，得到所述预测矩形区域，如此，通过姿态检测模型中的关机点检测模型自动识别出所有历史视频图像中的关节点，运用最小矩形边框边界法，快速地确定出最小矩形区域，并通过预测扩充处理方法，得到预测矩形区域，从而能够快速地定位出历史视频图像中人物的活动范围，以及预测出下一帧的图像中人物的活动范围，并使用了行为姿态检测模型中的关节点检测模型，能够保证关节点识别的一致性，提高了后续行为姿态检测的准确率，而且通过共享模型进行识别能够大大减少整个姿态检测模型的容量，提高了姿态检测模型的兼容性，降低了对客户端的性能要求。

S30，运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域。

可理解地，所述图像像素差算法为将两个相同尺寸的图像中相同坐标位置的像素点的像素值进行相减，求得两个相同尺寸的图像中相同坐标位置的像素点的像素差值，并取该像素差值的绝对差值的方法，将所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行彼此相对应的像素点之间的像素值相减后取绝对值，得到该像素点的绝对差值，将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并通过离散点去除处理方法进行过滤，将离散点去除处理后的所述待处理点记录为移动点，通过一个最小的矩形区域框住所有所述移动点，从而得到所述差异矩形区域。

在一实施例中，如图4所示，所述步骤S30中，即所述运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域，包括：

S301，将所述待检测图像的前一帧所述历史视频图像记录为对比图像。

S302，获取所述待检测图像中的各第一像素值和所述对比图像中的各第二像素值。

可理解地，将所述待检测图像中的像素点所对应的像素值记录为所述第一像素值，将所述对比图像中的像素点所对应的像素值记录为所述第二像素值。

S303，运用图像像素差值算法，获得与相同坐标的像素点对应的所述第一像素值和所述第二像素值的绝对差值。

可理解地，所述图像像素差算法为将两个相同尺寸的图像中相同坐标位置的像素点的像素值进行相减，求得两个相同尺寸的图像中相同坐标位置的像素点的像素差值，并取该像素差值的绝对差值的方法，将与相同坐标的像素点所对应的所述第一像素值和所述第二像素值相减，然后取绝对值，得到与该像素点对应的所述绝对差值。

S304，将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并对所有所述待处理点进行离散点去除处理，将离散点去除处理后的所述待处理点记录为移动点。

可理解地，将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，通过该处理过程能够将真正存在较大像素差的像素点标识出来，再通过所述离散点去除处理方法，将一些误判的像素点进行去除，所述离散点去除处理的过程为根据所有待处理点的分布情况，识别出非聚集的待处理点，并非聚集的待处理点进行去除，从而将剩余的待处理点确定为所述移动点。

S305，根据所有所述移动点，确定出所述差异矩形区域。

可理解地，根据所有所述移动点的坐标，确定出包含所有所述移动点的坐标的最小的矩形区域，从而得到所述差异矩形区域。

本申请实现了通过将所述待检测图像的前一帧所述历史视频图像记录为对比图像；获取所述待检测图像中的各第一像素值和所述对比图像中的各第二像素值；运用图像像素差值算法，获得与相同坐标的像素点对应的所述第一像素值和所述第二像素值的绝对差值；将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并对所有所述待处理点进行离散点去除处理，将离散点去除处理后的所述待处理点记录为移动点；根据所有所述移动点，确定出所述差异矩形区域，如此，实现了运用图像像素差值算法和离散点去除处理，能够自动识别出真正存在差异的差异矩形区域，减少干扰的像素点，提高了后续姿态检测的准确性。

S40，运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像。

可理解地，所述最大边界法为对确定的矩形区域按照预设扩充值的长度向四周进行扩充，确定出扩充后的边界的方法，通过所述预测矩形区域的四个交点的坐标，以及所述差异矩形区域的四个交点的坐标，可以确定出框出八个交点的坐标的矩形区域，运用所述最大边界法，对该矩形区域进行边界扩充处理，得到扩充区域，在所述待检测中提取出该扩充区域的图像，提取后的图像确定为所述待处理区域图像，所述待处理区域图像为所述待检测图像中需要进行姿态检测的人物的真实位置或者区域范围的图像。

在一实施例中，如图5所示，所述步骤S40中，即所述运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像，包括：

S401，获取所述预测矩形区域和所述差异矩形区域的四点坐标。

可理解地，所述四点坐标为矩形区域中两个矩形边相交的点所对应的坐标，从而可以获取所述预测矩形区域的四个所述四点坐标，以及所述差异矩形区域的四个所述四点坐标。

S402，根据所有所述四点坐标，确定出四点极值。

可理解地，对获取的八个所述四点坐标进行极值识别，即确定出八个所述四点坐标中横轴极大值、横轴极小值、纵轴极大值和纵轴极小值，将确定的所述横轴极大值、所述横轴极小值、所述纵轴极大值和所述纵轴极小值分别标记为四个所述四点极值。

S403，运用所述最大边界法，对所有所述四点极值按照预设扩充值进行边界扩充处理，得到所述待识别区域图像。

可理解地，所述最大边界法为对确定的矩形区域按照预设扩充值的长度向四周进行扩充，确定出扩充后的边界的方法，将所述四点极值中的所述横轴极小值和所述纵轴极小值分别减去预设扩充值，分别得到横轴扩充最小值和纵轴扩充最小值，以及将所述四点极值中的所述横轴极大值和所述纵轴极大值分别增加所述预设扩充值，分别得到横轴扩充最大值和纵轴扩充最大值，根据所述横轴扩充最小值、所述纵轴扩充最小值、所述横轴扩充最大值和所述纵轴扩充最大值，可以确定出一个矩形区域，对该矩形区域在所述待检测图像中所对应的图像进行提取，将提取后的图像确定为所述待识别区域图像。

其中，预设扩充值可以根据需求设定，比如预设扩充值可以通过人物移动的方向的平均距离进行设定，也可以根据历史收集的人物移动的统计距离进行设定。

本申请实现了通过获取所述预测矩形区域和所述差异矩形区域的四点坐标；根据所有所述四点坐标，确定出四点极值；运用所述最大边界法，对所有所述四点极值按照预设扩充值进行边界扩充处理，得到所述待识别区域图像，如此，实现了通过最大边界法，自动从待检测图像中识别出真正的人物位置的区域，并提出得到待识别区域图像，为后续的姿态检测提高了姿态识别准确率和可靠性。

在一实施例中，所述对所有所述四点极值按照预设扩充值进行边界扩充处理之前，包括：

根据所述预测矩形区域的四点坐标，确定出预测中心，同时根据所述差异矩形区域的四点坐标，确定出差异中心。

可理解地，根据所述预测矩形区域的四点坐标，确定出所述预测矩形区域对角线的相交点所对应的坐标点，将该坐标点确定为所述预测中心，根据所述差异矩形区域的四点坐标，确定出所述差异矩形区域对象先的相交点所对应的坐标点，将该坐标点确定为所述差异中心。

获得所述预测中心和所述差异中心的中心距离。

可理解地，根据所述预测中心和所述差异中心，计算所述预测中心和所述差异中心之间的欧式距离，将该欧式距离确定为中心距离。

根据所述中心距离和所述预设帧数，确定出所述预设扩充值。

可理解地，将所述中心距离除以所述预设帧数，得到所述视频片段人物移动的平均距离，将该平均距离确定为所述预设扩充值。

本申请实现了通过根据所述预测矩形区域的四点坐标，确定出预测中心，同时根据所述差异矩形区域的四点坐标，确定出差异中心；获得所述预测中心和所述差异中心的中心距离；根据所述中心距离和所述预设帧数，确定出所述预设扩充值，如此，实现了科学地、客观地确定出预设扩充值，模拟待检测图像中的人物的移动距离，以便后续扩充得到待识别区域图像，确保待识别区域图像中包含有人物，提高了后续姿态检测的准确性和可靠性。

S50，通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。

可理解地，所述行为姿态检测模型为训练完成的深度学习模型，所述行为姿态检测模型用于检测输入图像中的人物的行为姿态的模型，所述行为姿态检测模型的网络结构可以根据需求设定，比如姿态检测模型的网络结构可以为DensePos、OpenPose、DeepPose等等的网络结构，所述行为姿态检测模型通过提取输入的所述待识别区域图像中的所述姿态特征，即对所述待识别区域图像进行卷积，提取出具有所述姿态特征的向量，所述姿态特征为与人物行为动作的姿势相关的特征，通过对提取出的具有所述姿态特征的向量进行全连接层激活，再经softmax层的分类，得到所述待检测图像中的人物的行为结果，该行为结果体现了所述视频片段中的行为姿态的行为结果，所述行为结果包括人体姿态为摔倒、跳跃等需要关注的行为姿态，在检测到所述行为结果存在关注的行为姿态时，及时做出相应的措施，例如：触发应急救助请求、报警等。

本申请实现了通过实时获取预设帧数且包含有待检测图像和历史视频图像的视频片段；运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果，如此，实现了通过实时获取预设帧数的视频片段，运用最小矩形框边界法，框定出预测矩形区域，再运用图像像素差算法，对比出差异矩形区域，并运用最大边界法，确定出包含有人物的待识别区域图像，最后，运用行为姿态检测模型自动识别出该待识别区域图像的行为姿态，无需通过目标检测模型对图像进行目标检测，通过简单的关节点的框定和图像对比，就可以识别出含有人物的待识别区域图像，最后仅仅通过提取该待识别区域图像中的姿态特征，自动识别出该视频片段中的人物所体现的行为姿态的结果，减少了整个姿态检测模型的运行容量，并且降低了对客户端的性能要求，降低了运行门槛，提高了姿态检测模型的兼容性，保证姿态检测的性能水平，缩短了整个姿态检测的时长，加快了姿态识别的效率，达到识别不卡顿和及时响应的效果，从而提升了客户体验满意度。

在一实施例中，如图6所示，所述步骤S50中，即所述通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果，包括：

S501，通过所述行为姿态检测模型对所述待识别区域图像进行尺寸转换以及图像预处理，得到预处理图像；所述行为姿态检测模型为基于跨层参数共享的DeepPose的深度学习模型。

可理解地，所述行为姿态检测模型为基于跨层参数共享的DeepPose的深度学习模型，所述DeepPose模型为基于身体关节进行回归的DNN模型，以一种个人整体的方式估计姿态的模型，而且在所述DeepPose模型中增加了跨层参数共享的方法，从而训练学习获得行为姿态检测模型，所述尺寸转换处理为将所述待识别区域图像的尺寸转换成预设尺寸的处理过程，所述预设尺寸为适用于所述行为姿态检测模型进行姿态检测的输入图像的尺寸，所述图像预处理的过程包括噪音过滤处理和边缘增强处理，所述噪音过滤处理为对输入的图像进行去除图像中的噪音、锐化图像的像素等图像增强的处理过程，所述噪音过滤处理包括对尺寸转换后的所述待识别区域图像进行高斯滤波处理，所述高斯滤波处理为运用高斯滤波器对尺寸转换后的所述待识别区域图像中的各个像素进行过滤，作为优选，所述高斯滤波器的高斯核的大小为3×3，标准差为1.4，再对过滤后的图像进行边缘增强处理，所述边缘增强处理为对该图像中的各物件的边缘线进行增强的过程，从而得到所述预处理图像。

S502，通过所述行为姿态检测模型，运用跨层参数共享的参数，提取所述预处理图像中的所述姿态特征。

可理解地，所述跨层参数共享的方法为将每层的权重参数进行共享，将各层的权重参数设置成一致，或者各层的权重参数通过由共享参数和公差参数构成，通过所述跨层参数共享的方法大大压缩了各层的权重参数的容量，从而便于应用至移动设备，所述行为姿态检测模型在训练学习的过程中就运用所述跨层参数共享的方法，训练完成后的参数就是通过跨层参数共享的方法获得的参数，从而在对所述预处理图像进行所述姿态特征的提取过程中，就运用了跨层参数共享的参数进行提取，大大减少了行为姿态检测模型的容量，以及运行容量，令行为姿态检测模型向轻量化的方向发展，大大降低了客户端运行的性能要求。

S503，对提取的所述姿态特征进行姿态分类，得到所述行为结果。

可理解地，对提取出的具有所述姿态特征的向量进行全连接层激活，再经softmax层的分类，并且识别出各个姿态所对应的概率，该概率表明了所属姿态的几率，从而完成姿态的分类，最终，将概率最高的姿态确定为所述待检测图像中的人物的行为结果。

本申请实现了通过基于跨层参数共享的DeepPose的行为姿态检测模型对所述待识别区域图像进行尺寸转换以及图像预处理，得到预处理图像；通过所述行为姿态检测模型，运用跨层参数共享的参数，提取所述预处理图像中的所述姿态特征；对提取的所述姿态特征进行姿态分类，得到所述行为结果，如此，实现了运用尺寸转换和图像预处理的方法，以及跨层参数共享的方法，通过基于DeepPose的行为姿态检测模型自动检测出视频片段中的人物的姿态，提高了姿态检测的准确性和可靠性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种基于视频图像的行为姿态检测装置，该基于视频图像的行为姿态检测装置与上述实施例中基于视频图像的行为姿态检测方法一一对应。如图7所示，该基于视频图像的行为姿态检测装置包括获取模块11、框定模块12、对比模块13、确定模块14和输出模块15。各功能模块详细说明如下：

获取模块11，用于实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

框定模块12，用于运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

对比模块13，用于运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

确定模块14，用于运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

输出模块15，用于通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。

关于基于视频图像的行为姿态检测装置的具体限定可以参见上文中对于基于视频图像的行为姿态检测方法的限定，在此不再赘述。上述基于视频图像的行为姿态检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于视频图像的行为姿态检测方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中基于视频图像的行为姿态检测方法。

在一个实施例中，提供了一个或多个存储有计算机可读指令的可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质；该可读存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现上述实施例中基于视频图像的行为姿态检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于视频图像的行为姿态检测方法，其中，包括：

实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。
如权利要求1所述的基于视频图像的行为姿态检测方法，其中，所述运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域，包括：

通过行为姿态检测模型中的关节点检测模型对所有所述历史视频图像进行关节点识别，识别出各所述历史视频图像中的关节点，并标识出各所述历史视频图像中的关节点；

运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域；

对所述最小矩形区域进行预测扩充处理，得到所述预测矩形区域。
如权利要求1所述的基于视频图像的行为姿态检测方法，其中，所述运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域，包括：

获取各所述关节点的坐标点；

对所有所述关节点进行聚合，聚合在与所述历史视频图像尺寸相同的空间坐标图中；

对所述空间坐标图进行干扰点去除，将去除后的所述空间坐标图确定为待处理坐标图；

根据所述待处理坐标图中的所有坐标点，运用所述最小矩形边框边界法，得到所述最小矩形区域。
如权利要求1所述的基于视频图像的行为姿态检测方法，其中，所述运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域，包括：

将所述待检测图像的前一帧所述历史视频图像记录为对比图像；

获取所述待检测图像中的各第一像素值和所述对比图像中的各第二像素值；

运用图像像素差值算法，获得与相同坐标的像素点对应的所述第一像素值和所述第二像素值的绝对差值；

将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并对所有所述待处理点进行离散点去除处理，将离散点去除处理后的所述待处理点记录为移动点；

根据所有所述移动点，确定出所述差异矩形区域。
如权利要求1所述的基于视频图像的行为姿态检测方法，其中，所述运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像，包括：

获取所述预测矩形区域和所述差异矩形区域的四点坐标；

根据所有所述四点坐标，确定出四点极值；

运用所述最大边界法，对所有所述四点极值按照预设扩充值进行边界扩充处理，得到所述待识别区域图像。
如权利要求5所述的基于视频图像的行为姿态检测方法，其中，所述对所有所述四点极值按照预设扩充值进行边界扩充处理之前，包括：

根据所述预测矩形区域的四点坐标，确定出预测中心，同时根据所述差异矩形区域的四点坐标，确定出差异中心；

获得所述预测中心和所述差异中心的中心距离；

根据所述中心距离和所述预设帧数，确定出所述预设扩充值。
如权利要求1所述的基于视频图像的行为姿态检测方法，其中，所述通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果，包括：

通过所述行为姿态检测模型对所述待识别区域图像进行尺寸转换以及图像预处理，得到预处理图像；所述行为姿态检测模型为基于跨层参数共享的DeepPose的深度学习模型；

通过所述行为姿态检测模型，运用跨层参数共享的参数，提取所述预处理图像中的所述姿态特征；

对提取的所述姿态特征进行姿态分类，得到所述行为结果。
一种基于视频图像的行为姿态检测装置，其中，包括：

获取模块，用于实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

框定模块，用于运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

对比模块，用于运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

确定模块，用于运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

输出模块，用于通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。
如权利要求9所述的计算机设备，其中，所述运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域，包括：

通过行为姿态检测模型中的关节点检测模型对所有所述历史视频图像进行关节点识别，识别出各所述历史视频图像中的关节点，并标识出各所述历史视频图像中的关节点；

运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域；

对所述最小矩形区域进行预测扩充处理，得到所述预测矩形区域。
如权利要求9所述的计算机设备，其中，所述运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域，包括：

获取各所述关节点的坐标点；

对所有所述关节点进行聚合，聚合在与所述历史视频图像尺寸相同的空间坐标图中；

对所述空间坐标图进行干扰点去除，将去除后的所述空间坐标图确定为待处理坐标图；

根据所述待处理坐标图中的所有坐标点，运用所述最小矩形边框边界法，得到所述最小矩形区域。
如权利要求9所述的计算机设备，其中，所述运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域，包括：

将所述待检测图像的前一帧所述历史视频图像记录为对比图像；

获取所述待检测图像中的各第一像素值和所述对比图像中的各第二像素值；

运用图像像素差值算法，获得与相同坐标的像素点对应的所述第一像素值和所述第二像素值的绝对差值；

将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并对所有所述待处理点进行离散点去除处理，将离散点去除处理后的所述待处理点记录为移动点；

根据所有所述移动点，确定出所述差异矩形区域。
如权利要求9所述的计算机设备，其中，所述运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像，包括：

获取所述预测矩形区域和所述差异矩形区域的四点坐标；

根据所有所述四点坐标，确定出四点极值；

运用所述最大边界法，对所有所述四点极值按照预设扩充值进行边界扩充处理，得到所述待识别区域图像。
如权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

根据所述预测矩形区域的四点坐标，确定出预测中心，同时根据所述差异矩形区域的四点坐标，确定出差异中心；

获得所述预测中心和所述差异中心的中心距离；

根据所述中心距离和所述预设帧数，确定出所述预设扩充值。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

实时获取预设帧数的视频片段，所述视频片段包括待检测图像和历史视频图像；所述预设帧数大于二，所述待检测图像为所述视频片段中最后一帧的视频帧图像，所述历史视频图像为所述视频片段中所述待检测图像之前的视频帧图像；

运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域；

运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域；

运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像；

通过行为姿态检测模型对所述待识别区域图像进行姿态特征提取，根据提取的所述姿态特征输出行为结果；所述行为结果表征了所述视频片段中的行为姿态。
如权利要求15所述的可读存储介质，其中，所述运用最小矩形框边界法，对所有所述历史视频图像进行关节点框定，得到预测矩形区域，包括：

通过行为姿态检测模型中的关节点检测模型对所有所述历史视频图像进行关节点识别，识别出各所述历史视频图像中的关节点，并标识出各所述历史视频图像中的关节点；

运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域；

对所述最小矩形区域进行预测扩充处理，得到所述预测矩形区域。
如权利要求15所述的可读存储介质，其中，所述运用最小矩形边框边界法，根据标识的所有所述关节点，框定出最小矩形区域，包括：

获取各所述关节点的坐标点；

对所有所述关节点进行聚合，聚合在与所述历史视频图像尺寸相同的空间坐标图中；

对所述空间坐标图进行干扰点去除，将去除后的所述空间坐标图确定为待处理坐标图；

根据所述待处理坐标图中的所有坐标点，运用所述最小矩形边框边界法，得到所述最小矩形区域。
如权利要求15所述的可读存储介质，其中，所述运用图像像素差算法，对所述待检测图像和所述待检测图像的前一帧所述历史视频图像进行对比，得到差异矩形区域，包括：

将所述待检测图像的前一帧所述历史视频图像记录为对比图像；

获取所述待检测图像中的各第一像素值和所述对比图像中的各第二像素值；

运用图像像素差值算法，获得与相同坐标的像素点对应的所述第一像素值和所述第二像素值的绝对差值；

将与大于预设阈值的所述绝对差值对应的像素点记录为待处理点，并对所有所述待处理点进行离散点去除处理，将离散点去除处理后的所述待处理点记录为移动点；

根据所有所述移动点，确定出所述差异矩形区域。
如权利要求15所述的可读存储介质，其中，所述运用最大边界法，根据所述预测矩形区域和所述差异矩形区域，确定出待识别区域图像，包括：

获取所述预测矩形区域和所述差异矩形区域的四点坐标；

根据所有所述四点坐标，确定出四点极值；

运用所述最大边界法，对所有所述四点极值按照预设扩充值进行边界扩充处理，得到所述待识别区域图像。
如权利要求19所述的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

根据所述预测矩形区域的四点坐标，确定出预测中心，同时根据所述差异矩形区域的四点坐标，确定出差异中心；

获得所述预测中心和所述差异中心的中心距离；

根据所述中心距离和所述预设帧数，确定出所述预设扩充值。