WO2020199480A1

WO2020199480A1 - 一种人体动作的识别方法及设备

Info

Publication number: WO2020199480A1
Application number: PCT/CN2019/103164
Authority: WO
Inventors: 叶明�
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-03
Filing date: 2019-08-29
Publication date: 2020-10-08
Also published as: CN110147717B; CN110147717A

Abstract

一种人体动作的识别方法及设备，适用于图像识别技术领域，该方法包括：获取目标对象的视频文件（S101）；分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像（S102）；在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标（S103）；根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列（S104）；通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型（S105）。通过多个关键部位的变动情况确定目标对象的动作，准确率也进一步提高，从而提高了图像识别的效果以及对象行为分析的效率。

Description

一种人体动作的识别方法及设备

本申请申明享有2019年04月03日递交的申请号为201910264909.0、名称为“一种人体动作的识别方法及设备”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请属于图像识别技术领域，尤其涉及一种人体动作的识别方法及设备。

背景技术

随着图像识别技术的不断发展，计算机可以从图像文件以及视频文件中自动识别得到越来越多的信息，例如确定画面中包含的用户的人体动作类型，并基于识别得到动作信息进行对象追踪以及对象行为分析等操作，因此图像识别技术的准确度以及识别速率，则会直接影响后续步骤的处理效果。现有的人体动作的识别技术，一般是采用卷积神经网络进行识别，然而上述技术需要借助光流信息，需要多次进行时序递归操作，从而识别速度较低，而且准确率也不高，从而降低了图像识别的效果以及后续基于人体动作进行对象行为分析的效率。

技术问题

有鉴于此，本申请实施例提供了一种人体动作的识别方法及设备，以解决现有的人体动作的识别方法，识别速度较低，而且准确率也不高，从而降低了图像处理的识别效果以及后续基于人体动作进行对象行为分析的效率的问题。

技术解决方案

本申请实施例的第一方面提供了一种人体动作的识别方法，包括：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。

有益效果

本申请实施例通过获取所需要进行动作行为分析的目标用户的视频文件，并对该视频文件的各个视频图像帧进行解析，确定每个视频图像帧中包含的人体区域图像，在人体区域图像中标记出各个关键部位，并根据各个关键部位的特征坐标，确定目标对象的各个部位的变化情况，从而确定目标对象的动作类型，自动识别目标对象的人体动作。与现有的人体动作的识别技术相比，本申请实施例无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，而且通过定位多个关键部位，通过多个关键部位的变动情况确定目标对象的动作，准确率也进一步提高，从而提高了图像识别的效果以及对象行为分析的效率。

附图说明

图1是本申请第一实施例提供的一种人体动作的识别方法的实现流程图；

图2是本申请第二实施例提供的一种人体动作的识别方法S102具体实现流程图；

图3是本申请第三实施例提供的一种人体动作的识别方法S104具体实现流程图；

图4是本申请第四实施例提供的一种人体动作的识别方法S103具体实现流程图；

图5是本申请第五实施例提供的一种人体动作的识别方法S105具体实现流程图；

图6是本申请一实施例提供的一种人体动作的识别设备的结构框图；

图7是本申请另一实施例提供的一种终端设备的示意图。

本发明的实施方式

在本申请实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行人体动作的识别操作的设备。图1示出了本申请第一实施例提供的人体动作的识别方法的实现流程图，详述如下：

在S101中，获取目标对象的视频文件；所述视频文件包括多个视频图像帧。

在本实施例中，管理员可以指定包含目标对象的视频文件作为目标视频文件，在该情况下，终端设备会根据该目标视频文件的文件标识，从视频数据库中下载关于目标对象的视频文件，并对该目标对象的动作行为进行识别。优选地，该终端设备具体为一视频监控设备，会获取当前场景内视频文件；在该情况下，终端设备会将当前场景中拍摄得到的各个对象均识别为目标对象，基于不同拍摄对象的人脸图像，为各个对象配置对象编号，终端设备根据监控过程中生成的视频文件，实时判定各个监控对象的动作类型，若检测到某一目标对象的动作类型在异常动作列表内，则生成警告信息，以通知执行异常动作的监控对象停止该异常行为，实现实时对监控对象的异常动作的警告目的。

可选地，用户可以将目标对象的人脸信息发送给终端设备。终端设备基于该人脸信息在视频数据库内的各个视频文件进行人脸查找，将包含该人脸信息的视频文件作为目标视频文件。具体的查找操作可以为：终端设备识别视频数据库内的各个视频文件中每个视频图像帧中的候选人脸，提取候选人脸中关键区域的脸部特征值，将各个候选人脸的脸部特征值与目标人脸的人脸信息进行匹配，若两者匹配度大于预设的匹配阈值，则表示两者对应同一实体人，则将该视频文件识别为包含目标对象的人脸图像。

在本实施例中，视频文件包含多个视频图像帧，每个视频图像帧对应一个帧编号，基于帧编号的正序将各个视频图像帧进行排列并封装，生成视频文件。该帧编号可以根据视频图像帧在视频文件中的播放时间确定。

在S102中，分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像。

在本实施例中，终端设备对视频文件进行解析，分别对视频文件中的各个视频图像帧进行人体识别，并提取各个视频图像帧关于目标对象的人体区域图像。提取人体区域图像的具体方式可以为：终端设备通过人脸识别算法，判断该视频图像帧中是否包含人脸区域图像，若不包含，则表示该视频图像帧不包含人体区域图像；反之，若该视频图像帧包含人脸图像，则基于该人脸图像所在的坐标，对该坐标的区域进行轮廓识别，基于识别得到的轮廓信息提取人脸图像对应的人体区域图像，并根据该人脸图像与目标对象的人脸模板进行匹配，从而判断该人体区域图像是否为目标对象的人体区域图像。

可选地，若目标对象的数量为多个，即需要监控多个对象的行为，则终端设备在确定视频图像帧包含的人脸图像的人体区域图像后，则会将该人脸图像与各个目标对象的人脸模板进行匹配，从而确定该人脸图像多对应的目标对象，并在该人体区域图像上标记关联的目标对象的对象标识，继而可以在视频图像帧中快速确定每个目标对象所对应的人体区域图像，方便对多对象的动作跟踪。

可选地，在本实施例中，终端设备可以根据目标对象的对象标识，获取对象标识关联的对象人体模板。该对象人体模板可以用于表示该目标对象的人体特征，例如体型信息、性别信息和/或发型信息，终端设备可以根据该对象人体模板在视频图像帧中进行滑动框取，计算所框取的候选区域与对象人体模板之间的匹配度，若两者匹配度大于预设的匹配阈值，则识别该候选区域为目标对象的人体区域图像；反之，若两者匹配度小于或等于匹配阈值，则识别该候选区域并非目标对象的人体区域图像，继续进行滑动框取；若视频图像帧中所有候选区域均不包含人体区域图像，则对下一帧的视频图像帧重复执行上述操作，识别目标对象的人体区域图像。

在S103中，在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标。

在本实施例中，终端设备存储有一个人体关键部位列表，该人体关键部位列表包含有多个人体关键部位，优选地，人体关键部位列表包含有17个关键部位，分别为：鼻子，双眼，双耳，双肩，双腕，双手，双腰，双膝，双脚这17个关键部位。通过定位多个人体关键部位，并追踪多个关键部位的运动变化情况，能够提高人体动作识别的准确率。

在本实施例中，终端设备在人体区域图像中标记出各个关键部位，具体的标记方式为：基于人体区域图像的轮廓信息，确定目标对象当前的姿态类型，其中，姿态类型具体为：站立类型、行走类型、平躺类型、正坐类型等，继而根据不同关键部位与姿态类型的对应关系，在人体区域图像上标记出各个关键部位。可选地，该对应关系记录有关键部位与人体区域图像的轮廓中心点的距离值以及相对方向向量，终端设备可以基于该距离值以及相对方向向量定位出各个关键部位，并执行标记操作。

在本实施例中，终端设备基于视频图像帧建立一个图像坐标轴，并根据各个关键部位在视频图像帧上的位置，从而确定各个关键部位的特征坐标。可选地，终端设备可以将视频图像帧的左下角的端点作为坐标原点，也可以将图像中心点作为坐标原点，具体根据管理员或设备的默认设置决定。

在S104中，根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列。

在本实施例中，终端设备需要确定各个关键部位的运动轨迹，因此会基于关键部位的部位标识，从各个视频图像帧中提取关于该部位标识对应的特征坐标，并将所有关于该特征部位的特征坐标进行封装，生成关于该特征部位的关键特征序列。其中，该关键特征序列中各个元素的在序列中的次序与所属视频图像帧的帧序号一致，即该关键特征序列中各个元素是具有时序关系的，从而能够通过关键特征序列确定关键部位基于时间的推移而变化的情况。

可选地，若部分视频图像帧中的关键部位因被遮挡而不存在对应的特征坐标，终端设备可以根据视频图像帧的帧序号，在预设的坐标轴上建立关于关键部位的特征曲线，基于帧序号依次连接各个特征坐标，而缺失的视频图像帧对应的特征坐标则可以通过平滑算法进行填补，确定缺失的视频图像帧对应的特征坐标。

在S105中，通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。

在本实施例中，终端设备根据多个关键部位的关键特征序列，则可以确定不同关键部位的运动轨迹，继而确定该目标对象的动作类型。具体地，终端设备可以根据关键特征序列确定关键部位的运动方向，继而基于多个关键部位的运动方向，与各个候选动作类型的关键部位的运动方向一一进行匹配，基于匹配的关键部位的个数，例如选取匹配的关键部位的个数最大的候选动作类型作为目标对象的动作类型。

可选地，终端设备可以设置有最大的帧数，继而终端设备基于该最大的帧数对关键部位的关键特征序列进行划分，划分为多个特征子序列，分别确定不同特征子序列的动作类型，由于拍摄的视频文件的时长较长的情况下，用户可能在该拍摄过程中做出多个动作，基于此，终端设备为了对不同的动作进行划分以及识别，会设置有最大的帧数，实现单用户的多动作识别的目的。

以上可以看出，本申请实施例提供的一种人体动作的识别方法通过获取所需要进行动作行为分析的目标用户的视频文件，并对该视频文件的各个视频图像帧进行解析，确定每个视频图像帧中包含的人体区域图像，在人体区域图像中标记出各个关键部位，并根据各个关键部位的特征坐标，确定目标对象的各个部位的变化情况，从而确定目标对象的动作类型，自动识别目标对象的人体动作。与现有的人体动作的识别技术相比，本申请实施例无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，而且通过定位多个关键部位，通过多个关键部位的变动情况确定目标对象的动作，准确率也进一步提高，从而提高了图像识别的效果以及对象行为分析的效率。

图2示出了本申请第二实施例提供的一种人体动作的识别方法S102的具体实现流程图。参见图2，相对于图1所述实施例，本实施例提供的一种人体动作的识别方法S102包括：S1021～S1024，具体详述如下：

进一步地，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，包括：

在S1021中，通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积。

在本实施例中，终端设备通过轮廓识别算法，确定该视频图像帧中的轮廓曲线。具体识别轮廓线的方式可以为：终端设备计算相邻两个坐标点之间的像素值的差值，若该差值大于预设的轮廓阈值，则识别该坐标点为轮廓线所在的坐标点，连接所有识别得到的轮廓线上的坐标点，构成一条连续的轮廓曲线。每一条封闭的轮廓曲线对应一个拍摄对象。

在本实施例中，终端设备在视频图像帧上标记出所有轮廓曲线，并将轮廓曲线和/或视频图像帧的边界之间所围成的区域进行积分，从而能够得到关于各个轮廓曲线对应的区域面积，由于一条轮廓曲线对应一个拍摄对象，基于区域面积，可以确定被拍摄对象的缩放比例，从而能够选取合适的窗口在提取人体区域图像，提高人体区域图像提取的准确性。

在S1022中，根据各个所述区域面积，生成所述视频图像帧的人体识别窗口。

在本实施例中，由于不同的缩放比例，人体识别窗口的尺寸也需要随之调整，基于此，终端设备可以根据各个拍摄对象的区域面积，计算出视频图像帧对应的缩放比例，并查询该缩放比例关联的人体识别窗口尺寸，继而生成与视频图像帧匹配的人体识别窗口。

可选地，在本实施例中，终端设备采用的是yolov3的人体识别算法，而yolov3需要配置3个人体识别窗口。基于此，终端设备根据各个轮廓曲线所围成的区域面积，生成区域面积的分布情况，选取分布密度最大的三个区域面积作为特征面积，并基于三个特征面积生成与之对应的人体识别窗口，即三个feature map。

在S1023中，基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像。

在本实施例中，终端设备在生成与视频图像帧的缩放比例对应的人体识别窗口后，可以通过人体识别窗口在视频图像帧上进行滑动框取，将每一次框取的区域图像作为候选区域图像。若存在多个尺寸的人体识别窗口，则创建与人体识别窗口数量对应的并发线程，并复制该多个视频图像帧，通过多条并发线程分别控制人体识别窗口在不同的视频图像帧上进行滑动框取，即不同尺寸的人体识别窗口的滑动框取操作是相互独立、互不影响的，生成不同尺寸的候选区域图像。

在S1024中，分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。

在本实施例中，终端设备计算该候选区域图像与标准人体模板之间的重合率，若两者之间的重合率越高，则表示该区域图像所对应的拍摄对象与目标对像的相似度越高，因此可以识别该候选区域为人体区域图像；反之，若两者之间的重合率越低，则表示该区域图像的形态与目标对象的相似度较低，识别为非人体区域图像。由于视频图像帧中可以包含多个不同用户，因此终端设备会将所有重合率超过预设的重合率阈值的候选区域均识别为人体区域图像，在该情况下，终端设备可以定位各个人体区域图像的人脸图像，从而将人体图像与目标对象的标准人脸进行匹配，从而选取与标准人脸相匹配的人体区域图像作为目标对象的人体区域图像。

在本申请实施例中，通过获取视频图像帧中的轮廓曲线，从而基于各个轮廓曲线的区域面积，确定视频图像帧的缩放比例，并生成与之对应的人体识别窗口进行人体区域图像的识别操作，从而能够提高识别的准确率。

图3示出了本申请第三实施例提供的一种人体动作的识别方法S104的具体实现流程图。参见图3，相对于图1所述的实施例，本实施例提供的一种人体动作的识别方法S104包括：S1041～S1045，具体详述如下：

进一步地，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

在S1041中，获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值。

在本实施例中，终端设备需要进行人体关键部位追踪，若检测到两个相邻图像帧中相同关键部位的位移过大，则标识两个关键部位属于不同的人体，从而能够快速进行重追踪，并且提高动作识别的准确率。基于此，终端设备会获取帧数相邻的两个视频图像帧中相同关键部位的第一特征坐标以及第二特征坐标，将两个特征坐标导入到欧氏距离计算公式，计算出两个坐标点之间的距离值，即图像距离值。该图像距离值具体指在视频图像帧上两个坐标点之间的距离，并非该关键部位在实际场景下的移动距离，因此需要对该图像距离值进行数值转换。

在S1042中，计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距。

在本实施例中，终端设备获取人体区域图像在视频图像帧中所占据的面积，即图像面积。终端设备设置有标准的人体面积以及该面积所对应的标准拍摄焦距。终端设备可以计算当前的图像面积与标准的人体面积之间的比例，确定缩放比例，基于所述缩放比例以及标准拍摄焦距，计算该目标对象与拍摄模型之间的实际拍摄焦距，即上述的拍摄焦距。

在S1043中，将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率。

在本实施例中，终端设备该视频图像帧对应的拍摄焦距以及两个关键部位的图像距离值以及该视频文件的拍摄帧率导入到距离转换模型内，从而能够计算关键部位在场景中的实际移动距离。

在S1044中，将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标。

在本实施例中，终端设备若检测到实际移动距离大于或等于预设的距离阈值，则表示该关键部位移动距离超过了正常的移动距离，此时会识别两个视频图像帧中该关键部位属于不同的目标对象，此时会判定上述两个特征坐标为非关联的特征坐标；反之，若该实际移动距离值小于预设的距离阈值，则表示两个视频图像帧中该关键部位属于同一目标对象，此时会判定上述两个特征坐标为关联的特征坐标，实现对目标对象的追踪的目的，避免在追踪用户A的运动轨迹的情况下，切换到追踪用户B的运动轨迹，提高了动作识别的准确率。

在S1045，根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。

在本实施例中，终端设备将所有非关联的特征坐标进行过滤，将互为关联的特征坐标进行封装，生成关于关键部位的关键特征序列。

在本申请实施例中，通过计算不同帧数下关键部位的实际移动距离，从而能够对异常的特征坐标点进行过滤，提高了动作识别的准确性。

图4示出了本申请第四实施例提供的一种人体动作的识别方法S103的具体实现流程图。参见图4，相对于图1-图3所述的实施例，本实施例提供的一种人体动作的识别方法中S103包括：S1031～S1032，具体详述如下：

进一步地，所述在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标，包括：

在S1031中，对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标。

在本实施例中，终端设备对人体区域图像进行人脸识别，获取该人体区域图像中包含的人脸区域图像，并将人体区域图像的中心坐标作为人脸部位坐标。具体地，识别人脸的方式可以为：终端设备对人体区域图像进行灰度处理，提取人体区域图像中的各个轮廓线，根据轮廓线的形状，选取与人脸曲线相匹配的轮廓线，并将匹配的轮廓线所围成的区域识别为人脸区域图像，并获取人脸区域图像的人脸部位坐标。

在S1032中，基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。

在本实施例中，终端设备以人脸部位坐标为基准坐标，以及预设的人脸部位与各个关键部位的位置关系，能够定位出各个关键部位所在的位置，并子啊人体区域图像上进行标记，该位置关系包含为一个距离向量，即包含以人脸部位坐标为起点、以关键部位为终点所构成的向量。

在本申请实施例中，终端设备通过识别人脸部位坐标，从而能够定位出各个关键部位，提高了关键部位识别的准确性。

图5示出了本申请第五实施例提供的一种人体动作的识别方法S105的具体实现流程图。参见图5，相对于图1至图3所述实施例，本实施例提供的一种人体动作的识别方法S105包括：S1051～S1052，具体详述如下：

进一步地，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型，包括：

在S1051中，在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线。

在本实施例中，终端设备根据各个关键特征序列中各个特征坐标的坐标值以及对应的视频图像帧的帧数，在预设的坐标轴上标记出各个各个特征坐标，并连接各个特征坐标，生成关于关键部位的部位变化曲线。该坐标轴可以以视频图像帧为基础建立的坐标轴，横轴标对应视频图像帧的长，纵坐标对应视频图像帧的宽。

在S1052中，将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。

在本实施例中，终端设备根据所有关键部位的部位变化曲线与预设动作库中各个候选动作的标准动作曲线进行匹配，计算两个变化曲线的重合率，选取重合率最高的一个候选动作为目标对象的动作类型。

在本申请实施例中，通过绘制关键部位的部位变化曲线从而能够直观地确定目标对象的动作类型，提高了动作类型的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图6示出了本申请一实施例提供的一种人体动作的识别设备的结构框图，该人体动作的识别设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图6，所述人体动作的识别设备包括：

视频文件获取单元61，用于获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

人体区域图像提取单元62，用于分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

关键部位识别单元63，用于在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

关键特征序列生成单元64，用于根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

动作类型识别单元65，用于通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。

可选地，所述人体区域图像提取单元62包括：

轮廓曲线获取单元，用于通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

人体识别窗口生成单元，用于根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

候选区域图像提取单元，用于基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

人体区域图像匹配单元，用于分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。

可选地，所述关键特征序列生成单元64包括：

图像距离值计算单元，用于获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

拍摄焦距确定单元，用于计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

实际移动距离计算单元，用于将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

关联坐标识别单元，用于将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

关联坐标封装单元，用于根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。

可选地，所述关键部位识别单元63包括：

人脸识别单元，用于对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标；

关键部位标记单元，用于基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。

可选地，所述动作类型识别单元65包括：

部位变化曲线生成单元，用于在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

候选动作选取单元，用于将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。

因此，本申请实施例提供的人体动作的识别设备同样可以无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，而且通过定位多个关键部位，通过多个关键部位的变动情况确定目标对象的动作，准确率也进一步提高，从而提高了图像识别的效果以及对象行为分析的效率。

图7是本申请另一实施例提供的一种终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72，例如人体动作的识别程序。所述处理器70执行所述计算机可读指令72时实现上述各个人体动作的识别方法实施例中的步骤，例如图1所示的S101至S105。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各单元的功能，例如图6所示模块61至65功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令指令段，该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。例如，所述计算机可读指令72可以被分割视频文件获取单元、人体区域图像提取单元、关键部位识别单元、关键特征序列生成单元以及动作类型识别单元，各单元具体功能如上所述。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种人体动作的识别方法，其特征在于，包括：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。
根据权利要求1所述的识别方法，其特征在于，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求1所述的识别方法，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求1-3任一项所述的识别方法，其特征在于，所述在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标，包括：

对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标；

基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。
根据权利要求1-3任一项所述的识别方法，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。
一种人体动作的识别设备，其特征在于，包括：

视频文件获取单元，用于获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

人体区域图像提取单元，用于分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

关键部位识别单元，用于在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

关键特征序列生成单元，用于根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

动作类型识别单元，用于通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。
根据权利要求6所述的识别设备，其特征在于，所述人体区域图像提取单元包括：

轮廓曲线获取单元，用于通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

人体识别窗口生成单元，用于根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

候选区域图像提取单元，用于基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

人体区域图像匹配单元，用于分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求6所述的识别设备，其特征在于，所述关键特征序列生成单元包括：

图像距离值计算单元，用于获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

拍摄焦距确定单元，用于计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

实际移动距离计算单元，用于将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

关联坐标识别单元，用于将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

关联坐标封装单元，用于根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求6-8任一项所述的识别设备，其特征在于，所述关键部位识别单元包括：

人脸识别单元，用于对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标；

关键部位标记单元，用于基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。
根据权利要求6-8任一项所述的识别设备，其特征在于，所述动作类型识别单元包括：

部位变化曲线生成单元，用于在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

候选动作选取单元，用于将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。
一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。
根据权利要求11所述的终端设备，其特征在于，所述所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求11所述的终端设备，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求11-13任一项所述的终端设备，其特征在于，所述在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标，包括：

对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标；

基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。
根据权利要求11-13任一项所述的终端设备，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求16-18任一项所述的计算机非易失性可读存储介质，其特征在于，所述在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标，包括：

对所述人体区域图像进行人脸识别，确定所述人体区域图像的人脸部位坐标；

基于所述人脸部位与各个所述关键部位的位置关系，在所述人体区域图像中标记各个所述关键部位。
如权利要求16-18任一项所述的计算机非易失性可读存储介质，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的动作类型，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。