WO2020199479A1

WO2020199479A1 - 一种人体动作的识别方法及设备

Info

Publication number: WO2020199479A1
Application number: PCT/CN2019/103161
Authority: WO
Inventors: 叶明�
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-03
Filing date: 2019-08-29
Publication date: 2020-10-08
Also published as: CN110135246A; CN110135246B

Abstract

一种人体动作的识别方法及设备，包括：获取目标对象的视频文件（S101）；分别解析各个视频图像帧，提取视频图像帧中关于目标对象的人体区域图像，以及确定视频图像帧包含的可交互对象（S102）；在人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个关键部位的特征坐标（S103）；根据关键部位在各个视频图像帧中对应的特征坐标，生成关键特征序列（S104）；通过关键部位的关键特征序列，确定目标对象的候选动作（S105）；分别计算各个候选动作与可交互对象之间的匹配度，并根据匹配度确定目标对象的动作类型（S106）。通过借助交互动作确定目标用户是否存在交互行为，从而能够对多个近似姿态进行区分，进一步提高了动作识别的准确率。

Description

一种人体动作的识别方法及设备

本申请申明享有2019年04月03日递交的申请号为201910264883.X、名称为“一种人体动作的识别方法及设备”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请属于图像识别技术领域，尤其涉及一种人体动作的识别方法及设备。

背景技术

随着图像识别技术的不断发展，计算机可以从图像文件以及视频文件中自动识别得到越来越多的信息，例如确定画面中包含的用户的人体动作类型，并基于识别得到动作信息进行对象追踪以及对象行为分析等操作，因此图像识别技术的准确度以及识别速率，则会直接影响后续步骤的处理效果。现有的人体动作的识别技术，一般是采用卷积神经网络进行识别，然而上述技术需要借助光流信息，需要多次进行时序递归操作，从而识别速度较低，而且准确率也不高，特别对于部分近似姿态行为，例如对于坐下以及蹲下两个动作，由于人体姿态相似，通过卷积神经网络无法准确进行区分，导致动作识别的准确率进一步降低。

技术问题

有鉴于此，本申请实施例提供了一种人体动作的识别方法及设备，以解决现有的人体动作的识别方法，识别速度较低，而且准确率也不高，特别对于部分近似姿态行为，例如对于坐下以及蹲下两个动作，由于人体姿态相似，通过卷积神经网络无法准确进行区分，导致动作识别的准确率进一步降低的问题。

技术解决方案

本申请实施例的第一方面提供了一种人体动作的识别方法，包括：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。

有益效果

本申请实施例通过获取所需要进行动作行为分析的目标用户的视频文件，并对该视频文件的各个视频图像帧进行解析，确定每个视频图像帧中包含的人体区域图像，并识别出视频图像帧中可与目标用户之间可以存在交互行为的可交互对象，在人体区域图像中标记出各个关键部位，并根据各个关键部位的特征坐标，确定目标对象的各个部位的变化情况，从而确定目标对象的候选动作，根据候选动作与可交互对象之间的匹配度，进一步对多个姿态近似的候选动作进行筛选，确定目标对象的动作类型，自动识别目标对象的人体动作。与现有的人体动作的识别技术相比，本申请实施例无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，另一方面终端设备会确定视频图像帧中的交互对象，借助交互动作确定目标用户是否存在交互行为，从而能够对多个近似姿态进行区分，进一步提高了动作识别的准确率。

附图说明

图1是本申请第一实施例提供的一种人体动作的识别方法的实现流程图；

图2是本申请第二实施例提供的一种人体动作的识别方法S106具体实现流程图；

图3是本申请第三实施例提供的一种人体动作的识别方法S104具体实现流程图；

图4是本申请第四实施例提供的一种人体动作的识别方法S102具体实现流程图；

图5是本申请第五实施例提供的一种人体动作的识别方法S105具体实现流程图；

图6是本申请一实施例提供的一种人体动作的识别设备的结构框图；

图7是本申请另一实施例提供的一种终端设备的示意图。

本发明的实施方式

在本申请实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行人体动作的识别操作的设备。图1示出了本申请第一实施例提供的人体动作的识别方法的实现流程图，详述如下：

在S101中，获取目标对象的视频文件；所述视频文件包括多个视频图像帧。

在本实施例中，管理员可以指定包含目标对象的视频文件作为目标视频文件，在该情况下，终端设备会根据该目标视频文件的文件标识，从视频数据库中下载关于目标对象的视频文件，并对该目标对象的动作行为进行识别。优选地，该终端设备具体为一视频监控设备，会获取当前场景内视频文件；在该情况下，终端设备会将当前场景中拍摄得到的各个对象均识别为目标对象，基于不同拍摄对象的人脸图像，为各个对象配置对象编号，终端设备根据监控过程中生成的视频文件，实时判定各个监控对象的动作类型，若检测到某一目标对象的动作类型在异常动作列表内，则生成警告信息，以通知执行异常动作的监控对象停止该异常行为，实现实时对监控对象的异常动作的警告目的。

可选地，用户可以将目标对象的人脸信息发送给终端设备。终端设备基于该人脸信息在视频数据库内的各个视频文件进行人脸查找，将包含该人脸信息的视频文件作为目标视频文件。具体的查找操作可以为：终端设备识别视频数据库内的各个视频文件中每个视频图像帧中的候选人脸，提取候选人脸中关键区域的脸部特征值，将各个候选人脸的脸部特征值与目标人脸的人脸信息进行匹配，若两者匹配度大于预设的匹配阈值，则表示两者对应同一实体人，则将该视频文件识别为包含目标对象的人脸图像。

在本实施例中，视频文件包含多个视频图像帧，每个视频图像帧对应一个帧编号，基于帧编号的正序将各个视频图像帧进行排列并封装，生成视频文件。该帧编号可以根据视频图像帧在视频文件中的播放时间确定。

在S102中，分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象。

在本实施例中，终端设备对视频文件进行解析，分别对视频文件中的各个视频图像帧进行人体识别，并提取各个视频图像帧关于目标对象的人体区域图像。提取人体区域图像的具体方式可以为：终端设备通过人脸识别算法，判断该视频图像帧中是否包含人脸区域图像，若不包含，则表示该视频图像帧不包含人体区域图像；反之，若该视频图像帧包含人脸图像，则基于该人脸图像所在的坐标，对该坐标的区域进行轮廓识别，基于识别得到的轮廓信息提取人脸图像对应的人体区域图像，并根据该人脸图像与目标对象的人脸模板进行匹配，从而判断该人体区域图像是否为目标对象的人体区域图像。

可选地，若目标对象的数量为多个，即需要监控多个对象的行为，则终端设备在确定视频图像帧包含的人脸图像的人体区域图像后，则会将该人脸图像与各个目标对象的人脸模板进行匹配，从而确定该人脸图像多对应的目标对象，并在该人体区域图像上标记关联的目标对象的对象标识，继而可以在视频图像帧中快速确定每个目标对象所对应的人体区域图像，方便对多对象的动作跟踪。

可选地，在本实施例中，终端设备可以根据目标对象的对象标识，获取对象标识关联的对象人体模板。该对象人体模板可以用于表示该目标对象的人体特征，例如体型信息、性别信息和/或发型信息，终端设备可以根据该对象人体模板在视频图像帧中进行滑动框取，计算所框取的候选区域与对象人体模板之间的匹配度，若两者匹配度大于预设的匹配阈值，则识别该候选区域为目标对象的人体区域图像；反之，若两者匹配度小于或等于匹配阈值，则识别该候选区域并非目标对象的人体区域图像，继续进行滑动框取；若视频图像帧中所有候选区域均不包含人体区域图像，则对下一帧的视频图像帧重复执行上述操作，识别目标对象的人体区域图像。

在本实施例中，终端设备除了获取目标对象的人体区域图像外，还可以从图像中提取可与用户进行交互的可交互对象。具体识别的方式可以为：通过轮廓识别算法，确定所述视频图像帧中包含的轮廓信息，基于所述轮廓信息确定各个拍摄主体的主体类型，并根据所述主体类型确定可交互对象。不同类型的可交互主体的轮廓特性会存在差异，因此通过识别轮库信息可以确定拍摄主体的主体类型，并根据主体类型选取能够与目标对象进行交互的拍摄主体作为可交互对象。例如，椅子、桌子、刀等拍摄对象，则可能与目标对象产生交互行为的，而云、太阳等拍摄主体，则与目标对象产生交互的概率较低。因此，通过识别主体类型，可以过滤大部分无效的可交互对象。

可选地，终端设备在识别得到拍摄主体后，会计算各个拍摄主体与人体区域图像之间的距离值，选取所述距离值小于预设阈值的拍摄主体作为可交互对象。优选地，终端设备可以选取轮廓边界与所述人体区域图像相邻的拍摄主体作为可交互主体，由于目标对象与交互主体进行交互，即两者是互相接触的，因此可交互对象的轮廓边界与目标用户是相邻的。

在S103中，在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标。

在本实施例中，终端设备存储有一个人体关键部位列表，该人体关键部位列表包含有多个人体关键部位，优选地，人体关键部位列表包含有17个关键部位，分别为：鼻子，双眼，双耳，双肩，双腕，双手，双腰，双膝，双脚这17个关键部位。通过定位多个人体关键部位，并追踪多个关键部位的运动变化情况，能够提高人体动作识别的准确率。

在本实施例中，终端设备在人体区域图像中标记出各个关键部位，具体的标记方式为：基于人体区域图像的轮廓信息，确定目标对象当前的姿态类型，其中，姿态类型具体为：站立类型、行走类型、平躺类型、正坐类型等，继而根据不同关键部位与姿态类型的对应关系，在人体区域图像上标记出各个关键部位。可选地，该对应关系记录有关键部位与人体区域图像的轮廓中心点的距离值以及相对方向向量，终端设备可以基于该距离值以及相对方向向量定位出各个关键部位，并执行标记操作。

在本实施例中，终端设备基于视频图像帧建立一个图像坐标轴，并根据各个关键部位在视频图像帧上的位置，从而确定各个关键部位的特征坐标。可选地，终端设备可以将视频图像帧的左下角的端点作为坐标原点，也可以将图像中心点作为坐标原点，具体根据管理员或设备的默认设置决定。

在S104中，根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列。

在本实施例中，终端设备需要确定各个关键部位的运动轨迹，因此会基于关键部位的部位标识，从各个视频图像帧中提取关于该部位标识对应的特征坐标，并将所有关于该特征部位的特征坐标进行封装，生成关于该特征部位的关键特征序列。其中，该关键特征序列中各个元素的在序列中的次序与所属视频图像帧的帧序号一致，即该关键特征序列中各个元素是具有时序关系的，从而能够通过关键特征序列确定关键部位基于时间的推移而变化的情况。

可选地，若部分视频图像帧中的关键部位因被遮挡而不存在对应的特征坐标，终端设备可以根据视频图像帧的帧序号，在预设的坐标轴上建立关于关键部位的特征曲线，基于帧序号依次连接各个特征坐标，而缺失的视频图像帧对应的特征坐标则可以通过平滑算法进行填补，确定缺失的视频图像帧对应的特征坐标。

在S105中，通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作。

在本实施例中，终端设备根据多个关键部位的关键特征序列，则可以确定不同关键部位的运动轨迹，继而符合上述运动轨迹的动作类型作为候选类型。具体地，终端设备可以根据关键特征序列确定关键部位的运动方向，继而基于多个关键部位的运动方向，与各个动作类型库中各个动作模板的关键部位的运动方向一一进行匹配，基于匹配的关键部位的个数，例如选取匹配的关键部位的个数大于预设匹配阈值的动作模板作为目标对象的候选动作。

可选地，终端设备可以设置有最大的帧数，继而终端设备基于该最大的帧数对关键部位的关键特征序列进行划分，划分为多个特征子序列，分别确定不同特征子序列的动作类型，由于拍摄的视频文件的时长较长的情况下，用户可能在该拍摄过程中做出多个动作，基于此，终端设备为了对不同的动作进行划分以及识别，会设置有最大的帧数，实现单用户的多动作识别的目的。

在S106中，分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。

在本实施例中，终端设备可以获取可交互对象的交互行为列表，并检测所述候选动作与交互行为列表中各个交互行为的相似度，选取所述相似度最大值作为候选动作与可交互对象之间的匹配度，继而通过各个候选动作的匹配度，确定目标对象的动作类型。需要说明的是，识别得到的动作类型可以由多个，例如用户可以在握着水果到的同时，使用水果刀切水果，即包含了“握”以及“切”两个交互动作，因此终端设备最后识别得到的动作类型的个数可以为多个。基于此，终端设备可以选取匹配度大于预设的匹配阈值的候选动作作为目标对象当前执行的动作类型。

又例如，终端设备可以在对视频监控得到的视频文件进行动作类型的判断，具体地，该视频文件可以为关于安检区域的视频文件，对安检区域的人员进行交互行为的判定，检测是否有用户存在异常行为。在视频监控文件中定位出待识别的目标对象，并判断该目标对象与各个可交互物体之间的动作类型，可交互物体可以为行李箱或待认证证件，判断用户是否按规定提交行李箱进行安检操作，抑或是从行李箱中拿取危险物品来躲避安检操作，从而能够提高安检过程的准确性。

可选地，终端设备可以识别各个可交互对象与人体区域图像之间的距离值，并选取所述距离值最下的一个可交互对象作为目标交互对象，并计算所述目标交互对象与各个候选动作之间的匹配度，从而确定目标对象的动作类型。

以上可以看出，本申请实施例提供的一种人体动作的识别方法通过获取所需要进行动作行为分析的目标用户的视频文件，并对该视频文件的各个视频图像帧进行解析，确定每个视频图像帧中包含的人体区域图像，在人体区域图像中标记出各个关键部位，并根据各个关键部位的特征坐标，确定目标对象的各个部位的变化情况，从而确定目标对象的动作类型，自动识别目标对象的人体动作。与现有的人体动作的识别技术相比，本申请实施例无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，而且通过定位多个关键部位，通过多个关键部位的变动情况确定目标对象的动作，准确率也进一步提高，从而提高了图像识别的效果以及对象行为分析的效率。

图2示出了本申请第二实施例提供的一种人体动作的识别方法S106的具体实现流程图。参见图2，相对于图1所述实施例，本实施例提供的一种人体动作的识别方法S106包括：S1061～S1066，具体详述如下：

进一步地，所述分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型，包括：

在S1061中，获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度。

在本实施例中，终端设备可以在视频图像帧上标记出可交互对象所在的区域图像，并将所述区域图像的中心坐标作为所述可交互对象的特征坐标，计算所述特征坐标与所述人体区域的中心坐标之间的欧氏距离，将所述欧氏距离作为可交互对象与人体区域图像的距离值。若该距离值越小，则两者之间的交互概率越大；反之，若该距离值越大，则两者之间的交互概率越小。因此，终端设备可以根据该距离值计算可交互对象与目标人体之间的交互置信度。

在1062中，分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度。

在本实施例中，终端设备需要确定识别得到的候选动作的正确概率，因此会获取该候选动作的标准特征序列，并计算在多个视频图像帧中的关键特征序列与标准特征序列之间的相似度。其中，相似度的计算方式可以为：终端设备在预设的坐标轴上生成关于标准特征序列的标准曲线，以及计算所述关键特征序列的行为曲线，计算上述两个曲线之间的围成封闭区域的面积，基于所述面积确定所述关键特征序列与标准特征序列之间的相似度。若该面积越大，则表示两个动作之间的差距越大，则相似度越小；反之，若该面积越小，则表示两个动作之间的差距越小，则相似度越大。

在S1063中，基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率。

在本实施例中，终端设备根据可交互对象的轮廓信息，确定可交互对象的对象类型，即确定其属于哪一类型的物品，并判断该对象类型与该候选动作的交互概率。例如，“篮球”这一对象类型，可作为“投”、“踢”等候选动作的动作受体，即交互概率较大；而对于“坐”、“站”等候选动作，则不会与“篮球”这一对象类型进行交互，则交互概率较小。终端设备可以根据动作记录库，获取各个候选动作的动作受体对象，计算该对象类型所对应的动作记录的个数，并基于该个数确定该对象类型与候选动作之间的交互概率。

在S1064中，从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度。

在本实施例中，终端设备还需要确定可交互对象识别的准确性，因此会获取可交互对象的对象区域图像，与该对象类型匹配的标准图像进行相似度比对，根据两个图像之间的相似度，确定该可交互对象的对象置信度。

在S1065中，将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，

为所述候选动作a的所述匹配度；

为所述交互置信度；s _h为所述动作置信度；s _o为所述对象置信度；

为所述交互概率；

为预设的所述候选动作a的触发概率。

在本实施例中，终端设备将上述四个计算得到的参数导入到匹配度计算模型，确定该候选动作与可交互对象之间的匹配度，从而能够借助交互对象对动作类型进行进一笔的筛选识别。特别地，该候选动作的触发概率，可以根据上一图像帧对应的动作类型以及下一图像帧的动作类型计算当前的候选动作的触发概率，由于动作具有一定的连续性，因此可以通过已触发的动作以及后续的动作来确定当前动作的触发概率。

在S1066中，选取所述匹配度大于匹配阈值的所述候选动作，作为所述目标对象的动作类型。

在本实施例中，由于与可交互对象的交互动作可以存在多个，因此终端设备可以选取匹配度大于预设的匹配阈值的候选动作作为目标对象的动作类型。

在本申请实施例中，通过确定候选动作与可交互对象在多个维度的置信度，从而计算出各个候选动作的匹配度，能够提高匹配度计算的准确性，从而提高人体动作识别的准确率。

图3示出了本申请第三实施例提供的一种人体动作的识别方法S104的具体实现流程图。参见图3，相对于图1所述的实施例，本实施例提供的一种人体动作的识别方法S104包括：S1041～S1045，具体详述如下：

进一步地，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

在S1041中，获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值。

在本实施例中，终端设备需要进行人体关键部位追踪，若检测到两个相邻图像帧中相同关键部位的位移过大，则标识两个关键部位属于不同的人体，从而能够快速进行重追踪，并且提高动作识别的准确率。基于此，终端设备会获取帧数相邻的两个视频图像帧中相同关键部位的第一特征坐标以及第二特征坐标，将两个特征坐标导入到欧氏距离计算公式，计算出两个坐标点之间的距离值，即图像距离值。该图像距离值具体指在视频图像帧上两个坐标点之间的距离，并非该关键部位在实际场景下的移动距离，因此需要对该图像距离值进行数值转换。

在S1042中，计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距。

在本实施例中，终端设备获取人体区域图像在视频图像帧中所占据的面积，即图像面积。终端设备设置有标准的人体面积以及该面积所对应的标准拍摄焦距。终端设备可以计算当前的图像面积与标准的人体面积之间的比例，确定缩放比例，基于所述缩放比例以及标准拍摄焦距，计算该目标对象与拍摄模型之间的实际拍摄焦距，即上述的拍摄焦距。

在S1043中，将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率。

在本实施例中，终端设备该视频图像帧对应的拍摄焦距以及两个关键部位的图像距离值以及该视频文件的拍摄帧率导入到距离转换模型内，从而能够计算关键部位在场景中的实际移动距离。

在S1044中，将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标。

在本实施例中，终端设备若检测到实际移动距离大于或等于预设的距离阈值，则表示该关键部位移动距离超过了正常的移动距离，此时会识别两个视频图像帧中该关键部位属于不同的目标对象，此时会判定上述两个特征坐标为非关联的特征坐标；反之，若该实际移动距离值小于预设的距离阈值，则表示两个视频图像帧中该关键部位属于同一目标对象，此时会判定上述两个特征坐标为关联的特征坐标，实现对目标对象的追踪的目的，避免在追踪用户A的运动轨迹的情况下，切换到追踪用户B的运动轨迹，提高了动作识别的准确率。

在S1045，根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。

在本实施例中，终端设备将所有非关联的特征坐标进行过滤，将互为关联的特征坐标进行封装，生成关于关键部位的关键特征序列。

在本申请实施例中，通过计算不同帧数下关键部位的实际移动距离，从而能够对异常的特征坐标点进行过滤，提高了动作识别的准确性。

图4示出了本申请第四实施例提供的一种人体动作的识别方法S102的具体实现流程图。参见图4，相对于图1至3所述实施例，本实施例提供的一种人体动作的识别方法S102包括：S1021～S1024，具体详述如下：

进一步地，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，包括：

在S1021中，通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积。

在本实施例中，终端设备通过轮廓识别算法，确定该视频图像帧中的轮廓曲线。具体识别轮廓线的方式可以为：终端设备计算相邻两个坐标点之间的像素值的差值，若该差值大于预设的轮廓阈值，则识别该坐标点为轮廓线所在的坐标点，连接所有识别得到的轮廓线上的坐标点，构成一条连续的轮廓曲线。每一条封闭的轮廓曲线对应一个拍摄对象。

在本实施例中，终端设备在视频图像帧上标记出所有轮廓曲线，并将轮廓曲线和/或视频图像帧的边界之间所围成的区域进行积分，从而能够得到关于各个轮廓曲线对应的区域面积，由于一条轮廓曲线对应一个拍摄对象，基于区域面积，可以确定被拍摄对象的缩放比例，从而能够选取合适的窗口在提取人体区域图像，提高人体区域图像提取的准确性。

在S1022中，根据各个所述区域面积，生成所述视频图像帧的人体识别窗口。

在本实施例中，由于不同的缩放比例，人体识别窗口的尺寸也需要随之调整，基于此，终端设备可以根据各个拍摄对象的区域面积，计算出视频图像帧对应的缩放比例，并查询该缩放比例关联的人体识别窗口尺寸，继而生成与视频图像帧匹配的人体识别窗口。

可选地，在本实施例中，终端设备采用的是yolov3的人体识别算法，而yolov3需要配置3个人体识别窗口。基于此，终端设备根据各个轮廓曲线所围成的区域面积，生成区域面积的分布情况，选取分布密度最大的三个区域面积作为特征面积，并基于三个特征面积生成与之对应的人体识别窗口，即三个feature map。

在S1023中，基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像。

在本实施例中，终端设备在生成与视频图像帧的缩放比例对应的人体识别窗口后，可以通过人体识别窗口在视频图像帧上进行滑动框取，将每一次框取的区域图像作为候选区域图像。若存在多个尺寸的人体识别窗口，则创建与人体识别窗口数量对应的并发线程，并复制该多个视频图像帧，通过多条并发线程分别控制人体识别窗口在不同的视频图像帧上进行滑动框取，即不同尺寸的人体识别窗口的滑动框取操作是相互独立、互不影响的，生成不同尺寸的候选区域图像。

在S1024中，分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。

在本实施例中，终端设备计算该候选区域图像与标准人体模板之间的重合率，若两者之间的重合率越高，则表示该区域图像所对应的拍摄对象与目标对像的相似度越高，因此可以识别该候选区域为人体区域图像；反之，若两者之间的重合率越低，则表示该区域图像的形态与目标对象的相似度较低，识别为非人体区域图像。由于视频图像帧中可以包含多个不同用户，因此终端设备会将所有重合率超过预设的重合率阈值的候选区域均识别为人体区域图像，在该情况下，终端设备可以定位各个人体区域图像的人脸图像，从而将人体图像与目标对象的标准人脸进行匹配，从而选取与标准人脸相匹配的人体区域图像作为目标对象的人体区域图像。

在本申请实施例中，通过获取视频图像帧中的轮廓曲线，从而基于各个轮廓曲线的区域面积，确定视频图像帧的缩放比例，并生成与之对应的人体识别窗口进行人体区域图像的识别操作，从而能够提高识别的准确率。

图5示出了本申请第五实施例提供的一种人体动作的识别方法S105的具体实现流程图。参见图5，相对于图1至图3所述实施例，本实施例提供的一种人体动作的识别方法S105包括：S1051～S1052，具体详述如下：

进一步地，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作，包括：

在S1051中，在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线。

在本实施例中，终端设备根据各个关键特征序列中各个特征坐标的坐标值以及对应的视频图像帧的帧数，在预设的坐标轴上标记出各个各个特征坐标，并连接各个特征坐标，生成关于关键部位的部位变化曲线。该坐标轴可以以视频图像帧为基础建立的坐标轴，横轴标对应视频图像帧的长，纵坐标对应视频图像帧的宽。

在S1052中，将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的所述候选动作。

在本实施例中，终端设备根据所有关键部位的部位变化曲线与预设动作库中各个候选动作的标准动作曲线进行匹配，计算两个变化曲线的重合率，选取重合率最高的一个候选动作为目标对象的动作类型。

在本申请实施例中，通过绘制关键部位的部位变化曲线从而能够直观地确定目标对象的动作类型，提高了动作类型的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图6示出了本申请一实施例提供的一种人体动作的识别设备的结构框图，该人体动作的识别设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图6，所述人体动作的识别设备包括：

视频文件获取单元61，用于获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

人体区域图像提取单元62，用于分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

关键部位识别单元63，用于在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

关键特征序列生成单元，用于根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标64，生成关于所述关键部位的关键特征序列；

候选动作识别单元65，用于通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

动作类型识别单元66，用于分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。

可选地，所述动作类型识别单元66包括：

交互置信度计算单元，用于获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度；

动作置信度识别单元，用于分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度；

交互概率确定单元，用于基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率；

对象置信度识别单元，用于从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度；

匹配度计算单元，用于将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，

为所述候选动作a的所述匹配度；

为所述交互概率；

为预设的所述候选动作a的触发概率；

候选动作选取单元，用于选取所述匹配度大于匹配阈值的所述候选动作，识别为所述目标对象的动作类型。

可选地，所述关键特征序列生成单元64包括：

图像距离值计算单元，用于获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

拍摄焦距确定单元，用于计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

实际移动距离计算单元，用于将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

关联坐标识别单元，用于将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

关联坐标封装单元，用于根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。

可选地，所述人体区域图像提取单元62包括：

轮廓曲线获取单元，用于通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

人体识别窗口生成单元，用于根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

候选区域图像提取单元，用于基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

人体区域图像匹配单元，用于分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。

可选地，所述动作类型识别单元65包括：

部位变化曲线生成单元，用于在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

候选动作选取单元，用于将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。

因此，本申请实施例提供的人体动作的识别设备同样可以无需依赖神经网络对视频图像进行动作类型的识别，并不借助光流信息，避免了需要进行时序递归而带来的识别时延，从而提高了识别的效率，另一方面终端设备会确定视频图像帧中的交互对象，借助交互动作确定目标用户是否存在交互行为，从而能够对多个近似姿态进行区分，进一步提高了动作识别的准确率。

图7是本申请另一实施例提供的一种终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72，例如人体动作的识别程序。所述处理器70执行所述计算机可读指令72时实现上述各个人体动作的识别方法实施例中的步骤，例如图1所示的S101至S106。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各单元的功能，例如图6所示模块61至66功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令指令段，该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。例如，所述计算机可读指令72可以被分割成视频文件获取单元、人体区域图像提取单元、关键部位识别单元、关键特征序列生成单元、候选动作识别单元以及动作类型识别单元，各单元具体功能如上所述。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种人体动作的识别方法，其特征在于，包括：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。
根据权利要求1所述的识别方法，其特征在于，所述分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型，包括：

获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度；

分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度；

基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率；

从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度；

将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，
为所述候选动作a的所述匹配度；
为所述交互置信度；s _h为所述动作置信度；s _o为所述对象置信度；
为所述交互概率；
为预设的所述候选动作a的触发概率；

选取所述匹配度大于匹配阈值的所述候选动作，作为所述目标对象的动作类型。
根据权利要求1所述的识别方法，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求1-3任一项所述的识别方法，其特征在于，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求1-3任一项所述的识别方法，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的所述候选动作。
一种人体动作的识别设备，其特征在于，包括：

视频文件获取单元，用于获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

人体区域图像提取单元，用于分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

关键部位识别单元，用于在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

关键特征序列生成单元，用于根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

候选动作识别单元，用于通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

动作类型识别单元，用于分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。
根据权利要求6所述的识别设备，其特征在于，所述动作类型识别单元包括：

交互置信度计算单元，用于获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度；

动作置信度识别单元，用于分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度；

交互概率确定单元，用于基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率；

对象置信度识别单元，用于从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度；

匹配度计算单元，用于将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，
为所述候选动作a的所述匹配度；
为所述交互置信度；s _h为所述动作置信度；s _o为所述对象置信度；
为所述交互概率；
为预设的所述候选动作a的触发概率；

候选动作选取单元，用于选取所述匹配度大于匹配阈值的所述候选动作，识别为所述目标对象的动作类型。
根据权利要求6所述的识别设备，其特征在于，所述关键特征序列生成单元包括：

图像距离值计算单元，用于获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

拍摄焦距确定单元，用于计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

实际移动距离计算单元，用于将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

关联坐标识别单元，用于将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

关联坐标封装单元，用于根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求6-8任一项所述的识别设备，其特征在于，所述人体区域图像提取单元包括：

轮廓曲线获取单元，用于通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

人体识别窗口生成单元，用于根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

候选区域图像提取单元，用于基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

人体区域图像匹配单元，用于分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求6-8任一项所述的识别设备，其特征在于，所述动作类型识别单元包括：

部位变化曲线生成单元，用于在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

候选动作选取单元，用于将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的动作类型。
一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。
根据权利要求11所述的终端设备，其特征在于，所述分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型，包括：

获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度；

分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度；

基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率；

从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度；

将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，
为所述候选动作a的所述匹配度；
为所述交互置信度；s _h为所述动作置信度；s _o为所述对象置信度；
为所述交互概率；
为预设的所述候选动作a的触发概率；

选取所述匹配度大于匹配阈值的所述候选动作，作为所述目标对象的动作类型。
根据权利要求11所述的终端设备，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求11-13任一项所述的终端设备，其特征在于，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
根据权利要求11-13任一项所述的终端设备，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的所述候选动作。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取目标对象的视频文件；所述视频文件包括多个视频图像帧；

分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象；

在所述人体区域图像中标记出预设的人体关键部位列表内的各个关键部位，并获取各个所述关键部位的特征坐标；

根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列；

通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作；

分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述分别计算各个所述候选动作与所述可交互对象之间的匹配度，并根据所述匹配度，从所述候选动作中确定所述目标对象的动作类型，包括：

获取所述可交互对象与所述人体区域图像之间的距离值，并基于所述距离值确定所述可交互对象的交互置信度；

分别计算所述关键特征序列与各个所述候选动作的标准特征序列之间的相似度，将所述相似度识别为所述候选动作的动作置信度；

基于所述可交互对象的对象类型，确定所述候选动作与所述对象类型的交互概率；

从所述视频图像帧中提取所述可交互对象的对象区域图像，并根据所述对象区域图像与所述对象类型预设的标准图像，确定所述可交互对象的对象置信度；

将所述交互置信度、所述动作置信度、所述对象置信度以及所述交互概率导入到匹配度计算模型，确定所述候选动作的所述匹配度；所述匹配度计算模型具体为：

其中，
为所述候选动作a的所述匹配度；
为所述交互置信度；s _h为所述动作置信度；s _o为所述对象置信度；
为所述交互概率；
为预设的所述候选动作a的触发概率；

选取所述匹配度大于匹配阈值的所述候选动作，作为所述目标对象的动作类型。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述根据所述关键部位在各个所述视频图像帧中对应的所述特征坐标，生成关于所述关键部位的关键特征序列，包括：

获取帧数相邻的两个所述视频图像帧内同一所述关键部位的第一特征坐标以及第二特征坐标，并计算所述第一特征坐标与所述第二特征坐标之间的图像距离值；

计算所述人体区域图像的图像面积，并基于所述图像面积确定所述目标对象与拍摄模块之间的拍摄焦距；

将所述拍摄焦距、所述图像距离值以及所述视频文件的拍摄帧率导入到距离转换模型，计算两个所述视频图像帧中所述关键部分的实际移动距离；所述距离转换模型具体为：

其中，Dist为所述实际移动距离；StandardDist为所述图像距离值；FigDist为所述拍摄焦距；BaseDist为预设的基准焦距；ActFrame为所述拍摄帧率；BaseFrame为所述基准帧率；

将所述实际移动距离小于预设的距离阈值的两个所述特征坐标识别为互为关联的特征坐标；

根据所有所述互为关联的特征坐标生成关于所述关键部位的所述关键特征序列。
根据权利要求16-18任一项所述的计算机非易失性可读存储介质，其特征在于，所述分别解析各个所述视频图像帧，提取所述视频图像帧中关于所述目标对象的人体区域图像，以及确定所述视频图像帧包含的可交互对象，包括：

通过轮廓识别算法，获取所述视频图像帧的轮廓曲线，并计算各个所述轮廓曲线所包围的区域面积；

根据各个所述区域面积，生成所述视频图像帧的人体识别窗口；

基于所述人体识别窗口在所述视频图像帧上进行滑动框取，生成多个候选区域图像；

分别计算各个所述候选区域图像与标准人体模板之间的重合率，并选取所述重合率大于预设重合率阈值的所述候选区域图像作为所述人体区域图像。
如权利要求16-18任一项所述的计算机非易失性可读存储介质，其特征在于，所述通过各个所述关键部位的所述关键特征序列，确定所述目标对象的至少一个候选动作，包括：

在预设的坐标轴内标记各个所述关键特征序列的特征坐标，生成关于各个所述关键部位的部位变化曲线；

将所述部位变化曲线与预设动作库内的各个候选动作的标准动作曲线进行匹配，基于匹配结果确定所述目标对象的所述候选动作。