WO2020057329A1

WO2020057329A1 - 视频动作的识别方法、装置、设备及存储介质

Info

Publication number: WO2020057329A1
Application number: PCT/CN2019/102717
Authority: WO
Inventors: 宋丽; 石峰; 王璠; 芦姗
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2018-09-21
Filing date: 2019-08-27
Publication date: 2020-03-26
Also published as: CN109344755B; US20220130146A1; CN109344755A; EP3862914A4; EP3862914A1

Abstract

本申请实施例公开了一种视频动作的识别方法、装置、设备及存储介质。该方法包括：根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；根据视频帧的动作类别和动作定位信息，确定视频的动作内容。

Description

视频动作的识别方法、装置、设备及存储介质

本申请要求在2018年9月21日提交中国专利局、申请号为201811107097.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及动作识别技术领域，例如涉及一种视频动作的识别方法、装置、设备及存储介质。

背景技术

随着计算机视觉和机器学习等相关技术的快速发展，人机交互技术越来越受到重视。在人机交互中，需要对用户的身体信息进行识别如人脸识别、手势识别及体势识别等。其中，手势识别可以作为直观的交流方式而具有重要的研究价值和意义。

视频手势识别通常应用在需要强交互的应用场景中，在对用户的手势进行持续的定位与识别时，会面临诸如背景复杂、运动模糊、动作不标准等不可控因素。

相关技术中对视频中图像进行的手势识别处理，无法保证手势识别结果的稳定性及平滑性。

发明内容

本申请实施例提供一种视频动作的识别方法、装置、设备及存储介质，可以提高动作识别结果的稳定性及平滑性。

第一方面，本申请实施例提供了一种视频动作的识别方法，包括：根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；根据视频帧的动作类别和动作定位信息，确定视频的动作内容。

第二方面，本申请实施例还提供了一种视频动作的识别装置，包括：动作类别和动作定位信息确定模块，设置为根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；动作内容确定模块，设置为根据视频帧的动作类别和动作定位信息，确定视频的动作内容。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请实施例所述的视频动作的识别方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现如本申请实施例所述的视频动作的识别方法。

附图说明

图1是本申请一实施例中的一种视频动作的识别方法的流程图；

图2是本申请一实施例中的一种视频动作的识别方法的流程图；

图3是本申请一实施例中的一种视频动作的识别方法的流程图；

图4a是本申请一实施例中的对“点赞”手势的识别效果图；

图4b是本申请一实施例中的对“点赞”手势的识别效果图；

图4c是本申请一实施例中的对“点赞”手势的识别效果图；

图4d是本申请一实施例中的对“点赞”手势的识别效果图；

图5a是本申请一实施例中的对“双手比心”手势的识别效果图；

图5b是本申请一实施例中的对“双手比心”手势的识别效果图；

图5c是本申请一实施例中的对“双手比心”手势的识别效果图；

图6是本申请一实施例中的一种视频动作的识别装置的结构示意图；

图7是本申请一实施例中的一种计算机设备的结构示意图。

具体实施方式

图1为本申请一实施例提供的一种视频动作的识别方法的流程图，本实施例可适用于对直播视频中的用户的动作进行识别的情况，该方法可以由视频动作的识别装置来执行，该装置可由硬件和软件中至少之一组成，并一般可集成在具有视频动作识别功能的设备中，该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示，该方法包括步骤110至步骤120。

在步骤110中，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息。

其中，前向视频帧可以是当前视频帧对应时刻之前的视频帧。视频可以是直播视频或点播视频。动作可以包括用户的手势、体势等，在一实施例中为手势。在动作为手势的情况下，动作类别可以是手势的形态，动作定位信息可以是手势的移动轨迹。例如：手势的形态可以包括：点赞手势、“OK”手势、双手比心手势、单手比心手势、比枪手势、“Yeah”手势及托手手势等。

本实施例中，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息的方式可以是，将当前视频帧和至少一个前向视频帧同时输入动作识别模型中，动作识别模型通过分析当前视频帧和至少一个前向视频帧，获得当前视频帧的动作类别和动作定位信息；或者，将当前视频帧和至少一个前向视频帧分别输入动作识别模型中，获得每个视频帧分别对应的动作类别和动作定位信息，最后利用至少一个前向视频帧的动作类别和动作定位信息对当前视频帧的动作类别和动作定位信息进行修正，获得当前视频帧的目标动作类别和目标动作定位信息。

在步骤120中，根据视频帧的动作类别和动作定位信息，确定视频的动作内容。

其中，动作内容可以是动作要传达的信息，示例性的，以手势为例，动作内容可以包括：点赞、“OK”、双手比心、单手比心、比枪、“Yeah”及托手等。

在获得视频中视频帧的动作类别和动作定位信息后，就可以确定视频中的动作内容。在一实施例中，在本应用场景下，在获得视频帧的动作类别和动作定位信息后，可以结合动作类别在动作定位点处触发设定特效。

本实施例的技术方案，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，最后根据视频帧的动作类别和动作定位信息，确定视频的动作内容。本申请实施例提供的视频动作的识别方法，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可以提高动作类别识别的稳定性及动作定位信息识别的平滑性。

图2为本申请一实施例提供的一种视频动作的识别方法的流程图。作为对上述实施例的解释，如图2所示，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可通过步骤210至步骤230实施。

在步骤210中，获取当前视频帧，确定当前视频帧的动作识别结果。

其中，动作识别结果包括动作类别及动作定位信息。动作定位信息可以是动作框定位信息，包括动作框的宽、动作框的高以及动作框的中心坐标。

本实施例中，将当前视频帧输入动作识别模型，就可以获得当前视频帧的动作类别和动作定位信息。在一实施例中，确定当前视频帧的动作类别的方式可以是将当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度，选取置信度最高的设定动作类别，作为当前视频帧的动作类别。

其中，动作识别模型可以是基于卷积神经网络训练获得的，具有识别视频帧中动作类别与动作定位信息的功能。设定动作类别可以是在系统中预先设置的类别，假设动作是手势，则设定动作类别可以包括点赞、“OK”、双手比心、单手比心、比枪、“Yeah”及托手等。将当前视频帧输入动作识别模型后，获得当前视频帧对应的设定动作类别的置信度，将置信度最高的设定动作类别作为当前视频帧的动作类别。示例性的，假设当前视频帧对应的设定动作类别的置信度为：点赞为0.1、“OK”为0.25、双手比心为0.3、单手比心为0.3、比枪为0.8、“Yeah”为0.4及托手为0.2，则当前视频帧的动作类别为“比枪”。

在一实施例中，确定当前视频帧的动作定位信息的方式可以是，将当前视频帧输入动作识别模型，输出动作框的宽、动作框的高以及动作框的中心坐标。

在步骤220中，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别。

在一实施例中，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别可通过下述方式实施：针对每个设定动作类别，将至少一个前向视频帧和当前视频帧中的该设定动作类别的置信度进行求和。获取置信度的和值最高的设定动作类别。在至少一个前向视频帧和当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量超过设定数量的情况下，将置信度的和值最高的设定动作类别确定为目标动作类别。在至少一个前向视频帧和当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量未超过设定数量的情况下，将当前视频帧的动作类别确定为目标动作类别。

其中，设定数量可以根据前向视频帧的数量来确定，例如设定数量可以是前向视频帧数量的50％-80％之间的任意值。在一实施例中，获取置信度的和值最高的设定动作类别可根据如下公式计算

for c＝1,…,N(i>k+1)，其中，n为置信度的和值最高的设定动作类别，probf为第f帧视频帧的设定动作类别置信度向量，N为设定动作类别的数量，c为设定动作类别对应的编号，前向视频帧的数量为k-1，

表示在probf取c的情况下，值为1，在probf取其他值的情况下，值为0。在获得置信度的和值最高的设定动作类别为n后，确定目标动作类别可根据如下公式计算：

其中C为目标动作类别，j为设定数量，c _i为当前视频帧的动作类别。

在步骤230中，根据当前视频帧的前一帧视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息。

本应该场景下，对当前视频帧的动作定位信息进行修正时，根据当前视频帧前一帧的动作定位信息进行修正。在一实施例中，根据前一帧视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息，可通过下述方式实施：对于动作框的宽或动作框的高，获取增益因子，根据增益因子按照如下公式计算目标动作框的宽或目标动作框的高：x＝x2+k(x1-x2)；其中，x为目标动作框的宽或目标动作框的高，k为增益因子，x1为当前视频帧的动作框的宽或当前视频帧的动作框的高，x2为前一帧视频帧的动作框的宽或前一帧视频帧的动作框的高。对于动作框的中心坐标，获取增益矩阵；根据增益矩阵按照如下公式计算目标动作框的中心坐标：Y＝Y2+K*(Y1-H*Y2)；其中，Y为目标动作框的中心坐标，Y2为前一帧视频帧的动作框的中心坐标，K为增益矩阵，H为单位矩阵，Y1为当前视频帧的动作框的中心坐标。

增益因子可以按照如下公式计算：k＝p _-/(p _-+r)；其中，p _-＝p+q，p为后验误差，p-为先验误差，q为过程偏差，r为测量偏差。过程偏差和测量偏差可以经过多次试验后获得的值，后验误差可以按照如下公式迭代获取：p＝(1-k)*p _-。

增益矩阵可以按照如下公式计算：K＝P _-*H ^T*S ^-1；其中，P _-＝A*err*A ^T+Q，S＝H*P _-*H ^T+R，A为运动矩阵，Q为过程方差矩阵，R为测量方差矩阵，err为中心点误差矩阵，H为单位矩阵。中心点误差矩阵可以按照如下公式迭代获得：err＝(1-K*H)*P _-。

在一实施例中，该视频动作的识别方法还包括如下步骤：判断目标动作框的定位信息与前一帧视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；基于目标动作框的定位信息与前一帧视频帧的动作框的定位信息差值的绝对值小于设定阈值的判断结果，将目标动作框的定位信息更新为前向视频帧的动作框的定位信息。

其中，设定阈值可以设置为1-10个像素点之间的任意值，在一实施例中，设置为3或者4个像素。

本实施例中，在目标动作框的宽与前一帧视频帧的动作框的宽的差值的绝对值小于设定阈值的情况下，将目标动作框的宽更新为前一帧视频帧的动作框的宽；在目标动作框的高与前一帧视频帧的动作框的高的差值的绝对值小于设定阈值的情况下，将目标动作框的高更新为前一帧视频帧的动作框的高；在目标动作框的中心坐标的横坐标与前一帧视频帧的动作框的中心坐标的横坐标的差值的绝对值小于设定阈值的情况下，将目标动作框的中心坐标的横坐标更新为前一帧视频帧的动作框的中心坐标的横坐标；在目标动作框的中心坐标的纵坐标与前一帧视频帧的动作框的中心坐标的纵坐标的差值的绝对值小于设定阈值的情况下，将目标动作框的中心坐标的纵坐标更新为前一帧视频帧的动作框的中心坐标的纵坐标。

本实施例的技术方案，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，根据当前视频帧的前一帧视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正。可以提供视频动作识别的稳定性和平滑性。

图3为本申请一实施例提供的一种视频动作的识别方法的流程图。作为对上述实施例的解释，如图3所示，获取当前视频帧，确定所述当前视频帧的动作识别结果，可通过步骤310至步骤330实施。

在步骤310中，判断当前视频帧是否为预设关键帧。

其中，预设关键帧可以是根据实际需要设置的每隔设定数量的视频帧确定为一个关键帧，例如每隔10帧视频帧确定为一个关键帧。

在步骤320中，基于当前视频帧是预设关键帧的判断结果，将当前视频帧输入第一动作识别子模型获得当前视频帧的初始动作定位信息；根据初始动作框定位信息确定当前视频帧的第一待识别图像区域，并将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

其中，第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得。第一动作识别子模型可以采用DenseNet(Dense Convolutional Network)或者ResNet获得；第二动作识别子模型可以采用MobileNet-v2获得。

在一实施例中，基于当前视频帧为预设关键帧的判断结果，将当前视频帧输入第一动作识别子模型获得初始动作定位信息，在获得初始动作定位信息后，在初始动作框圈出的区域的基础上，扩大设定面积或设定像素点后，获得第一待识别图像区域，最后将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

在步骤330中，基于当前视频帧不是预设关键帧的判断结果，根据前一帧视频帧的动作框定位信息确定当前视频帧的第二待识别图像区域，将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

在一实施例中，基于当前视频帧不是预设关键帧的判断结果，在前一帧视频帧的动作框圈出的区域的基础上，扩大设定面积或设定像素点后，获得第二待识别图像区域，最后将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

本实施例的技术方案，将预设关键帧依次输入第一动作识别子模型和第二动作识别子模型获得动作识别结果，将非预设关键帧输入第二动作识别子模型获得动作识别结果，在保证识别准确性的基础上，可以提高图像识别的速率。

示例性的，图4a-4d为本申请一实施例提供的对“点赞”手势的识别效果图，如图4a-4d所示，其中“2”表示视频帧的手势类别为“点赞”。将每一视频帧输入动作识别模型后，可以获得该视频帧的手势类别为“2”，即点赞，以及手势定位信息，包括手势框的宽、手势框的高以及手势框的中心坐标。

图5a-5c为本申请一实施例提供的对“双手比心”手势的识别效果图，如图5a-5c所示，其中“5”表示视频帧的手势类别为“双手比心”。将每一视频帧输入动作识别模型后，可以获得该视频帧的手势类别为“5”，即双手比心，以及手势定位信息，包括手势框的宽、手势框的高以及手势框的中心坐标。

图6为本申请一实施例提供的一种视频动作的识别装置的结构示意图。如图6所示，该装置包括：动作类别和动作定位信息确定模块610和动作内容确定模块620。

动作类别和动作定位信息确定模块610，设置为根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息；

动作内容确定模块620，设置为根据视频帧的动作类别和动作定位信息，确定视频的动作内容。

在一实施例中，动作类别和动作定位信息确定模块610，设置为：

获取当前视频帧，确定当前视频帧的动作识别结果；其中，动作识别结果包括动作类别及动作定位信息；

根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别；

根据当前视频帧的前一帧视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息。

将当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度；

选取置信度最高的设定动作类别，作为当前视频帧的动作类别。

针对每个设定动作类别，将至少一个前向视频帧和当前视频帧中的该设定动作类别的置信度进行求和；

获取置信度的和值最高的设定动作类别；

在至少一个前向视频帧和当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量超过设定数量的情况下，将置信度的和值最高的设定动作类别确定为目标动作类别；

在至少一个前向视频帧和当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量未超过设定数量的情况下，将当前视频帧的动作类别确定为目标动作类别。

在一实施例中，动作定位信息包括动作框的宽、动作框的高以及动作框的中心坐标。

对于动作框的宽或动作框的高，获取增益因子；

根据增益因子按照如下公式计算目标动作框的宽或目标动作框的高：

x＝x2+k(x1-x2)；

其中，x为目标动作框的宽或目标动作框的高，k为增益因子，x1为当前视频帧的动作框的宽或当前视频帧的动作框的高，x2为前一帧视频帧的动作框的宽或前一帧视频帧的动作框的高；

对于动作框的中心坐标，获取增益矩阵；

根据增益矩阵按照如下公式计算目标动作框的中心坐标：

Y＝Y2+K*(Y1-H*Y2)；

其中，Y为目标动作框的中心坐标，Y2为前一帧视频帧的动作框的中心坐标，K为增益矩阵，H为单位矩阵，Y1为当前视频帧的动作框的中心坐标。

判断目标动作框的定位信息与前一帧视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；

基于目标动作框的定位信息与前一帧视频帧的动作框的定位信息差值的绝对值小于设定阈值的判断结果，将目标动作框的定位信息更新为前一帧视频帧的动作框的定位信息。

在一实施例中，按照如下公式计算增益因子：

k＝p _-/(p _-+r)；

其中，p _-＝p+q，p为后验误差，p-为先验误差，q为过程偏差，r为测量偏差；

按照如下公式计算增益矩阵：

K＝P _-*H ^T*S ^-1；

其中，P _-＝A*err*A ^T+Q，S＝H*P _-*H ^T+R，A为运动矩阵，Q为过程方差矩阵，R为测量方差矩阵，err为中心点误差矩阵，H为单位矩阵。

判断当前视频帧是否为预设关键帧；

基于当前视频帧是预设关键帧的判断结果，将当前视频帧输入第一动作识别子模型获得当前视频帧的初始动作定位信息；根据初始动作定位信息确定当前视频帧的第一待识别图像区域，并将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果；其中，第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得；

基于当前视频帧不是预设关键帧的判断结果，根据前一帧视频帧的动作框定位信息确定当前视频帧的第二待识别图像区域，将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

在一实施例中，动作为用户的手势，动作类别为手势的形态，动作定位信息为手势的移动轨迹。

上述装置可执行本申请前述所有实施例所提供的方法，未在本实施例中详尽描述的技术细节，可参见本申请前述所有实施例所提供的方法。

图7为本申请一实施例提供的一种计算机设备的结构示意图。图7示出了适于用来实现本申请实施方式的计算机设备712的框图。图7显示的计算机设备712仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。设备712典型的是承担视频动作的识别功能的计算设备。

如图7所示，计算机设备712以通用计算设备的形式表现。计算机设备712 的组件可以包括但不限于：至少一个处理器716，存储装置728，连接不同系统组件(包括存储装置728和处理器716)的总线718。

总线718表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)730和高速缓存存储器732中至少一种。计算机设备712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过至少一个数据介质接口与总线718相连。存储装置728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请实施例的功能。

具有一组(至少一个)程序模块726的程序736，可以存储在例如存储装置728中，这样的程序模块726包括但不限于操作系统、至少一个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块726通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备712也可以与至少一个外部设备714(例如键盘、指向设备、摄像头、显示器724等)通信，还可与至少一个一个使得用户能与该计算机设备712交互的设备通信，和/或与使得该计算机设备712能与至少一个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口722进行。并且，计算机设备712还可以通过网络适配器720与至少一个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器720通过总线718与计算机设备712的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备712使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器716通过运行存储在存储装置728中的程序，从而执行各种功能应用以及数据处理，例如实现本申请上述实施例所提供的视频动作的识别方法。

本申请实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如本申请实施例所提供的视频动作的识别方法。

当然，本申请实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的视频动作的识别方法中的相关操作。

本申请实施例的计算机存储介质，可以采用至少一个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种视频动作的识别方法，包括：

根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；

根据视频帧的动作类别和动作定位信息，确定视频的动作内容。
根据权利要求1所述的方法，其中，根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息，包括：

获取当前视频帧，确定所述当前视频帧的动作识别结果；其中，所述动作识别结果包括动作类别及动作定位信息；

根据至少一个前向视频帧的动作类别，对所述当前视频帧的动作类别进行修正，获取所述当前视频帧的目标动作类别；

根据当前视频帧的前一帧视频帧的动作定位信息，对所述当前视频帧的动作定位信息进行修正，获取所述当前视频帧的目标动作定位信息。
根据权利要求2所述的方法，其中，获取当前视频帧，确定所述当前视频帧的动作类别，包括：

将所述当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度；

选取置信度最高的设定动作类别，作为所述当前视频帧的动作类别。
根据权利要求3所述的方法，其中，根据至少一个前向视频帧的动作类别，对所述当前视频帧的动作类别进行修正，获取所述当前视频帧的目标动作类别，包括：

针对每个设定动作类别，将至少一个所述前向视频帧和所述当前视频帧中的该设定动作类别的置信度进行求和；

获取置信度的和值最高的设定动作类别；

在至少一个所述前向视频帧和所述当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量超过设定数量的情况下，将置信度的和值最高的设定动作类别确定为目标动作类别；

在至少一个所述前向视频帧和所述当前视频帧的动作类别中，与置信度的和值最高的设定动作类别相同的数量未超过设定数量的情况下，将所述当前视频帧的动作类别确定为目标动作类别。
根据权利要求2所述的方法，其中，所述动作定位信息包括动作框的宽、动作框的高以及动作框的中心坐标。
根据权利要求5所述的方法，其中，根据当前视频帧的前一帧视频帧的动作定位信息，对所述当前视频帧的动作定位信息进行修正，获取所述当前视频帧的目标动作定位信息，包括：

对于动作框的宽或动作框的高，获取增益因子；

根据所述增益因子按照如下公式计算目标动作框的宽或目标动作框的高：

x＝x2+k(x1-x2)；

其中，x为目标动作框的宽或目标动作框的高，k为增益因子，x1为当前视频帧的动作框的宽或当前视频帧的动作框的高，x2为前一帧视频帧的动作框的宽或前向视频帧的动作框的高；

对于动作框的中心坐标，获取增益矩阵；

根据所述增益矩阵按照如下公式计算目标动作框的中心坐标：

Y＝Y2+K*(Y1-H*Y2)；

其中，Y为目标动作框的中心坐标，Y2为前一帧视频帧的动作框的中心坐标，K为增益矩阵，H为单位矩阵，Y1为当前视频帧的动作框的中心坐标。
根据权利要求6所述的方法，还包括：

判断所述目标动作框的定位信息与所述前一帧视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；

基于所述目标动作框的定位信息与所述前一帧视频帧的动作框的定位信息差值的绝对值小于设定阈值的判断结果，将所述目标动作框的定位信息更新为前一帧视频帧的动作框的定位信息。
根据权利要求6所述的方法，其中，所述增益因子按照如下公式计算：

k＝p _-/(p _-+r)；

其中，p _-＝p+q，p为后验误差，p-为先验误差，q为过程偏差，r为测量偏差；

所述增益矩阵按照如下公式计算：

K＝P _-*H ^T*S ^-1；

其中，P _-＝A*err*A ^T+Q，S＝H*P _-*H ^T+R，A为运动矩阵，Q为过程方差矩阵，R为测量方差矩阵，err为中心点误差矩阵，H为单位矩阵。
根据权利要求2所述的方法，其中，获取当前视频帧，确定所述当前视频帧的动作识别结果，包括：

判断所述当前视频帧是否为预设关键帧；

基于所述当前视频帧是预设关键帧的判断结果，将所述当前视频帧输入第一动作识别子模型获得所述当前视频帧的初始动作定位信息；根据所述初始动作定位信息确定所述当前视频帧的第一待识别图像区域，并将所述第一待识别图像区域输入第二动作识别子模型，获得所述当前视频帧的动作识别结果；其中，所述第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得；

基于所述当前视频帧不是预设关键帧的判断结果，根据前一帧视频帧的动作框定位信息确定所述当前视频帧的第二待识别图像区域，将所述第二待识别图像区域输入第二动作识别子模型，获得所述当前视频帧的动作识别结果。
根据权利要求1所述的方法，其中，所述动作为用户的手势，所述动作类别为手势的形态，所述动作定位信息为手势的移动轨迹。
一种视频动作的识别装置，包括：

动作类别和动作定位信息确定模块，设置为根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；

动作内容确定模块，设置为根据视频帧的所述动作类别和所述动作定位信息，确定视频的动作内容。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-10中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现如权利要求1-10中任一项所述的方法。