WO2021098402A1

WO2021098402A1 - 动作识别方法、装置、计算机存储介质和计算机设备

Info

Publication number: WO2021098402A1
Application number: PCT/CN2020/120076
Authority: WO
Inventors: 罗栋豪; 王亚彪; 郭晨阳; 邓博元; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-11-20
Filing date: 2020-10-10
Publication date: 2021-05-27
Also published as: EP3992846A1; CN110866509A; US20220076002A1; US11928893B2; KR20220038434A; JP2022551396A; CN110866509B; EP3992846A4; JP7274048B2

Abstract

一种动作识别方法，包括：通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重，并根据运动信息权重获取目标时序帧在各卷积通道上的运动信息特征图；对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

Description

动作识别方法、装置、计算机存储介质和计算机设备

本申请要求于2019年11月20日提交中国专利局，申请号为2019111430082，申请名称为“动作识别方法、装置、计算机可读存储介质和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域、更涉及图像处理技术领域，特别是涉及一种动作识别方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术和人工智能技术的发展，动作识别技术从图像领域扩展到了视频领域。传统方法中，对视频数据进行动作识别，一般是使用二维卷积网络神经网络对视频数据中的每一帧图像进行识别，最终对该视频数据的所有帧的动作识别结果进行融合，得到对视频数据的动作识别结果。但是在强调运动对象动作变化的场景中，即使打乱视频数据中各帧图像的顺序，并不会影响二维卷积网络神经网络对视频数据中动作类型的识别结果。因此，使用二维卷积神经网络进行动作识别的精度低。

发明内容

根据本申请提供的各种实施例，提供一种动作识别方法、装置、计算机可读存储介质和计算机设备。

根据本申请的一个方面，提供了一种动作识别方法，由计算机设备执行，包括：

获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

分别以每个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

根据运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

对运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；及

根据时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

获取实时的监控视频数据；

提取所述监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

根据时序运动特征图，识别目标时序帧的图像数据中运动对象的动作类型；

将所述动作类型确定为当前所述监控视频数据中运动对象的动作信息。

根据本申请的一个方面，提供了一种动作识别装置，设置于计算机设备中，包括：

图像获取模块，用于获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

权重获取模块，用于分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

特征确定模块，用于根据目标时序帧在各卷积通道上的运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

时序交互模块，用于对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；

动作识别模块，用于根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

图像获取模块，用于获取实时的监控视频数据；提取所述监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

权重获取模块，用于分别以每个所述时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

特征确定模块，用于根据所述运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

时序交互模块，用于对所述运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；及

动作识别模块，用于根据时序运动特征图，识别目标时序帧的图像数据中运动对象的动作类型；将所述动作类型确定为当前所述监控视频数据中运动对象的动作信息。

一个或多个计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行本申请各实施例的动作识别方法中的步骤：

一种计算机设备，包括存储器和一个或多个处理器，所述存储器存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行本申请各实施例的动作识别方法中的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。基于本申请的说明书、附图以及权利要求书，本申请的其它特征、目的和优点将变得更加明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中动作识别方法的应用环境图；

图2是一个实施例中动作识别网络模型的结构示意图；

图3为一个实施例中动作识别方法的流程示意图；

图4为一个实施例中时序运动特征图生成步骤的示意图；

图5为一个实施例中计算运动信息权重步骤的流程示意图；

图6a为一个实施例中差异信息获取步骤的流程示意图；

图6b为一个实施例中计算运动信息权重的示意图；

图7为一个实施例中时序运动特征图生成步骤的流程示意图；

图8a为一个实施例中根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型步骤的流程示意图；

图8b为一个实施例中残差网络层的结构示意图；

图9为一个实施例中参数训练步骤的流程示意图；

图10为一个实施中原始子特征图、运动信息特征图以及时序运动特征图的可视化示意图；

图11为另一个实施例中动作识别方法的流程示意图；

图12为一个实施例中动作识别装置的结构框图；

图13为一个实施例中权重获取模块的结构框图；

图14为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图1为一个实施例中动作识别方法的应用环境图。参见图1，该动作识别方法应用于一种计算机设备中，该计算机设备可以是终端或者服务器。如图1所示，以该计算机设备是服务器为例，计算机设备中部署有动作识别网络模型，该动作识别网络是根据本申请所提供的动作识别方法对应构建的网络模型。服务器从视频数据中提取多个时序帧的图像数据，如图1中所示，从视频数据中获取的多个时序帧的图像数据均包含运动对象，服务器通过将提取到的多个时序帧的图像数据输入至动作识别网络模型中，动作识别网络模型对从视频数据中获得的每一时序帧的图像数据进行动作识别，得到每一时序帧图像数据对应的动作类型，后续可对从视频数据提取到的所有时序帧的图像数据对应的动作类型进行融合，得到对视频数据的动作识别结果。

比如，在一个示例性的应用场景中，视频数据可以是实时的监控视频，通过将实时的监控视频输入至动作识别模型中，以对监控视频中每一时序帧的图像数据中的监控对象的实时动作进行识别，获得监控视频中每一帧的图像数据中监控对象的动作信息，实现对监控对象的实时监控，无需通过人工观看视频数据获知监控对象的行为动作。

又比如，在一个示例性的应用场景中，视频数据可以是手语视频，通过将手语视频输入至动作识别模型中，以对手语视频中每一时序帧的图像数据中的手部动作进行识别，获得手语视频中每一时序帧的图像数据对应的手语动作信息，实现手语翻译。

图2是一个实施例中动作识别网络模型的结构示意图，如图2所示，动作识别网络模型中包括多通道卷积层、动作信息增强模块、时序交互模块以及主干网络层。其中，在获取视频数据在不同时序帧的图像数据后，多通道卷积层用于获取每一时序帧的图像数据的原始特征图，其中原始特征图包括在不同卷积通道上的原始子特征图；动作信息增强模块用于对每一时序帧的图像数据在不同卷积通道上的原始子特征图进行动作信息增强，得到每一时序帧的图像数据在不同卷积通道上的动作信息特征图；时序交互模块用于对前后相邻时序帧的图像数据的动作信息特征图在相同卷积通道上进行卷积运算，得到时序运动特征图，该时序运行特征图融合了前后相邻时序帧的运动信息；主干网络层用于根据时序运动特征图获取图像数据中运动对象的动作类型。

在一个实施例中，主干网络层是用于动作识别的2D卷积网络，由依次连接的多个网络层构成，如图2示出的动作识别网络模型中，主干网络层由依次连接的3层子网络层构成。可选的，主干网络层可以是ResNet-50卷积神经网络。

如图3所示，在一个实施例中，提供了一种动作识别方法。本实施例主要以该方法应用于上述图1中的服务器102来举例说明。参照图3，该动作识别方法具体包如下步骤：

步骤S302，获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图。

其中，视频数据可以是任意视频数据。从内容上来讲，视频数据是指包括有运动对象的视频，例如可以是舞蹈类视频、监控类视频、手语类视频等，从来源上讲，视频数据可以是通过摄像头拍摄的监控视频，也可以是由其他设备发送获得的视频数据。

其中，不同时序帧的图像数据是指按照时间顺序从视频数据中抽取的图像数据，其中，可以包括视频数据中所有时序帧的图像数据，也可包括部分连续时序帧的图像数据。获取视频数据在不同时序帧的图像数据，具体可以是按照视频数据中图像数据的排列顺序依次获取，也可以是以一定的采样频率从视频数据中提取的，例如，以视频数据第一帧的图像数据作为第一时序帧的图像数据，然后根据视频数据中图像数据的排列顺序，以一定的采样频率抽取后续时序帧的图像数据。应该理解的是，图像数据的帧数量，可以是根据动作识别的复杂度要求确定的，或者根据视频数据中的图像数据帧数量确定的。

其中，原始子特征图是指表征图像数据的特征信息；多通道卷积层是指用于获取图像数据中的特征信息的网络模型，这里的多通道卷积层是已训练好的网络模型，可直接用来获取图像数据的特征信息。其中，多通道卷积层包括多个卷积核，卷积通道是由多通道卷积层所决定的，多通道卷积层中用于抽取图像数据的卷积核的数量，即为卷积通道数量。具体地，将图像数据作为多通道卷积层的输入数据输入至多通道卷积层中，多通道卷积层中的各个卷积核对图像数据进行卷积计算，获取与各个卷积核对应的卷积通道的原始子特征图。

比如，以灰度图为例，从视频数据中获得的不同时序帧的图像数据为灰度图，将该灰度图输入至多通道卷积层中，获取多通道卷积层输出原始特征图，其中原始特征图的数据维度为C，H，W，其中，H、W标识原始特征图的长度以及宽度，C表示原始特征图的通道维度，即原始特征图包括有C张原始子特征图。

步骤S304，分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重。

其中，后一时序帧是指相对于目标时序帧，下一时刻所对应的时序帧，例如，目标时序帧为第t帧，即目标时序帧的图像数据是从视频数据中获取到的第t帧的图像数据，则后一时序帧为第(t+1)帧，即后一时序帧的图像数据是从视频数据中获取到的第(t+1)帧的图像数据。

其中，运动信息权重是指对目标时序帧的图像数据在不同通道上的原始子特征图的注意力分配的概率分布；运动性权重的大小，与目标时序帧的图像数据在不同卷积通道上的原始子特征图与运动对象的动作信息的相关性相关，也可以说与目标时序帧的图像数据在不同卷积通道上的原始子特征图中所包含的运动信息的多少相关。可以理解的是，当目标时序帧的图像数据在某一卷积通道上的原始子特征图与运动对象的动作信息的相关性越大，包含的运动信息越多，则在该卷积通道上的原始子特征图分配到的注意力越多，即运动运动信息权重越大。

在视频数据中获取的每一时序帧的图像数据中，都包含有对动作识别而言关键的信息，例如运动对象的表观信息，也包含有对动作识别而已无用甚至起反作用的噪声信息，例如图像数据中的噪声或背景信息。在获取目标时序帧的图像数据在不同卷积通道上的原始子特征图与运动对象的动作信息的相关性，即运动信息权重后，可通过增大包含与运动对象动作信息更相关的原始子特征图中的特征信息，即该卷积通道上的原始子特征图分配更多的注意力，而抑制包含较少的运动对象的动作信息或包含更多噪声信息的原始子特征图，即该卷积通道上的原始子特征图分配较少的注意力，实现对对动作识别有利的信息得到增强而对动作识别无关甚至有害的信息得到一致，有效提高动作识别的准确性。

由于单一的时序帧的图像数据中，运动对象以及背景信息都是静态的，而运动是一个动作变化的过程，因此需要通过目标时序帧的图像数据及其后一时序帧的图像数据实现对运动对象的动作变化过程进行描述，以提高动作识别的准确度。具体地，在获取到每一时序帧的图像数据在各个卷积通道上的原始子特征后，对于每一个时序帧的图像数据，以其本身作为目标时序帧的图像数据，从而根据目标时序帧的图像数据在不同卷积通道上的原始子特征图，及其后一时序帧的图像数据在不同卷积通道上原始子特征图，获取目标时序帧在各个卷积通道上的原始子特征图对应的运动信息权重。

进一步地，获取目标时序帧在各个卷积通道上的原始子特征图所包含的运动信息权重，具体可以先计算目标时序帧的图像数据在各个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上原始子特征图间的差异度，然后根据各个卷积通道上原始子特征图间的差异度确定目标时序帧的图像数据在各个卷积通道上对应的运动信息权重。

步骤S306，根据目标时序帧在各卷积通道上的运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图。

其中，在获取到目标时序帧在各卷积通道上的运动信息权重后，可将目标时序帧在各卷积通道上的运动信息权重加到目标时序帧在对应卷积通道的原始子特征图中，以获取目标时序帧在各卷积通道上的运动信息特征图。

由于运动信息权重用于描述在目标时序帧的图像数据在不同卷积通道上的原始子特征图与运动对象的动作信息的相关性，通过将每个卷积通道上的运动信息权重以及对应通道上原始子特征图进行相乘，获取目标时序帧在各个卷积通道上的动作信息特征图，使得与运动对象的动作信息相关性较强的原始子特征图得到增强，而与运动对象的动作信息相关性较弱的原始子特征图得到抑制，实现对对动作识别有利的信息得到增强而对动作识别无关甚至有害的信息得到抑制，使得动作信息特征图包含更多与运动对象的动作信息，利于后续对运动对象的动作识别，有效提高动作识别的准确性。

步骤S308，对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图。

其中，对目标时序帧在在各个卷积通道上的运动信息特征图进行时序卷积，具体可以是根据目标时序帧确定待卷积时序帧，对目标时序帧与待卷积时序帧在同一卷积通道上的运动信息特征图进行卷积。其中，待卷积时序帧是指与目标时序帧相邻的时序帧，可以包括目标时序帧的前、后两个时序帧，也可以包括目标时序帧的前、后四个时序帧等。例如，目标时序帧为第t帧，待卷积时序帧可以包括与目标时序帧相邻的前、后两个时序帧，即待卷积时序帧可以包括第(t-1)帧以及第(t+1)帧，也就是说，针对第t帧，对第(t-1)帧、第t帧以及第(t+1)帧在同一卷积通道上的运动信息特征图进行卷积，以获取第t帧的在各卷积通道上的时序运动特征图；待卷积时序帧还包括与目标时序帧相邻的前、后两个时序帧，即待卷积时序帧包括第(t-2)帧、第(t-1)帧、第(t+1)帧以及第(t+2)帧，此时针对第t帧，对第(t-2)帧、第(t-1)帧、第t帧以及第(t+1)帧以及第(t+2)帧在同一卷积通道上的运动信息特征图进行卷积，以获取第t帧的在各卷积通道上的时序运动特征图。

具体地，在得到各个时序帧在各个卷积通道上的运动信息特征图后，可以将与目标时序帧相邻的时序帧确定为待卷积时序帧，并对目标时序帧以及待卷积时序帧在同一卷积通道上的运动信息特征图进行卷积运算，以获取目标时序帧在各个卷积通道上的时序运动特征图，使得时序运动特征图中融合了前后时序帧的运动特征图，即运动对象的动作信息，实现在时序这一维度进行建模。其中，待卷积时序帧在各个卷积通道上的运动信息特征图的获取方法，与目标时序帧在各个卷积通道上的运动信息特征图的获取方法相同。

如图4所示，图4为一个实施例中对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图的示意图，图中左边的矩阵图表示各个时序帧在各个卷积通道上的运动信息特征图，右边矩阵图表示各个时序帧在各个卷积通道上的时序运动特征图；图中矩阵图的横轴表示卷积通道的维度，纵轴表示时序帧的维度，以左边的矩阵图为例，图中左边的矩阵图第一行表示第1时序帧在各个卷积通道上的运动信息特征图，第二行表示第2时序帧在各个卷积通道上的运动信息特征图，依次类推。以第2时序帧作为目标时序帧、卷积时序帧包括第2时序帧的前一时序帧以及第2时序帧的后一时序帧为例，对于第2时序帧的时序运动特征图，利用一个3*1的卷积核对第1时序帧在第1卷积通道上的运动信息特征图、第2时序帧在第1卷积通道上的运动信息特征图以及第3时序帧在第1卷积通道上的运动信息特征图进行卷积运算，以获取第2时序帧在第1卷积通道的时序运动特征图，同样的，利用一个3*1的卷积核对第1时序帧在第2卷积通道上的运动信息特征图(图中A1)、第2时序帧在第2卷积通道上的运动信息特征图(图中A2)以及第3时序帧在第2卷积通道上的运动信息特征图(图中A3)进行卷积运算，以获取第2时序帧在第2卷积通道的时序运动特征图(图中B)，以此类推，获得第2时序帧在各个卷积通道上的时序运动特征图。对于任意一个时序帧，可以利用其前后相邻的相邻时序帧，在各个卷积通道上进行时间维度上的卷积运算，使得运算后的时序运动特征图融合了前后时序帧的运动特征图，即运动对象的动作信息。

应该理解的是，如图4所示，对于第1时序帧以及最后一个的第4时序帧，由于没有前一时序帧或后一时序帧的图像数据，可以将第1时序帧的前一时序帧以及最后一个的第4时序帧的后一时序帧进行填0操作。

步骤S310，根据目标时序帧在各卷积通道的时序运动特征图获取目标时序帧的图像数据中运动对象的动作类型。

其中，在得到目标时序帧的图像数据的时序运动特征后，可以利用时序运动特征图作为图像数据的特征信息，识别目标时序帧的图像数据中运动对象的动作类型。时序运动特征图中即包括较强的与运动相关的信息，又包括时序信息，利用时序运动特征图进进行动作识别，可有效提高动作识别的精确度。

具体地，可以将时序运动特征图作为图像数据的特征信息，输入至用于动作识别的2D卷积网络中，以识别目标时序帧的图像数据中运动对象的动作类型。其中，2D卷积网络可以包括ResNet-50卷积神经网络，目标时序帧在各个通道的时序运动特征图输入至ResNet-50卷积神经网络后，相应输出时序特征图指向各个动作类型的概率，以识别目标时序帧的图像数据中运动对象的动作类型。

以图2所示的动作识别网络模型为例，根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型的步骤是由主干网络层执行的，将目标时序帧在各卷积通道的时序运动特征图输入至主干网络层中，主干网络层起到分类器的作用，主干网络层输出目标时序帧的图像数据中运动对象的动作类型。步骤S302描述的获取各时序帧的图像数据在不同卷积通道上的原始子特征图的步骤由多通道卷积层执行，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；步骤 S304描述的分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重的步骤是由动作信息增强模块执行的。而步骤S308，对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图的步骤，是由时序交互模块执行的。

上述动作识别方法，获取视频数据在不同时序帧的图像数据，在通过多通道卷积层获取各个时序帧的图像数据在不同卷积通道上的原始子特征图后，分别以各时序帧作为目标时序帧，通过目标时序帧以及后一时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各个卷积通道上的运行信息权重，并将运动信息权重加到对应的卷积通道的原始子特征图上，增强单一时序帧中原始子特征图上的运动信息，获得目标时序帧在各卷积通道上的运动信息特征图，然后对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，使得目标时序帧在各卷积通道上的运动信息特征图融合了来自相邻时序帧的运动信息特征图，实现在时序上这一维度上的建模，获得目标时序帧在各卷积通道上的时序运动特征图，最终将目标时序帧在各个卷积通道上的时序运动特征图作为目标时序帧的图像数据的特征信息进行动作识别，识别目标时序帧的图像数据中运动对象的动作类型，该动作识别方法在增强单一时序帧中原始子特征图上的运动信息的同时，实现对各时序帧间的时序信息进行建模，打乱各时序帧间的顺序会得到完全不同的动作识别结果，有效提高动作识别的精度性。

在一个实施例中，根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型的步骤之后，还包括：在得到各个时序帧的图像数据中运动对象的动作类型后，根据各时序帧的动作类型确定视频数据的动作类型。

其中，在获得目标时序帧的图像数据中运动对象的动作类型后，根据时序帧的次序，依次将后续的时序帧作为目标时序帧，并获取其图像数据中运动对象的动作类型，在得到所有时序帧的图像数据中的运动对象的动作类型后，最终对视频数据的所有时序帧的图像数据中的运动对象对应的动作类型进行融合，以获取对该视频数据的动作识别结果。

在一个实施例中，如图5所示，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重的步骤，包括：

步骤S502，获取目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息。

其中，差异信息可以描述两个时序帧的图像数据中运动对象的动作变化程度，即与运动对象的动作相关的信息；如前所述，在视频数据中获取的每一时序帧的图像数据中，都包含有对动作识别而言关键的信息，也包含有对动作识别而已无用甚至起反作用的噪声信息。但是由于在单一的时序帧的图像数据中，运动对象以及背景信息都是静态的，而运动是一个动作变化的过程，因此仅仅根据单一的时序帧的图像数据难以获取到运动对象的动作信息。而目标时序帧的图像数据在各个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上的原始子特征图间的差异信息，即前后时序帧中运动对象的动作变化，获取到前后时序帧中对应卷积通道上原始子特征图间的差异信息，即可得到目标时序帧的图像数据在各个卷积通道上的原始子特征图中所包含的运动信息。

可以理解的是，当目标时序帧的图像数据在某个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上的原始子特征图上间的差异信息越大，该卷积通道上的原始子特征图与运动对象的动作信息越相关，原始子特征图中包含越多的与运行相关的特征信息，相反，该卷积通道上的原始子特征图与运动对象的动作信息越不相关，原始子特征图中包含较少的与运行相关的特征信息。

具体地，获取目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息，具体可以是通过计算目标时序帧的图像数据在各个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上的原始子特征图上间的差值获得的。

步骤S504，通过激活函数将各卷积通道上差异信息映射为目标时序帧在各卷积通道上的运动信息权重。

其中，在得到目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息后，可以通过激活函数根据各个卷积通道上的差异信息获取对应卷积通道的运行信息权重。如上所述，当目标时序帧的图像数据在某个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上的原始子特征图上间的差异信息越大，该卷积通道上的原始子特征图的运动信息权重越大，相反，该卷积通道上的原始子特征图与运动对象的动作信息越不相关，该卷积通道上的原始子特征图的运动信息权重越小。

具体地，激活函数可以是Sigmiod函数。在得到目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息后，可通过激活函数Sigmiod函数，将在各个卷积通道上的差异信息映射为0到1之间的权重值，得到目标时序帧在各个通道上的原始子特征图的运动信息权重。

在一个实施例中，如图6a所示，获取目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息的步骤，包括：

步骤S602，分别通过单位池化层将目标时序帧在各卷积通道上的原始子特征图以及后一时序帧在各卷积通道上的原始子特征图变换为单位子特征图。

其中，单位池化层是指用于原始子特征图进行降维的池化层，可选的，单位池化层可以包括均值池化层(average pooling)，例如全局平均池化。

其中，单位子特征图是指长、宽均为1的特征图。具体地，通过单位池化层可以将空间大小为H*W的原始子特征图，降维为空间大小为1*1的单位子特征图。应该理解的是，此时在卷积通道这一维度是不变的，即获得的单位子特征图的卷积通道的数量与原始子特征图的卷积通道数据是相等的。

步骤S604，分别对目标时序帧在各卷积通道上的单位子特征图以及后一时序帧在各卷积通道上的单位子特征图进行预设缩放倍数的降维，得到降维后的单位子特征图。

其中，预设缩放倍数是根据实际情况设置的，可以根据原始子特征图在卷积通道这一维度上的数量与进行卷积通道降维后的单位子特征图在卷积通道这一维度上的数量的比值进行确定。例如，原始子特征图在卷积通道这一维度上的数量为265，而进行卷积通道降维后，单位子特征图在卷积通道这一维度上的数量为16，则预设缩放倍数为16倍。

其中，在获取到目标时序帧在各个卷积通道上的单位子特征图以及后一时序帧在各个卷积通道上的单位子特征图后，可以通过降维卷积层降低目标时序帧以及后一时序帧对应的单位子特征图在卷积通道这一维度上的数量，其中，该降维卷积层中卷积核的大小为1*1，卷积核的数量与降维后需要获得的单位子特征图在卷积通道这一维度上的数量相等。

例如，各个时序帧的原始子特征图的空间大小为H*W，在卷积通道这一维度的数量为C，即包括了C个空间大小为H*W的原始子特征图，各个时序帧的图像数据的原始子特征图的数据维度为C*H*W；在经过单位池化层后得到的单位子特征图在卷积通道这一维度的数量不变，空间大小降维为1*1，即单位子特征图的数据维度为(C*1*1)；然后，通过降维卷积层对卷积通道这一维度进行降维，将单位子特征图在卷积通道这一维度的数量降为(C/r)，即获得降维后的单位子特征图的数据维度为(C/r*1*1)，其中r为缩放倍数。

步骤S606，获取目标时序帧降维后的单位子特征图与后一时序帧降维后的单位子特征图间的降维差异信息。

其中，获取目标时序帧降维后的单位子特征图与后一时序帧降维后的单位子特征图间的降维差异信息，具体可以是通过计算目标时序帧降维后的单位子特征图与后一时序帧降维后的单位子特征图，在对应卷积通道上的单位子特征图的差值获得的。

步骤S608，对降维差异信息进行预设缩放倍数的升维，得到目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息。

其中，在得到降维差异信息后，可以通过升维卷积层将降维差异信息在卷积通道这一维度上的数量，恢复至与原始子特征图的卷积通道的数据一致。其中，该升维卷积层中卷积核的大小为1*1，卷积核的数量与原始子特征图的卷积通道数量相等。

本实施例中，通过单位池化层将目标时序帧在各卷积通道上的原始子特征图以及后一时序帧在各卷积通道上的原始子特征图变换为单位子特征图，并对获得的单位子特征图在卷积通道这一维度进行预设缩放倍数的降维后，降维后的单位子特征图的数据量相对于原始子特征图的数量量大大降低，使得计算目标时序帧与后一时序帧在各卷积通道上的原始子特征图的差异信息，转换为计算目标时序帧的降维后的单位子特征图与后一时序帧的降维后的单位子特征图间的差异信息，有效降低计算量，提高计算速度。

以图2所示的动作识别网络模型为例，上述如图5以及如图6所示的步骤可以由动作信息增强模块执行的；如图6b所示，图6b为一个实施例中计算目标时序帧在各卷积通道上的运动信息权重的示意图。图6中A、B两个输入分别表示目标时序帧的原始子特征图以及后一时序帧的原始子特征图，其中，输入A以及输入B的数据维度均为C*H*W，其中，H与W分别标识原始子特征图的长度以及宽度，C表示原始子特征图在卷积通道这一维度上的数量，即输入A与输入B均包括有C个卷积通道的、空间大小为H*W的原始子特征图。为了降低这一模块的计算量，先通过单位池化层分别对输入A中的原始子特征图以及输入B中的原始子特征图的空间维度进行降维，获得C个卷积通道、空间大小为1*1的单位子特征图。接着，通过第一降维池化层在卷积通道这一维度上对与输入A对应的单位子特征图进行降维，降维后的单位子特征图的数据维度为C/r*1*1，同样的，通过第二降维池化层在卷积通道这一维度上对与输入B对应的单位子特征图进行降维，降维后的单位子特征图的数据维度同样为C/r*1*1。可以理解的是，第一降维卷保护层与第二降维卷积层的网络参数一致。然后，将输入A、输入B这两个时序帧降维后的单位子特征图(数据维度为C/r*1*1)相减，得到表征运动信息的降维差异信息，该降维差异信息的数据维度为C/r*1*1，再通过升维卷积层将卷积通道这一维度的数量恢复至与原始子特征图的卷积通道的数量一致，得到数据维度为C*1*1的差异信息。最后，经过sigmoid函数将对应每个卷积通道的差异信息，映射为数据值为0至1的运动信息权重。后续将每个卷积通道的运动信息权重与对应卷积通道的原始子特征图进行相乘，使得部分卷积通道的原始子特征图的特征信息得到不同程度的增强，而其余卷积通道的原始子特征图的特征信息得到不同程度的抑制，实现利用后一时序帧的特征信息来增强目标时序帧的原始子特征图中与运动信息相关的特征信息。应该理解的是，由于最后一时序帧由于没有后帧，因此不能利用后一时序帧的原始子特征图中的特征信息增强本时序帧，即运动信息特征图与原始子特征图一致。

在一个实施例中，如图7所示，对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图的步骤，包括：

步骤S702，分别获取与目标时序帧相邻的前一时序帧在各卷积通道的运动信息特征图以及与目标时序帧相邻的后一时序帧在各卷积通道的运动信息特征图；

步骤S704，利用时序卷积核对目标时序帧、前一时序帧以及后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到目标时序帧在各个卷积通道上的时序运动特征图。

其中，分别获取前一时序帧在各卷积通道的运动信息特征图以及后一时序帧在各卷积通道的运动信息特征图，然后利用时序卷积核对目标时序帧、前一时序帧以及后一时序帧在同一卷积通道上的运动信息特征图进卷积运算，以获得目标时序帧在该卷积通道上的时序运动特征图，进而获取目标时序帧在所有卷积通道上的时序运动特征图，使得时序运动特征图中融合了前后时序帧的运动特征图，即运动对象的动作信息，实现在时序这一维度进行建模。

应该理解的是，前一时序帧在各卷积通道的运动信息特征图以及后一时序帧在各卷积通道的运动信息特征图的获取方法，与目标时序帧在各个卷积通道上的运动信息特征图的获取方法相同。例如，目标时序帧为第t帧，与目标时序帧相邻的前一时序帧为第(t-1)帧，则对于前一时序帧(第(t-1)帧)的运动信息特征图，是根据第(t-1)帧在各卷积通道上的原始子特征图，以及与第(t)帧在各卷积通道上的原始子特征图，计算第(t-1)帧在各卷积通道上的运动信息权重，然后根据第(t-1)帧在各卷积通道上的运动信息权重以及第(t-1)帧在各卷积通道上的原始子特征图，获取第(t-1)帧在各卷积通道上的运动信息特征图。同样的，与目标时序帧相邻的后一时序帧为第(t+1)帧，对于后一时序帧(第(t+1)帧)的运动信息特征图，是根据第(t+1)帧在各卷积通道上的原始子特征图，以及与第(t+2)帧在各卷积通道上的原始子特征图，计算第(t+1)帧在各卷积通道上的运动信息权重，然后根据第(t+1)帧在各卷积通道上的运动信息权重以及第(t+1)帧在各卷积通道上的原始子特征图，获取第(t+1)帧在各卷积通道上的运动信息特征图。

以图2所示的动作识别网络模型为例，上述利用时序卷积核对目标时序帧、前一时序帧以及后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到目标时序帧在各个卷积通道上的时序运动特征图的步骤可以由动作信息增强模块执行的，具体如图4所示，以图中第3时序帧作为目标时序帧，对于第3时序帧的时序运动特征图，利用一个3*1的卷积核对第2时序帧、第3时序帧以及第4时序帧的第1卷积通道进行卷积运算，以获取第3时序帧在第1卷积通道的时序运动特征图，同样的，利用一个3*1的卷积核对第2时序帧、第3时序帧以及第4时序帧的第2卷积通道进行卷积运算，以获取第3时序帧在第2卷积通道的时序运动特征图，以此类推，获得第3时序帧在各个卷积通道上的时序运动特征图。对于任意一个时序帧，可以利用其前后相邻的相邻时序帧，在各个卷积通道上进行时间维度上的卷积运算，使得运算后的时序运动特征图融合了前后时序帧的运动特征图，即运动对象的动作信息。

在一个实施例中，如图8a所示，根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型的步骤，包括：

步骤S802，将目标时序帧的时序运动特征图输入至残差网络层中，得到目标时序帧的图像数据的动作特征信息。

其中，残差网络层是用于获取时序运动特征图进行进一步的特征学习，以获取能够更好表征运动对象动作类型的动作特征信息。

具体地，在获得目标时序帧在各卷积通道的时序运动特征图后，将目标时序帧在各卷积通道的时序运动特征图作为目标时序帧的图像数据的特征信息，输入至残差网络层中，通过残差网络层对各个时序运动特征图进行特征学习，以获取图像数据的动作特征信息。其中，运动特征信息在卷积通道这一维度上的数量可以与时序运行特征图的一致。

步骤S804，将动作特征信息输入至动作分类网络层中，识别目标时序帧的图像数据中运动对象的动作类型。

其中，动作分类网络层是用于根据图像数据的动作特征信息进行动作类型识别的网络结构，这里的动作分类网络层是经过训练的动作分类网络层，可直接用于获取图像数据中运动对象的动作类型。具体地，在获取到目标时序帧的图像数据的动作特征信息后，将动作特征信息输入至动作分类网络层中，通过动作分类网络层获取目标时序帧中图像数据运动对象的动作类型。

以图2所示的动作识别网络模型为例，上述根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型的步骤可以由主干网络层执行的，其中，主干网络层中的残差网络层是用于获取时序运动特征图进行进一步的特征学习，以获取能够更好表征运动对象动作类型的动作特征信息，而主干网络层中的池化层以及全连接层相当于动作分类网络层，用于根据输入的动作特征信息识别目标时序帧的图像数据中运动对象的动作类型。进一步地，在一个实施例中，残差网络层的网络结构可以如图8b所示，其中，包括三个卷积神经网络，分别为两端的2个大小为1*1的二维卷积神经网络(2Dconv)、以及中间大小为3*3的二维卷积神经网络。

在一个实施例中，将目标时序帧的时序运动特征图输入至残差网络层中，得到目标时序帧的图像数据的动作特征信息的步骤之后，还包括：将动作特征信息确定为目标时序帧的图像数据在不同卷积通道上的原始子特征图；重新执行根据目标时序帧在各卷积通道上的原始子特征图，以及后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重的步骤。

其中，在得到目标时序帧的图像数据的动作特征信息后，可以将动作特征信息重新确定为目标时序帧的图像数据在不同卷积通道上的原始子特征图，然后重新对新确定的原始子特征图进行相同的操作，即计算原始子特征图在各个卷积通道上的运动信息权重，并将运动信息权重加到对应的卷积通道的原始子特征图上，获得目标时序帧在各卷积通道上的运动信息特征图，然后利用时序卷积核对目标时序帧与相邻时序帧在同一卷积通道的运动信息特征图进行卷积，使得目标时序帧在各卷积通道上的运动信息特征图融合了来自相邻时序帧的运动信息特征图，获得目标时序帧在各卷积通道上的时序运动特征图。

通过将动作特征信息确定为原始子特征图，再次基于注意力机制对运动特征信息进行的信息增强，以及再次对时序信息进行建模，可有效提高动作特征信息表征动作信息的能力，后续将动作特性信息用于动作识别，有效提高动作识别的精度。

以图2所示的动作识别网络模型为例，图中的动作信息增强模块用于对每一时序帧的图像数据在不同卷积通道上的原始子特征图进行动作信息增强，得到每一时序帧的图像数据在不同卷积通道上的动作信息特征图；而时序交互模块用于对前后相邻时序帧的图像数据的动作信息特征图在相同卷积通道上进行卷积运算，得到时序运动特征图，该时序运行特征图融合了前后相邻时序帧的运动信息；而主干网络层中的残差网络层用于获取时序运动特征图进行进一步的特征学习，以获取能够更好表征运动对象动作类型的动作特征信息。对于动作信息增强模块、时序交互模块以及残差网络层，可以作为一个特征提取单元，通过多个特征提取单元，提高特征学习的精度，可有效提高动作识别的精度。

进一步的，对于动作信息增强模块以及时序交互模块，不仅仅可应用于视频数据的动作识别这一应用环境中，还可以用于与任何需要对视频数据进行建模的场景中，例如，动作信息增强模块可以嵌入到对连续时序帧建模的神经网络中，根据应用场景的不同，针对性的增强有利于应用场景的特征信息而抑制不利于应用场景的噪声信息，时序交互模块也可以嵌入与任何2D卷积网络中进行对时序信息的建模，有助于特征学习。

在一个实施例中，如图9所示，动作识别方法还包括：

步骤S902，获取视频样本，其中视频样本包括多张不同样本时序帧的图像样本以及各样本时序帧的图像样本中运动对象的标准动作类型。

其中，视频样本是指用于动作识别网络模型的视频样本。视频样本中包括有多张不同样本时序帧的图像样本，以及各个图像样本对应的标准动作类型。

步骤S904，通过多通道卷积层获取各图像样本在不同卷积通道上的原始子特征图样本。

其中，将图像样本作为多通道卷积层的输入数据输入至多通道卷积层中，多通道卷积层中的各个卷积核对图像样本进行卷积计算，获取与各个卷积核对应的卷积通道的原始子特征图样本。

步骤S906，分别以各个样本时序帧作为目标样本时序帧，获取目标样本时序帧的原始子特征图样本以及后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息。

其中，样本差异信息可以描述两个样本时序帧的图像样本中运动对象的动作变化程度，即与运动对象的动作相关的信息；在视频样本中获取的每一样本时序帧的图像样本中，都包含有对动作识别而言关键的信息，也包含有对动作识别而已无用甚至起反作用的噪声信息。但是由于在单一的样本时序帧的图像样本中，运动对象以及背景信息都是静态的，而运动是一个动作变化的过程，因此仅仅根据单一的样本时序帧的图像样本难以获取到运动对象的动作信息。而目标样本时序帧的图像样本在各个卷积通道上的原始子特征图样本，与其后一样本时序帧的图像样本在对应卷积通道上的原始子特征图样本间的差异信息，即前后样本时序帧中运动对象的动作变化，获取到前后样本时序帧中在对应卷积通道上原始子特征图样本间的样本差异信息，即可得到目标样本时序帧的图像样本在各个卷积通道上的原始子特征图样本中所包含的运动信息。

具体地，获取目标样本时序帧的原始子特征图样本与后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息，具体可以是通过计算目标样本时序帧的图像样本在各个卷积通道上的原始子特征图样本，与其后一样本时序帧的图像样本在对应卷积通道上的原始子特征图样本上间的差值获得的。

进一步地，可以对目标样本时序帧在各卷积通道上的原始子特征图样本进行数据降维，得到目标样本时序帧降维后的单位子特征图样本，并对后一样本时序帧在各卷积通道上的原始子特征图样本进行数据降维进行数据降维，得到后一样本时序帧降维后的单位子特征图样本，降维后的后的单位子特征图的数据量相对于原始子特征图的数量大大降低，通过将计算目标样本时序帧与后一样本时序帧在各卷积通道上的原始子特征图样本的样本差异信息，转换为计算目标样本时序帧的降维后的单位子特征图样本与后一样本时序帧的降维后的单位子特征图样本间的差异信息，有效降低计算量，提高计算速度。

步骤S908，通过激活函数将各卷积通道上样本差异信息映射为目标样本时序帧在各卷积通道上的运动信息权重样本。

其中，在得到目标样本时序帧的原始子特征图样本与后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息后，可以通过激活函数根据各个卷积通道上的差异信息获取对应卷积通道的运行信息权重。具体地，激活函数可以是Sigmiod函数。在得到目标样本时序帧的原始子特征图样本与后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息后，可通过激活函数Sigmiod函数，将在各个卷积通道上的样本差异信息映射为0到1之间的权重值，得到目标样本时序帧在各个通道上的原始子特征图样本的运动信息权重。

步骤S910，根据目标样本时序帧在各卷积通道上的运动信息权重样本以及原始子特征图样本，获取目标样本时序帧在各卷积通道上的运动信息特征图样本。

步骤S912，对目标样本时序帧在各卷积通道上的运动信息特征图样本进行时序卷积，得到目标样本时序帧在各卷积通道上的时序运动特征图样本。

其中，在得到各个样本时序帧在各个卷积通道上的运动信息特征图样本后，可以利用时序卷积核，对目标样本时序帧以及相邻的样本时序帧在同一卷积通道上的运动信息特征图样本进行卷积运算，以获取目标样本时序帧在各个卷积通道上的时序运动特征图样本，使得时序运动特征图样本中融合了前后样本时序帧的运动特征图样本，即运动对象的动作信息，实现在时序这一维度进行建模。

步骤S914，根据目标样本时序帧在各卷积通道的时序运动特征图样本获取目标样本时序帧的图像样本中运动对象的预测动作类型。

其中，在得到目标样本时序帧的图像数据的时序运动特征图样本后，可以利用时序运动特征图样本作为图像样本的特征信息，获取目标样本时序帧的图像样本中运动对象的动作类型。具体地，可以将时序运动特征图样本输入至用于动作识别的2D卷积网络中，以获取目标样本时序帧的图像样本中运动对象的预测动作类型。

步骤S916，根据预测动作类型以及标准动作类型间的差异，调整多通道卷积层、激活函数以及时序卷积核的参数，继续训练直至满足训练结束条件。

其中，在获得图像样本的预测动作类型后，可将预测动作类型与标准动作类型间的差异作为损失函数，对多通道卷积层、激活函数以及时序卷积核的参数进行调整，直至训练结束条件。这里的训练结束条件可根据实际需要进行调整或设置，例如，当损失函数满足收敛条件，则可认为达到训练结束条件；或者当训练次数达到预设次数时，则可认为达到训练结束条件。

在一个实施例中，一种动作识别方法，包括：

1、获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

2、分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

2-1、获取目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息；

2-1-1、分别通过单位池化层将目标时序帧在各卷积通道上的原始子特征图以及后一时序帧在各卷积通道上的原始子特征图变换为单位子特征图；

2-1-2、分别对目标时序帧在各卷积通道上的单位子特征图以及后一时序帧在各所述卷积通道上的单位子特征图进行预设缩放倍数的降维，得到降维后的单位子特征图；

2-1-3、获取目标时序帧降维后的单位子特征图与后一时序帧降维后的单位子特征图间的降维差异信息；

2-1-4、对所述降维差异信息进行预设缩放倍数的升维，得到目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息。

2-2、通过激活函数将各卷积通道上差异信息映射为目标时序帧在各卷积通道上的运动信息权重。

3、根据目标时序帧在各卷积通道上的运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

4、对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；

4-1、分别获取与目标时序帧相邻的前一时序帧在各卷积通道的运动信息特征图以及与目标时序帧相邻的后一时序帧在各卷积通道的运动信息特征图；

4-2、利用时序卷积核对目标时序帧、前一时序帧以及后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到目标时序帧在各个卷积通道上的时序运动特征图。

5、根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

5-1、将目标时序帧的时序运动特征图输入至残差网络层中，得到目标时序帧的图像数据的动作特征信息；

5-2、将所述动作特征信息输入至动作分类网络层中，识别目标时序帧的图像数据中运动对象的动作类型。

6、在得到各个时序帧的图像数据中运动对象的动作类型后，根据各时序帧的动作类型确定所述视频数据的动作类型。

进一步地，结合图2所示的动作识别网络模型以及图10，对动作识别方法进行进一步说明。在图10中，左边栏目是从视频中按时间顺序截取的两个时序帧的图像数据，其中，左边栏目中的第一列图像数据为目标时序帧的图像数据，第二列为后一时序帧的图像数据；右边栏目中，第一列的图像是对左边栏目中的目标时序帧的图像数据对应的原始子特征图的可视化，第二列图像是原始子特征图经过动作信息增强模块后获得的运动信息特征图的可视化，第三列图像是运动信息特征图经过时序交互模块后获得的时序运动特征图的可视化。从图10中可以看出，原始子特征图中即包括有对动作识别而言关键的信息，也包含有对动作识别而已无用甚至起反作用的噪声信息，其中噪声信息较多，运动对象的轮廓较为模糊；而经过动作信息增强模块后获得的运动信息特征图中，运动对象的轮廓变得清洗，与动作信息无关的背景噪声信息得到一定程度上的一致；而经过时序交互模块后获得的时序运动特征图中，不仅具有左边栏目中第一列目标时序帧图像数据的信息，还包括了左边栏目中第二列后一时序帧图像数据的信息，达到了对时序信息进行建模的目的。

进一步的，上述步骤2到步骤4中对数据的操作过程是在卷积通道这一维度上进行的，不同的卷积通道的特征图(包括原始子特征图或运动信息特征图)是相互独立的，相邻卷积通道的特征图的信息不会被混合，使得运算过程中运算量保持在低运算量而具有较高的运算速度。同样的，图2中的动作信息增强模块以及时序交互模块都是在卷积通道上进行操作的，即对于单一或多个时序帧在各个卷积通道的特征图(原始子特征图或运动信息特征图)，不同的卷积通道的特征图是相互独立的，相邻卷积通道的特征图的信息不会被混合，使得运算过程中运算量保持在低运算量而具有较高的运算速度。

在一个实施例中，如图11所示，一种动作识别方法，包括：

步骤S1102，获取实时的监控视频数据。

其中，本实施例是应用于实时监控的场景中的，视频数据选用实时获取的监控视频数据。监控视频数据可以是通过摄像头拍摄的实时视频，其中，监控视频数据的图像中包括被监视的运动对象。

步骤S1104，提取监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图。

其中，不同时序帧的图像数据是指按照拍摄的时间顺序从监控视频数据中抽取的图像数据，其中，包括监控视频数据中所有时序帧的图像数据。获取视频数据在不同时序帧的图像数据，具体可以是按照视频数据中图像数据的排列顺序依次获取。

其中，原始子特征图是指表征图像数据的特征信息；多通道卷积层是指用于获取图像数据中的特征信息的网络模型，这里的多通道卷积层是已训练好的网络模型，可直接用来获取图像数据的特征信息。其中，多通道卷积层包括多个卷积核，卷积通道是由多通道卷积层所决定的，多通道卷积层中用于抽取图像数据的卷积核的数量，即为卷积通道数量。具体地，将监控视频中的各个时序帧的图像数据分别作为多通道卷积层的输入数据输入至多通道卷积层中，多通道卷积层中的各个卷积核对图像数据进行卷积计算，获取与各个卷积核对应的卷积通道的原始子特征图。

步骤S1106，确定目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重。

其中，目标时序帧是指当前时刻获取的图像数据所对应的时序帧，后一时序帧是指相对于目标时序帧，下一时刻所对应的时序帧。

在监控视频数据中获取的每一时序帧的图像数据中，都包含有对动作识别而言关键的信息，例如运动对象的表观信息，也包含有对动作识别而已无用甚至起反作用的噪声信息，例如图像数据中的噪声或背景信息。在获取目标时序帧的图像数据在不同卷积通道上的原始子特征图与运动对象的动作信息的相关性，即运动信息权重后，可通过增大包含与运动对象动作信息更相关的原始子特征图中的特征信息，即该卷积通道上的原始子特征图分配更多的注意力，而抑制包含较少的运动对象的动作信息或包含更多噪声信息的原始子特征图，即该卷积通道上的原始子特征图分配较少的注意力，实现对对动作识别有利的信息得到增强而对动作识别无关甚至有害的信息得到一致，有效提高动作识别的准确性。

由于单一的时序帧的图像数据中，运动对象以及背景信息都是静态的，而运动是一个动作变化的过程，因此需要通过目标时序帧的图像数据及其后一时序帧的图像数据实现对运动对象的动作变化过程进行描述，以提高动作识别的准确度。其中，在获取到每一时序帧的图像数据在各个卷积通道上的原始子特征后，对于每一时序帧的图像数据，以其本身作为目标时序帧的图像数据，从而根据目标时序帧的图像数据在不同卷积通道上的原始子特征图，及其后一时序帧的图像数据在不同卷积通道上原始子特征图，获取目标时序帧在各个卷积通道上的原始子特征图对应的运动信息权重。

具体地，获取目标时序帧在各个卷积通道上的原始子特征图所包含的运动信息权重，具体可以先计算目标时序帧的图像数据在各个卷积通道上的原始子特征图，与其后一时序帧的图像数据在对应卷积通道上原始子特征图间的差异度，然后根据各个卷积通道上原始子特征图间的差异度确定目标时序帧的图像数据在各个卷积通道上对应的运动信息权重。

步骤S1108，根据目标时序帧在各卷积通道上的运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图。

步骤S1110，对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图。

其中，对目标时序帧在在各个卷积通道上的运动信息特征图进行时序卷积，具体可以是根据目标时序帧确定待卷积时序帧，对目标时序帧与待卷积时序帧在同一卷积通道上的运动信息特征图进行卷积，以获取目标时序帧在各个卷积通道上的时序运动特征图，使得时序运动特征图中融合了前后时序帧的运动特征图，即运动对象在前后时间的动作信息，实现在时序这一维度进行建模。其中，待卷积时序帧在各个卷积通道上的运动信息特征图的获取方法，与目标时序帧在各个卷积通道上的运动信息特征图的获取方法相同。

步骤S1112，根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

其中，在得到目标时序帧的图像数据的时序运动特征后，可以将时序运动特征图确定为目标时序帧图像数据的特征信息，并根据该特征信息识别目标时序帧的图像数据中运动对象的动作类型。具体地，可以将时序运动特征图输入至用于动作识别的2D卷积网络中，以识别目标时序帧的图像数据中运动对象的动作类型。时序运动特征图中即包括较强的与运动相关的信息，又包括时序信息，利用时序运动特征图进进行动作识别，可有效提高动作识别的精确度。

步骤S1114，将动作类型确定为当前监控视频数据中运动对象的动作信息。

其中，在获得目标时序帧的图像数据中运动对象的动作类型后，将该动作类型确定为监控视频数据中运动对象的动作信息，实现实时更新运动对象的运动信息，无需观看监控视频即可获取运动对象的运动信息，同时确保对运动对象的实时监控。

进一步地，可以通过显示装置显示该运动信息，使得监控人员获取监控视频中运动对象的运动状态。

以待监控对象是人为例，假设被监控人正在做跨步这以动作，获取实时监控视频数据中当前时刻拍摄到的目标时序帧以及与目标时序帧相邻的后一时序帧，通过目标时序帧以及后一时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各个卷积通道上的运行信息权重，并将运动信息权重加到目标时序帧对应的卷积通道的原始子特征图上，获得目标时序帧在各卷积通道上的运动信息特征图，然后根据目标时序帧确定待卷积时序帧，从而对待卷积时序帧在同一卷积通道的运动信息特征图进行卷积，获得目标时序帧在各卷积通道上的时序运动特征图，最终将目标时序帧在各个卷积通道上的时序运动特征图作为目标时序帧的图像数据的特征信息进行动作识别，得到目标时序帧的图像数据中被监控人的动作类型，此时被监控人的动作类型为跨步动作类型，并将该动作类型确定为被监控人的动作信息。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种动作识别装置1200，设置于计算机设备中，该装置包括：图像获取模块1202、权重获取模块1204、特征确定模块1206、时序交互模块1208以及动作识别模块1210，其中：：

图像获取模块1202，用于获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

权重获取模块1204，用于分别以各个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

特征确定模块1206，用于根据目标时序帧在各卷积通道上的运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

时序交互模块1208，用于对目标时序帧在各卷积通道上的运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；

动作识别模块1210，用于根据目标时序帧在各卷积通道的时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。

在一个实施例中，如图13所示，权重获取模块1204，包括：

差异信息获取模块1204a，用于获取目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息；

权重映射模块1204b，用于通过激活函数将各卷积通道上差异信息映射为目标时序帧在各卷积通道上的运动信息权重。

在一个实施例中，差异信息获取模块，用于：分别通过单位池化层将目标时序帧在各卷积通道上的原始子特征图以及后一时序帧在各卷积通道上的原始子特征图变换为单位子特征图；分别对目标时序帧在各卷积通道上的单位子特征图以及后一时序帧在各卷积通道上的单位子特征图进行预设缩放倍数的降维，得到降维后的单位子特征图；获取目标时序帧降维后的单位子特征图与后一时序帧降维后的单位子特征图间的降维差异信息；对降维差异信息进行预设缩放倍数的升维，得到目标时序帧的原始子特征图与后一时序帧的原始子特征图在各卷积通道上的差异信息。

在一个实施例中，时序交互模块，用于：分别获取与目标时序帧相邻的前一时序帧在各卷积通道的运动信息特征图以及与目标时序帧相邻的后一时序帧在各卷积通道的运动信息特征图；利用时序卷积核对目标时序帧、前一时序帧以及后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到目标时序帧在各个卷积通道上的时序运动特征图。

在一个实施例中，动作识别模块，用于将目标时序帧的时序运动特征图输入至残差网络层中，得到目标时序帧的图像数据的动作特征信息；将动作特征信息输入至动作分类网络层中，获取目标时序帧图像数据中运动对象的动作类型。

在一个实施例中，时序交互模块，还用于将动作特征信息确定为目标时序帧的图像数据在不同卷积通道上的原始子特征图，并使得权重获取模块1104再次根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重。

在一个实施例中，动作识别模块，还用于在得到各个时序帧的图像数据中运动对象的动作类型后，根据各时序帧的动作类型确定视频数据的动作类型。

在一个实施例中，动作识别装置还包括训练模块，训练模块用于获取视频样本，其中视频样本包括多张不同样本时序帧的图像样本以及各样本时序帧的图像样本中运动对象的标准动作类型；通过多通道卷积层获取各图像样本在不同卷积通道上的原始子特征图样本；分别以各个样本时序帧作为目标样本时序帧，获取目标样本时序帧的原始子特征图样本以及后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息；通过激活函数将各卷积通道上样本差异信息映射为目标样本时序帧在各卷积通道上的运动信息权重样本；根据目标样本时序帧在各卷积通道上的运动信息权重样本以及原始子特征图样本，获取目标样本时序帧在各卷积通道上的运动信息特征图样本；对目标样本时序帧在各卷积通道上的运动信息特征图样本进行时序卷积，得到目标样本时序帧在各卷积通道上的时序运动特征图样本；根据目标样本时序帧在各卷积通道的时序运动特征图样本获取目标样本时序帧的图像样本中运动对象的预测动作类型；根据预测动作类型以及目标样本时序帧的标准动作类型间的差异，调整多通道卷积层、激活函数以及时序卷积核的参数，继续训练直至满足训练结束条件。

在一个实施例中，提供了一种动作识别装置，设置于计算机设备中，该装置包括：图像获取模块、权重获取模块、特征确定模块、时序交互模块以及动作识别模块；其中：

图像获取模块，用于获取实时的监控视频数据；提取监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图。

权重获取模块，用于分别以每个时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重。

特征确定模块，用于根据运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图。

时序交互模块，用于对运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图。

动作识别模块，用于根据时序运动特征图，识别目标时序帧的图像数据中运动对象的动作类型；将动作类型确定为当前监控视频数据中运动对象的动作信息。

关于动作识别装置的具体限定可以参见上文中对于动作识别方法的限定，在此不再赘述。上述动作识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图14示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器102。如图14所示，该计算机设备包括该计算机设备包括通过系统总线连接的一个或多个处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，可使得一个或多个处理器实现动作识别方法。该内存储器中也可储存有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，可使得一个或多个处理器执行动作识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的动作识别装置可以实现为一种计算机可读指令的形式，计算机可读指令可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该动作识别装置的各个程序模块，比如，图12所示的图像获取模块1202、权重获取模块1204、特征确定模块1206、时序交互模块1208以及动作识别模块1210。各个程序模块构成的计算机可读指令使得一个或多个处理器执行本说明书中描述的本申请各个实施例的动作识别方法中的步骤。

例如，图14所示的计算机设备可以通过如图12所示的动作识别装置中的图像获取模块1202执行步骤S302。计算机设备可通过权重获取模块1204执行步骤S304。计算机设备可通过特征确定模块1206执行步骤S306。计算机设备可通过时序交互模块1208执行步骤S308。计算机设备可通过动作识别模块1210执行步骤S310。

在一个实施例中，提供了一种计算机设备，包括存储器和一个或多个处理器，存储器存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述动作识别方法的步骤。此处动作识别方法的步骤可以是上述各个实施例的动作识别方法中的步骤。

在一个实施例中，提供了一个或多个计算机可读存储介质，存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述动作识别方法的步骤。此处动作识别方法的步骤可以是上述各个实施例的动作识别方法中的步骤。

本申请各实施例中的“多个”即为至少两个。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种动作识别方法，由计算机设备执行，包括：

获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各所述时序帧的图像数据在不同卷积通道上的原始子特征图；

分别以每个所述时序帧作为目标时序帧，根据所述目标时序帧在各所述卷积通道上的原始子特征图，以及与所述目标时序帧相邻的后一时序帧在各所述卷积通道上的原始子特征图，计算所述目标时序帧在各所述卷积通道上的运动信息权重；

根据所述运动信息权重以及所述目标时序帧在各所述卷积通道上的原始子特征图，获取所述目标时序帧在各所述卷积通道上的运动信息特征图；

对所述运动信息特征图进行时序卷积，得到所述目标时序帧在各卷积通道上的时序运动特征图；及

根据所述时序运动特征图，识别所述目标时序帧的图像数据中运动对象的动作类型。
根据权利要求1所述的方法，其特征在于，所述根据所述目标时序帧在各所述卷积通道上的原始子特征图，以及与所述目标时序帧相邻的后一时序帧在各所述卷积通道上的原始子特征图，计算所述目标时序帧在各所述卷积通道上的运动信息权重，包括：

获取所述目标时序帧的原始子特征图与所述后一时序帧的原始子特征图在各所述卷积通道上的差异信息；

通过激活函数，将各所述卷积通道上差异信息映射为所述目标时序帧在各所述卷积通道上的运动信息权重。
根据权利要求2所述的方法，其特征在于，所述获取所述目标时序帧的原始子特征图与所述后一时序帧的原始子特征图在各所述卷积通道上的差异信息，包括：

通过单位池化层，分别将所述目标时序帧在各卷积通道上的原始子特征图、以及所述后一时序帧在各所述卷积通道上的原始子特征图变换为单位子特征图；

分别对目标时序帧的所述单位子特征图以及所述后一时序帧的所述单位子特征图进行预设缩放倍数的降维，得到降维后的单位子特征图；

获取所述目标时序帧降维后的单位子特征图与所述后一时序帧降维后的单位子特征图间的降维差异信息；

对所述降维差异信息进行所述预设缩放倍数的升维，得到所述目标时序帧的原始子特征图与所述后一时序帧的原始子特征图在各所述卷积通道上的差异信息。
根据权利要求1所述的方法，其特征在于，所述对所述运动信息特征图进行时序卷积，得到所述目标时序帧在各卷积通道上的时序运动特征图，包括：

分别获取与目标时序帧相邻的前一时序帧在各所述卷积通道的运动信息特征图、以及所述后一时序帧在各所述卷积通道的运动信息特征图；

利用时序卷积核，对目标时序帧、所述前一时序帧以及所述后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到所述目标时序帧在各卷积通道上的时序运动特征图。
根据权利要求1所述的方法，其特征在于，所述根据所述时序运动特征图，识别所述目标时序帧的图像数据中运动对象的动作类型，包括：

将所述目标时序帧的时序运动特征图输入至残差网络层中，得到所述目标时序帧的图像数据的动作特征信息；

将所述动作特征信息输入至动作分类网络层中，识别所述目标时序帧的图像数据中运动对象的动作类型。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述动作特征信息确定为所述目标时序帧的图像数据在不同卷积通道上的原始子特征图；

重新执行根据所述目标时序帧在各所述卷积通道上的原始子特征图，以及与所述目标时序帧相邻的后一时序帧在各所述卷积通道上的原始子特征图，计算所述目标时序帧在各所述卷积通道上的运动信息权重的步骤。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

在得到各个时序帧的图像数据中运动对象的动作类型后，根据各所述时序帧的动作类型，确定所述视频数据对应的动作类型。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取视频样本，其中所述视频样本包括多张不同样本时序帧的图像样本以及各样本时序帧的图像样本中运动对象的标准动作类型；

通过多通道卷积层获取各所述图像样本在不同卷积通道上的原始子特征图样本；

分别以每个所述样本时序帧作为目标样本时序帧，获取目标样本时序帧的原始子特征图样本以及后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息；

通过激活函数将各卷积通道上样本差异信息映射为目标样本时序帧在各卷积通道上的运动信息权重样本；

根据目标样本时序帧在各卷积通道上的运动信息权重样本以及原始子特征图样本，获取目标样本时序帧在各卷积通道上的运动信息特征图样本；

对目标样本时序帧在各卷积通道上的运动信息特征图样本进行时序卷积，得到目标样本时序帧在各卷积通道上的时序运动特征图样本；

根据目标样本时序帧在各卷积通道的时序运动特征图样本获取目标样本时序帧的图像样本中运动对象的预测动作类型；

根据所述预测动作类型以及目标样本时序帧的标准动作类型间的差异，调整所述多通道卷积层、所述激活函数以及时序卷积核的参数，继续训练直至满足训练结束条件。
一种动作识别方法，其特征在于，由计算机设备执行，包括：

获取实时的监控视频数据；

提取所述监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

分别以每个所述时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

根据所述运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

对所述运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；及

根据时序运动特征图，识别目标时序帧的图像数据中运动对象的动作类型；

将所述动作类型确定为当前所述监控视频数据中运动对象的动作信息。
一种动作识别装置，其特征在于，设置于计算机设备中，包括：

图像获取模块，用于获取视频数据在不同时序帧的图像数据，通过多通道卷积层获取各所述时序帧的图像数据在不同卷积通道上的原始子特征图；

权重获取模块，用于分别以每个所述时序帧作为目标时序帧，根据所述目标时序帧在各所述卷积通道上的原始子特征图，以及与所述目标时序帧相邻的后一时序帧在各所述卷积通道上的原始子特征图，计算所述目标时序帧在各所述卷积通道上的运动信息权重；

特征确定模块，用于根据所述运动信息权重以及所述目标时序帧在各所述卷积通道上的原始子特征图，获取所述目标时序帧在各所述卷积通道上的运动信息特征图；

时序交互模块，用于对所述运动信息特征图进行时序卷积，得到所述目标时序帧在各卷积通道上的时序运动特征图；及

动作识别模块，用于根据所述时序运动特征图识别目标时序帧的图像数据中运动对象的动作类型。
根据权利要求10所述的装置，其特征在于，所述权重获取模块，包括：

差异信息获取模块，用于获取所述目标时序帧的原始子特征图与所述后一时序帧的原始子特征图在各所述卷积通道上的差异信息；

权重映射模块，用于通过激活函数，将各所述卷积通道上差异信息映射为所述目标时序帧在各所述卷积通道上的运动信息权重。
根据权利要求10所述的装置，其特征在于，所述差异信息获取模块，还用于：

通过单位池化层，分别将所述目标时序帧在各卷积通道上的原始子特征图、以及所述后一时序帧在各所述卷积通道上的原始子特征图变换为单位子特征图；

分别对目标时序帧的所述单位子特征图以及所述后一时序帧的所述单位子特征图进行预设缩放倍数的降维，得到降维后的单位子特征图；

获取所述目标时序帧降维后的单位子特征图与所述后一时序帧降维后的单位子特征图间的降维差异信息；

对所述降维差异信息进行所述预设缩放倍数的升维，得到所述目标时序帧的原始子特征图与所述后一时序帧的原始子特征图在各卷积通道上的差异信息。
根据权利要求10所述的装置，其特征在于，所述时序交互模块还用于：

分别获取与目标时序帧相邻的前一时序帧在各卷积通道的运动信息特征图、以及所述后一时序帧在各卷积通道的运动信息特征图；

利用时序卷积核，对目标时序帧、所述前一时序帧以及所述后一时序帧在同一卷积通道的运动信息特征图进卷积运算，得到所述目标时序帧在各所述卷积通道上的时序运动特征图。
根据权利要求10所述的装置，其特征在于，所述动作识别模块还用于将所述目标时序帧的时序运动特征图输入至残差网络层中，得到所述目标时序帧的图像数据的动作特征信息；将所述动作特征信息输入至动作分类网络层中，识别所述目标时序帧的图像数据中运动对象的动作类型。
根据权利要求14所述的装置，其特征在于，所述时序交互模块，还用于将所述动作特征信息确定为所述目标时序帧的图像数据在不同卷积通道上的原始子特征图；并使得所述权重获取模块重新执行根据所述目标时序帧在各所述卷积通道上的原始子特征图，以及与所述目标时序帧相邻的后一时序帧在各所述卷积通道上的原始子特征图，计算所述目标时序帧在各所述卷积通道上的运动信息权重。
根据权利要求10所述的装置，其特征在于，所述动作识别模块，还用于在得到各个时序帧的图像数据中运动对象的动作类型后，根据各所述时序帧的动作类型，确定所述视频数据对应的动作类型。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

训练模块，用于获取视频样本，其中所述视频样本包括多张不同样本时序帧的图像样本以及各样本时序帧的图像样本中运动对象的标准动作类型；通过多通道卷积层获取各所述图像样本在不同卷积通道上的原始子特征图样本；分别以每个所述样本时序帧作为目标样本时序帧，获取目标样本时序帧的原始子特征图样本以及后一样本时序帧的原始子特征图样本在各卷积通道上的样本差异信息；通过激活函数将各卷积通道上样本差异信息映射为目标样本时序帧在各卷积通道上的运动信息权重样本；根据目标样本时序帧在各卷积通道上的运动信息权重样本以及原始子特征图样本，获取目标样本时序帧在各卷积通道上的运动信息特征图样本；对目标样本时序帧在各卷积通道上的运动信息特征图样本进行时序卷积，得到目标样本时序帧在各卷积通道上的时序运动特征图样本；根据目标样本时序帧在各卷积通道的时序运动特征图样本获取目标样本时序帧的图像样本中运动对象的预测动作类型；根据所述预测动作类型以及目标样本时序帧的标准动作类型间的差异，调整所述多通道卷积层、所述激活函数以及时序卷积核的参数，继续训练直至满足训练结束条件。
一种动作识别装置，其特征在于，设置于计算机设备中，包括：

图像获取模块，用于获取实时的监控视频数据；提取所述监控视频数据在不同时序帧的图像数据，通过多通道卷积层获取各时序帧的图像数据在不同卷积通道上的原始子特征图；

权重获取模块，用于分别以每个所述时序帧作为目标时序帧，根据目标时序帧在各卷积通道上的原始子特征图，以及与目标时序帧相邻的后一时序帧在各卷积通道上的原始子特征图，计算目标时序帧在各卷积通道上的运动信息权重；

特征确定模块，用于根据所述运动信息权重以及目标时序帧在各卷积通道上的原始子特征图，获取目标时序帧在各卷积通道上的运动信息特征图；

时序交互模块，用于对所述运动信息特征图进行时序卷积，得到目标时序帧在各卷积通道上的时序运动特征图；及

动作识别模块，用于根据时序运动特征图，识别目标时序帧的图像数据中运动对象的动作类型；将所述动作类型确定为当前所述监控视频数据中运动对象的动作信息。
一个或多个计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至9中任一项所述方法的步骤。
一种计算机设备，包括存储器和一个或多个处理器，所述存储器存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至9中任一项所述方法的步骤。