WO2018019126A1

WO2018019126A1 - 视频类别识别方法和装置、数据处理装置和电子设备

Info

Publication number: WO2018019126A1
Application number: PCT/CN2017/092597
Authority: WO
Inventors: 汤晓鸥; 王利民; 熊元骏; 王喆; 乔宇; 林达华
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-07-29
Filing date: 2017-07-12
Publication date: 2018-02-01
Also published as: CN106599789A; CN106599789B

Abstract

本公开提供了一种视频类别识别方法和装置、数据处理装置和电子设备。其中的方法包括：对视频进行分段，获得两个或者以上分段视频；分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果；以及利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果；对空域分类结果和时域分类结果进行融合处理，获得所述视频的分类结果。

Description

视频类别识别方法和装置、数据处理装置和电子设备

本公开要求在2016年7月29日提交中国专利局、申请号为201610619654.1、发明名称为“视频类别识别方法和装置、数据处理装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开属于计算机视觉技术领域，特别是涉及一种视频类别识别方法和装置、数据处理装置和电子设备。

背景技术

动作识别是计算机视觉研究的一个热门方向。动作识别技术主要是通过对由彩色图片序列构成的视频进行处理，来识别出视频中的动作。动作识别技术的难点在于：如何对动态变化的视频内容进行处理，以克服距离、视角的变化，相机的移动，以及场景的变化等来正确识别出视频中的动作。

发明内容

本公开提供一种视频类别识别技术方案。

根据本公开的一个方面，提供一种视频类别识别方法，包括：对视频进行分段，获得两个或者以上分段视频；分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果；以及利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果；对所述空域分类结果和所述时域分类结果进行融合处理，获得所述视频的分类结果。

根据本公开的另一个方面，提供一种视频类别识别装置，包括：分段单元，用于对视频进行分段，获得两个或者以上分段视频；采样单元，用于分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；空域分类处理单元，用于利用空域卷积神经网络处理各分段视频的原始图以获得所述视频的空域分类结果；时域分类处理单元，用于分别利用时域卷积神经网络处理各分段视频的光流图像以获得各分段视频的时域分类结果；融合单元，用于对所述空域分类结果和所述时域分类结果进行融合处理，获得所述视频的分类结果。

根据本公开的又一个方面，提供一种数据处理装置，包括：上述所述的视频类别识别装置。

根据本公开的再一个方面，提供的一种电子设备，设置有上述所述的数据处理装置。

根据本公开的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：对视频进行分段，获得两个或者以上分段视频的指令；分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像的指令；利用空域卷积神经网络处理各分段视频的原始图像以得到所述视频的空域分类结果的指令；以及利用时域卷积神经网络处理各分段视频的光流图像以得到所述视频的时域分类结果的指令；对所述空域分类结果和所述时域分类结果进行融合处理，获得所述视频的分类结果的指令。

根据本公开的再一个方面，提供一种计算机设备，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令从而完成本公开上述视频类别识别方法对应的操作。

基于本公开提供的视频类别识别方法和装置、数据处理装置和电子设备，通过对视频进行分段处理，获得两个或者以上分段视频；并分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；再利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果；而且可以利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果；最后对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果。本公开通过将视频分成两个或者以上分段视频，并对各分段视频分别采样帧图片和帧间光流，在对卷积神经网络进行训练时，可以实现对长时间动作的建模，使得后续利用训练获得的网络模型对视频分类进行识别时，有利于提高视频类别识别的正确率，有利于提升视频类别识别效果，并且计算代价较小。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出了本公开的一应用场景示意图。

图2是本公开视频类别识别方法一个实施例的流程图。

图3是本公开视频类别识别方法另一个实施例的流程图。

图4是本公开视频类别识别方法又一个实施例的流程图。

图5是本公开视频类别识别方法再一个实施例的流程图。

图6是本公开中对初始空域卷积神经网络进行训练的一个实施例的流程图。

图7是本公开中对初始时域卷积神经网络进行训练的一个实施例的流程图。

图8是本公开视频类别识别装置一个实施例的结构示意图。

图9是本公开视频类别识别装置另一个实施例的结构示意图。

图10是本公开视频类别识别装置又一个实施例的结构示意图。

图11是本公开视频类别识别装置又一个实施例的结构示意图。

图12是本公开视频类别识别装置再一个实施例的结构示意图。

图13是本公开视频类别识别装置一个应用实例的示意图。

图14是本公开电子设备一个实施例的结构示意图。

具体实施例

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件的相对布置、数字表达式和数值不限制本公开的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开提供的技术方案可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在基于深度学习的动作识别技术中，双流式卷积神经网络(Two-Stream Convolution Neural Network)是具有代表性的一种网络模型。双流式卷积神经网络是使用两个卷积神经网络，即空域卷积神经网络和时域卷积神经网络分别对帧图片和帧间光流进行建模，并通过对两个卷积神经网络的分类结果进行融合，来识别出视频中的动作。

然而，虽然双流式卷积神经网络可以同时对帧图片和帧间光流，即对短时动作信息进行建模，但是却缺乏对长时间动作的建模能力，这导致动作识别的正确率无法获得保证。

图1示意性地示出了根据本公开提供的视频类别识别技术方案可以在其中实现的一应用场景。

图1中，至少一个电子设备(如终端侧的电子设备A1、电子设备A2、……、以及电子设备Am中的一个或多个)为具有互联网接入能力的电子设备。电子设备A1、电子设备A2、……电子设备Am中的一个或多个电子设备中均存储有视频。存储于电子设备中的视频可以是用户利用其电子设备拍摄的视频，也可以是用户通过电子设备间的数据传输而存储在其电子设备中的视频，还可以是用户利用其电子设备从网络中下载的视频等。用户可以将其电子设备中存储的视频通过互联网上传或发送至相应的服务端或终端侧的其他电子设备，服务端或者终端侧的电子设备均可以对其获得的视频进行分类存储管理。上述服务端可以由服务侧的单个如服务器等电子设备形成，也可以由多个如服务器等电子设备形成。本公开不限制服务端或者终端侧中的电子设备的具体表现形式。

本公开提供的技术方案可以使服务端或终端侧的电子设备自动地对其获得的视频的内容分别进行分析，并识别出各视频各自所属的类别，从而服务端或终端侧的电子设备可以将其获得的各视频按照其所属的类别自动的划分到第一类别的视频集合、第二类别的视频集合、……或者第z类别的视频集合中。本公开通过将各视频自动划分在相应类别的视频集合中，方便了服务端或终端侧的电子设备的视频分类管理。

然而，本领域技术人员可以理解，本公开还可以适用于其他应用场景中，即本公开所能够适用的应用场景并不会受上述举例的应用场景的限制；例如：可以在没有接入互联网的某个电子设备(如电子设备中的处理器)中执行本公开，或者在非终端-服务端结构的点对点通信中的电子设备(如电子设备的处理器)中执行本公开，等等。

下面结合图2-图14对本公开提供的视频类别识别技术方案进行说明。

图2中，102，对视频进行分段，获得两个或者以上分段视频。

作为一个可选示例，步骤102可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的分段单元执行。

作为一个可选示例，分段单元对视频进行分段时，可以对视频进行平均分段，获得长度相同的两个或者以上分段视频。例如，分段单元将视频平均分成长度相同的3个分段视频或5个分段视频，分段数量视实际效果确定。另外，分段单元也可以对视频进行随机分段、或者从视频中提取几段分别作为分段视频。

在一个可选示例中，分段单元接收到视频后，可以获取视频的长度，分段单元根据视频的长度及预先设定的分段数量确定每一段视频的长度，据此分段单元可以将接收到的视频平均分成长度相同的两个或者以上分段视频。

分段单元对视频进行平均分段时，得到的各分段视频的长度相同，在处理器(例如，被处理器运行的网络训练单元)基于长时间视频对卷积神经网络的网络模型进行训练时，可以简化网络模型的训练过程；在利用训练好的卷积神经网络进行视频类别识别时，由于对各分段视频识别所需的时间相近，有利于提高视频类别识别的整体效率。

104，分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像。

作为一个可选示例，步骤104可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的采样单元执行。

示例性地，采样单元中的图像采样模块获得各分段视频的原始图像时，可以分别从各分段视频中随机抽取一帧图像，作为各分段视频的原始图像。

示例性地，采样单元中的光流采样模块获得各分段视频的光流图像时，可以分别从各分段视频中随机抽取连续的多帧图像，获得各分段视频的光流图像。

在一个可选的实现方式中，光流图像可以是基于8位位图、共256个离散的色阶的灰度图像，灰度图像的中值为128。

由于光流场是一个向量场，当使用灰度图像表示光流图像时，需要用两幅标量场图片表示光流图像，即分别对应于光流图像坐标轴的X方向和Y方向幅度的两幅标量场图片。

可选地，光流采样模块分别从各分段视频中随机抽取连续的多帧图像，获得各分段视频的光流图像，可以通过如下方式实现：分别针对各分段视频：

光流采样模块从每一分段视频中随机抽取连续的N帧图像；其中，N为大于1的整数；以及

光流采样模块分别基于N帧图像中的每相邻的两帧图像进行计算，获得N-1组光流图像，其中N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。

例如，可以分别针对各分段视频：光流采样模块从每一分段视频中随机抽取连续的6帧图像；光流采样模块分别基于6帧图像中的每相邻的两帧图像进行计算，光流采样模块获得5组光流灰度图像，其中5组光流灰度图像中的每一组光流灰度图像分别包括一帧横向光流灰度图像及一帧纵向光流灰度图像，即光流采样模块获得10帧光流灰度图像，这10帧光流灰度图像可以作为一张10通道的图像。

106，利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果；以及利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果。

作为一个可选示例，步骤106可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的空域分类处理单元和时域分类处理单元执行，例如，空域分类处理单元利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果，而时域分类处理单元利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果。

其中，视频的空域分类结果和视频的时域分类结果分别为维度等于分类类别数量的分类结果向量。例如，分类结果包括：跑步、跳高、竞走、撑杆跳、跳远及三级跳，共6个类别，则空域分类结果和时域分类结果分别为维度等于6的分类结果向量。

108，对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果。

作为一个可选示例，步骤108可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的融合单元执行。

其中，视频的分类结果为维度等于分类类别数量的分类结果向量。例如，分类结果包括：跑步、跳高、竞走、撑杆跳、跳远及三级跳，共6个类别，则视频的分类结果为维度等于6的分类结果向量。

作为一个可选示例，融合单元对空域分类结果和时域分类结果进行融合处理可以是：融合单元将空域分类结果与时域分类结果分别乘以预先设定的权重系数后进行求和，获得视频的分类结果。其中，权重系数是融合单元根据对应卷积神经网络的网络模型在验证数据集上的分类正确率确定，分类正确率高的网络模型权重较高，验证数据集是由具有真实类别标注，而未参与网络训练的视频构成。验证数据集可以通过任何可能的方式获得，例如，通过在搜索引擎中搜索相应类别的视频获得。

在一个可选应用中，空域分类结果与时域分类结果之间的权重系数比值可以是1:1至1:3之间的任一比值，在一个可选的实现方式中，该比值可以为1:1.5。

基于本公开提供的视频类别识别方法，通过对视频进行分段，获得两个或以上分段视频；并分别对两个或以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果；以及利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果；最后对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果。本公开通过将视频分成分段视频，对各分段视频分别采样帧图片和帧间光流，在对卷积神经网络进行训练时，可以实现对长时间动作的建模，使得后续利用训练获得的网络模型对视频分类进行识别时，有利于提高视频类别识别的正确率，有利于提升视频类别识别效果，并且计算代价较小。

图3中，202，对视频进行分段，获得两个或者以上分段视频。

作为一个可选示例，步骤202可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的分段单元执行。

作为一个可选示例，分段单元对视频进行分段时，可以对视频进行平均分段，获得长度相同的两个或以上分段视频，以简化卷积神经网络的网络模型的训练过程，提高视频类别识别的整体效率。例如，分段单元将视频平均分成长度相同的3个分段视频或5个分段视频，分段数量视实际效果确定。

另外，分段单元也可以对视频进行随机分段、或者从视频中提取几段作为分段视频。如图13所示，在本公开视频类别识别方法的一个应用实施例中，分段单元将视频平均分成3个分段视频。

204，分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像。

作为一个可选示例，步骤204可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的采样单元执行。

例如，采样单元中的图像采样模块可以分别从各分段视频中随机抽取一帧图像，作为各分段视频的原始图像；采样单元中的光流采样模块可以分别从各分段视频中随机抽取连续的多帧图像，获得各分段视频的光流图像。

如图13所示，在本公开视频类别识别方法的一个应用实施例中，采样单元分别对3个分段视频进行采样，得到3个分段视频的一帧原始图像和帧间光流图像。在一个可选的实现方式中，原始图像可以为RGB彩色图像，光流图像可以为灰度图像。

206，分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果；以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果。

作为一个可选示例，步骤206可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的空域分类处理模块和第一时域分类处理模块执行，例如，空域分类处理模块分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果，而第一时域分类处理模块分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果。

其中，空域初步分类结果和时域初步分类结果分别为维度等于分类类别数量的分类结果向量。例如，分类结果包括：跑步、跳高、竞走、撑杆跳、跳远及三级跳，共6个类别，则空域初步分类结果和时域初步分类结果分别为维度等于6的分类结果向量。

如图13所示，在本公开视频类别识别技术的一个可选示例中，空域分类处理模块分别利用空域卷积神经网络对3个分段视频的原始图像进行处理，得到3个分段视频的3个空域初步分类结果；第一时域分类处理模块分别利用时域卷积神经网络对3个分段视频的光流图像进行处理，得到3个分段视频的3个时域初步分类结果。空域卷积神经网络和/或时域卷积神经网络，可以先通过卷积层、非线性层、池化层等的组合，获得图像的特征表示，再通过线性分类层，得到属于每一类别的得分，即每个分段视频的初步分类结果。例如，分类结果可以包括：跑步、跳高、竞走、撑杆跳、跳远以及三级跳，共6个类别，则每个分段视频的空域初步分类结果和时域初步分类结果分别为包含视频属于这6个类别的分类得分的6维向量。

208，利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果；以及利用时域共识函数对分段视频的时域初步分类结果进行综合处理，获得视频的时域分类结果。

作为一个可选示例，步骤208可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的第一综合处理模块和第二综合处理模块执行，例如，第一综合处理模块可以利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果，而第二综合处理模块可以利用时域共识函数对分段视频的时域初步分类结果进行综合处理，获得视频的时域分类结果。

其中，视频的空域分类结果和视频的时域分类结果可以分别为维度等于分类类别数量的分类结果向量。

在一个可选示例中，空域共识函数和/或时域共识函数包括：平均函数、最大值函数或带权平均函数。本公开可以选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为空域共识函数；本公开可以选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为时域共识函数。

在一个可选示例中，平均函数，具体为对不同分段视频间同一类别的类别得分取平均值作为输出的该类别的类别得分；最大值函数，具体为对不同分段视频间同一类别的类别得分，通过函数选取其中的最大值作为输出的类别得分；带权平均函数，具体为对不同分段视频间同一类别的类别得分取带权的平均值作为输出的该类别的类别得分，其中各个类别使用同一套权值，并这套权值是在训练时作为网络模型参数优化获得。

例如，在图13所示的应用实施例中，处理器可以选取平均函数作为空域共识函数和时域共识函数，选取平均函数作为空域共识函数和时域共识函数，第一综合处理模块利用空域共识函数计算3个分段视频的3个空域初步分类结果中属于每一类别的3个得分的平均值，作为该类别的类别得分，这样就得到了一组对所有类别的类别得分，作为视频的空域分类结果；第二综合处理模块利用时域共识函数计算3个分段视频的3个时域初步类别结果中属于每一类别的3个得分的平均值，作为该类别的类别得分，这样就得到了一组对所有类别的类别得分，作为视频的时域分类结果。例如，分类结果包括：跑步、跳高、竞走、撑杆跳、跳远及三级跳，共6个类别，则视频的空域分类结果和时域分类结果分别为包含视频属于这6个类别的类别得分的6维向量。

210，对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果。

作为一个可选示例，步骤210可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的融合单元执行。

其中，视频的分类结果为维度等于分类类别数量的分类结果向量。

如图13所示，在本公开视频类别识别方法的一个应用实施例中，融合单元将视频空域分类结果与时域分类结果分别乘以1:1.5的权重系数后进行求和，得到视频的分类结果。例如，分类结果可以包括：跑步、跳高、竞走、撑杆跳、跳远及三级跳，共6个类别，则视频的分类结果为包含视频属于这6个类别的分类得分的6维向量。其中，得分最高的类别即为视频所属的类别，在该实施例中得分最高的类别为跳高，则识别出视频的类别为跳高。

基于本公开提供的视频类别识别技术方案，通过在各分段视频间使用共识函数，通过共识函数综合各分段视频的初步分类结果，获得视频的分类结果，由于共识函数不对各分段视频使用的卷积神经网络模型进行限制，因此，可以实现不同分段视频共享网络模型的参数，使网络模型的参数更少，从而可以采用具有较少参数的网络模型实现对任意长度的视频的类别的识别，在训练过程中，通过对任意长度的视频分段，并进行分段式网络训练，通过比较整个视频的分类结果与真实标签进行监督学习，可以实现全视频层次的训练监督，不受视频长度的限制。

图4中，302，对视频进行分段，获得两个或者以上分段视频。作为一个可选示例，步骤302可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的分段单元执行。

304，分别对两个或以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及原始光流图像。作为一个可选示例，步骤304可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的采样单元执行，例如，采用单元中的图像采样模块获得各分段视频的原始图像，光流采样模块获得各分段视频的原始光流图像。

306，获取原始光流图像变形后的变形光流图像。作为一个可选示例，步骤306可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的光流处理单元执行。

在一个可选示例中，光流处理单元获取原始光流图像变形后的变形光流图像包括：光流处理单元分别对每相邻的两帧图像进行计算，获得每相邻的两帧图像之间的单应性变换矩阵；光流处理单元分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换；光流处理单元分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算，获得变形光流图像。

由于经过上述仿射变换后的后一帧图像上的特征点与作为基准的前一帧图像上对应的特征点之间不存在单应性变换，因此，由前一帧图像及仿射变换后的后一帧图像计算得到的变形光流图像，作为视频类别识别的输入信息，有利于降低相机移动对视频类别识别效果的影响。

在一个可选示例中，光流处理单元对每相邻的两帧图像进行计算包括：光流处理单元根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

308，分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果；分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果；以及分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果。

作为一个可选示例，步骤308可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的空域分类处理模块、第一时域分类处理模块和第二时域分类处理模块执行，例如，空域分类处理模块分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果，第一时域分类处理模块分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果，第二时域分类处理模块分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果。

310，利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果；利用第一时域共识函数对分段视频的第一时域初步分类结果进行综合处理，获得视频的第一时域分类结果；以及利用第二时域共识函数对分段视频的第二时域初步分类结果进行综合处理，获得视频的第二时域分类结果。

作为一个可选示例，步骤310可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的第一综合处理模块、第二综合处理模块和第三综合处理模块执行，例如，第一综合处理模块利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果，第二综合处理模块利用第一时域共识函数对分段视频的第一时域初步分类结果进行综合处理，获得视频的第一时域分类结果，第三综合处理模块利用第二时域共识函数对分段视频的第二时域初步分类结果进行综合处理，获得视频的第二时域分类结果。

312，对空域分类结果、第一时域分类结果和第二时域分类结果进行融合处理，获得视频的分类结果。作为一个可选示例，步骤312可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的融合单元执行。

作为一个可选示例，融合单元对空域分类结果、第一时域分类结果和第二时域分类结果进行融合处理包括：融合单元将空域分类结果、第一时域分类结果和第二时域分类结果分别乘以预先设定的权重系数后进行求和，获得视频的分类结果。其中，权重系数是根据对应的网络模型在验证数据集上的分类正确率确定，分类正确率高的网络模型获得较高权重。

例如，在一个可选应用中，空域分类结果与第一时域分类结果及第二时域分类结果之间的权重系数比值可以是1:a:b，且a与b之和不小于1，且不大于3，在一个可选的实现方式中，该比值可以为1:1:0.5等。

由于目前广泛使用的双流式卷积神经网络采用短时运动信息表示光流图像，在提取光流图像时并未考虑相机的移动，这可能会导致在相机移动较大时无法识别视频中的动作，而影响识别效果。

基于本公开提供的视频类别识别技术，除了采用帧图片和帧间光流之外，还使用变形的光流作为附加的短时运动信息表示，将视频类别识别的输入拓展为三种信息，即帧图片、帧间光流和变形光流，由于变形光流去除了相机移动的影响，因此有利于降低相机移动视频类别识别效果的影响，在训练过程中，同样采用三种输入信息，即帧图片、帧间光流和变形光流，对网络模型进行训练，有利于降低相机移动对网络模型的影响，从而有利于提高视频类别识别技术对相机移动的鲁棒性。

图5中，3020，对视频进行分段，获得两个或者以上分段视频。作为一个可选示例，步骤3020 可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的分段单元执行。

3040，分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及原始光流图像。作为一个可选示例，步骤3040可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的采样单元执行，例如，采用单元中的图像采样模块获得各分段视频的原始图像，光流采样模块获得各分段视频的原始光流图像。

3060，获取原始光流图像变形后的变形光流图像。作为一个可选示例，步骤3060可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的光流处理单元执行。

在一个可选的示例中，光流处理单元获取原始光流图像变形后的变形光流图像包括：光流处理单元分别对每相邻的两帧图像进行计算，获得每相邻的两帧图像之间的单应性变换矩阵；光流处理单元分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换；光流处理单元分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算，获得变形光流图像。光流处理单元对每相邻的两帧图像进行计算包括：光流处理单元根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

3080，分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果；分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果。

作为一个可选示例，步骤3080可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的空域分类处理模块和第二时域分类处理模块执行，例如，空域分类处理模块分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果，第二时域分类处理模块分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果。

3100，利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果；以及利用第二时域共识函数对分段视频的第二时域初步分类结果进行综合处理，获得视频的第二时域分类结果。

作为一个可选示例，步骤3100可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的第一综合处理模块和第三综合处理模块执行，例如，第一综合处理模块利用空域共识函数对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果，第三综合处理模块利用第二时域共识函数对分段视频的第二时域初步分类结果进行综合处理，获得视频的第二时域分类结果。

3120，对空域分类结果和第二时域分类结果进行融合处理，获得视频的分类结果。

作为一个可选示例，步骤3120可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的融合单元执行。

作为一个可选示例，融合单元对空域分类结果和第二时域分类结果进行融合处理包括：融合单元将空域分类结果和第二时域分类结果分别乘以预先设定的权重系数后进行求和，获得视频的分类结果。其中，权重系数是根据对应的网络模型在验证数据集上的分类正确率确定，分类正确率高的网络模型获得较高权重。

在一个可选示例中，空域分类结果与第二时域分类结果之间的权重系数比值可以是1:1-1:3之间的任一比值，在一个可选的实现方式中，该比值可以为1:1.5等。

本公开上述视频类别识别技术可应用于卷积神经网络模型的训练阶段，也可应用于卷积神经网络模型的测试阶段和后续应用阶段。

在本公开视频类别识别技术的一个可选的实施例中，在视频类别识别技术应用于卷积神经网络模型的测试阶段和后续应用阶段时，可以在步骤108、210、312或3120获得视频的分类结果后，利用Softmax函数对融合处理获得的分类结果向量进行归一化处理，得到视频属于各类别的分类概率向量。作为一个可选示例，本步骤中的归一化处理操作可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的第一归一化处理单元执行。

在本公开视频类别识别技术的一个可选的实施例中，上述视频类别识别技术应用于卷积神经网络模型的训练阶段时，还可以包括如下操作：

预设初始空域卷积神经网络和初始时域卷积神经网络；作为一个可选示例，预设初始空域卷积神经网络和初始时域卷积神经网络的操作可以由处理器调用存储器存储的指令执行，且预设的初始空域卷积神经网络和初始时域卷积神经网络可以存储于网络训练单元中；

分别基于各作为样本的视频，采用随机梯度下降法(SGD)对初始空域卷积神经网络进行训练，获得上述各实施例中的空域卷积神经网络；以及采用随机梯度下降法对初始时域卷积神经网络进行训练，获得上述各实施例中的时域卷积神经网络。作为一个可选示例，本步骤可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的网络训练单元执行。

其中，作为样本的各视频预先标注有标准空域分类结果信息。

随机梯度下降法是通过每个样本来迭代更新一次网络模型，网络训练单元采用随机梯度下降法对初始空域卷积神经网络和初始时域卷积神经网络进行训练，训练速度快，有利于提高网络训练效率。

图6中，402，针对一个作为样本的视频，开始执行本公开上述各可选实施例所示流程的操作，直到获得视频的空域分类结果。例如，处理器执行操作102-106、202-208、302-310或3020-3100中与空域相关的操作，获得视频的空域分类结果。

404，比较视频的空域分类结果相对于该视频的预设标准空域分类结果的偏差是否小于预设范围。

若不小于预设范围，执行操作406。若小于预设范围，结束对初始空域卷积神经网络的训练流程，以当前的初始空域卷积神经网络作为最终的空域卷积神经网络，不执行本实施例的后续流程。406，对初始空域卷积神经网络的网络参数进行调整。

408，以调整网络参数后的空域卷积神经网络作为新的初始空域卷积神经网络，针对下一个作为样本的视频，开始执行操作402。作为一个可选示例，步骤404、406和408可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的网络训练单元执行。

图7中，502，针对一个作为样本的视频，开始执行对视频进行分段的操作，直到获得视频的时域分类结果。例如，处理器执行操作102-106、202-208、302-310或3020-3100中与时域相关的操作，获得视频的时域分类结果。

504，比较视频的时域分类结果相对于视频的预设标准时域分类结果的偏差是否小于预设范围。

若不小于预设范围，执行操作506。若不小于预设范围，结束对初始时域卷积神经网络的训练流程，以当前的初始时域卷积神经网络作为最终的时域卷积神经网络，不执行本实施例的后续流程。

506，对初始时域卷积神经网络的网络参数进行调整。

508，以调整网络参数后的时域卷积神经网络作为新的初始时域卷积神经网络，针对下一个作为样本的视频，开始执行操作502。

作为一个可选示例，步骤504、506和508可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的网络训练单元执行。

在图7所示的可选实施例中，初始时域卷积神经网络可以第一初始时域卷积神经网络或第二初始时域卷积神经网络，时域分类结果相应的包括第一时域分类结果或第二时域分类结果，时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。即，可以通过图7所示实施例分别实现或同时实现对第一初始时域卷积神经网络、第二初始时域卷积神经网络的训练。

进一步地，通过图6、图7所示实施例对初始空域卷积神经网络和初始时域卷积神经网络进行训练时，还可以包括如下操作：利用Softmax函数对视频的空域分类结果进行归一化处理，获得视频属于各类别的一个空域分类概率向量；以及利用Softmax函数对视频的时域分类结果进行归一化处理，获得视频属于各类别的一个时域分类概率向量。作为一个可选示例，该操作可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的第二归一化处理单元执行。相应地，图6、图7所示的空域分类结果、时域分类结果，可以是未归一化的分类结果、或者归一化的分类概率向量。

如图13所示，为本公开视频类别识别装置的一个可选应用实例，其中的时域卷积神经网络可以是第一时域卷积神经网络，也可以是第二时域卷积神经网络，还可以同时包括第一时域卷积神经网络和第二时域卷积神经网络。

另外，本公开还提供了一种数据处理装置，该数据处理装置包括本公开中的视频类别识别装置。

基于本公开上述实施例提供的数据处理装置，设置有上述实施例的物视频类别识别装置，通过将视频分成两个或者以上分段视频，对各分段视频分别采样帧图片和帧间光流，在对卷积神经网络进行训练时，可以实现对长时间动作的建模，使得后续利用训练获得的网络模型对视频分类进行识别时，相对于现有技术提高了视频类别识别的正确率，提升了视频类别识别效果，并且计算代价较小。

本公开实施例的数据处理装置可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。另外，本公开还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备设置有本公开的数据处理装置。

基于本公开上述实施例提供的电子设备，设置有上述实施例的数据处理装置，通过将视频分成两个或者以上分段视频，对各分段视频分别采样帧图片和帧间光流，在对卷积神经网络进行训练时，可以实现对长时间动作的建模，使得后续利用训练获得的网络模型对视频分类进行识别时，有利于提高视频类别识别的正确率，有利于提升视频类别识别效果，并且计算代价较小。

图14是本公开电子设备一个实施例的结构示意图，如图14所示，用于实现本公开实施例的电子设备包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本公开提供的视频类别识别方法对应的操作，例如：对视频进行分段，获得两个或者以上分段视频；分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；分别利用空域卷积神经网络对各分段视频的原始图像进行处理，以获得各分段视频的空域分类结果；以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域分类结果；对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果。

此外，在RAM中，还可存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本公开的可选示例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的技术方案包括一种计算机程序产品，其可以包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，所述程序代码可包括对应执行本公开提供的任一项视频分类方法步骤对应的可执行指令，例如，对视频进行分段，获得两个或者以上分段视频的可执行指令；分别对两个或以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像的可执行指令；分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果的可执行指令；以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果的可执行指令；对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果的可执行指令；以及对分段视频的时域初步分类结果进行综合处理，获得视频的时域分类结果的可执行指令；对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果的可执行指令。该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本公开的方法中限定的功能。

本公开实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：对视频进行分段，获得两个或者以上分段视频的可执行指令；分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像的可执行指令；分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果的可执行指令；以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果的可执行指令；对分段视频的空域初步分类结果进行综合处理，获得视频的空域分类结果的可执行指令；以及对分段视频的时域初步分类结果进行综合处理，获得视频的时域分类结果的可执行指令；对空域分类结果和时域分类结果进行融合处理，获得视频的分类结果的可执行指令。

另外，本公开还提供了一种计算机设备，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令，从而完成本公开上述任一示例的视频类别识别方法对应的操作。

本申请中的各个示例均采用递进的方式描述，每个示例重点说明的可能包括与其它示例的不同之处，各个示例之间相同或相似的部分可以相互参见。对于装置/系统示例而言，由于其与方法示例基本对应，所以描述的比较简单，相关之处参见方法示例的部分说明即可。

可能以许多方式来实现本公开的方法、装置以及设备。例如，可以通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法、装置以及设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种视频类别识别方法，其特征在于，包括：

对视频进行分段，获得两个或者以上分段视频；

分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；

利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果；以及利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果；

对所述空域分类结果和所述时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求1所述的方法，其特征在于，所述对视频进行分段包括：

对所述视频进行平均分段，获得长度相同的两个或者以上分段视频。
根据权利要求1或2所述的方法，其特征在于，所述分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像包括：

分别从各分段视频中随机抽取一帧图像，作为各分段视频的原始图像；和/或

分别从各分段视频中随机抽取连续的多帧图像，根据所述多帧图像获得各分段视频的光流图像。
根据权利要求1或2或3所述的方法，其特征在于，所述光流图像为基于8位位图、共256个离散的色阶的灰度图像，所述灰度图像的中值为128。
根据权利要求3或4所述的方法，其特征在于，所述分别从各分段视频中随机抽取连续的多帧图像，根据所述多帧图像获得各分段视频的光流图像包括：

分别针对各分段视频：从每一分段视频中随机抽取连续的N帧图像；其中，N为大于1的整数；以及

分别基于所述N帧图像中的每相邻的两帧图像进行计算，获得N-1组光流图像，所述N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。
根据权利要求1至5任意一项所述的方法，其特征在于，

所述利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果包括：

分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果；

利用空域共识函数对所述分段视频的空域初步分类结果进行综合处理，获得所述视频的空域分类结果；

和/或

所述利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果包括：

分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果；

利用时域共识函数对所述分段视频的时域初步分类结果进行综合处理，获得所述视频的时域分类结果。
根据权利要求6所述的方法，其特征在于，所述空域共识函数和/或所述时域共识函数包括：平均函数、最大值函数或带权平均函数。
根据权利要求7所述的方法，其特征在于，所述平均函数、最大值函数或带权平均函数具体为：在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数。
根据权利要求6至8任意一项所述的方法，其特征在于，所述空域初步分类结果及所述时域初步分类结果分别为维度等于分类类别数量的分类结果向量；

所述视频的空域分类结果及所述视频的时域分类结果分别为维度等于分类类别数量的分类结果向量；

所述视频的分类结果为维度等于分类类别数量的分类结果向量。
根据权利要求1至9任意一项所述的方法，其特征在于，所述对所述空域分类结果和所述时域分类结果进行融合处理包括：

将所述空域分类结果与所述时域分类结果分别乘以预先设定的权重系数后进行求和，获得所述视频的分类结果。
根据权利要求10所述的方法，其特征在于，所述空域分类结果与所述时域分类结果之间的权重系数比值为1:1至1:3中任一比值。
根据权利要求1至11任意一项所述的方法，其特征在于，所述光流图像具体为原始光流图像，所述时域卷积神经网络具体为第一时域卷积神经网络；

且所述利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果包括：

分别利用所述第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果；

利用第一时域共识函数对所述分段视频的第一时域初步分类结果进行综合处理，获得所述视频的第一时域分类结果；

所述对所述空域分类结果和所述时域分类结果进行融合处理包括：对所述空域分类结果和所述第一时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求1至11任意一项所述的方法，其特征在于，所述光流图像具体为原始光流图像的变形光流图像，所述时域卷积神经网络具体为第二时域卷积神经网络；

所述方法还包括：获取所述原始光流图像变形后的变形光流图像；

且所述利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果包括：

分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果；

利用第二时域共识函数对所述各分段视频的第二时域初步分类结果进行综合处理，获得所述视频的第二时域分类结果；

所述对所述空域分类结果和所述时域分类结果进行融合处理包括：对所述空域分类结果和所述第二时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求1至11任意一项所述的方法，其特征在于，所述光流图像具体为原始光流图像和变形光流图像，所述时域卷积神经网络具体为第一时域卷积神经网络和第二时域卷积神经网络；

所述方法还包括：获取所述原始光流图像变形后的变形光流图像；

且所述利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果包括：

分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果；

利用第一时域共识函数对所述各分段视频的第一时域初步分类结果进行综合处理，获得所述视频的第一时域分类结果；

分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果；

利用第二时域共识函数对所述各分段视频的第二时域初步分类结果进行综合处理，获得所述视频的第二时域分类结果；

所述对所述空域分类结果和所述时域分类结果进行融合处理包括：对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求13或14所述的方法，其特征在于，所述获取所述原始光流图像变形后的变形光流图像包括：

分别对每相邻的两帧图像进行计算，获得每相邻的两帧图像之间的单应性变换矩阵；

分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换；

分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算，获得变形光流图像。
根据权利要求15所述的方法，其特征在于，所述对每相邻的两帧图像进行计算包括：根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。
根据权利要求14至16任意一项所述的方法，其特征在于，对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理包括：

将所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果分别乘以预先设定的权重系数后进行求和，获得所述视频的分类结果。
根据权利要求17所述的方法，其特征在于，所述空域分类结果与所述第一时域分类结果及所述第二时域分类结果之间的权重系数比值为1:a:b，且a与b之和不小于1，且不大于3。
根据权利要求1至18任意一项所述的方法，其特征在于，所述视频的分类结果为维度等于分类类别数量的分类结果向量；

所述方法还包括：

利用Softmax函数对所述视频的分类结果向量进行归一化处理，获得视频属于各类别的分类概率向量；或者

利用Softmax函数对所述视频的空域分类结果进行归一化处理，获得所述视频属于各类别的一个空域分类概率向量；以及利用Softmax函数对所述视频的时域分类结果进行归一化处理，获得所述视频属于各类别的一个时域分类概率向量。
根据权利要求1至18任意一项所述的方法，其特征在于，还包括：

预设初始空域卷积神经网络和初始时域卷积神经网络；

分别基于各作为样本的视频，采用随机梯度下降法对所述初始空域卷积神经网络进行训练，获得所述空域卷积神经网络；以及采用随机梯度下降法对所述初始时域卷积神经网络进行训练，获得所述时域卷积神经网络。
根据权利要求20所述的方法，其特征在于，采用随机梯度下降法对所述初始空域卷积神经网络进行训练，获得所述空域卷积神经网络包括：

针对一个作为样本的视频，开始执行所述对视频进行分段的操作，直到获得所述视频的空域分类结果；

比较所述视频的空域分类结果相对于所述视频的预设标准空域分类结果的偏差是否小于预设范围；

若不小于预设范围，对所述初始空域卷积神经网络的网络参数进行调整；以调整网络参数后的空域卷积神经网络作为初始空域卷积神经网络，针对下一个作为样本的视频，开始执行所述对视频进行分段的操作；

若小于预设范围，以当前的初始空域卷积神经网络作为所述空域卷积神经网络。
根据权利要求20所述的方法，其特征在于，采用随机梯度下降法对所述初始时域卷积神经网络进行训练，获得所述时域卷积神经网络包括：

针对一个作为样本的视频，开始执行所述对视频进行分段的操作，直到获得所述视频的时域分类结果；

比较所述视频的时域分类结果相对于所述视频的预设标准时域分类结果的偏差是否小于预设范围；

若不小于预设范围，对所述初始时域卷积神经网络的网络参数进行调整；以调整网络参数后的时域卷积神经网络作为初始时域卷积神经网络，针对下一个作为样本的视频，开始执行所述对视频进行分段的操作；

若小于预设范围，以当前的初始时域卷积神经网络作为所述时域卷积神经网络；

所述初始时域卷积神经网络包括第一初始时域卷积神经网络或第二初始时域卷积神经网络，所述时域分类结果相应的包括第一时域分类结果或第二时域分类结果，所述时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。
一种视频类别识别装置，其特征在于，包括：

分段单元，用于对视频进行分段，获得两个或者以上分段视频；

采样单元，用于分别对两个或者以上分段视频中的各分段视频进行采样，获得各分段视频的原始图像及光流图像；

空域分类处理单元，用于利用空域卷积神经网络处理各分段视频的原始图以获得所述视频的空域分类结果；

时域分类处理单元，用于分别利用时域卷积神经网络处理各分段视频的光流图像以获得各分段视频的时域分类结果；

融合单元，用于对所述空域分类结果和所述时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求23所述的装置，其特征在于，所述分段单元，具体用于对所述视频进行平均分段，获得长度相同的两个或者以上分段视频。
根据权利要求23或24所述的装置，其特征在于，所述采样单元包括：

图像采样模块，用于分别从各分段视频中随机抽取一帧图像，作为各分段视频的原始图像；和/或

光流采样模块，用于分别从各分段视频中随机抽取连续的多帧图像，根据所述多帧图像获得各分段视频的光流图像。
根据权利要求23或24或25所述的装置，其特征在于，所述光流图像为基于8位位图、共256个离散的色阶的灰度图像，所述灰度图像的中值为128。
根据权利要求25或26所述的装置，其特征在于，所述光流采样模块，具体用于：

分别针对各分段视频：从每一分段视频中随机抽取连续的N帧图像；其中，N为大于1的整数；以及分别基于所述N帧图像中的每相邻的两帧图像进行计算，获得N-1组光流图像，所述N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。
根据权利要求23至27任意一项所述的装置，其特征在于，所述空域分类处理单元包括：

空域分类处理模块，用于分别利用空域卷积神经网络对各分段视频的原始图像进行处理，获得各分段视频的空域初步分类结果；和

第一综合处理模块，用于利用空域共识函数对所述分段视频的空域初步分类结果进行综合处理，获得所述视频的空域分类结果；

所述时域分类处理单元包括：

第一时域分类处理模块，用于分别利用时域卷积神经网络对各分段视频的光流图像进行处理，获得各分段视频的时域初步分类结果；和

第二综合处理模块，用于利用时域共识函数对所述分段视频的时域初步分类结果进行综合处理，获得所述视频的时域分类结果。
根据权利要求28所述的装置，其特征在于，所述空域共识函数和/或所述时域共识函数包括：平均函数、最大值函数或带权平均函数。
根据权利要求29所述的装置，其特征在于，所述空域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数；

所述时域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数。
根据权利要求28至30任意一项所述的装置，其特征在于，所述空域初步分类结果及所述时域初步分类结果分别为维度等于分类类别数量的分类结果向量；

所述视频的空域分类结果及所述视频的时域分类结果分别为维度等于分类类别数量的分类结果向量；

所述视频的分类结果为维度等于分类类别数量的分类结果向量。
根据权利要求23至31任意一项所述的装置，其特征在于，所述融合单元，具体用于将所述空域分类结果与所述时域分类结果分别乘以预先设定的权重系数后进行求和，获得所述视频的分类结果。
根据权利要求32所述的装置，其特征在于，所述空域分类结果与所述时域分类结果之间的权重系数比值为1:1至1:3中任一比值。
根据权利要求28至33任意一项所述的装置，其特征在于，所述光流图像具体为原始光流图像，所述时域卷积神经网络具体为第一时域卷积神经网络；

所述第一时域分类处理模块，具体用于分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果；

所述第二综合处理模块，具体用于利用第一时域共识函数对所述分段视频的第一时域初步分类结果进行综合处理，获得所述视频的第一时域分类结果；

所述融合单元，具体用于对所述空域分类结果和所述第一时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求23至33任意一项所述的装置，其特征在于，所述光流图像具体为原始光流图像的变形光流图像，所述时域卷积神经网络具体为第二时域卷积神经网络；

所述装置还包括：光流处理单元，用于获取所述原始光流图像变形后的变形光流图像；；

且所述时域分类处理单元包括：

第二时域分类处理模块，用于分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果；

第三综合处理模块，用于利用第二时域共识函数对所述各分段视频的第二时域初步分类结果进行综合处理，获得所述视频的第二时域分类结果；

所述融合单元，具体用于对所述空域分类结果和所述第二时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求23至33任意一项所述的装置，其特征在于，所述光流图像具体为原始光流图像和变形光流图像，所述时域卷积神经网络具体为第一时域卷积神经网络和第二时域卷积神经网络；

所述装置还包括：

光流处理单元，用于获取所述原始光流图像变形后的变形光流图像；

所述时域分类处理单元包括：

第一时域分类处理模块，用于分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理，获得各分段视频的第一时域初步分类结果；

第二综合处理模块，具体用于利用第一时域共识函数对所述分段视频的第一时域初步分类结果进行综合处理，获得所述视频的第一时域分类结果；

第二时域分类处理模块，用于分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理，获得各分段视频的第二时域初步分类结果；

第三综合处理模块，用于对所述分段视频的第二时域初步分类结果进行综合处理，获得所述视频的第二时域分类结果；

所述融合单元，具体用于对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理，获得所述视频的分类结果。
根据权利要求35或36所述的装置，其特征在于，所述光流处理单元，具体用于：

分别对每相邻的两帧图像进行计算，获得每相邻的两帧图像之间的单应性变换矩阵；

分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换；以及

分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算，获得变形光流图像。
根据权利要求37所述的装置，其特征在于，所述光流处理单元对每相邻的两帧图像进行计算时，具体用于根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。
根据权利要求36至38任意一项所述的装置，其特征在于，所述融合单元，具体用于将所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果分别乘以预先设定的权重系数后进行求和，获得所述视频的分类结果。
根据权利要求39所述的装置，其特征在于，所述空域分类结果与所述第一时域分类结果及所述第二时域分类结果之间的权重系数比值为1:a:b，且a与b之和不小于1，且不大于3。
根据权利要求23至40任意一项所述的装置，其特征在于，还包括：

第一归一化处理单元，用于利用Softmax函数对所述视频的分类结果向量进行归一化处理，得到视频属于各类别的分类概率向量；或者

第二归一化处理单元，用于利用Softmax函数对所述视频的空域分类结果进行归一化处理，获得所述视频属于各类别的一个空域分类概率向量；以及利用Softmax函数对所述视频的时域分类结果进行归一化处理，获得所述视频属于各类别的一个时域分类概率向量。
根据权利要求23至40任意一项所述的装置，其特征在于，还包括：

网络训练单元，用于存储预设初始空域卷积神经网络和初始时域卷积神经网络；以及分别基于各作为样本的视频，采用随机梯度下降法对所述初始空域卷积神经网络进行训练，获得所述空域卷积神经网络；以及采用随机梯度下降法对所述初始时域卷积神经网络进行训练，获得所述时域卷积神经网络。
根据权利要求42所述的装置，其特征在于，所述网络训练单元采用随机梯度下降法对所述初始空域卷积神经网络进行训练时，具体用于：

针对一个作为样本的视频，比较所述空域分类处理单元获得的视频的空域分类结果与所述视频的预设标准空域分类结果是否相同；

若不相同，对所述初始空域卷积神经网络的网络参数进行调整；以调整网络参数后的空域卷积神经网络作为初始空域卷积神经网络，再针对下一个作为样本的视频，开始执行所述比较所述空域分类处理单元获得的视频的空域分类结果与所述视频的预设标准空域分类结果是否相同的操作；

若相同，以当前的初始空域卷积神经网络作为所述空域卷积神经网络。
根据权利要求42所述的装置，其特征在于，所述网络训练单元采用随机梯度下降法对所述初始时域卷积神经网络进行训练时，具体用于：

针对一个作为样本的视频，比较所述时域分类处理单元获得的视频的时域分类结果与所述视频的预设标准时域分类结果是否相同；

若不相同，对所述初始时域卷积神经网络的网络参数进行调整；以调整网络参数后的时域卷积神经网络作为初始时域卷积神经网络，再针对下一个作为样本的视频，开始执行所述比较所述时域分类处理单元获得的视频的时域分类结果与所述视频的预设标准时域分类结果是否相同的操作；

若相同，以当前的初始时域卷积神经网络作为所述时域卷积神经网络；

所述初始时域卷积神经网络包括第一初始时域卷积神经网络或第二初始时域卷积神经网络，所述时域分类结果相应的包括第一时域分类结果或第二时域分类结果，所述时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。
一种数据处理装置，其特征在于，包括权利要求23至44任意一项所述的视频分类识别装置。
根据权利要求45所述的数据处理装置，其特征在于，所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。
一种电子设备，其特征在于，设置有权利要求45或46所述的数据处理装置。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备中运行时，所述设备中的处理器执行用于实现权利要求1-22中的任一权利要求所述的视频类别识别方法中的步骤的可执行指令。
一种计算机可读介质，用于存储权利要求48所述的计算机程序。