WO2020019397A1

WO2020019397A1 - 一种视频深度分析的方法与系统

Info

Publication number: WO2020019397A1
Application number: PCT/CN2018/102901
Authority: WO
Inventors: 肖东晋; 张立群
Original assignee: 阿依瓦（北京）技术有限公司
Priority date: 2018-07-27
Filing date: 2018-08-29
Publication date: 2020-01-30
Also published as: CN108961317A

Abstract

本发明公开了一种视频深度分析系统，包括：特征网络，所述特征网络从原始视频提取特征，并在所述特征上添加时间标记；以及转接模块，所述转接模块基于带有时间标记的特征生成时空特征张量，所述时空特征张量包括时间维度和空间特征维度。

Description

一种视频深度分析的方法与系统

技术领域

本发明属于人工智能与计算机视觉领域，具体涉及一种用于视频深度分析的方法与系统。

背景技术

近年来，以卷积神经网络为代表的深度学习方法在图像分析与物件识别方面取得了令人瞩目的成绩。对单帧图像的深度分析已经能够以较高的成功概率和稳定性，从图像中获取特定目标的信息，包括存在与否，所处位置以及状态变化等。这使得车辆识别、人脸识别等应用的大规模部署具备了相当的技术基础。

相比于针对单帧图像的物件识别，涉及到多帧图像所构成的运动视频的联合分析技术还很不成熟。人们已经意识到，运动视频分析的关键在于如何将时间轴上不同点的信息加以协同利用。但是具体怎么做，才能够将信息沿时间轴有效地融合起来，仍然存在现实的困难。尽管出现了诸如3d卷积、多帧判决等方法，但是其或者拘泥于局部分析，无法获得全局特征；或者只能照顾到时间轴上的关键点，无法形成完整的连续采样。因此，效果距离实用要求尚有较大差距。

因此，本领域需要一种新型的用于视频分析的方法和系统，至少部分地解决现有技术中存在的问题。

发明内容

为了解决上述问题，本发明的实施例使用新的视频深度分析系统和方法。该系统和方法可以显著提升运动视频分析与识别的准确率与稳定性，同时为硬件实现提供方便。

本发明的一个实施例提供一种视频深度分析系统，包括：

特征网络，所述特征网络从原始视频提取特征，并在所述特征上添加时间标记；以及

转接模块，所述转接模块基于带有时间标记的特征生成时空特征张量，所述时空特征张量包括时间维度和空间特征维度。

在本发明的一个实施例中，该视频深度分析系统还包括决策模块，所述决策模块处理时空特征张量生成最终决策。

在本发明的一个实施例中，所述决策模块是决策神经网络，所述决策神经网络：

一个或者多个卷积层；

与每一个卷积层对应的池化层和非线性层；以及

全连接网络，所述全连接网络接收卷积层、池化层和非线性层的分析结果，并进行判别决策。

在本发明的一个实施例中，所述特征网络包括多个级联的处理层，后一处理层用于对前一处理层处理的结果作进一步处理，提取更高层次的特征，每个处理层包括：

卷积层，用于通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征；

非线性激励层，用于对输入的卷积计算结果用非线性函数进行处理；以及

池化层，用于对待处理的单帧图像或者时间相邻多帧图像实施降采样。

在本发明的一个实施例中，所述特征网络包括时间标记模块，用于给所述处理层输出的时空特征打上时间标记，所述时间标记是绝对时间、相对时间和帧序号中的一种或多种。

在本发明的一个实施例中，所述特征网络是并行工作的多个特征网络，同时对与多个局部时间相对应的单帧或者局部多帧视频数据进行处理。

在本发明的一个实施例中，所述转接模块包括：

时域差分模块，用于使用差分操作来强化不同时间的特征之间的差异；

特征域降维模块，用于减少特征的维度；以及

时空特征张量生成模块，用于将带有时间标记的特征整合为时空特征张量。

本发明的另一个实施例提供一种视频深度分析方法，包括：

通过特征网络从原始视频数据中提取特征，并对所提取的特征打上时间标记；

根据带有时间标记的特征生成集合生成时空特征张量，所述时空特征张量包括时间维度和空间特征维度；以及

通过决策模块处理时空特征张量生成最终决策。

在本发明的另一个实施例中，通过特征网络从原始视频数据中提取特征包括：

通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征；

对输入的卷积计算结果用非线性函数进行处理；以及

对待处理的单帧图像或者时间相邻多帧图像实施降采样。

在本发明的另一个实施例中，所述时间标记是绝对时间、相对时间和帧序号中的一种或多种。

在本发明的另一个实施例中，在根据带有时间标记的特征生成集合生成时空特征张量之前，还包括：

使用差分操作来强化不同时间的特征之间的差异；和/或

减少特征的维度。

在本发明的另一个实施例中，通过线性降维或非线性降维减少特征的维度。

在本发明的另一个实施例中，所述时空特征张量是二维图像，两个维度分别为特征域与时间域，二维图像的每一列对应于一个的时间标记，该列的每一个元素对应于一个降维后的特征值。

在本发明的另一个实施例中，通过决策模块处理时空特征张量生成最终决策包括从所述时空张量中提取特定的几何特征。

本发明的又一个实施例中提供一种视频深度分析系统，包括：

数据存储器，用于存储原始视频数据；以及

处理单元，所述处理单元用于执行上述视频深度分析的方法。

附图说明

为了进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出根据本发明的一个实施例的视频深度分析系统的示意框图。

图2示出根据本发明的一个实施例的特征网络的结构框图。

图3示出根据本发明的一个实施例的转接模块300的结构示意图。

图4示出根据本发明的一个实施例的视频深度分析方法的流程图。

具体实施方式

在以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中，未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地，为了解释的目的，阐述了特定数量、材料和配置，以便提供对本发明的实施例的全面理解。然而，本发明可在没有特定细节的情况下实施。此外，应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。

在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。

本发明的目的在于提供一种新的视频深度分析方法及其系统。该方法不同于传统方法之处在于，其核心由两张级联的神经网络，即特征网络及决策模块，以及一个转接模块共同构成。特征网络首先对原始视频数据进行处理，所得到的结果作为原始视频的时空信息特征被输入到转接模块。转接模块将特征整合后得到时空特征张量，并输入到决策神经网络进行进一步处理，并最终得到运动视频的分析与识别结果。

图1示出根据本发明的一个实施例的视频深度分析系统的示意框图。参见图1，该视频深度分析系统可包括：数据存储器100、特征网络101、转接模块102和决策模块103。

数据存储器100用于存储原始视频数据。原始视频数据以帧为最小存储单位。存储的视频数据被按照时间顺序被访问，并分发到一个或者多个特征网络101进行处理。访问时可以选择为每一个特征网络分发一帧，或者分发时间上相邻的若干帧。在本发明的具体实施例中，数据存储器100可以是易失性存储器或非易失性存储器。易失性存储器可包括ROM、PROM、EPROM、EEPROM、闪存ROM、FRAM、MRAM、RRAM、PCRAM等。非易失性存储器可包括RAM、SRAM、DRAM、SDRAM、DDR-SDRAM等等。

特征网络101用于时空特征提取，针对运动视频原始数据进行处理。特征网络101使用一个或者多个卷积层，以及对应的池化与非线性层对单帧视频数据，或者是局部相邻多帧视频数据进行分析。特征网络用于从原始视频数据中提取特征。这里的特征具有时间局部化特性，相应于每一帧或者时间上相邻的若干帧视频数据。所有提取的特征都将带有时间标记，用于后续的时间融合操作。

该视频深度分析系统可以同时包括一个或多个特征网络101。

图2示出根据本发明的一个实施例的特征网络的结构框图。如图2所示，特征网络可包括多个级联的处理层210-1、210-2、…、210-N。处理层210-1、210-2、…、210-N结构类似。第一处理层210-1可包括卷积层201、非线性层202以及池化层203。第二处理层210-2可包括卷积层204、非线性层205以及池化层206。第N处理层210-N可包括卷积层、非线性层以及池化层。每个处理层中的卷积层、非线性层以及池化层与其他处理层中的卷积层、非线性层以及池化层基本类似。后一处理层用于对前一处理层处理的结果作进一步处理，提取更高层次的特征。

下文中具体介绍卷积层、非线性层以及池化层的具体结构、功能和工作方式。卷积层201用于通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征。卷积核的设置与标准的卷积神经网络类似，卷积核的系数值通过训练得到。

非线性激励层202用于模拟生物体的神经元行为，对输入的卷积计算结果用非线性函数进行处理。非线性函数有多种形式，与现有的卷积神经网络相类似。非线性函数的参数通过训练得到。

池化层203用于对待处理的单帧图像或者时间相邻多帧图像实施降采样。降采样的目的在于扩大特征的空间尺度，实现全局化特征提取。降采样可以有多种方式，与标准的卷积神经网络相类似。

卷积层204、非线性层205以及池化层206的基本构造与操作和卷积层201、非线性层202以及池化层203类似，用于对卷积层201、非线性层202以及池化层203处理的结果作进一步处理，提取更高层次的特征。和标准的卷积神经网络类似，特征网络中可以设置多个卷积层，以及相应的非线性激励层和池化层。

特征网络还包括时间标记模块207，用于给上述若干处理层输出的时空特征打上时间标记。时间标记的作用在于为后续的时间域融合操作提供时间基准。这里的时间标记可以有多种形式，包括图像帧的数目索引和实际的采样时间等。

打上时间标记的时空特征被置于时空特征信息集合中。

需要强调，与现有卷积神经网络不同的是，特征网络中没有用于分类判决的全连接网络层。特征网络的作用是提取局部时间的视频特征并做时间标记。这里并不做任何判决。

特征网络使用一个或者多个卷积层，以及对应的池化与非线性层对单帧视频数据，或者是局部相邻多帧视频数据进行分析，从中提取对应于局部时间的视频数据空间特征信息。特征网络对每一帧，或者局部相邻多帧视频数据的处理结果被打上适当的时间标记，形成带有时间标记的视频空间特征矢量。这里的时间标记可以是特征提取的绝对时间或者以第一帧视频数据处理完毕时间为零点的相对时间，也可以是视频数据的帧序号或者其他形式的时间标记。

在本发明的实施例中，视频深度分析系统中的特征网络可以是单个，也可以是多个。如果系统内存在多个特征网络，那么这些特征网络可以配置为并行工作模式，同时对与多个局部时间相对应的单帧或者局部多帧视频数据进行处理，以提高处理效率。

返回图1，转接模块102用于将带有时间标记的视频特征转换为后续决策操作所需要的多维张量形式，形成时空特征张量。该时空特征张量可以是二维矩阵，此时两个维度分别代表空间特征维度和时间维度。该时空特征张量也可以是三维数据立方体，此时三个维度分别代表空间特征维度、时间维度以及其它特征维度，例如色彩特征等。该时空特征张量也可以是其它维度的数据张量。该张量的每一个点，都对应着原始视频述中某一特定时刻，某一特定位置的信息特征值，由于这是一个多维张量，因此能够被深度网络直接处理，从中提取不同层次、不同语义的时空特征。

在本发明的一个实施例中，转接模块102还可以根据需要，进行时间域差分以及特征域降维操作，以提升系统效能。

图3示出根据本发明的一个实施例的转接模块300的结构示意图。如图3所示，转接模块300可包括时域差分模块301、特征域降维模块302以及时空特征张量生成模块303。

时域差分模块301用于使用差分操作来强化不同时间的时空特征之间的差异，以利于后续判决。差分可以有一阶、二阶和高阶等多种形式。无论是何种差分形式，这里差分的对象是特征网络输出的时空特征。时空特征之间的差分与原始图像的帧间的差分有本质不同。差分的结果将被作为新的时空特征，加入到时空特征信息集合中。

特征域降维模块302用于降低特征域的信息冗余，提高特征域的信息密度。降维可以采取多种方法，例如线性降维和非线性降维。

线性降维是指选取和时空特征无关的线性算子，该算子的输入维度与时空特征维度相同，其输出维度小于输入维度，将该算子作用在每一个时空特征上，得到维度较小的新的时空特征，达成降维的目的。常见的线性降维有随机投影，即使用随机系数的线性算子来降维。

非线性降维是指选取和时空特征相关的线性算子，该算子的输入维度与时空特征维度相同，其输出维度小于输入维度，将该算子作用在每一个时空特征上，得到维度较小的新的时空特征，达成降维的目的。常见的线性降维有主成分分析(PCA)，这里使用的线性算子对应于时空特征中较为显著的分量进行设计，达成降维的目的。

值得指出的是，时间差分和特征域降维都不是必须的。根据所处理的视频图像的复杂度不同，可以选择在系统中加载这两个模块来提升性能，也可以选择不加载这两个模块，直接将转换模块的输入交给时空特征张量生成模块303。

在本发明的一个实施例中，时空特征张量生成模块303用于将带有时间标记的特征信息整合为二维图像，即二维时空特征图。例如，这里的两个维度分别为特征域与时间域，该图像的每一列对应于一个的时间标记，该列的每一个元素对应于一个降维后的特征值。

返回图1，决策模块103直接处理时空特征张量生成最终决策。决策模块103使用一个或者多个卷积层，以及对应的池化层与非线性层对时空特征张量进行分析，并将结果输入到全连接网络进行判别决策。决策模块用于时间域特征融合和高层语义特征提取。决策模块103针对时空特征张量进行分析和推断。通过在有监督的条件下的训练，形成对视频中所呈现的行为类型的判决能力。

决策模块寻找原始视频数据中所存在的特定的时空模式。该时空模式以某种特定形式在多个原始视频帧上有所体现，并产生相互关联。因此，每一个这样的时空模式，在时空特征张量中都将存在某种特定的几何特征与之相对应。决策模块的作用就在于将这种特定的几何特征从时空特征张量中提取出来，并籍此完成视频图像的分析判别任务。

首先，在步骤410，通过特征网络从原始视频数据中提取特征，并对所提取的特征打上时间标记。

在本发明的一个实施例中，特征网络是卷积神经网络，使用一个或者多个卷积层，以及对应的池化与非线性层对单帧视频数据，或者是局部相邻多帧视频数据进行分析，从中提取对应于局部时间的视频数据空间特征信息。具体而言，通过特征网络从原始视频数据中提取特征包括：通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征，对输入的卷积计算结果用非线性函数进行处理，对待处理的单帧图像或者时间相邻多帧图像实施降采样。

在步骤420，根据带有时间标记的特征生成集合生成时空特征张量。

该时空特征张量可以是二维矩阵，此时两个维度分别代表空间特征维度和时间维度。该时空特征张量也可以是三维数据立方体，此时三个维度分别代表空间特征维度、时间维度以及其它特征维度，例如色彩特征等。该时空特征张量也可以是其它维度的数据张量。该张量的每一个点，都对应着原始视频述中某一特定时刻，某一特定位置的信息特征值，由于这是一个多维张量，因此能够被深度网络直接处理，从中提取不同层次、不同语义的时空特征。

在根据带有时间标记的特征生成集合生成时空特征张量之前，还包括：使用差分操作来强化不同时间的特征之间的差异；和/或减少特征的维度。通过线性降维或非线性降维减少特征的维度。

差分可以有一阶、二阶和高阶等多种形式。无论是何种差分形式，这里差分的对象是特征网络输出的时空特征。时空特征之间的差分与原始图像的帧间的差分有本质不同。差分的结果将被作为新的时空特征，加入到时空特征信息集合中。

在步骤430，通过决策模块处理时空特征张量生成最终决策。

在本发明的一个实施例中，决策模块寻找原始视频数据中所存在的特定的时空模式。该时空模式以某种特定形式在多个原始视频帧上有所体现，并产生相互关联。因此，每一个这样的时空模式，在时空特征张量中都将存在某种特定的几何特征与之相对应。决策模块的作用就在于将这种特定的几何特征从时空特征张量中提取出来，并籍此完成视频图像的分析判别任务。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

一种视频深度分析系统，包括：

特征网络，所述特征网络从原始视频提取特征，并在所述特征上添加时间标记；以及

转接模块，所述转接模块基于带有时间标记的特征生成时空特征张量，所述时空特征张量包括时间维度和空间特征维度。
如权利要求1所述的视频深度分析系统，还包括决策模块，所述决策模块处理时空特征张量生成最终决策。
如权利要求2所述的视频深度分析系统，其特征在于，所述决策模块是决策神经网络，所述决策神经网络：

一个或者多个卷积层；

与每一个卷积层对应的池化层和非线性层；以及

全连接网络，所述全连接网络接收卷积层、池化层和非线性层的分析结果，并进行判别决策。
如权利要求1所述的视频深度分析系统，其特征在于，所述特征网络包括多个级联的处理层，后一处理层用于对前一处理层处理的结果作进一步处理，提取更高层次的特征，每个处理层包括：

卷积层，用于通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征；

非线性激励层，用于对输入的卷积计算结果用非线性函数进行处理；以及

池化层，用于对待处理的单帧图像或者时间相邻多帧图像实施降采样。
如权利要求4所述的视频深度分析系统，其特征在于，所述特征网络包括时间标记模块，用于给所述处理层输出的时空特征打上时间标记，所述时间标记是绝对时间、相对时间和帧序号中的一种或多种。
如权利要求1所述的视频深度分析系统，其特征在于，所述特征网络是并行工作的多个特征网络，同时对与多个局部时间相对应的单帧或者局部多帧视频数据进行处理。
如权利要求1所述的视频深度分析系统，其特征在于，所述转接模块包括：

时域差分模块，用于使用差分操作来强化不同时间的特征之间的差异；

特征域降维模块，用于减少特征的维度；以及

时空特征张量生成模块，用于将带有时间标记的特征整合为时空特征张量。
一种视频深度分析方法，包括：

通过特征网络从原始视频数据中提取特征，并对所提取的特征打上时间标记；

根据带有时间标记的特征生成集合生成时空特征张量，所述时空特征张量包括时间维度和空间特征维度；以及

通过决策模块处理时空特征张量生成最终决策。
如权利要求8所述的视频深度分析方法，其特征在于，通过特征网络从原始视频数据中提取特征包括：

通过卷积操作提取待处理的单帧图像或者时间相邻多帧图像中的空间局部特征；

对输入的卷积计算结果用非线性函数进行处理；以及

对待处理的单帧图像或者时间相邻多帧图像实施降采样。
如权利要求8所述的视频深度分析方法，其特征在于，所述时间标记是绝对时间、相对时间和帧序号中的一种或多种。
如权利要求8所述的视频深度分析方法，其特征在于，在根据带有时间标记的特征生成集合生成时空特征张量之前，还包括：

使用差分操作来强化不同时间的特征之间的差异；和/或

减少特征的维度。
如权利要求11所述的视频深度分析方法，其特征在于，通过线性降维或非线性降维减少特征的维度。