WO2021180030A1

WO2021180030A1 - 行为识别方法及系统、电子设备和计算机可读存储介质

Info

Publication number: WO2021180030A1
Application number: PCT/CN2021/079530
Authority: WO
Inventors: 吴臻志
Original assignee: 北京灵汐科技有限公司
Priority date: 2020-03-09
Filing date: 2021-03-08
Publication date: 2021-09-16
Also published as: US20230042187A1; CN113378600B; CN113378600A

Abstract

一种行为识别方法和系统，将视频数据截取成多个视频片段，对每个视频片段抽帧处理得到帧图像，并对帧图像提取光流得到光流图像；分别对每个视频片段的帧图像和光流图像进行特征提取，得到每个视频片段的帧图像和光流图像的特征图；分别对帧图像和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果；对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果；对空间融合结果和时间融合结果进行双流融合，得到行为识别结果。既能保证卷积效果，也能降低计算量和权重量，还可联系多张图片，处理图片之间的时序信息，提高识别准确率。

Description

行为识别方法及系统、电子设备和计算机可读存储介质

技术领域

本发明涉及行为识别技术领域，具体而言，涉及一种行为识别方法、一种行为识别系统、一种电子设备和一种计算机可读存储介质。

背景技术

基于视频数据的行为识别被广泛应用在各个领域。然而，相关技术中，针对视频数据的行为识别具有计算量较大，权重量也较大，识别准确率较低等问题。

发明内容

为解决上述问题，本发明的目的在于提供一种行为识别方法、一种行为识别系统、一种电子设备和一种计算机可读存储介质，既可以做到人工神经网络(ANN，Artificial Neural Network)中的卷积效果，也能降低计算量和权重量，还可以联系多张图片，处理图片之间的时序信息，提高了识别的准确率。

本发明提供了一种行为识别方法，包括：将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段抽帧后的得到所述帧图像提取光流，得到每个视频片段的光流图像；分别对每个视频片段的帧图像和光流图像进行特征提取，得到每个视频片段的帧图像的特征图和光流图像的特征图；分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果；对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果；对所述空间融合结果和所述时间融合结果进行双流融合，得到行为识别结果。

作为本发明进一步的改进，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n其中，n为正整数；对所述第一特征向量进行矩阵变换处理，得到第二特征向量；对所述第二特征向量进行时序全连接处理，得到第三特征向量；根据所述第三特征向量，确定每个视频片段的空间预测结果和时间预测结果。

作为本发明进一步的改进，当n＝1时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；将所述第一中间特征向量确定为第一特征向量；

当n＝2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；对第一时序卷积向量进行时序卷积处理，得到第二时序卷积向量；对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；将所述第二中间特征向量确定为所述第一特征向量；

当n＞2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；对所述第i时序卷积向量进行池化处理，得到第i中间特征向量；对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；将第n中间特征向量确定为第一特征向量。

作为本发明进一步的改进，所述对每个视频片段抽帧处理，包括：将所述每个视频片段按照一定间隔抽取帧，得到N ₁帧图像，其中，间隔为每个视频片段的总帧数除以N ₁，N ₁为大于1的整数。

作为本发明进一步的改进，对每个所述视频片段的多个所述帧图像提取光流，包括：对抽取出的N ₁帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1个光流；复制第二帧与第一帧的光流作为第一个光流，与所述N ₁-1个光流合并为N ₁个光流。

作为本发明进一步的改进，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络。

作为本发明进一步的改进，所述神经网络包括：n个Block块、Reshape层、LIF层、全连接层和Softmax层；其中，所述Block块包括级联的ConvLIF层和池化层，n为正整数，且n≥1，当n＞1时，n个Block块级联。

作为本发明进一步的改进，通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理，包括：通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量；通过所述Reshape层对所述第一特征向量进行矩阵变换处理，得到第二特征向量；通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理，得到第三特征向量；根据所述第三特征向量，通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。

作为本发明进一步的改进，当n＝1时，通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量，包括：通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；将所述第一中间特征向量确定为第一特征向量；

当n＝2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；通过ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；将所述第二中间特征向量作为所述第一特征向量；

当n＞2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；通过所述池化层对所述第1时序卷积向量进行池化处理，得到第1中间特征向量；通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；通过所述ConvLIF层对所述第i时序卷积向量进行池化处理，得到i中间特征向量；通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；通过所述ConvLIF层对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；将第n中间特征向量确定为第一特征向量。

作为本发明进一步的改进，所述Block块还包括级联于ConvLIF层和池化层之间的BN层。

当n＝1或n＝2时，通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量，包括：对所述第一时序卷积向量进行标准化处理；利用池化层将标准化处理后的第一时序卷积向量进行池化处理；

当n＝2时，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，包括：通过所述BN层对所述第二时序卷积向量进行标准化处理；利用池化层将标准化处理后的第二时序卷积向量进行池化处理；

当n＞2时，通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量，包括：通过所述BN层对所述第1时序卷积向量进行标准化处理；利用池化层将标准化处理后的第1时序卷积向量进行池化处理，以得到第2时序卷积向量；

当n＞2时，通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量，包括：通过所述BN层对所述第i时序卷积向量进行标准化处理；利用池化层将标准化处理后的第i时序卷积向量进行池化处理，以得到第i+1时序卷积向量。

作为本发明进一步的改进，所述LIF层用于：根据t时刻的输入值X ^t经过全连接运算后得到的值I ^t，与t-1时刻的生物电压值

确定t时刻的膜电位值

根据t时刻的膜电位值

与发射阈值V _th，确定t时刻的输出值F ^t；根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _reset确定重置的膜电位值

根据重置的膜电位值

确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述LIF层级联的下一层的输入，所述t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入。

作为本发明进一步的改进，所述ConvLIF层用于：根据t时刻的输入值X ^t经过卷积运算或全连接运算后得到的值I ^t，与t-1时刻的生物电压值

确定t时刻的膜电位值

根据t时刻的膜电位值

根据重置的膜电位值

确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述ConvLIF层级联的下一层的输入，所述t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入。

作为本发明进一步的改进，所述根据t时刻的膜电位值和发射阈值V _th，确定时刻t的输出值，包括：若t时刻的膜电位值

大于或等于发射阈值V _th，则确定所述t时刻的输出值为1；若t时刻的膜电位值

小于发射阈值V _th，则确定所述t时刻的输出值为0。

作为本发明进一步的改进，所述根据重置的膜电位值

确定t时刻的生物电压值

包括：通过Leak激活函数对所述重置的膜电位值

进行计算，确定t时刻的生物电压值

作为本发明进一步的改进，对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。

作为本发明进一步的改进，在双流融合时，所述空间融合结果和所述时间融合结果在双流融合时，将所述空间融合结果和所述时间融合结果采用加权融合。

本发明还提供了一种行为识别系统，采用所述行为识别方法，包括：数据预处理模块，其用于将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段的多个所述帧图像提取光流，分别得到每个视频片段的多个光流图像；特征提取模块，其用于分别对每个视频片段的帧图像和光流图像进行图像特征提取，得到每个视频片段的帧图像的特征图和光流图像的特征图；网络识别模块，其分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果；网络融合模块，其对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果；双流融合模块，其用于对所述空间融合结果和所述时间融合结果进行双流融合，得到行为识别结果。

作为本发明进一步的改进，所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n其中，且n为正整数；对所述第一特征向量进行矩阵变换处理，得到第二特征向量；对所述第二特征向量进行时序全连接处理，得到第三特征向量；根据所述第三特征向量，确定每个视频片段的空间预测结果和时间预测结果。

作为本发明进一步的改进，当n＝1时，所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；将所述第一中间特征向量确定为第一特征向量；

作为本发明进一步的改进，所述数据预处理模块对每个视频片段抽帧处理，包括：将所述每个视频片段按照一定间隔抽取帧，得到N ₁帧图像，其中，间隔为视频片段的总帧数除以N ₁，N ₁为大于1的整数。

作为本发明进一步的改进，所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流，包括：对抽取出的N ₁帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1个光流；复制第二帧与第一帧的光流作为第一个光流，与所述N ₁-1个光流合并为N ₁个光流。作为本发明进一步的改进，所述网络识别模块分别对帧图像和光流图像的特征图进行时空卷积处理通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络。

当n＝2是，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；通过ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；将所述第二中间特征向量作为所述第一特征向量；

当n＝1或n＝2时，通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量，包括：通过所述BN层对所述第一时序卷积向量进行标准化处理；利用池化层将标准化处理后的第一时序卷积向量进行池化处理；

作为本发明进一步的改进，所述LIF层用于：

根据t时刻的输入值X ^t经过全连接运算后得到的值I ^t，与t-1时刻的生物电压值

确定t时刻的膜电位值

根据t时刻的膜电位值

根据重置的膜电位值

确定t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入。

确定t时刻的膜电位值

根据t时刻的膜电位值

根据重置的膜电位值

确定t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入。

小于发射阈值V _th，则确定所述t时刻的输出值为0。

作为本发明进一步的改进，所述根据重置的膜电位值

确定t时刻的生物电压值

包括：通过Leak激活函数对所述重置的膜电位值

进行计算，确定t时刻的生物电压值

作为本发明进一步的改进，所述网络融合模块对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。

作为本发明进一步的改进，所述双流融合模块对所述空间融合结果和所述时间融合结果进行双流融合时，将所述空间融合结果和所述时间融合结果采用加权融合。

本发明还提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现所述的行为识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，、所述计算机程序被处理器执行以实现所述的行为识别方法。

本发明的有益效果为：

即可以做到ANN中的卷积效果，也能降低计算量和权重量，大大降低了计算量，降低对计算设备的要求，也相应减小网络的大小，减少存储空间。还可以联系多张图片，处理图片之间的时序信息，提高了识别的准确率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一示例性实施例所述的一种行为识别方法的流程示意图；

图2是本公开一示例性实施例所提供的行为识别方法的流程框图；

图3为本公开一示例性实施例所述的神经网络的结构图；

图4为本公开一示例性实施例所述的神经网络中ConvLIF层和LIF层的工作流程图；

图5是本公开一示例性实施例所述的行为识别系统的模块图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明，若本公开实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本公开的描述中，所用术语仅用于说明目的，并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在，但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件，不代表顺序，且不对这些元件起限定作用。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图，这些和/或其他方面变得显而易见，并且，本领域普通技术人员更容易理解关于本公开所述实施例的说明。附图仅出于说明的目的用来描绘本公开所述实施例。本领域技术人员将很容易地从以下说明中认识到，在不背离本公开所述原理的情况下，可以采用本公开所示结构和方法的替代实施例。

本公开实施例的一种行为识别方法，从整个视频中稀疏地采样一系列短片段，每个视频片段都将给出其本身对于行为类别的初步预测，从这些片段的融合来得到视频级的预测结果，之后对所有模式(空间和时间)的预测融合产生最终的预测结果，如图1所示，包括：

S1，将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段抽帧后得到的多个所述帧图像提取光流，得到每个视频片段的光流图像。

在一种可选的实施方式中，如图2所示，将视频数据均分成N个视频片段。例如，平均分为4段。

在一种可选的实施方式中，对每个视频片段抽帧处理，包括：将每个视频片段按照一定间隔抽取帧，得到N ₁(例如40)帧大小为[320,240,3]的图像，其中，间隔为视频片段的总帧数除以N ₁(例如40，按照舍掉余数的方法)。其中，N ₁为大于1的整数，本公开对N ₁的取值不做限制。

光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。在一种可选的实施方式中，对抽帧后的帧图像提取光流，包括：对抽取出的N ₁(例如40)帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1(例如39)个光流；复制第二帧与第一帧的光流作为第一个光流，与N ₁-1(例如39)个光流合并为N ₁(例如40)个光流。在一种可选的实施方式中，在计算光流时，采用Brox算法。

S2，分别对每个视频片段的帧图像和光流图像进行特征提取，得到每个视频片段的帧图像的特征图和光流图像的特征图。

在一种可选的实施方式中，采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类，提取图像特征，得到每个视频片段的帧图像的特征图和光流图像的特征图。

S3，分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。

在一种可选的实施方式中，分别对帧图像和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n≥1，n为正整数；

对第一特征向量进行矩阵变换处理，得到第二特征向量；

对第二特征向量进行时序全连接处理，得到第三特征向量；

根据第三特征向量，确定每个视频片段的空间预测结果和时间预测结果。

其中，时序特征提取可以是指对特征图进行带时序的特征提取处理。矩阵变换处理是指将一个矩阵后几个维度展开的过程。时序全连接处理是指带时序处理的全连接处理。这样，一次可以处理多张图片，不仅可以保证特征提取效果，还可以联系多张图片，处理图片之间的时序信息，从而提高识别准确率。

在本公开中，对n的取值不做特殊的限定。

在一种可选的实施方式中，n＝1，分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

对第一时序卷积向量进行池化处理，得到第一中间特征向量；

将所述第一中间特征向量确定为第一特征向量。

在一种实施方式中，n＝2，相应地，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

对第一时序卷积向量进行时序卷积处理，得到第二时序卷积向量；

对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量确定为所述第一特征向量。

在一种实施方式中，n＞2，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

对所述第i时序卷积向量进行池化处理，得到第i中间特征向量；

对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。

其中，时序卷积处理可以是指对特征图进行带时序信息的卷积处理，例如，可以通过带时序信息的卷积层对特征图进行卷积处理。这样，能够联系多张图片，处理图片之间的时序信息。时序卷积向量包含了时间维度，因此需要将池化层进行封装，以使能对时序卷积向量进行池化处理。

下面以n＝3为例，对所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量的步骤进行简单介绍。

相应地，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

对所述第2时序卷积向量进行池化处理，得到第2中间特征向量；

对第2中间特征向量进行时序卷积处理，得到第3时序卷积向量；

对第3时序卷积向量进行池化处理，得到第3中间特征向量；

将第3中间特征向量确定为第一特征向量。

在一种可选的实施方式中，分别对帧图像和光流图像的特征图进行时空卷积处理通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络。

本公开可以采用例如UCF101数据集，其拥有来自101个动作类别的13320个视频，在动作方面具有最大的多样性，并且在摄像机运动、物体外观和姿势、物体比例、视点、杂乱的背景、照明条件等方面存在很大的差异。101个动作类别的视频分为25个组，每个组可以包含4至7个动作的视频。来自同一组的视频可能具有一些共同的特征，例如相似的背景、相似的视点等。动作类别可以分为五种类型：1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。

将UCF101数据集中的视频数据进行抽帧处理，包括：将每个视频片段分解成帧图像并将帧数保存在csv文件中；从分解后的帧图像中选取多个帧数大于N ₁(例如40)且小于N2(例如900)的样本；将选取的样本的帧数平均分为4份；将每份样本按照一定间隔抽取帧，其中，间隔为视频片段的总帧数除以N ₁(例如40，按照舍掉余数的方法)，得到N ₁帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧，与使用密集采样帧的方法相比，这种方法大大降低计算开销。同样，UCF101数据集中的视频数据在抽帧后，采用上述提取光流的方式提取光流，得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练，训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如，将帧图像和光流图像的特征图输入训练后的神经网络中进行处理，训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。

在一种可选的实施方式中，如图3所示，神经网络包括：n个Block块(图3中的net Block)、Reshape层(图3中的Reshape Layer)、LIF层(图3中的LIF Layer)、全连接层(图3中的FC Layer)和Softmax层(图3中的Softmax Layer)。其中，Block块包括级联的ConvLIF层(图3中的ConvLIF2D Layer)和池化层(图3中的Time Distribution MaxPooling2D Layer)。n为正整数，且n≥1，当n＞1时，n个Block块级联。

在一种可选的实施方式中，通过神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理，包括：

通过n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量；

通过Reshape层对第一特征向量进行矩阵变换处理，得到第二特征向量；

通过LIF层和全连接层对第二特征向量进行时序全连接处理，得到第三特征向量；

根据第三特征向量，通过Softmax层确定每个视频片段的空间预测结果和时间预测结果。

在本公开中，对n的具体数值不做特殊的限定。例如，在一种可选的实施方式中，n＝1，通过n个Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取，得到第一特征向量，包括：

通过ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过池化层对第一时序卷积向量进行池化处理，得到第一中间特征向量；

将第一中间特征向量确定为第一特征向量。

作为另一种实施方式，n＝2，相应地，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

通过ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量作为所述第一特征向量。

作为另一种可选实施方式，当n＞2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

通过所述池化层对所述第1时序卷积向量进行池化处理，得到第1中间特征向量；

通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

通过所述ConvLIF层对所述第i时序卷积向量进行池化处理，得到i中间特征向量；

通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

通过所述ConvLIF层对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。

举例来说，包括三个Block块，在进行三次时序特征提取时，可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量，并通过第一个Block块的池化层对第一时序卷积向量进行池化处理，得到第一中间特征向量。通过第2个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第2时序卷积向量，通过第2个Block块的池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，通过第3个Block块的ConvLIF层对所述第2中间特征向量进行时序卷积处理，得到第3时序卷积向量，通过第3个Block块的池化层对所述第3时序卷积向量进行池化处理，得到第3中间特征向量，将第3中间特征向量确定为第一特征向量。本公开对Block块的数量不做限制。

在一种可选的实施方式中，Block块还包括：级联于ConvLIF层和池化层之间的BN(Batch Normalization)层，通过所述BN层对所述时序卷积向量进行标准化处理，并将标准化处理后的时序卷积向量进行池化处理。

具体地，当n＝1或n＝2时，通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量，包括：

通过所述BN层对所述第一时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第一时序卷积向量进行池化处理；

当n＝2时，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，包括：

通过所述BN层对所述第二时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第二时序卷积向量进行池化处理；

当n＞2时，通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量，包括：

通过所述BN层对所述第1时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第1时序卷积向量进行池化处理，以得到第2时序卷积向量；

当n＞2时，通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量，包括：

通过所述BN层对所述第i时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第i时序卷积向量进行池化处理，以得到第i+1时序卷积向量。

由于Block块输出数据的维度不适用于作为LIF层的输入，可以加入Reshape层对Block块的输出数据进行处理，将数据的维度展开后作为LIF层的输入。例如，Block块的输出shape为(10，2，2，1024)，加入reshape层，对输出数据进行处理，将后面三个维度直接展开，得到shape为(10，4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层，对数据进行批量标准化，可以加速网络收敛速度，提升训练的稳定性。

在一种可选的实施方式中，全连接层采用FC全连接层，池化层采用MaxPooling池化层。

在一种可选的实施方式中，如图4所示，LIF层用于：

确定t时刻的膜电位值

其中，I ^t＝X ^t*W，W为输入值X ^t的权重，

根据t时刻的膜电位值

与发射阈值V _th，确定t时刻的输出值F ^t；

根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _reset确定重置的膜电位值

其中，

根据重置的膜电位值

确定t时刻的生物电压值

其中，t时刻的输出值F ^t作为与LIF层级联的下一层的输入，t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入，输入值X ^t均为离散值。

在一种可选的实施方式中，如图3所示，ConvLIF层用于：

根据t时刻的输入值X ^t经过卷积运算后得到的值I ^t，与t-1时刻的生物电压值

确定t时刻的膜电位值

其中，I ^t＝Conv(X ^t,W,)，W为输入值X ^t的权重，

根据t时刻的膜电位值

与发射阈值V _th，确定t时刻的输出值F ^t；

其中，

根据重置的膜电位值

确定t时刻的生物电压值

其中，t时刻的输出值F ^t作为与ConvLIF层级联的下一层的输入，t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入，输入值X ^t均为离散值。

在一种可选的实施方式中，根据t时刻的膜电位值和发射阈值V _th，确定时刻t的输出值，包括：

若t时刻的膜电位值

大于或等于发射阈值V _th，则确定t时刻的输出值为1；

若t时刻的膜电位值

小于发射阈值V _th，则确定t时刻的输出值为0。

在一种可选的实施方式中，根据重置的膜电位值

确定t时刻的生物电压值

包括：通过Leak激活函数对重置的膜电位值

进行计算，确定t时刻的生物电压值

α为泄露机制，β为理论值在0-1之间的偏置。

在一种可选的实施方式中，由于ConvLIF层比Conv层多出时间维度，故在ConvLIF与池化层连接时，需要将池化层封装起来，使其能够处理ConvLIF的输出结果。例如，采用TimeDistribution 层将池化层MaxPooling2D进行封装，使MaxPooling2D层能处理ConvLIF的输出结果。

本公开所述的神经网络使用ANN和SNN融合的网络，即ConvLIF层和LIF层与归一化层和池化层的融合。其中LIF层是带有时序的全连接层，可以处理带有时序的信息，其作用类似于ANN中的LSTM，但权重量明显低于LSTM(本公开的卷积网络的LIF的计算量只有LSTM的四分之一，只有GRU的三分之一)，大大降低了计算量，降低对计算设备的要求，也相应减小了网络的大小，减少了存储空间。ConvLIF层是带有时序信息的卷积层，可以处理带有时序的卷积，在ANN的卷积中，只能处理一张图片，且与前后的图片都没有关联，而ConvLIF层则一次可以处理多张图片，即可以做到ANN中的卷积效果，还可以联系多张图片，处理图片之间的时序信息，另外ConvLIF层的权重量也明显低于Conv3D层(本公开的卷积网络的ConvLIF2D层的权重量和计算量只有Conv3D层的二分之一)，进一步降低了计算量，降低对计算设备的要求，也减小了网络的大小，减少了存储空间。

S4，对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果。

在一种可选的实施方式中，对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种，对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中，空间预测结果和时间预测结果均采用直接平均的融合方法，这种融合方法可以联合建模多个视频片段，并从整个视频中捕获视觉信息，提高识别效果。本公开的行为识别方法对空间预测结果和时间预测结果的融合方法不作限制。

S5，对空间融合结果和时间融合结果进行双流融合，得到行为识别结果。

在一种可选的实施方式中，空间融合结果和时间融合结果采用加权融合进行双流融合，例如设置空间流融合结果的权重为0.6，时间流融合结果的权重为0.4。本公开的行为识别方法对双流融合的方法不作限制。

本公开实施方式所述的一种行为识别系统，采用前述的行为识别方法，如图5所示，所述行为识别系统包括数据预处理模块510、特征提取模块520、网络识别模块530、网络融合模块540、双流融合模块550。

数据预处理模块510用于将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段的多个所述帧图像提取光流，分别得到每个视频片段的多个光流图像。

在一种可选的实施方式中，数据预处理模块510将视频数据均分成N个视频片段。例如，平均分为4段。

在一种可选的实施方式中，数据预处理模块510对每个视频片段抽帧处理时，包括：将每个视频片段按照一定间隔抽取帧，其中，间隔为视频片段的总帧数除以N ₁(例如40，40，按照舍掉余数的方法)，得到N ₁(例如40)帧大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧，与使用密集采样帧的方法相比，这种方法大大降低计算开销。本公开对N ₁的取值不做限制。

在一种可选的实施方式中，数据预处理模块510对抽帧后的帧图像提取光流，包括：对抽取出的N ₁(例如40)帧图像，将后一帧与前一帧提取光流计算得到N ₁-1(例如39)个光流；复制第二帧与第一帧的光流作为第一个光流，与N ₁-1(例如39)个光流合并为N ₁(例如40)个光流。在一种可选的实施方式中，在计算光流时，采用Brox算法。

特征提取模块520用于分别对每个视频片段的帧图像的特征图和光流图像进行特征提取，得到每个视频片段的帧图像和光流图像的特征图。

在一种可选的实施方式中，特征提取模块520采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类，提取图像特征，得到每个视频片段的帧图像的特征图和光流图像的特征图。

网络识别模块530用于分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。

在一种可选的实施方式中，网络识别模块530在分别对帧图像和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果时，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n≥1，且n为正整数；

对第一特征向量进行矩阵变换处理，得到第二特征向量；

对第二特征向量进行时序全连接处理，得到第三特征向量；

在一种可选的实施方式中，n＝1，网络识别模块530在分别对帧图像和光流图像的特征图进行n次时序特征提取，得到第一特征向量时，包括：

将所述第一中间特征向量确定为第一特征向量。

当n＝2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

将所述第二中间特征向量确定为所述第一特征向量；

当n＞2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

将第n中间特征向量确定为第一特征向量。

所述数据预处理模块对每个视频片段抽帧处理，包括：将所述每个视频片段按照一定间隔抽取帧，得到N ₁帧图像，其中，间隔为视频片段的总帧数除以N ₁，N ₁为大于1的整数。

所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流，包括：

对抽取出的N ₁帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1个光流；

复制第二帧与第一帧的光流作为第一个光流，与所述N ₁-1个光流合并为N ₁个光流。

在一种可选的实施方式中，网络识别模块530分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络。

本公开可以采用例如UCF101数据集，其拥有来自101个动作类别的13320个视频，在动作方面具有最大的多样性，并且在摄像机运动，物体外观和姿势，物体比例，视点，杂乱的背景，照明条件等方面存在很大的差异。101个动作类别的视频分为25个组，每个组可以包含4-7个动作的视频。来自同一组的视频可能具有一些共同的特征，例如相似的背景，相似的视点等。动作类别可以分为五种类型：1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。

将UCF101数据集中的视频数据进行抽帧处理，包括：将每个视频片段分解成帧图像并将帧数保存在csv文件中；从分解后的帧图像中选取多个帧数大于N ₁(例如40)且小于N ₂(例如900)的样本；将选取的样本的帧数平均分为4份；将每份样本按照一定间隔抽取帧，其中，间隔为视频片段的总帧数除以N ₁(例如40，按照舍掉余数的方法)，得到N ₁帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧，与使用密集采样帧的方法相比，这种方法大大降低计算开销。同样，UCF101数据集中的视频数据在抽帧后，采用上述提取光流的方式提取光流，得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练，训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如，将帧图像和光流图像的特征图输入训练后的神经网络中进行处理，训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。

在一种可选的实施方式中，如图3所示，神经网络包括：n个Block块、Reshape层、LIF层、全连接层和Softmax层；其中，Block块包括：级联的ConvLIF层和池化层。n为正整数，且n≥1，当n＞1时，n个Block块级联。

在一种可选的实施方式中，当n＝1时，通过n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量，包括：

将第一中间特征向量确定为第一特征向量。

当n＝2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

将所述第二中间特征向量作为所述第一特征向量；

当n＞2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

将第n中间特征向量确定为第一特征向量。

举例来说，包括两个Block块，在进行两次时序特征提取时，可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量，并通过第一个Block块的池化层对第一时序卷积向量进行池化处理，得到第一中间特征向量。通过第二个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过第二个 Block块的池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，将第二中间特征向量确定为第一特征向量。

通过所述BN层对所述第一时序卷积向量进行标准化处理；

通过所述BN层对所述第二时序卷积向量进行标准化处理；

通过所述BN层对所述第1时序卷积向量进行标准化处理；

通过所述BN层对所述第i时序卷积向量进行标准化处理；

由于Block块输出数据的维度不适用于作为LIF层的输入，加入Reshape层对Block块的输出数据进行处理，将数据的维度展开后作为LIF层的输入。例如，Block块的输出shape为(10，2，2，1024)，加入reshape层，对输出数据进行处理，将后面三个维度直接展开，得到shape为(10，4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层，对数据进行批量标准化，可以加速网络收敛速度，提升训练的稳定性。

在一种可选的实施方式中，如图4所示，LIF层用于：

确定t时刻的膜电位值

其中，I ^t＝X ^t*W，W为输入值X ^t的权重，

根据t时刻的膜电位值

与发射阈值V _th，确定t时刻的输出值F ^t；

其中，

根据重置的膜电位值

确定t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入，输入值均为离散值。

在一种可选的实施方式中，如图4所示，ConvLIF层用于：

确定t时刻的膜电位值

其中，I ^t＝Conv(X ^t,W,)，W为输入值X ^t的权重，

根据t时刻的膜电位值

与发射阈值V _th，确定t时刻的输出值F ^t；

其中，

根据重置的膜电位值

确定t时刻的生物电压值

作为计算t+1时刻的膜电位值的输入，输入值均为离散值。

若t时刻的膜电位值

大于或等于发射阈值V _th，则确定t时刻的输出值为1；

若t时刻的膜电位值

小于发射阈值V _th，则确定t时刻的输出值为0。

在一种可选的实施方式中，根据重置的膜电位值

确定t时刻的生物电压值

包括：通过Leak激活函数对重置的膜电位值

进行计算，确定t时刻的生物电压值

α为泄露机制，β为理论值在0-1之间的偏置。

在一种可选的实施方式中，由于ConvLIF层比Conv层多出时间维度，故在ConvLIF与池化层连接时，需要将池化层封装起来，使其能够处理ConvLIF的输出结果。例如，采用TimeDistribution层将池化层MaxPooling2D进行封装，使MaxPooling2D层能处理ConvLIF的输出结果。

网络融合模块540其用于对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果。

在一种可选的实施方式中，对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种，对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中，空间预测结果和时间预测结果均采用直接平均的融合方法，这种融合方法可以联合建模多个视频片段，并从整个视频中捕获视觉信息，提高识别效果。本公开的行为识别系统对空间预测结果和时间预测结果的融合方法不作限制。

双流融合模块550用于空间融合结果和时间融合结果进行双流融合，得到行为识别结果。

在一种可选的实施方式中，空间融合结果和时间融合结果采用加权融合进行双流融合，例如设置空间流融合结果的权重为0.6，时间流融合结果的权重为0.4。本公开的行为识别系统对双流融合的方法不作限制。

本公开还涉及一种电子设备，包括服务器、终端等。该电子设备包括：至少一个处理器；与至少一个处理器通信连接的存储器；以及与存储介质通信连接的通信组件，所述通信组件在处理器的控制下接收和发送数据；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行以实现上述实施例中的行为识别方法。

在一种可选的实施方式中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述行为识别方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被一个或者多个处理器执行时，执行上述任意方法实施例中的行为识别方法。

上述产品可执行本申请实施例所提供的行为识别方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的行为识别方法。

本公开还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的行为识别方法的实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域普通技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域技术人员应理解，尽管已经参考示例性实施例描述了本公开，但是在不脱离本公开的范围的情况下，可进行各种改变并可用等同物替换其元件。另外，在不脱离本公开的实质范围的情况下，可进行许多修改以使特定情况或材料适应本公开的教导。因此，本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求范围内的所有实施例。

Claims

一种行为识别方法，其特征在于，包括：

将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段抽帧后得到的多个所述帧图像提取光流，得到每个视频片段的光流图像；

分别对每个视频片段的帧图像和光流图像进行特征提取，得到每个视频片段的帧图像的特征图和光流图像的特征图；

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果；

对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果；

对所述空间融合结果和所述时间融合结果进行双流融合，得到行为识别结果。
根据权利要求1所述的行为识别方法，其特征在于，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n其中，n为正整数；

对所述第一特征向量进行矩阵变换处理，得到第二特征向量；

对所述第二特征向量进行时序全连接处理，得到第三特征向量；

根据所述第三特征向量，确定每个视频片段的空间预测结果和时间预测结果。
根据权利要求2所述的行为识别方法，其特征在于，当n＝1时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

将所述第一中间特征向量确定为第一特征向量；

当n＝2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

对第一时序卷积向量进行时序卷积处理，得到第二时序卷积向量；

对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量确定为所述第一特征向量；

当n＞2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

对所述第i时序卷积向量进行池化处理，得到第i中间特征向量；

对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。
根据权利要求1所述的行为识别方法，其特征在于，所述对每个视频片段抽帧处理，包括：

将所述每个视频片段按照一定间隔抽取帧，得到N ₁帧图像，其中，间隔为每个视频片段的总帧数除以N ₁，N ₁为大于1的整数。
根据权利要求4所述的行为识别方法，其特征在于，对每个所述视频片段的多个所述帧图像提取光流，包括：

对抽取出的N ₁帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1个光流；

复制第二帧与第一帧的光流作为第一个光流，与所述N ₁-1个光流合并为N ₁个光流。
根据权利要求1-5中任意一项所述的行为识别方法，其特征在于，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络。
根据权利要求6所述的行为识别方法，其特征在于，所述神经网络包括：

n个Block块、Reshape层、LIF层、全连接层和Softmax层；其中，所述Block块包括级联的ConvLIF层和池化层，n为正整数，且n≥1，当n＞1时，n个Block块级联。
根据权利要求7所述的行为识别方法，其特征在于，通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理，包括：

通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量；

通过所述Reshape层对所述第一特征向量进行矩阵变换处理，得到第二特征向量；

通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理，得到第三特征向量；

根据所述第三特征向量，通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
根据权利要求8所述的行为识别方法，其特征在于，当n＝1时，通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

将所述第一中间特征向量确定为第一特征向量；

当n＝2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

通过ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量作为所述第一特征向量；

当n＞2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

通过所述池化层对所述第1时序卷积向量进行池化处理，得到第1中间特征向量；

通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

通过所述ConvLIF层对所述第i时序卷积向量进行池化处理，得到i中间特征向量；

通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

通过所述ConvLIF层对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。
根据权利要求9所述的行为识别方法，其特征在于，所述Block块还包括级联于ConvLIF层和池化层之间的BN层，

当n＝1或n＝2时，通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量，包括：

通过所述BN层对所述第一时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第一时序卷积向量进行池化处理；

当n＝2时，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，包括：

通过所述BN层对所述第二时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第二时序卷积向量进行池化处理；

当n＞2时，通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量，包括：

通过所述BN层对所述第1时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第1时序卷积向量进行池化处理，以得到第2时序卷积向量；

当n＞2时，通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量，包括：

通过所述BN层对所述第i时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第i时序卷积向量进行池化处理，以得到第i+1时序卷积向量。
根据权利要求8所述的行为识别方法，其特征在于，所述LIF层用于：

根据t时刻的输入值X ^t经过全连接运算后得到的值I ^t，与t-1时刻的生物电压值
确定t时刻的膜电位值

根据t时刻的膜电位值
与发射阈值V _th，确定t时刻的输出值F ^t；

根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _reset确定重置的膜电位值

根据重置的膜电位值
确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述LIF层级联的下一层的输入，所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
根据权利要求9所述的行为识别方法，其特征在于，所述ConvLIF层用于：

根据t时刻的输入值X ^t经过卷积运算后得到的值I ^t，与t-1时刻的生物电压值
确定t时刻的膜电位值

根据t时刻的膜电位值
与发射阈值V _th，确定t时刻的输出值F ^t；

根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _reset确定重置的膜电位值

根据重置的膜电位值
确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述ConvLIF层级联的下一层的输入，所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
根据权利要求11或12所述的行为识别方法，其特征在于，所述根据t时刻的膜电位值与发射阈值V _th，确定时刻t的输出值，包括：

若t时刻的膜电位值
大于或等于发射阈值V _th，则确定所述t时刻的输出值为1；

若t时刻的膜电位值
小于发射阈值V _th，则确定所述t时刻的输出值为0。
根据权利要求11或12所述的行为识别方法，其特征在于，所述根据重置的膜电位值
确定t时刻的生物电压值
包括：通过Leak激活函数对所述重置的膜电位值
进行计算，确定t时刻的生物电压值
根据权利要求1至5中任意一项所述的行为识别方法，其特征在于，对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
根据权利要求1至5中任意一项所述的行为识别方法，其特征在于，所述空间融合结果和所述时间融合结果在双流融合时，将所述空间融合结果和所述时间融合结果采用加权融合。
一种行为识别系统，其特征在于，采用如权利要求1-16中任意一项所述的行为识别方法，包括：

数据预处理模块，其用于将视频数据截取成多个视频片段，对每个视频片段抽帧处理，得到多个帧图像，并对每个视频片段的多个所述帧图像提取光流，分别得到每个视频片段的多个光流图像；

特征提取模块，其用于分别对每个视频片段的帧图像和光流图像进行图像特征提取，得到每个视频片段的帧图像的特征图和光流图像的特征图；

网络识别模块，其分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果；

网络融合模块，其对所有视频片段的空间预测结果进行融合，得到空间融合结果，并对所有视频片段的时间预测结果进行融合，得到时间融合结果；

双流融合模块，其用于对所述空间融合结果和所述时间融合结果进行双流融合，得到行为识别结果。
根据权利要求17所述的行为识别系统，其特征在于，所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理，确定每个视频片段的空间预测结果和时间预测结果，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，其中，n其中，且n为正整数；

对所述第一特征向量进行矩阵变换处理，得到第二特征向量；

对所述第二特征向量进行时序全连接处理，得到第三特征向量；

根据所述第三特征向量，确定每个视频片段的空间预测结果和时间预测结果。
根据权利要求18所述的行为识别系统，其特征在于，当n＝1时，所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

将所述第一中间特征向量确定为第一特征向量；

当n＝2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

对第一时序卷积向量进行时序卷积处理，得到第二时序卷积向量；

对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量确定为所述第一特征向量；

当n＞2时，所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

对所述第i时序卷积向量进行池化处理，得到第i中间特征向量；

对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。
根据权利要求17所述的行为识别系统，其特征在于，所述数据预处理模块对每个视频片段抽帧处理，包括：将所述每个视频片段按照一定间隔抽取帧，得到N ₁帧图像，其中，间隔为视频片段的总帧数除以N ₁，N ₁为大于1的整数。
根据权利要求20所述的行为识别系统，其特征在于，所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流，包括：

对抽取出的N ₁帧图像，分别根据两两相邻的两帧图像提取光流计算得到N ₁-1个光流；

复制第二帧与第一帧的光流作为第一个光流，与所述N ₁-1个光流合并为N ₁个光流。
根据权利要求17-21中任意一项所述的行为识别系统，其特征在于，所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络。
根据权利要求22所述的行为识别系统，其特征在于，所述神经网络包括：n个Block块、Reshape层、LIF层、全连接层和Softmax层；其中，所述Block块包括级联的ConvLIF层和池化层，n为正整数，且n≥1，当n＞1时，n个Block块级联。
根据权利要求23所述的行为识别系统，其特征在于，通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理，包括：

通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量；

通过所述Reshape层对所述第一特征向量进行矩阵变换处理，得到第二特征向量；

通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理，得到第三特征向量；

根据所述第三特征向量，通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
根据权利要求24所述的行为识别系统，其特征在于，当n＝1时，通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

将所述第一中间特征向量确定为第一特征向量；

当n＝2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第一时序卷积向量；

通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

通过ConvLIF层对所述第一中间特征向量进行时序卷积处理，得到第二时序卷积向量，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量；

将所述第二中间特征向量作为所述第一特征向量；

当n＞2时，通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取，得到第一特征向量，包括：

通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理，得到第1时序卷积向量；

通过所述池化层对所述第1时序卷积向量进行池化处理，得到第1中间特征向量；

通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量；

通过所述ConvLIF层对所述第i时序卷积向量进行池化处理，得到i中间特征向量；

通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量；

通过所述ConvLIF层对第i+1时序卷积向量进行池化处理，得到第i+1中间特征向量，其中，i为依次取自2至n-1的正整数，直至得到第n中间特征量；

将第n中间特征向量确定为第一特征向量。
根据权利要求25所述的行为识别系统，其特征在于，所述Block块还包括级联于ConvLIF层和池化层之间的BN层，

当n＝1或n＝2时，通过所述池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量，包括：

通过所述BN层对所述第一时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第一时序卷积向量进行池化处理；

当n＝2时，通过池化层对所述第二时序卷积向量进行池化处理，得到第二中间特征向量，包括：

通过所述BN层对所述第二时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第二时序卷积向量进行池化处理；

当n＞2时，通过所述池化层对所述第1时序卷积向量进行时序卷积处理，得到第2时序卷积向量，包括：

通过所述BN层对所述第1时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第1时序卷积向量进行池化处理，以得到第2时序卷积向量；

当n＞2时，通过所述池化层对第i中间特征向量进行时序卷积处理，得到第i+1时序卷积向量，包括：

通过所述BN层对所述第i时序卷积向量进行标准化处理；

利用池化层将标准化处理后的第i时序卷积向量进行池化处理，以得到第i+1时序卷积向量。
根据权利要求24所述的行为识别系统，其特征在于，所述LIF层用于：

根据t时刻的输入值X ^t经过全连接运算后得到的值I ^t，与t-1时刻的生物电压值
确定t时刻的膜电位值

根据t时刻的膜电位值
与发射阈值V _th，确定t时刻的输出值F ^t；

根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _rdset确定重置的膜电位值

根据重置的膜电位值
确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述LIF层级联的下一层的输入，所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
根据权利要求25所述的行为识别系统，其特征在于，所述ConvLIF层用于：

根据t时刻的输入值X ^t经过卷积运算或全连接运算后得到的值I ^t，与t-1时刻的生物电压值
确定t时刻的膜电位值

根据t时刻的膜电位值
与发射阈值V _th，确定t时刻的输出值F ^t；

根据t时刻的输出值F ^t确定是否重置膜电位，并根据重置的电压值V _reset确定重置的膜电位值

根据重置的膜电位值
确定t时刻的生物电压值

其中，所述t时刻的输出值F ^t作为与所述ConvLIF层级联的下一层的输入，所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
根据权利要求27或28所述的行为识别系统，其特征在于，所述根据t时刻的膜电位值与发射阈值V _th，确定时刻t的输出值，包括：

若t时刻的膜电位值
大于或等于发射阈值V _th，则确定所述t时刻的输出值为1；

若t时刻的膜电位值
小于发射阈值V _th，则确定所述t时刻的输出值为0。
根据权利要求27或28所述的行为识别系统，其特征在于，所述根据重置的膜电位值
确定t时刻的生物电压值
包括：通过Leak激活函数对所述重置的膜电位值
进行计算，确定t时刻的生物电压值
根据权利要求17所述的行为识别系统，其特征在于，所述网络融合模块对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时，对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
根据权利要求17所述的行为识别系统，其特征在于，所述双流融合模块对所述空间融合结果和所述时间融合结果进行双流融合时，将所述空间融合结果和所述时间融合结果采用加权融合。
一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-16中任一项所述的行为识别方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1-16中任一项所述的行为识别方法。