WO2022007193A1

WO2022007193A1 - 一种基于迭代学习的弱监督视频行为检测方法及系统

Info

Publication number: WO2022007193A1
Application number: PCT/CN2020/115542
Authority: WO
Inventors: 宋砚; 邹荣; 舒祥波
Original assignee: 南京理工大学
Priority date: 2020-07-07
Filing date: 2020-09-16
Publication date: 2022-01-13
Also published as: US11721130B2; CN111797771A; US20220189209A1; CN111797771B

Abstract

一种基于迭代学习的弱监督视频行为检测方法及系统，包括：提取包含动作行为的视频的时空特征；构建神经网络模型组；根据视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；根据视频的真实类别标签、当前神经网络模型输出的时序伪标签、下一个神经网络模型输出的类激活序列和下一个神经网络模型输出的视频特征训练下一个神经网络模型；根据检测精度最高值对应的神经网络模型对待检测视频进行动作检测。根据当前神经网络模型输出的时序伪标签信息训练下一个神经网络模型，可以使神经网络模型学习出的类激活序列更加精准，从而能够准确的检测出视频中的动作。

Description

一种基于迭代学习的弱监督视频行为检测方法及系统

本申请要求于2020年7月07日提交中国专利局、申请号为202010644474.5、发明名称为“一种基于迭代学习的弱监督视频行为检测方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及行为检测技术领域，特别是涉及一种基于迭代学习的弱监督视频行为检测方法及系统。

背景技术

近几年来，行为识别在计算机视觉领域已经被广泛研究，其目的是自动分析采集到的视频，从中识别出动作的行为类别，以代替人眼完成动作的分析和判断。视频行为识别广泛应用于各种视频场合，例如智能监控、人机交互、动作分析以及虚拟现实等。行为检测是由行为识别发展而来，行为识别主要针对分割好的动作视频，而行为检测主要针对未分割的动作视频，更适用于现实生活中拍摄的长视频。行为检测的目标就是在一段未分割过的长视频中找出每一个动作的开始时间、结束时间以及识别出动作的类别。由于基于全监督的行为检测需要视频具体的动作时间标注，而人工标注不仅需要花费大量时间还会因人而异。所以，基于弱监督的时序行为检测就可以在只知道视频包含哪些动作的情况下，定位出视频中所有的动作是从第几帧开始到第几帧结束，并识别出这些动作的类别。基于弱监督的时序行为检测相比起单纯的行为识别和基于全监督的时序行为检测在现实中具有更广泛的应用前景和实际价值。

目前，大多数弱监督时序行为检测方法都是基于深度卷积神经网络对视频进行特征提取，利用多示例学习或者注意力机制找到类激活序列中对动作响应高的分数对视频动作分类，同时对动作结构、动作特征或者动作与背景之间的关系构建定位网络去学习更新类激活序列，最后根据类激活序列进行定位。这些方法依然存在一定的问题，没有挖掘类激活序列中潜在包含的定位信息以及语义信息，导致定位准确度偏低。

发明内容

本发明的目的是提供一种基于迭代学习的弱监督视频行为检测方法及系统，能够准确的定位检测出视频中的动作。

为实现上述目的，本发明提供了如下方案：

一种基于迭代学习的弱监督视频行为检测方法，包括：

提取包含动作行为的视频的时空特征；将所述时空特征分为训练集时空特征和测试集时空特征；

构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征；

根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型；

根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型；

将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度；

根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。

可选的，所述根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型，具体为：

根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失；

根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。

可选的，所述根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型，具体为：

根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失；

根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征；

根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失；

根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失；

根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。

可选的，所述提取包含动作行为的视频的时空特征，具体为：根据预训练好的网络模型I3D对包含动作行为的视频提取时空特征。

可选的，所述第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层；其中N为所述训练集时空特征中视频帧切分成片段后每个片段的特征维度，C为训练集中所有视频的类别总数。

可选的，所述根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测，具体为：

提取待检测视频的时空特征；

将所述待检测视频的时空特征输入到所述定位精度最高值对应的所述神经网络模型中，输出类激活序列；

根据所述类激活序列获取所述待检测视频的分类分数；

根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别；

在所述类激活序列中选取所述预测类别对应的激活序列；

根据所述激活序列选取包含待检测动作的候选动作片段。

一种基于迭代学习的弱监督视频行为检测系统，包括：

时空特征提取模块，用于提取包含动作行为的视频的时空特征；将所述时空特征分为训练集时空特征和测试集时空特征；

神经网络模型组构建模块，用于构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征；

第一训练模块，用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型；

迭代训练模块，用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型；

精度检测模块，用于将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度；

动作检测模块，用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。

可选的，所述第一训练模块包括：

损失计算单元，用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失；

第一更新单元，用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。

可选的，所述迭代训练模块包括：

分类损失计算单元，用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失；

融合特征计算单元，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征；

相似性损失计算单元，用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失；

时序损失计算单元，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失；

第二更新单元，用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。

可选的，所述动作检测模块包括：

特征提取单元，用于提取待检测视频的时空特征；

类激活序列输出单元，用于将所述待检测视频的时空特征输入到所述定位精度最高值对应的所述神经网络模型中，输出类激活序列；

分类分数获取单元，用于根据所述类激活序列获取所述待检测视频的分类分数；

预测类别选取单元，用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别；

激活序列选取单元，用于在所述类激活序列中选取所述预测类别对应的激活序列；

候选动作片段选取单元，用于根据所述激活序列选取包含待检测动作的候选动作片段。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于迭代学习的弱监督视频行为检测方法及系统，包括：提取包含动作行为的视频的时空特征；构建神经网络模型组；根据视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；根据视频的真实类别标签、当前神经网络模型输出的时序伪标签、下一个神经网络模型输出的类激活序列和下一个神经网络模型输出的视频特征训练下一个神经网络模型；将测试集时空特征输入到各神经网络模型中，根据各神经网络模型输出的类激活序列分别对测试集中对应的每一个测试视频进行动作检测，得到各神经网络模型的检测精度。根据检测精度最高值对应的神经网络模型对待检测视频进行动作检测。本发明中根据当前神经网络模型输出的时序伪标签信息训练下一个神经网络模型，可以使神经网络模型学习出的类激活序列更加精准，从而能够准确的检测出视频中的动作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的流程图；

图2为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的过程图；

图3为本发明实施例提供的融合特征获取过程图；

图4为本发明实施例提供的时序伪标签输出过程图；

图5为本发明实施例提供的时序损失计算过程图；

图6为本发明实施例提供的基于迭代学习的弱监督视频行为检测系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的流程图。图2为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的过程图。如图1和图2所示，方法包括：

步骤101：提取包含动作行为的视频的时空特征。将所述时空特征分为训练集时空特征和测试集时空特征。在本实施例中，具体为：对于给定的视频v，先抽取视频v的图像帧和光流，然后使用kinetics数据集预训练过的I3D模型对图像帧和光流提取视频的时空特征

其中T _v是视频v所有帧切分成的片段数，N是每个片段的特征维度，N＝2048。

步骤102：构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征。

步骤103：根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型。

在本实施例中，第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层，其中N为训练集时空特征中视频帧切分成片段后每个片段的特征维度，C为训练集中所有视频的类别总数。训练第一神经网络模型过程包括：

步骤1031：根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失。在本实施例中，步骤1031具体包括以下步骤：

步骤10311：将训练集中视频v对应的时空特征S _v输入到一层2048个节点的全连接层、线性整流激活层和随机失活层，得到与检测任务相关的视频特征

将视频特征

输入到一层C个节点的全连接层得到视频的类激活序列

根据视频v的类激活序列

对每一个类别c对应的激活序列

选取前k个最高的分数做平均，其中

得到视频对应的分类分数

将分类分数经过softmax函数得到分类概率

计算公式如下：

其中，C是训练集中所有视频的动作类别总数。

将视频的真实类别标签

和分类概率

输入到定义好的分类损失中，得到视频的分类损失。计算公式为：

其中，L _class是训练集中所有视频的分类损失，B为批处理数量，

步骤10312：根据视频的类激活序列

找到视频真实类别j对应的激活序列

然后利用softmax函数得到类已知的注意力权重

计算公式如下：

然后利用注意力权重

计算视频特征X中包含动作j的高权重特征区域 H ^j和不包含动作j的低权重特征区域L ^j，计算公式如下：

对于包含同种动作j的视频对(m，n)，利用公式(4)和公式(5)分别计算出视频m的高权重特征值H ^j(m)以及低权重特征值L ^j(m)，视频n的高权重特征值H ^j(n)以及低权重特征值L ^j(n)。然后根据公式：

利用余弦相似度来衡量两个特征值X ^j(m)和X ^j(n)的相似度。即H ^j(m)和H ^j(n)之间的相似性D ^H[m,n]，H ^j(m)和L ^j(n)之间的相似性D ^L[m,n]，H ^j(n)和L ^j(m)之间的相似性D ^L[n,m]。根据同种动作的特征向量是相似的，动作与背景特征向量是相异的，利用铰链损失函数拉大动作与背景之间的差异，进而获得视频的相似性损失，具体公式如下：

其中，L _simi是训练集所有视频的相似性损失。S ^j是训练集中包含动作j的所有视频集合。

步骤1032：根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。具体为：利用总损失L ₀进行更新第一神经网络模型的参数，其中L ₀＝γL _class+(1-γ)*L _simi，系数γ＝0.5。

步骤104：根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型。

在本实施例中，步骤104具体包括以下步骤：

步骤1041：根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失。计算过程同步骤10311。

步骤1042：根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征。图3为本发明实施例提供的融合特征获取过程图。在本实施例中，步骤1042具体包括以下步骤：

步骤10421：根据当前神经网络模型输出的类激活序列

对视频v中的每一个片段t对应的激活序列

选取最高分

作为片段t属于动作前景的得分。其中r＝(1,2,...R)是第r次迭代，R是迭代的总次数。当r＝1时，A _v,r-1是第一个神经网络模型输出的类激活序列。

把所有片段的动作前景的得分经过softmax函数得到类无关权重

其中

计算公式如下：

步骤10422：选取权重位于前h的片段作为第一动作片段，其中

对于第一动作片段中的每一个动作片段计算其与视频中所有片段的特征相似度，计算公式为：

其中，x ^m，x ⁿ是当前神经模型输出的视频特征在第m个和第n个片段处的特征。

选择出与第一动作片段中的每一个动作片段时间前后距离为2个片段以内且相似度最高的片段为第二动作片段，把第一动作片段和第二动作片段对应的位置都设为1，其余位置设为0，得到最终的时序伪标签

其中若片段t为动作片段，则

否则

图4为本发明实施例提供的时序伪标签输出过程图。

步骤10423：将当前神经网络模型输出的时序伪标签

输入到一层2048个节点的全连接层，得到区分动作和背景区域的语义特征

然后把该语义特征和下一个神经网络模型输出的视频特征

按一定比例相结合得到视频的融合特征

融合公式为：

其中d是比例系数，设为0.1。

步骤1043：根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失。计算过程同步骤10312。(将步骤10312中的视频特征替换为融合特征)。

步骤1044：根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失。图5为本发明实施例提供的时序损失计算过程图。在本实施例中，具体过程为：

根据下一个神经网络模型输出的类激活序列A _v,r得到类无关权重

计算过程同步骤10421。然后将当前神经网络模型输出的时序伪标签G _v,r-1和类无关权重

做时序损失。计算公式如下：

步骤1045：根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。具体为：

利用总损失L _r进行更新下一个神经网络模型的参数，其中

其中

是步骤1041中计算的分类损失，

是步骤1043中计算的相似性损失，

是步骤1044中计算的时序损失。系数γ为0.5，系数β为0.05。

步骤105：将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度。

步骤106：根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。具体为：

提取待检测视频的时空特征，将待检测视频的时空特征输入到定位精度最高值对应的神经网络模型中，输出类激活序列，根据类激活序列获取待检测视频的分类分数。根据分类分数在待检测视频中选取包含待检测动作的预测类别，在本实施例中可选取分类分数大于0的类别为预测类别。然后在类激活序列中选取预测类别对应的激活序列。根据对应的激活序列选取包含待检测动作的候选动作片段作为动作检测结果，在本实施例中，可选取激活值大于设定阈值且是两个及以上连续片段作为动作检测结果，其中阈值为max(A ^t)-(max(A ^t)-min(A ^t))*0.5，A ^t为预测动作i对应的激活序列。

实施例2

本发明还提供了一种基于迭代学习的弱监督视频行为检测系统，该系统应用于实施例1的基于迭代学习的弱监督视频行为检测方法。图6为本发明实施例提供的基于迭代学习的弱监督视频行为检测系统的系统框图，如图6所示，本系统包括：

时空特征提取模块201，用于提取包含动作行为的视频的时空特征；将所述时空特征分为训练集时空特征和测试集时空特征。

神经网络模型构建模块202，用于构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征。

第一训练模块203，用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型。

在本实施例中，第一训练模块203包括：

损失计算单元2031，用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络输出的视频特征计算所述视频的分类损失和所述视频的相似性损失。

第一更新单元2032，用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。

迭代训练模块204，用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型。

在本实施例中，迭代训练模块204包括：

分类损失计算单元2041，用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失。

融合特征计算单元2042，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征。

相似性损失计算单元2043，用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失。

时序损失计算单元2044，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失；

第二更新单元2045，用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。

精度检测模块205，用于将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度。

动作检测模块206，用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。

在本实施例中，动作检测模块206包括：

特征提取单元2061，用于提取待检测视频的时空特征。

类激活序列输出单元2062，用于将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中，输出类激活序列。

分类分数获取单元2063，用于根据所述类激活序列获取所述待检测视频的分类分数。

预测类别选取单元2064，用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别。

激活序列选取单元2065，用于在所述类激活序列中选取所述预测类别对应的激活序列。

候选动作片段选取单元2066，用于根据所述激活序列选取包含待检测动作的候选动作片段。

(1)本发明中的神经网络模型在训练的时候迭代加入了时序伪标签的监督信息，可以使得学习出的类激活序列更加精准，从而使得定位检测动作更加精准。

(2)本发明中通过将时序伪标签转换成语义特征，并与视频特征相融合，使得视频特征更适用于定位任务，进一步提高了定位精准度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于迭代学习的弱监督视频行为检测方法，其特征在于，包括：

提取包含动作行为的视频的时空特征；将所述时空特征分为训练集时空特征和测试集时空特征；

构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征；

根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型；

根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型；

将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度；

根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
根据权利要求1所述的检测方法，其特征在于，所述根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型，具体为：

根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失；

根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
根据权利要求1所述的检测方法，其特征在于，所述根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型，具体为：

根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失；

根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征；

根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失；

根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失；

根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
根据权利要求1所述的检测方法，其特征在于，所述提取包含动作行为的视频的时空特征，具体为：根据预训练好的网络模型I3D对包含动作行为的视频提取时空特征。
根据权利要求1所述的检测方法，其特征在于，所述第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层；其中N为所述训练集时空特征中视频帧切分成片段后每个片段的特征维度，C为训练集中所有视频的类别总数。
根据权利要求1所述的检测方法，其特征在于，所述根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测，具体为：

提取待检测视频的时空特征；

将所述待检测视频的时空特征输入到所述定位精度最高值对应的所述神经网络模型中，输出类激活序列；

根据所述类激活序列获取所述待检测视频的分类分数；

根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别；

在所述类激活序列中选取所述预测类别对应的激活序列；

根据所述激活序列选取包含待检测动作的候选动作片段。
一种基于迭代学习的弱监督视频行为检测系统，其特征在于，包括：

时空特征提取模块，用于提取包含动作行为的视频的时空特征；将所述时空特征分为训练集时空特征和测试集时空特征；

神经网络模型组构建模块，用于构建神经网络模型组，所述神经网络模型组包含至少两个神经网络模型；每个所述神经网络模型的输入均为所述训练集时空特征，每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征；

第一训练模块，用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型；所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型；

迭代训练模块，用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型；

精度检测模块，用于将所述测试集时空特征输入到各所述神经网络模型中，根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测，得到各所述神经网络模型的检测精度；

动作检测模块，用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
根据权利要求7所述的检测系统，其特征在于，所述第一训练模块包括：

损失计算单元，用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失；

第一更新单元，用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
根据权利要求7所述的检测系统，其特征在于，所述迭代训练模块包括：

分类损失计算单元，用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失；

融合特征计算单元，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征；

相似性损失计算单元，用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失；

时序损失计算单元，用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失；

第二更新单元，用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
根据权利要求7所述的检测系统，其特征在于，所述动作检测模块包括：

特征提取单元，用于提取待检测视频的时空特征；

类激活序列输出单元，用于将所述待检测视频的时空特征输入到所述定位精度最高值对应的所述神经网络模型中，输出类激活序列；

分类分数获取单元，用于根据所述类激活序列获取所述待检测视频的分类分数；

预测类别选取单元，用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别；

激活序列选取单元，用于在所述类激活序列中选取所述预测类别对应的激活序列；

候选动作片段选取单元，用于根据所述激活序列选取包含待检测动作的候选动作片段。