WO2023035904A9

WO2023035904A9 - 视频时序动作提名生成方法及系统

Info

Publication number: WO2023035904A9
Application number: PCT/CN2022/113540
Authority: WO
Inventors: 罗平; 吴剑南; 沈家骏; 马岚
Original assignee: 港大科桥有限公司; Tcl科技集团股份有限公司
Priority date: 2021-09-08
Filing date: 2022-08-19
Publication date: 2024-03-14
Also published as: WO2023035904A1; CN115797818A

Abstract

本发明的实施例提供了视频时序动作提名生成系统及方法，其经由编码器对从输入的视频所提取的视频特征进行处理以获取带有全局信息的视频编码特征，并通过预先训练的多个提名片段从视频编码特征中抽取对应的感兴趣片段特征提供至解码器，解码器基于每个提名片段对应的感兴趣片段特征和预先训练的各提名片段对应的提名特征生成片段特征，并将其提供至预测模块；预测模块基于来自解码器的片段特征生成时序动作提名结果。本发明实施例的方案能有效捕捉视频的全局上下文信息，获取表征能力更强的视频编码特征；而且通过引入若干个可学习的提名片段来从视频编码特征中抽取对应位置的特征序列来用于后续预测，提高了训练收敛速度并大幅降低了计算负担。

Description

视频时序动作提名生成方法及系统

技术领域

本发明涉及视频处理，尤其涉及用于生成视频时序动作提名的系统及方法。

背景技术

生成视频时序动作提名是视频时序动作检测的关键步骤，其目的在于从一段未裁剪的长视频中检测出包含人类行为的动作片段，即确定动作发生的开始和结束时间。高质量的视频时序动作提名应当具有以下两个关键特性：(1)准确的时序边界，即生成的动作提名应完整地覆盖动作发生的区域；(2)可靠的置信度分数，用于准确评估所生成的提名的质量以用于后续的检索排序。通过视频时序动作提名与具体的动作类别结合可进一步完成后续的视频时序动作检测任务。高效且高质量地生成视频时序动作提名有利于改善和提高视频动作的识别精度。

发明内容

本发明实施例的目的在于提供一种新的视频时序动作提名生成方法和系统来快速、高效地生成高质量的视频时序动作提名。上述目的是通过以下技术方案实现的：

根据本发明实施例的第一方面，提供了一种视频时序动作提名生成系统，其包括特征提取模块、特征处理模块和预测模块。其中特征提取模块用于从输入的视频提取与该视频相关的视频特征。特征处理模块包括预先训练的编码器和解码器，其中编码器基于来自特征提取模块的视频特征获取带有全局信息的视频编码特征，并通过预先训练的若干个提名片段从视频编码特征中抽取各个提名片段对应的感兴趣片段特征提供至解码器，解码器基于每个提名片段对应的感兴趣片段特征和预先训练的与提名片段对应的提名特征生成片段特征，并将其提供至预测模块。预测模块基于来自解码器的片段特征生成时序动作提名结果，其包括提名边界和置信度分数。

在本发明的一些实施例中，编码器包括图注意力层、多头自注意力层和前馈层，其中所述编码器将视频特征和位置编码相加的结果作为多头自注意力层的值向量输入，同时将该结果作为输入提供给图注意力层处理，其输出经线性变换后得到多头自注意力层的查询向量和键向量。

在本发明的一些实施例中，解码器包括多头自注意力层、稀疏交互模块和前馈层，其中解码器将提名片段对应的提名特征经多头自注意力层处理后提供至稀疏交互模块与该提名片段对应的感兴趣片段特征进行稀疏交互；该稀疏交互模块的输出经前馈层处理后得到片段特征。

在本发明的一些实施例中，特征处理模块可以基于变换器模型构建。

在本发明的一些实施例中，预测模块可以基于来自解码器的片段特征进行边界回归和二分类预测。

根据本发明实施例的第二方面，还提供了一种采用根据本发明实施例的第一方面的系统生成时序动作提名生成的方法，包括：步骤S1)经由特征提取模块从输入的视频中提取视频特征；步骤S2)经由编码器对所提取的视频特征进行处理以得到具有该输入的视频的全局上下文信息的视频编码特征；步骤S3)利用预先训练的若干个提名片段中的每一个从视频编码特征中抽取相应的感兴趣片段特征；步骤S4)经由解码器基于每个提名片段对应的感兴趣片段特征和预先训练的与提名片段对应的提名特征生成片段特征；步骤S5)经由预测模块根据来自解码器的片段特征进行边界回归和二分类预测，输出相应的时序动作提名结果。

在本发明的一些实施例中，编码器可包括图注意力层、多头自注意力层和前馈层，其中步骤S2)包括将视频特征和位置编码相加的结果作为多头自注意力层的值向量输入，同时将该结果作为输入提供给图注意力层处理，其输出经线性变换后得到多头自注意力层的查询向量和键向量。

根据本发明实施例的第三方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被执行时实现如上述实施例第二方面所述的方法。

本发明实施例提供的技术方案可以包括以下有益效果：

该方案能有效捕捉视频的全局上下文信息，获取表征能力更强的视频编码特征；而且通过引入若干个可学习的提名片段来从视频编码特征中抽取对应位置的特征序列来用于后续预测，大大提高了训练收敛速度并大幅降低了计算负担。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明一个实施例的视频时序动作提名生成系统的操作流程示意图。

图2示出了根据本发明一个实施例的稀疏交互模块的稀疏交互流程示意图。

图3示出了根据本发明一个实施例的视频时序动作提名生成方法的流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不经创造性劳动获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

现有的视频时序动作提名生成方法可分为基于锚框方法和基于边界方法。基于锚框方法对预先定义好尺寸和比例且均匀分布的锚框进行边界回归，并采用一个二分类器来评估提名的置信度分数。具体地，在视频一维特征序列的每个位置上铺设预定义好大小和比例的锚框，若一维特征序列长度为T，每个位置铺设K个锚框，则共需预测TK个锚框结果。在训练阶段，采用与真实标签框的交并比(IOU)大小选择正负样本，对这TK个锚框进行时序边界的回归以及锚框置信度的二分类预测。在模型推理阶段，由于预测出的锚框结果会有大量的重叠，因此需要采用非极大值抑制方法去除冗余的预测结果，得到最终的提名生成结果。常见的方法有Prop-SSAD(Lin,T.,Zhao,X.,&Shou,Z.,Temporal convolution based action proposal:Submission to activitynet 2017.arXiv preprint arXiv:1707.06750.)，RapNet(Gao,J.,Shi,Z.,Wang,G.,Li,J.,Yuan,Y.,Ge,S.,&Zhou,X..Accurate temporal action proposal generation with relation-aware pyramid network.In Proceedings of the AAAI Conference on Artificial Intelligence,Vol.34,No.07,pp.10810-10817，2020年4月)。该类方法的性能极度依赖于锚框的人工设计，因此难以扩展，在应用于不同场景时十分繁琐。而基于边界方法通过列举所有的候选起止点生成任意长度的候选提名，并对每个候选提名进行边界概率预测得到二维置信图。该类方法的基础模块是卷积层，只能捕捉局部区域的信息，而不能捕捉视频的长期语义信息。BMN(Lin,T.,Liu,X.,Li,X.,Ding,E.,&Wen,S.Bmn:Boundary-matching network for temporal action proposal generation.In Proceedings of the IEEE/CVF International Conference on Computer Vision，pp.3889-3898，2019),DBG(Lin,C.,Li,J.,Wang,Y.,Tai,Y.,Luo,D.,Cui,Z.,...&Ji,R..Fast learning of temporal action proposal via dense boundary generator.In Proceedings of the AAAI Conference on Artificial Intelligence，Vol.34,No.07,pp.11499-11506，2020年4月),BSN++(Su,H.,Gan,W.,Wu,W.,Qiao,Y.,&Yan,J.(2020).Bsn++:Complementary boundary regressor with scale-balanced relation modeling for temporal action proposal generation.arXiv preprint arXiv:2009.07641.)属于该类方法。

此外，这两种方法均具有以下两个缺点。一是随着视频长度的增加，预定义的锚框数量以及生成的置信图尺寸都会大大增加，对计算资源消耗巨大，难以应用到实际场景中；二是这两种方法均生成了大量的冗余提名，需要采用非极大值抑制的后处理方法消除冗余预测结果，后处理操作不仅需要细致的参数选择，而且大大降低了模型的推理速度。

在本发明的实施例中提供了一种视频时序动作提名生成系统，其包括特征提取模块、特征处理模块和预测模块。其中特征提取模块用于从输入的视频提取与该视频相关的视频特征。特征处理模块基于Transformer(变换器)模型构建，包括编码器和解码器。该编码器基于来自特征提取模块的视频特征获取带有全局信息的视频编码特征，并通过预设的若干个提名片段从视频编码特征中抽取各个提名片段对应的感兴趣片段特征提供至解码器，解码器基于每个提名片段对应的感兴趣片段特征和该提名片段对应的提名特征生成片段特征，并将其提供至预测模块。预测模块基于来自解码器的片段特征生成时序动作提名结果，其包括提名边界和置信度分数。

在该实施例中，首先利用以已标注了时序动作提名的大量视频片段作为样本构成的训练集对该系统的特征处理模块和预测模块进行统一训练(可以称为离线训练阶段)，然后将待处理的视频片段作为输入提供给该训练好的系统进行处理，其输出为该输入视频的时序动作提名，其包括各个提名边界及对应置信度分数(可以称为在线预测阶段)。在系统初始时，预设的若干个提名片段及其对应的提名特征以及编码器、解码器和预测模块中涉及的参数均是随机设置。在训练过程中上述这些参数在训练过程中不断被调整直到训练结束，这些训练好的参数用于后续在线预测阶段。应指出，这里的特征提取模块和预测模块可以采用适用于进行视频特征提取和使用于根据输入的特征预测提名边界和置信度分数的任何类型的机器学习模型，包括但不限于神经网络模型，本文对此不进行限制。考虑到在训练阶段和在线处理阶段对于视频特征的提取和处理是基本相同的，下文主要结合图1对于训练阶段中视频特征的处理过程进行介绍。

首先对于输入的视频，通过特征提取模块提取与该视频相关的视频特征，例如视频的图像特征(如RGB特征)和光流特征等。在一个示例中，可以采用诸如时间片段网络(Temporal Segment Network，TSN)之类的神经网络来提取视频特征。对于所提取的不同维度的视频特征，将其转换成具备相同的特征维度的一系列特征序列。特征序列的特征维度可以根据实际需求进行设置，在此不进行限制。为方便描述，在下面的示例中将视频特征记为

其中R代表实数，M代表视频的长度，可以理解为视频的帧数，C代表特征向量的维度，即从每个视频帧提取的特征向量的维度。可以看出，视频特征f也可以被视为是由M个视频帧的特征向量构成的一个视频特征序列，每个视频帧在该序列中有自己特定的位置。经由特征提取模块提取的视频特征提供至特征处理模块进行处理。应理解，可以对上述视频特征进行适当变换处理以适应或匹配特征处理模块中设定的特征维度。例如，对于所提取的特征，可以经过一个卷积核大小为1的一维卷积层进行特征维度的对齐，变换后的视频特征序列可作为后续过程中编码器的输入。

参考图1，编码器主要包含多头自注意力层和前馈层。其中多头自注意层由多个独立的自注意层组成。自注意层采用基于注意力机制的结构，其核心内容是在编码相应序列的时候可以查看输入序列的其他序列信息，将序列两两连接，从而有效捕捉到输入序列的全局上下文信息，构建序列间的长距离依赖关系。因此可以达到增强相关特征，抑制无缘特征的目的。多头自注意层的输入为三元组，由查询向量Q(query)、键向量K(key)、值向量V(value)构成。每个自注意层的计算过程如下：

其中d _k为比例因子，这里的T表示转置，softmax()代表激活函数。如上面公式所示，通过将查询向量Q与键向量K做点积操作来计算序列中特征两两之间的分数，该分数代表着两个特征之间的关联性。为了保持梯度稳定，用一个比例因子d _k来对分数进行归一化操作，然后再经过softmax()函数将数值标准化到0-1之间，最后得到的分数与值向量V进行加权，以达到增强相关特征，降低抑制无关特征的目的。在此基础上面，多头自注意力层包含了多个独立的自注意层来各自重点关注一部分上下文信息，这些自注意层的输出(每个自注意力层的输出可以记为head，head＝Attention(Q,K,V))被拼接起来，并且经由一个线性层进一步聚合后得到的具有更好鲁棒性的多头自注意力层的输出MultiHead(Q,K,V)，其计算公式如下：

MultiHead(Q，K，V)＝Concat(head ₁,...，head _h)W ^O

其中，h代表多头自注意力层中包含的自注意力层的总数量，W _o为用于聚合特征的线性层的参数矩阵。如图1所示，该多头自注意层的输出还会进一步经过相加和归一化操作处理后输入至前馈层。其中前馈层可以由两个线性变换层以及一个非线性激活函数Relu组成。前馈层的输出经相加和归一化操作处理后得到整个编码器的输出结果，即视频编码特征。

在一些实施例中，可以如通常的Transformer模型，编码器中的多头自注意力层的输入Q,K,V是将输入的特征序列经由3个含不同参数矩阵(W _Q、W _K、W _V)的线性变换层进行映射的得到的。例如假设输入的序列为T ₀，则Q,K,V以如下公式计算：

Q＝T ₀W _Q,K＝T ₀W _k,V＝T ₀W _V。

而在图1所示的实施例中，在编码器中在多头自注意力层的基础上引入了图注意力层来对输入的序列进行预处理，从而使编码器能更好地关注视频中动作发生的片段并构建动作片段之间的联系，从而获得表征能力更强的编码特征。并且为了视频特征中相对位置关系，例如各视频帧的相对位置和时序关系，在编码器中采用了位置编码，以输入的视频特征序列和位置编码的相加结果作为输入，

其中d为在编码器中适用的特征的维度。位置编码的维度与输入的视频特征的维度相同，即输入的视频特征序列中每个视频帧的特征向量都有自己对应的位置编码。如上文提到的，作为编码器的其中一个参数的位置编码在系统初始化时随机设置的，在后续训练过程中不断进行调整。

如图1所示，将输入的视频特征序列与位置编码的相加后得到的输入x直接作为多头自注意力层的值向量V，同时该输入x被提供至一个图注意力层进行变换处理，图注意力层的输出进一步进行线性层变换后得到多头自注意力层的查询向量Q和键向量K。其中图注意力层用于进一步强化视频中不同时间点特征之间的联系，以输入的第i个向量x _i为例，其经过图注意力层后变换为：

其中，||为拼接操作，K为图注意力层的多头数量，i＝1,2，…,M，这里的M如上文提到的代表视频的长度，可以理解为视频的帧数。W ^k为第k个图自注意力层的可学习权重矩阵，σ为非线性激活函数，例如，Leaky ReLU 函数。

为第k个图注意力层中特征向量x _i对x _j的权重系数，表征了两者之间的相关性大小，其计算过程为：

其中，α _k为可学习的权重向量，T代表转置操作。通过在编码器中引入上述图注意力机制可以进一步动态地构建视频特征序列不同帧之间的联系，从而更准确地进行全局上下文信息的捕捉，帮助编码器获得表征能力更强的视频编码特征。

继续参考图1，在本发明的实施例中，引入了N个可学习的提名片段及其对应的提名特征来进一步对经由编码器输出的视频编码特征进行处理。利用每个提名片段从视频编码特征中抽取对应位置的特征序列以得到感兴趣片段特征并将其与该提名片段对应的提名特征一起作为输入提供给解码器。其中每个提名片段为一个归一化的二维坐标(数值在0-1之间)，其代表视频时间轴上一个片段；每个提名特征为维度为d的向量。这里，各个提名片段的长度可以不同，因此所提取的特征序列的维度也可能不同。因此在一个示例中，在利用提名片段从视频编码特征中抽取对应位置的特征序列之后，可以利用双线性插值将所有抽取出的特征调整至同一长度M′，即每个感兴趣片段特征的维度为M′×d。如上文提到的，与编码器的位置编码一样，这N个提名片段及其对应的提名特征也都是要在经过训练过程中得到的参数，在系统初始化时随机设置，在后续训练过程中不断进行调整。

在解码器中，这N个提名特征首先输入至多头自注意力层，经过多头自注意力层以获取各提名特征之间长距离依赖关系的相关信息，在对多头自注意力层的输出经过相加和归一化处理后，每个提名片段对应的提名特征和该提名片段对应的感兴趣片段特征在稀疏交互模块中进行一对一的交互。该稀疏交互模块的输出进一步经过相加和归一化处理后提供至前馈层，前馈层的输出经相加和归一化处理后，输出N个片段特征，即解码器的输出结果。图2以第k个提名特征为例，展示了其与对应感兴趣片段特征在稀疏交互模块中的稀疏交互过程。具体地，维度为d的提名特征向量经过线性层并进行尺度调整后得到大小为d×d _h以及d _h×d的两个参数(这里的d _h可根据具体解码器需求设置)，感兴趣片段特征分别与这两个参数依次进行矩阵乘法，得到大小为M′×d的片段特征。这一过程可视为感兴趣特征片段经过两层的一维卷积层，因此也可称为动态卷积操作。在上述的解码器中，提名特征至于对应的感兴趣片段特征进行交互，而不需要与全局的视频编码特征交互，从而可以大大提高训练收敛的速度。

继续参考图1，预测模块接收来自解码器的N个片段特征进行边界回归和二分类预测，输出N个提名预测结果，包括提名边界及对应置信度分数。在每次的训练中将经过上述过程预测得到的N个提名预测结果与样本对应的真实提名标签采用最优二分匹配进行一对一的匹配。例如，采用Focal损失函数为二分类损失函数，L1损失函数和GIOU损失函数为回归损失函数，对于一个视频，计算N个提名预测结果对每个提名标签的分类代价与回归代价之和，最终对于每个真实提名标签，选择总代价最小的唯一提名预测结果作为正样本，而不与真实提名标签匹配的提名预测结果均视为负样本。在该实施例中，预测模块由两个独立的前馈层组成，其中一个前馈层由一层线性层组成，用于评估所生成提名结果的置信度分数，另一个前馈层由三层线性层组成，用于对提名的边界坐标进行回归。在训练集上不断重复上述训练过程继续迭代优化，其中每一轮的训练中预测模块输出的提名边界作为下一轮训练中采用的N个提名片段。在训练完成后，该系统中涉及的N个提名片段及其对应的提名特征以及编码器、解码器和预测模块中涉及的参数都会被确定下来，从而可用于后续在线预测阶段。在本文中，N的取值可以依据待处理的视频片段长度、实际需求和系统性能来设置。例如，待处理的1分钟长度的视频片段上通常有2到3个提名，则可以将N设置为至少大于该视频片段上可能存在的提名的数量，例如将N设置为大于3的任意整数。但应理解，N越大，消耗的计算性能越大。因此，N通常最大不超过待处理视频片段上可能存在的提名的数量的10倍数的关系。例如对于待处理的1分钟长度的视频片段，可以将N设置为在3-30之间的整数。

在线预测阶段，将待处理的视频片段提供给该系统。该系统首先从中提取视频特征，经由编码器将所提取的视频特征变化为具有该输入的视频的全局上下文信息的视频编码特征，结合预先训练好的N个提名片段中的每一个从视频编码特征中抽取相应的感兴趣片段特征。接着经由解码器对于每个提名片段对应的感兴趣片段特征和其对应的提名特征进行一对一交互后得到片段特征，并将其提供给预测模块。最后经由预测模块对来自解码器的片段特征进行边界回归和二分类预测，并输出与该待处理的视频片段相对应的N个提名生成结果。与现有技术不同，在该系统中通过引入N个可学习的提名片段和对应的提名特征，可以直接得到N个动作提名结果，而无需非极大值抑制的后处理过程，而且其生成的动作提名数量与视频长度无关，因此能大幅度降低计算负担，极大地提高时序动作提名的生成速度。

可以看出，根据上述实施例的系统能有效捕捉视频的全局上下文信息，获取表征能力更强的视频编码特征；而且通过引入若干个可学习的提名片段来从视频编码特征中抽取对应位置的特征序列来用于后续预测，大大提高了训练收敛速度并大幅降低了计算负担。

图3示出了利用上述根据本发明实施例的视频时序动作提名生成系统生成时序动作提名的方法的流程示意图。该方法包括：步骤S1)经由特征提取模块从输入的视频中提取视频特征；步骤S2)经由编码器对所提取的视频特征进行处理以得到具有该输入的视频的全局上下文信息的视频编码特征；步骤S3)利用预设的多个提名片段中的每一个从视频编码特征中抽取相应的感兴趣片段特征；步骤S4)经由解码器对于每个提名片段对应的提名特征与该提名片段对应的感兴趣片段特征进行交互以得到片段特征；步骤S5)经由预测模块根据来自解码器的片段特征进行边界回归和二分类预测，输出相应的时序动作提名结果。

为了更好地说明本发明的性能，发明人还基于THUMOS14数据集和ActivityNet-1.3数据集比较了本发明的时序动作提名生成方法与现有常用的时序动作提名生成方法的性能。

在训练过程中，利用图1所示的系统结构在训练集上进行20个周期的迭代训练，在每个周期完成后，计算验证集上的损失以评估该系统的性能，并选择验证集损失最小的系统结构作为训练完成的系统。

在预测阶段，将视频特征输入训练好的系统，将预测模块的输出结果作为最终的N个提名生成结果。将提名生成结果与真实提名标签进行比较，计算在验证集上的召回率以验证所训练的模型结构的性能。表1为用本发明的方法与目前主流方法在THUMOS14数据集上进行性能比较，以提名的召回率作为评估指标，结果显示本发明的方法优于其他方法。表2为本发明的方法与其他主流算法在ActivityNet-1.3数据集上的推理速度的比较。为了公平比较，计算每个视频的平均推理时间，结果显示本发明的方法比现有方法至少快8倍。

表1

方法	AR@50	AR@100	AR@200	AR@500
BSN	37.46	46.06	53.21	60.64
BMN	39.36	47.72	54.70	62.07
RapNet	40.35	48.23	54.92	61.41
DBG	37.32	46.67	54.50	62.21
本发明	40.40	48.70	55.51	62.20

表2

方法	BSN	BMN	GTAD	DBG	本发明
T _pro(sec)	0.671	0.118	0.103	0.219	0.056
T _all(sec)	0.815	0.745	0.862	0.596	0.074

在本发明的又一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序或可执行指令，当所述计算机程序或可执行指令被处理器或其他计算单元执行时实现如前述实施例中所述的技术方案，其实现原理类似，此处不再赘述。在本发明的实施例中，计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质，以便可以分布式地存储和执行计算机程序或指令。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

一种视频时序动作提名生成系统，其包括特征提取模块、特征处理模块和预测模块，其中：

特征提取模块，用于从输入的视频提取与该视频相关的视频特征；

特征处理模块包括预先训练的编码器和解码器，其中编码器基于来自特征提取模块的视频特征获取带有全局信息的视频编码特征，并通过预先训练的若干个提名片段从视频编码特征中抽取各个提名片段对应的感兴趣片段特征提供至解码器，解码器基于每个提名片段对应的感兴趣片段特征和预先训练的与提名片段对应的提名特征生成片段特征，并将其提供至预测模块；

预测模块基于来自解码器的片段特征生成时序动作提名结果，其包括提名边界和置信度分数。
根据权利要求1所述的系统，其中编码器包括图注意力层、多头自注意力层和前馈层，其中所述编码器将视频特征和位置编码相加的结果作为多头自注意力层的值向量输入，同时将该结果作为输入提供给图注意力层处理，其输出经线性变换后得到多头自注意力层的查询向量和键向量。
根据权利要求1所述的系统，其中解码器包括多头自注意力层、稀疏交互模块和前馈层，其中解码器将提名片段对应的提名特征经多头自注意力层处理后提供至稀疏交互模块与该提名片段对应的感兴趣片段特征进行稀疏交互；该稀疏交互模块的输出经前馈层处理后得到片段特征。
根据权利要求1所述的系统，其中特征处理模块基于变换器模型构建。
根据权利要求1所述的系统，其中预测模块基于来自解码器的片段特征进行边界回归和二分类预测。
一种采用如前述任一权利要求所述的系统生成时序动作提名生成的方法，包括：

步骤S1)经由特征提取模块从输入的视频中提取视频特征；

步骤S2)经由编码器对所提取的视频特征进行处理以得到具有该输入的视频的全局上下文信息的视频编码特征；

步骤S3)利用预先训练的若干个提名片段中的每一个从视频编码特征中抽取相应的感兴趣片段特征；

步骤S4)经由解码器基于每个提名片段对应的感兴趣片段特征和预先训练的与提名片段对应的提名特征生成片段特征；

步骤S5)经由预测模块根据来自解码器的片段特征进行边界回归和二分类预测，输出相应的时序动作提名结果。
根据权利要求6所述的方法，其中编码器包括图注意力层、多头自注意力层和前馈层，其中步骤S2)包括将视频特征和位置编码相加的结果作为多头自注意力层的值向量输入，同时将该结果作为输入提供给图注意力层处理，其输出经线性变换后得到多头自注意力层的查询向量和键向量。
根据权利要求6所述的方法，其中解码器包括多头自注意力层、稀疏交互模块和前馈层，其中步骤S4)包括将提名片段对应的提名特征经多头自注意力层处理后提供至稀疏交互模块与该提名片段对应的感兴趣片段特征进行稀疏交互；该稀疏交互模块的输出经前馈层处理后得到片段特征。
一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，所述程序被执行时实现权利要求6-8中任一项所述的方法。