WO2020077999A1

WO2020077999A1 - 视频摘要生成方法和装置、电子设备、计算机存储介质

Info

Publication number: WO2020077999A1
Application number: PCT/CN2019/088020
Authority: WO
Inventors: 冯俐铜; 肖达; 旷章辉; 张伟
Original assignee: 深圳市商汤科技有限公司
Priority date: 2018-10-19
Filing date: 2019-05-22
Publication date: 2020-04-23
Also published as: SG11202003999QA; CN109413510A; US20200285859A1; TWI711305B; JP2021503123A; TW202032999A; JP7150840B2; CN109413510B

Abstract

本申请实施例公开了一种视频摘要生成方法和装置、电子设备、计算机存储介质，其中，方法包括：对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要。

Description

视频摘要生成方法和装置、电子设备、计算机存储介质

相关申请的交叉引用

本申请基于申请号为201811224169.X、申请日为2018年10月19日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机视觉技术但不限于计算机视觉技术，尤其是一种视频摘要生成方法和装置、电子设备、计算机存储介质。

背景技术

随着视频数据的快速增加，为了在短时间内快速浏览这些视频，视频摘要开始扮演着越来越重要的角色。视频摘要是一种新兴的视频理解技术。视频摘要是从一段较长的视频中提取一些镜头，来合成一段较短的，包含着原视频中故事线或者精彩镜头的新视频。

人工智能技术针对许多计算机视觉问题已经得到了很好的解决方案，比如图像分类，人工智能的表现甚至已经超越了人类，但是这仅限于一些有着明确目标的方面。相较于其他计算机视觉任务，视频摘要更加抽象，更加强调对于整个视频全局的理解。视频摘要中镜头的取舍，不仅依赖于这个镜头本身的信息，更加依赖于视频整体所表达的信息。

发明内容

本申请实施例提供了一种视频摘要生成方法和装置、电子设备、计算机存储介质。

根据本申请实施例的一个方面，提供的一种视频摘要生成方法，包括：

对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征，每个所述镜头包括至少一帧视频图像；

根据所有所述镜头的图像特征，获取所述镜头的全局特征；

根据所述镜头的图像特征和所述全局特征确定所述镜头的权重；

基于所述镜头的权重获得所述待处理视频流的视频摘要。

根据本申请实施例的另一个方面，提供的一种视频摘要生成装置，包括：

特征提取单元，配置为对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征，每个所述镜头包括至少一帧视频图像；

全局特征单元，配置为根据所有所述镜头的图像特征，获取所述镜头的全局特征；

权重获取单元，配置为根据所述镜头的图像特征和所述全局特征确定所述镜头的权重；

摘要生成单元，配置为基于所述镜头的权重获得所述待处理视频流的视频摘要。

根据本申请实施例的又一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上任意一项所述的视频摘要生成装置。

根据本申请实施例的还一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上任意一项所述视频摘要生成方法的操作。

根据本申请实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，其中，所述指令被执行时执行如上任意一项所述视频摘要生成方法的操作。

根据本申请实施例的另一个方面，提供的一种计算机程序产品，包括计算机可读代码，其中，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上任意一项所述视频摘要生成方法的指令。

基于本申请上述实施例提供的一种视频摘要生成方法和装置、电子设备、计算机存储介质，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要，结合图像特征和全局特征确定每个镜头的权重，实现了从视频整体的角度来理解视频，利用了每个镜头与视频全局的关系，基于本实施例的镜头的权重确定的视频摘要，可以在整体上对视频内容进行表达，减少了视频摘要较为片面的问题。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请实施例提供的视频摘要生成方法的一个实施例的流程示意图。

图2为本申请实施例提供的视频摘要生成方法的另一个实施例的流程示意图。

图3为本申请实施例提供的视频摘要生成方法的一个可选示例的部分流程示意图。

图4为本申请实施例提供的视频摘要生成方法的另一可选示例的部分流程示意图。

图5为本申请实施例提供的视频摘要生成方法的又一实施例的流程示意图。

图6为本申请实施例提供的视频摘要生成方法的一些可选示例的示意图。

图7为本申请实施例提供的视频摘要生成方法的又一实施例的流程示意图。

图8为本申请实施例提供的视频摘要生成方法的又一可选示例的部分流程示意图。

图9为本申请实施例提供的视频摘要生成装置的一个实施例的结构示意图。

图10为适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本申请实施例提供的视频摘要生成方法的一个实施例的流程示意图。该方法可以由任意视频摘要提取设备执行，例如终端设备、服务器、移动设备等等，如图1所示，该实施例方法包括：

步骤110，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。

所述视频摘要为：从原始的视频流中提取出关键信息或主旨信息，生成了视频摘要，视频摘要相对于原始的视频流数据流更小，且同时涵盖了原始的视频流的主旨内容或关键内容，可以用于后续原始的视频流的检索等。

在本实施例中，例如，通过分析所述视频流中特定目标的运动变化，生成表征同一个目标在视频流中运动轨迹的视频摘要。当然此处仅是举例，具体实现不局限于上述举例。

在本实施例中，待处理视频流为获取视频摘要的视频流，视频流包括至少一帧视频图像。为了使获得的视频摘要具有内容含义，而不仅仅是由不同帧的视频图像构成的图像集合，本申请实施例将镜头作为视频摘要的构成单位，每个镜头包括至少一帧视频图像。

在一些实施例中，本申请实施例中的特征提取可以是基于任一特征提取网络实现，基于特征提取网络分别对每个镜头进行特征提取，以获得至少两个图像特征，本申请不限制具体进行特征提取的过程。

步骤120，根据所有镜头的图像特征，获取镜头的全局特征。

在一些实施例中，将视频流对应的所有图像特征经过处理(如：映射或嵌入等)获得对应整体视频流的转换特征序列，转换特征序列再与每个图像特征进行计算获得每个镜头对应的全局特征(全局注意力)，通过全局特征可以体现每个镜头与视频流中其他镜头之间的关联关系。

此处的全局特征包括但不限于：表征一个镜头中多个视频图像中同一个图像元素之间对应关系或者位置关系的图像特征。值得注意的上述的关联关系不局限于所述对应关系和/或位置关系。

步骤130，根据镜头的图像特征和全局特征确定镜头的权重。

通过镜头的图像特征及其全局特征确定该镜头的权重，由此得到的权重不仅基于该镜头本身，还基于该镜头与整个视频流中其他镜头之间的关联关系，实现了从视频整体的角度对镜头的重要性进行评估。

步骤140，基于镜头的权重获得待处理视频流的视频摘要。

本实施例中，通过镜头的权重大小确定镜头序列中镜头的重要性，但确定视频摘要不仅仅基于镜头的重要性，还需要控制视频摘要的长度，即，需要结合镜头的权重和镜头的时长(帧数)确定视频摘要。具体如，所述权重与所述镜头的重要性和/或视频摘要的长度等正相关。在本实施例中，可采用背包算法确定视频摘要，还可以采用其他算法确定，这里不一一列举。

上述实施例提供的视频摘要生成方法，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要，结合图像特征和全局特征确定每个镜头的权重，实现了从视频整体的角度来理解视频，利用了每个镜头与整个视频流的全局关联关系，基于本实施例确定的视频摘要，可以在整体上对视频内容进行表达，减少了视频摘要较为片面的问题。

图2为本申请实施例提供的视频摘要生成方法的另一个实施例的流程示意图。如图2所示，本实施例方法包括：

步骤210，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。

本申请实施例中步骤210与上述实施例的步骤110类似，可参照上述实施例对该步骤进行理解，在此不再赘述。

步骤220，基于记忆神经网络对所有镜头的图像特征进行处理，获取镜头的全局特征。

在一些实施例中，记忆神经网络可以包括至少两个嵌入矩阵，通过将视频流的所有镜头的图像特征分别输入到至少两个嵌入矩阵中，通过嵌入矩阵的输出获得每个镜头的全局特征，镜头的全局特征可以表达该镜头与视频流中其他镜头之间的关联关系，从镜头的权重看，权重越大，表明该镜头与其他镜头的关联越大，越有可能被包含在视频摘要中。

步骤230，根据镜头的图像特征和全局特征确定镜头的权重。

本申请实施例中步骤230与上述实施例的步骤130类似，可参照上述实施例对该步骤进行理解，在此不再赘述。

步骤240，基于镜头的权重获得待处理视频流的视频摘要。

本申请实施例中步骤240与上述实施例的步骤140类似，可参照上述实施例对该步骤进行理解，在此不再赘述。

本申请实施例通过记忆神经网络模仿人类创造视频摘要时的做法，即从视频整体的角度来理解视频，利用记忆神经网络来存储整个视频流的信息，利用每一个镜头与视频全局的关系，来决定其重要性，从而选择出作为视频摘要的镜头。

图3为本申请实施例提供的视频摘要生成方法的一个可选示例的部分流程示意图。如图3所示，上述实施例中的步骤220包括：

步骤310，将所有镜头的图像特征分别映射到第一嵌入矩阵和第二嵌入矩阵，获得输入记忆和输出记忆。

本实施例中的输入记忆和输出记忆分别对应视频流的全部镜头，每个嵌入矩阵对应一个记忆(输入记忆或输出记忆)，通过将所有镜头的图像特征映射到一个嵌入矩阵中，可获得一组新的图像特征，即一个记忆。

步骤320，根据镜头的图像特征、输入记忆和输出记忆，获取镜头的全局特征。

基于输入记忆和输出记忆结合该镜头的图像特征，即可获得该镜头的全局特征，该全局特征体现了该镜头与视频流中所有镜头之间的关联，使基于全局特征获得的镜头的权重与视频流整体相关，进而获得更全面的视频摘要。

在一个或多个的实施例中，每个镜头可以对应至少两个全局特征，至少两个全局特征的获取可通过至少两组嵌入矩阵组获得，每组嵌入矩阵组的结构与上述实施例中的第一嵌入矩阵和第二嵌入矩阵类似；

将镜头的图像特征分别映射到至少两组嵌入矩阵组，获得至少两组记忆组，每组嵌入矩阵组包括两个嵌入矩阵，每组记忆组包括输入记忆和输出记忆；

根据至少两组记忆组和镜头的图像特征，获取镜头的至少两个全局特征。

本申请实施例中，为了提高镜头的权重的全局性，通过至少两组记忆组获得至少两个全局特征，结合多个全局特征获得镜头的权重，其中，每组嵌入矩阵组中包括的嵌入矩阵不同或相同，当嵌入矩阵组之间不同时，获得的全局特征能更好的体现镜头与视频整体的关联。

图4为本申请实施例提供的视频摘要生成方法的另一可选示例的部分流程示意图。如图4所示，上述实施例中的步骤320包括：

步骤402，将镜头的图像特征映射到第三嵌入矩阵，得到镜头的特征向量。

在一些实施例中，该第三嵌入矩阵可实现对图像特征的转置，即将该镜头的图像特征进行转置，获得镜头的特征向量，例如：将镜头序列中的第i个镜头对应的图像特征u _i经过转置获得特征向量

步骤404，将特征向量与输入记忆进行内积运算，得到镜头的权值向量。

在一些实施例中，输入记忆对应镜头序列，因此，输入记忆包括至少两个向量(数量对应镜头数量)，将特征向量与输入记忆进行内积运算时，可通过Softmax激活函数将特征向量与输入记忆中的多个向量计算内积得到的结果映射到(0,1)区间内，获得的多个概率形式表达的值，多个概率形式表达的值作为该镜头的权值向量，例如：可通过公式(1)获得权值向量：

其中，u _i表示第i个镜头的图像特征，即当前需要计算权重的镜头对应的图像特征；a表示输入记忆；p _i表示第i个图像特征与输入记忆之间的关联性的权值向量；Softmax激活函数用于多分类过程中，将多个神经元的输出，映射到(0,1)区间内，可以看成概率来理解；其中i的取值为镜头序列的镜头数量；通过公式(1)即可获得表达第i个图像特征与镜头序列的关联性的权值向量。

步骤406，将权值向量与输出记忆进行加权叠加运算，得到全局向量，将全局向量作为全局特征。

在一些实施例中，通过以下公式(2)获得全局向量：

o _i＝∑ _ip _ib (2)

其中，b表示基于第二嵌入矩阵获得的输出记忆；o _i表示第i个图像特征与输出记忆计算获得的全局向量。

本实施例通过图像特征与输入记忆进行内积运算，获得该图像特征与每个镜头之间的关联性，可选地，在进行内积运算之前，可以对该图像特征进行转置处理，以保证图像特征与输入记忆中的向量可以进行内积运算，此时获得的权值向量包括多个概率值，每个概率值表示该镜头与镜头序列中每个镜头的关联性，概率值越大，关联性越强，分别将每个概率值与输出记忆中的多个向量进行内积运算，获得该镜头的全局向量作为全局特征。

在一个实施例中，每个镜头对应至少两个全局特征时，根据至少两组记忆组，获取镜头的至少两个全局特征，包括：

将镜头的图像特征映射到第三嵌入矩阵，得到镜头的特征向量；

将特征向量与至少两个输入记忆进行内积运算，得到镜头的至少两个权值向量；

将权值向量与至少两个输出记忆进行加权叠加运算，得到至少两个全局向量，将至少两个全局向量作为至少两个全局特征。

其中，计算每个权值向量和全局向量的过程与上述实施例中类似，可参照理解，在此不再赘述。可选地，获得权值向量的公式可基于上述公式(1)经过变形获得公式(5)实现：

其中，u _i表示第i个镜头的图像特征，即当前需要计算权重的镜头对应的图像特征，

表示第i个镜头的特征向量；a _k表示第k组记忆组中的输入记忆；

表示第i个图像特征与第k组记忆组中的输入记忆之间的关联性的权值向量；Softmax激活函数用于多分类过程中，将多个神经元的输出，映射到(0,1)区间内，可以看成概率来理解；其中k的取值为1到N；通过公式(5)即可获得表达第i个图像特征与镜头序列的关联性的至少两个权值向量。

在一些实施例中，通过对上述公式(2)进行变形获得公式(6)获得本实施例中的至少两个全局向量：

其中，b _k表示基于第k组记忆组中的输出记忆；

表示第i个图像特征与第k组记忆组中的输出记忆计算获得的全局向量，基于公式(6)即可获得该镜头的至少两个全局向量。

图5为本申请实施例提供的视频摘要生成方法的又一实施例的流程示意图。如图5所示，

步骤510，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。

本申请实施例中步骤510与上述实施例的步骤110类似，可参照上述实施例对该步骤进行理解，在此不再赘述。

步骤520，根据所有镜头的图像特征，获取镜头的全局特征。

本申请实施例中步骤520与上述实施例的步骤120类似，可参照上述任一实施例对该步骤进行理解，在此不再赘述。

步骤530，将镜头的图像特征和镜头的全局特征进行内积运算，得到权重特征。

在一些实施例中，通过镜头的图像特征与镜头的全局特征进行内积运算，使获得的权重特征在体现镜头在视频整体中重要性的同时，还依赖于镜头本身的信息，可选地，可通过以下公式(3)获得权重特征：

u′ _i＝u _i⊙o _i (3)

其中，u′ _i表示第i个镜头的权重特征，o _i表示第i个镜头的全局向量；⊙表示点乘，即内积运算。

步骤540，将权重特征通过全连接神经网络，得到镜头的权重。

权重用于体现镜头的重要性，因此，需要以数值的形式进行体现，可选地，本实施例通过全连接神经网络将权重特征的维度变换，获得一维向量表达的镜头的权重。

在一些实施例中，可基于以下公式(4)获得镜头的权重：

s _i＝W _D·u′ _i+b _D 公式(4)

其中，s _i表示第i个镜头的权重，W _D和b _D分别表示目标图像特征经过的全连接网络中的权重和偏移量。

步骤550，基于镜头的权重获得待处理视频流的视频摘要。

本实施例结合镜头的图像特征和镜头的全局特征确定镜头的权重，在体现该镜头的信息的同时，结合了镜头与视频整体的关联，实现了从视频局部和视频整体的角度来理解视频，使获得的视频摘要更符合人类习惯。

在一些实施例中，根据镜头的图像特征和全局特征确定镜头的权重，包括：

将镜头的图像特征和镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；

将第一权重特征作为图像特征，镜头的至少两个全局特征中的第二全局特征作为第一全局特征，第二全局特征为至少两个全局特征中除了第一全局特征之外的全局特征；

直到镜头的至少两个全局特征中不包括第二全局特征，将第一权重特征作为镜头的权重特征；

将权重特征通过全连接神经网络，得到镜头的权重。

本实施例中，由于全局特征具有多个，每次将图像特征与全局特征内积运算的结果作为下一次运算的图像特征，实现循环，每次运算可基于对上述公式(3)变更得到的公式(7)实现：

其中，

表示第i个图像特征与第k组记忆组中的输出记忆计算获得的全局向量；u′ _i表示第一权重特征，⊙表示点乘，在循环到第k+1组记忆组中的输出记忆计算获得的全局向量时；将u′ _i替换u _i表示第i个镜头的图像特征，此时

变换为

直到完成所有记忆组的运算，将u′ _i输出作为镜头的权重特征，通过权重特征确定镜头的权重与上述实施例类似，在此不再赘述。

图6为本申请实施例提供的视频摘要生成方法的一些可选示例的示意图。如图6所示，本示例中包括多组记忆组，其中记忆组的数量为n，通过对视频流分割获得多个矩阵，通过对图像特征结合上述公式(5)、(6)、(7)、(4)计算，可获得第i个镜头的权重s _i，具体获得权重的过程可参照上述实施例的描述，在此不再赘述。

图7为本申请实施例提供的视频摘要生成方法的又一实施例的流程示意图。如图7所示，该实施例方法包括：

步骤710，对待处理视频流进行镜头分割获得镜头序列。

在一些实施例中，基于待处理视频流中至少两帧视频图像之间的相似度进行镜头分割，获得镜头序列。

在一些实施例中，可通过两帧视频图像对应的特征之间的距离(如：欧式距离、余弦距离等)确定两帧视频图像之间的相似度，两帧视频图像之间的相似度越高，说明两帧视频图像属于同一镜头的可能性越大，本实施例通过视频图像之间的相似度可将差异较为明显的视频图像分割到不同的镜头中，实现准确的镜头分割。

步骤720，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。

本申请实施例中步骤720与上述实施例的步骤110类似，可参照上述任一实施例对该步骤进行理解，在此不再赘述。

步骤730，根据所有镜头的图像特征，获取镜头的全局特征。

本申请实施例中步骤730与上述实施例的步骤120类似，可参照上述任一实施例对该步骤进行理解，在此不再赘述。

步骤740，根据镜头的图像特征和全局特征确定镜头的权重。

本申请实施例中步骤740与上述实施例的步骤130类似，可参照上述任一实施例对该步骤进行理解，在此不再赘述。

步骤750，基于镜头的权重获得待处理视频流的视频摘要。

本申请实施例中步骤750与上述实施例的步骤140类似，可参照上述任一实施例对该步骤进行理解，在此不再赘述。

本申请实施例以镜头作为提取摘要的单位，首先，需要基于视频流获得至少两个镜头，进行镜头分割的方法可以通过神经网络进行分割或通过已知摄影镜头或人为判断等方法实现；本申请实施例不限制分割镜头的具体手段。

图8为本申请实施例提供的视频摘要生成方法的又一可选示例的部分流程示意图。如图8所示，上述实施例中步骤710包括：

步骤802，基于至少两个大小不同的分割间距对视频流中的视频图像进行分割，获得至少两组视频片段组。

其中，每组视频片段组包括至少两个视频片段，分割间距大于等于1帧。

本申请实施例中通过多个大小不同的分割间距对视频流进行分割，例如：分割间距分别为：1帧、4帧、6帧、8帧等等，通过一个分割间距可将视频流分割为固定大小(如：6帧)的多个视频片段。

步骤804，基于每组视频片段组中至少两个断开帧之间的相似度，确定分割是否正确。

其中，断开帧为视频片段中的第一帧；可选地，响应于至少两个断开帧之间的相似度小于或等于设定值，确定分割正确；

响应于至少两个断开帧之间的相似度大于设定值，确定分割不正确。

在一些实施例中，两帧视频图像之间的关联可以基于特征之间的相似度确定，相似度越大，说明是同一镜头的可能性越大。从拍摄角度讲，场景的切换包括两种，一种是镜头直接切换场景，另一种是通过长镜头逐渐变化场景，本申请实施例主要以场景的变化作为镜头分割的依据，即，即使是同一长镜头中拍摄的视频片段，当某一帧的图像与该长镜头的第一帧图像的关联性小于或等于设定值时，也进行镜头分割。

步骤806，响应于分割正确，确定视频片段作为镜头，获得镜头序列。

本申请实施例中通过多个大小不同的分割间距对视频流进行分割，再判断连续的两个视频片段的断开帧之间的相似度，以确定该位置的分割是否正确，当两个连续的断开帧之间的相似度超过一定值时，说明该位置的分割不正确，即这两个视频片段属于一个镜头，通过正确的分割即可获得镜头序列。

在一些实施例中，步骤806包括：

响应于断开帧对应至少两个分割间距，以大小较小的得到分割间距获得的视频片段作为所述镜头，获得镜头序列。

当一个断开位置的断开帧同时是至少两个分割间距分割的端口，例如：对包括8帧图像的视频流分别以2帧和4帧作为第一分割间距和第二分割间距，第一分割间距获得4个视频片段，其中第1帧、第3帧、第5帧和第7帧为断开帧，第二分割间距获得2个视频片段，其中第1帧和第5帧为断开帧；此时，如果确定第5帧和第7帧的断开帧对应的分割正确，即第5帧即是第一分割间距的断开帧，也是第二分割间距的断开帧，此时，以第一分割间距为准，即：对该视频流分割获得3个镜头：第1帧到第4帧为一个镜头，第5帧和第6帧为一个镜头，第7帧和第8帧为一个镜头；而不是按照第二分割间距将第5帧到第8帧作为一个镜头。

在一个或多个的实施例中，步骤110包括：

对镜头中的至少一帧视频图像进行特征提取，获得至少一个图像特征；

获取所有图像特征的均值特征，并将均值特征作为镜头的图像特征。

在一些实施例中，通过特征提取网络分别对镜头中的每帧视频图像进行特征提取，当一个镜头仅包括一帧视频图像时，以该图像特征作为图像特征，当包括多帧视频图像时，对多个图像特征计算均值，以均值特征作为该镜头的图像特征。

在一个或多个实施例中，步骤140包括：

(1)获取视频摘要的限定时长。

视频摘要又称视频浓缩，是对视频内容的一个简要概括，可实现在相对较短的时间内将视频表达的主要内容进行体现，需要在实现将视频主要内容表达的同时，还要对视频摘要的时长进行限制，否则将达不到简要的功能，与看完整视频无异。本申请实施例通过限定时长来限制视频摘要的时长，即，要求获得的视频摘要的时长小于或等于限定时长，限定时长的具体取值可根据实际情况进行设定。

(2)根据镜头的权重和视频摘要的限定时长，获得待处理视频流的视频摘要。

在一些实施例中，本申请实施例通过01背包算法实现视频摘要的提取，01背包问题解决的问题应用到本实施例中可描述为：镜头序列包括多个镜头，每个镜头具有对应(通常不同)的长度，每个镜头具有对应(通常不同)的权重，需要获得限定时长的视频摘要，如何保证视频摘要在限定时长内权重总和最大。因此，本申请实施例通过背包算法可获得最佳内容的视频摘要。此时还存在一种特殊情况，响应于获得权重最高的至少两个镜头中存在长度大于第二设定帧数的镜头，删除长度大于第二设定帧数的镜头，当获得的某一镜头的重要性分数较高，但是它的长度已经大于第二设定帧数(例如：第一设定帧数的一半)，此时如果还将该镜头加入视频摘要，将导致视频摘要中的内容过少，因此，不将该镜头加入到视频摘要中。

在一个或多个可选的实施例中，本申请实施例方法基于特征提取网络和记忆神经网络实现；

在执行步骤110之前，还包括：

基于样本视频流对特征提取网络和记忆神经网络进行联合训练，样本视频流包括至少两个样本镜头，每个样本镜头包括标注权重。

为了实现获得较准确的权重，在获得权重之前需要对特征提取网络和记忆神经网络进行训练，单独训练特征提取网络和记忆神经网络也可以实现本申请实施例的目的，但将特征提取网络和记忆神经网络联合训练得到的参数更适合本申请实施例，能提供更准确的预测权重；该训练过程假设样本视频流已经分割为至少两个样本镜头，该分割过程可以基于训练好的分割神经网络或其他手段，本申请实施例不限制。

在一些实施例中，联合训练的过程可以包括：

利用特征提取网络对样本视频流包括的至少两个样本镜头中的每个样本镜头进行特征提取，获得至少两个样本图像特征；

利用记忆神经网络基于样本镜头特征确定每个样本镜头的预测权重；

基于预测权重和标注权重确定损失，基于损失调整对特征提取网络和记忆神经网络的参数。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图9为本申请实施例提供的视频摘要生成装置的一个实施例的结构示意图。该实施例的装置可用于实现本申请上述各方法实施例。如图9所示，该实施例的装置包括：

特征提取单元91，配置为对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征。

在本实施例中，待处理视频流为获取视频摘要的视频流，视频流包括至少一帧视频图像。为了使获得的视频摘要具有内容含义，而不仅仅是由不同帧的视频图像构成的图像集合，本申请实施例将镜头作为视频摘要的构成单位，每个镜头包括至少一帧视频图像。可选地，本申请实施例中的特征提取可以是基于任一特征提取网络实现，基于特征提取网络分别对每个镜头进行特征提取，以获得至少两个图像特征，本申请不限制具体进行特征提取的过程。

全局特征单元92，配置为根据所有镜头的图像特征，获取镜头的全局特征。

权重获取单元93，配置为根据镜头的图像特征和全局特征确定镜头的权重。

摘要生成单元94，配置为基于镜头的权重获得待处理视频流的视频摘要。

在一些实施例中，本申请实施例通过镜头的权重体现了每个镜头的重要性，可确定镜头序列中较为重要的一些镜头，但确定视频摘要不仅仅基于镜头的重要性，还需要控制视频摘要的长度，即，需要结合镜头的权重和时长(帧数)确定视频摘要，可选地，可采用背包算法获得视频摘要。

上述实施例提供的视频摘要生成装置，结合图像特征和全局特征确定每个镜头的权重，实现了从视频整体的角度来理解视频，利用了每个镜头与整个视频流的全局关联关系，基于本实施例确定的视频摘要，可以在整体上对视频内容进行表达，避免了视频摘要较为片面的问题。

在一个或多个可选的实施例中，全局特征单元92，配置为基于记忆神经网络对所有镜头的图像特征进行处理，获取镜头的全局特征。

在一些实施例中，全局特征单元92，配置为将所有镜头的图像特征分别映射到第一嵌入矩阵和第二嵌入矩阵，获得输入记忆和输出记忆；根据镜头的图像特征、输入记忆和输出记忆，获取镜头的全局特征。

在一些实施例中，全局特征单元92在根据镜头的图像特征、输入记忆和输出记忆，获取镜头的全局特征时，配置为将镜头的图像特征映射到第三嵌入矩阵，得到镜头的特征向量；将特征向量与输入记忆进行内积运算，得到镜头的权值向量；将权值向量与输出记忆进行加权叠加运算，得到全局向量，将全局向量作为全局特征。

在一个或多个可选的实施例中，权重获取单元93，配置为将镜头的图像特征和镜头的全局特征进行内积运算，得到权重特征；将权重特征通过全连接神经网络，得到镜头的权重。

在一个或多个可选的实施例中，全局特征单元92，配置为基于记忆神经网络对镜头的图像特征进行处理，获取镜头的至少两个全局特征。

在一些实施例中，全局特征单元92，配置为将所述镜头的图像特征分别映射到至少两组嵌入矩阵组，获得至少两组记忆组，每组所述嵌入矩阵组包括两个嵌入矩阵，每组所述记忆组包括输入记忆和输出记忆；根据至少两组所述记忆组和所述镜头的图像特征，获取所述镜头的至少两个全局特征。

在一些实施例中，全局特征单元92在根据至少两组记忆组和镜头的图像特征，获取镜头的至少两个全局特征时，配置为将镜头的图像特征映射到第三嵌入矩阵，得到镜头的特征向量；将特征向量与至少两个输入记忆进行内积运算，得到镜头的至少两个权值向量；将权值向量与至少两个输出记忆进行加权叠加运算，得到至少两个全局向量，将至少两个全局向量作为至少两个全局特征。

在一些实施例中，权重获取单元93，配置为将镜头的图像特征和镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；将第一权重特征作为图像特征，镜头的至少两个全局特征中的第二全局特征作为第一全局特征，第二全局特征为至少两个全局特征中除了第一全局特征之外的全局特征；将镜头的图像特征和镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；直到镜头的至少两个全局特征中不包括第二全局特征，将第一权重特征作为镜头的权重特征；将权重特征通过全连接神经网络，得到镜头的权重。

在一个或多个可选的实施例中，装置还包括：

镜头分割单元，用于对待处理视频流进行镜头分割获得镜头序列。

在一些实施例中，镜头分割单元，配置为基于待处理视频流中至少两帧视频图像之间的相似度进行镜头分割，获得镜头序列。

在一些实施例中，镜头分割单元，配置为基于至少两个大小不同的分割间距对视频流中的视频图像进行分割，获得至少两组视频片段组，每组视频片段组包括至少两个视频片段，分割间距大于等于1帧；基于每组视频片段组中至少两个断开帧之间的相似度，确定分割是否正确，断开帧为视频片段中的第一帧；响应于分割正确，确定视频片段作为镜头，获得镜头序列。

在一些实施例中，镜头分割单元在基于每组视频片段组中至少两个断开帧之间的相似度，确定分割是否正确时，配置为响应于至少两个断开帧之间的相似度小于或等于设定值，确定分割正确；响应于至少两个断开帧之间的相似度大于设定值，确定分割不正确。

在一些实施例中，镜头分割单元在响应于分割正确，确定视频片段作为镜头，获得镜头序列时，配置为响应于断开帧对应至少两个分割间距，以大小较小的分割间距获得的视频片段作为镜头，获得镜头序列。

在一个或多个可选的实施例中，特征提取单元91，配置为对镜头中的至少一帧视频图像进行特征提取，获得至少一个图像特征；获取所有图像特征的均值特征，并将均值特征作为镜头的图像特征。

在一个或多个可选的实施例中，摘要生成单元，配置为获取视频摘要的限定时长；根据镜头的权重和视频摘要的限定时长，获得待处理视频流的视频摘要。

视频摘要又称视频浓缩，是对视频内容的一个简要概括，可实现在相对较短的时间内将视频表达的主要内容进行体现，需要在实现将视频主要内容表达的同时，还要对视频摘要的时长进行限制，否则将达不到简要的功能，与看完整视频无异，本申请实施例通过限定时长来限制视频摘要的时长，即，要求获得的视频摘要的时长小于或等于限定时长，限定时长的具体取值可根据实际情况进行设定。

在一个或多个实施例中，本申请实施例装置还包括：

联合训练单元，配置为基于样本视频流对特征提取网络和记忆神经网络进行联合训练，样本视频流包括至少两个样本镜头，每个样本镜头包括标注权重。

本申请实施例的另一个方面，还提供了一种电子设备，包括处理器，该处理器包括上述任意一项实施例提供的视频摘要生成装置。

本申请实施例的又一个方面，还提供了一种电子设备，包括：存储器，配置为存储可执行指令；

以及处理器，配置为与该存储器通信以执行所述可执行指令从而完成上述任意一项实施例提供的视频摘要生成方法的操作。

本申请实施例的还一个方面，还提供了一种计算机存储介质，配置为存储计算机可读取的指令，该指令被执行时执行上述任意一项实施例提供的视频摘要生成方法的操作。

本申请实施例的再一个方面，还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码在设备上运行时，该设备中的处理器执行用于实现上述任意一项实施例提供的视频摘要生成方法的指令。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备1000的结构示意图：如图10所示，电子设备1000包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个专用处理器，专用处理器可作为加速单元1013，可包括但不限于图像处理器(GPU)、FPGA、DSP以及其它的ASIC芯片之类专用处理器等，处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。通信部1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过总线1004与通信部1012相连、并经通信部1012与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使中央处理单元1001执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至总线1004。通信部1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分 1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如加速单元1013和CPU1001可分离设置或者可将加速单元1013集成在CPU1001上，通信部可分离设置，也可集成设置在CPU1001或加速单元1013上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对待处理视频流的镜头序列中的镜头进行特征提取，获得每个镜头的图像特征，每个镜头包括至少一帧视频图像；根据所有镜头的图像特征，获取镜头的全局特征；根据镜头的图像特征和全局特征确定镜头的权重；基于镜头的权重获得待处理视频流的视频摘要。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法中限定的上述功能的操作。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种视频摘要生成方法，其中，包括：

对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征，每个所述镜头包括至少一帧视频图像；

根据所有所述镜头的图像特征，获取所述镜头的全局特征；

根据所述镜头的图像特征和所述全局特征确定所述镜头的权重；

基于所述镜头的权重获得所述待处理视频流的视频摘要。
根据权利要求1所述的方法，其中，所述根据所有所述镜头的图像特征，获取所述镜头的全局特征，包括：

基于记忆神经网络对所有所述镜头的图像特征进行处理，获取所述镜头的全局特征。
根据权利要求2所述的方法，其中，所述记忆神经网络对所述所有镜头的图像特征进行处理，获取所述镜头的全局特征，包括：

将所述所有镜头的图像特征分别映射到第一嵌入矩阵和第二嵌入矩阵，获得输入记忆和输出记忆；

根据所述镜头的图像特征、所述输入记忆和所述输出记忆，获取所述镜头的全局特征。
根据权利要求3所述的方法，其中，所述根据所述镜头的图像特征、所述输入记忆和所述输出记忆，获取所述镜头的全局特征，包括：

将所述镜头的图像特征映射到第三嵌入矩阵，得到所述镜头的特征向量；

将所述特征向量与所述输入记忆进行内积运算，得到所述镜头的权值向量；

将所述权值向量与所述输出记忆进行加权叠加运算，得到所述全局向量，将所述全局向量作为所述全局特征。
根据权利要求1-4任一项所述的方法，其中，所述根据所述镜头的图像特征和所述全局特征确定所述镜头的权重，包括：

将所述镜头的图像特征和所述镜头的全局特征进行内积运算，得到权重特征；

将所述权重特征通过全连接神经网络，得到所述镜头的权重。
根据权利要求2-5任一所述的方法，其中，所述基于记忆神经网络对所述镜头的图像特征进行处理，获取所述镜头的全局特征，包括：

基于记忆神经网络对所述镜头的图像特征进行处理，获取所述镜头的至少两个全局特征。
根据权利要求6所述的方法，其中，所述基于记忆神经网络对所述镜头的图像特征进行处理，获取所述镜头的至少两个全局特征，包括：

将所述镜头的图像特征分别映射到至少两组嵌入矩阵组，获得至少两组记忆组，每组所述嵌入矩阵组包括两个嵌入矩阵，每组所述记忆组包括输入记忆和输出记忆；

根据至少两组所述记忆组和所述镜头的图像特征，获取所述镜头的至少两个全局特征。
根据权利要求7所述的方法，其中，所述根据至少两组所述记忆组和所述镜头的图像特征，获取所述镜头的至少两个全局特征，包括：

将所述镜头的图像特征映射到第三嵌入矩阵，得到所述镜头的特征向量；

将所述特征向量与至少两个所述输入记忆进行内积运算，得到所述镜头的至少两个权值向量；

将所述权值向量与至少两个所述输出记忆进行加权叠加运算，得到至少两个全局向量，将所述至少两个全局向量作为所述至少两个全局特征。
根据权利要求6-8任一项所述的方法，其中，所述根据所述镜头的图像特征和所述全局特征确定所述镜头的权重，包括：

将所述镜头的图像特征和所述镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；

将所述第一权重特征作为所述图像特征，所述镜头的至少两个全局特征中的第二全局特征作为第一全局特征，所述第二全局特征为所述至少两个全局特征中除了第一全局特征之外的全局特征；

将所述镜头的图像特征和所述镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；

直到所述镜头的至少两个全局特征中不包括第二全局特征，将所述第一权重特征作为所述镜头的权重特征；

将所述权重特征通过全连接神经网络，得到所述镜头的权重。
根据权利要求1-9任一所述的方法，其中，所述对待处理视频流的镜头序列中的镜头进行特征提取，获得所述镜头的图像特征之前，还包括：

对所述待处理视频流进行镜头分割获得所述镜头序列。
根据权利要求10所述的方法，其中，所述对所述待处理视频流进行镜头分割获得所述镜头序列，包括：

基于所述待处理视频流中至少两帧视频图像之间的相似度进行镜头分割，获得所述镜头序列。
根据权利要求11所述的方法，其中，所述基于所述待处理视频流中至少两帧视频图像之间的相似度进行镜头分割，获得所述镜头序列，包括：

基于至少两个大小不同的分割间距对所述视频流中的视频图像进行分割，获得至少两组视频片段组，每组所述视频片段组包括至少两个视频片段，所述分割间距大于等于1帧；

基于所述每组视频片段组中至少两个断开帧之间的相似度，确定所述分割是否正确，所述断开帧为所述视频片段中的第一帧；

响应于所述分割正确，确定所述视频片段作为所述镜头，获得所述镜头序列。
根据权利要求12所述的方法，其中，所述基于所述每组视频片段组中至少两个断开帧之间的相似度，确定所述分割是否正确，包括：

响应于所述至少两个断开帧之间的相似度小于或等于设定值，确定所述分割正确；

响应于所述至少两个断开帧之间的相似度大于设定值，确定所述分割不正确。
根据权利要求12或13所述的方法，其中，所述响应于所述分割正确，确定所述视频片段作为所述镜头，获得所述镜头序列，包括：

响应于所述断开帧对应至少两个所述分割间距，以大小较小的分割间距获得的视频片段作为所述镜头，获得所述镜头序列。
根据权利要求1-14任一所述的方法，其中，所述对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征，包括：

对所述镜头中的至少一帧视频图像进行特征提取，获得至少一个图像特征；

获取所有所述图像特征的均值特征，并将所述均值特征作为所述镜头的图像特征。
根据权利要求1-15任一所述的方法，其中，所述基于所述镜头的权重获得所述待处理视频流的视频摘要，包括：

获取所述视频摘要的限定时长；

根据所述镜头的权重和所述视频摘要的限定时长，获得所述待处理视频流的视频摘要。
根据权利要求1-16任一所述的方法，其中，所述方法基于特征提取网络和记忆神经网络实现；

所述对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征之前，还包括：

基于样本视频流对所述特征提取网络和记忆神经网络进行联合训练，所述样本视频流包括至少两个样本镜头，每个所述样本镜头包括标注权重。
一种视频摘要生成装置，，包括：

特征提取单元，配置为对待处理视频流的镜头序列中的镜头进行特征提取，获得每个所述镜头的图像特征，每个所述镜头包括至少一帧视频图像；

全局特征单元，配置为根据所有所述镜头的图像特征，获取所述镜头的全局特征；

权重获取单元，配置为根据所述镜头的图像特征和所述全局特征确定所述镜头的权重；

摘要生成单元，配置为基于所述镜头的权重获得所述待处理视频流的视频摘要。
根据权利要求18所述的装置，其中，所述全局特征单元，配置为基于记忆神经网络对所有所述镜头的图像特征进行处理，获取所述镜头的全局特征。
根据权利要求19所述的装置，其中，所述全局特征单元，配置为将所述所有镜头的图像特征分别映射到第一嵌入矩阵和第二嵌入矩阵，获得输入记忆和输出记忆；根据所述镜头的图像特征、所述输入记忆和所述输出记忆，获取所述镜头的全局特征。
根据权利要求20所述的装置，其中，所述全局特征单元在根据所述镜头的图像特征、所述输入记忆和所述输出记忆，获取所述镜头的全局特征时，配置为将所述镜头的图像特征映射到第三嵌入矩阵，得到所述镜头的特征向量；将所述特征向量与所述输入记忆进行内积运算，得到所述镜头的权值向量；将所述权值向量与所述输出记忆进行加权叠加运算，得到所述全局向量，将所述全局向量作为所述全局特征。
根据权利要求18-21任一项所述的装置，其中，所述权重获取单元，配置为将所述镜头的图像特征和所述镜头的全局特征进行内积运算，得到权重特征；将所述权重特征通过全连接神经网络，得到所述镜头的权重。
根据权利要求19-22任一所述的装置，其中，所述全局特征单元，配置为基于记忆神经网络对所述镜头的图像特征进行处理，获取所述镜头的至少两个全局特征。
根据权利要求23所述的装置，其中，所述全局特征单元，配置为将所述镜头的图像特征分别映射到至少两组嵌入矩阵组，获得至少两组记忆组，每组所述嵌入矩阵组包括两个嵌入矩阵，每组所述记忆组包括输入记忆和输出记忆；根据至少两组所述记忆组和所述镜头的图像特征，获取所述镜头的至少两个全局特征。
根据权利要求24所述的装置，其中，所述全局特征单元在根据至少两组所述记忆组和所述镜头的图像特征，获取所述镜头的至少两个全局特征时，配置为将所述镜头的图像特征映射到第三嵌入矩阵，得到所述镜头的特征向量；将所述特征向量与至少两个所述输入记忆进行内积运算，得到所述镜头的至少两个权值向量；将所述权值向量与至少两个所述输出记忆进行加权叠加运算，得到至少两个全局向量，将所述至少两个全局向量作为所述至少两个全局特征。
根据权利要求23-25任一项所述的装置，其中，所述权重获取单元，配置为将所述镜头的图像特征和所述镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；将所述第一权重特征作为所述图像特征，所述镜头的至少两个全局特征中的第二全局特征作为第一全局特征，所述第二全局特征为所述至少两个全局特征中除了第一全局特征之外的全局特征；将所述镜头的图像特征和所述镜头的至少两个全局特征中的第一全局特征进行内积运算，得到第一权重特征；直到所述镜头的至少两个全局特征中不包括第二全局特征，将所述第一权重特征作为所述镜头的权重特征；将所述权重特征通过全连接神经网络，得到所述镜头的权重。
根据权利要求18-26任一所述的装置，其中，所述装置还包括：

镜头分割单元，配置为对所述待处理视频流进行镜头分割获得所述镜头序列。
根据权利要求27所述的装置，其中，所述镜头分割单元，配置为基于所述待处理视频流中至少两帧视频图像之间的相似度进行镜头分割，获得所述镜头序列。
根据权利要求28所述的装置，其中，所述镜头分割单元，配置为基于至少两个大小不同的分割间距对所述视频流中的视频图像进行分割，获得至少两组视频片段组，每组所述视频片段组包括至少两个视频片段，所述分割间距大于等于1帧；基于所述每组视频片段组中至少两个断开帧之间的相似度，确定所述分割是否正确，所述断开帧为所述视频片段中的第一帧；响应于所述分割正确，确定所述视频片段作为所述镜头，获得所述镜头序列。
根据权利要求29所述的装置，其中，所述镜头分割单元在基于所述每组视频片段组中至少两个断开帧之间的相似度，确定所述分割是否正确时，配置为响应于所述至少两个断开帧之间的相似度小于或等于设定值，确定所述分割正确；响应于所述至少两个断开帧之间的相似度大于设定值，确定所述分割不正确。
根据权利要求29或30所述的装置，其中，所述镜头分割单元在响应于所述分割正确，确定所述视频片段作为所述镜头，获得所述镜头序列时，配置为响应于所述断开帧对应至少两个所述分割间距，以大小较小的分割间距获得的视频片段作为所述镜头，获得所述镜头序列。
根据权利要求18-31任一所述的装置，其中，所述特征提取单元，配置为对所述镜头中的至少一帧视频图像进行特征提取，获得至少一个图像特征；获取所有所述图像特征的均值特征，并将所述均值特征作为所述镜头的图像特征。
根据权利要求18-32任一所述的装置，其中，所述摘要生成单元，配置为获取所述视频摘要的限定时长；根据所述镜头的权重和所述视频摘要的限定时长，获得所述待处理视频流的视频摘要。
根据权利要求18-33任一所述的装置，其中，所述装置还包括：

联合训练单元，配置为基于样本视频流对所述特征提取网络和记忆神经网络进行联合训练，所述样本视频流包括至少两个样本镜头，每个所述样本镜头包括标注权重。
一种电子设备，包括处理器，所述处理器包括权利要求18至34任意一项所述的视频摘要生成装置。
一种电子设备，包括：存储器，配置为存储可执行指令；

以及处理器，配置为与所述存储器通信以执行所述可执行指令从而完成权利要求1至17任意一项所述视频摘要生成方法的操作。
一种计算机存储介质，配置为存储计算机可读取的指令，其中，所述指令被执行时执行权利要求1至17任意一项所述视频摘要生成方法的操作。
一种计算机程序产品，包括计算机可读代码，其中，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行配置为实现权利要求1至17任意一项所述视频摘要生成方法的指令。