WO2021036699A1

WO2021036699A1 - 视频帧的信息标注方法、装置、设备及存储介质

Info

Publication number: WO2021036699A1
Application number: PCT/CN2020/106575
Authority: WO
Inventors: 吴锐正; 贾佳亚
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-08-29
Filing date: 2020-08-03
Publication date: 2021-03-04
Also published as: EP4009231A4; EP4009231A1; US20210406553A1; JP2022526513A; US11727688B2; CN110503074A; JP7147078B2; CN110503074B

Abstract

一种视频帧的信息标注方法、装置、设备及存储介质。该方法包括：获取待处理视频（601）；对于待处理视频中的目标视频帧，对目标视频帧进行特征提取，得到目标视频帧的目标图像特征（602）；根据目标视频帧与已标注视频帧的图像特征匹配度，从已标注视频帧中确定目标视频帧的引导视频帧，引导视频帧用于引导目标视频帧进行信息标注，图像特征匹配度为目标图像特征与已标注视频帧对应图像特征之间的匹配度（603）；根据引导视频帧对应的标注信息，生成目标视频帧对应的目标标注信息（604）。通过提高引导视频帧的选取质量，提高了生成的标注信息的准确性；且标注信息的传播误差不会累积，提高了标注信息的传播质量。

Description

视频帧的信息标注方法、装置、设备及存储介质

本申请实施例要求于2019年08月29日提交，申请号为201910807774.8、发明名称为“视频帧的信息标注方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请实施例中。

技术领域

本申请实施例涉及人工智能领域，特别涉及一种视频帧的信息标注方法、装置、设备及存储介质。

背景技术

视频标注信息传播是视频处理领域的一项重要技术，常被用于执行视频物体追踪以及灰度视频上色等任务。

相关技术中，通常采用基于深度学习的方法，基于卷积神经网络对视频帧之间的像素关系进行建模，使视频帧之间的标注信息通过像素之间的关系进行传播。而采用上述方法时，通常使用卷积神经网络对相邻视频帧进行建模，相应的，使用构建得到的模型进行标注信息传播时，即将当前视频帧的上一帧视频帧确定为引导视频帧，从而通过模型将引导视频帧的标注信息传递给当前视频帧。

然而，采用上述方法将相邻视频帧作为引导视频帧时，若某一视频帧因物体遮挡、快速运动等原因造成标注信息缺失，将直接影响到后续所有视频帧的信息传播，且标注信息的传播误差将不断累积，导致标注信息的传播效果较差。

发明内容

本申请实施例提供了一种视频帧的信息标注方法、装置、设备及存储介质，可以提高对视频帧进行信息标注时生成的标注信息的准确性。所述技术方案如下：

一方面，本申请实施例提供了一种视频帧的信息标注方法，所述方法应用于计算机设备，所述方法包括：

获取待处理视频；

对于所述待处理视频中的目标视频帧，对所述目标视频帧进行特征提取，得到所述目标视频帧的目标图像特征；

根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，所述已标注视频帧属于所述待处理视频，所述引导视频帧用于引导所述目标视频帧进行信息标注，所述图像特征匹配度为所述目标图像特征与所述已标注视频帧对应图像特征之间的匹配度，且所述引导视频帧与所述目标视频帧的图像特征匹配度高于其它已标注视频帧与所述目标视频帧的图像特征匹配度；

根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息。

另一方面，本申请实施例提供了一种视频帧的信息标注装置，所述装置包括：

获取模块，用于获取待处理视频；

特征提取模块，用于对于所述待处理视频中的目标视频帧，对所述目标视频帧进行特征提取，得到所述目标视频帧的目标图像特征；

引导帧确定模块，用于根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，所述已标注视频帧属于所述待处理视频，所述引导视频帧用于引导所述目标视频帧进行信息标注，所述图像特征匹配度为所述目标图像特征与所述已标注视频帧对应图像特征之间的匹配度，且所述引导视频帧与所述目标视频帧的图像特征匹配度高于其它已标注视频帧与所述目标视频帧的图像特征匹配度；

生成模块，用于根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频帧的信息标注方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频帧的信息标注方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的视频帧的信息标注方法。。

本申请实施例提供的技术方案带来的有益效果至少包括:

对待处理视频中的目标视频帧进行信息标注时，通过对目标视频帧进行特征提取，得到目标视频帧的目标图像特征，并根据目标视频帧与待处理视频中已标注视频帧的图像特征匹配度，从已标注视频帧中确定出目标视频帧对应的引导视频帧，从而基于引导视频帧的标注信息生成目标视频帧的目标标注信息；本申请实施例中，基于目标视频帧的图像特征，选取与目标视频帧具有高图像特征匹配度的已标注视频帧作为引导视频帧，而非直接选取相邻视频帧作为引导视频帧，提高了引导视频帧的选取质量，进而提高了生成的标注信息的准确性；并且，标注信息的传播误差不会累积，进而提高了标注信息的传播质量。

附图说明

图1是采用相关技术以及本申请实施例提供的方法对视频中的物体进行标注的实施示意图；

图2是本申请实施例提供的视频帧的信息标注方法的原理示意图；

图3是对视频中对象进行自动跟踪定位过程的界面示意图；

图4是对灰度视频进行上色过程的界面示意图；

图5示出了本申请一个示例性实施例提供的实施环境的示意图；

图6示出了本申请一个示例性实施例提供的视频帧的信息标注方法的流程图；

图7示出了本申请另一个示例性实施例提供的视频帧的信息标注方法的流程图；

图8示出了本申请另一个示例性实施例提供的视频帧的信息标注方法的流程图；

图9是图8所示视频帧的信息标注方法的实施示意图；

图10是通过选择网络的第一选择分支进行特征提取的实施示意图；

图11是相关技术与本申请实施例中标注信息准确率的对比图；

图12是一个示例性实施例提供的网络训练过程的流程图；

图13是本申请一个示例性实施例提供的视频帧的信息标注装置的结构框图；

图14示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例提供的方法涉及计算机视觉技术在视频信息标注领域的应用。

对于视频帧序列x_t(t＝0,1，…，T)，当预先为其中某一视频帧设置标注信息时，根据该标注信息为视频帧序列中其它视频帧设置标注信息的过程即为视频标注信息传播。比如，预先为视频帧序列中的第0帧视频帧x_0设置标注信息y_0，根据标注信息y_0依次求解第1帧视频帧的标注信息y_1，第2帧视频帧的标注信息y_2直至第T帧视频帧的标注信息y_T，这个过程即为视频标注信息传播。

相关技术中，使用相邻视频帧作为当前视频帧的引导视频帧，并利用引导视频帧中的标注信息为当前视频帧生成标注信息。比如，当视频帧序列x_t中的第0帧视频帧包含标注信息y_0时，第1帧视频帧以第0帧视频帧为引导视频帧，从而根据标注信息y_0生成第1帧视频帧的标注信息y_1；第2帧视频帧以第1帧视频帧为引导视频帧，从而根据标注信息y_1生成第2帧视频帧的标注信息y_2，以此类推，直至为各个视频帧均设置标注信息。

然而，采用上述方式时，标注信息在传播过程中，传播误差会不断累积，尤其是在某些视频帧中待标注的物体被遮挡或暂时离开时，可能会导致无法为该视频帧之后所有的视频帧设置正确的标注信息，最终影响标注信息的传播效果。

示意性的，如图1中的(a)所示，采用人工标注的方式，为视频帧序列中的第0帧设置标注信息，该标注信息用于标记视频帧中的对象11(图1中白色线条围合的区域)。若以相邻视频帧作为引导视频帧进行标注信息传播，由于第50帧视频帧中对象11脱离视频帧画面，因此从第50帧视频帧开始，均无法为视频帧设置正确的标注信息。然而，实际上从第75帧开始，对象11逐渐进入视频帧画面。

为了提高视频中标注信息的准确性，如图2所示，本申请实施例中，当需要对待处理视频21中的目标视频帧t进行信息标注时，并非直接将目标视频帧t的相邻视频帧(即视频帧t-1)作为引导视频帧，而是首先对目标视频帧t进行特征提取，得到目标视频帧t的目标图像特征22。基于缓存的已标注视频帧的图像特征23以及目标图像特征22，计算机设备从已标注视频帧中，选取与目标视频帧t具有高图像特征匹配度的视频帧作为引导视频帧24。进一步的，计算机设备根据引导视频帧24、引导视频帧的标注信息25以及目标视频帧t，为目标视频帧t生成目标标注信息26，完成对目标视频帧t的信息标注。

示意性的，如图1中的(b)所示，采用本申请实施例提供的方法，在为第75帧视频帧生成标记信息时，计算机设备并未将第74帧视频帧确定为引导视频帧，而是基于图像特征的匹配度将第35帧视频帧确定为引导视频帧，进而在基于该引导视频帧的标注信息，在第75帧视频帧中标记出对象11；类似的，在为第100帧视频帧生成标记信息时，计算机设备将第98帧视频帧确定为引导视频帧，并最终在第100帧视频帧中标记出对象11。可见，采用本申请实施例提供的方法，即便中间视频帧中待标注的物体被遮挡或暂时离开，计算机设备也能够对后续视频帧进行准确标注。并且，由于标注信息并非在视频帧之间链式传输，因此能够避免传播过程中产生的传播误差，进而提高了视频帧的标注准确性。

下面对本申请实施例提供的视频帧的信息标注方法的应用场景进行示意性说明。

1、视频对象的自动跟踪定位

该应用场景下，本申请实施例提供的视频帧的信息标注方法可以应用于室内监控应用程序、道路监控应用程序、停车场监控应用程序等具有视频对象自动跟踪定位功能的应用程序。进行对象自动跟踪定位时，用户首先将视频导入应用程序，然后在视频的某一视频帧中标记出需要自动跟踪定位的对象，由应用程序根据初始标注信息，为视频中的其它视频帧生成标注信息，并进一步根据标注信息在各帧视频帧中标记显示出自动跟踪定位的对象。

示意性的，如图3所示，将视频导入应用程序后，应用界面显示视频中的第一视频帧，并提示用户通过框选的方式标记出需要跟踪的对象。用户使用线框31框选出需要跟踪的对象“狗”，并点击开始跟踪控件后，应用程序即根据第一视频帧及其标注信息，按序为视频中的各个视频帧生成标注信息，并根据生成的标注信息，使用线框31对视频帧中的狗进行实时框选显示。

2、灰度(黑白)视频的自动上色

该应用场景下，本申请实施例提供的视频帧的信息标注方法可以应用于具有视频上色功能的应用程序，比如视频编辑应用程序。进行视频上色时，用户首先对灰度视频中的某一图像帧进行上色，然后将包含初始色彩信息的灰度视频输入应用程序，由应用程序根据初始色彩标注信息，为视频中的其它视频帧生成色彩标注信息，并进一步根据生成的色彩标注信息对各帧视频帧进行上色，最终输出彩色视频。

示意性的，如图4所示，用户首先对灰度视频中的第一视频帧进行上色(分别对人41和狗42进行上色)，然后将上色后的灰度视频输入应用程序，由应用程序根据第一视频帧的色彩标注信息，按序为视频中的各个视频帧生成色彩标注信息，并根据色彩标注信息对各帧视频帧中的人41和狗42进行上色，最终输出彩色视频。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要对视频中的标注信息进行传播的场景，本申请实施例并不对具体的应用场景进行限定。

本申请实施例提供的视频帧的信息标注方法可以应用于终端或者服务器等计算机设备中。在一种可能的实施方式中，本申请实施例提供的视频帧的信息标注方法可以实现成为应用程序或应用程序的一部分，并被安装到终端中，使终端具备自动为视频中的视频帧设置标注信息的功能；或者，可以应用于应用程序的后台服务器中，从而由服务器为终端中的应用程序提供视频帧的信息标注功能。

请参考图5，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端510和服务器520，其中，终端510与服务器520之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端510中安装有具有视频帧信息标注需求的应用程序。该应用程序可以是监控类应用程序、视频上色类应用程序等等，本申请实施例对此不作限定。可选的，终端510可以是手机、平板电脑、膝上便携式笔记本电脑、视障人士辅助设备等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

服务器520可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一种可能的实施方式中，服务器520是终端510中应用程序的后台服务器。

如图5所示，本申请实施例中，服务器520中设置有预先训练的记忆选择网络521和时序传播网络522，其中，记忆选择网络521用于从已标注的视频帧中选取待标注视频帧的引导视频帧，而时序传播网络522则用于根据记忆选择网络521选取的引导视频帧为待标注视频帧生成标注信息。

在一种可能的应用场景下，服务器520通过记忆选择网络521和时序传播网络522为待处理视频帧中各个视频帧生成标注信息后，将标注信息反馈给终端510，由终端510根据标注信息对视频进行处理，从而对处理后的视频进行显示。其中，当标注信息为物体分割信息时，终端510即根据物体分割信息对各个视频帧中的目标物体进行框选显示；当标注信息为色彩信息时，终端510即根据色彩信息对视频帧中的各个对象进行上色。

在其他可能的实施方式中，上述记忆选择网络521和时序传播网络522也可以实现成为应用程序的部分或全部，相应的，终端510可以在本地为视频帧进行信息标注，而无需借助服务器520，本实施例对此不作限定。

为了方便表述，下述各个实施例以视频帧的信息标注方法由计算机设备执行为例进行说明。

请参考图6，其示出了本申请一个示例性实施例提供的视频帧的信息标注方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤601，获取待处理视频。

其中，该待处理视频可以是实时流媒体视频，拍摄的视频或者下载的视频，本申请实施例对此不作限定。

在一种可能的实施方式中，该待处理视频中包含初始标注视频帧，该初始标注视频帧为预设有标注信息的视频帧。其中，初始标注视频帧的标注信息可以由用户手动设置，且初始标注视频帧的数量为至少一帧。

在一个示意性的例子中，待处理视频的第0帧视频帧为初始标注视频帧。当然，在其他可能的实现方式中，初始标注视频帧也可以是非第0帧(即非首帧)，而是待处理视频中的任意一帧(比如图像内容最丰富的一帧，或者，包含所有待标注对象的一帧)，本申请实施例对此不作限定。

可选的，当需要对待处理视频进行上色，即待处理视频为灰度视频时，该标注信息可以是视频帧的色彩信息，比如，标注信息为视频帧中各个像素点的红绿蓝(Red-Green-Blue，RGB)值；当需要对待处理视频中的物体进行跟踪定位时，该标注信息可以是物体分割信息，比如，标注信息为视频帧中目标物体对应像素点的像素点坐标。除了上述表现形式的标注信息外，该标注信息还可以采用其他表现形式，本申请实施例对此不作限定。

步骤602，对于待处理视频中的目标视频帧，对目标视频帧进行特征提取，得到目标视频帧的目标图像特征。

在一种可能的实施方式中，计算机设备按序对待处理视频中的各个视频帧生成标注信息，目标视频帧即计算机设备当前处理的视频帧。比如，待处理视频中初始标注视频为第0帧视频帧，计算机设备即从第1帧视频帧开始，以此对各帧视频帧生成标注信息。

不同于相关技术中直接将目标视频帧的相邻视频帧(比如目标视频帧的前一帧视频帧)作为引导视频帧，本申请实施例中，计算机设备首先对目标视频帧进行特征提取，从而得到目标视频帧的目标图像特征。

可选的，计算机设备将目标视频帧输入预训练的特征提取网络，得到特征提取网络输出的目标图像特征，其中，该特征提取网络可以是基于深度卷积神经网络训练得到，比如，该特征提取网络可以采用视觉几何组(Visual Geometry Group，VGG)网络结构，且输出的特征图(即目标图像特征)的尺寸为输入视频帧的1/32。本申请实施例并不对提取图像特征的具体方式进行限定。

步骤603，根据目标视频帧与已标注视频帧的图像特征匹配度，从已标注视频帧中确定目标视频帧的引导视频帧，已标注视频帧属于待处理视频，引导视频帧用于引导目标视频帧进行信息标注，图像特征匹配度为目标图像特征与已标注视频帧对应图像特征之间的匹配度，且引导视频帧与目标视频帧的图像特征匹配度高于其它已标注视频帧与目标视频帧的图像特征匹配度。

在一种可能的实施方式中，计算机设备中缓存有各个已标注视频帧对应的图像特征(即实现记忆功能)，选取引导视频帧时，即计算目标图像特征与各个已标注视频帧对应图像特征之间的匹配度，得到目标视频帧与各个已标注视频帧之间的图像特征匹配度，进而根据图像特征匹配度确定引导视频帧(即实现选择功能)。

在一个示意性的例子中，待处理视频中的第0帧视频帧为初始标注视频帧，第1帧视频帧的引导视频帧即为第0帧视频帧，第2帧视频帧的引导视频帧即从第0、1视频帧中确定得到，以此类推，第n帧视频帧的引导视频帧即从第0至n-1帧视频帧中确定得到。

需要说明的是，本示例仅以从目标视频帧之前的视频帧中确定引导视频帧为例进行说明，在其他可能的实现方式中，也可以从目标视频帧之后的视频帧(已完成信息标注)中确定引导视频帧，本实施例对此不作限定。

步骤604，根据引导视频帧对应的标注信息，生成目标视频帧对应的目标标注信息。

进一步，计算机设备根据引导视频帧对应的标注信息，生成目标视频帧对应的目标标注信息。

可选的，对于目标视频帧x_t，若其对应的引导视频帧为x_g，且引导视频帧x_g对应标注信息y_g，则目标视频帧x_t对应标注信息y_t的求解过程可以被表示为：

y_t＝P(x_t，x_g，y_g)

其中，P基于卷积神经网络构建得到。

综上所述，本申请实施例中，对待处理视频中的目标视频帧进行信息标注时，通过对目标视频帧进行特征提取，得到目标视频帧的目标图像特征，并根据目标视频帧与待处理视频中已标注视频帧的图像特征匹配度，从已标注视频帧中确定出目标视频帧对应的引导视频帧，从而基于引导视频帧的标注信息生成目标视频帧的目标标注信息；本申请实施例中，基于目标视频帧的图像特征，选取与目标视频帧具有高图像特征匹配度的已标注视频帧作为引导视频帧，而非直接选取相邻视频帧作为引导视频帧，提高了引导视频帧的选取质量，进而提高了生成的标注信息的准确性；并且，标注信息的传播误差不会累积，进而提高了标注信息的传播质量。

在一种可能的实施方式中，本申请实施例中，计算机设备中存储有预先构建的记忆选择网络(Memory Selection Network，MSN)，相应的，在确定目标视频帧的引导视频帧时，对于提取到的目标图像特征，计算机设备将目标图像特征输入记忆选择网络，由记忆选择网络从已标注视频帧中，选取一帧已标注视频帧作为引导视频帧并输出。

可选的，记忆选择网络采用“记忆池+选择网络”的结构，其中，记忆池中存储有已标注视频帧的图像特征，而选择网络则用于根据记忆池中存储的图像特征以及目标视频帧的目标图像特征，从已标注视频帧中选取引导视频帧。并且，计算机设备中还包括时序传播网络(Temporal Propagation Network，TPN)，目标视频帧的信息标注由该时序传播网络执行。下面结合上述两个网络对视频帧的信息标注过程进行说明。

请参考图7，其示出了本申请另一个示例性实施例提供的视频帧的信息标注方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤701，获取待处理视频。

步骤702，对于待处理视频中的目标视频帧，对目标视频帧进行特征提取，得到目标视频帧的目标图像特征。

步骤702至701的实施方式可以参考步骤601至602，本实施例在此不再赘述。

步骤703，从记忆池中获取候选图像特征。

在一种可能的实施方式中，记忆池中顺序存储已标注视频帧对应的候选图像特征，相应的，计算机设备按序从记忆池中获取候选图像特征。比如，当目标图像帧为第t帧图像帧时，记忆池中顺序存储有第0至第t-1帧图像帧的图像特征，计算机设备按照0到t-1的顺序从记忆池中获取候选图像特征。

其中，在信息标注初始阶段，该记忆池中存储初始标注视频帧的图像特征，相应的，计算机设备在标注初始阶段，直接将初始标注视频帧作为引导视频帧。

步骤704，将候选图像特征和目标图像特征输入选择网络，得到选择网络输出的图像特征评分，图像特征评分用于指示候选图像特征与目标图像特征之间的图像特征匹配度。

在一种可能的实施方式中，该选择网络为轻量级的卷积神经网络，用于根据输入的图像特征输出图像特征之间的图像特征评分，其中，图像特征评分越高，表示图像特征之间的匹配度越高，相应的，该候选图像特征对应的已标注视频帧作为引导视频帧时的信息传播效果越好，信息标注的准确性越高。

可选的，对于记忆池中的各个候选图像特征，计算机设备均通过上述步骤获取其对应的图像特征评分。

然而，随着信息标注的不断执行，记忆池中的图像特征将不断增多(即已标注视频帧的数量不断增多)，若对记忆池中的所有候选图像特征均进行遍历，后续视频帧的信息标注效率将逐步降低。

为了进一步提高信息标注效率，可选的，计算机设备获取记忆池中的部分候选图像特征，相应的，仅需要通过选择网络输出部分候选图像特征对应的图像特征评分。

针对选取部分候选图像特征的策略，在一种可能的实施方式中，当待处理视频的帧率大于帧率阈值时，每隔预定帧数从记忆池中获取已标记视频帧对应的候选图像特征。比如，计算机设备获取记忆池中奇数或偶数视频帧对应的候选图像特征(即每隔一帧获取已标记视频帧对应的候选图像特征，因为相邻视频帧的间隔较短，相应的图像特征间的差异较小)，或者，计算机设备每隔两帧获取已标记视频帧对应的候选图像特征。

比如，当待处理视频的帧率大于24帧/秒时，计算机设备获取记忆池中奇数视频帧对应的候选图像特征，并通过选择网络输出候选图像特征对应的图像特征评分。

在其他可能的实施方式中，计算机设备也可以从记忆池中获取目标视频帧相邻的n帧已标注视频帧(比如相邻的20帧已标注视频帧)的候选图像特征，本申请实施例对此不作限定。

上述步骤中，选择网络仅基于候选图像特征和目标图像特征计算图像特征评分，评分的维度较为单一。为了进一步提高输出的图像特征评分的准确性，在一种可能的实施方式中，在图7的基础上，如图8所示，步骤703之后可以包括步骤708，相应的，步骤704可以被替换为步骤709。

步骤708，获取初始标注视频帧中标注对象的标注对象图像特征，初始标注视频帧为待处理视频中预设有标注信息的视频帧，且标注对象为初始标注视频帧中包含标注信息的对象。

为了充分利用初始标注视频帧对应的初始标注信息，在一种可能的实施方式中，计算机设备提取初始标注视频帧的图像特征时，对初始标注视频中的标注对象进行图像特征提取，得到标注对象的标注对象图像特征，其中，标注对象图像特征与各个视频帧的图像特征的尺寸相同。

可选的，计算机设备根据初始标注视频帧的物体分割信息(用于分割初始标注视频帧中不同物体)确定标注对象，进而对标注对象进行图像特征提取；并且，当使用基于卷积神经网络的特征提取器进行图像特征提取时，对视频帧进行图像特征提取的特征提取器与对标注对象进行图像特征提取的特征提取器权值共享。

示意性的，如图9所示，计算机设备根据初始标注视频帧x_0对应的初始标注信息y_0，通过特征提取器91提取得到标注对象图像特征f_a；此外，计算机设备在信息标注过程中，通过特征提取器91对视频帧x_0至x_t-1进行图像特征提取，并将提取到的图像特征f_0至f_t-1存储至记忆池92中。在确定视频帧x_t的引导视频帧时，计算机设备即获取标注对象图像特征f_a，并从记忆池92中获取候选图像特征f_p。

步骤709，将候选图像特征、目标图像特征和标注对象图像特征输入选择网络，得到选择网络输出的图像特征评分。

进一步的，计算机设备将候选图像特征、目标图像特征和标注对象图像特征共同输入选择网络，由选择网络根据三者输出图像特征评分。

在一种可能的实施方式中，该选择网络包括两个分支，分别为第一选择分支和第二选择分支，其中，第一选择分支以两两图像特征的关联操作结果作为输入，第二选择分支以三个图像特征的拼接作为输入，且第一选择分支和第二选择分支的输出进行拼接后最终输入选择网络的全连接层，最终由全连接层输出图像特征评分。可选的，本步骤可以包括如下步骤。

一、对候选图像特征、目标图像特征和标注对象图像特征中的任意两个图像特征进行关联操作，得到关联图像特征，关联图像特征即用于表征图像特征之间的相似度。

向第一选择分支输入图像特征前，计算机设备首先通过候选图像特征、目标图像特征和标注对象图像特征中的任意两个图像进行关联操作，得到关联图像特征。

在一种可能的实施方式中，由于候选图像特征、目标图像特征和标注对象图像特征均是使用相同的特征提取器提取得到，因此三者的尺寸相同。进行关联操作时，计算机设备对候选图像特征和目标图像特征进行逐像素(pixel-wise)相似度计算，得到第一关联图像特征；对候选图像特征和标注对象图像特征进行逐像素相似度计算，得到第二关联图像特征；对目标图像特征和标注对象图像特征进行逐像素相似度计算，得到第三关联图像特征。

示意性的，如图9和10所示，对于候选图像特征f_p、目标图像特征f_t和标注对象图像特征f_a，计算机设备进行关联操作操作，得到关联图像特征包括：corr(f_p，f_a)，corr(f_p，f_t)，corr(f_t，f_a)。

二、将各个关联图像特征进行拼接，并将拼接后的关联图像特征输入第一选择分支，得到第一选择分支输出的第一特征向量。

进一步的，计算机设备对关联操作后得到的三个关联图像特征进行拼接，从而将拼接后的关联图像特征输入第一选择分支，由第一选择分支对拼接后的关联图像特征进行进一步特征提取，并最终输出第一特征向量。

可选的，第一选择分支基于卷积神经网络，即第一选择分支对拼接后的关联图像特征进行卷积、池化以及激活操作后，输出第一特征向量。本申请实施例并不对第一选择分支的具体结构进行限定。

示意性的，如图9所示，计算机设备通过第一选择分支对拼接后的关联图像特征进行特征提取，得到第一特征向量93。

三、将拼接后的候选图像特征、目标图像特征和标注对象图像特征输入第二选择分支，得到第二选择分支输出的第二特征向量。

计算机设备对候选图像特征、目标图像特征和标注对象图像进行拼接，从而将拼接结果输入第二选择分支，由第二选择分支进行进一步特征提取，并最终输出第二特征向量。

可选的，第二选择分支基于卷积神经网络，即第二选择分支对拼接后的图像特征进行卷积、池化以及激活操作后，输出第二特征向量。本申请实施例并不对第二选择分支的具体结构进行限定。

示意性的，如图9所示，计算机设备通过第二选择分支对拼接后的图像特征进行特征提取，得到第二特征向量94。

四、根据第一特征向量和第二特征向量确定图像特征评分。

在一种可能的实施方式中，计算机设备对第一特征向量和第二特征向量进行拼接，并将拼接后的特征向量输入全连接层，得到候选图像特征对应的图像特征评分。

示意性的，如图9所示，计算机设备对第一特征向量93和第二特征向量94进行拼接，并将拼接后的特征向量输入全连接层95，由全连接层95输出候选图像特征f_p的图像特征评分。

需要说明的是，对于记忆池中的各个候选图像特征，计算机设备循环执行上述步骤一至四，从而得到目标图像特征与各个候选图像特征之间的图像特征评分。

步骤705，将最高图像特征评分对应的已标注视频帧确定为引导视频帧。

对于各个候选图像特征，计算机设备通过上述步骤得到各个候选图像特征对应的图像特征评分，并进一步确定其中的最高图像特征评分，从而将最高图像特征评分对应候选图像特征所属的已标注视频帧确定为引导视频帧。

示意性的，如图9所示，计算机设备根据图像特征评分，将视频帧x_k确定为目标视频帧x_t的引导视频帧。

步骤706，将目标视频帧的目标图像特征存储至记忆池。

在一种可能的实施方式中，确定出目标视频帧的引导视频帧后，计算机设备将目标视频帧的目标图像特征存储至记忆池，以便为后续视频帧进行信息标识时，能够以该目标图像特征作为参考。

步骤707，将引导视频帧、引导视频帧对应的标注信息以及目标视频帧输入时序传播网络，得到时序传播网络输出的目标标注信息。

本申请实施例中，计算机设备利用预先训练的时序传播网络将引导视频帧的标注信息传播至目标视频帧，完成目标视频帧的信息标注。

在一种可能的实施方式中，时序传播网络包括图像分支(appearance branch)和动量分支(motion branch)，其中，图像分支以目标视频帧以及引导视频帧的标识信息为输入，用于输出图像信息特征，该图像信息特征用于表征目标视频帧中像素点的预计标注信息；动量分支以引导视频帧的标注信息以及引导视频帧与目标视频帧之间的视频帧光流为输入，用于输出动量特征(指示视频帧中物体的运动情况)。可选的，本步骤可以包括如下步骤。

一、将引导视频帧对应的标注信息以及目标视频帧输入图像分支，得到图像分支输出的图像信息特征。

可选的，本申请实施例中的图像分支以预训练的VGG16网络作为初始化。

在一种可能的实施方式中，计算机设备将引导视频帧x_g的标注信息y_g以及目标视频帧x_t输入图像分支，得到图像分支输出的图像信息特征f_app。

示意性的，如图9所示，目标视频帧x_t的引导视频帧为x_k，计算机设备将引导视频帧x_k的标注信息y_k以及目标视频帧x_t输入图像分支96，得到图像分支96输出的图像信息特征97。

二、确定引导视频帧与目标视频帧之间的视频帧光流；将视频帧光流和引导视频帧对应的标注信息输入动量分支，得到动量分支输出的动量特征。

其中，视频帧光流用于指示视频帧之间的图像变化情况，包含了视频帧中运动物体的运动信息，因此可以借助视频帧光流确定视频帧中对象的运行情况。

可选的，该视频帧光流为视频帧之间的稠密光流，即用于指示引导视频帧与目标视频帧中相同坐标像素点对应物体的运动情况。

在一种可能的实施方式中，计算机设备根据引导视频帧x_g和目标视频帧x_t，确定两者之间的视频帧光流W(x_t，x_g)，从而将视频帧光流W(x_t，x_g)以及引导视频帧x_g的标注信息y_g输入动量分支。

示意性的，如图9所示，目标视频帧x_t的引导视频帧为x_k，计算机设备根据引导视频帧x_k和目标视频帧x_t，确定两者之间的视频帧光流W(x_t，x_k)，并将视频帧光流W(x_t，x_k)以及引导视频帧x_k的标注信息y_k输入动量分支98，得到动量分支98输出的动量特征99。

可选的，引导视频帧与目标视频帧之间的视频帧光流通过预训练的flownet2.0计算得到，且动量分支以预训练的VGG16网络作为初始化。

需要说明的，步骤一和二之间并不存在严格的先后顺序，即步骤一和二可以同时执行，本实施例对此不作限定。

三、根据图像信息特征和动量特征确定目标标注信息。

在一种可能的实施方式中，计算机设备对图像信息特征和动量特征信息特征融合，并通过卷积层对融合后的特征进行卷积处理，最终得到目标视频帧的目标标注信息。

示意性的，如图9所示，计算机设备对图像信息特征97和动量特征99进行融合后，通过卷积层(图中未示出)最终输出目标视频帧x_t的目标标注信息y_t。

本实施例中，计算机设备将候选图像特征、目标图像特征以及标注对象图像特征输入选择网络，并分别由选择网络的两个选择分支进行特征提取，从而丰富了图像特征的特征提取维度，进而提高了后续计算得到的图像特征评分的准确性。

此外，本实施例中，计算机设备利用时序传播网络的图像分支和动量分支分别进行特征提取，并对两个分支提取到的特征进行融合，最终得到目标视频帧的目标标注信息，有助于提高信息标注的准确性。

在一个示意性的例子中，如图11所示，采用相关技术提供的方法，在对第35帧进行标注时，以第34帧为引导帧，标注准确率为0.44；在对第55帧进行标注时，以第54帧为引导帧，标注准确率为0.28；在对第125帧进行标注时，以第124帧为引导帧，标注准确率为0.22；在对第155帧进行标注时，以第154帧为引导帧，标注准确率为0.23。

而采用本申请实施例提供的方法，在对第35帧进行标注时，以第34帧为引导帧，标注准确率为0.58；在对第55帧进行标注时，以第37帧为引导帧，标注准确率为0.80；在对第125帧进行标注时，以第102帧为引导帧，标注准确率为0.92；在对第155帧进行标注时，以第127帧为引导帧，标注准确率为0.86。

可见，采用相关技术提供的方法，随着信息传播的不断深入，信息标注的准确率越来越低；而采用本申请实施例提供的方法，由于并未采用链式信息传播，因此信息标注的准确性并不会受到信息传播深度的影响。并且，相较于相关技术，本申请实施例提供的方法能够显著提高标注信息的准确性。

针对上述实施例中时序传播网络以及记忆选择网络的训练方法，在一种可能的实施方式中，如图12所示，网络训练过程包括如下步骤：

步骤1201，根据样本视频训练时序传播网络，样本视频中的样本视频帧包含标注信息。

在一种可能的实施方式中，计算机设备首先利用包含标注信息的样本视频对时序传播网络进行训练，然后基于样本视频以及训练完成的时序传播网络进一步对记忆选择网络进行训练。

可选的，计算机设备随机从样本视频中选取两帧作为引导视频帧和目标视频帧对时序传播网络进行训练。其中，当时序传播网络用于实现视频物体分割时，计算机设备采用交并比(Intersection over Union，IOU)损失函数对时序传播网络进行训练；当时序传播网络用于实现视频上色时，计算机设备采用L1回归损失函数训练时序传播网络。

步骤1202，对于样本视频中的目标样本视频帧，将目标样本视频帧以及样本视频中的其它样本视频帧输入时序传播网络，得到时序传播网络输出的预测样本标注信息。

完成对时序传播网络的训练后，计算机设备进一步利用训练得到的时序传播网络产生训练样本，从而利用训练样本对记忆选择网络进行训练。

在一种可能的实施方式中，对于样本视频中的目标样本视频帧x_t，计算机设备遍历目标样本视频帧之前的视频帧作为样本引导视频帧x_p(0≤p≤t-1)，并将目标样本视频帧x_t和样本引导视频帧x_p输入时序传播网络，得到时序传播网络输出的预测样本标注信息y_tp。

步骤1203，根据预测样本标注信息和目标样本视频帧对应的样本标注信息，确定样本视频帧中的样本引导视频帧。

进一步的，计算机设备通过比较预测样本标注信息和目标样本视频帧对应的样本标注信息，确定样本引导视频帧的引导质量，进而对样本引导视频帧进行正负样本分类。在一种可能的实施方式中，本步骤可以包括如下步骤。

一、计算预测样本标注信息与样本标注信息之间的信息准确度。

在一种可能的实施方式中，计算机设备计算预测样本标注信息与样本标注信息之间的信息准确度，其中，信息准确度越高，表明预测样本标注信息与样本标注信息越接近，相应的，以该预测样本标注信息对应样本引导视频帧的质量越高。

在一个示意性的例子中，计算机设备根据预测样本标注信息y_tp以及目标样本视频帧x_t的标注信息y_t，计算得到两者的信息准确度s_tp。

二、根据信息准确度确定样本视频帧中的正样本引导视频帧和负样本引导视频帧。

其中，正样本引导视频帧对应的第一信息准确度高于负样本引导视频帧对应的第二信息准确度，第一信息准确度是根据正样本引导视频帧对目标样本视频帧进行信息标注时的信息准确度，第二信息准确度是根据负样本引导视频帧对目标样本视频帧进行信息标注时的信息准确度。

在一种可能的实施方式中，若信息准确度大于第一准确度阈值，计算机设备则将样本引导视频帧确定为正样本引导视频帧(即适合作为引导视频帧)；若信息准确度小于第二准确度阈值，计算机设备则将样本引导视频帧确定为负样本引导视频帧(即不适合作为引导视频帧)。其中，第一准确度阈值大于等于第二准确度阈值，比如第一准确度阈值为0.8，第二准确度阈值为0.4。

步骤1204，根据目标样本视频帧和样本引导视频帧训练记忆选择网络。

在一种可能的实施方式中，计算机设备将目标样本视频帧和样本引导视频帧输入记忆选择网络，得到记忆选择网络输出的预测结果，并根据预测结果以及样本引导视频帧的正负属性对记忆选择网络进行训练。其中，计算机设备可以采用反向传播算法或梯度下降算法训练记忆选择网络，本申请实施例对此不做限定。

本实施例中，计算技术河北首先根据样本视频训练时序传播网络，然后基于训练得到的时序传播网络对样本视频中的样本视频帧进行正负样本划分，进而使用划分出的正负样本对记忆选择网络进行训练，无需用户预先手动标注训练样本的正负属性，降低了训练样本的获取难度，并且有助于提高训练样本划分的准确性，进而提高了记忆选择网络的引导帧选择质量。

图13是本申请一个示例性实施例提供的视频帧的信息标注装置的结构框图，如图13所示，该装置包括：

获取模块1301，用于获取待处理视频；

特征提取模块1302，用于对于所述待处理视频中的目标视频帧，对所述目标视频帧进行特征提取，得到所述目标视频帧的目标图像特征；

引导帧确定模块1303，用于根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，所述已标注视频帧属于所述待处理视频，所述引导视频帧用于引导所述目标视频帧进行信息标注，所述图像特征匹配度为所述目标图像特征与所述已标注视频帧对应图像特征之间的匹配度，且所述引导视频帧与所述目标视频帧的图像特征匹配度高于其它已标注视频帧与所述目标视频帧的图像特征匹配度；

生成模块1304，用于根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息。

所述引导帧确定模块1303，包括：

第一获取单元，用于从记忆选择网络的记忆池中获取候选图像特征，所述记忆选择网络包括所述记忆池和选择网络，所述记忆池中存储有所述已标注视频帧的图像特征；

特征评分单元，用于将所述候选图像特征和所述目标图像特征输入所述选择网络，得到所述选择网络输出的图像特征评分，所述图像特征评分用于指示所述候选图像特征与所述目标图像特征之间的图像特征匹配度；

确定单元，用于将最高图像特征评分对应的已标注视频帧确定为所述引导视频帧；

所述装置还包括：

存储模块，用于将所述目标视频帧的所述目标图像特征存储至所述记忆池。

可选的，所述引导帧确定模块1303还包括：

第二获取单元，用于获取初始标注视频帧中标注对象的标注对象图像特征，所述初始标注视频帧为所述待处理视频中预设有标注信息的视频帧，且所述标注对象为所述初始标注视频帧中包含标注信息的对象；

所述特征评分单元，还用于：

将所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述选择网络，得到所述选择网络输出的所述图像特征评分。

可选的，所述选择网络包括第一选择分支和第二选择分支；

所述特征评分单元，还用于：

对所述候选图像特征、所述目标图像特征和所述标注对象图像特征中的任意两个图像特征进行关联操作，得到关联图像特征，所述关联图像特征用于表征图像特征之间的相似度；

将各个所述关联图像特征进行拼接，并将拼接后的所述关联图像特征输入所述第一选择分支，得到所述第一选择分支输出的第一特征向量；

将拼接后的所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述第二选择分支，得到所述第二选择分支输出的第二特征向量；

根据所述第一特征向量和所述第二特征向量确定所述图像特征评分。

可选的，所述第一获取单元，用于：

若所述待处理视频的帧率大于帧率阈值，每隔预定帧数从所述记忆池中获取所述已标记视频帧对应的所述候选图像特征，或者，从所述记忆池中获取所述目标视频帧对应的n帧相邻已标注视频帧的所述候选图像特征，n为正整数。

可选的，所述生成模块1304，用于：

将所述引导视频帧、所述引导视频帧对应的标注信息以及所述目标视频帧输入时序传播网络，得到所述时序传播网络输出的所述目标标注信息。

可选的，所述时序传播网络包括图像分支和动量分支；

所述生成模块1304，包括：

第一输出单元，用于将所述引导视频帧对应的标注信息以及所述目标视频帧输入所述图像分支，得到所述图像分支输出的图像信息特征；

第二输出单元，用于确定所述引导视频帧与所述目标视频帧之间的视频帧光流；将所述视频帧光流和所述引导视频帧对应的标注信息输入所述动量分支，得到所述动量分支输出的动量特征；

确定单元，用于根据所述图像信息特征和所述动量特征确定所述目标标注信息。

可选的，所述装置还包括：

第一训练模块，用于根据样本视频训练所述时序传播网络，所述样本视频中的样本视频帧包含标注信息；

标注信息预测模块，用于对于所述样本视频中的目标样本视频帧，将所述目标样本视频帧以及所述样本视频中的其它样本视频帧输入所述时序传播网络，得到所述时序传播网络输出的预测样本标注信息；

样本确定模块，用于根据所述预测样本标注信息和所述目标样本视频帧对应的样本标注信息，确定所述样本视频帧中的样本引导视频帧；

第二训练模块，用于根据所述目标样本视频帧和所述样本引导视频帧训练所述记忆选择网络。

可选的，所述样本确定模块，包括：

计算单元，用于计算所述预测样本标注信息与所述样本标注信息之间的信息准确度；

确定单元，用于根据所述信息准确度确定所述样本视频帧中的正样本引导视频帧和负样本引导视频帧；

其中，所述正样本引导视频帧对应的第一信息准确度高于所述负样本引导视频帧对应的第二信息准确度，所述第一信息准确度是根据所述正样本引导视频帧对所述目标样本视频帧进行信息标注时的信息准确度，所述第二信息准确度是根据所述负样本引导视频帧对所述目标样本视频帧进行信息标注时的信息准确度。

需要说明的是：上述实施例提供的视频帧的信息标注装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频帧的信息标注装置与视频帧的信息标注生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1400包括中央处理单元(CPU)1401、包括随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1401执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1401执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一实施例所述的视频帧的信息标注方法。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的视频帧的信息标注方法。。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的视频帧的信息标注方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视频帧的信息标注方法，其特征在于，所述方法应用于计算机设备，所述方法包括：

获取待处理视频；

对于所述待处理视频中的目标视频帧，对所述目标视频帧进行特征提取，得到所述目标视频帧的目标图像特征；

根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，所述已标注视频帧属于所述待处理视频，所述引导视频帧用于引导所述目标视频帧进行信息标注，所述图像特征匹配度为所述目标图像特征与所述已标注视频帧对应图像特征之间的匹配度，且所述引导视频帧与所述目标视频帧的图像特征匹配度高于其它已标注视频帧与所述目标视频帧的图像特征匹配度；

根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息。
根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，包括：

从记忆选择网络的记忆池中获取候选图像特征，所述记忆选择网络包括所述记忆池和选择网络，所述记忆池中存储有所述已标注视频帧的图像特征；

将所述候选图像特征和所述目标图像特征输入所述选择网络，得到所述选择网络输出的图像特征评分，所述图像特征评分用于指示所述候选图像特征与所述目标图像特征之间的图像特征匹配度；

将最高图像特征评分对应的已标注视频帧确定为所述引导视频帧；

所述根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧之后，所述方法还包括：

将所述目标视频帧的所述目标图像特征存储至所述记忆池。
根据权利要求2所述的方法，其特征在于，所述将所述候选图像特征和所述目标图像特征输入所述选择网络，得到所述选择网络输出的图像特征评分之前，所述方法还包括：

获取初始标注视频帧中标注对象的标注对象图像特征，所述初始标注视频帧为所述待处理视频中预设有标注信息的视频帧，且所述标注对象为所述初始标注视频帧中包含标注信息的对象；

所述将所述候选图像特征和所述目标图像特征输入所述选择网络，得到所述选择网络输出的图像特征评分，包括：

将所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述选择网络，得到所述选择网络输出的所述图像特征评分。
根据权利要求3所述的方法，其特征在于，所述选择网络包括第一选择分支和第二选择分支；

所述将所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述选择网络，得到所述选择网络输出的所述图像特征评分，包括：

对所述候选图像特征、所述目标图像特征和所述标注对象图像特征中的任意两个图像特征进行关联操作，得到关联图像特征，所述关联图像特征用于表征图像特征之间的相似度；

将各个所述关联图像特征进行拼接，并将拼接后的所述关联图像特征输入所述第一选择分支，得到所述第一选择分支输出的第一特征向量；

将拼接后的所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述第二选择分支，得到所述第二选择分支输出的第二特征向量；

根据所述第一特征向量和所述第二特征向量确定所述图像特征评分。
根据权利要求2至4任一所述的方法，其特征在于，所述从记忆选择网络的记忆池中获取候选图像特征，包括：

若所述待处理视频的帧率大于帧率阈值，每隔预定帧数从所述记忆池中获取所述已标记视频帧对应的所述候选图像特征，或者，从所述记忆池中获取所述目标视频帧对应的n帧相邻已标注视频帧的所述候选图像特征，n为正整数。
根据权利要求2至4任一所述的方法，其特征在于，所述根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息，包括：

将所述引导视频帧、所述引导视频帧对应的标注信息以及所述目标视频帧输入时序传播网络，得到所述时序传播网络输出的所述目标标注信息。
根据权利要求6所述的方法，其特征在于，所述时序传播网络包括图像分支和动量分支；

所述将所述引导视频帧、所述引导视频帧对应的标注信息以及所述目标视频帧输入时序传播网络，得到所述时序传播网络输出的所述目标标注信息，包括：

将所述引导视频帧对应的标注信息以及所述目标视频帧输入所述图像分支，得到所述图像分支输出的图像信息特征；

确定所述引导视频帧与所述目标视频帧之间的视频帧光流；将所述视频帧光流和所述引导视频帧对应的标注信息输入所述动量分支，得到所述动量分支输出的动量特征；

根据所述图像信息特征和所述动量特征确定所述目标标注信息。
根据权利要求6所述的方法，其特征在于，所述获取待处理视频之前，所述方法还包括：

根据样本视频训练所述时序传播网络，所述样本视频中的样本视频帧包含标注信息；

对于所述样本视频中的目标样本视频帧，将所述目标样本视频帧以及所述样本视频中的其它样本视频帧输入所述时序传播网络，得到所述时序传播网络输出的预测样本标注信息；

根据所述预测样本标注信息和所述目标样本视频帧对应的样本标注信息，确定所述样本视频帧中的样本引导视频帧；

根据所述目标样本视频帧和所述样本引导视频帧训练所述记忆选择网络。
根据权利要求8所述的方法，其特征在于，所述根据所述预测样本标注信息和所述目标样本视频帧对应的样本标注信息，确定所述样本视频帧中的样本引导视频帧，包括：

计算所述预测样本标注信息与所述样本标注信息之间的信息准确度；

根据所述信息准确度确定所述样本视频帧中的正样本引导视频帧和负样本引导视频帧；

其中，所述正样本引导视频帧对应的第一信息准确度高于所述负样本引导视频帧对应的第二信息准确度，所述第一信息准确度是根据所述正样本引导视频帧对所述目标样本视频帧进行信息标注时的信息准确度，所述第二信息准确度是根据所述负样本引导视频帧对所述目标样本视频帧进行信息标注时的信息准确度。
一种视频帧的信息标注装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频；

特征提取模块，用于对于所述待处理视频中的目标视频帧，对所述目标视频帧进行特征提取，得到所述目标视频帧的目标图像特征；

引导帧确定模块，用于根据所述目标视频帧与已标注视频帧的图像特征匹配度，从所述已标注视频帧中确定所述目标视频帧的引导视频帧，所述已标注视频帧属于所述待处理视频，所述引导视频帧用于引导所述目标视频帧进行信息标注，所述图像特征匹配度为所述目标图像特征与所述已标注视频帧对应图像特征之间的匹配度，且所述引导视频帧与所述目标视频帧的图像特征匹配度高于其它已标注视频帧与所述目标视频帧的图像特征匹配度；

生成模块，用于根据所述引导视频帧对应的标注信息，生成所述目标视频帧对应的目标标注信息。
根据权利要求10所述的装置，其特征在于，所述引导帧确定模块，包括：

第一获取单元，用于从记忆选择网络的记忆池中获取候选图像特征，所述记忆选择网络包括所述记忆池和选择网络，所述记忆池中存储有所述已标注视频帧的图像特征；

特征评分单元，用于将所述候选图像特征和所述目标图像特征输入所述选择网络，得到所述选择网络输出的图像特征评分，所述图像特征评分用于指示所述候选图像特征与所述目标图像特征之间的图像特征匹配度；

确定单元，用于将最高图像特征评分对应的已标注视频帧确定为所述引导视频帧；

所述装置还包括：

存储模块，用于将所述目标视频帧的所述目标图像特征存储至所述记忆池。
根据权利要求11所述的装置，其特征在于，所述引导帧确定模块还包括：

第二获取单元，用于获取初始标注视频帧中标注对象的标注对象图像特征，所述初始标注视频帧为所述待处理视频中预设有标注信息的视频帧，且所述标注对象为所述初始标注视频帧中包含标注信息的对象；

所述特征评分单元，还用于：

将所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述选择网络，得到所述选择网络输出的所述图像特征评分。
根据权利要求12所述的装置，其特征在于，所述选择网络包括第一选择分支和第二选择分支；

所述特征评分单元，还用于：

对所述候选图像特征、所述目标图像特征和所述标注对象图像特征中的任意两个图像特征进行关联操作，得到关联图像特征，所述关联图像特征用于表征图像特征之间的相似度；

将各个所述关联图像特征进行拼接，并将拼接后的所述关联图像特征输入所述第一选择分支，得到所述第一选择分支输出的第一特征向量；

将拼接后的所述候选图像特征、所述目标图像特征和所述标注对象图像特征输入所述第二选择分支，得到所述第二选择分支输出的第二特征向量；

根据所述第一特征向量和所述第二特征向量确定所述图像特征评分。
根据权利要求11至13任一所述的装置，其特征在于，所述生成模块，用于：

将所述引导视频帧、所述引导视频帧对应的标注信息以及所述目标视频帧输入时序传播网络，得到所述时序传播网络输出的所述目标标注信息。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的视频帧的信息标注方法。
一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的视频帧的信息标注方法。