WO2022262337A1

WO2022262337A1 - 视频标注方法、装置、计算设备和计算机可读存储介质

Info

Publication number: WO2022262337A1
Application number: PCT/CN2022/081027
Authority: WO
Inventors: 邬书哲; 金鑫; 涂丹丹
Original assignee: 华为云计算技术有限公司
Priority date: 2021-06-16
Filing date: 2022-03-15
Publication date: 2022-12-22
Also published as: CN115482426A

Abstract

本公开的实施例提供了一种视频标注方法、装置、计算设备和计算机可读存储介质。该方法包括：根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息；以及基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。以此方式，本公开的实施例基于位置映射模型实现了对视频中各帧的标注。对标注的类型和被标注的对象不限制，对于各种类型的对象都能够确定标注信息，并且即使针对运动轨迹不规则、具有遮挡、物体形变多样等场景也能够得到高质量的标注信息。

Description

视频标注方法、装置、计算设备和计算机可读存储介质

技术领域

本公开涉及人工智能领域，并且更具体地，涉及一种视频标注方法、装置、计算设备和计算机可读存储介质。

背景技术

视频作为最主要的视觉信息载体，包括互联网上用户上传的视频、监控系统保存的视频、影视剧视频等，可以为各种视觉智能应用提供数据输入。

基于视频的很多人工智能技术要依赖于对视频的标注。然而，目前对视频进行标注的方案不仅成本高而且效率低。

发明内容

本公开的示例实施例提供了一种视频标注方法，该方法能够基于位置映射模型实现对视频中各帧的自动标注，且标注效率高。

第一方面，提供了一种视频标注方法。该方法包括：根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息；以及基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

如此，本公开的实施例中，基于位置映射模型实现了对视频中各帧的标注。对标注的类型和被标注的对象不限制，对于各种类型的对象都能够确定标注信息，并且即使针对运动轨迹不规则、具有遮挡、物体形变多样等场景也能够得到高质量的标注信息。

在第一方面的一些实施例中，该视频为彩色视频，位置映射模型是基于彩色视频以及从彩色视频构建的灰度视频而训练得到的。

在第一方面的一些实施例中，在确定匹配像素之前还包括：基于用户输入的彩色视频，构建灰度视频；以及基于彩色视频和灰度视频对预置位置映射模型进行更新，以得到位置映射模型。

如此，位置映射模型可以基于待标注的视频进行更新，从而在标注之前使得位置映射模型能够适应不同的数据情况，进一步保证的标注的准确性。

在第一方面的一些实施例中，确定目标像素的标注信息包括：从先前帧的标注信息中确定与目标像素在先前帧中的另一匹配像素有关的部分；以及基于先前帧的标注信息中与匹配像素有关的部分以及与另一匹配像素有关的部分，确定目标像素的标注信息。

如此，能够基于多个匹配像素来确定目标像素的标注信息，使得标注结果更加准确。

在第一方面的一些实施例中，确定目标像素的标注信息包括：确定匹配像素与目标像素之间的第一相似度，以及另一匹配像素与目标像素之间的第二相似度；以及通过对第一相似度与第二相似度进行加权求和，确定目标像素的标注信息。

在第一方面的一些实施例中，确定目标像素的标注信息包括：确定匹配像素与目标像素之间的第一相似度，以及另一匹配像素与目标像素之间的第二相似度；以及通过第一相似度与第二相似度的比较结果，确定目标像素的标注信息。

在第一方面的一些实施例中，先前帧包括视频的起始帧，起始帧的标注信息是由用户标注的。

如此，可以基于准确的用户标注，来确定当前帧中目标像素的标注信息，使得得到的标注信息更加准确。

在第一方面的一些实施例中，先前帧包括视频中的位于当前帧之前的与当前帧相邻或非相邻的帧。

如此，可以基于相邻帧进行标注，充分考虑视频中对象的移动性，使得得到的标注信息更能符合实际情况。

在第一方面的一些实施例中，标注信息包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜。

如此，本公开可以针对各种形式的标注信息进行后续的标注，对于各种类型的对象都能够确定标注信息，而无需用户针对不同的对象选择不同的预置算法。即使针对运动轨迹不规则、具有遮挡、物体形变多样等场景也能够得到高质量的标注信息。

在第一方面的一些实施例中，还包括：至少基于目标像素的标注信息，确定当前帧的标注信息。

第二方面，提供了一种视频标注装置。该装置包括：映射单元被配置为根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息；以及确定单元被配置为基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

在第二方面的一些实施例中，视频为彩色视频，位置映射模型是基于彩色视频以及从彩色视频构建的灰度视频而训练得到的。

在第二方面的一些实施例中，该装置还包括：构建单元被配置为基于用户输入的彩色视频，构建灰度视频；以及更新单元被配置为基于彩色视频和灰度视频对预置位置映射模型进行更新，以得到位置映射模型。

在第二方面的一些实施例中，确定单元被配置为从先前帧的标注信息中确定与目标像素在先前帧中的另一匹配像素有关的部分；以及基于先前帧的标注信息中与匹配像素有关的部分以及与另一匹配像素有关的部分，确定目标像素的标注信息。

在第二方面的一些实施例中，确定单元被配置为：确定匹配像素与目标像素之间的第一相似度，以及另一匹配像素与目标像素之间的第二相似度；以及通过对第一相似度与第二相似度进行加权求和，确定目标像素的标注信息。

在第二方面的一些实施例中，先前帧包括视频的起始帧，起始帧的标注信息是由用户标注的。

在第二方面的一些实施例中，先前帧包括视频中的位于当前帧之前的与当前帧相邻或非相邻的帧。

在第二方面的一些实施例中，标注信息包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜。

在第二方面的一些实施例中，确定单元还被配置为至少基于目标像素的标注信息，确定当前帧的标注信息。

第三方面，提供了一种计算设备，包括处理器以及存储器，所述存储器上存储有由处理器执行的指令，当该指令被处理器执行时使得所述计算设备实现：根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息；以及基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

在第三方面的一些实施例中，当该指令被处理器执行时使得所述计算设备实现：从先前帧的标注信息中确定与目标像素在先前帧中的另一匹配像素有关的部分；以及基于先前帧的标注信息中与匹配像素有关的部分以及与另一匹配像素有关的部分，确定目标像素的标注信息。

在第三方面的一些实施例中，当该指令被处理器执行时使得所述计算设备实现：确定匹配像素与目标像素之间的第一相似度，以及另一匹配像素与目标像素之间的第二相似度；以及通过对第一相似度与第二相似度进行加权求和，确定目标像素的标注信息。

在第三方面的一些实施例中，视频为彩色视频，位置映射模型是基于彩色视频以及从彩色视频构建的灰度视频而训练得到的。

在第三方面的一些实施例中，当该指令被处理器执行时使得所述计算设备实现：基于用户输入的彩色视频，构建灰度视频；以及基于彩色视频和灰度视频对预置位置映射模型进行更新，以得到位置映射模型。

在第三方面的一些实施例中，先前帧包括视频的起始帧，起始帧的标注信息是由用户标注的。

在第三方面的一些实施例中，先前帧包括视频中的位于当前帧之前的与当前帧相邻或非相邻的帧。

在第三方面的一些实施例中，标注信息包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜。

在第三方面的一些实施例中，当该指令被处理器执行时使得所述计算设备实现：至少基于目标像素的标注信息，确定当前帧的标注信息。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现根据上述第一方面或其任一实施例中的方法的操作。

第五方面，提供了一种芯片或芯片系统。该芯片或芯片系统包括处理电路，被配置为执行根据上述第一方面或其任一实施例中的方法的操作。

第六方面，提供了一种计算机程序或计算机程序产品。该计算机程序或计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，计算机可执行指令在被执行时使设备实现根据上述第一方面或其任一实施例中的方法的操作。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及其他方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的系统的结构示意图；

图2示出了根据本公开的实施例的位置映射模型的一个示意图；

图3示出了根据本公开的实施例的系统被部署于云环境和本地计算设备中的场景的示意图；

图4示出了根据本公开的实施例的计算设备的结构示意图；

图5示出了根据本公开的实施例的视频标注方法的示意流程图；

图6示出了根据本公开的实施例的得到位置映射模型的过程的示意流程图；

图7示出了根据本公开的实施例的确定目标像素的标注信息的过程的示意流程图；

图8示出了根据本公开的实施例的视频标注装置的示意框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

人工智能(Artificial Intelligence，AI)利用计算机来模拟人的某些思维过程和智能行为。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。人工智能已经被广泛地应用到了安防、医疗、交通、教育、金融等各个行业。

机器学习(Machine Learning)是人工智能的一个分支，其研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。也就是说，机器学习研究的是如何在经验学习中改善具体算法的性能。

深度学习(Deep Learning)是一类基于深层次神经网络算法的机器学习技术，其主要特征是使用多重非线性变换结构对数据进行处理和分析。主要应用于人工智能领域的感知、决策等场景，例如图像和语音识别、自然语言翻译、计算机博弈等。

视频作为一种重要的视觉信息载体，包括互联网上用户上传的视频、监控系统保存的视频、影视剧视频等，为各种视觉智能应用提供数据输入。当前面向视觉的人工智能技术，尤其是作为主流的深度学习技术，往往依赖于大量的有标注数据进行学习。视频数据由于相比图像多出了时间维度，且数据规模巨大，导致对视频的标注非常困难，不仅成本高而且效率低，进而限制了相关技术在实际中的应用，也限制了视频数据发挥其应有的价值，因此高效地获取带标注的视频数据对于人工智能技术在相关领域的落地至关重要。

对视频进行标注通常需要逐帧进行，即将视频拆解为图像序列后对每帧图像进行标注。一种方式是在用户标注的基础上，使用半自动标注工具来辅助标注，其中半自动标注工具可以使用预置的物体跟踪算法对被标注的物体进行跟踪，这样可以在一定程度上降低标注的难度，提高标注的效率。但是这样的半自动标注工具通常只能针对一种标注任务，因此如果针对不同类型的标注任务，需要不同的半自动标注工具相互独立地进行标注。另外，而且半自动标注工具只能针对特定的物体提供预测辅助能力，同时每次只能跟踪一个物体，从而其使用效果和适用范围是极其有限的，如此导致了无法满足实际需求。

有鉴于此，本公开的实施例提供了一种对视频进行标注，确定视频中目标帧的标注信息。该方法基于位置映射模型进行标注，不依赖于标注的类型和针对的对象，因此能够适用于各种标注，适用范围更广，从而能够满足各种场景的需求。

图1示出了根据本公开的实施例的系统100的结构示意图。如图1所示，系统100可以如图1所示，系统架构100包括输入/输出(Input/Output，I/O)模块110、位置映射模块120和标注模块130。可选地，如图1所示，系统100还可以包括模型更新模块140、数据存储模块150、模型存储模块160和校正模块170。根据各个实施例中操作的需要，图1所示的各个模块之间可以彼此进行通信。

输入/输出模块110可以用于获取待处理视频，例如可以接收由用户输入的视频。

可选地，用户输入的视频可以被存储在数据存储模块150中。作为一个示例，数据存储模块150可以是云服务提供商提供的对象存储服务(Object Storage Service，OBS)对应的数据存储资源。

视频包括图像序列，如第0帧、第1帧、…等。作为示例，该视频中的一帧或多帧具有标注信息。

在一些实施例中，输入/输出模块110所获取的视频的起始帧具有标注信息，也就是说，输入/输出模块110可以用于获取视频，并获取视频的起始帧的标注信息。

起始帧可以是指该视频中需要进行标注的视频段的第一帧，其中，需要进行标注的视频段可以是该视频的全部或部分。在该视频的全部需要进行标注的场景下，该起始帧可以是指位于该视频的开端的第一帧。在仅该视频的部分需要进行标注的场景下，该起始帧可以是指需要进行标注的视频的部分的开端的第一帧。例如，视频的开始部分可能包括一个或多个无效帧、测试帧等，这些帧不需要被进行标注，那么可以将这些不需要被标注的帧之后的需要进行视频标注的视频段的第一帧定义为起始帧。

为了简化描述，便于理解，下文中可以将视频视为“需要进行标注的视频段”。相应地，可以将起始帧定义为视频的第0帧，将位于起始帧之后的帧顺次地定义为第1帧、第2帧、…，将位于起始帧之前的帧(如果存在的话)定义为负帧或无效帧或其他名称等。但是可理解的是，这种定义方式仅是为了本文中实施例描述的方便，不应解释为对本公开的保护范围的限定。

可选地，起始帧的标注信息可以是由用户标注的。例如，标注人员可以根据经验，针对该起始帧中的一个或多个特定部分(如动物、人体、车辆等)进行标注。该标注信息也可以被称为标签、任务标记或其他名称等，本公开中不再一一罗列。

在本公开的实施例中，起始帧的标注信息包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜(mask)等。作为示例，对起始帧的标注信息可以包括以下部分或全部信息：对起始帧中一个或多个点进行标注所得到的信息、对起始帧中一条或多条直线进行标注所得到的信息、对起始帧中一条或多条曲线进行标注所得到的信息、对起始帧中一个或多个矩形框进行标注所得到信息、对起始帧中一个或多个不规则多边形进行标注所得到的信息、对起始帧中一个或多个分割掩膜进行标注所得到的信息等。

应理解的是，本公开的实施例中对各种标注方式的具体含义不做限定。例如，点可以表示行人，直线可以表示道路，矩形框可以表示动物区域，不规则多边形可以表示姿态等等。

本公开的实施例对视频的原始来源不作限定，例如可以是从开源数据集获取的，例如可以是由图像采集设备采集的，或上述所列的任意组合，或其他等等。

输入/输出模块110可以被实现为彼此独立的输入模块和输出模块，或者也可以被实现为同时具备输入功能和输出功能的耦合模块。作为示例，可以采用图形用户界面(Graphical User Interface，GUI)或命令行界面(Command-Line Interface，CLI)实现输入/输出模块110。

作为示例，通过输入/输出模块110所获取的视频可以被存储在数据存储模块150中。

位置映射模块120可以用于根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素。标注模块130可以用于基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

在一种实现方式中，可以按照时间序列对视频以逐帧(frame-wise)的方式进行标注。示例性地，可以基于起始帧(即第0帧)标注第1帧，基于起始帧和/或第1帧标注第2帧，基于起始帧、第1帧和第2帧中的至少一帧标注第3帧，…，基于起始帧至第t-1帧中的至少一帧标注第t帧，等等。在另一种实现方式中，可以不按照时间序列的顺序进行标注。例如，可以基于起始帧(即第0帧)标注第1帧，基于起始帧和/或第1帧标注第3帧，基于起始帧、第1帧和第3帧中的至少一帧标注第2帧，…，等等。

可以将当前要标注的帧称为当前帧，例如可以是第t帧。可以将已经完成标注的帧称为先前帧，例如在按照时间序列逐帧标注的情形，先前帧可以包括起始帧至第t-1帧中的任一帧。作为一个示例，先前帧可以包括起始帧。作为另一个示例，先前帧可以包括位于当前帧之前且与当前帧相邻的帧。作为再一个示例，先前帧可以包括位于当前帧之前且与当前帧不相邻的帧。简而言之，当前帧为第t帧，先前帧可以包括第p帧，且p和t为正整数，p小于t。

在对当前帧进行标注时，可以逐像素地先确定像素的标注信息，其中当前要标注的像素可以被称为目标像素。

本公开的实施例对选取目标像素的方式不作限定。

在一些实施例中，可以随机地从当前帧的未标注像素中选择一个像素作为目标像素。举例来说，当前帧的未标注像素包括至少一个像素，那么可以从未标注像素中随机选取其中之一作为目标像素。

在一些实施例中，可以以行或列的方式依次地从未标注像素中选择目标像素。举例来说，可以从当前帧的第一行开始，将第一行的第一个像素作为目标像素；随后再将第一行的第二个像素作为目标像素…。举例来说，可以从当前帧的第一列开始，将第一列的第一个像素作为目标像素；随后再将第一列的第二个像素作为目标像素…。

在一些实施例中，可以基于当前帧的前一帧中的被标注像素来选择目标像素。举例来说，如果当前帧的前一帧(如第t-1帧)中的位置(x1,y1)处的像素具有标注信息，那么可以将当前帧中的位置(x1,y1)处的像素作为目标像素。

应理解的是，也可以通过其他方式来确定目标像素，本公开的实施例中不再一一罗列。

本公开的实施例中，“位置映射模型”也可以被称为位置映射算法、位置对应模型、像素匹配模型、机器学习模型或其他名称等，或者也可以被简称为“模型”等，本公开对此不限定。

位置映射模型可以用于确定某图像中的像素在另一图像中的对应像素。具体地，对于给定的两幅图像(假如为第一图像和第二图像)，位置映射模型可以确定第一图像中的任一个像素在第二图像中的一个或多个对应像素。

应注意的是，位置映射模型对于给定的两幅图像之间的关系不作限定。例如，第一图像和第二图像可以是位于同一视频中的两帧，或者可以是位于不同视频中的两帧。例如，第一图像和第二图像位于同一视频中，第一图像可以是位于第二图像之前的帧，第一图像也可以是第二图像之后的帧。

如果用u表示第一图像中的任一个像素，用v表示第二图像中的任一个像素，用g表示两幅图像之间的映射，那么映射g的基本功能可以表示为：s＝g(u,v)。

可理解的是，u和v表示像素的相同属性，例如像素的位置、像素的提取特征或者其他相关的信息等等。

等式s＝g(u,v)得到的s可以表示第一图像中的像素u和第二图像中的像素v之间对应关系的强弱程度。s可以是一个实数，例如可以是0至1之间的值，且s越大表示对应关系越强。

在上式的一个特例中，可以定义强弱程度仅有0和1两种情况，即s仅为0或1。此时，可以将上式表示为如下的衍生形式：r＝g1(u)，其中r表示和u对应的像素的表示，例如r可以表示该对应的像素的坐标。可理解，该式实际上等价于判定g1(u)和v的对应关系，此处不再详述。

进一步地，可以基于上式构建第一图像中的一个像素与第二图像中的多个像素之间的关系，例如将上式中的v扩展为包括多个像素的像素集合，相应地s被扩展为相应维度的向量。作为一例，可以将式s＝g(u,v)扩展为：[s1,s2,…,sn]＝g(u:[v1,v2,…,vn])。

如此，可以基于该映射，确定与第一图像中的像素u所对应的第二图像中的一个或多个像素。在一例中，可以找到s1至sn中最大值，例如为si，那么可以确定第二图像中的像素vi是与第一图像中的像素u所对应的像素。

在另一例中，可以找到s1至sn中大于预设值(例如0.5或0.8等)的一个或多个s，那么可以确定一个或多个s对应的一个或多个v是第二图像中的与第一图像中的像素u所对应的像素。如图2所示，通过位置映射g，针对在第一图像210中的像素u，可以确定在第二图像220中的对应像素包括v1和v2。

本公开的实施例中，位置映射模型可以被预先构建并被存储在模型存储模块160中，但是本公开的实施例对位置映射模型的构建方式不作限定。也就是说，本公开的实施例中，对视频进行标注时所使用的位置映射模型为预置位置映射模型。

预置位置映射模型可以是基于训练图像集进行建模并训练得到的。具体地，可以基于训练图像集中各个训练图像中的像素信息进行建模并训练得到的。像素信息可以包括像素的位置信息、像素的颜色信息、像素的特征值、像素的运动信息等等。

在一些实施例中，可以基于各个像素的运动信息进行建模，以得到预置位置映射模型。在另一些实施例中，可以基于各个像素的表观特征进行建模，以得到预置位置映射模型。在另一些实施例中，可以基于各个像素的运动信息和表观特征进行建模，以得到预置位置映射模型。

示例性地，运动信息可以是采用诸如光流等的运动场、形变场等技术所确定的，其中光流可以是基于相邻两帧之间的像素的移动方向和移动距离等构建的。示例性地，表观特征可以是诸如颜色(如红-绿-蓝(RGB))等特征，本公开实施例对此不限定。

可理解，本公开实施例对预置位置映射模型的模型结构不作限定。作为一例，可以在建模时确定预置位置映射模型的结构，例如可以参照卷积神经网络(Convolutional Neural Network，CNN)模型的结构，可选地包括输入层、卷积层、反卷积层、池化层、全连接层、输出层等。

预置位置映射模型中包括大量的参数，可以表示该模型中的计算公式或计算因子的权重，并且可以通过训练对参数进行迭代更新。预置位置映射模型的参数还包括超参数(hyper-parameter)，用于指导预置位置映射模型的构建或训练。超参数例如包括模型训练的迭代(iteration)次数、初始学习率(leaning rate)、批尺寸(batch size)、模型的层数、每层神经元的个数等。超参数可以是通过训练集对模型进行训练获得的参数，也可以是预先设定的参数，预先设定的参数指不会通过对模型的训练而被更新。

通过训练得到预置位置映射模型的过程可以参照当前已知或将来待开发的模型训练算法。作为示意性描述，该训练过程可以是：构建训练集，将训练集中的训练数据项输入到预置位置映射模型，利用损失函数(loss function)的损失值对预置位置映射模型的参数进行调整。训练集中的每个训练数据项迭代地对预置位置映射模型进行训练，进而使得预置位置映射模型的参数不断调整。在训练过程中的损失函数是用于衡量预置位置映射模型被训练的程度的函数。

可见，本公开的实施例中借助于位置映射模型来对视频中的帧进行标注，不依赖于特定的标注任务，可以采用统一视角来建模不同的标注形式，从而可以支持对全图各种不同类型的对象同时进行标注。并且，本公开实施例中的标注方式对于场景没有特定的要求，对被标注的物体的类别和运动方式不作限定，即使针对诸如遮挡等复杂场景，也能够达到较高的标注质量。

如上所述，位置映射模型可以用于确定某图像中的像素在另一图像中的对应像素。例如针对第一图像中的任一像素，位置映射模型可以确定第二图像中的一个或多个对应像素。

在一些实施例中，位置映射模块120所使用的位置映射模型可以是从模型存储模块160中获取的预置位置映射模型。

在另一些实施例中，模型更新模块140可以对模型存储模块160中的预置位置映射模型进行更新，以得到更新后的位置映射模型。具体地，可以基于从输入/输出模块110所获取的视频对位置映射模型进行更新，相应地，位置映射模块120所使用的位置映射模型可以是该更新后的位置映射模型。也就是说，位置映射模块120所使用的位置映射模型可以是基于视频被更新而得到的。可选地，该更新后的位置映射模型也可以被存储在模型存储模块160中。

具体地，如果输入/输出模块110所获取的视频为彩色视频，那么模型更新模块140可以基于该彩色视频以及从彩色视频所构建的灰度视频来训练位置映射模型。

在一些实施例中，模型更新模块140可以基于用户输入的彩色视频，构建灰度视频。随后基于该彩色视频和灰度视频对预置映射模型进行更新，从而得到位置映射模块120可使用的位置映射模型。

可以通过重新着色，基于彩色视频中的每一彩色帧构建对应的灰度帧，以得到灰度视频。可以基于彩色视频和灰度视频构建训练数据集，并基于该训练数据集对预置位置映射模型进行训练，以实现对预置映射模型的更新。可理解，训练数据集包括多个训练数据项，每一训练数据项包括彩色帧和对应的灰度帧。还可理解，可以采用梯度下降基于训练数据集对位置映射模型进行更新，也可以采用其他方式进行更新，这里不再罗列。

在另一些实施例中，模型更新模块140可以基于用户输入的彩色视频，构建另一彩色视频。随后基于该彩色视频和另一彩色视频对预置映射模型进行更新，从而得到位置映射模块120可使用的位置映射模型。在其他实施例中，也可以通过其他的方式，基于用户输入的彩色视频来实现对预置映射模型的更新，本公开中不再罗列。

可理解，上述模型更新模块140基于待标注视频对位置映射模型的更新过程也可以称为对位置映射模型的训练过程。如此，可以基于待标注的视频对预置位置映射模型进行更新，从而能够预先适应不同的数据情况，使用更新的位置映射模型对视频进行标注，能够进一步确保标注的质量。

在一些实施例中，可以通过输入/输出模块110获取用户的指令。如果该指令指示对预置位置更新模型进行更新，则模型更新模块140基于用户输入的视频对预置位置更新模型进行更新，以得到更新后的位置更新模型。进一步地，该更新后的位置更新模型可以在之后由位置映射模块120使用。如果该指令指示不对预置位置更新模型进行更新，则位置映射模块120可以使用预置位置映射模型。

在从模型存储模块160获取预置位置映射模型后或者在从模型更新模块140获取更新后的位置映射模型后，基于位置映射模型，位置映射模块120可以确定当前帧中的目标像素在先前帧中的匹配像素。具体地，当前帧可以理解为如图2中的第一图像，先前帧可以理解为如图2中的第二图像，那么可以通过位置映射模型将当前帧中的目标像素映射到先前帧中的一个或多个对应像素，即至少一个匹配像素。

可理解的是，位置映射模块120还可以确定当前帧中的目标像素在其他先前帧中的匹配像素。这样，位置映射模块120能够确定目标像素在多个先前帧中的匹配像素。这种方式同时考虑了时间维度和空间维度，使得确定标注信息的参考更加丰富全面，进而能够确保标注的精度和准确性。

标注模块130可以用于确定目标像素的标注信息。

在一些实施例中，可以基于至少一个匹配像素与目标像素之间的相似度来确定目标像素的标注信息。可理解的是，至少一个匹配像素可以是在一个先前帧中的至少一个匹配像素，也可以是在多个先前帧中的多个匹配像素。

可选地，可以基于与目标像素的相似度最大的匹配像素，来确定目标像素的标注信息。具体地，可以将与目标像素的相似度最大的匹配像素有关的标注部分，作为目标像素的标注信息。

以两个匹配像素为例，假设至少一个匹配像素包括一个匹配像素和另一匹配像素。那么可以确定一个匹配像素与目标像素之间的第一相似度，确定另一匹配像素与目标像素之间的第二相似度。比较第一相似度和第二相似度，如果第一相似度大于第二相似度，则基于一个匹配像素来确定目标像素的标注信息。如果第一相似度小于第二相似度，则基于另一匹配像素来确定目标像素的标注信息。

本公开实施例对确定相似度的方式不作限定。示例性地，可以通过计算两个像素之间的距离来确定这两个像素之间的相似度。举例而言，针对像素i和像素j，可以通过特征提取得到像素i的特征f _i，通过特征提取得到像素j的特征f _j。随后可以将特征f _i与特征f _j之间的相似度作为像素i与像素j之间的相似度。可选地，可以采用特征提取器，采用神经网络或局部特征描述子等方式进行特征提取。可选地，可以通过计算内积、欧式距离等方式来计算相似度。

在一些示例中，计算第一相似度的方式和计算第二相似度的方式可以是一致的，例如都采用欧式距离作为相似度。这样，能够保证被比较的不同相似度的一致性，使得确定的结果更加准确。在另一些示例中，计算第一相似度的方式和计算第二相似度的方式可以是不一致的，这样能够满足多样化场景的需求。

假设目标像素表示为像素j，至少一个匹配像素中与目标像素的相似度最大的匹配像素为像素i，且该像素i在先前帧中被标注有c _i，那么可以确定像素j(即目标像素)的标注信息为：y _j＝c _i。

本另一些实施例中，可以使用权重来衡量至少一个匹配像素的重要性和贡献大小。进一步地，可以基于至少一个匹配像素和其权重来确定目标像素的标注信息。具体地，可以将至少一个匹配像素有关的标注部分的加权求和，作为目标像素的标注信息。

在一些实施例中，可以基于像素之间的相似度来确定权重。具体地，可以确定至少一个匹配像素分别与目标像素之间的相似度，随后基于总的相似度进行归一化来确定至少一个匹配像素的每个匹配像素的权重。

本公开实施例对确定相似度的方式不作限定。示例性地，针对任意两个像素，可以通过这两个像素之间的距离来确定这两个像素之间的相似度。

举例而言，针对像素i和像素j，可以通过特征提取得到像素i的特征f _i，通过特征提取得到像素j的特征f _j。随后可以将特征f _i与特征f _j之间的相似度作为像素i与像素j之间的相似度。可选地，可以采用特征提取器，采用神经网络或局部特征描述子等方式进行特征提取。可选地，可以通过计算内积、欧式距离等方式来计算相似度。

假设目标像素表示为像素j，至少一个匹配像素包括k个匹配像素，那么至少一个匹配像素中的像素i所对应的权重可以表示为：

上式中，T表示转置，

表示f _i与f _j之间的相似度。随后，可以将这k个匹配像素的标注部分进行加权求和，得到像素j(即目标像素)的标注信息为：

如此，通过上面结合位置映射模块120和标注模块130的相关描述，可以基于位置映射模型，确定当前帧中目标像素的标注信息。

标注模块130还可以至少基于当前帧中目标像素的标注信息，确定当前帧的标注信息。示例性地，可以将当前帧中各个像素的标注信息的综合，确定为当前帧的标志信息。

在一些实施例中，在得到当前帧中各个像素的标注信息之后，校正模块170可以对各个像素的标注信息进行校正，从而得到当前帧的标注信息。

可以基于被标注的对象或标注的类型进行校正。例如，被标注的对象是视频中的直线，那么可以在得到像素的标注信息之后，通过分段线性拟合等方式进行调整。例如，标注的类型为分割掩膜，那么可以在得到像素的标注信息之后，通过平滑处理来剔除对部分像素的错误标注。例如，标注的类型为矩形框，那么可以在得到矩形框的顶点像素的标注信息之后，通过边缘信息、区域特征匹配程度等来调整矩形框的顶点位置以得到更加标准和紧致的矩形框。

可理解的是，在将第t帧作为当前帧，得到该第t帧的标注信息之后，可以将第t+1帧作为当前帧，进一步得到第t+1帧的标注信息，…，通过这样的方式，能够得到对于该视频中各帧的标注信息。示例性地，可以将对视频的标注信息称为标注结果。

在一些实施例中，视频的标注信息(即标注结果)可以经由输入/输出模块110输出给用户，例如可以通过可视化方式呈现给用户。从而，用户能够对视频的标注信息进行手动修正等。

如此，本公开的实施例中，基于位置映射模型实现了对视频中各帧的标注。并且本公开的实施例中的标注方式对标注的类型和被标注的对象不限制，例如可以是点、直线、曲线、矩形框、不规则多边形、和分割掩膜中的一种或多种。对于各种类型的对象都能够确定标注信息，而无需用户针对不同的对象选择不同的预置算法。即使针对运动轨迹不规则、具有遮挡、物体形变多样等场景也能够得到高质量的标注信息。另外，本公开的实施例中的位置映射模型还可以基于待标注的视频进行更新，从而在标注之前使得位置映射模型能够适应不同的数据情况，进一步保证的标注的准确性。

可理解，图1所示的系统100可以是能够与用户进行交互的系统，该系统100可以是软件系统、硬件系统、或软硬结合的系统。

在一些示例中，该系统100可以被实现为计算设备或者计算设备的一部分，其中计算设备包括但不限于台式机、移动终端、可穿戴设备、服务器、云服务器等。

系统100可以被部署于云环境和本地计算设备的至少一个中。作为一例，系统100被全部部署在云环境中。作为另一例，系统100的部分模块被部署在云环境中，系统100的另部分模块被部署在本地计算设备中。作为又一例，系统100被全部部署在本地计算设备中。

作为一个示例，图3示出了根据本公开的实施例的系统100被部署于云环境和本地计算设备中的场景300的示意图。如图3所示，系统100被分布式地部署在云环境310和终端计算设备320中，其中，模型更新模块140和模型存储模块160被部署在云环境310中，输入/输出模块110、位置映射模块120、标注模块130、数据存储模块150和校正模块170被部署在本地计算设备320中。

应理解的是，图3仅是示意，本公开的实施例对系统100的哪些部分具体被部署在哪里不作限定，实际应用时，可以根据本地计算设备320的计算能力、云环境310的资源占用情况或实际的需求等进行适应性的部署。

作为另一个示例，图1中所示的系统也可以被部署在本地计算设备中。例如系统100可以被单独部署在一台本地计算设备上，或者可以被分布式地部署在多台本地计算设备上，本公开对此不限定。

图4示出了根据本公开的实施例的计算设备400的结构示意图。图4中的计算设备400可以被实现为图1中的系统100被部署的设备。例如计算设备400可以被实现为图3中的云环境310中的设备或者本地计算设备320。应理解，图4所示的计算设备400也可以被视为计算设备集群。

如图4所示，计算设备400包括存储器410、处理器420、通信接口430以及总线440，其中，总线440用于计算设备400的各个部件彼此之间的通信。

存储器410可以是只读存储器(Read Only Memory，ROM)，随机存取存储器(Random Access Memory，RAM)，硬盘，快闪存储器或其任意组合。存储器410可以存储程序，当存储器410中存储的程序被处理器420执行时，处理器420和通信接口430用于执行如上所述的系统100中各个模块能够执行的过程。应理解，处理器420和通信接口430也可以用于执行本说明书下文所述的视频标注方法的实施例中的部分或全部内容。存储器还可以存储视频和位置映射模型。例如，存储器410中的一部分存储资源被划分成一个数据存储模块，用于存储视频，如待标注视频等，存储器410中的一部分存储资源被划分成模型存储模块，用于存储位置映射模型。

处理器420可以采用中央处理单元(Central Processing Unit，CPU)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，图形处理单元(Graphics Processing Unit，GPU)或其任意组合。处理器420可以包括一个或多个芯片。处理器420可以包括加速器，例如神经处理单元(Neural Processing Unit，NPU)。

通信接口430使用例如收发器一类的收发模块，来实现计算设备400与其他设备或通信网络之间的通信。例如，可以通过通信接口430获取数据。

总线440可包括在计算设备400各个部件(例如，存储器410、处理器420、通信接口430)之间传送信息的通路。

图5示出了根据本公开的实施例的视频标注方法500的示意流程图。图5所示的方法500可以由系统100执行。

如图5所示，在框510，根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息。

在一些实施例中，先前帧位于目标帧之前且已经完成标注。在一些示例中，先前帧包括视频的起始帧，该起始帧的标注信息是由用户标注的。在一些示例中，先前帧包括视频中的位于当前帧之前的与当前帧相邻或非相邻的帧。

在一些实施例中，先前帧的标注信息可以包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜。

在一些实施例中，视频为彩色视频，且该位置映射模型是基于彩色视频以及从彩色视频构建的灰度视频而训练得到的。

图6示出了根据本公开的实施例的得到位置映射模型的过程600的示意流程图。

在框610，基于用户输入的彩色视频，构建灰度视频。

可以通过将彩色视频中的每一帧进行重新着色，以得到对应的灰度帧。

在框620，基于彩色视频和灰度视频对预置位置映射模型进行更新，以得到位置映射模型。

可以基于彩色视频和灰度视频，采用梯度下降的方法对预置位置映射模型进行更新，从而得到更新后的位置映射模型。

在一些实施例中，还可以确定目标像素在其他一个或多个当前帧中的匹配像素。

在框520，基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

作为一例，可以将与匹配像素有关的标注信息，作为目标像素的标注信息。作为另一例，可以基于匹配像素和另外一个或多个匹配像素，来确定目标像素的标注信息。

图7示出了根据本公开的实施例的确定目标像素的标注信息的过程700的示意流程图。

在框710，从先前帧的标注信息中确定与目标像素在所述先前帧中的另一匹配像素有关的部分。

也就是说，针对当前帧中的目标像素，位置映射模型可以确定在先前帧中的多个匹配像素，实现多点映射。

在框720，基于先前帧的标注信息中与匹配像素有关的部分以及与另一匹配像素有关的部分，确定目标像素的标注信息。

在一些示例中，可以确定匹配像素与目标像素之间的第一相似度，确定另一匹配像素与目标像素之间的第二相似度。进一步，可以通过对第一相似度和第二相似度进行加权求和，确定目标像素的标注信息。

在另一些示例中，可以确定匹配像素与目标像素之间的第一相似度，确定另一匹配像素与目标像素之间的第二相似度。进一步，可以通过第一相似度和第二相似度的比较结果，确定目标像素的标注信息。具体地，基于相似度较大值对应的匹配像素，来确定目标像素的标注信息。

举例来说，第一相似度大于第二相似度，那么可以将匹配像素的标注信息作为目标像素的标注信息。举例来说，第二相似度大于第一相似度，那么可以将另一匹配像素的标注信息作为目标像素的标注信息。

可选地，如图5所示，在框530，还可以至少基于目标像素的标注信息，确定当前帧的标注信息。

在一些实施例中，可以对当前帧中各像素的标注信息进行校正，从而得到当前帧的标注信息。

如此，本公开的实施例中，基于位置映射模型实现了对视频中各帧的标注。并且本公开的实施例中的标注方式对标注的类型和被标注的对象不限制，例如可以是点、直线、曲线、矩形框、不规则多边形、分割掩膜中的一种或多种。对于各种类型的对象都能够确定标注信息，而无需用户针对不同的对象选择不同的预置算法。即使针对运动轨迹不规则、具有遮挡、物体形变多样等场景也能够得到高质量的标注信息。另外，本公开的实施例中的位置映射模型还可以基于待标注的视频进行更新，从而在标注之前使得位置映射模型能够适应不同的数据情况，进一步保证的标注的准确性。

可理解的是，本公开实施例中结合图5至图7所描述的过程，可以参照上面结合图1至图4所描述的模块等的功能，为了简洁，不再重复。

图8示出了根据本公开的实施例的视频标注装置800的示意框图。装置800可以通过软件、硬件或者两者结合的方式实现。在一些实施例中，装置800可以为实现图1所示的系统100中的部分或全部功能的软件或硬件装置。

如图8所示，装置800包括映射单元810和确定单元820。映射单元810被配置为根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，先前帧具有标注信息。确定单元820被配置为基于先前帧的标注信息中与匹配像素有关的部分，确定目标像素的标注信息。

在一些实施例中，确定单元820被配置为从先前帧的所述标注信息中确定与目标像素在先前帧中的另一匹配像素有关的部分；以及基于先前帧的标注信息中与匹配像素有关的部分以及与另一匹配像素有关的部分，确定目标像素的标注信息。

在一些实施例中，确定单元820被配置为确定匹配像素与目标像素之间的第一相似度，以及另一匹配像素与目标像素之间的第二相似度；以及通过对第一相似度与第二相似度进行加权求和，确定目标像素的标注信息。

在一些实施例中，视频为彩色视频，并且位置映射模型是基于彩色视频以及从彩色视频构建的灰度视频而训练得到的。

在一些实施例中，如图8所示，该装置800还可以包括构建单元802和更新单元804。构建单元802可以被配置为基于用户输入的彩色视频，构建灰度视频。更新单元804可以被配置为基于彩色视频和灰度视频对预置位置映射模型进行更新，以得到位置映射模型。

在一些实施例中，先前帧包括所述视频的起始帧，起始帧的标注信息是由用户标注的。

在一些实施例中，先前帧包括视频中的位于当前帧之前的与当前帧相邻或非相邻的帧。

在一些实施例中，先前帧的标注信息包括通过以下至少一种标注方式所得到的信息：点、直线、曲线、矩形框、不规则多边形、和分割掩膜。

在一些实施例中，确定单元820还被配置为：至少基于目标像素的标注信息，确定当前帧的标注信息。

可选地，装置800可以实现为系统100，示例性地，映射单元810可以被实现为位置映射模块120，确定单元820可以被实现为标注模块130，构建单元802和更新单元804可以被实现为模型更新模块140。

本公开的实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时也可以有另外的划分方式，另外，在公开的实施例中的各功能单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上单元集成为一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

图8所示的装置800能够用于实现上述结合图5至图7所示的视频标注的过程。

本公开还可以实现为计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。本公开可以实现为计算机可读存储介质，其上存储有计算机可读程序指令，当处理器运行所述指令时，使得处理器执行上述的处理过程。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)或闪存、静态随机存取存储器(Static Random Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Versatile Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机可读程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机可读程序指令的组合来实现。

Claims

一种视频标注方法，其特征在于，包括：

根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，所述先前帧具有标注信息；以及

基于所述先前帧的标注信息中与所述匹配像素有关的部分，确定所述目标像素的标注信息。
根据权利要求1所述的方法，其特征在于，所述视频为彩色视频，所述位置映射模型是基于所述彩色视频以及从所述彩色视频构建的灰度视频而训练得到的。
根据权利要求2所述的方法，其特征在于，在所述确定所述匹配像素之前还包括：

基于用户输入的所述彩色视频，构建灰度视频；以及

基于所述彩色视频和所述灰度视频对预置位置映射模型进行更新，以得到所述位置映射模型。
根据权利要求1至3中任一项所述的方法，其特征在于，确定所述目标像素的标注信息包括：

从所述先前帧的标注信息中确定与所述目标像素在所述先前帧中的另一匹配像素有关的部分；以及

基于所述先前帧的标注信息中与所述匹配像素有关的部分以及与所述另一匹配像素有关的部分，确定所述目标像素的标注信息。
根据权利要求4所述的方法，其特征在于，确定所述目标像素的标注信息包括：

确定所述匹配像素与所述目标像素之间的第一相似度，以及所述另一匹配像素与所述目标像素之间的第二相似度；以及

通过对所述第一相似度与所述第二相似度进行加权求和，确定所述目标像素的标注信息。
根据权利要求1至5中任一项所述的方法，其特征在于，所述先前帧包括所述视频的起始帧，所述起始帧的标注信息是由用户标注的。
根据权利要求1至6中任一项所述的方法，其特征在于，所述先前帧包括所述视频中的位于所述当前帧之前的与所述当前帧相邻或非相邻的帧。
根据权利要求1至7中任一项所述的方法，其特征在于，所述先前帧的所述标注信息包括通过以下至少一种标注方式所得到的信息：

点、直线、曲线、矩形框、不规则多边形、和分割掩膜。
根据权利要求1至8中任一项所述的方法，其特征在于，还包括：

至少基于所述目标像素的标注信息，确定所述当前帧的标注信息。
一种视频标注装置，其特征在于，包括：

映射单元，被配置为根据位置映射模型，确定视频中的当前帧中的目标像素在先前帧中的匹配像素，所述先前帧具有标注信息；以及

确定单元，被配置为基于所述先前帧的标注信息中与所述匹配像素有关的部分，确定所述目标像素的标注信息。
根据权利要求10所述的装置，其特征在于，所述视频为彩色视频，所述位置映射模型是基于所述彩色视频以及从所述彩色视频构建的灰度视频而训练得到的。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

构建单元，被配置为基于用户输入的所述彩色视频，构建灰度视频；以及

更新单元，被配置为基于所述彩色视频和所述灰度视频对预置位置映射模型进行更新，以得到所述位置映射模型。
根据权利要求10至12中任一项所述的装置，其特征在于，所述确定单元被配置为：

从所述先前帧的所述标注信息中确定与所述目标像素在所述先前帧中的另一匹配像素有关的部分；以及

基于所述先前帧的标注信息中与所述匹配像素有关的部分以及与所述另一匹配像素有关的部分，确定所述目标像素的标注信息。
根据权利要求13所述的装置，其特征在于，所述确定单元被配置为：

确定所述匹配像素与所述目标像素之间的第一相似度，以及所述另一匹配像素与所述目标像素之间的第二相似度；以及

通过对所述第一相似度与所述第二相似度进行加权求和，确定所述目标像素的标注信息。
根据权利要求10至14中任一项所述的装置，其特征在于，所述先前帧包括所述视频的起始帧，所述起始帧的标注信息是由用户标注的。
根据权利要求10至15中任一项所述的装置，其特征在于，所述先前帧包括所述视频中的位于所述当前帧之前的与所述当前帧相邻或非相邻的帧。
根据权利要求10至16中任一项所述的装置，其特征在于，所述先前帧的所述标注信息包括通过以下至少一种标注方式所得到的信息：

点、直线、曲线、矩形框、不规则多边形、和分割掩膜。
根据权利要求10至17中任一项所述的装置，其特征在于，所述确定单元还被配置为：

至少基于所述目标像素的标注信息，确定所述当前帧的标注信息。
一种计算设备，包括处理器和存储器，所述存储器存储有计算机程序，当所述处理器读取并执行所述计算机程序时，使得所述计算设备执行根据权利要求1至9中任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。