WO2023051343A1

WO2023051343A1 - 视频语义分割方法、装置、电子设备、存储介质及计算机程序产品

Info

Publication number: WO2023051343A1
Application number: PCT/CN2022/120176
Authority: WO
Inventors: 李江彤; 牛力; 四建楼; 钱晨; 张丽清
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-09-30
Filing date: 2022-09-21
Publication date: 2023-04-06
Also published as: CN114792106A

Abstract

一种视频语义分割方法、装置、电子设备、存储介质及计算机程序产品，该视频语义分割方法包括：获取视频数据中待检测视频帧对应的第一特征数据，以及视频数据中采集时间位于待检测视频帧之前的历史视频帧对应的历史特征数据（S101）；从第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点（S102）；基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据（S103）；基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息（S104）。

Description

视频语义分割方法、装置、电子设备、存储介质及计算机程序产品

相关申请的交叉引用

本公开实施例基于申请号为202111165458.9、申请日为2021年09月30日、申请名称为“视频语义分割方法、装置、电子设备及存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本公开。

技术领域

本公开涉及深度学习技术邻域，尤其涉及一种视频语义分割方法、装置、电子设备、存储介质及计算机程序产品。

背景技术

视频语义分割旨在为视频帧中的每个像素点分配一个语义标签，实现将视频帧按照语义进行分割，比如，可以将视频帧中的行人、自行车、动物等不同语义对象进行分割，得到语义分割结果。

一般的，在对视频数据进行语义分割时，可以对视频数据中的每个视频帧进行语义分割，确定各个视频帧的语义分割结果；再可以将各个视频帧的语义分割结果进行对齐，即将视频数据的不同视频帧中同一对象进行关联，得到视频数据对应的语义分割结果。但是，上述对视频数据进行语义分割的过程较为繁琐，使得语义分割的效率较低。

发明内容

有鉴于此，本公开实施例至少提供一种视频语义分割方法、装置、电子设备、存储介质及计算机程序产品。

第一方面，本公开实施例提供了一种视频语义分割方法，包括：

获取视频数据中待检测视频帧对应的第一特征数据，以及所述视频数据中采集时间位于所述待检测视频帧之前的历史视频帧对应的历史特征数据；

从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，所述复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据；

基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。

第二方面，本公开实施例提供了一种视频语义分割装置，包括：

获取模块，配置为获取视频数据中待检测视频帧对应的第一特征数据，以及所述视频数据中采集时间位于所述待检测视频帧之前的历史视频帧对应的历史特征数据；

第一确定模块，配置为从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，所述复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

处理模块，配置为基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据；

第二确定模块，配置为基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。

第三方面，本公开实施例提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述视频语义分割方法的步骤。

第四方面，本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述视频语义分割方法的步骤。

第五方面，本公开实施例提供一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令被计算机设备的处理器运行时，实现上述视频语义分割方法的步骤。

上述方法中，在获取待检测视频帧的第一特征数据和历史视频帧的历史特征数据之后，基于第一特征数据中第一特征点的特征数据、和历史特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据，使得加强特征点的特征数据中包括待检测视频帧的特征信息和历史视频帧的特征信息；再基于加强特征点的特征数据和其它特征点的特征数据，确定待检测视频帧中每个像素点对应的目标语义信息，在使用视频数据中历史视频帧对应的历史特征数据的基础上，实现了视频数据中不同视频帧之间时序一致的语义分割，提高了语义分割的效率。

同时，通过从第一特征数据对应的多个特征点中确定第一特征点，第一特征点为与复杂图像区域的位置点匹配的特征点，由于复杂图像区域中包括多个不同语义的目标对象，使得第一特征点对应的位置点的语义信息的确定较为困难，故可以基于历史特征数据和第一特征点的特征数据，对第一特征点进行语义加强，生成第一特征点对应的语义加强后的加强特征点的特征数据，后续基于加强特征点的特征数据和其他特征点的特征数据，能够较准确的确定待检测视频帧中每个像素点的目标语义信息，提高了待检测视频帧语义分割的精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开实施例。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本邻域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频语义分割方法的流程示意图；

图2示出了本公开实施例所提供的一种视频语义分割方法中，确定第一特征点的方式的流程示意图；

图3示出了本公开实施例所提供的一种视频语义分割方法中，第一特征数据的示意图；

图4示出了本公开实施例所提供的一种视频语义分割方法中，第一特征数据和历史特征数据的示意图；

图5示出了本公开实施例所提供的一种视频语义分割方法中，语义分割神经网络的结构示意图；

图6示出了本公开实施例所提供的另一种视频语义分割方法的流程示意图；

图7示出了本公开实施例所提供的一种视频语义分割装置的架构示意图；

图8示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的描述并非旨在限制要求保护的本公开的范围，而是表示本公开的选定实施例。基于本公开的实施例，本邻域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在对视频数据进行语义分割时，可以对视频数据中的每个视频帧进行语义分割，确定各个视频帧的语义分割结果；再可以将各个视频帧的语义分割结果进行对齐，即将视频数据的不同视频帧中同一对象进行关联，得到视频数据对应的语义分割结果，实现了对视频数据中不同视频帧执行时序一致的语义分割。但是，上述通过将各个视频帧的语义分割结果进行关联，得到视频数据的语义分割结果的过程较为繁琐，语义分割的效率较低。

在一些实施例中，为了实现视频数据中各个视频帧之间的时序一致的语义分割，可以通过估计不同视频帧之间的运动扭曲比如光流，以确定视频数据中各个视频帧的语义分割结果。比如，可以从视频数据中采样关键视频帧，使用语义分割神经网络预测关键视频帧的语义分割结果，再使用光流神经网络根据关键视频帧的语义分割结果，确定视频数据中除关键视频帧之外的其他视频帧的语义分割结果。但是，为了保证其他视频帧的语义分割的精准度，光流神经网络的结构趋向于复杂化，使得光流神经网络的推理效率降低，进而造成视频数据的语义分割的效率较低。同时，使用多个神经网络对视频数据中的各个视频帧进行语义分割，造成视频数据的语义分割过程较为繁琐。

本公开实施例提供了一种视频语义分割方法，在获取待检测视频帧的第一特征数据和历史视频帧的历史特征数据之后，基于第一特征数据中第一特征点的特征数据、和历史特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据，使得加强特征点的特征数据中包括待检测视频帧的特征信息和历史视频帧的特征信息；再基于加强特征点的特征数据和其它特征点的特征数据，确定待检测视频帧中每个像素点对应的目标语义信息，在使用视频数据中历史视频帧对应的历史特征数据的基础上，实现了视频数据中不同视频帧之间时序一致的语义分割，提高了语义分割的效率。

针对以上方案，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种视频语义分割方法进行介绍。本公开实施例所提供的视频语义分割方法的执行主体可以为终端设备或服务器，其中，服务器比如可以为本地服务器、云端服务器；终端设备比如可以为移动设备、个人数字助理(Personal Digital Assistant，PDA)、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该视频语义分割方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例所提供的视频语义分割方法的流程示意图，所述方法包括S101至S104，其中：

S101，获取视频数据中待检测视频帧对应的第一特征数据，以及视频数据中采集时间位于待检测视频帧之前的历史视频帧对应的历史特征数据；

S102，从第一特征数据对应的多个特征点中，确定与待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

S103，基于历史特征数据和第一特征点的特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据；

S104，基于加强特征点的特征数据，和第一特征数据对应的多个特征点中除第一特征点外的其它特征点的特征数据，确定待检测视频帧中每个像素点对应的目标语义信息。

下述对S101至S104进行说明。

针对S101：

历史视频帧为视频数据中采集时间位于待检测视频帧之前的视频帧，历史视频帧的数量可以为一帧或多帧。

实施时，待检测视频帧对应的目标帧数可以为T+1，历史视频帧的数量可以为T，即可以获取第1帧历史视频帧(对应的目标帧数为1)、第2帧历史视频帧、…、第T帧历史视频帧(对应的目标帧数为T)。其中，T的值可以根据需要进行设置。

可以获取待检测视频帧和至少一帧历史视频帧，再对待检测视频帧进行特征提取，得到待检测视频帧对应的第一特征数据。由于在将历史视频帧作为待检测视频帧时，对历史视频帧进行了特征提取，故历史视频帧存在对应的历史特征数据，可以直接获取历史视频帧对应的历史特征数据，无需再次对历史视频帧进行特征提取，避免重复提取历史视频帧的特征数据造成的资源浪费。

在历史视频帧为多帧时，可以获取每帧历史视频帧对应的历史特征数据。

针对S102：

第一特征数据中对应有多个特征点，比如，若第一特征数据的尺寸为56×56×128(128为通道数，56为对应的长和宽)，则该第一特征数据中对应有56×56个特征点。针对第一特征数据中的每个特征点，根据该特征点的特征位置，从各个通道上获取与该特征位置匹配的特征值，构成了该特征点对应的特征向量。比如，针对位于第1行第1列上的特征点，从各个通道上获取位于第1行第1列上的特征值，得到第1行第1列上的特征点对应的特征向量。

可以从第一特征数据对应的多个特征点中，确定第一特征点，以及还可以得到第一特征数据对应的多个特征点中，除第一特征点之外的其他特征点。其中，第一特征点与待检测视频帧中复杂图像区域上的位置点相匹配。复杂图像区域上包括有多个不同语义的目标对象的至少部分像素点。可知复杂图像区域中可以包含多个语义对象，或者，包含不同语义对象之间的边界。

一种可选实施方式中，参见图2所示，从第一特征数据对应的多个特征点中，确定与待检测视频帧中复杂图像区域的位置点匹配的第一特征点，可以包括：

S201，确定第一特征数据对应的每个特征点的相邻相似度；其中，相邻相似度用于表征特征点与多个周围特征点之间的特征相似度分布；

S202，基于相邻相似度，从第一特征数据对应的多个特征点中，确定第一特征点。

一般的，复杂图像区域与包括单一语义的目标对象的简单图像区域相比，复杂图像区域对语义分割结果的精度和效率具有较大的贡献，因此，为了在语义分割结果的准确度与效率之间进行均衡，可以从第一特征数据对应的多个特征点中，确定与待检测视频帧中复杂图像区域的位置点匹配的第一特征点。同时，考虑到不同语义的目标对象的像素信息之间会存在较大的差异，即复杂图像区域内像素点的像素特征相似度存在差异。基于此，本公开实施方式中，通过确定第一特征数据对应的每个特征点的相邻相似度，并根据相邻相似度，从第一特征数据对应的多个特征点中，确定第一特征点。

针对S201：

一种可选实施方式中，确定第一特征数据对应的每个特征点的相邻相似度，可以包括步骤S2011和步骤S2012，其中：

步骤S2011，将第一特征数据对应的每个特征点分别作为当前特征点，基于当前特征点的位置数据和预先设置的邻域半径，确定当前特征点的邻域特征矩阵；其中，邻域特征矩阵包括位于当前特征点的邻域内的各个特征点的特征向量；

步骤S2012，基于邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的相邻相似度。

在步骤S2011中，邻域半径可以根据多次试验进行确定。比如，邻域半径r可以为1、2等。基于当前特征点的位置数据和预先设置的邻域半径，确定当前特征点的邻域特征矩阵。比如，若当前特征点在第一特征数据中的位置数据为(u,v)、邻域半径为r时，则当前特征点对应的邻域Q _n为Q[u-r:u+r][v-r:v+r]，再可以基于第一特征数据中位于邻域Q _n内的各个特征点的特征向量，生成当前特征点对应的邻域特征矩阵Q ⁿ。

参见图3所示，图3中包括第一特征数据30中的当前特征点31，在预先设置的邻域半径为1时，矩形框32内的各个特征点即为位于邻域内的各个特征点。其中，每个特征点对应一个特征向量，比如若第一特征数据中包括128个通道时，则每个特征点对应的特征向量中包括128个元素值。再可以根据各个特征点对应的特征向量，生成当前特征点31对应的邻域特征矩阵，由图3可知，该邻域特征矩阵为9×128矩阵。

在步骤S2012中，可以利用邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的相邻相似度。其中，相邻相似度可以用于表征当前特征点与多个周围特征点(即邻域内除当前特征点之外的其他特征点)之间的特征相似度分布。

本公开实施例中，通过确定当前特征点的邻域特征矩阵，该邻域特征矩阵中包括位于当前特征点周围的其他特征点的特征信息；使得基于邻域特征矩阵和当前特征点的特征向量，较准确的确定当前特征点对应的相邻相似度，为后续确定第一特征点提供数据支持。

一种可选实施方式中，基于邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的相邻相似度，可以包括：

步骤S212a，基于邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的至少一种目标相似度；其中，目标相似度包括以下至少之一：用于表征当前特征点的邻域内的各个特征点与当前特征点之间的特征相似度分布、和均匀分布之间的相似程度的第一目标相似度；用于表征当前特征点的邻域内各个特征点与当前特征点之间的平均特征相似度的第二目标相似度；

步骤S212b，基于至少一种目标相似度，确定当前特征点的所述相邻相似度。

实施时，可以利用邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的至少一种目标相似度。其中，目标相似度可以包括以下至少之一：第一目标相似度；第二目标相似度。

第一目标相似度用于表征特征相似度分布与均匀分布之间的相似程度，特征相似度分布为当前特征点的邻域内的各个特征点与当前特征点之间的特征相似度的分布。比如，若特征相似度分布a为[0.1，0.1，0.7，0.1]，特征相似度分布b为[0.2，0.3，0.25，0.25]，均匀分布为[0.25，0.25，0.25，0.25]，则可知特征相似度a与均匀分布之间的相似程度较低，第一目标相似度的值较大；特征相似度分布b与均匀分布之间的相似程度较高，第一目标相似度的值较小。

第二目标相似度用于表征当前特征点的邻域内各个特征点与当前特征点之间的平均特征相似度。

在至少一种目标相似度中包括第一目标相似度时，可以将第一目标相似度作为当前特征点的相邻相似度；在至少一种目标相似度中包括第二目标相似度时，可以将第二目标相似度作为当前特征点的相邻相似度；在至少一种目标相似度中包括第一目标相似度和第二目标相似度时，可以将第一目标相似度与第二目标相似度的和，作为当前特征点的相邻相似度。

进而可以按照各个特征点在第一特征数据中的位置数据、以及该特征点对应的相邻相似度，生成与第一特征数据匹配的相邻相似矩阵(Neighboring Similarity Matrix，NSM)，相邻相似矩阵的尺寸与第一特征数据一致。

这里，通过设置至少一种目标相似度，能够较灵活、较准确的确定当前特征点的相邻相似度。

下述对确定第一目标相似度的过程进行说明。

一种可选实施方式中，在目标相似度包括第一目标相似度的情况下，基于邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的目标相似度，可以包括步骤S2121至步骤S2123，其中：

步骤S2121，确定当前特征点的邻域内每个特征点的特征向量与当前特征点的特征向量之间的特征相似度；

步骤S2122，基于特征相似度，得到当前特征点对应的相似度分布向量；

步骤S2123，基于相似度分布向量和确定的均匀分布向量，确定当前特征点对应的第一目标相似度。

可以确定邻域特征矩阵中包括的每个特征向量与当前特征点的特征向量之间的特征相似度。将得到的各个特征相似度作为元素值，构成了当前特征点对应的相似度分布向量。

实施时，可以根据下述公式(1)确定相似度分布向量P _sim：

P _sim＝SoftMax(Q ⁿ·q ^T) (1)；

其中，q为当前特征点的特征向量；Q ⁿ为邻域特征矩阵。

以及可以根据下述公式(2)确定第一目标相似度D _KL：

其中，P _u为均匀分布，P _sim为相似度分布向量，n _b为相似度分布向量中包括的元素数量。

这里，在P _u中包括n _b个元素时，均匀分布

在一些实施例中，可以确定相似度分布向量中每个第一元素的元素值、和均匀分布向量中与第一元素的位置匹配的第二元素的元素值之间的商值；再将第一元素对应的商值的对数与第二元素的元素值相乘，得到第一元素对应的乘积值；最后，将相似度分布向量中各个第一元素分别对应的乘积值相加，得到目标特征点对应的第一目标相似度。

下述对确定第二目标相似度的过程进行说明。

一种可选实施方式中，在目标相似度包括第二目标相似度的情况下，基于邻域特征矩阵和当前特征点的特征向量，确定当前特征点对应的第二目标相似度，可以包括：确定邻域特征矩阵中的每个特征向量与当前特征点的特征向量之间的夹角余弦值；基于邻域特征矩阵中的各个特征向量分别对应的夹角余弦值，确定目标特征点对应的第二目标相似度。

实施时，可以根据下述公式(3)确定第二目标相似度D _cos：

其中，

为邻域特征矩阵Q ⁿ中的第i个特征向量；n _b为相似度分布向量中包括的元素数量，也为邻域特征矩阵Q ⁿ中包括的特征向量的数量。

针对S202：

在得到第一特征数据对应的每个特征点的相邻相似度之后，可以根据各个特征点分别对应的相邻相似度，从第一特征数据对应的多个特征点中确定第一特征点。

一种可选实施方式中，在S202中，基于相邻相似度，从第一特征数据对应的多个特征点中，确定选取数量的第一特征点，可以包括下述两种方式：

方式一，基于第一特征数据对应的特征点的数量和设置的选取比例，确定第一特征点的选取数量；按照相邻相似度从大到小的顺序，从第一特征数据对应的多个特征点中，确定选取数量的第一特征点。

方式二，基于相邻相似度和设置的相似度阈值，从第一特征数据对应的多个特征点中，确定选取数量的第一特征点。

在方式一中，选取比例可以根据需要进行设置，比如，选取比例可以为40％、50％等。若第一特征数据对应的特征点的数量为16×16、选取比例为50％，则确定第一特征点的选取数量为128。再可以按照相邻相似度从大到小的顺序，从第一特征数据对应的多个特征点中，确定128个第一特征点。即可以从与第一特征数据匹配的相邻相似矩阵NSM中，按照相邻相似度从大到小的顺序，确定多个目标位置点，将第一特征数据中与该目标位置点匹配的特征点，作为第一特征点。

在方式二中，相似度阈值可以根据需要进行设置。从第一特征数据对应的多个特征点中，选取相邻相似度大于或等于相似度阈值的特征点，作为第一特征点。

这里，通过设置多种选取方式，能够较为灵活的确定第一特征点。

针对S103和S104：

这里，可以利用历史特征数据中包括的全部特征点的特征数据，对第一特征点的特征数据进行语义加强，生成第一特征点对应的语义加强后的加强特征点的特征数据。其中，加强特征点的特征数据中包括有历史特征数据中的特征信息和第一特征点的特征信息，加强特征点的语义信息较为丰富。比如，可以将历史特征数据和第一特征点的特征数据输入至时序转换器(Temporal Transformer)中，对第一特征点的特征数据进行语义加强，使得待检测视频帧中的第一特征点能够捕获历史视频帧中的时序信息和语义信息，生成信息较为丰富的加强特征点的特征数据，以便基于加强特征点的特征数据，能够得到视频数据对应的时序一致的语义分割结果。

或者，也可以从历史特征数据中选取与第一特征点的位置数据匹配的第二特征点，利用第二特征点的特征数据，对第一特征点的特征数据进行语义加强，生成第一特征点对应的语义加强后的加强特征点的特征数据。比如，可以将第二特征点的特征数据和第一特征点的特征数据输入至时序转换器中，对第一特征点的特征数据进行语义加强，生成加强特征点的特征数据。

一种可选实施方式中，基于历史特征数据和第一特征点的特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据，包括：基于第一特征点的位置数据、和历史特征数据对应的区域半径，从历史特征数据对应的多个特征点中，确定第二特征点；基于第二特征点的特征数据和第一特征点的特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据。

由于历史视频帧与待检测视频帧之间存在时序关系，和处于移动状态中的目标对象在不同视频帧中的尺寸会发生改变，因此，可以通过设置的区域半径，基于第一特征点的位置数据、和历史特征数据对应的区域半径，能够较为方便和高效的从历史特征数据对应的多个特征点中确定第二特征点。

同时，由于该第二特征点具有的语义信息与第一特征点具有的语义信息一致的可能性较高，再利用第二特征点的特征数据和第一特征点的特征数据，能够较准确的对第一特征点进行语义加强。并且本公开实施方式中，与使用历史特征数据中全部特征点的特征数据对第一特征点进行语义加强相比，在提高了语义分割精准度的同时，能够减少语义分割的时间复杂度，提升了语义分割的效率。

本公开实施方式中，在历史视频帧为多帧时，每个历史视频帧对应一个历史特征数据，每个历史特征数据对应一个区域半径，不同的历史特征数据对应不同的区域半径，比如，第T帧历史视频帧的历史特征数据对应的区域半径可以为l _T、第T-1帧历史视频帧的历史特征数据对应的区域半径可以为l _T-1。

针对每帧历史特征数据，可以根据该历史特征数据对应的区域半径和和第一特征点的位置数据，从该历史特征数据对应的多个特征点中，确定该历史特征数据上的第二特征点。

一种可选实施方式中，可以根据下述步骤确定历史特征数据对应的区域半径：

步骤301，基于历史特征数据对应的目标帧数、和设置的半径起始值、帧数阈值、扩展系数，确定历史特征数据对应的候选半径；

步骤302，在候选半径小于设置的半径截止值的情况下，将候选半径确定为历史特征数据对应的区域半径；

步骤303，在候选半径大于或等于半径截止值的情况下，将半径截止值确定为历史特征数据对应的区域半径。

首先确定历史特征数据对应的候选半径，在候选半径小于半径截止值时，将该候选半径确定为历史特征数据对应的区域半径；在候选半径大于或等于半径截止值时，将半径截止值确定为历史特征数据对应的区域半径。

考虑到目标对象在视频数据的不同视频帧中的尺寸会发生变化，因此，可以为每个历史特征数据确定对应的区域半径，进而能够基于区域半径，较准确的确定每个历史特征数据的第二特征点。

实施时，可以根据下述公式(4)确定第t帧历史特征数据对应的区域半径l _t：

其中，s为半径起始值，∈为扩展系数，t为目标帧数，T为帧数阈值，e为半径截止值。s、∈、e可以根据实际情况进行设置。帧数阈值T为历史视频帧的数量。t为历史视频帧的目标帧数，比如，第T帧历史视频帧的目标帧数为T(即t＝T)，第T-1帧历史视频帧的目标帧数为T-1(即t＝T-1)。

一种可选实施方式中，基于第一特征点的位置数据、和历史特征数据对应的区域半径，从历史特征数据对应的多个特征点中，确定第二特征点，可以包括：从历史特征数据中确定与第一特征点的位置数据匹配的中间特征点；基于区域半径，以中间特征点为中心，确定历史特征数据中的目标区域；将历史特征数据中位于目标区域内的各个特征点，确定为第二特征点。

参见图4所示，图4中包括第一特征数据41、第一历史特征数据42和第二历史特征数据43，第一特征数据41中包括第一特征点411，第一历史特征数据42中包括与第一特征点411的位置数据匹配的中间特征点421，在第一历史特征数据42对应的区域半径为1时，可以得到第一历史特征数据中的目标区域，即第一矩形框422中的区域为目标区域，进而可以将第一历史特征数据中位于目标区域内的各个特征点，确定为第一历史特征数据对应的第二特征点；第二历史特征数据43中包括与第一特征点411的位置数据匹配的中间特征点431，在第二历史特征数据43对应的区域半径为2时，可以得到第二历史特征数据中的目标区域，即第二矩形框432中的区域为目标区域，进而可以将第二历史特征数据中位于目标区域内的各个特征点，确定为第二历史特征数据对应的第二特征点。

一种可能的实施方式中，基于历史特征数据和第一特征点的特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据，包括：基于历史特征数据和第一特征点的特征数据，生成融合特征数据；对融合特征数据进行特征提取，生成中间特征数据；基于中间特征数据和融合特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据。

或者，也可以基于第二特征点的特征数据和第一特征点的特征数据，生成融合特征数据；对融合特征数据进行特征提取，生成中间特征数据；基于中间特征数据和融合特征数据，生成第一特征点对应的语义加强后的加强特征点的特征数据。

在得到加强处理特征点的特征数据之后，可以对加强处理特征点的特征数据、和第一特征数据对应的多个特征点中除第一特征点外的其他特征点的特征数据进行特征提取，确定待检测视频帧中每个像素点对应的目标语义信息，得到待检测视频帧对应的语义分割结果。其中，语义分割结果中可以包括语义分割图，语义分割图中每个像素点对应一个语义标签，不同的语义标签可以使用不同的颜色进行标注。

一种可能的实施方式中，待检测视频帧中每个像素点对应的目标语义信息为利用训练后的语义分割神经网络得到的；语义分割神经网络包括：共享编码器、特征点选择模块、时序转换器、和分割解码器；

共享编码器用于分别对待检测视频帧和历史视频帧进行特征提取，获取待检测视频帧对应的第一特征数据和历史视频帧。特征点选择模块用于从第一特征数据对应的多个特征点中确定第一特征点。时序转换器用于基于历史视频帧对应的历史特征数据，对第一特征点的特征数据进行语义加强处理，生成第一特征点对应的加强特征点的特征数据。分割解码器用于基于加强特征点的特征数据、以及第一特征数据对应的多个特征点中除第一特征点外的其它特征点的特征数据，确定待检测视频帧中每个像素点对应的目标语义信息。

上述实施方式中，基于待检测视频帧和历史视频帧，使用语义分割神经网络，实现对视频数据中不同视频帧的时序一致的语义分割，在保障语义分割精准度的同时，提高了语义分割的效率。

参见图5所示的语义分割神经网络的结构示意图，结合图5对视频语义分割方法的过程进行说明。参见图6所示，该视频语义分割方法可以包括：

S601、获取视频数据中的待检测视频帧F _T+1、和多帧历史视频帧。其中，多帧历史视频帧包括历史视频帧F _T、历史视频帧F _T-1、历史视频帧F _T-2、历史视频帧F _T-3、…、历史视频帧F ₁。

S602、通过语义分割神经网络中的共享编码器对待检测视频帧F _T+1进行特征提取，得到第一特征数据；以及获取共享编码器对每个历史视频帧进行特征提取后生成的历史特征数据。即获取到的历史特征数据包括：历史视频帧F _T对应的历史特征数据、历史视频帧F _T-1对应的历史特征数据、…、历史视频帧F ₁对应的历史特征数据。

S603、通过语义分割神经网络中的特征点选择模块，从第一特征数据对应的多个特征点中，确定第一特征点。

实施时，可以确定第一特征数据对应的相邻相似矩阵NSM，其中，NSM的确定过程，可以参考上述说明。再可以根据NSM，从第一特征数据对应的多个特征点中，确定第一特征点。示例性的，可以设置选取比例(比如50％)，按照NSM指示的第一特征数据中每个特征点对应的相邻相似度从大到小的顺序，选取第一特征点。比如，灰色方框对应的特征点为第一特征点51。

S604、通过语义分割神经网络中的特征点选择模块，基于第一特征点的位置数据、和历史特征数据对应的区域半径，从历史特征数据对应的多个特征点中，确定第二特征点。

S605、将第一特征点的特征数据和第二特征点的特征数据输入至时序转换器中，生成第一特征点对应的语义加强后的加强特征点的特征数据。

实施时，可以将第一特征点的特征数据，作为时序转换器的查询query输入；将第二特征点的特征数据，作为时序转换器的关键key输入；将第二特征点的特征数据，作为时序转换器的价值value输入；可知key输入与value输入相同。时序转换器中的多注意力机制模块对输入数据进行特征融合，生成第一融合特征数据，参见公式5(单头注意力机制模块的输出结果)和公式6(多注意力机制模块的输出结果)，MH

即为第一融合特征数据；再将第一融合特征数据和第一特征点的特征数据，输入至时序转换器中的特征处理层Add&Norm一进行特征融合，生成第二融合特征数据，参见公式7，X即为第二融合特征数据；再将第二融合特征数据输入至前馈处理层Feed Forward Layer进行特征提取，生成第三融合特征数据，参见公式8，FFN(X)即为第三融合特征数据；再将第三融合特征数据和第二融合特征数据输入至特征处理层Add&Norm二进行特征融合，生成第一特征点对应的语义加强后的加强特征点的特征数据，参见公式9，TFE

即为加强特征点的特征数据。

FFN(X)＝max(0,XW ₁+b ₁)W ₂+b ₂ (8)；

其中，

为第j-th个注意力头的投影矩阵，[,…,]表示串联，MH()是多头注意力的缩写，

是quary，

是key，

是value，LN是Layer Normalization的缩写，W ₁、W ₂是权重，b ₁、b ₂是偏置。

S606、利用目标神经网络中的分割解码器，对加强特征点的特征数据，和第一特征数据对应的多个特征点中除第一特征点外的其他特征点的特征数据进行处理，确定待检测视频帧中每个像素点对应的目标语义信息，从而得到语义分割结果。

本公开实施方式提出的视频语义分割方法可以应用于自动驾驶、直播、增强现实(Augmented Reality，AR)等需要进行视频语义分割的场景中。

示例性的，在视频语义分割方法应用于自动驾驶领域时，视频数据可以为行驶装置在行驶过程中采集的道路视频数据时，基于上述的视频语义分割方法，对道路视频数据中的各个道路视频帧进行语义分割，生成每个道路视频帧对应的语义分割结果；再基于每个道路视频帧对应的语义分割结果，控制行驶装置。

示例性的，行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(Advanced Driving Assistance System，ADAS)的车辆、或者机器人等。其中，在控制行驶装置时，可以控制行驶装置加速、减速、转向、制动等，或者可以播放语音提示信息，以提示驾驶员控制行驶装置加速、减速、转向、制动等。

通过利用视频语义分割方法对道路视频数据中的各个道路视频帧进行处理，生成每个道路视频帧对应的语义分割结果，提高了语义分割结果的准确度和确定效率，进而基于每个道路视频帧对应的语义分割结果，能够较精准和较高效的控制行驶装置。

在视频语义分割方法应用于AR场景时，视频数据可以为AR设备实时场景的场景视频数据，利用本公开实施方式提出的视频语义分割方法，对场景视频数据中的各个场景视频帧进行语义分割，生成每个场景视频帧对应的语义分割结果；再根据每个场景视频帧对应的语义分割结果指示的目标对象的语义信息、以及预先设置的语义与虚拟对象之间的匹配关系，确定匹配的目标虚拟对象；并控制AR设备展示包含目标虚拟对象的场景视频。比如，目标对象的语义信息为行人，则匹配的目标虚拟对象可以为预先设置好的虚拟人物；目标对象的语义信息为建筑物，则匹配的目标虚拟对象可以为预先设置好的虚拟建筑物等。

在视频语义分割方法应用于直播场景时，视频数据可以为直播视频数据，利用本公开实施方式提出的视频语义分割方法，对直播视频数据中的各个直播视频帧进行语义分割，生成每个直播视频帧对应的语义分割结果；再根据每个直播视频帧对应的语义分割结果，对直播视频帧进行背景替换。比如，可以将直播视频帧中，语义分割结果指示的除了人类之外的其他语义的像素点的像素信息替换为预设值，生成背景替换后的直播视频帧。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种视频语义分割装置，参见图7所示，为本公开实施例提供的视频语义分割装置的架构示意图，包括获取模块701、第一确定模块702、处理模块703、第二确定模块704，其中：

获取模块701，配置为获取视频数据中待检测视频帧对应的第一特征数据，以及所述视频数据中采集时间位于所述待检测视频帧之前的历史视频帧对应的历史特征数据；

第一确定模块702，配置为从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，所述复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

处理模块703，配置为基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据；

第二确定模块704，配置为基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。

一种可能的实施方式中，所述第一确定模块702，在从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点的情况下，配置为：

确定所述第一特征数据对应的每个特征点的相邻相似度；其中，所述相邻相似度用于表征所述特征点与多个周围特征点之间的特征相似度分布；

基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点。

一种可能的实施方式中，所述第一确定模块702，在确定所述第一特征数据对应的每个特征点的相邻相似度的情况下，配置为：

将所述第一特征数据对应的每个特征点分别作为当前特征点，基于所述当前特征点的位置数据和预先设置的邻域半径，确定所述当前特征点的邻域特征矩阵；其中，所述邻域特征矩阵包括位于所述当前特征点的邻域内的各个特征点的特征向量；

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度。

一种可能的实施方式中，所述第一确定模块702，在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度的情况下，配置为：

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的至少一种目标相似度；其中，所述目标相似度包括以下至少之一：用于表征所述当前特征点的邻域内的各个特征点与所述当前特征点之间的特征相似度分布、和均匀分布之间的相似程度的第一目标相似度；用于表征所述当前特征点的邻域内各个特征点与所述当前特征点之间的平均特征相似度的第二目标相似度；

基于所述至少一种目标相似度，确定所述当前特征点的所述相邻相似度。

一种可能的实施方式中，在所述目标相似度包括第一目标相似度的情况下，所述第一确定模块702，在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的目标相似度的情况下，配置为：

确定所述当前特征点的邻域内每个特征点的特征向量与所述当前特征点的特征向量之间的特征相似度；

基于所述特征相似度，得到所述当前特征点对应的相似度分布向量；

基于所述相似度分布向量和确定的均匀分布向量，确定所述当前特征点对应的第一目标相似度。

一种可能的实施方式中，在所述目标相似度包括所述第二目标相似度的情况下，所述第一确定模块702，在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的第二目标相似度的情况下，配置为：

确定所述邻域特征矩阵中的每个特征向量与所述当前特征点的特征向量之间的夹角余弦值；

基于所述邻域特征矩阵中的各个特征向量分别对应的夹角余弦值，确定所述目标特征点对应的第二目标相似度。

一种可能的实施方式中，所述第一确定模块702，在基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点的情况下，配置为：

基于所述第一特征数据对应的特征点的数量和预先设置的选取比例，确定第一特征点的选取数量；

确定所述选取数量的所述第一特征点的方法包括以下至少之一：

按照所述相邻相似度从大到小的顺序，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点；

基于所述相邻相似度和设置的相似度阈值，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点。

一种可能的实施方式中，所述处理模块703，在基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据的情况下，配置为：

基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点；

基于所述第二特征点的特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。

一种可能的实施方式中，所述处理模块703，在基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点的情况下，配置为：

从所述历史特征数据中确定与所述第一特征点的位置数据匹配的中间特征点；

基于所述区域半径，以所述中间特征点为中心，确定所述历史特征数据中的目标区域；

将所述历史特征数据中位于所述目标区域内的各个特征点，确定为所述第二特征点。

一种可能的实施方式中，所述处理模块703，配置为：根据下述步骤确定所述历史特征数据对应的区域半径：

基于所述历史特征数据对应的目标帧数、和设置的半径起始值、帧数阈值、扩展系数，确定所述历史特征数据对应的候选半径；

在所述候选半径小于设置的半径截止值的情况下，将所述候选半径确定为所述历史特征数据对应的区域半径；

在所述候选半径大于或等于所述半径截止值的情况下，将所述半径截止值确定为所述历史特征数据对应的区域半径。

基于所述历史特征数据和所述第一特征点的特征数据，生成融合特征数据；

对所述融合特征数据进行特征提取，生成中间特征数据；

基于所述中间特征数据和所述融合特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。

一种可能的实施方式中，所述待检测视频帧中每个像素点对应的目标语义信息为利用训练后的语义分割神经网络得到的；所述语义分割神经网络包括：共享编码器、特征点选择模块、时序转换器、和分割解码器；

所述共享编码器用于分别对所述待检测视频帧和所述历史视频帧进行特征提取，获取所述待检测视频帧对应的第一特征数据和所述历史视频帧；所述特征点选择模块用于从所述第一特征数据对应的多个特征点中确定所述第一特征点；

所述时序转换器用于基于所述历史视频帧对应的历史特征数据，对所述第一特征点的特征数据进行语义加强处理，生成所述第一特征点对应的加强特征点的特征数据；

所述分割解码器用于基于所述加强特征点的特征数据、以及所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其实现方式可以参照上文方法实施例的描述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图8所示，为本公开实施例提供的电子设备800的结构示意图，包括处理器801、存储器802和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

其中，处理器801的处理流程可以参照上述方法实施例的记载。

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频语义分割方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频语义分割方法的步骤，可参见上述方法实施例。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与应用场景匹配的虚拟与现实相结合的AR效果。

示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、即时定位与地图构建(Simultaneous Localization And Mapping，SLAM)、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。应用场景不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例是示意性的，例如，所述单元的划分，为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种视频语义分割方法，包括：

获取视频数据中待检测视频帧对应的第一特征数据，以及所述视频数据中采集时间位于所述待检测视频帧之前的历史视频帧对应的历史特征数据；

从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，所述复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据；

基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。
根据权利要求1所述的方法，其中，所述从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点，包括：

确定所述第一特征数据对应的每个特征点的相邻相似度；其中，所述相邻相似度用于表征所述特征点与多个周围特征点之间的特征相似度分布；

基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点。
根据权利要求2所述的方法，其中，所述确定所述第一特征数据对应的每个特征点的相邻相似度，包括：

将所述第一特征数据对应的每个特征点分别作为当前特征点，基于所述当前特征点的位置数据和预先设置的邻域半径，确定所述当前特征点的邻域特征矩阵；其中，所述邻域特征矩阵包括位于所述当前特征点的邻域内的各个特征点的特征向量；

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度。
根据权利要求3所述的方法，其中，所述基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度，包括：

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的至少一种目标相似度；其中，所述目标相似度包括以下至少之一：用于表征所述当前特征点的邻域内的各个特征点与所述当前特征点之间的特征相似度分布、和均匀分布之间的相似程度的第一目标相似度；用于表征所述当前特征点的邻域内各个特征点与所述当前特征点之间的平均特征相似度的第二目标相似度；

基于所述至少一种目标相似度，确定所述当前特征点的所述相邻相似度。
根据权利要求4所述的方法，其中，在所述目标相似度包括第一目标相似度的情况下，所述基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的目标相似度，包括：

确定所述当前特征点的邻域内每个特征点的特征向量与所述当前特征点的特征向量之间的特征相似度；

基于所述特征相似度，得到所述当前特征点对应的相似度分布向量；

基于所述相似度分布向量和确定的均匀分布向量，确定所述当前特征点对应的第一目标相似度。
根据权利要求4或5所述的方法，其中，在所述目标相似度包括所述第二目标相似度的情况下，基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的第二目标相似度，包括：

确定所述邻域特征矩阵中的每个特征向量与所述当前特征点的特征向量之间的夹角余弦值；

基于所述邻域特征矩阵中的各个特征向量分别对应的夹角余弦值，确定所述目标特征点对应的第二目标相似度。
根据权利要求2至6任一项所述的方法，其中，所述基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点，包括：

基于所述第一特征数据对应的特征点的数量和预先设置的选取比例，确定第一特征点的选取数量；

确定所述选取数量的所述第一特征点的方法包括以下至少之一：按照所述相邻相似度从大到小的顺序，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点；基于所述相邻相似度和设置的相似度阈值，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点。
根据权利要求1至7任一项所述的方法，其中，所述基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据，包括：

基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点；

基于所述第二特征点的特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。
根据权利要求8所述的方法，其中，所述基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点，包括：

从所述历史特征数据中确定与所述第一特征点的位置数据匹配的中间特征点；

基于所述区域半径，以所述中间特征点为中心，确定所述历史特征数据中的目标区域；

将所述历史特征数据中位于所述目标区域内的各个特征点，确定为所述第二特征点。
根据权利要求8或9所述的方法，其中，根据下述步骤确定所述历史特征数据对应的区域半径：

基于所述历史特征数据对应的目标帧数、和设置的半径起始值、帧数阈值、扩展系数，确定所述历史特征数据对应的候选半径；

在所述候选半径小于设置的半径截止值的情况下，将所述候选半径确定为所述历史特征数据对应的区域半径；

在所述候选半径大于或等于所述半径截止值的情况下，将所述半径截止值确定为所述历史特征数据对应的区域半径。
根据权利要求1至10任一项所述的方法，其中，所述基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据，包括：

基于所述历史特征数据和所述第一特征点的特征数据，生成融合特征数据；

对所述融合特征数据进行特征提取，生成中间特征数据；

基于所述中间特征数据和所述融合特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。
根据权利要求1至11任一项所述的方法，其中，所述待检测视频帧中每个像素点对应的目标语义信息为利用训练后的语义分割神经网络得到的；所述语义分割神经网络包括：共享编码器、特征点选择模块、时序转换器、和分割解码器；

所述共享编码器用于分别对所述待检测视频帧和所述历史视频帧进行特征提取，获取所述待检测视频帧对应的第一特征数据和所述历史视频帧；所述特征点选择模块用于从所述第一特征数据对应的多个特征点中确定所述第一特征点；

所述时序转换器用于基于所述历史视频帧对应的历史特征数据，对所述第一特征点的特征数据进行语义加强处理，生成所述第一特征点对应的加强特征点的特征数据；

所述分割解码器用于基于所述加强特征点的特征数据、以及所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。
一种视频语义分割装置，包括：

获取模块，配置为获取视频数据中待检测视频帧对应的第一特征数据，以及所述视频数据中采集时间位于所述待检测视频帧之前的历史视频帧对应的历史特征数据；

第一确定模块，配置为从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点；其中，所述复杂图像区域为包括多个不同语义的目标对象的至少部分像素点的区域；

处理模块，配置为基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据；

第二确定模块，配置为基于所述加强特征点的特征数据，和所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。
根据权利要求13所述的装置，其中，所述第一确定模块在从所述第一特征数据对应的多个特征点中，确定与所述待检测视频帧中复杂图像区域的位置点匹配的第一特征点的情况下，配置为：

确定所述第一特征数据对应的每个特征点的相邻相似度；其中，所述相邻相似度用于表征所述特征点与多个周围特征点之间的特征相似度分布；

基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点。
根据权利要求14所述的装置，其中，所述第一确定模块在确定所述第一特征数据对应的每个特征点的相邻相似度的情况下，配置为：

将所述第一特征数据对应的每个特征点分别作为当前特征点，基于所述当前特征点的位置数据和预先设置的邻域半径，确定所述当前特征点的邻域特征矩阵；其中，所述邻域特征矩阵包括位于所述当前特征点的邻域内的各个特征点的特征向量；

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度。
根据权利要求15所述的装置，其中，所述第一确定模块在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的所述相邻相似度的情况下，配置为：

基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的至少一种目标相似度；其中，所述目标相似度包括以下至少之一：用于表征所述当前特征点的邻域内的各个特征点与所述当前特征点之间的特征相似度分布、和均匀分布之间的相似程度的第一目标相似度；用于表征所述当前特征点的邻域内各个特征点与所述当前特征点之间的平均特征相似度的第二目标相似度；

基于所述至少一种目标相似度，确定所述当前特征点的所述相邻相似度。
根据权利要求16所述的装置，其中，在所述目标相似度包括第一目标相似度的情况下，所述第一确定模块在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的目标相似度的情况下，配置为：

确定所述当前特征点的邻域内每个特征点的特征向量与所述当前特征点的特征向量之间的特征相似度；

基于所述特征相似度，得到所述当前特征点对应的相似度分布向量；

基于所述相似度分布向量和确定的均匀分布向量，确定所述当前特征点对应的第一目标相似度。
根据权利要求16或17所述的装置，其中，在所述目标相似度包括所述第二目标相似度的情况下，所述第一确定模块在基于所述邻域特征矩阵和所述当前特征点的特征向量，确定所述当前特征点对应的第二目标相似度的情况下，配置为：

确定所述邻域特征矩阵中的每个特征向量与所述当前特征点的特征向量之间的夹角余弦值；

基于所述邻域特征矩阵中的各个特征向量分别对应的夹角余弦值，确定所述目标特征点对应的第二目标相似度。
根据权利要求14至18任一项所述的装置，其中，所述第一确定模块在基于所述相邻相似度，从所述第一特征数据对应的多个特征点中，确定所述第一特征点的情况下，配置为：

基于所述第一特征数据对应的特征点的数量和预先设置的选取比例，确定第一特征点的选取数量；

确定所述选取数量的所述第一特征点的方法包括以下至少之一：按照所述相邻相似度从大到小的顺序，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点；基于所述相邻相似度和设置的相似度阈值，从所述第一特征数据对应的多个特征点中，确定所述选取数量的所述第一特征点。
根据权利要求13至19任一项所述的装置，其中，所述处理模块在基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据的情况下，配置为：

基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点；

基于所述第二特征点的特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。
根据权利要求20所述的装置，其中，所述处理模块在基于所述第一特征点的位置数据、和所述历史特征数据对应的区域半径，从所述历史特征数据对应的多个特征点中，确定第二特征点的情况下，配置为：

从所述历史特征数据中确定与所述第一特征点的位置数据匹配的中间特征点；

基于所述区域半径，以所述中间特征点为中心，确定所述历史特征数据中的目标区域；

将所述历史特征数据中位于所述目标区域内的各个特征点，确定为所述第二特征点。
根据权利要求20或21所述的装置，其中，所述处理模块，配置为：根据下述步骤确定所述历史特征数据对应的区域半径：

基于所述历史特征数据对应的目标帧数、和设置的半径起始值、帧数阈值、扩展系数，确定所述历史特征数据对应的候选半径；

在所述候选半径小于设置的半径截止值的情况下，将所述候选半径确定为所述历史特征数据对应的区域半径；

在所述候选半径大于或等于所述半径截止值的情况下，将所述半径截止值确定为所述历史特征数据对应的区域半径。
根据权利要求13至22任一项所述的装置，其中，所述处理模块在基于所述历史特征数据和所述第一特征点的特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据的情况下，配置为：

基于所述历史特征数据和所述第一特征点的特征数据，生成融合特征数据；

对所述融合特征数据进行特征提取，生成中间特征数据；

基于所述中间特征数据和所述融合特征数据，生成所述第一特征点对应的语义加强后的加强特征点的特征数据。
根据权利要求13至23任一项所述的装置，其中，所述待检测视频帧中每个像素点对应的目标语义信息为利用训练后的语义分割神经网络得到的；所述语义分割神经网络包括：共享编码器、特征点选择模块、时序转换器、和分割解码器；

所述共享编码器用于分别对所述待检测视频帧和所述历史视频帧进行特征提取，获取所述待检测视频帧对应的第一特征数据和所述历史视频帧；所述特征点选择模块用于从所述第一特征数据对应的多个特征点中确定所述第一特征点；

所述时序转换器用于基于所述历史视频帧对应的历史特征数据，对所述第一特征点的特征数据进行语义加强处理，生成所述第一特征点对应的加强特征点的特征数据；

所述分割解码器用于基于所述加强特征点的特征数据、以及所述第一特征数据对应的多个特征点中除所述第一特征点外的其它特征点的特征数据，确定所述待检测视频帧中每个像素点对应的目标语义信息。
一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至12任一所述的视频语义分割方法的步骤。
一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的视频语义分割方法的步骤。
一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令被计算机设备的处理器运行时，实现权利要求1至12中任一项所述的视频语义分割方法的步骤。