WO2022105026A1

WO2022105026A1 - 视频相似度处理方法、装置、移动终端和存储介质

Info

Publication number: WO2022105026A1
Application number: PCT/CN2020/140900
Authority: WO
Inventors: 李然; 朱高
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-11-23
Filing date: 2020-12-29
Publication date: 2022-05-27
Also published as: CN114731448A

Abstract

本发明实施例提供一种视频相似度处理方法、装置、移动终端和存储介质，该视频相似度处理方法包括：获取多个视频片段；分别对多个视频片段各自包含的多帧图像进行图像特征提取；根据多个视频片段各自包含的多帧图像的图像特征，确定多个视频片段各自对应的视频特征；根据多个视频片段各自对应的视频特征，确定多个视频片段之间的相似度。当任意两个视频片段的相似度大于预设阈值时，确定这两个视频片段为相似片段。由于一个视频片段的视频特征中包含了其中若干帧图像的图像特征，使得视频特征更加丰富、准确，从而根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。

Description

视频相似度处理方法、装置、移动终端和存储介质

交叉引用

本申请引用于2020年11月23日递交的名称为“视频相似度处理方法、装置、移动终端和存储介质”的第202011531876.0号中国专利申请，其通过引用被全部并入本申请。

技术领域

本发明实施例涉及多媒体领域，尤其涉及一种视频相似度处理方法、装置、移动终端和存储介质。

背景技术

日常生活中，人们往往会有剪辑视频的需求。比如，用户想要发布一个自家宠物的短视频，为此，用户可以先使用摄像机对自家宠物进行跟拍，得到一个视频，之后，将拍得的视频输入到视频剪辑软件中便可以自动剪辑得到最终用于发布的短视频。

目前通过视频剪辑软件输出的视频中往往会有相同或相似镜头反复出现的现象，影响成片质量。由此可见，对相似镜头视频进行准确识别，具有重要意义。

发明内容

本发明实施例提供了一种视频相似度处理方法、装置、移动终端和存储介质，可以实现视频片段间相似度的准确度量。

本发明实施例的第一方面提供了一种视频相似度处理方法，该视频相似度处理方法包括：

获取多个视频片段；

分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；

根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；

当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。

本发明实施例的第二方面提供了一种视频相似度处理装置，该视频相似度处理装置包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器实现：

获取多个视频片段；

本发明实施例的第三方面提供了一种移动终端，包括：

壳体；

显示屏，设于所述壳体内部，用于显示视频；

处理器，设于所述壳体内部，与所述显示屏耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有可执行代码，所述可执行代码用于实现上述第一方面所述的视频相似度处理方法。

本发明实施例的第五方面提供了一种视频相似度处理方法，该视频相似度处理方法包括：

获取多个视频片段；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。

本发明实施例的第六方面提供了一种视频相似度处理装置，该视频相似度处理装置包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器实现：

获取多个视频片段；

本发明实施例的第七方面提供了一种移动终端，包括：

壳体；

显示屏，设于所述壳体内部，用于显示视频；

处理器，设于所述壳体内部，与所述显示屏耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。

本发明实施例的第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有可执行代码，所述可执行代码用于实现上述第五方面所述的视频相似度处理方法。

在本发明实施例提供的视频相似度处理方案中，在获取到多个视频片段后，为了获得更加准确的视频片段之间的相似度，首先，对每个视频片段中包含的多帧图像进行图像特征提取，以得到每个视频片段中多帧图像的图像特征，从而，基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征。这样，一个视频片段的视频特征中包含了其中若干帧图像的图像特征，使得视频特征更加丰富、准确。基于此，根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。当任意两个视频片段的相似度大于预设阈值时，可以确定这两个视频片段为相似片段，这样，可以实现多个视频片段中相似片段的识别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例提供的一种视频相似度处理方法的流程图；

图2为本发明实施例提供的一种获取视频片段对应的视频特征的流程图；

图3为本发明实施例提供的一种视频片段对应的视频特征的获取过程示意图；

图4为本发明实施例提供的另一种获取视频片段对应的视频特征的流程图；

图5为本发明实施例提供的一种不同视频片段之间的局部图像特征匹配过程的示意图；

图6为本发明实施例提供的另一种视频相似度处理方法的流程示意图；

图7为本发明实施例提供的一种视频相似度处理装置的结构示意图；

图8为本发明实施例提供的一种移动终端的结构示意图；

图9为本发明实施例提供的一种视频相似度处理装置的结构示意图；

图10为本发明实施例提供的一种移动终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。在本发明实施例的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明实施例。

图1为本发明实施例提供的一种视频相似度处理方法的流程图，如图1所示，该视频相似度处理方法可以包括如下步骤：

101、获取多个视频片段。

102、分别对多个视频片段各自包含的多帧图像进行图像特征提取。

103、根据多个视频片段各自包含的多帧图像的图像特征，确定多个视频片段各自对应的视频特征。

104、根据多个视频片段各自对应的视频特征，确定多个视频片段之间的相似度。

105、当任意两个视频片段的相似度大于预设阈值时，确定这两个视频片段为相似片段。

本发明实施例提供的视频相似度处理方法可以由某电子设备来执行，该电子设备可以是诸如智能手机、平板电脑、摄像机等移动终端。

在实际应用中，用户可以对某对象(如自己养的宠物)进行跟踪拍摄，从而得到拍得的原始视频。

在一可选实施例中，步骤101中获取多个视频片段可以通过如下方式实现：接收用户对原始视频进行拆分得到的多个视频片段。也就是说，用户在拍得上述原始视频后，可以自主地将该原始视频拆分成多个视频片段。比如，用户可以将原始视频进行N等分的拆分，以得到相等时长的多个视频片段，N大于1。再比如，用户可以自主地设定每个视频片段的起始时间和终止时间，不同视频片段之间可以有部分重叠。

在另一可选实施例中，步骤101中获取多个视频片段还可以通过如下方式实现：根据原始视频中的场景特征和/或运镜特征，对原始视频进行拆分，以得到多个视频片段。

其中，可以预先设定多种场景特征，这多种场景特征用以反映原始视频的多种拍摄场景，场景特征比如可以通过被拍摄对象的特征、背景环境的特征)等来体现。例如，当被拍摄对象发生改变时，可以认为是切换了一种场景；当背景环境发生了改变时，可以认为是切换了一种场景。其中，假设被拍摄对象为人、动物，则被拍摄对象的特征可以是五官、轮廓等；背景环境的特征比如可以是背景环境中存在的物体类别。

基于此，可以通过对原始视频进行采样，以得到原始视频中依次包含的若干帧图像，通过识别每帧图像中包含的场景特征来确定每帧图像对应的场景，将对应于同一场景的连续多帧图像确定为构成一个视频片段。

其中，针对相邻的两帧图像来说，分别从这两帧图像中提取出场景特征后进行场景特征的对比，如果两者的场景特征之间的相似度大于设定阈值，则认为这两帧图像对应于同一场景。

对于运镜特征来说，用户在拍摄原始视频的过程中可能会不断改变镜头的状态，以便获得更佳的视觉体验。常见的运镜特征包括横摇、直摇、拉近、推远、平移、鸟瞰，等等。可选地，在拍摄原始视频的过程中，可以标记上每种运镜特征作用的起始时间和终止时间，以便据此可以将原始视频按照运镜特征的不同拆分成多个视频片段。可选地，也可以在拍得原始视频之后，通过能够识别运镜特征的算法来识别原始视频中不同运镜特征作用的起始时间和终止时间，以便将原始视频按照运镜特征的不同拆分成多个视频片段。

本实施例中，假设用户拍摄原始视频的目的是想剪辑出一段质量较佳的视频以发布出去，供其他用户观看和分享。可以通过已有的各种自动剪辑软件来实现该任务。可以理解的是，如果输入到自动剪辑软件中的视频片段中存在较多的相似片段，势必会影响成片的质量。而在通过上述介绍的任一种方式得到多个视频片段后，这多个视频片段中很可能会存在一些相似的视频片段，因此，需要识别出这多个视频片段中的相似片段。

为识别出多个视频片段中的相似片段，首先，需要确定多个视频片段各自对应的视频特征，进而，根据多个视频片段各自对应的视频特征，确定多个视频片段之间的相似度，当任意两个视频片段的相似度大于预设阈值时，确定这两个视频片段为相似片段。

针对多个视频片段中的第一视频片段来说，其中，第一视频片段是多个视频片段中的任一个。确定第一视频片段的视频特征的过程可以是：首先，对第一视频片段进行采样，以得到第一视频片段中包含的多帧图像，之后，分别对这多帧图像进行图像特征提取，以得到每帧图像对应的图像特征，之后，根据这多帧图像各自对应的图像特征，确定第一视频片段对应的视频特征。

基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征，这样，一个视频片段的视频特征中包含了其中多帧图像的图像特征，使得视频特征更加丰富、准确。基于此，根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。

以上述第一视频片段为例，在一可选实施例中，可以将第一视频片段中包含的多帧图像分别输入到预先训练好的神经网络模型(如卷积神经网络模型)中，以通过该神经网络模型提取每帧图像的图像特征，最终，将多帧图像的图像特征进行融合，将融合后的图像特征作为第一视频片段的视频特征。其中，可选地，特征融合包括但不限于如下任一种方式：取均值，取最大值，取词袋(Bag of Words，简称BoW)特征。

当然，第一视频片段中各帧图像的图像特征的提取方式不以上述举例为限，第一视频片段的视频特征的获取方式也不以上述举例为限，下文中会介绍几种其他的图像特征提取方式以及视频特征获取方式。

在通过某种方式得到多个视频片段各自对应的视频特征后，可以两两计算视频片段之间的相似度。具体地，以其中任意两个视频片段A和视频片段B为例来说，可以计算视频片段A的视频特征与视频片段B的视频特征之间的距离，以该距离计算结果作为这两个视频片段之间的相似度。其中，该距离可以是余弦距离、L1范数距离、L2范数距离等多种距离中的任一种。

当视频片段A的视频特征与视频片段B的视频特征之间的相似度大于预设阈值时，确定这两个视频片段为相似片段。

在得到任意两个视频片段之间的相似度后，还可以对多个视频片段进行聚类，以得到同为相似片段的一组视频片段。举例来说，假设视频片段A与视频片段B被确定为相似片段，而如果视频片段A或视频片段B与视频片段C之间的相似度也大于预设阈值时，可以认为视频片段A、视频片段B和视频片段C为相似片段，即这三个视频片段为相似的一组视频片段。

之后，可以从相似片段中选出目标视频片段，以根据目标视频片段进行剪辑操作，生成目标视频。也就是说，从一组相似片段中选出一个视频片段作为目标视频片段，这样就可以保证进行视频剪辑操作的视频片段中不会存在重复的视频片段，保证成片质量。

其中，从相似片段中选出目标视频片段，可以是：从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。

其中，时长符合设定条件比如是：选出时长最短或最长的视频片段。

其中，图像质量符合设定条件比如是：选出图像亮度、饱和度、清晰度最高的视频片段。其中，图像亮度、饱和度、清晰度仅为举例的一些用于评价图像质量的指标，不以此为限。

综上，基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征，这样，一个视频片段的视频特征中包含了其中若干帧图像的图像特征，使得视频特征更加丰富、准确。基于此，根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。当任意两个视频片段的相似度大于预设阈值时，可以确定这两个视频片段为相似片段，这样，在进行视频剪辑操作的过程中，可以仅从相似片段中选出一个视频片段进行视频剪辑操作即可，避免重复的视频片段对成片质量的影响。

上文实施例中介绍了一种视频片段的视频特征的获取方式。在另一可选实施例中，以第一视频片段为例，第一视频片段对应的视频特征的获取过程，还可以通过图2所示的方式实现。

图2为本发明实施例提供的一种获取视频片段对应的视频特征的流程图，如图2所示，可以包括如下步骤：

201、提取第一视频片段中多帧图像各自对应的整体图像特征。

202、提取所述多帧图像各自的特征点，以得到多帧图像各自对应的局部图像特征。

203、对多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到多帧图像各自对应的图像特征。

204、对第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为第一视频片段对应的视频特征。

本实施例中，定义了两种类型的图像特征：整体图像特征和局部图像特征，从而，一帧图像对应的图像特征为其对应的整体图像特征和局部图像特征的融合结果。其中，一帧图像对应的整体图像特征和局部图像特征的特征融合包括如下任一种方式：取均值，取最大值，取词袋特征。

其中，整体图像特征反映了一帧图像的宏观的语义信息，局部图像特征反映了一帧图像中的局部关键点的特征信息。

其中，可以将第一视频片段中多帧图像分别输入至神经网络模型中，以通过神经网络模型获取这多帧图像各自对应的整体图像特征。该神经网络模型比如可以是卷积神经网络模型等。

其中，第一视频片段中多帧图像各自对应的局部图像特征，可以通过如下方式获得：

对其中的每帧图像进行特征点提取，以得到每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。

举例来说，针对第一视频片段包含的多帧图像中的任一帧图像i来说，对图像i进行特征点提取，可以得到图像i中多个特征点各自对应的特征向量，基于图像i中这多个特征点各自对应的特征向量，可以确定出图像i的局部图像特征。

其中，具体地，可以对图像i中多个特征点各自对应的特征向量进行如下任一种计算，以得到图像i对应的局部图像特征：取均值，取最大值，取词袋特征。

为便于理解，下面结合图3来示例性说明上述第一视频片段的视频特征的获取过程。

在图3中，假设第一视频片段中包括图中示意的N帧图像，N大于1。将N帧图像分别输入到卷积神经网络模型中，以提取每帧图像对应的整体图像特征，提取结果为图中示意的N个整体图像特征，假设每个整体图像特征用一个1900维的特征向量来表示。

另外，针对每帧图像进行特征点的提取，以得到多帧图像各自对应的多个特征点。值得说明的是，不同图像中提取出的特征点的个数未必相等，比如某帧图像中提取出10个特征点，另一帧图像中可能提取出15个特征点。在图3中，三角形表示提取出的特征点。实际上，每个特征点可以用设定维数的特征向量来表示，假设以100维的特征向量来表示。以第1帧图像为例，假设第1帧图像中包括20个特征点，通过对这20个特征点对应的特征向量进行融合处理，以得到第1帧图像对应的局部图像特征。其中，假设采用取平均值的融合处理方式，那么就是将这20个特征点所对应的20个特征向量进行取均值计算，假设将取均值的结果称为平均特征向量，这么可以理解的是，这个平均特征向量是一个100维的特征向量，亦即作为第1帧图像的局部图像特征。针对其他各帧图像进行同样的处理，以得到各帧图像的局部图像特征。

仍以第1帧图像为例，经过上述处理得到了第1帧图像对应的1900维的整体图像特征以及100维的局部图像特征，两者拼接在一起得到一个2000维的特征向量，即作为第1帧图像对应的图像特征。

在得到N帧图像各自对应的2000维的图像特征后，将N帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为第一视频片段对应的视频特征。其中，特征融合包括如下任一种方式：取均值，取最大值，取词袋特征。

除以上视频特征获取方式外，本发明实施例还提供了如图4所示的视频特征获取方案。

图4为本发明实施例提供的另一种获取视频片段对应的视频特征的流程图，如图4所示，可以包括如下步骤：

401、提取第一视频片段中多帧图像各自对应的整体图像特征，以及第二视频片段中多帧图像各自对应的整体图像特征。

第二视频片段是多个视频片段中除第一视频片段外的任一个。

402、提取第一视频片段中多帧图像各自的特征点以得到第一视频片段中多帧图像各自对应的局部图像特征，以及提取第二视频片段中多帧图像各自的特征点以得到第二视频片段中多帧图像各自对应的局部图像特征。

403、根据第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从第一视频片段中确定出至少两帧图像，其中，第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像。

404、根据所述至少两帧图像各自对应的图像特征确定第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。

本实施例提供的视频特征获取方案的核心思想是：先对两个视频片段各自的多帧图像的局部图像特征进行特征匹配，以确定两个视频片段重叠的起始帧图像和终止帧图像，之后，基于起始帧图像和终止帧图像之间各帧图像的图像特征(局部图像特征和整体图像特征的融合结果)确定相应视频片段的视频特征。这样，使得一个视频片段的视频特征更聚焦在与其他视频片段可能具有相似性的部分片段上，精确度更高。

本实施例中，整体图像特征和局部图像特征的提取过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，下面结合图5来示例性说明本实施例提供的方案的实施过程。

在图5中，假设第一视频片段中包括按照时间顺序依次采样得到的图像Fa1～图像Fa10这十帧图像，第二视频片段中包括按照时间顺序依次采样得到的图像Fb1～图像Fb15这十五帧图像。

按照采样时间顺序，依次遍历第一视频片段中的这十帧图像，以确定当前遍历到的图像分别与第二视频片段中各帧图像的局部图像特征之间的匹配度。其中，两帧图像的局部图像特征之间的匹配度可以通过计算这两帧图像的局部图像特征间的距离来实现。

首先，计算图像Fa1分别与图像Fb1～图像Fb15的局部图像特征间的匹配度，假设发现得到的15个匹配度均小于预设阈值，则确定在第二视频片段中不存在与图像Fa1之间局部图像特征相匹配的图像。

之后，计算图像Fa2分别与图像Fb1～图像Fb15的局部图像特征间的匹配度，假设发现得到的15个匹配度均小于预设阈值，则确定在第二视频片段中不存在与图像Fa2之间局部图像特征相匹配的图像。

之后，计算图像Fa3分别与图像Fb1～图像Fb15的局部图像特征间的匹配度，假设图像Fa3与图像Fb2的局部图像特征间的匹配度大于预设阈值，则确定图像Fa3是第一视频片段与第二视频片段重叠的起始帧图像。

继续遍历之后的图像，假设当前遍历到图像Fa7，图像Fa7与图像Fb10的局部图像特征间的匹配度大于预设阈值，但是，当继续遍历到图像Fa8时，第二视频片段中不存在与图像Fa8之间局部图像特征相匹配的图像，则确定图像Fa7是第一视频片段与第二视频片段重叠的终止帧图像。

可以理解的是，在上述假设情形下，第二视频片段中分别存在与图像Fa4～图像Fa6之间局部图像特征相匹配的图像。

也就是说，假设第一视频片段中的图像Fa3～图像Fa7都能在第二视频片段包含的多帧图像中找到与之局部图像特征相匹配的图像。

此时，针对第一视频片段来说，可以仅使用图像Fa3～图像Fa7这五帧图像各自对应的图像特征来确定第一视频片段的视频特征。如前文所述，其中的每帧图像的图像特征是指其对应的局部图像特征和整体图像特征的拼接结果。

图6为本发明实施例提供的另一种视频相似度处理方法的流程示意图，如图6所示，可以包括如下步骤：

601、获取多个视频片段。

602、分别对多个视频片段各自包含的多帧图像进行图像特征提取。

603、根据多个视频片段各自包含的多帧图像的图像特征，确定多个视频片段各自对应的视频特征。

604、根据多个视频片段各自对应的视频特征，确定多个视频片段之间的相似度。

本实施例中，在得到多个视频片段之间的相似度之后，可选地，还可以将彼此之间相似度符合设定条件的视频片段划归为一组，从而可以得到多组视频片段，实现对视频片段的分类存储。

比如，视频片段A与视频片段B的视频特征间的相似度大于预设阈值，视频片段A与视频片段C的视频特征间的相似度也大于预设阈值，则可以认为视频片段A、视频片段B和视频片段C被划为一组。

本实施例中上述各个步骤的具体实现方式可以参考前述其他实施例中的相关说明，在此不赘述。

图7为本发明实施例提供的一种视频相似度处理装置的结构示意图，如图7所示，该视频相似度处理装置包括：存储器11、处理器12。其中，存储器11上存储有可执行代码，当所述可执行代码被处理器12执行时，使处理器12实现：

获取多个视频片段；

可选地，所述处理器12还用于：从相似片段中选出目标视频片段；根据所述目标视频片段进行剪辑操作，生成目标视频。

其中，可选地，所述处理器12具体用于：从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。

可选地，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器12具体用于：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。

可选地，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器12具体用于：将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。

可选地，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器12具体用于：对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。

可选地，所述处理器12具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：取均值，取最大值，取词袋特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器12具体用于：对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。

可选地，所述特征融合包括如下任一种方式：取均值，取最大值，取词袋特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器12具体用于：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。

可选地，所述处理器12还用于：依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。

可选地，所述处理器12还用于：接收用户对原始视频进行拆分得到的所述多个视频片段。

可选地，所述处理器12还用于：根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。

图7所示视频相似度处理装置在视频相似度处理过程中的具体执行过程，可以参考前述其他实施例中的相关说明，在此不赘述。

图8为本发明实施例提供的一种移动终端的结构示意图，如图8所示，该移动终端包括：

壳体21；

显示屏22，设于所述壳体21内部，用于显示视频；

处理器23，设于所述壳体21内部，与所述显示屏22耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。

可选地，所述处理器23还用于：从相似片段中选出目标视频片段；根据所述目标视频片段进行剪辑操作，生成目标视频。

其中，可选地，所述处理器23具体用于：从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。

可选地，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器23具体用于：

可选地，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器23具体用于：将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。

可选地，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器23具体用于：对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。

可选地，所述处理器23具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：取均值，取最大值，取词袋特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器23具体用于：对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器23具体用于：

可选地，所述处理器23还用于：依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。

可选地，所述处理器23还用于：接收用户对原始视频进行拆分得到的所述多个视频片段。

可选地，所述处理器23还用于：根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。

图8所示移动终端在视频相似度处理过程中的具体执行过程，可以参考前述其他实施例中的相关说明，在此不赘述。

图9为本发明实施例提供的一种视频相似度处理装置的结构示意图，如图9所示，该视频相似度处理装置包括：存储器31、处理器32。其中，存储器31上存储有可执行代码，当所述可执行代码被处理器32执行时，使处理器32实现：

获取多个视频片段；

可选地，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器32具体用于：

可选地，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器32具体用于：将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。

可选地，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器32具体用于：对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。

可选地，所述处理器32具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：取均值，取最大值，取词袋特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器32具体用于：对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器32具体用于：

可选地，所述处理器32还用于：依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。

可选地，所述处理器32还用于：接收用户对原始视频进行拆分得到的所述多个视频片段。

可选地，所述处理器32还用于：根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。

图9所示视频相似度处理装置在视频相似度处理过程中的具体执行过程，可以参考前述其他实施例中的相关说明，在此不赘述。

图10为本发明实施例提供的一种移动终端的结构示意图，如图10所示，该移动终端包括：

壳体41；

显示屏42，设于所述壳体41内部，用于显示视频；

处理器43，设于所述壳体41内部，与所述显示屏42耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。

可选地，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器43具体用于：

可选地，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器43具体用于：将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。

可选地，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器43具体用于：对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。

可选地，所述处理器43具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：取均值，取最大值，取词袋特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器43具体用于：对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。

可选地，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器43具体用于：

可选地，所述处理器43还用于：依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。

可选地，所述处理器43还用于：接收用户对原始视频进行拆分得到的所述多个视频片段。

可选地，所述处理器43还用于：根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。

另外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有可执行代码，所述可执行代码用于实现如前述各实施例提供的视频相似度处理方法。

以上各个实施例中的技术方案、技术特征在不相冲突的情况下均可以单独，或者进行组合，只要未超出本领域技术人员的认知范围，均属于本申请保护范围内的等同实施例。

以上所述仅为本发明实施例的实施例，并非因此限制本发明实施例的专利范围，凡是利用本发明实施例说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明实施例的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。

Claims

一种视频相似度处理方法，其特征在于，包括：

获取多个视频片段；

分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；

根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；

当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

从相似片段中选出目标视频片段；

根据所述目标视频片段进行剪辑操作，生成目标视频。
根据权利要求2所述的方法，其特征在于，所述从相似片段中选出目标视频片段，包括：

从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
根据权利要求1所述的方法，其特征在于，对第一视频片段中多帧图像进行图像特征提取，包括：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求4所述的方法，其特征在于，所述提取所述第一视频片段中多帧图像各自对应的整体图像特征，包括：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求4所述的方法，其特征在于，所述提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征，包括：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求6所述的方法，其特征在于，对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求4所述的方法，其特征在于，所述根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征，包括：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求8所述的方法，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求4所述的方法，其特征在于，所述根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征，包括：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求10所述的方法，其特征在于，所述方法还包括：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求1所述的方法，其特征在于，所述获取多个视频片段，包括：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求1所述的方法，其特征在于，所述获取多个视频片段，包括：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种视频相似度处理方法，其特征在于，包括：

获取多个视频片段；

分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；

根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。
根据权利要求14所述的方法，其特征在于，对第一视频片段中多帧图像进行图像特征提取，包括：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求15所述的方法，其特征在于，所述提取所述第一视频片段中多帧图像各自对应的整体图像特征，包括：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求15所述的方法，其特征在于，所述提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征，包括：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求17所述的方法，其特征在于，对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求15所述的方法，其特征在于，所述根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征，包括：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求19所述的方法，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求15所述的方法，其特征在于，所述根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征，包括：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求21所述的方法，其特征在于，所述方法还包括：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求14所述的方法，其特征在于，所述获取多个视频片段，包括：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求14所述的方法，其特征在于，所述获取多个视频片段，包括：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种视频相似度处理装置，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器实现：

获取多个视频片段；

分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；

根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；

当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。
根据权利要求25所述的装置，其特征在于，所述处理器还用于：从相似片段中选出目标视频片段；根据所述目标视频片段进行剪辑操作，生成目标视频。
根据权利要求26所述的装置，其特征在于，所述处理器具体用于：

从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
根据权利要求25所述的装置，其特征在于，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器具体用于：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求28所述的装置，其特征在于，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器具体用于：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求28所述的装置，其特征在于，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器具体用于：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求30所述的装置，其特征在于，所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求28所述的装置，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求32所述的装置，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求28所述的装置，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求34所述的装置，其特征在于，所述处理器还用于：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求25所述的装置，其特征在于，所述处理器还用于：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求25所述的装置，其特征在于，所述处理器还用于：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种移动终端，其特征在于，包括：

壳体；

显示屏，设于所述壳体内部，用于显示视频；

处理器，设于所述壳体内部，与所述显示屏耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度；当任意两个视频片段的相似度大于预设阈值时，确定所述两个视频片段为相似片段。
根据权利要求38所述的终端，其特征在于，所述处理器还用于：从相似片段中选出目标视频片段；根据所述目标视频片段进行剪辑操作，生成目标视频。
根据权利要求39所述的终端，其特征在于，所述处理器具体用于：

从相似片段中选出时长符合设定条件的视频片段作为目标视频片段；或者，从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
根据权利要求38所述的终端，其特征在于，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器具体用于：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求41所述的终端，其特征在于，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器具体用于：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求41所述的终端，其特征在于，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器具体用于：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求43所述的终端，其特征在于，所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求41所述的终端，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求45所述的终端，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求41所述的终端，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求47所述的终端，其特征在于，所述处理器还用于：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求38所述的终端，其特征在于，所述处理器还用于：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求38所述的终端，其特征在于，所述处理器还用于：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可执行代码，所述可执行代码用于实现权利要求1至13中任一项所述的视频相似度处理方法。
一种视频相似度处理装置，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器实现：

获取多个视频片段；

分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；

根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；

根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。
根据权利要求52所述的装置，其特征在于，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器具体用于：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求53所述的装置，其特征在于，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器具体用于：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求53所述的装置，其特征在于，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器具体用于：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求55所述的装置，其特征在于，所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求53所述的装置，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求57所述的装置，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求53所述的装置，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求59所述的装置，其特征在于，所述处理器还用于：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求52所述的装置，其特征在于，所述处理器还用于：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求52所述的装置，其特征在于，所述处理器还用于：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种移动终端，其特征在于，包括：

壳体；

显示屏，设于所述壳体内部，用于显示视频；

处理器，设于所述壳体内部，与所述显示屏耦合，用于获取多个视频片段；分别对所述多个视频片段各自包含的多帧图像进行图像特征提取；根据所述多个视频片段各自包含的多帧图像的图像特征，确定所述多个视频片段各自对应的视频特征；根据所述多个视频片段各自对应的视频特征，确定所述多个视频片段之间的相似度。
根据权利要求63所述的终端，其特征在于，在对第一视频片段中多帧图像进行图像特征提取的过程中，所述处理器具体用于：

提取所述第一视频片段中多帧图像各自对应的整体图像特征，所述第一视频片段是所述多个视频片段中的任一个；

提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征；

对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接，以得到所述多帧图像各自对应的图像特征。
根据权利要求64所述的终端，其特征在于，在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中，所述处理器具体用于：

将所述第一视频片段中多帧图像分别输入至神经网络模型中，以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
根据权利要求64所述的终端，其特征在于，在提取所述多帧图像各自的特征点，以得到所述多帧图像各自对应的局部图像特征的过程中，所述处理器具体用于：

对所述多帧图像中的每帧图像进行特征点提取，以得到所述每帧图像中多个特征点各自对应的特征向量；

根据所述每帧图像中多个特征点各自对应的特征向量，确定所述每帧图像的局部图像特征。
根据权利要求66所述的终端，其特征在于，所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算，以得到对应的局部图像特征：

取均值，取最大值，取词袋特征。
根据权利要求64所述的终端，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合，以融合后的图像特征作为所述第一视频片段对应的视频特征。
根据权利要求68所述的终端，其特征在于，所述特征融合包括如下任一种方式：

取均值，取最大值，取词袋特征。
根据权利要求64所述的终端，其特征在于，在确定所述多个视频片段各自对应的视频特征的过程中，所述处理器具体用于：

根据所述第一视频片段中多帧图像各自对应的局部图像特征，分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度，从所述第一视频片段中确定出至少两帧图像，其中，所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像，所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个；

根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征，其中，所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
根据权利要求70所述的终端，其特征在于，所述处理器还用于：

依次遍历所述第一视频片段中多帧图像，确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
根据权利要求63所述的终端，其特征在于，所述处理器还用于：

接收用户对原始视频进行拆分得到的所述多个视频片段。
根据权利要求63所述的终端，其特征在于，所述处理器还用于：

根据原始视频中的场景特征和/或运镜特征，对所述原始视频进行拆分，以得到所述多个视频片段。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可执行代码，所述可执行代码用于实现权利要求14至24中任一项所述的视频相似度处理方法。