WO2023065663A1

WO2023065663A1 - 视频剪辑方法、装置、电子设备及存储介质

Info

Publication number: WO2023065663A1
Application number: PCT/CN2022/094576
Authority: WO
Inventors: 梅立军; 付瑞吉; 李月雷; 张德兵
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2021-10-18
Filing date: 2022-05-23
Publication date: 2023-04-27
Also published as: CN113949828A; CN113949828B

Abstract

本公开关于一种视频剪辑方法、装置、电子设备及非易失性计算机可读存储介质，所述方法包括：获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段；目标视频片段为原始视频中在剪辑点之前或在剪辑点之后预设时长的视频片段；将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；待插入视频片段对应的视频内容特征与预测视频内容特征之间的匹配程度满足预设条件；向用户反馈待插入视频片段，以用于将待插入视频片段插入至原始视频的剪辑点。

Description

视频剪辑方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请基于申请号为202111211990.X、申请日为2021年10月18日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及计算机技术领域，具体涉及一种视频剪辑方法、装置、电子设备、存储介质、计算机程序产品和计算机程序。

背景技术

目前，针对短视频剪辑，通常采用的方法是将多个不同短视频中的片段插入一个视频中，或者直接将一组短视频的片段集成为一个视频，但上述方法需要人工标记以采集视频片段，依赖于由人工完成混剪操作，缺乏自动化短视频混剪，较少存在的自动化混剪也仅仅是简单属性聚合得到的集成视频片段，无法在视频衔接上体现智能化。

因此，自动化智能混剪技术仍有待提高。

发明内容

本公开提供一种视频剪辑方法、装置、电子设备、存储介质、计算机程序产品和计算机程序，以至少解决缺乏自动化智能混剪的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频剪辑方法，应用于电子设备，所述方法包括：

获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段；

将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；

根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

向用户反馈所述待插入视频片段，以用于将所述待插入视频片段插入至所述原始视频的剪辑点。

在本公开实施例中，所述根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，包括：

基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个所述视频内容特征与所述预测视频内容特征之间的匹配程度排序结果；

当匹配程度大于预设阈值的情况下，判定所述视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

将所述视频内容特征对应的视频素材片段作为待插入视频片段。

在本公开实施例中，所述待插入视频片段包括多个，所述向用户反馈所述待插入视频片段，包括：

获取预设的反馈指标信息；

按照所述反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；

基于所述反馈排序结果，反馈所述多个待插入视频片段。

在本公开实施例中，所述方法还包括：

根据用户返回的插入选择信息，从所述多个待插入视频片段中确定目标插入视频片段；

将所述目标插入视频片段插入至所述原始视频的剪辑点之前或剪辑点之后。

根据本公开实施例的第二方面，提供一种获得内容特征预测模型的方法，应用于电子设备，所述方法包括：

获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段；

采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。

在本公开实施例中，当目标视频片段为所述原始视频中在所述剪辑点之前预设时长的视频片段的情况下，所述采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将所述第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第一视频片段对应的预测视频内容特征；

基于所述第一视频片段对应的预测视频内容特征与所述第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型；

当目标视频片段为所述原始视频中在所述剪辑点之后预设时长的视频片段的情况下，所述采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将所述第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第二视频片段对应的预测视频内容特征；

基于所述第二视频片段对应的预测视频内容特征与所述第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型。

在本公开实施例中，所述方法还包括：

针对每一图像内容特征维度，按照所述图像内容特征维度对应的图像预处理方式，对每个所述视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧；

对所述调整后的图像帧进行图像特征提取，得到多个图像特征向量；

将所述多个图像特征向量进行拼接，得到所述第一视频片段和所述第二视频片段各自对应的视频特征向量；所述视频特征向量用于表征所述第一视频片段和所述第二视频片段各自对应的视频内容特征。

在本公开实施例中，所述获取训练样本数据，包括：

获取样本视频的视频精彩点集合；

针对每一视频精彩点，确定在所述样本视频中的视频精彩点之前预设时长的第一视频片段，以及在所述样本视频中的视频精彩点之后预设时长的第二视频片段；

根据所述第一视频片段和所述第二视频片段，得到所述视频精彩点对应的视频片段对。

在本公开实施例中，所述获取样本视频的视频精彩点集合，包括：

获取预设的精彩点提取信息；所述精彩点提取信息用于根据视频中的画面信息、声音信息、文本信息识别出视频精彩点；

根据所述精彩点提取信息，从所述样本视频中确定出多个视频精彩点，得到所述样本视频的视频精彩点集合。

根据本公开实施例的第三方面，提供一种视频剪辑装置，包括：

获取单元，被配置为执行获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段；

预测单元，被配置为执行将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；

视频片段匹配单元，被配置为执行根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

反馈单元，被配置为执行向用户反馈所述待插入视频片段，以用于将所述待插入视频片段插入至所述原始视频的剪辑点。

在本公开实施例中，所述视频片段匹配单元，具体被配置为执行基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个所述视频内容特征与所述预测视频内容特征之间的匹配程度排序结果；当匹配程度大于预设阈值的情况下，判定所述视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；将所述视频内容特征对应的视频素材片段作为待插入视频片段。

在本公开实施例中，所述待插入视频片段包括多个，所述反馈单元，具体被配置为执行获取预设的反馈指标信息；按照所述反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；基于所述反馈排序结果，反馈所述多个待插入视频片段。

在本公开实施例中，所述装置还包括：

目标插入视频片段确定单元，被配置为执行根据用户返回的插入选择信息，从所述多个待插入视频片段中确定目标插入视频片段；

目标插入视频片段插入单元，被配置为执行将所述目标插入视频片段插入至所述原始视频的剪辑点之前或剪辑点之后。

根据本公开实施例的第四方面，提供一种内容特征预测模型获得装置，所述装置包括：

训练样本数据获取单元，被配置为执行获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段；

模型训练单元，被配置为执行采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。

在本公开实施例中，当目标视频片段为所述原始视频中在所述剪辑点之前预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第一视频片段对应的预测视频内容特征；基于所述第一视频片段对应的预测视频内容特征与所述第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型；

当目标视频片段为所述原始视频中在所述剪辑点之后预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第二视频片段对应的预测视频内容特征；基于所述第二视频片段对应的预测视频内容特征与所述第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型。

在本公开实施例中，所述装置还包括：

图像预处理单元，被配置为执行针对每一图像内容特征维度，按照所述图像内容特征维度对应的图像预处理方式，对每个所述视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧；

图像特征提取单元，被配置为执行对所述调整后的图像帧进行图像特征提取，得到多个图像特征向量；

拼接单元，被配置为执行将所述多个图像特征向量进行拼接，得到所述第一视频片段和所述第二视频片段各自对应的视频特征向量；所述视频特征向量用于表征所述第一视频片段和所述第二视频片段各自对应的视频内容特征。

在本公开实施例中，所述训练样本数据获取单元，具体被配置为执行获取样本视频的视频精彩点集合；针对每一视频精彩点，确定在所述样本视频中的视频精彩点之前预设时长的第一视频片段，以及在所述样本视频中的视频精彩点之后预设时长的第二视频片段；根据所述第一视频片段和所述第二视频片段，得到所述视频精彩点对应的视频片段对。

在本公开实施例中，所述训练样本数据获取单元，具体被配置为获取预设的精彩点提取信息；所述精彩点提取信息用于根据视频中的画面信息、声音信息、文本信息识别出视频精彩点；根据所述精彩点提取信息，从所述样本视频中确定出多个视频精彩点，得到所述样本视频的视频精彩点集合。

根据本公开实施例的第五方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一实施例所述的视频剪辑方法、或者如第二方面或第二方面的任一实施例所述的获得内容特征预测模型的方法。

根据本公开实施例的第六方面，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一实施例所述的视频剪辑方法、或者如第二方面或第二方面的任一实施例所述的获得内容特征预测模型的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面或第一方面的任一实施例所述的视频剪辑方法、或者如第二方面或第二方面的任一实施例所述的获得内容特征预测模型的方法。

根据本公开实施例的第八方面，提供一种计算机程序，所述计算机程序包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如第一方面或第一方面的任一实施例所述的视频剪辑方法、或者如第二方面或第二方面的任一实施例所述的获得内容特征预测模型的方法。

通过获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段，目标视频片段为原始视频中在剪辑点之前或在剪辑点之后预设时长的视频片段，然后将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征，进而根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，待插入视频片段对应的视频内容特征与预测视频内容特征之间的匹配程度满足预设条件，向用户反馈待插入视频片段，以用于将待插入视频片段插入至原始视频的剪辑点。如此，可以基于目标视频片段对应的视频内容特征得到预测视频内容特征，进而可以从视频素材片段集合中匹配出待插入视频片段进行反馈，优化了视频剪辑，使得剪辑后的视频更加自然和流畅，从而在视频衔接上体现了智能化，避免让剪辑后的视频显得突兀。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开实施例示出的一种视频剪辑方法的应用环境图。

图2是根据本公开实施例示出的一种视频剪辑方法的流程图。

图3是根据本公开实施例示出的一种智能视频混剪编辑的处理流程示意图。

图4是根据本公开实施例示出的一种获得内容特征预测模型的流程图。

图5a是根据本公开实施例示出的一种模型训练的示意图。

图5b是根据本公开实施例示出的一种训练数据准备及模型训练的处理流程示意图。

图6是根据本公开实施例示出的另一种视频剪辑方法的流程图。

图7是根据本公开实施例示出的一种视频剪辑装置的框图。

图8是根据本公开实施例示出的一种内容特征预测模型获得装置的框图。

图9是根据本公开实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开实施例所提供的视频剪辑方法，可以应用于如图1所示的应用环境中。其中，用户端110 通过网络与服务器120进行交互。其中，服务器120获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段，并将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征，再根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，服务器120向用户端110反馈待插入视频片段。实际应用中，用户端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据本公开实施例示出的一种视频剪辑方法的流程图，如图2所示，该方法用于图1的服务器120中，包括步骤S210-S240。

步骤S210中，获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段；目标视频片段为原始视频中在剪辑点之前或在剪辑点之后预设时长的视频片段。

其中，原始视频可以为待插入剪辑片段的视频，如可以将当前用户端正在编辑的唯一的基视频作为原始视频。

其中，目标视频片段可以为原始视频中待预测视频内容的视频片段，如可以基于原始视频中提取出的目标视频片段，预测与该目标视频片段的视频内容相衔接的视频片段。

在本公开实施例中，剪辑点可以为用户端指定的原始视频中插入片段的时间位置，如基于用户需求指定插入时间位置p。

具体实现中，在视频剪辑的过程中，服务器可以接收用户端发送的原始视频的剪辑点的选择指令，进而服务器可以根据获取的选择指令，从原始视频中提取出目标视频片段，该目标视频片段可以为原始视频中在剪辑点之前或在剪辑点之后预设时长的视频片段。

例如，在确定插入时间位置p后，可以从原始视频中提取出基于该插入时间位置之前一定时间区间[tp-n，tp]的视频，作为目标视频片段。

在本公开实施例中，由于短视频的总时长较短，在剪辑点之前的预设时长n(即时间区间)可以选取时间位置p之前的10-15s范围内，预设时长n还可以为其它设定值，本公开在此不做限定。

步骤S220中，将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征。

其中，目标视频片段对应的视频内容特征可以为对目标视频片段进行多维度特征提取得到的特征向量序列，其可以用于表征视频片段的视频内容特征。

具体实现中，在获取目标视频片段后，可以对目标视频片段进行多维度特征提取，得到目标视频片段对应的视频内容特征，进而可以将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征，该预测视频内容特征所表征的视频内容可以与目标视频片段对应的视频内容特征所表征的视频内容相衔接。

在本公开实施例中，预测视频内容特征可以为向量序列集合，例如，基于插入时间位置p提取的目标视频片段，通过预训练的内容特征预测模型可以预测出可选集合Yp，其可以具有多个元素，每一个元素y可以指一个向量序列，每一向量可以对应一视频帧，完整的向量序列可以对应一视频片段，即可选集合Yp可以为预测出的可选视频片段对应的向量序列集合。

步骤S230中，根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；待插入视频片段对应的视频内容特征与预测视频内容特征之间的匹配程度满足预设条件。

其中，视频素材片段集合可以为一组视频片段集合，每个视频片段可以对应有一表征该视频片段的视频内容特征的向量序列。

具体实现中，可以根据预测视频内容特征在视频素材片段集合中进行搜索，通过预测视频内容特征与视频素材片段集合中各视频片段对应的视频内容特征的向量序列的相似度匹配过程，可以搜索出与预测视频内容特征的匹配程度满足预设条件的向量序列，进而可以将搜索出的向量序列对应的视频片段作为待插入视频片段。

在本公开实施例中，搜索出的相似度匹配结果可以为与预测视频内容特征的匹配程度最高的N个视频片段，即待插入视频片段。

步骤S240中，向用户反馈待插入视频片段，以用于将待插入视频片段插入至原始视频的剪辑点。

在得到待插入视频片段后，服务器可以向用户端反馈该待插入视频片段，进而可以基于用户操作将待插入视频片段插入至原始视频的剪辑点，得到混剪编辑的视频。

上述视频剪辑方法，通过获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段，然后将目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征，进而根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，向用户反馈待插入视频片段，以用于将待插入视频片段插入至原始视频的剪辑点。如此，可以基于目标视频片段对应的视频内容特征得到预测视频内容特征，进而可以从视频素材片段集合中匹配出待插入视频片段进行反馈，优化了视频剪辑，使得剪辑后的视频更加自然和流畅，从而在视频衔接上体现了智能化，避免让剪辑后的视频显得突兀。

在本公开实施例中，获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段，包括：获取对原始视频的剪辑点的选择指令，确定原始视频中在剪辑点之前或在剪辑点之后的时间区间；基于时间区间，从原始视频中提取出目标视频片段。

具体实现中，服务器可以接收用户端发送的原始视频的剪辑点的选择指令，进而服务器可以根据获取的选择指令，确定原始视频中在剪辑点之前或在剪辑点之后的时间区间，在得到时间区间后，可以从原始视频中提取出该时间区间对应的目标视频片段。

例如，根据选择指令可以确定插入时间位置p，进而可以基于预设时长n，得到插入时间位置之前的时间区间[tp-n，tp]，并可以从原始视频中提取出时间区间[tp-n，tp]对应的视频片段，作为目标视频片段。

本公开实施例的技术方案，通过获取对原始视频的剪辑点的选择指令，确定原始视频中在剪辑点之前或在剪辑点之后的时间区间，进而基于时间区间，从原始视频中提取出目标视频片段，能够基于用户需求准确地从原始视频中提取出目标视频片段，为后续预测视频内容特征提供了数据支持。

在本公开实施例中，根据预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，包括：基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个视频内容特征与预测视频内容特征之间的匹配程度排序结果；当匹配程度大于预设阈值的情况下，判定视频内容特征与预测视频内容特征之间的匹配程度满足预设条件；将视频内容特征对应的视频素材片段作为待插入视频片段。

具体实现中，视频素材片段集合中具有多个视频素材片段，可以基于多个视频素材片段各自对应的视频内容特征，根据预测视频内容特征在视频素材片段集合中进行搜索，通过预测视频内容特征与多个视频素材片段各自对应的视频内容特征的相似度匹配过程，可以搜索出与预测视频内容特征的匹配程度满足预设条件的视频内容特征，进而可以将搜索出的视频内容特征对应的视频素材片段作为待插入视频片段。

例如，当预测视频内容特征中具有5个元素，针对每一个元素，可以从视频素材片段集合中搜索出相似匹配度最高的10个视频片段，进而可以基于5个元素各自对应的相似匹配度最高的10个视频片段，即50个视频片段，构成待插入视频片段。

本公开实施例的技术方案，服务器得到预测视频内容特征后，通过基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个视频内容特征与预测视频内容特征之间的匹配程度排序结果，然后当匹配程度大于预设阈值的情况下，判定视频内容特征与预测视频内容特征之间的匹配程度满足预设条件，进而将视频内容特征对应的视频素材片段作为待插入视频片段，从而能够有效针对预测视频内容特征匹配出相似度较高的视频素材片段，提升了视频内容衔接效果。

在本公开实施例中，待插入视频片段可以包括多个，向用户反馈待插入视频片段，包括：获取预设的反馈指标信息；按照反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；基于反馈排序结果，反馈多个待插入视频片段。

其中，反馈指标信息可以包括多个指定指标，如相关性、精彩度等。

具体实现中，待插入视频片段可以包括多个，可以按照预设的反馈指标信息对多个待插入视频片段进行推荐度排序，得到反馈排序结果，进而服务器可以基于反馈排序结果，向用户端反馈多个待插入视频片段。

本公开实施例的技术方案，待插入视频片段可以包括多个，通过获取预设的反馈指标信息；按照反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果，进而基于反馈排序结果，反馈多个待插入视频片段，从而实现了为用户提供智能化视频混剪素材，能够让剪辑后的视频更加自然和流畅。

在本公开实施例中，在向用户反馈待插入视频片段的步骤之后，还包括：根据用户返回的插入选择信息，从多个待插入视频片段中确定目标插入视频片段；将目标插入视频片段插入至原始视频的剪辑点之前或剪辑点之后。

在实际应用中，在向用户反馈待插入视频片段后，可以根据用户返回的插入选择信息，从多个待插入视频片段中确定目标插入视频片段，进而可以将目标插入视频片段插入至原始视频的剪辑点之前或剪辑点之后，例如，根据用户对排序后的待插入视频片段的选择操作，可以确定目标插入视频片段，进而可以将该目标插入视频片段拼接至原始视频中，得到混剪编辑的视频。

在本公开实施例中，当待预测视频内容的目标视频片段为原始视频中在剪辑点之前预设时长的视频片段时，可以将目标插入视频片段插入至原始视频的剪辑点之后；当待预测视频内容的目标视频片段为原始视频中在剪辑点之后预设时长的视频片段时，可以将目标插入视频片段插入至原始视频的剪辑点之前。

本公开实施例的技术方案，通过根据用户返回的插入选择信息，从多个待插入视频片段中确定目标插入视频片段；将目标插入视频片段插入至原始视频的剪辑点之前或剪辑点之后，可以基于用户选择进行视频智能混剪，在视频衔接上体现了智能化，使得剪辑后的视频更加自然和流畅。

为了便于本领域技术人员的理解，图3实例性地提供了一种智能视频混剪编辑的处理流程示意图；如图3所示，该智能视频混剪编辑的处理流程包括步骤S301-S307。

具体地，在步骤S301中：用户可以基于用户端指定基视频(即原始视频)插入时间位置p(即剪辑点)；在步骤S302中：服务器可以根据指定的插入时间位置p从已有视频(即原始视频)中提取时间区间[t _p-n，t _p]对应的视频(即目标视频片段)；在步骤S303中：对时间区间[t _p-n，t _p]对应的视频进行多维度特征提取，得到预测视频内容特征；然后在步骤S304中：可以通过生成式深度学习模型(即内容特征预测模型)生成可选集合Y _p(即预测视频内容特征)；进而在步骤S305中：对于可选集合Y _p中每一个元素y，在待选可剪辑视频(即视频素材片段集合)中进行搜索，得到待插入视频片段集合Y _y(即待插入视频片段)；在步骤S306中：对待插入视频片段集合Y _y可以按照指定指标进行排序，并可以根据排序结果进行反馈；在步骤S307中：提供给用户对排序后的待插入视频片段集合Y _y进行选择和插入操作。

图4是根据本公开实施例示出的一种获得内容特征预测模型的方法的流程图，如图4所示，该方法用于图1中的服务器120中，包括步骤S410-S420。

在步骤S410中，获取训练样本数据；训练样本数据包括多个视频片段对；每个视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；第一视频片段为在样本视频中的视频关键点之前预设时长的视频片段；第二视频片段为在样本视频中的视频关键点之后预设时长的视频片段。

具体实现中，在获取对原始视频的剪辑点的选择指令，从原始视频中提取出目标视频片段之前，服务器还需要对上述的内容特征预测模型进行训练，可以获取训练样本数据，该训练样本数据可以包括多个视频片段对，每个视频片段对可以包括属于同一样本视频的第一视频片段和第二视频片段，第一视频片段可以为在样本视频中的视频关键点之前预设时长的视频片段，第二视频片段可以为在样本视频中的视频关键点之后预设时长的视频片段。

在本公开实施例中，内容特征预测模型可以为生成式深度学习模型，该生成式深度学习模型可以采用VAE，GAN及其变种，例如，可以采用循环神经网络，Bidirectional RNN(双向循环神经网络)、Deep(Bidirectional)RNN(深度(双向)循环神经网络)、LSTM等，以及卷积神经网络(Convolutional Neural Network,CNN)等。

在步骤S420中，采用训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。

实际应用中，服务器可以采用训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，具体地，可以基于每个视频片段对的第一视频片段和第二视频片段，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。

本公开实施例的技术方案，通过获取训练样本数据，采用训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，可以基于预训练的内容特征预测模型进行视频内容预测，优化了视频剪辑，在剪辑视频衔接上体现了智能化。

在本公开实施例中，当目标视频片段为原始视频中在剪辑点之前预设时长的视频片段的情况下，采用训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第一视频片段对应的预测视频内容特征；

基于第一视频片段对应的预测视频内容特征与第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，得到内容特征预测模型；

当目标视频片段为原始视频中在剪辑点之后预设时长的视频片段的情况下，采用训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第二视频片段对应的预测视频内容特征；

基于第二视频片段对应的预测视频内容特征与第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，得到内容特征预测模型。

具体实现中，若目标视频片段为原始视频中在剪辑点之前预设时长的视频片段，在模型训练的过程中，可以将第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第一视频片段对应的预测视频内容特征，并基于第一视频片段对应的预测视频内容特征与第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，进而可以得到内容特征预测模型。

若目标视频片段为原始视频中在剪辑点之后预设时长的视频片段，在模型训练的过程中，可以将第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第二视频片段对应的预测视频内容特征，并基于第二视频片段对应的预测视频内容特征与第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，进而可以得到内容特征预测模型。

本公开实施例的技术方案，当目标视频片段为原始视频中在剪辑点之前预设时长的视频片段的情况下，通过将第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第一视频片段对应的预测视频内容特征，基于第一视频片段对应的预测视频内容特征与第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，得到内容特征预测模型；当目标视频片段为原始视频中在剪辑点之后预设时长的视频片段的情况下，通过将第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到第二视频片段对应的预测视频内容特征；基于第二视频片段对应的预测视频内容特征与第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的内容特征预测模型符合预设训练条件，得到内容特征预测模型，可以有效针对剪辑点之前或之后的视频片段进行视频内容预测，提升了视频剪辑效果。

在本公开实施例中，在获取训练样本数据的步骤之后，还包括：针对每一图像内容特征维度，按照图像内容特征维度对应的图像预处理方式，对每个视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧；对调整后的图像帧进行图像特征提取，得到多个图像特征向量；将多个图像特征向量进行拼接，得到第一视频片段和第二视频片段各自对应的视频特征向量；视频特征向量用于表征第一视频片段和第二视频片段各自对应的视频内容特征。

具体实现中，由于混剪的视频之间视频内容和视频质量不一致，为了增强内容特征预测模型的泛化能力，可以在获取训练样本数据后，从多个维度对训练样本数据中每个视频片段对所对应的图片序列进行预处理，通过针对每一图像内容特征维度，按照图像内容特征维度对应的图像预处理方式，对每个视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧，然后对调整后的图像帧进行图像特征提取，得到多个图像特征向量，进而可以将多个图像特征向量进行拼接，得到第一视频片段和第二视频片段各自对应的视频特征向量。

在本公开实施例中，图像特征提取的过程可以为：将视频片段转换为图片序列，然后对图片序列中每一个图片利用卷积神经网络进行图像特征提取，得到图像特征向量。将多个图片对应的图像特征向量进行拼接，可以得到视频片段对应的视频特征向量，如特征向量序列。

例如，多个维度可以包括是否包含背景(包含、不包含)、是否忽略图片颜色(是、否)、是否仅包含人物(包含、不包含)、是否仅针对移动物体(是、否)，其中，包含背景和不包含背景可以作为两个维度，针对每一维度，可以对视频片段对进行多维度特征提取，得到视频片段对中第一视频片段和第二视频片段各自对应的视频内容特征，如特征向量序列，进而可以对内容特征预测模型进行训练。

如图5a所示，针对维度1，可以基于视频片段对中第一视频片段，如样本视频中的视频关键点之前预设时长的视频片段，通过维度1-输入特征数据(即第一视频片段对应的多个图像特征向量)进行输入数据拼接，得到第一视频片段对应的视频内容特征，并可以基于视频片段对中第二视频片段，如样本视频中的视频关键点之后预设时长的视频片段，通过维度1-输出特征数据(即第二视频片段对应的多个图像特征向量)进行输出数据拼接，得到第二视频片段对应的视频内容特征，进而可以根据第一视频片段对应的预测视频内容特征与第二视频片段对应的视频内容特征，对生成式深度学习模型(即待训练的内容特征预测模型)进行训练。

本公开实施例的技术方案，通过针对每一图像内容特征维度，按照图像内容特征维度对应的图像预处理方式，对每个视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧，然后对调整后的图像帧进行图像特征提取，得到多个图像特征向量，进而将多个图像特征向量进行拼接，得到第一视频片段和第二视频片段各自对应的视频特征向量，可以基于多个图像内容特征维度进行模型训练，增强了内容特征预测模型的泛化能力。

在本公开实施例中，获取训练样本数据，包括：获取样本视频的视频精彩点集合；针对每一视频精彩点，确定在样本视频中的视频精彩点之前预设时长的第一视频片段，以及在样本视频中的视频精彩点之后预设时长的第二视频片段；根据第一视频片段和第二视频片段，得到视频精彩点对应的视频片段对。

具体实现中，通过获取样本视频的视频精彩点集合，然后针对每一视频精彩点，确定在样本视频中的视频精彩点之前预设时长的第一视频片段，以及在样本视频中的视频精彩点之后预设时长的第二视频片段，进而可以根据第一视频片段和第二视频片段，得到视频精彩点对应的视频片段对。

本公开实施例的技术方案，通过获取样本视频的视频精彩点集合，然后针对每一视频关键点，确定在样本视频中的视频精彩点之前预设时长的第一视频片段，以及在样本视频中的视频精彩点之后预设时长的第二视频片段，进而根据第一视频片段和第二视频片段，得到视频精彩点对应的视频片段对，可以基于视频精彩点准确得到待训练的视频片段，为模型训练提供了数据支持。

为了便于本领域技术人员的理解，图5b实例性地提供了一种训练数据准备及模型训练的处理流程示意图；如图5b所示，通过从已有视频(即样本视频)提取关键点集合K(即样本视频的视频精彩点集合)，针对关键点集合K中每一关键点k(即视频精彩点)，可以从已有视频(即样本视频)中提取出视频训练对<x _k,y _k>(即视频片段对),其中，x _k为[t _k-n，t _k]时间区间的视频(即第一视频片段)，y _k为[t _k，t _k+n]时间区间的视频(即第二视频片段)，进而可以对训练对<x _k,y _k>进行多维度特征提取，得到训练对<x _k,y _k>对应的视频特征向量，以训练生成式深度学习模型(即待训练的内容特征预测模型)。

在本公开实施例中，获取样本视频的视频精彩点集合，包括：获取预设的精彩点提取信息；精彩点提取信息用于根据视频中的画面信息、声音信息、文本信息识别出视频精彩点；根据精彩点提取信息，从样本视频中确定出多个视频精彩点，得到样本视频的视频精彩点集合。

其中，视频精彩点可以为视频中精彩片段的时间中心点。

具体实现中，通过获取预设的精彩点提取信息，可以采用该精彩点提取信息，根据视频中的画面信息、声音信息、文本信息从样本视频中识别出多个视频精彩点，进而可以得到样本视频的视频精彩点集合。

举例来说，由于短视频的时长较短，为了吸引用户，需要找出视频中最精彩的部分，可以采用如下方法提取视频精彩点：

1、通过训练视觉识别模型识别出视频精彩点：以足球比赛为例，视频精彩点可以为包括射门、进球、红黄牌时的视频画面对应的时间点；

2、通过训练声学识别模型来识别出视频精彩点：以足球比赛为例，可以将声音的响度超出阈值(如阈值为整体音频响度均值的1.5倍)的部分确认为精彩片段，则视频精彩点可以为声音的响度超出阈值时的时间点；

3、通过ASR(Automatic Speech Recognition)技术，可以将音频中的语音部分转为文本，进而通过识别文本中的关键字，如“球进了”、“红牌”、“黄牌”，可以识别出视频精彩点。

本公开实施例的技术方案，通过获取预设的精彩点提取信息，进而根据精彩点提取信息，从样本视频中确定出多个视频精彩点，得到样本视频的视频精彩点集合，可以针对视频中精彩片段确定视频精彩点，有助于用户进行视频剪辑操作。

图6是根据本公开实施例示出的另一种视频剪辑方法的流程图，如图6所示，该方法用于图1中的服务器120中，包括步骤S601-S611。

在步骤S601中，获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段。在步骤S602中，针对每一图像内容特征维度，按照所述图像内容特征维度对应的图像预处理方式，对每个所述视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧。在步骤S603中，对所述调整后的图像帧进行图像特征提取，得到多个图像特征向量。在步骤S604中，将所述多个图像特征向量进行拼接，得到所述第一视频片段和所述第二视频片段各自对应的视频特征向量；所述视频特征向量用于表征所述第一视频片段和所述第二视频片段各自对应的视频内容特征。在步骤S605中，采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。在步骤S606中，获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段。在步骤S607中，将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征。在步骤S608中，根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件。在步骤S609中，向用户反馈所述待插入视频片段。在步骤S610中，根据用户返回的插入选择信息，从所述多个待插入视频片段中确定目标插入视频片段。在步骤S611中，将所述目标插入视频片段插入至所述原始视频的剪辑点之前或剪辑点之后。需要说明的是，上述步骤的具体限定可以参见上文对本公开实施例的视频剪辑方法的具体限定，在此不再赘述。

应该理解的是，虽然图2、图4、图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4、图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图7是根据本公开实施例示出的一种视频剪辑装置框图。参照图7，该装置包括：

获取单元701，被配置为执行获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段；

预测单元702，被配置为执行将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；

视频片段匹配单元703，被配置为执行根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

反馈单元704，被配置为执行向用户反馈所述待插入视频片段，以用于将所述待插入视频片段插入至所述原始视频的剪辑点。

在本公开实施例中，所述视频片段匹配单元703，具体被配置为执行基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个所述视频内容特征与所述预测视频内容特征之间的匹配程度排序结果；当匹配程度大于预设阈值的情况下，判定所述视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；将所述视频内容特征对应的视频素材片段作为待插入视频片段。

在本公开实施例中，所述待插入视频片段包括多个，所述反馈单元704，具体被配置为执行获取预设的反馈指标信息；按照所述反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；基于所述反馈排序结果，反馈所述多个待插入视频片段。

在本公开实施例中，该装置还包括：

图8是根据本公开实施例示出的一种内容特征预测模型获得装置的框图。参照图8，该装置包括：

训练样本数据获取单元901，被配置为执行获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段；

模型训练单元902，被配置为执行采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。

在本公开实施例中，当所述目标视频片段为所述原始视频中在所述剪辑点之前预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第一视频片段对应的预测视频内容特征；基于所述第一视频片段对应的预测视频内容特征与所述第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型；

当所述目标视频片段为所述原始视频中在所述剪辑点之后预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第二视频片段对应的预测视频内容特征；基于所述第二视频片段对应的预测视频内容特征与所述第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型。

在本公开实施例中，该装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据本公开实施例示出的一种用于执行视频剪辑方法的设备800的框图。例如，电子设备800可以为一服务器。参照图9，电子设备800包括处理组件820，其进一步包括一个或多个处理器，以及由存储器822所代表的存储器资源，用于存储可由处理组件820的执行的指令，例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件820被配置为执行指令，以执行上述视频剪辑方法。

电子设备800还可以包括：电源组件824被配置为执行电子设备800的电源管理，有线或无线网络接口826被配置为将电子设备800连接到网络，和输入输出(I/O)接口828。电子设备800可以操作基于存储在存储器822的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在本公开实施例中，电子设备800的处理器被配置为执行指令，以实现如上所述的获得内容特征预测模型的方法。

在本公开实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器822，上述指令可由电子设备800的处理器执行以完成上述视频剪辑方法或获得内容特征预测模型的方法。存储介质可以是非易失性计算机可读存储介质，例如，所述非易失性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备800的处理器执行以完成上述视频剪辑方法或获得内容特征预测模型的方法。

在本公开实施例中，还提供一种计算机程序，该计算机程序包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述方法。

需要说明的，上述的装置、电子设备、非易失性计算机可读存储介质、计算机程序产品和计算机程序等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种视频剪辑方法，应用于电子设备，其特征在于，所述方法包括：

获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段；

将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；

根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

向用户反馈所述待插入视频片段，以用于将所述待插入视频片段插入至所述原始视频的剪辑点。
根据权利要求1所述的方法，其特征在于，所述根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段，包括：

基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个所述视频内容特征与所述预测视频内容特征之间的匹配程度排序结果；

当匹配程度大于预设阈值的情况下，判定所述视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

将所述视频内容特征对应的视频素材片段作为待插入视频片段。
根据权利要求1或2所述的方法，其特征在于，所述待插入视频片段包括多个，所述向用户反馈所述待插入视频片段，包括：

获取预设的反馈指标信息；

按照所述反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；

基于所述反馈排序结果，反馈所述多个待插入视频片段。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据用户返回的插入选择信息，从所述多个待插入视频片段中确定目标插入视频片段；

将所述目标插入视频片段插入至所述原始视频的剪辑点之前或剪辑点之后。
一种获得内容特征预测模型的方法，应用于电子设备，其特征在于，包括：

获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段；

采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。
根据权利要求5所述的方法，其特征在于，当目标视频片段为所述原始视频中在所述剪辑点之前预设时长的视频片段的情况下，所述采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将所述第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第一视频片段对应的预测视频内容特征；

基于所述第一视频片段对应的预测视频内容特征与所述第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型；

当目标视频片段为所述原始视频中在所述剪辑点之后预设时长的视频片段的情况下，所述采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型，包括：

将所述第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第二视频片段对应的预测视频内容特征；

基于所述第二视频片段对应的预测视频内容特征与所述第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

针对每一图像内容特征维度，按照所述图像内容特征维度对应的图像预处理方式，对每个所述视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧；

对所述调整后的图像帧进行图像特征提取，得到多个图像特征向量；

将所述多个图像特征向量进行拼接，得到所述第一视频片段和所述第二视频片段各自对应的视频特征向量；所述视频特征向量用于表征所述第一视频片段和所述第二视频片段各自对应的视频内容特征。
根据权利要求5所述的方法，其特征在于，所述获取训练样本数据，包括：

获取样本视频的视频精彩点集合；

针对每一视频精彩点，确定在所述样本视频中的视频精彩点之前预设时长的第一视频片段，以及在所述样本视频中的视频精彩点之后预设时长的第二视频片段；

根据所述第一视频片段和所述第二视频片段，得到所述视频精彩点对应的视频片段对。
根据权利要求8所述的方法，其特征在于，所述获取样本视频的视频精彩点集合，包括：

获取预设的精彩点提取信息；所述精彩点提取信息用于根据视频中的画面信息、声音信息、文本信息识别出视频精彩点；

根据所述精彩点提取信息，从所述样本视频中确定出多个视频精彩点，得到所述样本视频的视频精彩点集合。
一种视频剪辑装置，其特征在于，包括：

获取单元，被配置为执行获取对原始视频的剪辑点的选择指令，从所述原始视频中提取出目标视频片段；所述目标视频片段为所述原始视频中在所述剪辑点之前或在所述剪辑点之后预设时长的视频片段；

预测单元，被配置为执行将所述目标视频片段对应的视频内容特征输入至内容特征预测模型，得到预测视频内容特征；

视频片段匹配单元，被配置为执行根据所述预测视频内容特征，从视频素材片段集合中确定出待插入视频片段；所述待插入视频片段对应的视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；

反馈单元，被配置为执行向用户反馈所述待插入视频片段，以用于将所述待插入视频片段插入至所述原始视频的剪辑点。
根据权利要求10所述的装置，其特征在于，所述视频片段匹配单元，具体被配置为执行基于视频素材片段集合中的多个视频素材片段各自对应的视频内容特征，确定多个所述视频内容特征与所述预测视频内容特征之间的匹配程度排序结果；当匹配程度大于预设阈值的情况下，判定所述视频内容特征与所述预测视频内容特征之间的匹配程度满足预设条件；将所述视频内容特征对应的视频素材片段作为待插入视频片段。
根据权利要求10或11所述的装置，其特征在于，所述待插入视频片段包括多个，所述反馈单元，具体被配置为执行获取预设的反馈指标信息；按照所述反馈指标信息对多个待插入视频片段进行排序，得到反馈排序结果；基于所述反馈排序结果，反馈所述多个待插入视频片段。
根据权利要求12所述的装置，其特征在于，所述装置还包括：

目标插入视频片段确定单元，被配置为执行根据用户返回的插入选择信息，从所述多个待插入视频片段中确定目标插入视频片段；

目标插入视频片段插入单元，被配置为执行将所述目标插入视频片段插入至所述原始视频的剪辑点之前或剪辑点之后。
一种内容特征预测模型获得装置，其特征在于，所述装置包括：

训练样本数据获取单元，被配置为执行获取训练样本数据；所述训练样本数据包括多个视频片段对；每个所述视频片段对包括属于同一样本视频的第一视频片段和第二视频片段；所述第一视频片段为在所述样本视频中的视频关键点之前预设时长的视频片段；所述第二视频片段为在所述样本视频中的视频关键点之后预设时长的视频片段；

模型训练单元，被配置为执行采用所述训练样本数据，对待训练的内容特征预测模型进行训练，得到内容特征预测模型。
根据权利要求14所述的装置，其特征在于，当目标视频片段为所述原始视频中在所述剪辑点之前预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第一视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第一视频片段对应的预测视频内容特征；基于所述第一视频片段对应的预测视频内容特征与所述第二视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型；

当目标视频片段为所述原始视频中在所述剪辑点之后预设时长的视频片段的情况下，所述模型训练单元，具体被配置为执行将所述第二视频片段对应的视频内容特征输入至待训练的内容特征预测模型，得到所述第二视频片段对应的预测视频内容特征；基于所述第二视频片段对应的预测视频内容特征与所述第一视频片段对应的视频内容特征的差异，对待训练的内容特征预测模型的模型参数进行调整，直至调整后的所述内容特征预测模型符合预设训练条件，得到所述内容特征预测模型。
根据权利要求14所述的装置，其特征在于，所述装置还包括：

图像预处理单元，被配置为执行针对每一图像内容特征维度，按照所述图像内容特征维度对应的图像预处理方式，对每个所述视频片段对的第一视频片段和第二视频片段中各图像帧进行调整，得到调整后的图像帧；

图像特征提取单元，被配置为执行对所述调整后的图像帧进行图像特征提取，得到多个图像特征向量；

拼接单元，被配置为执行将所述多个图像特征向量进行拼接，得到所述第一视频片段和所述第二视频片段各自对应的视频特征向量；所述视频特征向量用于表征所述第一视频片段和所述第二视频片段各自对应的视频内容特征。
根据权利要求14所述的装置，其特征在于，所述训练样本数据获取单元，具体被配置为执行获取样本视频的视频精彩点集合；针对每一视频精彩点，确定在所述样本视频中的视频精彩点之前预设时长的第一视频片段，以及在所述样本视频中的视频精彩点之后预设时长的第二视频片段；根据所述第一视频片段和所述第二视频片段，得到所述视频精彩点对应的视频片段对。
根据权利要求17所述的装置，其特征在于，所述训练样本数据获取单元，具体被配置为获取预设的精彩点提取信息；所述精彩点提取信息用于根据视频中的画面信息、声音信息、文本信息识别出视频精彩点；根据所述精彩点提取信息，从所述样本视频中确定出多个视频精彩点，得到所述样本视频的视频精彩点集合。
一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的视频剪辑方法或如权利要求5至9中任一项所述的获得内容特征预测模型的方法。
一种非易失性计算机可读存储介质，当所述非易失性计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4中任一项所述的视频剪辑方法或如权利要求5至9中任一项所述的获得内容特征预测模型的方法。
一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的视频剪辑方法或如权利要求5至9中任一项所述的获得内容特征预测模型的方法。
一种计算机程序，其特征在于，所述计算机程序包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求1至4中任一项所述的视频剪辑方法或如权利要求5至9中任一项所述的获得内容特征预测模型的方法。