WO2020187086A1

WO2020187086A1 - 一种视频剪辑方法、装置、设备和存储介质

Info

Publication number: WO2020187086A1
Application number: PCT/CN2020/078548
Authority: WO
Inventors: 朱晓龙; 黄生辉; 梅利健; 陈卫东; 林少彬; 王一同; 季兴; 范杰; 罗敏; 黄婉瑜; 方圆; 陈仁健
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-03-21
Filing date: 2020-03-10
Publication date: 2020-09-24
Also published as: US11715497B2; US20210264952A1; CN109819179B; CN109819179A

Abstract

本申请实施例公开了一种视频剪辑方法，针对待剪辑对象，确定该待剪辑对象中用于视频剪辑的内容元素，通过第一行为树逻辑确定内容类型标识对应的素材集合标识，并根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合，根据内容元素和视频剪辑素材集合合成得到的剪辑视频。

Description

一种视频剪辑方法、装置、设备和存储介质

本申请要求于2019年03月21日提交的申请号为201910217779.5、发明名称为“一种视频剪辑方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，特别是涉及一种视频剪辑方法、装置、设备和存储介质。

背景技术

视频剪辑技术是一种将待剪辑对象例如静态图像、动态视频通过剪辑的方式合成一段剪辑视频的视频处理方式，常应用于短视频制作、视频集锦等视频剪辑场景。

传统视频剪辑方式是采用固定的剪辑模板，用户可以选择适合待剪辑对象的剪辑模板自动合成出剪辑视频。

然而剪辑模板都具有固定的素材，例如固定的音乐、特效、渲染特效等，导致针对不同的待剪辑对象，通过同一个剪辑模板合成得到的剪辑视频在整体风格上基本相同，具有同质性，带来不好的用户使用体验。

发明内容

为了解决上述技术问题，本申请提供了一种视频剪辑方法、装置、设备和存储介质，得到的剪辑视频同质性的程度更低，提高了用户的使用体验。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种视频剪辑方法，所述方法包括：

获取待剪辑对象；

确定所述待剪辑对象中用于视频剪辑的内容元素，所述内容元素具有对应的内容类型标识；

根据第一行为树逻辑确定所述内容类型标识对应的素材集合标识；

根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合；

根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。

另一方面，本申请实施例提供一种视频剪辑装置，所述装置包括获取单元、第一确定单元、第二确定单元和合成单元：

所述获取单元，用于获取待剪辑对象；

所述第一确定单元，用于确定所述待剪辑对象中用于视频剪辑的内容元素，所述内容元素具有对应的内容类型标识；

所述第二确定单元，用于根据第一行为树逻辑确定所述内容类型标识对应的素材集合标识；

所述第二确定单元，还用于根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合；

所述合成单元，用于根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。

另一方面，本申请实施例提供一种用于视频剪辑的设备，所述设备包括处理器以及存储器：

所述存储器用于存储至少一段程序代码，并将所述至少一段程序代码传输给所述处理器；

所述处理器用于根据所述至少一段程序代码中的指令执行第一方面所述的视频剪辑方法。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行第一方面所述的视频剪辑方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频剪辑方法的应用场景示意图；

图2为本申请实施例提供的一种视频剪辑方法的流程图；

图3为本申请实施例提供的针对动态视频确定内容元素的示例图；

图4为本申请实施例提供的利用第一行为树逻辑确定内容类型标识对应的视频剪辑素材集合的示例图；

图5为本申请实施例提供的一种确定视频剪辑素材集合的流程图；

图6为本申请实施例提供的一种视频剪辑方法的流程图；

图7为本申请实施例提供的一种视频剪辑软件首页的界面图；

图8为本申请实施例提供的一种视频剪辑方法的示例图；

图9为本申请实施例提供的一种视频剪辑装置的结构图；

图10为本申请实施例提供的一种视频剪辑装置的结构图；

图11为本申请实施例提供的一种视频剪辑装置的结构图；

图12为本申请实施例提供的一种用于视频剪辑的设备的结构图；

图13为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

传统视频剪辑方式中，由于同一剪辑模板具有固定的素材，导致针对不同的待剪辑对象，通过同一个剪辑模板合成得到的剪辑视频在整体风格上基本相同，具有同质性，用户使用体验不好。

例如，一个剪辑模板中的素材包括特效A，该剪辑模板设定的特效A位于剪辑视频的第3″到第4″。这样，当针对不同的待剪辑对象选择该剪辑模板后，得到的剪辑视频都会在第3″到第4″出现特效A，即不同的待剪辑视频通过同一个剪辑模板合成得到的剪辑视频在整体风格上基本相同。

为了解决上述技术问题，本申请实施例提供一种视频剪辑方法，该方法可以应用到终端设备中，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等具有视频剪辑功能的设备。

该视频剪辑方法还可以应用到服务器中，服务器可以是向终端设备提供视频剪辑服务的设备，终端设备可以将待剪辑对象上传给服务器，服务器利用本申请实施例提供的视频剪辑方法得到剪辑视频，并将剪辑视频返回给终端设备。其中，服务器可以是独立的服务器，也可以是集群中的服务器。

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的视频剪辑方法进行介绍。

参见图1，图1为本申请实施例提供的视频剪辑方法的应用场景示意图。该应用场景中包括终端设备101，终端设备101可以获取待剪辑对象。其中，待剪辑对象为用于通过剪辑的方式以合成剪辑视频所涉及的对象，待剪辑对象包括静态图像和/或动态视频。待剪辑对象还可以包括一组静态图像组成的动态图像。

待剪辑对象中包括内容元素，内容元素可以体现出待剪辑对象所包括的主要内容。内容元素可以为待剪辑对象中的标签信息、场景信息、物体信息(例如人的相关信息、动物的相关信息以及植物的相关信息等)、语音信息以及物体的位置信息中的至少一种。

一般情况下，若待剪辑对象为动态视频，则确定出的内容元素可以为从动态视频本身或部分片段中提取到的信息，部分片段例如为动态视频中的长镜头片段、打斗片段等较为精彩的视频片段，这些视频片段也可以称为高光时刻；若待剪辑对象为静态图片，则确定出的内容元素为静态图片本身中包括的人体、动物、建筑以及天气等。

例如，待剪辑对象为动态视频时，该动态视频中包括一个男人、一只狗以及一辆车，且有较长的镜头为这只狗的镜头，则确定出的内容元素为男人、狗以及车辆等。在待剪辑对象为静态图片时，该静态图片包括一个女人坐在椅子上抱着猫，则确定出的内容元素包括女人、猫以及椅子等。

终端设备101可以从待剪辑对象中确定用于视频剪辑的内容元素。待剪辑对象中的每个内容元素具有对应的内容类型标识，可以标识所对应内容元素的内容特点。例如，待剪辑对象为风景图片，则该待剪辑对象中包括的内容元素对应的内容类型标识为风景，通过内容类型标识终端设备101可以识别出内容元素为风景。再如，待剪辑对象为包括猫或者狗的图片或者视频时，猫和狗对应的内容类型标识为萌宠，通过内容类型标识终端设备101可以识别出内容元素为萌宠。

为了得到与内容元素所体现的内容特点相符的视频剪辑元素集合，以便合成的剪辑视频在整体风格上根据内容元素的不同而有所不同，终端设备101在确定内容元素后，可以通过第一行为树逻辑确定内容类型标识对应的素材集合标识，进而根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合。其中，视频剪辑素材集合中包括用于与内容元素合成剪辑视频所需的各种素材，例如贴纸、滤镜、特效、音乐、字幕、片头、片尾等。素材集合标识用于标识视频剪辑素材集合中视频剪辑素材的类型，例如，素材集合标识为萌宠，则该素材集合标识对应的视频剪辑素材集合中包括的视频剪辑素材与萌宠相关。

例如，内容元素的内容类型标识为萌宠，那么，确定出来的素材集合标识为萌宠，进而根据素材集合标识确定出的视频剪辑素材集合中包括的素材是与萌宠相关的素材；若内容元素的内容类型标识为风景，那么，确定出来的素材集合标识为风景，进而根据素材集合标识确定出的视频剪辑素材集合中包括的素材是与风景相关的素材，等等。

由于内容类型标识可以标识所对应内容元素的内容特点，因此，确定出的视频剪辑素材集合与内容元素所体现的内容特点相符，根据不同内容特点的内容元素所确定出的视频剪辑素材集合不同，相应的，所合成的剪辑视频在整体风格上具有不同特点。另外，由于行为树逻辑自身具有随机性，从而进一步提高了视频剪辑素材集合的多样性，使得根据类似内容特点的内容元素所合成的剪辑视频在整体风格上也能有所区别。可见，利用本申请实施例提供的视频剪辑方法，得到的剪辑视频同质性的程度更低，提高了用户的使用体验。

接下来，将结合附图对本申请实施例提供的视频剪辑方法进行详细介绍。

参见图2，图2示出了一种视频剪辑方法的流程图，所述方法包括：

S201、终端设备获取待剪辑对象。

在本实施例中，待剪辑对象的获取方式可以包括多种，其中，一种获取方式可以是终端设备从自身已存储的静态图像和/或动态视频中获取的，已存储的静态图像和/或动态视频可以是终端设备采集的，也可以是终端设备通过下载的方式获得的。若已存储的静态图像和/或动态视频是终端设备采集的，那么，静态图像和/或动态视频一般存储在终端设备的图库中，当用户需要进行视频剪辑时，终端设备可以提示用户从图库中选择静态图像和/或动态视频，当用户完成选择操作后，终端设备可以根据用户的选择操作，获取用户选择的静态图像和/或动态视频，此时，终端设备将用户选择的静态图像和/或动态视频作为待剪辑对象。

另一种获取方式可以是用户通过终端设备在需要进行视频剪辑时实时采集的，即当用户使用终端设备中的视频剪辑功能时，终端设备可以提示用户采集静态图像和/或动态视频，当用户利用终端设备完成静态图像和/或动态视频的采集后，终端设备可以获取当前采集到的静态图像和/或动态视频，此时，当前采集到的静态图像和/或动态视频作为待剪辑对象。

S202、终端设备确定待剪辑对象中用于视频剪辑的内容元素。

需要说明的是，根据获取的待剪辑对象利用自动剪辑算法对待剪辑对象进行自动剪辑是本申请实施例提供的视频剪辑方法的核心。如图1所示，自动剪辑算法主要可以包括两层架构，第一层架构为决策元素提取模块，其用于执行S202的步骤，从待剪辑对象中确定用于视频剪辑的内容元素。第二层架构为剪辑策略实施模块，其用于执行S203和S204的步骤，根据第一行为树逻辑确定与内容元素所体现的内容特点相符的视频剪辑素材集合。

可以理解的是，若待剪辑对象为动态视频，由于动态视频实际上是一种非结构化数据，为了保证终端设备可以识别出待剪辑对象中的内容元素，可以先利用人工智能(Artificial Intelligence，简称AI)将待剪辑对象转换成结构化数据，即利用AI为待剪辑对象中可以作为内容元素的目标添加内容类型标识，从而将待剪辑对象转换成终端设备可以识别的结构化数据。

在这种情况下，S202的一种可能实现方式为：终端设备可以通过提取待剪辑对象的结构化信息，从而确定待剪辑对象中的内容元素，以及内容元素对应的内容类型标识。一般情况下，终端设备可以基于时间戳，提取待剪辑对象的结构化信息，进而确定内容元素以及内容类型标识。其中，结构化信息可以包括：人脸检测与跟踪信息，如人脸关键点信息、人脸表情信息、人脸属性信息等；人体检测与跟踪得信息，如手势信息、动作信息等；宠物检测与跟踪信息，如宠物脸部关键点、宠物种类信息等；以及通过语音活动检测(Voice Activity Detection，简称为VAD)得到的音频信息等。

例如，待剪辑对象包括动态视频A，针对动态视频A得到内容元素的示例图如图3所示。决策元素提取模块获取到动态视频A后，基于时间戳提取结构化信息，从而确定待剪辑对象中的内容元素，这样，每个内容元素具有对应的时间戳。图3中示出了从动态视频A中确定的内容元素与时间戳的对应关系。图3示例性的示出了从动态视频A中确定的5种内容元素，分别为微笑、挥手、跳跃、风景，其中微笑对应的时间戳为3″-4″和23″-27″，挥手对应的时间戳为7″-10″，跳跃对应的时间戳为11″-12″，风景对应的时间戳为15″-19″。

需要说明的是，若待剪辑对象为动态视频，动态视频中可能包括很多视频帧，有一些视频帧能够体现出待剪辑对象的主要内容，而有一些视频帧体现其他内容。例如，待剪辑对象为电视剧的动态视频，该动态视频中一般会存在电视剧的相关内容，以及与电视剧无关的广告画面。那么，动态视频中体现电视剧的相关内容的视频片段可以作为内容元素。

在这种情况下，为了提高从待剪辑对象中确定内容元素的效率，可以将特定的视频帧作为关键帧，关键帧为对待剪辑对象进行分割的分割点，从而根据关键帧将待剪辑视频分割成多个视频片段，进而根据关键帧确定每个视频片段是否能够体现待剪辑对象的主要内容，实现根据关键帧确定待剪辑对象的内容元素。其中，关键帧可以包括一帧视频帧，也可以包括多帧连续的视频帧。

例如，待剪辑对象包括视频帧1、视频帧2、视频帧3……视频帧100，待剪辑对象中第20帧至第75帧之间为与电视剧无关的广告画面。若关键帧为视频帧20和视频帧75，则利用关键帧对待剪辑对象进行分割得到多个视频片段，第一个视频片段为由视频帧1至视频帧19所构成的视频片段，第二个视频片段为由视频帧20至视频帧75所构成的视频片段，第三个视频片段为由视频帧76至视频帧100所构成的视频片段。终端设备根据关键帧识别出第一个视频片段和第三个视频片段可以体现待剪辑对象的主要内容，而第二视频片段为与待剪辑对象的主要内容无关的其他内容。故，终端设备确定出第一个视频片段和第三个视频片段为内容元素。

S203、终端设备根据第一行为树逻辑确定内容类型标识对应的素材集合标识。

S204、终端设备根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合。

终端设备可以根据第一行为树逻辑从视频剪辑素材库中确定内容类型标识对应的素材集合标识，进而根据素材集合标识确定视频剪辑素材集合。视频剪辑素材库中的视频剪辑素材的来源可以包括多种，例如，视频剪辑素材可以来自于基本素材库，基本素材库中包括的视频剪辑素材为进行视频剪辑必要的素材；视频剪辑素材也可以来自于一键库(Media Editing Asset)，一键库中包括如音乐、片头、片尾、字幕、贴纸、特效、滤镜等视频剪辑素材。一键库中的视频剪辑素材为预先设置的。例如，视频剪辑素材还可以来自于基本素材库和一键库等。其中，一键库中的音乐具有不同的播放时长，可以与内容元素相契合；片头片尾可以为视觉标题贴纸和特效；字幕内容与内容元素对应的内容类型标识相对应；贴纸可以为全景氛围贴纸，用于配合场景识别得到的场景的氛围，还可以为目标跟随贴纸，动态跟随人或者动物等物体；特效可以为转场特效，用于连接不同的内容元素，可以是基于图形处理器(Graphics Processing Unit，简称为GPU)渲染的shader(着色器，一种用于渲染图形的技术)语言实现的视觉动画效果；滤镜可以为配合场景识别得到的滤镜效果，如晚霞滤镜、复古电影滤镜等。

行为树(Behaviour Tree)逻辑，是指用树状结构表示智能体从环境感知到逻辑执行的方法，常用于描述游戏中的非玩家角色(Non-Player Character，简称NPC)行为。在本实施例中，将行为树逻辑应用到视频剪辑中，以确定与内容元素的内容特点相符的视频剪辑素材集合。

行为树可以包括不同的节点，例如顺序(Sequence)节点、条件(Condition)节点、动作(Action)节点。顺序(Sequence)节点执行所有子节点则返回成功，如果某个子节点失败则返回失败。例如，利用行为树需要执行的主任务为选取长度为10″的动态视频，可以将其分解成选取3个长度为分别为3″、3″、4″动态视频片段的子任务，每个子任务可以表示为顺序节点的子节点。

条件(Condition)节点可以根据条件的比较结果，返回成功或失败。例如条件节点表示判断动态视频中一个内容元素对应的时间段的长度是否为3″。如果是，选择该时间段所对应的动态视频；如果不是，选择随机3″时间段所对应的动态视频。

动作(Action)节点可以根据动作结果返回成功、失败或运行。动作节点负责动态视频剪辑策略的实施，如选择动态视频中的片段并返回，直接对应底层视频软件开发工具包(Software Development Kit，简称SDK)的应用程序编程接口(Application Programming Interface，简称API)。

可以理解的是，不同的行为树可以实现不同的逻辑，在本实施例中，S203中所使用的行为树逻辑为第一行为树逻辑，利用第一行为树逻辑确定内容类型标识对应的视频剪辑素材集合的示例图参见图4所示。其中，图4中的内容元素为图3得到的内容元素，内容元素可以输入到图4所示的第一行为树中，第一行为树逻辑可以根据内容类型标识确定出视频剪辑素材集合。

其中，动作1、动作2、动作3所示的节点用于表示针对内容元素确定的视频剪辑素材。例如，动作1为“加个萌宠贴纸”，则确定出的视频剪辑素材为萌宠贴纸，进而得到视频剪辑素材集合。再如，顺序节点的子节点表示选择3″和4″的视频片段，则时间戳为3″-5″的视频片段、时间戳为23″-27″的视频片段以及时间戳为7″-10″的视频片段返回成功，则动作1为挥手，动作2为微笑；选择节点的子节点表示视频片段的长度是否为3″，由于时间戳为3″-5″的视频片段的长度为3″，则动作2为微笑，由于时间戳为11″-12″的视频片段的长度为2″，则动作3为跳跃。

需要说明的是，一般情况下行为树逻辑例如第一行为树逻辑等可以利用领域描述语言(Domain Specific Language，简称DSL)的形式表述出来，便于存储与解析。具体的，以可扩展标记语言(Extensible Markup Language，简称XML)形式描述。

本申请实施例将第一行为树逻辑用于视频剪辑，那么，在此之前，需要创建行为树例如第一行为树，并且保证终端设备可以使用第一行为树逻辑。为此，需要研发人员开发行为树开发工具，例如编辑器，从而利用编辑器实现行为树节点的创建、修改、子树编辑等等。同时还需要研发人员开发解释器，从而读取以XML形式表示的行为树，然后将其动态编译成代码逻辑，加载到剪辑策略实施模块中去。

在视频剪辑素材来自于一键库的情况下，一键库与创建的第一行为树被打包成资源的形式，利用后台的资源文件管理系统(Content Management System简称CMS)进行分发，从而在需要对待剪辑对象进行视频剪辑时，使用第一行为树逻辑确定出视频剪辑素材集合。

S205、根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。

在本实施例中，可以按照内容元素的实际拍摄时间作为视频剪辑素材集合中视频剪辑素材在时间轴上的排序依据，从而在时间轴上将内容元素与视频剪辑素材集合合成得到剪辑视频。

需要说明的是，内容元素具有对应的时间戳，例如，图3中内容元素为“微笑”，其对应的时间戳为3″-4″，该内容元素的时长为1″。然而，在一些情况下，该内容元素在剪辑视频中被分配的时长可能与内容元素的时长不同，内容元素在剪辑视频中被分配的时长可能大于内容元素的时长，也可能小于内容元素的时长。因此，在一种实现方式中，终端设备可以根据第三行为树逻辑对内容元素进行时间调整，使得内容元素调整后的时长符合剪辑视频中被分配的时长，从而保证将内容元素和视频剪辑素材集合进行合成时更加合理、准确。

终端设备根据第三行为树逻辑对内容元素进行时间调整的方式取决于内容元素在剪辑视频中被分配的时长与内容元素的时长的大小关系。若内容元素在剪辑视频中被分配的时长大于内容元素的时长，则终端设备可以根据第三行为树逻辑拉长内容元素的时长，实现对内容元素的时间调整。例如，内容元素的时长为1″，内容元素在剪辑视频中被分配的时长为2″，则需要终端设备根据第三行为树逻辑将内容元素的时长拉长为2″，使得内容元素调整后的时长符合在剪辑视频中被分配的时长。终端设备可以采用0.5倍速播放的方式，将时长为1″ 的内容元素的时长拉长为2″，还可以采用重复播放的方式，将时长为1″的内容元素的时长拉长为2″。

若内容元素在剪辑视频中被分配的时长小于内容元素的时长，则终端设备根据第三行为树逻辑缩短内容元素的时长，实现对内容元素的时间调整。例如，内容元素的时长为1″，内容元素在剪辑视频中被分配的时长为0.5″，则需要根据第三行为树逻辑将内容元素的时长缩短为0.5″，使得内容元素调整后的时长符合在剪辑视频中被分配的时长。终端可以采用2倍速播放的方式，将时长为1″内容元素的时长缩短为0.5″。

由上述技术方案可以看出，针对待剪辑对象，确定该待剪辑对象中用于视频剪辑的内容元素，每一个内容元素都具有对应的内容类型标识，可以标识所对应内容元素的内容特点。在确定内容元素后，可以通过第一行为树逻辑确定内容类型标识对应的素材集合标识，并根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合，即确定出的视频剪辑素材集合与内容元素所体现的内容特点相符，从而，根据内容元素和视频剪辑素材集合合成得到的剪辑视频在整体风格上符合该内容元素的内容特点，根据不同内容特点的内容元素所合成的剪辑视频在整体风格上具有不同特点。而且，行为树逻辑所具有的随机性可以进一步提高视频剪辑素材集合的多样性，使得根据类似内容特点的内容元素所合成的剪辑视频在整体风格上也能有所区别，相对于传统视频剪辑，得到的剪辑视频同质性的程度更低，提高了用户的使用体验。

另外，利用本申请实施例提供的视频剪辑方法，用户只需要选择最原始的静态图片和/或动态视频作为待剪辑对象，之后，终端设备便可以自动实现视频剪辑，无需用户自己剪裁得到内容元素，节省用户交互成本，提高视频剪辑效率。

可以理解的是，终端设备在根据内容类型标识确定视频剪辑素材集合时，若确定出一个视频剪辑素材集合，那么，在执行S204时可以直接利用该视频剪辑素材集合。若确定出多个视频剪辑素材集合，由于在执行S204时一般仅使用一个视频剪辑素材集合，且所使用的视频剪辑素材集合在整体风格上最为符合该内容元素的内容特点，此时，需要从中挑选出一个视频剪辑素材集合作为最终确定的内容类型标识对应的视频剪辑素材集合。

接下来，将在素材集合标识为多个的情况下，对S204进行介绍。参见图5， S204包括：

S501、若素材集合标识包括多个，终端设备从多个素材集合标识中确定出目标素材集合标识。

可以理解的是，终端设备确定出的内容类型标识对应的素材集合标识可以包括一个，也可以包括多个。例如，若内容类型标识包括多个时，可能确定出多个素材集合标识。

在本实施例中，确定目标素材集合标识的方式可以包括多种。在一种可能的实现方式中，为了保证最终确定出的内容类型标识对应的视频剪辑素材集合在整体风格上最符合内容元素的内容特点，终端设备确定目标素材集合标识的方式可以是：统计多个素材集合标识中每个素材集合标识的频次，将多个素材集合标识中频次最高的素材集合标识作为目标素材集合标识。由于目标素材集合标识出现的频次最高，则目标素材集合标识对应的视频剪辑素材集合在整体风格上最符合内容元素的内容特点。

例如，待剪辑对象为动态视频，该动态视频按照时间戳被划分为10个视频片段，其中8个视频片段的内容元素的内容类型标识为萌宠，2个视频片段的内容元素的内容类型标识为风景，则根据内容类型标识确定的多个素材集合标识包括萌宠和风景，其中，萌宠的频次为8次，而风景的频次为2次，可见，素材集合标识为萌宠的视频剪辑素材集合更为符合内容元素的内容特点，则可以将萌宠作为目标素材集合标识。

S502、终端设备将目标素材集合标识对应的视频剪辑素材集合作为内容类型标识对应的视频剪辑素材集合。

通过本实施例提供的方法，终端设备可以在素材集合标识包括多个的情况下，从多个视频剪辑素材集合中合理地选择出内容类型标识对应的视频剪辑素材集合，从而统一合成剪辑视频所要使用的视频剪辑素材集合，使得用于合成剪辑视频所使用的视频剪辑素材集合在整体风格上最为符合内容元素的内容特点。

在一些情况下，视频剪辑素材集合中包括很多视频剪辑素材，有些视频剪辑素材与内容类型标识相匹配，而有些视频剪辑素材与内容类型标识不匹配，与内容类型标识相匹配的视频剪辑素材更加符合内容元素的内容特点，与内容元素进行合成时，得到的剪辑视频更加协调。

因此，在一种实现方式中，在执行S204后，可以根据第二行为树逻辑从视频剪辑素材集合中确定出与内容类型标识匹配的视频剪辑素材，从而在执行S205时，终端设备可以根据内容元素和匹配的视频剪辑素材合成得到剪辑视频。

例如，素材集合标识为萌宠的视频剪辑素材集合中包括图案为狗的贴纸、图案为兔子的贴纸，内容类型标识为狗，则终端设备可以从视频剪辑素材集合确定出匹配的视频剪辑素材，即图案为狗的贴纸，从而根据内容元素“狗”和图案为狗的贴纸合成得到剪辑视频。

通过本实施例提供的方法，使得用于合成剪辑视频的视频剪辑素材在整体风格上更加符合内容元素的内容特点，匹配的视频剪辑素材与内容元素合成得到的剪辑视频更加协调。

接下来，将结合实际应用场景对本申请实施例提供的视频剪辑方法进行介绍。在该应用场景中，用户利用终端设备上的视频剪辑软件进行视频剪辑，待剪辑对象由用户从终端设备的图库中选择，视频剪辑素材来自于一键库。参见图6，图6示出了一种视频剪辑方法的流程图，包括：

S601、用户打开终端设备上的视频剪辑软件。

视频剪辑软件首页的界面可以参见图7中701所示，该界面701包括拍摄选项704、编辑选项705、AI剪辑选项706以及模版推荐区域707，该模版推荐区域707示例性的示出了当前可用的四个模板：模版1、模板2、模板3以及模板。

S602、用户选定视频剪辑软件中的AI剪辑选项。

用户选定AI剪辑选项后，进入视频剪辑界面，视频剪辑界面参见图7中702所示。视频剪辑界面702上包括拍摄按键708、待剪辑对象的选择区域709、视频播放区域710以及确认选项711，如“选好了”，拍摄按键708和待剪辑对象的选择区域709示出的至少一个待剪辑对象用于提示用户拍摄或选择待剪辑对象。

S603、用户根据终端设备上的提示选择或拍摄待剪辑对象。

参见图8，图8以用户从图库中选择待剪辑对象为例对后续根据待剪辑对象实现视频剪辑进行介绍。其中，用户选择的待剪辑对象包括两个静态图片和三个动态视频。

S604、终端设备获取待剪辑对象。

实现方式可以参见上述步骤S201，在此不再赘述。

S605、终端设备确定待剪辑对象中用于视频剪辑的内容元素，内容元素具有对应的内容类型标识。

参见图8，终端设备确定待剪辑对象中用于视频剪辑的内容元素分别为静态图片A、动态视频片段B、静态图片C、动态视频片段D和动态视频片段E。动态视频片段B’、动态视频片段D’和动态视频片段E’可以是根据前述三个动态视频提取得到的。内容元素的确定方式可以参见步骤S202，在此不再赘述。

S606、终端设备根据第一行为树逻辑确定内容类型标识对应的素材集合标识。

实现方式可以参见步骤S203，在此不再赘述。

S607、终端设备根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合。

参见图8，终端设备从一键库中确定内容类型标识对应的视频剪辑素材集合。终端设备通过对内容元素进行裁剪，最终得到用于与视频剪辑集合进行合成的内容元素分别为静态图片A’、动态视频片段B’、动态视频片段D’和动态视频片段E’。其中，静态图片A’为静态图片A本身，动态视频片段B’为动态视频片段B的部分片段，动态视频片段D’为动态视频片段D的部分片段，动态视频片段E’为动态视频片段E本身。实现方式可以参见步骤S204，在此不再赘述。

S608、终端设备根据内容元素和视频剪辑素材集合合成得到剪辑视频。

得到的剪辑视频参见图8所示，该剪辑视频包括视频流和音频流，其中，视频流由上述动态视频片段B’、静态图片A’、动态视频片段D’以及动态视频片段E’结合一键库中的主题得到。音频流为一键库中的音频素材。

终端设备得到剪辑视频后，可以将得到的剪辑视频展示给用户，其展示界面参见图7中703所示。展示界面703中包括视频播放区域710、重制选项712以及输出选项713。若用户对该剪辑视频满意则可以点击输出选项713，即“输出”按键，输出该剪辑视频；若用户对该剪辑视频不满意，则可以点击703中重制选项712，即“换一换”按键，重新剪辑视频。

基于前述实施例提供的一种视频剪辑方法，本申请实施例还提供一种视频剪辑装置，参见图9，装置包括获取单元901、第一确定单元902、第二确定单元903和合成单元904：

获取单元901，用于获取待剪辑对象；

第一确定单元902，用于确定待剪辑对象中用于视频剪辑的内容元素，内容元素具有对应的内容类型标识；

第二确定单元903，用于根据第一行为树逻辑确定内容类型标识对应的素材集合标识；

第二确定单元903，还用于根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合；

合成单元904，用于根据内容元素和视频剪辑素材集合合成得到剪辑视频。

在一种可能的实现方式中，第二确定单元903，用于：

若素材集合标识包括多个，从多个素材集合标识中确定出目标素材集合标识；

将目标素材集合标识对应的视频剪辑素材集合作为内容类型标识对应的视频剪辑素材集合。

在一种可能的实现方式中，参见图10，装置还包括第三确定单元905：

第三确定单元905，用于根据第二行为树逻辑从视频剪辑素材集合中确定出与内容类型标识匹配的视频剪辑素材；

合成单元，用于根据内容元素和匹配的视频剪辑素材合成得到剪辑视频。

在一种可能的实现方式中，参见图11，装置还包括调整单元906：

调整单元906，用于根据第三行为树逻辑对内容元素进行时间调整，使得内容元素调整后的时长符合剪辑视频中被分配的时长。

在一种可能的实现方式中，第一确定单元902，用于通过提取待剪辑对象的结构化信息，确定待剪辑对象中的内容元素，以及内容元素对应的内容类型标识。

在一种可能的实现方式中，若待剪辑对象为动态视频，第一确定单元902，用于根据待剪辑对象的关键帧从待剪辑对象中确定用于视频剪辑的内容元素。

本申请实施例还提供了一种用于视频剪辑的设备，下面结合附图对用于视频剪辑的设备进行介绍。请参见图12所示，本申请实施例提供了一种用于视频剪辑的设备1000，该设备1000还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12，手机包括：射频(Radio Frequency，简称RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，简称WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，简称LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(General Packet Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(Liquid Crystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图12中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1080还具有以下功能：

获取待剪辑对象；

确定待剪辑对象中用于视频剪辑的内容元素，内容元素具有对应的内容类型标识；

根据第一行为树逻辑确定内容类型标识对应的素材集合标识；

根据素材集合标识确定与内容类型标识对应的视频剪辑素材集合；

根据内容元素和视频剪辑素材集合合成得到剪辑视频。

可选的，处理器还用于执行：

根据第二行为树逻辑从视频剪辑素材集合中确定出与内容类型标识匹配的视频剪辑素材；

根据内容元素和匹配的视频剪辑素材合成得到剪辑视频。

可选的，处理器还用于执行：

根据第三行为树逻辑对内容元素进行时间调整，使得内容元素调整后的时长符合剪辑视频中被分配的时长。

可选的，处理器还用于执行：

通过提取待剪辑对象的结构化信息，确定待剪辑对象中的内容元素，以及内容元素对应的内容类型标识。

可选的，若待剪辑对象为动态视频，处理器，还用于执行：

根据待剪辑对象的关键帧，从待剪辑对象中确定用于视频剪辑的内容元素。

本申请实施例提供的用于视频剪辑的设备可以是服务器，请参见图13所示，图13为本申请实施例提供的服务器1100的结构图，服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

其中，CPU 1022用于执行如下步骤：

获取待剪辑对象；

根据内容元素和视频剪辑素材集合合成得到剪辑视频。

可选的，处理器还用于执行：

根据内容元素和匹配的视频剪辑素材合成得到剪辑视频。

可选的，处理器还用于执行：

可选的，若待剪辑对象为动态视频，处理器，还用于执行：

在本申请实施例中，还提供了一种计算机可读存储介质，应用于终端或者服务器，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的视频剪辑方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种视频剪辑方法，其特征在于，所述方法包括：

获取待剪辑对象；

确定所述待剪辑对象中用于视频剪辑的内容元素，所述内容元素具有对应的内容类型标识；

根据第一行为树逻辑确定所述内容类型标识对应的素材集合标识；

根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合；

根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。
根据权利要求1所述的方法，其特征在于，所述根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合，包括：

若所述素材集合标识包括多个，从多个素材集合标识中确定出目标素材集合标识；

将所述目标素材集合标识对应的视频剪辑素材集合作为所述内容类型标识对应的视频剪辑素材集合。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据第二行为树逻辑从所述视频剪辑素材集合中确定出与所述内容类型标识匹配的视频剪辑素材；

所述根据所述内容元素和视频剪辑素材集合合成得到剪辑视频，包括：

根据所述内容元素和所述匹配的视频剪辑素材合成得到剪辑视频。
根据权利要求1-3任意一项所述的方法，其特征在于，所述方法还包括：

根据第三行为树逻辑对所述内容元素进行时间调整，使得所述内容元素调整后的时长符合所述剪辑视频中被分配的时长。
根据权利要求1-3任意一项所述的方法，其特征在于，所述确定所述待剪辑对象中用于视频剪辑的内容元素，包括：

通过提取所述待剪辑对象的结构化信息，确定所述待剪辑对象中的所述内容元素，以及所述内容元素对应的内容类型标识。
根据权利要求1-3任意一项所述的方法，其特征在于，若所述待剪辑对象为动态视频，所述确定所述待剪辑对象中用于视频剪辑的内容元素，包括：

根据所述待剪辑对象的关键帧，从所述待剪辑对象中确定用于视频剪辑的内容元素。
一种视频剪辑装置，其特征在于，所述装置包括获取单元、第一确定单元、第二确定单元和合成单元：

所述获取单元，用于获取待剪辑对象；

所述第一确定单元，用于确定所述待剪辑对象中用于视频剪辑的内容元素，所述内容元素具有对应的内容类型标识；

所述第二确定单元，用于根据第一行为树逻辑确定所述内容类型标识对应的素材集合标识；

所述第二确定单元，还用于根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合；

所述合成单元，用于根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。
根据权利要求7所述的装置，其特征在于，所述第二确定单元，用于：

若所述素材集合标识包括多个，从多个素材集合标识中确定出目标素材集合标识；

将所述目标素材集合标识对应的视频剪辑素材集合作为所述内容类型标识对应的视频剪辑素材集合。
根据权利要求7所述的装置，其特征在于，所述装置还包括第三确定单元：

所述第三确定单元，用于根据第二行为树逻辑从所述视频剪辑素材集合中确定出与所述内容类型标识匹配的视频剪辑素材；

所述合成单元，用于根据所述内容元素和所述匹配的视频剪辑素材合成得到剪辑视频。
根据权利要求7-9任意一项所述的装置，其特征在于，所述装置还包括调整单元：

所述调整单元，用于根据第三行为树逻辑对所述内容元素进行时间调整，使得所述内容元素调整后的时长符合所述剪辑视频中被分配的时长。
根据权利要求7-9任意一项所述的装置，其特征在于，所述第一确定单元，用于通过提取所述待剪辑对象的结构化信息，确定所述待剪辑对象中的所述内容元素，以及所述内容元素对应的内容类型标识。
根据权利要求7-9任意一项所述的装置，其特征在于，若所述待剪辑对象为动态视频，所述第一确定单元，用于根据所述待剪辑对象的关键帧，从所述待剪辑对象中确定用于视频剪辑的内容元素。
一种用于视频剪辑的设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储至少一段程序代码，并将所述至少一段程序代码传输给所述处理器；

所述处理器用于根据执行：

获取待剪辑对象；

确定所述待剪辑对象中用于视频剪辑的内容元素，所述内容元素具有对应的内容类型标识；

根据第一行为树逻辑确定所述内容类型标识对应的素材集合标识；

根据所述素材集合标识确定与所述内容类型标识对应的视频剪辑素材集合；

根据所述内容元素和视频剪辑素材集合合成得到剪辑视频。
根据权利要求13所述的用于视频剪辑的设备，其特征在于，所述处理器还用于执行：

若所述素材集合标识包括多个，从多个素材集合标识中确定出目标素材集合标识；

将所述目标素材集合标识对应的视频剪辑素材集合作为所述内容类型标识对应的视频剪辑素材集合。
根据权利要求13所述的用于视频剪辑的设备，其特征在于，所述处理器还用于执行：

根据第二行为树逻辑从所述视频剪辑素材集合中确定出与所述内容类型标识匹配的视频剪辑素材；

根据所述内容元素和所述匹配的视频剪辑素材合成得到剪辑视频。
根据权利要求13-15任意一项所述的用于视频剪辑的设备，其特征在于，所述处理器还用于执行：

根据第三行为树逻辑对所述内容元素进行时间调整，使得所述内容元素调整后的时长符合所述剪辑视频中被分配的时长。
根据权利要求13-15任意一项所述的用于视频剪辑的设备，其特征在于，所述处理器还用于执行：

通过提取所述待剪辑对象的结构化信息，确定所述待剪辑对象中的所述内容元素，以及所述内容元素对应的内容类型标识。
根据权利要求13-15任意一项所述的用于视频剪辑的设备，其特征在于，若所述待剪辑对象为动态视频，所述处理器，还用于执行：

根据所述待剪辑对象的关键帧，从所述待剪辑对象中确定用于视频剪辑的内容元素。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行权利要求1-6所述的视频剪辑方法。