WO2022001593A1

WO2022001593A1 - 视频生成方法、装置、存储介质及计算机设备

Info

Publication number: WO2022001593A1
Application number: PCT/CN2021/098796
Authority: WO
Inventors: 张新磊
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-07-03
Filing date: 2021-06-08
Publication date: 2022-01-06
Also published as: US20230066716A1; CN111726536B; CN111726536A

Abstract

提供一种视频生成方法、装置、存储介质及计算机设备，属于视频处理技术领域。所述方法包括：响应于针对视频合拍选项的触发操作，进行视频拍摄；获取当前拍摄得到的第二视频，该第二视频对应于第一视频中包括目标角色的视频片段；基于对第一视频中的目标角色及其他角色的识别，将第二视频融合至第一视频的视频内容中，获得合拍视频。该方法不但能够取得优质的拍摄效果，而且还能够降低拍摄成本。

Description

视频生成方法、装置、存储介质及计算机设备

本申请要求于2020年07月03日提交中国专利局、申请号为2020106368525、申请名称为“视频生成方法、装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别涉及视频生成技术。

背景技术

物质文明的快速发展，使得大众对精神文明的追求日益提高，随之市面上涌现出了众多的视频分享平台，比如短视频分享平台便是其中一种。目前，原创用户在拍摄或制作好视频后，可以将视频上传至视频分享平台。而其他用户除了可以通过视频分享平台观看该视频之外，还可以对该视频进行诸如点赞、评论或转发等操作。

另外，出于增添趣味性、提升视频产量等方面的考量，视频分享平台还支持用户对他人视频进行二度创作，比如用户在视频分享平台上浏览到喜爱的视频后，可以基于该视频制作合拍视频，即用户可以将自身拍摄的视频与他人视频融合起来得到合拍视频。而在拍摄合拍视频时，拍摄效果和拍摄成本一直是用户关心的问题。为此，如何在视频合拍场景中取得优质的拍摄效果，同时降低拍摄成本，便成为了时下本领域技术人员亟待解决的一个问题。

发明内容

本申请实施例提供了一种视频生成方法、装置、存储介质及计算机设备，不但能够取得优质的拍摄效果，而且还能够降低拍摄成本。所述技术方案如下：

一方面，提供了一种视频生成方法，由电子设备执行，所述方法包括：

响应于针对视频合拍选项的触发操作，进行视频拍摄；

获取当前拍摄得到的第二视频；所述第二视频对应于第一视频中包括目标角色的视频片段；

基于对所述第一视频中的目标角色及其他角色的识别，将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频。

另一方面，提供了一种视频生成装置，所述装置包括：

第一处理模块，用于响应于针对视频合拍选项的触发操作，进行视频拍摄；

视频获取模块，用于获取当前拍摄得到的第二视频；所述第二视频对应于第一视频中包括目标角色的视频片段；

第二处理模块，用于基于对所述第一视频中的目标角色及其他角色的识别，将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频。

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的视频生成方法。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的视频生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的视频生成方法。

附图说明

图1是本申请实施例提供的一种视频生成方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种视频生成方法的流程图；

图3是本申请实施例提供的一种用户界面的示意图；

图4是本申请实施例提供的一种视频生成方法的流程图；

图5是本申请实施例提供的另一种用户界面的示意图；

图6是本申请实施例提供的另一种用户界面的示意图；

图7是本申请实施例提供的另一种用户界面的示意图；

图8是本申请实施例提供的另一种用户界面的示意图；

图9是本申请实施例提供的另一种用户界面的示意图；

图10是本申请实施例提供的另一种用户界面的示意图；

图11是本申请实施例提供的另一种用户界面的示意图；

图12是本申请实施例提供的另一种用户界面的示意图；

图13是本申请实施例提供的一种视频生成方法的流程图；

图14是本申请实施例提供的一种视频生成方法的流程图；

图15是本申请实施例提供的一种视频生成方法的流程图；

图16是本申请实施例提供的一种人体关键点的示意图；

图17是本申请实施例提供的一种移动目标物的检测和跟踪的流程示意图；

图18是本申请实施例提供的一种Deepfake技术的架构图；

图19是本申请实施例提供的一种视频生成方法的整体执行流程的示意图；

图20是本申请实施例提供的另一种用户界面的示意图；

图21是本申请实施例提供的另一种用户界面的示意图；

图22是本申请实施例提供的另一种用户界面的示意图；

图23是本申请实施例提供的另一种用户界面的示意图；

图24是本申请实施例提供的另一种用户界面的示意图；

图25是本申请实施例提供的另一种用户界面的示意图；

图26是本申请实施例提供的另一种用户界面的示意图；

图27是本申请实施例提供的另一种用户界面的示意图；

图28是本申请实施例提供的另一种用户界面的示意图；

图29是本申请实施例提供的一种视频生成装置的结构示意图；

图30是本申请实施例提供的一种电子设备的结构示意图；

图31是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

首先对本申请实施例提供的视频生成方法涉及的实施环境进行介绍。

示例一，参见图1，该实施环境可以包括：终端101和服务器102。即，本申请实施例提供的视频生成方法由终端101和服务器102联合执行。

其中，终端101通常为移动式终端。在一种可能的实现方式中，终端101终端包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机等。

其中，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

作为一个示例，终端101上通常安装有视频客户端，服务器102用于为该视频客户端提供后台服务，以支持用户通过该视频客户端浏览其他用户发布在视频分享平台上的视频。

示例二，该实施环境还可以仅包括终端101。即，本申请实施例提供的视频生成方法还可由终端101单独执行。针对该种情况，通常需要终端101具备强大的计算处理能力。

基于上述的实施环境，本申请实施例提供的视频生成方法可以应用在视频合拍场景下。

场景1、短视频的视频合拍场景

其中，短视频通常指代播放时长较短，比如小于某一时长阈值的视频。示例性地，该时长阈值可以为30秒或50秒或60秒等，本申请实施例对此不进行具体限定。

一方面，在视频合拍过程中，本申请实施例可以基于现有视频画面内容输出提示消息为用户提供拍摄引导，使得用户可以根据视频所记录的故事内容，自己低成本地拍摄出与原有视频画面融合度高、有趣味的视频。

即，本申请实施会基于对视频画面内容的理解与分析(比如分析摄像头拍摄方式、角色的人体姿态、识别角色对白等)，为用户提供拍摄引导(比如角色的面部朝向、面部表情、肢体动作、摄像头拍摄方式、角色对白等)。这样当用户进行视频合拍时，可以根据系统输出的提示消息进行拍摄。也即，本申请实施例在视频合拍过程中，可以对诸如用户运动姿态、面部表情状态、摄像头拍摄方式等进行引导，从而更友好地帮助用户完成视频拍摄，降低用户进行视频合拍的拍摄成本，提升拍摄效率，同时提升拍摄效果，使得最终的合拍视频具有较好的内容还原度。

示例性地，摄像头拍摄方式包括但不限于：摄像头的取景方式、摄像头的运动方式。可选的，摄像头的取景方式包括但不限于水平取景或竖向取景等；可选的，摄像头的运动方式包括但不限于：推镜头、拉镜头、摇镜头、跟镜头、静止镜头、镜头左右上下移动等。

另一方面，本申请实施例提供的是一种基于场景融合的短视频合拍方式。示例性地，场景融合的含义是，原始视频和用户拍摄的视频不但在内容上相互关联，而且最终得到的合拍视频是通过对原始视频和用户拍摄的视频进行内容上的融合得到的，即视频的合成处理是将用户拍摄的视频穿插到原始视频中，对原始视频中部分视频片段进行替换，最终得到的是一路视频，也即将原始视频和用户拍摄的视频合成处理为一路视频，得到合拍视频。其中，合拍视频的每帧视频图像中均包含一路视频画面。换言之，合拍视频在进行呈现时画面中仅包括一路视频，而非同一画面上包括两路视频，即该种基于场景融合的短视频合拍方式不是对两路视频进行生硬拼接，不是在同一画面上呈现诸如左右分屏、上下分屏或大小窗模式的两路视频。

场景2、其他视频的视频合拍场景

除了场景1中示出的短视频合拍场景之外，本申请实施例提供的视频生成方法还可以应用于其他视频的合拍场景下，比如电影片段或电视剧片段等，本申请实施例对此不进行具体限定。

图2是本申请实施例提供的一种视频生成方法的流程图，执行主体示例性的为图1中示出的终端101，应理解，在实际应用中，本申请实施例提供的视频生成方法还可以由其它具备视频处理能力的电子设备。参见图2，本申请实施例提供的方法包括：

201、终端响应于针对视频合拍选项的触发操作，进行视频拍摄。

可选的，终端可以在第一视频的播放界面上显示该视频合拍选项。其中，第一视频在本申请实施例中也被称之为原始视频。即本文将用户浏览并播放的视频称之为第一视频。示例性地，第一视频可以为视频分享平台的注册用户发布到视频分享平台的短视频，该短视频既可以为用户原创视频，也可以为用户模仿视频，还可以为用户在诸如电视剧、电影或任意类型的视频中截取的一小段视频，本申请实施例对此不进行具体限定。另外，第一视频除了短视频形式之外，还可以为时长大于短视频的其它形式视频，本申请实施例对此同样不进行具体限定。宽泛地来讲，任何形式的包含人物角色的视频均可应用于本方法。

如图3所示，在第一视频的播放过程中，可以在播放界面上显示一个视频合拍选项301。作为一个示例，为了避免该视频合拍选项301对呈现的视频画面过多遮挡，可以将该视频合拍选项301布局显示在播放界面的边缘位置处，比如播放界面的左边缘、右边缘、上边缘或下边缘等。在图3中，该视频合拍选项301显示在了播放界面的右边缘且靠下的位置。当然，在实际应用中，视频合拍选项301也可以显示其它位置，如播放界面中除边缘位置处外的其它位置，又如播放界面对应的视频操作选项显示栏中，本申请在此不对视频合拍选项301的显示位置做任何限定。

在终端播放第一视频过程中，如若播放界面上显示诸如“我要合拍”的视频合拍选项301，则代表用户可以与当前播放的第一视频进行视频合拍的互动。

示例性地，针对视频合拍选项的触发操作可以为用户对图3中示出的视频合拍选项301进行点击操作，本申请实施例对此不进行具体限定。

202、获取当前拍摄得到的第二视频；第二视频对应于第一视频中包括目标角色的视频片段。

相对于原始视频，终端当前拍摄得到的第二视频在本文中也被称之为用户拍摄视频。通常情况下，用户拍摄的第二视频可以对应于第一视频中包括目标角色的视频片段，目标角色可以是用户在拍摄第二视频之前选择的、自己所要扮演的角色，目标角色可以是第一视频中存在的任意一个角色。

可选的，终端还可以基于对第一视频的画面内容的识别，获取提示消息；并在视频拍摄过程中，在拍摄界面上显示提示消息；其中，该提示消息用于指导拍摄第二视频，即为用户拍摄第二视频提供指导提示。

其中，提示消息是通过对第一视频进行画面内容分析得到。该分析步骤既可以由终端执行也可以由服务器执行。在一种可能的实现方式中，该提示消息包括：摄像头拍摄方式、人体姿态和角色对白中的一种或多种；可选的，通过显示摄像头拍摄方式，可以告知用户该如何真实地还原第一视频的拍摄过程，以保证所拍摄的第二视频与原始的第一视频具有较高的一致性；人体姿态可以包括面部表情、面部朝向和肢体动作中的一种或多种。而角色对白通俗来讲是指角色的台词。

作为一个示例，为了对用户进行更好地拍摄引导，终端在显示提示消息时，可以选择图标和文字结合的引导方式。即，终端在拍摄界面上显示提示消息，可以包括以下一项或多项：

终端在拍摄界面上显示摄像头拍摄方式的提示图标和提示文字。

终端在拍摄界面上显示人体姿态的提示图标和提示文字。

终端在拍摄界面上显示角色对白。

当然，在实际应用中，终端也可以仅显示提示图标和提示文字中的任意一种，即终端可以在拍摄界面上显示摄像头拍摄方式的提示图标或提示文字，终端也可以在拍摄界面上显示人体姿态的提示图标或提示文字，本申请在此不对终端显示的提示消息的内容做任何限定。

203、基于对第一视频中的目标角色及其他角色的识别，将第二视频融合至第一视频的视频内容中，获得合拍视频。

通过对原始视频中目标角色和其他角色的识别，对原始视频和用户拍摄视频进行合成处理，即可得到合拍视频，而合拍视频最终可为用户呈现一种视频合拍效果。其中，除了终端执行合成处理之外，也可以由服务器执行合成处理，本申请实施例对此不进行具体限定。

作为一个示例，将第二视频融合至第一视频的视频内容中获得合拍视频，包括但不限于：若第一视频中不包括被选中的目标角色和其他角色的同框画面，则利用第二视频替换第一视频中包括目标角色的视频片段；即，该种方式利用第二视频包括的视频帧来替换第一视频中包括目标角色的视频帧；若第一视频中包括目标角色和其他角色的同框画面，则利用第二视频中的用户面部图像替换同框画面中的目标角色的面部图像。即，该种方式对上述同框画面中的目标角色进行换脸，将上述同框画面中的目标角色面部头像替换成第二视频中的用户面部图像。可选的，合拍视频在播放时能够呈现如下效果：第一视频的视频画面和第二视频的视频画面呈线性穿插播放。

需要说明的是，同框画面是指在同时包括目标角色和其它角色的视频画面，例如，假设第一视频中包括角色A、角色B和角色C，用户拍摄第二视频之前选择了角色A作为目标角色，那么第一视频中同时包括角色A和角色B的画面、同时包括角色A和角色C的画面、以及同时包括角色A、角色B和角色C的画面，均属于目标角色和其他角色的同框画面。

在本申请实施例提供的方法中，终端会显示一个视频合拍选项；终端可以响应于用户对该视频合拍选项的触发操作，进行视频拍摄，获得当前拍摄的第二视频，该第二视频对应于第一视频中包括目标角色的视频片段；进而，基于对第一视频中的目标角色及其他角色的识别，将第二视频融合至第一视频的视频内容中，获得合拍视频。即合拍视频是通过对第一视频和第二视频进行内容上的融合得到的，这使得合拍视频具有良好的内容契合度，用户能够深度融入到视频制作中，提高了视频个性化程度。该种视频生成方法不但能够取得优质视频制作效果，而且显著地降低了拍摄成本。

图4是本申请实施例提供的一种视频生成方法的流程图，执行主体示例性的可以为图1中示出的终端101。其中，第一视频中包括N个角色，N为正整数且N≥2。即，本申请实施例提供的视频合拍方案的实施前提条件是原始视频中包括至少两个角色。参见图4，本申请实施例提供的方法流程包括：

401、终端在第一视频的播放界面上显示视频合拍选项。

本步骤同上述步骤201类似，此处不再赘述。

402、终端响应于用户针对该视频合拍选项的触发操作，在播放界面上显示N个角色选项。

在本申请实施例中，在用户对该视频合拍选项执行了触发操作后，终端便确认用户启动使用视频合拍功能，而该触发操作还会激活终端执行在第一视频中进行人脸识别的步骤。示例性地，可以采用基于卷积神经网络的人脸识别算法进行人脸识别。终端通过在第一视频中进行人脸识别，得出第一视频中包括的角色数量以及角色ID。其中，角色数量与角色选项的个数一致。

图5中示出了N个角色选项501。由图5中示出的N个角色选项501可知，用户选中合拍的第一视频中包括2个角色，分别为角色1和角色2。用户可以选择这两个角色中的任意一个角色进行替换拍摄。比如，在用户点击视频合拍选项后，终端可以弹窗提示该视频中可参与拍摄的角色有两个，用户可以选择其中一个角色进行替换，即由用户来表演被选中角色的画面内容。

作为一个示例，图5中角色1的角色选项和角色2的角色选项，可分别用各自对应的角色图片来呈现。而该角色图片可以是角色1在第一视频中的一帧视频画面，以及角色2在第一视频中的一帧视频图像，本申请实施例对此不进行具体限定。

403、终端响应于用户针对N个角色选项中的目标角色选项的触发操作，从第一视频中筛选出包括目标角色的M个目标视频片段，并在播放界面上显示每个目标视频片段的预览画面。

其中，M为正整数且M≥1。而针对目标角色选项的触发操作可以为用户对这N个角色选项中任意一个角色选项的点击操作，该被用户选中的角色选项对应的角色在本文中称之为目标角色。在本申请实施例中，如果用户选择图5示出的其中一个角色(比如选择角色1)，则终端或服务器可以从第一视频中筛选出包括角色1的M个视频片段作为目标视频片段，进而终端会在播放界面上显示M个目标视频片段中每个目标视频片段的预览画面，用户可以随意观看这些目标视频片段。

图6中示出了与角色1相关的4个目标视频片段的预览画面601。示例性地，这4个目标视频片段的预览画面601可以通过平铺方式或列表方式呈现在播放界面上，而4个目标视频片段的预览画面601可以为每个目标视频片段的首帧或关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

404、终端响应于用户针对M个目标视频片段中指定目标视频片段的预览画面的触发操作，播放指定目标视频片段。

需要说明的是，如果第一视频中与目标角色相关的目标视频片段个数较多，则本申请实施例还支持响应于用户针对各目标视频片段的预览画面的滑动操作，滑动展示每个目标视频片段的预览画面。作为一个示例，针对指定目标视频片段的预览画面的触发操作可以为用户对指定目标视频片段的预览画面的点击操作。

405、终端启动摄像头进行视频拍摄；并基于对第一视频的画面内容的识别，获取提示消息；在视频拍摄过程中，终端在拍摄界面上显示提示消息。

其中，该提示消息用于引导用户进行第二视频的拍摄。

在本申请实施例中，终端在启动摄像头进行拍摄之后，终端根据M个目标视频片段的先后顺序，将需要用户模仿表演的目标视频片段逐一在拍摄界面上呈现，并且会分析得出视频画面中的核心信息，以此得到与当前拍摄进度相适配的提示消息。即，在视频拍摄过程中，在拍摄界面上显示提示消息，包括但不限于：对与目标角色相关的每个目标视频片段进行画面内容分析，得到每个目标视频片段对应的提示消息；在每个目标视频片段的拍摄过程中，在拍摄界面上显示与每个目标视频片段对应的提示消息。

在一种可能的实现方式中，在拍摄界面上显示与每个目标视频片段对应的提示消息，包括但不限于采取以下方式：以置于顶层的显示方式，在拍摄界面上悬浮显示视频窗口；其中，该视频窗口用于显示与当前拍摄进度匹配的目标视频片段，即与当前显示的提示消息对应的目标视频片段。其中，置于顶层的显示方式的含义是，显示在页面最顶端，不被任何其他图层所遮挡。

如图7至图10所示，在视频拍摄过程中，终端可以选择将需要用户模仿表演的目标视频片段显示在拍摄界面的左上角，既达到对用户进行提示的目的，同时还不对拍摄界面进行过多占用。另外，除了左上角之外，还可以选择将需要用户模仿表演的视频片段显示在拍摄界面的右上角、左下角或右下角等位置，或者，终端也可以响应于用户对该视频窗口的拖拽操作，在拍摄界面中相应的位置处显示该视频窗口，本申请实施例对此不进行具体限定。

在本申请实施例中，图7至图10还示出了在拍摄界面上显示的不同类型的提示消息701。

针对图7，终端通过对第一视频进行画面内容分析得知用户此时需要面朝正前方进行拍摄，那么在拍摄界面上便会进行相应的提示，以引导用户拍摄，从而使得用户拍摄的视频画面与原始视频中的角色及画面逻辑有更好的匹配度。如图7所示，此时拍摄界面上呈现的提示消息701包括：面部朝向的提示图标和提示文字“面朝正前方”。

针对图8，为了确保用户可以真实地还原拍摄过程，以保证所拍摄的第二视频与原始的第一视频具有较高一致性，提示消息701还可以包括摄像头拍摄方式。如图8所示，通过对原始视频进行画面内容分析可知，当前为推镜头画面，那么终端在UI(User Interface，用户界面)展示上将会呈现图8中所示的摄像头拍摄方式的提示图标(图8中箭头)和提示文字(画面推进)，从而告知用户该如何进行镜头的操控。另外，与此同时，终端还可以对与当前拍摄进度相匹配的角色对白进行UI展示，以告知用户在拍摄时需要读出的文字内容。其中，图8中示出了用户在将画面进行推进的同时，还需要读出“我们真的可以牵手”的角色对白。

针对图9，提示消息701还可以包括肢体动作。比如，通过对原始视频进行画面内容分析可知，当前角色的右侧胳膊抬起来了，那么终端也会同步在拍摄界面上进行肢体动作的UI展示，即在拍摄界面上展示肢体动作的提示图标和提示文字。如图9所示，该提示图标可以为“运动中的小人”，该提示文字可以为“抬起右侧胳膊”。另外，在用户执行这个肢体动作的同时还需要读出“真的吗”的角色对白。

针对图10，提示消息701还可以包括面部表情。即，拍摄界面上还可以展示面部表情的提示图标和提示文字。比如，通过对原始视频进行画面内容分析可知，当前角色面朝右侧微笑，那么终端也会同步在拍摄界面上进行面部表情的UI展示，即在拍摄界面上展示面部表情的提示图标和提示文字。如图10所示，该提示图标可以为“笑脸”，该提示文字可以为“面朝右侧微笑”。

在另一种可能的实现方式中，在视频拍摄过程中，为了方便用户熟悉角色对白和接下来要做的动作，以及避免用户错过每个目标视频片段(需要模仿的M个目标视频片段)刚开始的一两秒，在每个目标视频片段开始拍摄之前还可以先对用户进行倒计时提示。比如，可以在启动拍摄之前进行10秒或5秒或3秒的倒计时。可选的，倒计时的提示形式既可以是语音形式也可以是图文形式，本申请实施例对此不进行具体限定。可选的，在拍摄每个目标视频片段过程中，除了上述倒计时的提示方式之外，可以在界面上显示一个触发控件，检测到用户主动触发该控件后，再启动当前视频片段的拍摄。可选的，还可以由用户通过语音来触发当前拍摄。即，终端具有语音识别功能，在识别到用户发出的语音为启动拍摄指令后自动启动当前视频片段的拍摄。

406、终端基于对第一视频中的目标角色及其他角色的识别，将第二视频融合至第一视频的视频内容中，获得合拍视频。

本申请实施例提供的是一种基于场景融合的短视频合拍方式，在基于终端显示的提示消息的同时，终端会采集得到第二视频，而终端在对第一视频与当前拍摄得到的第二视频进行合成处理时，通常采取以下处理方式：将第一视频与第二视频合成处理为一路视频，得到合拍视频；其中，合拍视频的每帧视频图像中均仅包含一路视频画面。

其中，场景融合的含义是，原始的第一视频和用户拍摄的第二视频不但在内容上相互关联，而且最终得到的合拍视频是通过对第一视频和第二视频进行内容上的融合得到的，即视频的合成处理是将用户拍摄的第二视频穿插到原始的第一视频中，实现的是对第一视频中部分视频片段的替换，最终得到的是一路视频，也即将原始的第一视频和用户拍摄的第二视频合成处理为一路视频，得到合拍视频。其中，合拍视频的每帧视频图像中均包含一路视频画面。

在一种可能的实现方式中，若与用户选中的目标角色关联的M个目标视频片段中不包括目标角色和其他角色的同框画面，那么终端可以直接利用第二视频替换M个目标视频片段；若用户选中的目标角色关联的M个目标视频片段中包括目标角色和其他角色的同框画面，则第二终端的处理方式为利用第二视频中的第一面部图像替换同框画面中目标角色的第二面部图像；其中，第一面部图像为用户模仿同框画面中的目标角色时，摄像头拍摄到的用户面部图像。

简言之，若用户所表演的角色需要与其他角色同框出现，那么此时终端的处理方式是：将原有视频中的人物面部图像替换为用户的面部图像，即换脸，以达到剧情和画面逻辑的一致性。

综上所述，合拍视频在呈现时画面中仅包括一路视频，而非同一画面上包括两路视频，即本申请中基于场景融合的视频合拍方式不是对两路视频进行生硬拼接，即不是在同一画面上呈现诸如左右分屏、上下分屏或大小窗模式的两路视频。

407、终端在生成合拍视频后，显示合拍视频的预览画面、播放选项、播放进度条以及视频修改选项；响应于用户针对播放选项的触发操作，播放合拍视频，并通过播放进度条动画显示合拍视频的播放进度。

其中，终端设备合成合拍视频完成后，用户可以选择观看最终的合拍视频，并选择是否进行发布或是修改视频。

如图11所示，在生成合拍视频后，终端会显示合拍视频的预览画面1101、播放选项1102、播放进度条1103以及视频修改选项1104。其中，视频修改选项1104可以包括多个，图11中仅示例性地示出了4个视频修改选项，分别为修改选项1、修改选项2、修改选项3和修改选项4。可以理解的是，视频修改选项的个数可以多于或者少于图示的4个，本申请实施例对此不进行具体限定。

在一种可能的实现方式中，合拍视频的预览画面1101可以为该合拍视频中的首帧、关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

示例性地，针对播放选项的触发操作可以为用户对播放选项1102的点击操作。

408、终端响应于用户针对视频修改选项的触发操作，对合拍视频执行修改处理。

示例性地，针对视频修改选项的触发操作可以为用户对视频修改选项1104的点击操作。在一种可能的实现方式中，视频修改选项1104可以包括但不限于：调整素材、添加文字、添加贴纸、添加滤镜、进行美颜等，本申请实施例对此不进行具体限定。

另外，终端除了显示合拍视频的预览画面1101、播放选项1102、播放进度条1103以及视频修改选项1104之外，还可以显示发布选项1105，用户通过触发该发布选项1105，可以将制作好的合拍视频发布到视频分享平台或个人主页，以供其他用户浏览或观看。

另外，若摄像头当前拍摄到的视频画面与当前显示的提示消息不匹配，即若用户执行的相关操作或动作与当前显示的提示消息不符，则终端可以在拍摄界面上显示错误提示消息；其中，该错误提示消息用于引导用户重新进行视频拍摄。另外，除了显示文字或图标形式的提示消息之外，还可以播放语音形式的提示消息，本申请实施例对此不进行具体限定。

本申请实施例提供的方法至少具有以下有益效果：

终端可以在用户选中播放的视频的播放界面上显示视频合拍选项；之后，终端可以响应于用户对该视频合拍选项的触发操作，进行视频拍摄；而在视频拍摄过程中，终端会自动在拍摄界面上显示提示消息；即，该提示消息会呈现在用户的拍摄界面中，以此来引导用户快速且保质地完成视频拍摄。最终，基于对原始视频中的目标角色及其他角色的识别，将当前拍摄得到的视频融合至原始视频的内容中生成合拍视频，实现视频合拍，该种视频生成方法不但能够取得优质拍摄效果，还能显著降低拍摄成本。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。

即，在视频合拍场景下，本申请实施例通过对视频画面内容进行分析，能够对外输出有利于用户拍摄的提示消息，进而帮助用户快速地投入到视频的创作过程。也即，本申请实施例以分析视频画面内容为前提，通过向用户展示提示消息来引导用户拍摄，其中，该提示消息包含的内容丰富，比如包含摄像头拍摄方式、人体姿态和角色对白中的一种或多种。

另外，该种基于场景融合的视频合拍方案，由于将原始的第一视频和用户拍摄的第二视频合成处理为一路视频，即在画面呈现上合拍视频仅包括一路画面，实现的是在时间顺序上将原始的第一视频和用户拍摄的第二视频的线性穿插播放，确保了视频的无缝衔接创作效果，该种视频创作过程更加友好。换言之，通过该种视频合拍方案，实现了在围绕现有视频画面内容的基础上，使得用户能够以更加自然、更加沉浸的方式投入到视频创作过程，使得最终的合拍视频从用户角度来看具有更好的融合性，也即合拍视频在内容呈现上和人物表演上与原始视频更为契合，避免了两路视频之间的生硬拼接。

示例性地，下面通过图12对“在时间顺序上原始的第一视频和用户拍摄的第二视频呈线性穿插播放”进行说明。其中，图12中示出了在合拍视频中截取到的几个视频画面，这几个视频画面从左到右是按照时间顺序依次排序的。在图12中，视频画面1201和视频画面1203来自于原始的第一视频，而视频画面1202、视频画面1204和视频画面1205来自于用户拍摄的第二视频，而视频画面1206是通过对第一视频中相应视频画面包含的目标角色进行换脸得到的，即将目标角色的面部图像替换为用户的面部图像。由于在合拍视频的播放过程中，图12中的几个视频画面以在时间顺序上由左到右顺次呈现的，由于原始视频画面和用户拍摄视频穿插播放，因此该种视频合拍方案实现了原始的第一视频和用户拍摄的第二视频的基于场景融合。

在另一个实施例中，上述步骤403中“从第一视频中筛选出包括用户选中的目标角色的M个目标视频片段”，在一种可能的实现方式中，从第一视频中筛选包括目标角色的目标视频片段的步骤，既可以由服务器执行，也可以由终端自己执行，本申请实施例对此不进行具体限定。针对服务器执行视频片段筛选的方式，参见图13，包括如下步骤：

1301、终端将用户选中的目标角色的角色ID上传至服务器。

其中，角色ID可以为角色的姓名、角色的头像、终端和服务器协商一致的角色代号(比如字符)等，本申请实施例对此不进行具体限定。

1302、服务器在接收到目标角色的角色ID后，确定目标角色在第一视频中出现的目标时间点；对目标时间点进行关键帧标记得到视频打点信息；将该视频打点信息和目标时间点返回给终端。

示例性地，在确定目标角色在第一视频中出现的目标时间点时，可以采取下述方式实现：首先在第一视频中确定包括目标角色人脸的视频帧，之后并获取上述视频帧对应的时间点，即可得到目标角色在第一视频中出现的目标时间点。

其中，在第一视频中检测目标角色出现的目标时间点时，可以对第一视频中包括的每个视频帧分别进行目标角色人脸识别，进而得到上述包括目标角色人脸的视频帧。另外，为了提高效率，还可以间隔较短的一段时间进行一次目标角色人脸识别，即在多个较密集的指定时间点使用人脸识别算法，确定指定时间点是否存在目标角色人脸，并输出存在目标角色人脸的一系列时间点，即一组时间点列，即代表在第一视频的上述时间点出现了目标角色人脸。其中，确定出来的时间点可以按照先后顺序依次排序，本申请实施例对此不进行具体限定。

另外，在第一视频中确定出目标角色出现的目标时间点后，服务器还可以根据目标时间点对第一视频进行打点，进而得到视频打点信息。

简言之，视频打点即关键帧标记，是视频在播放时将光标放在播放进度条上会显现视频接下来的内容。即，当控制光标移动到播放进度条上的某个点上时，会自动显示出在该点上所播放的视频内容。视频打点通过将视频中的关键内容点标记出来，以方便用户快速浏览到其想看的内容。

基于以上描述可知，进行视频打点可以是对确定出来的目标时间点进行关键帧标记，即在这些确定出来的目标时间点中再进一步地确定关键帧所对应的目标时间点。其中，关键帧通常指代角色运动或姿态变化中关键动作或姿态所处的那一帧。示例性地，在识别关键帧时可以通过相邻帧之间的变化程度来确定，本申请实施例对此不进行具体限定。

1303、终端根据视频打点信息和目标时间点在第一视频中切分出M个目标视频片段。

在一种可能的实现方式中，终端在第一视频中进行与目标角色关联的目标视频片段的切分时，包括但不限于如下方式：比如，在切分目标视频片段时，可以将切分出来的每个目标视频片段中至少包括一个视频打点(一个关键帧)作为前提。又比如，还可以选择将出现在两个视频打点之间的目标时间点划分在同一个目标视频片段内，即终端可以将关键帧对应的目标时间点作为视频片段的划分依据，也即出现在两个关键帧对应的目标时间点之间的那些目标时间点属于同一个目标视频片段，本申请实施例对此不进行具体限定。

另外，参见图14，针对终端执行目标视频片段筛选的方式，包括如下步骤：

1401、终端确定目标角色在第一视频中出现的目标时间点。

1402、终端对目标时间点进行关键帧标记，得到视频打点信息。

1403、终端根据得到的视频打点信息和目标时间点，在第一视频中切分出M个目标视频片段。

关于步骤1401至步骤1403的实施可以参考上述步骤1301至步骤1303。

在另一个实施例中，针对上述步骤405中的“对与目标角色相关的每个目标视频片段进行画面内容分析”，该步骤既可以由服务器执行，也可以由终端自己执行，本申请实施例对此不进行具体限定。在一种可能的实现方式中，参见图15，对与目标角色相关的每个目标视频片段进行画面内容分析，包括但不限于如下步骤：

1501、针对每个目标视频片段，利用人体姿态检测技术分析该目标视频片段中用户选中的目标角色的人体姿态。

如前文所述，人体姿态可以包括面部表情、面部朝向和肢体动作中的一种或多种。在一种可能的实现方式中，上述步骤1501可以进一步地包括：

1501-1、针对每个目标视频片段，通过人体关键点检测网络，根据该目标视频片段，确定该目标视频片段中目标角色的人体关键点。

示例性地，该人体关键点检测网络可以基于OpenPose算法，OpenPose算法是一种基于双分支多级CNN(Convolutional Neural Networks，卷积神经网络)的体系结构的深度学习算法，主要是通过图像识别的方法来检测人体关键点。换言之，OpenPose算法是一个人体关键点检测框架，它能够在图片中检测躯体、手指、面部总共多达135个关键点。并且检测速度很快，能够达到实时检测效果。

以OpenPose算法为例，可以将每个目标视频片段包括的视频帧输入人体关键点检测网络，而该人体关键点检测网络可以首先通过VGG-19的骨干网络得到特征信息，而后通过6个阶段不断优化，每个阶段有2个分支，其中一个分支用来得到人体关键点坐标的热图(heatmaps)，另一个分支用来得到人体关键点之间肢体意义的起点指向终点的方向向量PAFs。之后将PAFs转化成二分图，并采用诸如匈牙利算法求解二分图匹配问题，从而得到图片中人物的人体关键点。

其中，利用该算法检测到的人体关键点可以实现分析人物的面部表情、面部朝向、肢体动作，甚至还可以跟踪人物手指的运动。示例性地，在进行人体姿态估计时，可以如图16所示，通过将检测到的人体关键点按照一定规则连接起来，实现估计人体姿态。其中，图16示出了三种不同的人体姿态，分别为双手叉腰的站立姿态1601、奔跑姿态1602和双手抱在胸前的站立姿态1603。

1501-2、按照面部不同部位之间的相对位置关系，将人体关键点中的面部关键点进行连接，得到面部构架模型；根据面部架构模型，确定目标角色在目标视频片段中面部表情和面部朝向。

示例性地，该面部不同部位之间的相对位置关系，即是按照人脸的基本结构，比如下巴、嘴巴、鼻子、眼睛以及眉毛的基本位置规则，将面部特征点依次进行连接，生成面部构架模型，而该面部构架模型便能够反映出用户的面部表情和面部朝向。

1501-3、按照肢体不同部位之间的相对位置关系，将人体关键点中的肢体关键点进行连接，得到肢体构架模型；根据肢体架构模型，确定目标角色在目标视频片段中肢体动作。

示例性地，该肢体不同部位之间的相对位置关系，即按照人体肢体的基本结构，比如颈部、肩部、肘部、腕部、手指、腰部、膝部以及脚踝的基本位置规则，将肢体关键点依次进行连接，生成肢体构架模型，而该肢体构架模型可以反映出用户的肢体动作，尤其是用户手指的精确动作。

本申请实施例通过分析第一视频中用户选中的目标角色的面部表情(比如喜、怒、哀、乐等)、面部朝向(比如面朝正前方或右侧等)、肢体动作(比如抬胳膊、踢腿、等)等信息，作为对视频画面内容的解读，并将这些信息以提示消息的方式通过UI展示给用户，实现了直观且清晰地引导用户完成拍摄。

1502、针对每个目标视频片段，获取该目标视频片段中目标物的运动方向变化信息和大小变化信息；根据目标物在该目标视频片段中的运动方向变化信息和大小变化信息，确定该目标视频片段对应的摄像头拍摄方式。

本步骤通过基于灰度图像的检测和跟踪算法，来对视频画面中出现的移动目标物(比如视频画面中出现的人物)进行检测和跟踪，从而分析判断出移动目标物在视频画面中的运动方向趋势和大小变化趋势，并据此反推出该视频画面的摄像头拍摄方式。换言之，通过分析移动目标物在视频画面中的运动方向趋势和大小变化趋势，从而辅助判定出相应的视频画面中镜头是如何运动的。而通过此种方式辅助判定摄像头拍摄方式，并通过UI展示在用户的拍摄界面中，实现了对用户进行有效的拍摄引导。

简单来说，基于灰度图像的检测和跟踪算法，即是:首先识别视频画面中的目标物轮廓；之后，将多帧视频画面图像转换为灰色图像，并通过对相邻帧的灰色图像进行分析计算，来完成目标物的检测与跟踪。示例性地，参见图17，该检测和跟踪算法的大体流程包括但不限于：

首先，定义MainWin类1701、Process类1702、Tracker类1703。其中，MainWin类1701用于执行摄像头初始化，绘制图形界面，从摄像头中读取下一帧彩色图像交给Process类1702进行处理。其中，Process类1702用于执行将下一帧彩色图像图转换成灰度图像，并将当前转换后的灰色图像与上一帧灰度图像相差；其中，由于简单的帧差法往往难以以达到检测精度，因此可以选择采用相差后图像的水平和垂直投影完成检测。即，对相差后图像分别进行水平和垂直投影，并据此计算出一个水平方向阈值和一个垂直方向阈值，该水平方向阈值和该垂直方向阈值用于分割目标物；并根据该水平方向阈值和该垂直方向阈值确定目标物的水平坐标和垂直坐标，并根据该水平坐标和该垂直坐标绘制出目标物的矩形跟踪框。而Tracker类1703用于执行对目标物的跟踪，首先分析目标物是否为新出现的目标，或者，是在之前的图像帧中已经存在并且在当前的图像帧中继续移动的目标物(Target)，然后分别对不同的分析结果执行相应的操作。比如，如果该目标物为之前检测到的目标物，则将该目标物标志为已匹配并加入到链尾，如果该目标物之前未检测到，则为新出现的该目标物创建一个空链。其中，为了后续过程的跟踪，通常会为每个新出现的目标物均创建一条空链。

另外，举例来说，根据目标物在每个目标视频片段中的运动方向变化信息和大小变化信息，确定目标视频片段对应的摄像头拍摄方式，可以为：比如，相邻的两帧之间目标物的灰度图像在逐渐变大，则说明此时是推镜头运动；又比如，若当前目标物的灰度图像逐渐向画面左侧移动，则说明此时对应的镜头运动为向右摇镜头。另外，此处的目标物可以是用户所选中的目标角色，本申请实施例对此不进行具体限定。

1503、针对每个目标视频片段，对目标角色在该目标视频片段中的语音数据进行识别，得到目标角色在该目标视频片段中的角色对白。

在本申请实施例中，还可以通过语音识别技术，针对每个目标角色出现的目标视频片段，识别其中是否包括与目标角色相关的角色对白，如果存在与目标角色相关的角色对白，则会在拍摄界面上进行UI展示，以告知用户在拍摄时所需要读出的文字内容。

另外，在执行视频合成处理时，如果用户选中的目标角色与其他角色同框了，则还包括一个换脸的操作。在一种可能的实现方式中，执行换脸操作可以采用Deepfake技术。

其中，Deepfake技术由“deep machine learning”(深度机器学习)和“fake photo”(假照片)组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。在构建模型时使用了Encoder-Decoder自编解码架构，在测试阶段通过将任意扭曲的人脸进行还原，整个过程包含了：获取正常人脸照片→扭曲变换人脸照片→Encode编码向量→Decoder解码向量→还原正常人脸照片五个步骤。

总体上，Deepfake技术的换脸过程主要分为：人脸定位、人脸转换和图像拼接。其中，人脸定位即是抽取原人脸的特征点，例如左右眉毛、鼻子、嘴和下巴等。这些特征点大致描述了人脸的器官分布。示例性地，可以直接通过dlib和OpenCV等主流工具包直接进行抽取，这些工作包一般采用了经典的HOG(Histogram of Oriented Gradient，方向梯度直方图)的脸部标记算法。针对人脸转换，即是采用GAN或VAE等生成模型，它的目标是生成拥有A表情的B脸。最后的图像拼接则是将人脸融合到原图的背景，从而达到只改变人脸的效果。另外，如果处理的对象是视频，那么还需要一帧帧地处理图像，然后再将处理后的结果重新拼接成视频。

其中，图18示出了Deepfake技术涉及的主要架构，如图18所示，该架构主要包括三部分，分别为编码器1801、生成器1802和判别器1803。针对编码器1801，输入视频和该视频的landmarks(对人脸关键点连接成线得到)，输出一个N维向量。编码器1801的作用是学习到一个视频的特有信息(比如这个人的身份不变性)，同时希望具有姿态的不变性。可以认为和人脸识别网络一样，一个视频对应一个特征，视频中的人脸图像的特征应该和整个视频的特征距离不大；而不同视频间的特征距离差很大。生成器1802用于基于landmarks生成假图像。值得关注的是，生成器1802的一部分输入来自于编码器1801。比如，生成器1802根据landmarks给出的脸型，利用编码器1801学习到的特定的人脸信息按照给定的脸型补全，从而实现换脸的效果。针对判别器1803，包括两个部分，其中一部分是编码器网络，将图像编码为向量；另外还包括一个将参数W和向量相乘的操作。

本申请实施例通过上述几种技术，可以实现对第一视频中用户所选中的目标角色的人体姿态、角色对白和摄像头的摄像头拍摄方式进行分析判定，从而通过对提示消息进行UI展示，实现更友好地帮助用户完成视频拍摄，可以显著增强用户拍摄视频对原始视频的还原度，从而提升内容合成的真实感。

下面对本申请实施例提供的视频生成方法的整体执行流程进行描述。

以服务器执行视频片段筛选、对原始视频进行画面内容分析为例，则整体执行流程可以依托三个部分来实现，即：用户侧、终端侧和服务器侧。其中，围绕用户操作流程，会在终端侧与服务器侧之间产生相应的技术能力匹配。针对终端侧，可以包括如下处理：面部识别、视频片段生成预览、UI元素下发、摄像头调用、视频合成等；针对服务器侧可以包括如下处理：对视频时间进行打点、分析视频内容(如：面部朝向、面部表情、镜头运动和肢体动作等)等。

参见图19，本申请实施例提供的方法流程包括：

1901、原始视频的播放过程中，用户通过在终端上执行针对拍摄界面上显示的视频合拍选项的触发操作，启动视频合拍功能并激活终端执行人脸识别。相应地，终端在原始视频中进行人脸识别并将识别到的人脸按照角色ID进行分类，以及，将角色ID呈现在拍摄界面上，以供用户进行角色选择。

1902、用户进行角色选择，相应地，终端将用户选中的目标角色的角色ID上传到服务器。

1903、服务器根据终端上传的角色ID，分析运算出原始视频中目标角色出现的目标时间点；以及，根据该角色ID出现的目标时间点执行视频打点处理，并将该角色ID出现的目标时间点和视频打点信息返回给终端，以供终端生成与目标角色关联的至少一个目标视频片段，并将这些目标视频片段的预览画面呈现给用户，以供用户预览其选中的目标角色出现的目标视频片段。

1904、服务器对与目标角色关联的目标视频片段进行画面内容分析，得到目标角色在视频片段中的人体姿态、肢体动作和摄像头的摄像头拍摄方式，并将这些信息下发给终端；终端开启摄像头并将这些信息以UI元素的形式呈现给用户，以引导用户拍摄。

1905、终端基于用户拍摄视频对原始视频进行内容更新处理，得到合拍视频，并生成合拍视频的预览画面，以供用户预览合拍视频。

1906、用户在预览完成后，可以进行诸如视频发布等操作。

本申请实施例提供的方法，终端可以在用户观看的视频的播放界面上显示视频合拍选项；之后，终端可以响应于用户对该视频合拍选项的触发操作，进行视频拍摄；在视频拍摄过程中，终端可以自动在拍摄界面上显示提示消息，其中，该提示消息用于引导用户进行视频拍摄；即，提示消息会呈现在用户的拍摄界面中，以此来引导用户快速且保质地完成视频拍摄。最终，通过对原始视频中的目标角色及其他角色进行识别，并将当前拍摄得到的视频融合至原始视频的视频内容中，实现视频合拍，该种视频生成方法不但能够取得优质拍摄效果，还可以显著降低拍摄成本。在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。

另外，该种基于场景融合的视频合拍方案，由于将原始视频和用户拍摄的视频合成处理为一路视频，即在画面呈现上合拍视频仅包括一路画面，实现的是时间顺序上原始视频和用户拍摄视频的线性穿插播放，确保了视频的无缝衔接创作效果，该种视频创作过程更加友好。换言之，通过该种视频合拍方案，在围绕现有视频画面内容的基础上，用户能够以更加自然、更加沉浸的方式投入到视频创作过程，使得最终的合拍视频从用户角度看来具有更好的融合性，也即合拍视频在内容呈现上和人物表演上与原始视频更为契合，避免了两路视频之间的生硬拼接。

作为一个示例，图20至28示出了基于本申请实施例提供的视频生成方法实现的视频合拍的产品效果图。现结合图20至28对本申请实施例提供的视频生成方法进行描述。

图20示出了原始视频的播放界面2000，在该播放界面2000上显示有一个“我要合拍”的视频合拍选项，当用户触发该视频合拍选项后，便会显示图21所示的用户界面2100，该用户界面2100上显示了两个角色选项，分别为角色A和角色B，用户可以选择这两个角色中的任意一个角色进行替换拍摄。比如，在用户点击视频合拍选项后，终端可以弹窗提示该视频中可参与拍摄的角色有两个，用户可以选择其中一个角色进行替换，即由用户来表演被选中角色的画面内容。作为一个示例，角色A的角色选项和角色B的角色选项，可分别用各自对应的角色图片来呈现。

如果用户选择图21示出的用户界面2100选择了其中一个角色(比如选择角色A)，则终端会在图22呈现的播放界面2200上显示包括角色A的4个视频片段各自的预览画面。其中，这4个视频片段是从原始视频中筛选出来的包括角色A的视频片段，而用户可以随意观看这些视频片段。示例性地，这4个视频片段的预览画面可以平铺方式或列表方式呈现在播放界面上，而4个视频片段的预览画面可以为每个视频片段的首帧或关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

如图23至图26所示，在视频拍摄过程中，终端可以将需要用户模仿表演的视频片段显示在用户界面的左上角，既达到对用户进行提示的目的，同时还不对用户界面进行过多占用。另外，除了左上角之外，还可以将需要用户模仿表演的视频片段显示在用户界面的右上角、左下角或右下角等位置，本申请实施例对此不进行具体限定。

在本申请实施例中，图23至图26还示出了在用户界面上显示不同类型提示消息。

针对图23，终端通过对原始视频进行画面内容分析得知用户此时需要面朝右方进行拍摄，那么在用户界面2300上便会显示相应的提示消息，以引导用户拍摄，从而使得用户拍摄的视频画面与原始视频中的角色及画面逻辑有更好的匹配度。如图23所示，此时用户界面2300上呈现的提示消息包括：面部朝向的提示图标和提示文字“面朝右方”。

针对图24，为了确保用户可以真实地还原拍摄过程，以保持与原始视频的较高一致性，提示消息还可以包括摄像头拍摄方式。如图24所示，通过对原始视频进行画面内容分析可知，当前为推镜头画面，那么终端在用户界面2400上将会呈现摄像头拍摄方式的提示图标(图24中箭头)和提示文字(画面推进)，从而告知用户该如何进行镜头的操控。另外，与此同时，终端还可以对与当前拍摄进度相匹配的角色对白进行展示，以告知用户在拍摄时需要读出的文字内容。其中，图24中示出了用户在将画面进行推进的同时，还需要读出“我们一起拍合照？”的角色对白。

针对图25，提示消息还可以包括肢体动作。比如，通过对原始视频进行画面内容分析可知，当前角色的左侧胳膊抬起来了，那么终端也会同步在用户界面2500上进行肢体动作的展示，即在用户界面2500上展示肢体动作的提示图标和提示文字。如图25所示，该提示图标可以为“运动中的小人”，该提示文字可以为“抬起左侧胳膊”。另外，在用户执行这个肢体动作的同时还需要读出“真的吗？”的角色对白。

针对图26，提示消息还可以包括面部表情。即，用户界面2600上还可以展示面部表情的提示图标和提示文字。比如，通过对原始视频进行画面内容分析可知，当前角色面朝右侧微笑，那么终端也会同步在用户界面2600上进行面部表情的展示，即在用户界面上展示面部表情的提示图标和提示文字。如图26所示，该提示图标可以为“笑脸”，该提示文字可以为“面朝左侧微笑”。

如图27所示，在生成合拍视频后，终端会在用户界面2700上显示合拍视频的预览画面播放选项、播放进度条以及视频修改选项。其中，视频修改选项可以包括多个，图11中仅示例性地示出了5个视频修改选项，分别为调整素材、文字、贴纸、滤镜和美颜。可以理解的是，视频修改选项的个数可以多于或者少于图示的5个，本申请实施例对此不进行具体限定。

示例性地，下面通过图28对“在时间顺序上原始视频和用户拍摄视频呈线性穿插播放”进行说明。其中，图28中示出了在合拍视频中截取到的几个视频画面，这几个视频画面从左到右是按照时间顺序依次排序的。在图28中，按照从左至右的顺序对这几个视频画面进行排序1至7，则视频画面1、视频画面3和视频画面5来自于原始视频，而视频画面2、视频画面4和视频画面6来自于用户拍摄视频，而视频画面7是通过对原始视频中相应视频画面包含的目标角色进行换脸得到，即将目标角色的面部图像替换为用户的面部图像。由于在合拍视频的播放过程中，图28中的几个视频画面以在时间顺序上由左到右顺次呈现的，由于原始视频画面和用户拍摄视频穿插播放，因此该种视频合拍方案实现了原始视频和用户拍摄视频的基于场景融合。

图29是本申请实施例提供的一种视频生成装置的结构示意图。参见图29，该装置包括：

第一处理模块2901，用于响应于针对视频合拍选项的触发操作，进行视频拍摄；

视频获取模块2902，用于获取当前拍摄得到的第二视频；所述第二视频对应于第一视频中包括目标角色的视频片段；

第二处理模块2903，用于基于对所述第一视频中的目标角色及其他角色的识别，将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频。

在一种可能的实现方式中，该装置还包括：

消息获取模块，用于基于对所述第一视频的画面内容的识别，获取提示消息；所述提示消息用于指导拍摄所述第二视频；

第一显示模块，用于在视频拍摄过程中，在拍摄界面上显示所述提示消息。

在一种可能的实现方式中，所述第二处理模块，用于若所述第一视频中不包括目标角色和其他角色的同框画面，则利用所述第二视频替换所述第一视频中包括所述目标角色的视频片段。

在一种可能的实现方式中，所述第二处理模块，用于若所述第一视频中包括所述目标角色和其他角色的同框画面，则利用所述第二视频中的用户面部图像替换所述同框画面中的目标角色面部图像。

在一种可能的实现方式中，所述提示消息包括摄像头拍摄方式、人体姿态和角色对白中的一种或多种；所述第一显示模块，用于执行以下一项或多项：在所述拍摄界面上显示所述摄像头拍摄方式的提示图标和提示文字中的至少一种；在所述拍摄界面上显示所述人体姿态的提示图标和提示文字中的至少一种；其中，所述人体姿态包括面部表情、面部朝向和肢体动作中的一种或多种；在所述拍摄界面上显示所述角色对白。

在一种可能的实现方式中，所述第一视频中包括N个角色，N为正整数且N≥2，所述装置还包括：

第二显示模块，用于响应于针对所述视频合拍选项的触发操作，在进行视频拍摄之前，在所述第一视频的播放界面上显示N个角色选项；

第三处理模块，用于响应于针对所述N个角色选项中的目标角色选项的触发操作，在所述第一视频中筛选出包括目标角色的M个视频片段作为目标视频片段；其中，M为正整数。

在一种可能的实现方式中，所述第二显示模块，还用于在所述播放界面上显示每个所述目标视频片段的预览画面；

所述第三处理模块，还用于响应于针对指定目标视频片段的预览画面的触发操作，播放所述指定目标视频片段。

在一种可能的实现方式中，所述装置还包括：

第三显示模块，用于在所述拍摄界面上悬浮显示视频窗口；其中，所述视频窗口用于显示所述第一视频中所述提示消息对应的视频片段。

在一种可能的实现方式中，所述装置还包括：

第四显示模块，用于在生成所述合拍视频后，显示所述合拍视频的预览画面、播放选项、播放进度条以及视频修改选项；

第四处理模块，用于响应于针对所述播放选项的触发操作，播放所述合拍视频；

所述第四显示模块，还用于通过所述播放进度条显示所述合拍视频的播放进度；

第五处理模块，用于响应于针对所述视频修改选项的触发操作，对所述合拍视频执行修改处理。

在一种可能的实现方式中，所述第三处理模块，用于确定所述目标角色在所述第一视频中出现的目标时间点；对所述目标时间点进行关键帧标记得到视频打点信息；根据所述视频打点信息和所述目标时间点，在所述第一视频中切分出所述M个目标视频片段。

在一种可能的实现方式中，所述消息获取模块，具体用于对每个所述目标视频片段进行画面内容分析，得到每个所述目标视频片段对应的提示消息；

所述第一显示模块，具体用于在每个所述目标视频片段的拍摄过程中，在所述拍摄界面上显示与每个所述目标视频片段对应的提示消息。

在一种可能的实现方式中，所述消息获取模块，用于针对每个所述目标视频片段，通过人体关键点检测网络，根据所述目标视频片段，确定所述目标视频片段中所述目标角色的人体关键点；按照面部不同部位之间的相对位置关系，将所述人体关键点中的面部关键点进行连接，得到面部构架模型；根据所述面部架构模型，确定所述目标角色在所述目标视频片段中面部表情和面部朝向；按照肢体不同部位之间的相对位置关系，将所述人体关键点中的肢体关键点进行连接，得到肢体构架模型；根据所述肢体架构模型，确定所述目标角色在所述目标视频片段中肢体动作。

在一种可能的实现方式中，所述消息获取模块，具体用于针对每个所述目标视频片段，获取所述目标视频片段中目标物的运动方向变化信息和大小变化信息；根据所述目标物在所述目标视频片段中的运动方向变化信息和大小变化信息，确定所述目标视频片段对应的摄像头拍摄方式。

在一种可能的实现方式中，所述消息获取模块，具体用于针对每个所述目标视频片段，对所述目标角色在所述目标视频片段中的语音数据进行识别，得到所述目标角色在所述目标视频片段中的角色对白。

在一种可能的实现方式中，所述第一显示模块，还用于若所述摄像头当前拍摄的视频画面与当前显示的所述提示消息不匹配，则在所述拍摄界面上显示错误提示消息；其中，所述错误提示消息用于引导用户重新进行视频拍摄。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频生成装置在生成视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图30示出了本申请一个示例性实施例提供的电子设备3000的结构框图。该电子设备3000可用于执行上述方法实施例中的视频生成方法。

该设备3000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备3000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，设备3000包括有：处理器3001和存储器3002。

处理器3001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器3001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器3001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器3001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器3001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器3002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器3002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器3002中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器3001所执行以实现本申请中方法实施例提供的视频生成方法。

在一些实施例中，设备3000还可选包括有：外围设备接口3003和至少一个外围设备。处理器3001、存储器3002和外围设备接口3003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口3003相连。具体地，外围设备包括：射频电路3004、触摸显示屏3005、摄像头3006、音频电路3007、定位组件3008和电源3009中的至少一种。

图31是本申请实施例提供的一种电子设备的结构示意图，该电子设备3100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)3101和一个或一个以上的存储器3102，其中，所述存储器3102中存储有至少一条程序代码，所述至少一条程序代码由所述处理器3101加载并执行以实现上述各个方法实施例提供的视频生成方法。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端中的处理器执行以完成上述实施例中的视频生成方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该电子设备执行上述实施例中的视频生成方法。

Claims

一种视频生成方法，由电子设备执行，所述方法包括：

响应于针对视频合拍选项的触发操作，进行视频拍摄；

获取当前拍摄得到的第二视频；所述第二视频对应于第一视频中包括目标角色的视频片段；

基于对所述第一视频中的目标角色及其他角色的识别，将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频。
根据权利要求1所述的方法，所述方法还包括：

基于对所述第一视频的画面内容的识别，获取提示消息；所述提示消息用于指导拍摄所述第二视频；

在视频拍摄过程中，在拍摄界面上显示所述提示消息。
根据权利要求1所述的方法，所述将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频，包括：

若所述第一视频中不包括所述目标角色和其他角色的同框画面，则利用所述第二视频替换所述第一视频中包括所述目标角色的视频片段。
根据权利要求1所述的方法，所述将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频，包括：

若所述第一视频中包括所述目标角色和其他角色的同框画面，则利用所述第二视频中的用户面部图像替换所述同框画面中的所述目标角色的面部图像。
根据权利要求2所述的方法，所述提示消息包括摄像头拍摄方式、人体姿态和角色对白中的一种或多种；所述在拍摄界面上显示所述提示消息，包括：

在所述拍摄界面上显示所述摄像头拍摄方式的提示图标和提示文字中的至少一种；

在所述拍摄界面上显示所述人体姿态的提示图标和提示文字中的至少一种；所述人体姿态包括面部表情、面部朝向和肢体动作中的一种或多种；

在所述拍摄界面上显示所述角色对白。
根据权利要求1或2所述的方法，所述第一视频中包括N个角色，所述N为大于或者等于2的整数，所述N个角色包括所述目标角色；所述方法还包括：

响应于针对所述视频合拍选项的触发操作，在进行视频拍摄之前，在所述第一视频的播放界面上显示所述N个角色各自对应的角色选项；

响应于针对所述目标角色对应的角色选项的触发操作，从所述第一视频中筛选出包括所述目标角色的M个视频片段作为目标视频片段；所述M为正整数。
根据权利要求6所述的方法，所述方法还包括：

在所述播放界面上显示每个所述目标视频片段的预览画面；

响应于针对指定目标视频片段的触发操作，播放所述指定目标视频片段。
根据权利要求2所述的方法，所述方法还包括：

在所述拍摄界面上悬浮显示视频窗口；所述视频窗口用于显示所述第一视频中与所述提示消息对应的视频片段。
根据权利要求1所述的方法，所述方法还包括：

在获得所述合拍视频后，显示所述合拍视频的预览画面、播放选项、播放进度条以及视频修改选项；

响应于针对所述播放选项的触发操作，播放所述合拍视频，并通过所述播放进度条显示所述合拍视频的播放进度；

响应于针对所述视频修改选项的触发操作，对所述合拍视频进行修改处理。
根据权利要求6所述的方法，所述从所述第一视频中筛选出包括所述目标角色的M个视频片段作为目标视频片段，包括：

确定所述目标角色在所述第一视频中出现的目标时间点；

对所述目标时间点进行关键帧标记，得到视频打点信息；

根据所述视频打点信息和所述目标时间点，在所述第一视频中切分出所述M个目标视频片段。
根据权利要求2所述的方法，所述基于对所述第一视频的画面内容的识别，获取提示消息，包括：

对所述第一视频中每个包括所述目标角色的目标视频片段进行画面内容分析，得到每个所述目标视频片段对应的提示消息；

所述在视频拍摄过程中，在拍摄界面上显示所述提示消息，包括

在每个所述目标视频片段的拍摄过程中，在所述拍摄界面上显示每个所述目标视频片段对应的提示消息。
根据权利要求11所述的方法，所述对所述第一视频中每个包括所述目标角色的目标视频片段进行画面内容分析，包括：

针对每个所述目标视频片段，通过人体关键点检测网络，确定所述目标视频片段中所述目标角色的人体关键点；

按照面部不同部位之间的相对位置关系，将所述人体关键点中的面部关键点进行连接，得到面部构架模型；根据所述面部架构模型，确定所述目标角色在所述目标视频片段中面部表情和面部朝向；

按照肢体不同部位之间的相对位置关系，将所述人体关键点中的肢体关键点进行连接，得到肢体构架模型；根据所述肢体架构模型，确定所述目标角色在所述目标视频片段中肢体动作。
根据权利要求11所述的方法，所述对所述第一视频中每个包括所述目标角色的目标视频片段进行画面内容分析，包括：

针对每个所述目标视频片段，获取所述目标视频片段中目标物的运动方向变化信息和大小变化信息；根据所述目标物在所述目标视频片段中的运动方向变化信息和大小变化信息，确定所述目标视频片段对应的摄像头拍摄方式。
根据权利要求11所述的方法，所述对所述第一视频中每个包括所述目标角色的目标视频片段进行画面内容分析，包括：

针对每个所述目标视频片段，对所述目标角色在所述目标视频片段中的语音数据进行识别，得到所述目标角色在所述目标视频片段中的角色对白。
根据权利要求2所述的方法，所述方法还包括：

若所述摄像头当前拍摄的视频画面与当前显示的所述提示消息不匹配，则在所述拍摄界面上显示错误提示消息。
一种视频生成装置，所述装置包括：

第一处理模块，用于响应于针对视频合拍选项的触发操作，进行视频拍摄；

视频获取模块，用于获取当前拍摄得到的第二视频；所述第二视频对应于第一视频中包括目标角色的视频片段；

第二处理模块，用于基于对所述第一视频中的目标角色及其他角色的识别，将所述第二视频融合至所述第一视频的视频内容中，获得合拍视频。
一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至15中任一项权利要求所述的视频生成方法。
一种存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至15中任一项权利要求所述的视频生成方法。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行权利要求1至15中任一项权利要求所述的视频生成方法。