WO2023040633A1

WO2023040633A1 - 一种视频生成方法、装置、终端设备及存储介质

Info

Publication number: WO2023040633A1
Application number: PCT/CN2022/115065
Authority: WO
Inventors: 喻雅洁; 陈前; 苏志伟; 蔺鑫; 姜维
Original assignee: 北京字跳网络技术有限公司
Priority date: 2021-09-14
Filing date: 2022-08-26
Publication date: 2023-03-23
Also published as: US20240118787A1; EP4344215A1; CN115811665A; JP2024525372A

Abstract

本公开提供了一种视频生成方法、装置、设备及存储介质，该方法包括：首先，获取拍摄器的当前输入数据（S101），并基于当前输入数据确定待渲染图标（S102）。然后，在目标拍摄画面上对待渲染图标进行渲染，得到拍摄效果画面（S103），进而，基于该拍摄效果画面生成目标视频（S104）。本公开实施例通过基于拍摄器的当前输入数据确定待渲染图标，并自动化的将该待渲染图标渲染到目标拍摄画面的方式，高效的实现了丰富视频画面内容的效果。

Description

一种视频生成方法、装置、终端设备及存储介质

相关申请的交叉引用

本申请要求于2021年09月14日提交的，申请号为202111074707.3、发明名称为“一种视频生成方法、装置、终端设备及存储介质”的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开涉及数据处理领域，尤其涉及一种视频生成方法、装置、终端设备及存储介质。

背景技术

随着短视频技术的不断发展，人们对视频创作越来越感兴趣，如何丰富视频创作画面，使得视频内容更加生动，是视频创作达人们追求的目标。

Emoji图标，也称为视觉情感符号，是当下比较流行的网络表情，在视频编辑阶段，视频创作达人通过在视频画面上手动添加Emoji图标的方式，丰富视频画面的内容，但是，在视频画面上手动添加Emoji图标的方式，对于丰富视频画面的内容而言效率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种视频生成方法、装置、终端设备及存储介质，能够提高丰富视频画面内容的效率。

第一方面，本公开提供了一种视频生成方法，所述方法包括：

获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；

基于所述当前输入数据确定待渲染图标；

在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；

基于所述拍摄效果画面生成目标视频。

第二方面，本公开提供了一种视频生成装置，所述装置包括：

获取模块，用于获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；

确定模块，用于基于所述当前输入数据确定待渲染图标；

渲染模块，用于在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；

视频生成模块，用于基于所述拍摄效果画面生成目标视频。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的视频生成方法。

第四方面，本公开提供了一种终端设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的视频生成方法。

第五方面，本公开提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的视频生成方法。

本公开实施例提供的技术方案与现有技术相比至少具有如下优点：

本公开实施例提供了一种视频生成方法，首先，获取拍摄器的当前输入数据，并基于当前输入数据确定待渲染图标。然后，在目标拍摄画面上对待渲染图标进行渲染，得到拍摄效果画面，进而，基于该拍摄效果画面生成目标视频。本公开实施例通过基于拍摄器的当前输入数据确定待渲染图标，并自动化的将该待渲染图标渲染到目标拍摄画面的方式，高效的实现了丰富视频画面内容的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频生成方法的流程图；

图2为本公开实施例提供的在目标拍摄画面上对待渲染图标进行渲染的结果示例图一；

图3为本公开实施例提供的在目标拍摄画面上对待渲染图标进行渲染的结果示例图二；

图4为本公开实施例提供的视频编辑界面的示例图；

图5为本公开实施例提供的时长设置界面的示例图；

图6为本公开实施例提供的目标图标的编辑框的示例图；

图7为本公开实施例提供的拍摄器的视频录制界面的示例图；

图8为本公开实施例提供的弹窗展示权限申请信息的示例图；

图9为本公开实施例生成的目标视频的示例图；

图10为本公开实施例提供的一种视频生成装置的结构示意图；

图11为本公开实施例所提供的一种终端设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，在视频编辑阶段，视频创作者可以通过手动在视频画面上添加Emoji图标的方式，丰富视频画面的内容，使得创作的视频内容更加生动。但是，手动添加Emoji图标的方式效率较低，影响视频创作的进度。

为此，本公开实施例提供了一种视频生成方法，首先获取拍摄器的当前输入数据，并基于当前输入数据确定待渲染图标。然后，在目标拍摄画面上对待渲染图标进行渲染，得到拍摄效果图像，进而，基于拍摄效果图像生成目标视频。可见，本公开实施例通过基于拍摄器的当前输入数据确定待渲染图标，并自动化的将该待渲染图标渲染到目标拍摄画面的方式，高效的实现了丰富视频画面内容的效果。

基于此，本公开实施例提供了一种视频生成方法，参考图1，为本公开实施例提供的一种视频生成方法的流程图，该方法包括：

S101：获取拍摄器的当前输入数据。

其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面。

其中，预设时长和预设个数均可以预先设定，比如，预设时长可以设置为1秒、3秒，预设个数可以设置为1帧、5帧，等等。

本公开实施例中，音频输入数据可以是通过拍摄器录制视频时选择的背景音乐，也可以是用户在进行视频录制时说的话，本公开对此不作限制。拍摄器可以是具有视频录制功能的应用程序所提供的视频拍摄工具，所述应用程序可以安装在智能手机、平板电脑等终端设备上。

示例性地，假设当前输入数据包括音频输入数据，预设时长为3秒，如果当前的背景音乐尚未播放至3秒，比如当前背景音乐播放至2秒处，则获取的音频输入数据为背景音乐从0秒至2秒这一时段内的连续音频帧数据；如果当前的背景音乐播放超过3秒，比如当前背景音乐播放至5秒处，则获取的音频输入数据为背景音乐从2秒开始至5秒这一时段内的连续音频数据。

示例性地，假设当前输入数据包括图像输入数据，如果预设个数为1，则可以获取当前拍摄画面的截图作为图像输入数据，如果预设个数为3，则可以获取包含当前拍摄画面在内的前3帧拍摄画面的截图作为图像输入数据。

一种可选的实施方式中，可以在拍摄器的视频录制场景或拍摄画面预览场景下，获取所述拍摄器的音频输入数据和/或图像输入数据，作为所述拍摄器的当前输入数据。

通常，用户录制视频时，需要打开拍摄器进行视频的录制，用户打开拍摄器后，会展示一个预览界面，预览界面上显示有拍摄按钮，用户点击拍摄按钮后才开始录制视频，用户点击拍摄按钮之前一直展示预览界面。本公开实施例中，在开始录制之前，可以获取拍摄画面预览场景下的音频输入数据和/或图像输入数据，作为拍摄器的当前输入数据，在用户点击拍摄按钮开始录制视频之后，可以继续获取视频录制过程中的音频输入数据和/或图像输入数据，作为拍摄器的当前输入数据。

S102：基于所述当前输入数据确定待渲染图标。

本公开实施例中，可以预先训练好渲染图标的预测模型，将获取的当前输入数据输入至预测模型中，由预测模型输出对应的待渲染图标。

需要说明的是，可以针对音频输入数据和图像输入数据分别训练对应的预测模型用于渲染图标的预测，也可以共同训练一个预测模型来对音频输入数据和图像输入数据进行渲染图标的预测，本公开对此不作限制。

本公开实施例中，待渲染图标不限于Emoji图标，也可以扩展至其他图标，本公开对此不作限制。其中，Emoji图标包括多种类型的图标，包括笑脸和情感类图标、人类和身体图标、肤色和发型图标、动物和自然类图标、食物和饮料类图标、旅行和地点类图标、活动类图标、物品类图标、符号类图标和旗帜类图标。其中，笑脸和情感类图标包括笑脸、表情脸、吐舌脸、带手脸、睡脸、病脸、担忧脸、消极脸、猫咪脸、猴子脸、情感类图标，等等；人类和身体图标包括手掌张开类图标、一根手指类图标、动作手图标、身体图标、人物图标、人物手势图标、人物角色图标、虚构人物图标、人物活动图标、人物运动图标、人物休息图标、家庭类图标，等等；肤色和发型图标包括肤色图标和发型图标；动物和自然类图标包括哺乳动物类图标、鸟类图标、爬行动物类图标、海洋动物类图标、昆虫类图标、花朵图标和其他植物图标；食物和饮料类图标包括蔬果类图标、熟食类图标、饮料类图标、餐具类图标，等等；旅行和地点类图标包括建筑图标、陆路交通图标、水路交通图标，等等；活动类图标包括运动类图标、游戏类图标，等等；物品类图标包括服饰类图标、乐器类图标、办公类图标，等等；符号类图标包括星座类图标、功能标识类图标，等等。

示例性地，假设获取到音频输入数据为“我明天去滑雪”，则基于该音频输入数据，可以确定待渲染图标为滑雪图标。

示例性地，假设获取到图像输入数据为拍摄画面中的人物在吐舌头，则基于该图像输入数据，可以确定待渲染图标为吐舌头图标。

S103：在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面。

其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面。

其中，预设个数可以预先设定，比如可以设置预设个数为3帧、5帧等。

本公开实施例中，在目标拍摄画面上对待渲染图标进行渲染时，可以采用不同的方式进行渲染。

示例性地，可以将待渲染图标以贴纸的形式贴在目标拍摄画面中，这种渲染方式渲染得到的拍摄效果画面中，目标拍摄画面和待渲染图标是独立的。

示例性地，可以将待渲染图标和目标拍摄画面作为整体进行渲染，这种渲染方式渲染得到的拍摄效果画面中，目标拍摄画面和待渲染图标是合二为一的。

S104：基于所述拍摄效果画面生成目标视频。

本公开实施例中，可以采用上述步骤确定整个视频录制过程中相关的待渲染图标，并在目标拍摄画面上对待渲染图标进行渲染得到拍摄效果画面，进而，基于每次渲染得到的拍摄效果画面，生成目标视频，由此生成的目标视频中不仅包含拍摄画面，还包含了根据拍摄画面和视频录制过程中出现的音频推荐的渲染图标，丰富了视频画面内容，实现了在视频录制过程中自动推荐合适的图标，无需用户在视频编辑过程中手动添加图标，提升了视频创作趣味性的同时，也提高了图标添加效率，节省了视频制作成本。

本公开实施例的视频生成方法，首先，获取拍摄器的当前输入数据，并基于当前输入数据确定待渲染图标。然后，在目标拍摄画面上对待渲染图标进行渲染，得到拍摄效果画面，进而，基于该拍摄效果画面生成目标视频。本公开实施例通过基于拍摄器的当前输入数据确定待渲染图标，并自动化的将该待渲染图标渲染到目标拍摄画面的方式，高效的实现了丰富视频画面内容的效果。

一种可选的实施方式中，所述当前输入数据包括所述音频输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

对所述音频输入数据进行语音识别，得到语音识别结果；

将所述语音识别结果输入至第一推荐模型中，经过所述第一推荐模型的处理后，输出所述音频输入数据对应的图标；

基于所述音频输入数据对应的图标，确定待渲染图标。

其中，第一推荐模型可以是预先训练得到的，可以收集大量的语音识别文本并标注渲染图标后作为训练样本，对初始神经网络模型进行训练，得到训练好的第一推荐模型，以用于根据语音识别结果预测匹配的图标。

本公开实施例中，对于获取的音频输入数据，可以采用现有的语音识别算法对音频输入数据进行语音识别，得到语音识别结果，接着，将语音识别结果输入至训练好的第一推荐模型中进行处理，由第一推荐模型输出音频输入数据对应的图标，进而可以将该图标确定为待渲染图标。

一种可选的实施方式中，所述当前输入数据包括所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

提取所述图像输入数据中的表情特征和/或肢体动作特征；

将所述表情特征和/或肢体动作特征输入至第二推荐模型中，经过所述第二推荐模型的处理后，输出所述图像输入数据对应的图标；

基于所述图像输入数据对应的图标，确定待渲染图标。

其中，第二推荐模型可以是预先训练得到的，可以收集大量的表情特征和/或肢体动作特征并标注渲染图标后作为训练样本，对初始神经网络模型进行训练，得到训练好的第二推荐模型，以用于根据表情特征和/或肢体动作特征预测匹配的图标。

本公开实施例中，对于获取的图像输入数据，可以采用相关的表情提取算法提取图像输入数据中表情特征，和/或采用相关的肢体动作识别算法提取图像输入数据中的肢体动作特征，接着，将提取的表情特征和/或肢体动作特征输入至训练好的第二推荐模型中进行处理，由第二推荐模型输出与图像输入数据匹配的图标，进而可以将该图标确定为待渲染图标。

可选地，考虑到随着时间的推移，应用程序中设置的图标库中的图标可能发生一些变化，比如，同一图标变得更加漂亮，同一动作图标的动作幅度发生变化等，导致第一推荐模型和/或第二推荐模型输出的图标无法与图标库中的图标完全匹配，这种情况下，若将第一推荐模型和/或第二推荐模型输出的图标作为待渲染图标，则可能无法获得让用户满意的图标。针对这种情况，可以根据第一推荐模型和/或第二推荐模型输出的图标，从图标库中匹配出与该图标最相似的图标作为待渲染图标，以使目标拍摄画面中渲染的图标与图标库中的图标匹配，提高用户对所渲染图标的满意度。

需要说明的是，本公开实施例中的第一推荐模型和第二推荐模型，可以是随应用程序的安装包一起安装在终端设备本地的推荐模型，也可以是部署在应用程序对应服务器中的推荐模型，本公开对此不作限制。

一种可选的实施方式中，所述当前输入数据包括所述音频输入数据和所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

确定所述音频输入数据和所述图像输入数据分别对应的图标；

对所述音频输入数据和所述图像输入数据分别对应的图标进行去重处理，得到待渲染图标。

用户在录制视频的过程中，可能边做动作边对所做的动作进行语言描述，比如，用户做加油动作的同时，嘴里喊着“加油加油”，这种情况下，根据获取的音频输入数据和图像输入数据，可以获得相同的图标，如果将音频输入数据匹配的图标和图像输入数据匹配的图像均渲染在目标拍摄画面中，则目标拍摄画面中会出现两个相同的图标，导致图标重复，影响用户的视觉体验。针对这一现象，本公开实施例中，对于所确定的音频输入数据和图像输入数据分别对应的图标，可以进行去重处理，仅保留一个图标作为待渲染图标，从而删除了重复的图标，避免了目标拍摄画面中渲染相同的图标，简化了视频画面。

一种可选的实施方式中，在目标拍摄画面上对待渲染图标进行渲染之前，还可以先确定待渲染图标对应的渲染参数值；其中，所述渲染参数值包括渲染位置坐标、渲染图标大小、渲染角度和/或渲染时间。相应的，所述在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面，包括：基于所述渲染参数值，在所述目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面。

示例性地，渲染位置坐标可以根据当前输入数据的不同而设置不同的渲染位置坐标。具体地，当前输入数据为音频输入数据时，渲染位置坐标可以是目标拍摄画面中除人脸所在区域外的任意位置坐标，比如目标拍摄画面的左上角、右上角等空白区域。其中，可以利用人脸识别算法识别出拍摄画面中的人脸，确定出人脸区域范围，进而在确定渲染位置坐标时，避开人脸区域范围，以避免渲染的图标遮挡画面中的人脸。当前输入数据为图像输入数据时，渲染位置坐标可以根据图像输入数据中的表情特征和/或肢体动作特征的位置坐标确定，渲染位置坐标可以是表情特征和/或肢体动作特征的位置坐标附近，也就是说，当前输入数据为图像输入数据时，待渲染图标尽可能渲染在靠近对应表情和/或肢体动作的位置。

示例性地，渲染图标大小、渲染角度和渲染时间可以采用预设大小、预设角度和预设渲染时长。其中，预设大小、预设角度和预设渲染时长可以是系统配置的，也可以是由用户自行设置的，本公开对此不作限定。

本公开实施例中，根据确定的待渲染图标对应的渲染参数值，可以在目标拍摄画面上对待渲染图标进行渲染，得到拍摄效果画面。

图2为本公开实施例提供的在目标拍摄画面上对待渲染图标进行渲染的结果示例图一，图2所示的是渲染得到的拍摄效果画面中的一帧画面。如图2所示，用户在录制视频时说“明天去滑雪”，则根据该音频数据，可以匹配到待渲染图标为“滑雪”，并将该图标按照渲染位置坐标、渲染图标大小、渲染角度和渲染时间渲染在视频画面中，如图2中标号21所示。

图3为本公开实施例提供的在目标拍摄画面上对待渲染图标进行渲染的结果示例图二，图3所示的是渲染得到的拍摄效果画面中的一帧画面。如图3所示，用户在录制视频时做出了捂眼睛的动作，则根据该图像数据，可以匹配到待渲染图标为“捂眼睛”，并根据用户的捂眼睛动作在图像中的位置，确定该图标的渲染位置坐标，比如确定渲染位置坐标为人脸的左侧，进而将该图标按照渲染位置坐标、渲染图标大小、渲染角度和渲染时间渲染在视频画面中，如图3中标号31所示。

一种可选的实施方式中，对于生成的目标视频，可以在视频编辑界面上播放该目标视频，并且，响应于针对所述目标视频中的播放画面上的目标图标的选定操作，显示所述目标图标对应的编辑轨道；基于所述编辑轨道调整所述目标图标的渲染时间。

图4为本公开实施例提供的视频编辑界面的示例图，如图4所示，视频编辑界面中正在播放目标视频，视频中展示有捂眼睛图标，捂眼睛图标如图4中标号41所示的图标。当用户点击标号41所示的图标时，在该图标附近显示对应的编辑轨道，编辑轨道如图4中标号42所示。从图4可以看出，编辑轨道包括文本朗读、设置时长和编辑。其中，通过点击文本朗读可以朗读该图标对应的音频输入数据，通过设置时长可以设置该图标的持续时长，通过编辑可以调整图标的位置、图标的大小、图标的角度，以及删除图标等。当用户点击设置时长时，进入如图5所示的时长设置界面，用户在时长设置界面中可以设置标号41所示图标的持续时长。

如图5所示，在时长设置界面，目标视频暂停播放。图5中显示有贴纸时长设置窗口，如标号51所示，通过调整贴纸时长设置窗口，用户可以设置标号41所示图标的持续时长，如图5所示，贴纸时长设置窗口处于目标视频的0.3秒(图5中，秒用s表示)至1.3秒，即设置标号41所示图标的持续时长为1秒，并在时长设置界面中显示“已选取贴纸持续时间1.0s”的提示信息。

本公开实施例中，通过在视频编辑界面上播放目标视频，响应于针对目标视频中的播放画面上的目标图标的选定操作，显示目标图标对应的编辑轨道，进而基于编辑轨道调整目标图标的渲染时间，由此，用户可以根据需求自行设置图标的显示时长，实现了图标显示时长的灵活调整。

一种可选的实施方式中，在视频编辑界面上播放目标视频时，用户还可以对选定的目标图标执行预设操作，从而，响应于在所述播放画面上针对所述目标图标的预设操作，调整所述目标图标的渲染位置坐标、渲染图标大小和/或渲染角度。

其中，预设操作可以是对目标图标的缩放操作、旋转操作和拖拽操作，通过缩放操作可以调整目标图标的渲染图标大小，通过旋转操作可以调整目标图标的渲染角度，通过拖拽操作可以调整目标图标的渲染位置坐标。

示例性地，用户可以点击图4中标号42所示的编辑轨道中的编辑，之后，标号41所示的目标图标外围显示一个编辑框，如图6所示，标号61所指示的框即为目标图标的编辑框，通过对标号61所示的编辑框的任意边执行收缩操作，可以调整标号41所示的目标图标的大小，通过对标号61所示的编辑框执行旋转操作，可以调整标号41所示的目标图标的角度，通过对标号61所示的编辑框执行拖拽操作，可以调整标号41所示的目标图标的位置。另外，如图6所示，在编辑框的右上角上还显示有删除符号“X”，通过点击该删除符号，可以删除标号41所示的目标图标。

本公开实施例中，响应于在播放画面上针对目标图标的预设操作，调整目标图标的渲染位置坐标、渲染图标大小和/或渲染角度，由此，实现了对渲染图标的灵活调整，增加了视频制作的趣味性。

随着人们对个人信息安全的重视，用户通常希望对自身各方面的信息进行保护，而渲染图标的自动推荐需要获取用户录制视频时的音频输入数据和图像输入数据，为了使用户获知这一情况，本公开一种可选的实施方式中，在获取拍摄器的当前输入数据之前，可以先获取针对所述拍摄器的当前输入数据的用户授权信息，在获得授权之后，才可以开启图标推荐功能，进而可以获取当前输入数据确定待渲染图标。

示例性地，图7为本公开实施例提供的拍摄器的视频录制界面的示例图，如图7所示，在视频录制界面中显示有图标道具栏，图标道具栏如图7中标号71所示，当用户点击该图标道具栏时，以弹窗的形式展示权限申请信息，如图8所示，权限申请信息用于申请用户的音频、动作、表情等数据的获取权限，若用户选择授权，则开启图标推荐功能，图标推荐功能如图7中标号72所示。图标推荐功能开启之后，可以获取拍摄器的当前输入数据用于图标推荐。

示例性地，标号72所示的图标推荐功能默认为关闭状态(圆圈在左侧)，当用户点击该图标推荐功能时，显示如图8所示的弹窗以申请用户的音频、动作、表情等数据的获取权限，若用户选择授权，则将图标推荐功能由关闭状态切换为开启状态(圆圈在右侧)，之后，可以获取拍摄器的当前输入数据用于图标推荐。

图9为本公开实施例生成的目标视频的示例图，用户在拍摄视频过程中共说了如下几句话：“今天的天气很好，我去逛公园，突然接到一个电话，让我去加班”，根据“今天天气很好”确定待渲染图标包括太阳图标，并将太阳图标显示在之后的视频画面中，如标号91所示。展示太阳图标的视频画面对应音频数据“我去逛公园”，根据该音频数据确定待渲染图标为公园图标，并将公园图标显示在之后的视频画面中，如标号92所示。根据音频数据“突然接到一个电话，让我去加班”，确定待渲染图标为电话图标和工作图标，并将电话图标和工作图标显示在视频画面中，如标号93和标号94。可见，由于匹配待渲染图标以及在拍摄画面中渲染图标均需要一定的耗时，因此图标的显示相较于音频数据会有一定的延时。

基于上述方法实施例，本公开还提供了一种视频生成装置，参考图10，为本公开实施例提供的一种视频生成装置的结构示意图，所述视频生成装置100包括：获取模块110、确定模块120、渲染模块130和视频生成模块140。其中，

获取模块110，用于获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；

确定模块120，用于基于所述当前输入数据确定待渲染图标；

渲染模块130，用于在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；

视频生成模块140，用于基于所述拍摄效果画面生成目标视频。

一种可选的实施方式中，所述获取模块110具体用于：在拍摄器的视频录制场景或拍摄画面预览场景下，获取所述拍摄器的音频输入数据和/或图像输入数据，作为所述拍摄器的当前输入数据。

一种可选的实施方式中，所述当前输入数据包括所述音频输入数据，所述确定模块120，具体用于：

对所述音频输入数据进行语音识别，得到语音识别结果；

基于所述音频输入数据对应的图标，确定待渲染图标。

一种可选的实施方式中，所述当前输入数据包括所述图像输入数据，所述确定模块120，具体用于：

提取所述图像输入数据中的表情特征和/或肢体动作特征；

基于所述图像输入数据对应的图标，确定待渲染图标。

一种可选的实施方式中，所述当前输入数据包括所述音频输入数据和所述图像输入数据，所述确定模块120，具体用于：

一种可选的实施方式中，所述视频生成装置100还包括：

渲染参数确定模块，用于确定所述待渲染图标对应的渲染参数值；其中，所述渲染参数值包括渲染位置坐标、渲染图标大小、渲染角度和/或渲染时间。

相应的，所述渲染模块130，具体用于：

基于所述渲染参数值，在所述目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面。

一种可选的实施方式中，所述视频生成装置100还包括：

视频播放模块，用于在视频编辑界面上播放所述目标视频；

显示模块，用于响应于针对所述目标视频中的播放画面上的目标图标的选定操作，显示所述目标图标对应的编辑轨道；

时间调整模块，用于基于所述编辑轨道调整所述目标图标的渲染时间。

一种可选的实施方式中，所述视频生成装置100还包括：

参数调整模块，用于响应于在所述播放画面上针对所述目标图标的预设操作，调整所述目标图标的渲染位置坐标、渲染图标大小和/或渲染角度。

一种可选的实施方式中，所述视频生成装置100还包括：

获取授权模块，用于获取针对所述拍摄器的当前输入数据的用户授权信息。

本公开实施例所提供的视频生成装置可执行本公开任意实施例所提供的视频生成方法，具备执行方法相应的功能模块和有益效果。

除了上述方法和装置以外，本公开实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现本公开实施例所述的视频生成方法。

本公开实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开实施例所述的视频生成方法。

图11为本公开实施例所提供的一种终端设备的结构示意图。

下面具体参考图11，其示出了适于用来实现本公开实施例中的终端设备400的结构示意图。本公开实施例中的终端设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的终端设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，终端设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有终端设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许终端设备400与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的终端设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的视频生成方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述终端设备中所包含的；也可以是单独存在，而未装配入该终端设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该终端设备执行时，使得该终端设备执行如下：获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；基于所述当前输入数据确定待渲染图标；在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；基于所述拍摄效果画面生成目标视频。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种视频生成方法，包括：

基于所述当前输入数据确定待渲染图标；

基于所述拍摄效果画面生成目标视频。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述获取拍摄器的当前输入数据，包括：

在拍摄器的视频录制场景或拍摄画面预览场景下，获取所述拍摄器的音频输入数据和/或图像输入数据，作为所述拍摄器的当前输入数据。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述当前输入数据包括所述音频输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

对所述音频输入数据进行语音识别，得到语音识别结果；

基于所述音频输入数据对应的图标，确定待渲染图标。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述当前输入数据包括所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

提取所述图像输入数据中的表情特征和/或肢体动作特征；

基于所述图像输入数据对应的图标，确定待渲染图标。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述当前输入数据包括所述音频输入数据和所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面之前，还包括：

确定所述待渲染图标对应的渲染参数值；其中，所述渲染参数值包括渲染位置坐标、渲染图标大小、渲染角度和/或渲染时间。

相应的，所述在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面，包括：

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述基于所述拍摄效果画面，生成目标视频之后，还包括：

在视频编辑界面上播放所述目标视频；

响应于针对所述目标视频中的播放画面上的目标图标的选定操作，显示所述目标图标对应的编辑轨道；

基于所述编辑轨道调整所述目标图标的渲染时间。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述方法还包括：

响应于在所述播放画面上针对所述目标图标的预设操作，调整所述目标图标的渲染位置坐标、渲染图标大小和/或渲染角度。

根据本公开的一个或多个实施例，本公开提供的视频生成方法中，所述获取拍摄器的当前输入数据之前，还包括：

获取针对所述拍摄器的当前输入数据的用户授权信息。

根据本公开的一个或多个实施例，本公开提供了一种视频生成装置，包括：

确定模块，用于基于所述当前输入数据确定待渲染图标；

视频生成模块，用于基于所述拍摄效果画面生成目标视频。

根据本公开的一个或多个实施例，本公开提供的视频生成装置中，所述获取模块具体用于：在拍摄器的视频录制场景或拍摄画面预览场景下，获取所述拍摄器的音频输入数据和/或图像输入数据，作为所述拍摄器的当前输入数据。

根据本公开的一个或多个实施例，本公开提供的视频生成装置中，所述当前输入数据包括所述音频输入数据，所述确定模块，具体用于：

对所述音频输入数据进行语音识别，得到语音识别结果；

基于所述音频输入数据对应的图标，确定待渲染图标。

根据本公开的一个或多个实施例，本公开提供的视频生成装置中，所述当前输入数据包括所述图像输入数据，所述确定模块，具体用于：

提取所述图像输入数据中的表情特征和/或肢体动作特征；

基于所述图像输入数据对应的图标，确定待渲染图标。

根据本公开的一个或多个实施例，本公开提供的视频生成装置中，所述当前输入数据包括所述音频输入数据和所述图像输入数据，所述确定模块，具体用于：

根据本公开的一个或多个实施例，本公开提供的视频生成装置中，所述装置还包括：

渲染参数确定模块，用于确定所述待渲染图标对应的渲染参数值；其中，所述渲染参数值包括渲染位置坐标、渲染图标大小、渲染角度和/或渲染时间；

相应的，所述渲染模块，具体用于：

视频播放模块，用于在视频编辑界面上播放所述目标视频；

根据本公开的一个或多个实施例，本公开提供了一种终端设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本公开提供的任一所述的视频生成方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开提供的任一所述的视频生成方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种视频生成方法，其特征在于，所述方法包括：

获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；

基于所述当前输入数据确定待渲染图标；

在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；

基于所述拍摄效果画面生成目标视频。
根据权利要求1所述的方法，其特征在于，所述获取拍摄器的当前输入数据，包括：

在拍摄器的视频录制场景或拍摄画面预览场景下，获取所述拍摄器的音频输入数据和/或图像输入数据，作为所述拍摄器的当前输入数据。
根据权利要求1所述的方法，其特征在于，所述当前输入数据包括所述音频输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

对所述音频输入数据进行语音识别，得到语音识别结果；

将所述语音识别结果输入至第一推荐模型中，经过所述第一推荐模型的处理后，输出所述音频输入数据对应的图标；

基于所述音频输入数据对应的图标，确定待渲染图标。
根据权利要求1所述的方法，其特征在于，所述当前输入数据包括所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

提取所述图像输入数据中的表情特征和/或肢体动作特征；

将所述表情特征和/或肢体动作特征输入至第二推荐模型中，经过所述第二推荐模型的处理后，输出所述图像输入数据对应的图标；

基于所述图像输入数据对应的图标，确定待渲染图标。
根据权利要求1所述的方法，其特征在于，所述当前输入数据包括所述音频输入数据和所述图像输入数据，所述基于所述当前输入数据确定待渲染图标，包括：

确定所述音频输入数据和所述图像输入数据分别对应的图标；

对所述音频输入数据和所述图像输入数据分别对应的图标进行去重处理，得到待渲染图标。
根据权利要求1所述的方法，其特征在于，所述在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面之前，还包括：

确定所述待渲染图标对应的渲染参数值；其中，所述渲染参数值包括渲染位置坐标、渲染图标大小、渲染角度和/或渲染时间。

相应的，所述在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面，包括：

基于所述渲染参数值，在所述目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面。
根据权利要求1所述的方法，其特征在于，所述基于所述拍摄效果画面，生成目标视频之后，还包括：

在视频编辑界面上播放所述目标视频；

响应于针对所述目标视频中的播放画面上的目标图标的选定操作，显示所述目标图标对应的编辑轨道；

基于所述编辑轨道调整所述目标图标的渲染时间。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

响应于在所述播放画面上针对所述目标图标的预设操作，调整所述目标图标的渲染位置坐标、渲染图标大小和/或渲染角度。
根据权利要求1所述的方法，其特征在于，所述获取拍摄器的当前输入数据之前，还包括：

获取针对所述拍摄器的当前输入数据的用户授权信息。
一种视频生成装置，其特征在于，所述装置包括：

获取模块，用于获取拍摄器的当前输入数据；其中，所述当前输入数据包括音频输入数据和/或图像输入数据，所述音频输入数据包括以所述拍摄器的当前输入音频帧为结束帧的预设时长的连续音频帧数据，所述图像输入数据包括以所述拍摄器的当前拍摄画面为结束帧的预设个数的连续视频帧画面；

确定模块，用于基于所述当前输入数据确定待渲染图标；

渲染模块，用于在目标拍摄画面上对所述待渲染图标进行渲染，得到拍摄效果画面；其中，所述目标拍摄画面包括以所述拍摄器的当前拍摄画面为开始帧的预设个数的连续视频帧画面；

视频生成模块，用于基于所述拍摄效果画面生成目标视频。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-9任一项所述的视频生成方法。
一种终端设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-9任一项所述的视频生成方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如权利要求1-9任一项所述的视频生成方法。