WO2021109678A1

WO2021109678A1 - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: WO2021109678A1
Application number: PCT/CN2020/116452
Authority: WO
Inventors: 刘炫鹏; 刘云峰; 刘致远; 文博
Original assignee: 深圳追一科技有限公司
Priority date: 2019-12-04
Filing date: 2020-09-21
Publication date: 2021-06-10
Also published as: CN110968736B; CN110968736A

Abstract

一种视频生成方法，包括：获取用户输入的交互信息；根据交互信息获取场景视频，场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；输出待播放视频。

Description

视频生成方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请要求于2019年12月04日提交中国专利局、申请号为201911228480.6、发明名称为“视频生成方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

随着科技的发展，人们的生活日益丰富，人们获取文本中的信息的方式也越来越多，越来越方便。相比于之前仅能通过阅读的方式来获取文本中的信息，现在还可以通过音频的方式来实现。

然而，通过音频的方式可以方便用户在不用看着文本的情况下，也能获取到文本信息，但较为枯燥，无趣，用户难以了解文本内容的以及环境场景相融合的具体信息，从而降低了用户获取信息的体验感。

发明内容

根据本申请的各种实施例，提供一种视频生成方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种视频生成方法，所述方法包括：

获取用户输入的交互信息；

根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出所述待播放视频。

第二方面，本申请实施例提供了一种视频生成装置，所述装置包括：

信息输入模块，用于获取用户输入的交互信息；

场景视频获取模块，用于根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

人脸获取模块，用于获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

视频生成模块，用于以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出模块，用于输出所述待播放视频。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电连接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于实现以下操作：

获取用户输入的交互信息；

输出所述待播放视频。

第四方面，本申请实施列提供一种计算机可读存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码被处理器调用执行时，实现以下操作：

获取用户输入的交互信息；

输出所述待播放视频。

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更好地描述和说明这里公开的那些发明的实施例和/或示例，可以参考一幅或多幅附图。用于描述附图的附加细节或示例不应当被认为是对所公开的发明、目前描述的实施例和/或示例以及目前理解的这些发明的最佳模式中的任何一者的范围的限制。

图1示出了本申请一个实施例提供的视频生成方法的流程图。

图2示出了本申请一个实施例提供的对待匹配人物的脸部特征进行替换的示意图。

图3示出了本申请另一个实施例提供的视频生成方法的流程图。

图4示出了本申请一个实施例提供的根据视频文本信息生成场景视频的流程示意图。

图5示出了本申请另一个实施例提供的视频生成方法的流程图。

图6示出了本申请另一个实施例提供的视频生成方法的流程图。

图7示出了本申请一个实施例提供的视频生成装置的功能模块图。

图8示出了本申请一个实施例提供的用于执行根据本申请实施例的视频生成方法的电子设备的结构框图。

图9示出了本申请一个实施例提供的用于保存或者携带实现根据本申请实施例的视频生成方法的程序代码的存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着社会及进步，科技发展，人们可以通过各种方式获取信息和知识的途径越来越多，例如，阅读文本，听取音频或是观看视频都可以获取到各种信息。然而通过阅读文本或听取音频的方式较为单调，用户在阅读文本或听取音频的时间较长时，通常会感到枯燥，从而导致用户的体验较差。视频具有较好的表现方式，可以通过声音和画面为用户提供信息，然而，由于画面中的人物不是用户本身，则产生的代入感较弱，从而导致用户的体验较差。

发明人在研究中发现，电子设备在通过视频获取信息时，可以将用户的脸复现在视频中的某个人物上，以增强用户的代入感，更好的获取视频中的信息，从而增强用户的体验。

由此，发明人提出了本申请实施例中的视频生成方法、装置、电子设备及存储介质。电子设备在通过视频展示信息内容的同时，将用户的脸复现在视频的某个人物上，以增强用户的的代入感，从而提升用户的体验。

下面将对本申请实施例进行详细的说明。

请参阅图1，本申请实施例提供了一种视频生成方法，可应用于电子设备。其中，电子设备可以是具有显示屏、具有拍摄相机、具有音频输出功能且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等，具体的该方法可以包括：

操作S110：获取用户输入的交互信息。

本实施例中，可通过电子设备中集成的多种信息输入模块或与电子设备连接的多种信息输入装置获取用户输入的交互信息。

在一些实施方式中，交互信息包括但不限于语音信息、文本信息、图像信息、动作信息等各种类型的信息。其中，语音信息可以包括语音类的音频信息，例如汉语，英语音频等，以及非语言类的音频信息，例如音乐音频等；文本信息可以包括文字类的文本信息，例如中文、英文等，以及非文字类的文本信息，例如特殊符号，字符表情等；图像信息可以包括静态图像信息，例如静态图片、照片等，以及动态图像信息，例如动态图片、视频图像等；动作信息可以包括用户动作信息，例如用户手势、身体动作、表情动作等，以及终端动作信息，例如终端设备的位置、姿态和摇动、旋转等运动状态等。

可以理解的是，对应于不同种类的交互信息，电子设备可以通过不同类型的信息输入模块进行信息采集。例如，电子设备可通过麦克风等音频输入设备采集用户的语音信息，通过触摸屏或物理按键采集用户输入的文本信息，通过摄像头采集图像信息，通过光学传感器、重力传感器等采集动作信息等。

对于同一个请求，可以对应不同的类型的交互信息。例如，用户想要输入“我想听阿拉丁的故事”的请求时，用户可以通过语音输入的方式输入对应的音频，也可以上传与阿拉丁相关的图片或输入对应的文本信息。可以理解的是，对应于同一个请求，可以仅输入一种类型的交互信息，也可以同时输入多种类型的交互信息，使用户的意图更加明确，更易被电子识别。

本实施例中，电子设备通过多种方式来获取不同种类的交互信息，使得用户的多种交互方式可以自由得到响应，不再局限于传统机械式的人机交互手段，实现了人机之间的多态交互，满足更多的交互场景。

操作S120：根据交互信息获取场景视频，场景视频中包括待匹配人物。

电子设备在获取用户输入的交互信息后，可以对交互信息进行语义理解，获取交互信息的语义信息，以实现精准的理解用户的交互信息。

场景视频，可以是电子设备针对用户输入的交互信息，获取的与交互信息相关的视频信息。

作为一种实施方式，电子设备可以根据语义信息，搜索与语义信息相关的视频。例如，用户输入的交互信息为“我想听阿拉丁的故事”，与该交互信息对应的场景视频可以是与阿拉丁对应的的影视作品等。

作为另一种实施方式，电子设备可以根据语义信息，搜索与语义信息相关的视频文本信息。例如，用户输入的交互信息为“我想听阿拉丁的故事”，则电子设备搜索与阿拉丁相关的故事文本，根据故事文本生成对应的场景视频。

具体的，电子设备可以对获取到的视频文本信息按照场景进行切割，获得多段场景文本；基于每一段场景文本进行语义理解，获取每段场景文本中的人物，地点和事件，并将场景文本转换为语音信息。电子设备在生成与场景文本对应的子场景视频时，则可以根据人物，地点和事件，生成人物在地点执行事件的视频画面，将语音信息与视频画面合成，则可以得到与场景文本对应的子场景视频。若生成一个子场景视频，则电子设备将一个子场景视频作为场景视频；若生成多个子场景视频，则电子设备对多个子场景视频进行拼接合成为场景视频。

操作S130：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

电子设备获取用户的人脸信息，并根据用户的人脸信息提取人脸特征。其中，人脸信息可以是人脸图像，或是一段包括人脸的视频。本申请实施例中，人脸特征可以是用于描述人脸全部或部分形态的特征点集合，其记载有人脸上各个特征点在空间中的位置信息和深度信息，通过获取人脸特征即可重建人脸局部或全部的图像。在一些实施方式中，电子设备可以将获取的人脸图像或人脸视频，输入特征提取模型中，以获得人脸特征。其中，可以理解的是人脸特征可以是五官特征，例如，眉毛，眼部，鼻部，嘴部，耳部的特征。

其中，电子设备获取用户的人脸信息，可以通过电子设备的摄像装置采集的用户的人脸图像，也可以是用户所提供的人脸图像。通过摄像装置采集人脸图像时，可以是在电子设备获取到用户输入的交互信息后，启动电子设备的摄像装置采集人脸图像。电子设备根据人脸信息提取人脸特征，可以是将获取到的人脸图像或视频在电子设备端提取人脸特征作为目标人脸；也可以是通过网络等将获取到的人脸图像或视频发送给服务器，由服务器提取人脸特征作为人脸特征。定义目标人脸特征为根据获取到的人脸信息提取到的人脸特征。

操作S140：以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频。

电子设备在获取到与交互信息对应的场景视频，以及目标人脸特征后，可以将目标人脸特征替换场景视频中的待匹配人物的脸部特征生成待播放视频。

其中，待匹配人物为获取的场景视频中需要替换的人物。在一些实施方式中，电子设备可以对用户指定的人物进行脸部特征点的替换。在另一些实施方式中，电子设备可以对场景视频进行语义理解，获取整个场景视频中的主角，对主角的脸部特征进行替换。电子设备将目标人脸特征复现在场景视频中待匹配人物的脸上，得到待播放视频。

电子设备对场景视频中的待匹配人物的脸部特征进行替换时，由于场景视频可以拆分为多帧图像，则可以对场景视频中的每一帧图像进行处理，分别检测每一帧图像中是否存在待匹配人物；若在某一帧图像中存在待匹配人物，则对待匹配人物的脸部特征进行定位确定替换区，将替换区替换为目标人脸特征。由此，若场景视频中存在待匹配人物的画面，待匹配人物的脸部特征都会被替换为目标人脸特征，而场景视频中的其他人物和场景可以不做处理，保持在场景视频中原有的图像。

在以目标人脸特征替换待匹配人物的脸部特征时，电子设备可以对待匹配人物的脸部特征进行定位，获得待替换区，并将待替换区中的脸部特征替换为目标人脸特征。请参阅图2，示出了脸部特征替换的示意图。其中141为场景视频中的待匹配人物，142为对待匹配人物的脸部特征进行定位后得到的替换区，143为获取的目标人脸特征，144为将待匹配人物的脸部特征替换为目标人脸特征后的人物。

操作S150：输出待播放视频。

对待播放视频进行输出，可以是在电子设备上播放待播放视频，结合声音和画面内容，给用户呈现活灵活现的视频内容，并且待播放视频中将用户的脸部特征复现在待播放视频的人物身上，提升了用户对视频内容的代入感。

作为一种实施方式，电子设备获取交互信息后，可以在电子设备本地对交互信息进行识别，并根据交互信息获取场景视频。电子设备采集人脸信息，提取对应的目标人脸特征，对场景视频中的待匹配人物进行脸部特征的替换，以得到待播放视频。

作为一种实施方式，在电子设备与服务器建立通信连接的状态下，电子设备获取到用户输入的交互信息后，还可以将交互信息转发至服务器，由服务器通过对交互信息进行语义理解获取对应的场景视频，电子设备将获取到的人脸信息发送给服务器，由服务器获取进行人脸特征的提取获得目标人脸特征，并将场景视频中的待匹配人物的脸部特征替换为目标人脸特征，得到待播放视频，将待播放视频发送给电子设备进行播放。从而可以减小电子设备的本地运算存储压力。

可以理解的是，操作S120和操作S130的前后顺序并不做限定，可以是在获取到交互信息后，同时进行操作S120和操作S130，也可以是在获取到用户输入的交互信息后，先执行操作S130获取用户的人脸信息提取目标人脸特征，也可以是先执行操作S120，根据交互信息获取场景视频。在实际的执行过程中，可以根据需要进行设置，在此不做具体的限定。

本申请实施例提出的视频生成方法，电子设备获取用户输入的交互信息；根据交互信息获取场景视频，场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；输出待播放视频。从而将信息通过语音和画面相结合的方法，活灵活现的展现在用户面前，同时将用户的脸复现在视频的人物上，交互更直观，增强用户对信息的代入感，从而提升了用户获取信息的体验。

请参阅图3，本申请另一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了根据视频文本信息生成场景视频的过程，该方法可以包括：

操作S210：获取用户输入的交互信息。

本实施例中，操作S210的具体描述可以参考上一实施例中的操作S110，本实施例对此不再赘述。

操作S220：对交互信息进行语义理解，获取交互信息的语义信息。

本实施例中，针对交互信息的不同类型，电子设备可以将交互信息输入与交互信息类型对应的识别模型中，并基于识别模型对该交互信息进行识别，获取对应的语义信息。

作为一种实施方式，若用户输入的交互信息为语音信息，则电子设备可以基于语音识别模型对交互信息进行识别，获取对应的语义信息。若交互信息为文本信息，则电子设备可以基于文字识别模型对交互信息进行识别，获取对应的语义信息。若交互信息为图像信息，则电子设备可以基于图像识别模型对交互信息进行识别，获取对应的语义信息。若交互信息为动作信息，则电子设备可以基于肢体语言识别模型、终端姿态识别模型或手势识别模型来对交互信息进行识别，获取对应的语义信息。

操作S230：根据语义信息搜索相关的视频文本信息。

电子设备在获取到交互信息对应的语义信息后，可以了解到用户的真正的意图，实现更加精准的搜索，根据语义信息搜索相关的视频文本信息，可以理解的是，视频文本信息可以是指描述整个视频内容的文本信息。例如，视频为阿拉丁，那么描述整个视频内容的文本信息则为故事《阿拉丁与神灯》。

作为一种实施方式中，电子设备通过对交互信息的语义理解获取语义信息，可以根据语义信息在网络上搜索相关的视频文本信息。例如，用户的输入的交互信息为“听阿拉丁故事”。电子设备通过语义理解可以知道用户是想要听取阿拉丁的故事，则可以搜索与阿拉丁相关的视频文本信息，即为《阿拉丁与神灯》的故事文本。

作为一种实施方式，电子设备可以预先建立文本数据库，文本数据库中存储着多个标注后的视频文本信息，其中，标注的内容可以是场景，人物，段落等。电子设备在获取到语义信息后，则可以根据语义信息在数据库中搜索对应的视频文本信息。可以理解的是，电子设备可根据实际的需求进行视频文本信息的标注，在此不做限定。

操作S240：根据视频文本信息生成场景视频。

电子设备在获取到视频文本信息后，则可以依据视频文本信息生成对应的场景视频，具体的，可以包括以下操作，可参阅图4所示出的方法流程图。

操作S241：对视频文本信息按照场景进行切割，获得至少一段场景文本。

通常，视频文本信息中涉及多个场景，则电子设备可以将视频文本信息按照场景进行切割，获取对应的场景文本。

作为一种实施方式，电子设备对视频文本信息进行切割，可以是预先对视频文本信息进行人工标注，其中，标注的内容可以是场景信息，人物信息，时间信息等。电子设备可根据实际的需求进行人工标注，在此不做限定。电子设备在标注完成后，可以将标注后的视频文本信息存储在数据库中，则后续可以通过查询数据库获取标注后的视频文本信息。电子设备根据视频文本信息中的标注信息，对视频文本信息进行切割，获得一段或多段场景文本。若视频文本信息是一个场景，则电子设备获得一段场景文本，若涉及多个场景，则电子设备获得多段场景文本。

例如，电子设备获取的标注后的视频文本信息中包括两个场景，其中一个场景为街道，另一个为屋内。电子设备对该视频文本信息进行切割，获取到两段场景文本。进一步的，电子设备还可以为场景文本添加场景文本在视频文本信息中的位置信息，以便于确定场景的发生顺序。

作为一种实施方式，电子设备对视频文本信息进行切割，可以是将视频文本信息输入第一深度学习模型中进行切割。可以理解的是，第一深度学习模型，可以通过大量的数据进行训练，以实现对视频文本信息按照场景进行切割，从而获取到视频文本信息按照场景切割后的至少一个场景文本。

操作S242：对至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频。

电子设备对视频文本信息按照场景进行切割后，可以获取到至少一段场景文本。其中，若切割后获得一段场景文本，则电子设备对该一段场景文本进行语义理解，生成对应一段场景文本的子场景视频；若获取到多个场景文本，则电子设备分别对每一段场景文本进行语义理解，生成分别对应每一段场景文本的子场景视频。

具体的，电子设备可以是对场景文本进行语义理解，从场景文本中提取语义特征，语义特征包括人物，地点，事件；将场景文本转换为语音信息；根据语义特征和语音信息，生成以人物在地点执行事件的子场景视频。

其中，子场景视频中的音频可以由场景文本转换成的音频信息；子场景视频中的画面内容可以根据语义特征中的人物，事件，地点等信息获取到。

作为一种实施方式，电子设备可以预先建立图像数据库，并为图像数据库的中每个图像添加对应的标签，则可以根据人物获取与该人物对应的图像信息，根据事件获取与该事件对应的动作，根据地点获取与该地点对应的场景，将获取的图像进行叠加合成，则可以得到以人物在地点执行事件的画面内容。

作为一种实施方式，电子设备可以是根据人物，事件，地点，在网络上搜索对应的画面的内容，并将画面内容进行叠加合成，得到以人物在地点获取事件的画面内容。

例如，场景文本为“阿拉丁来到地道口，因为最上面的一级台阶离地面跨度太大，迈不上去，便请求魔法师拉他一把”。电子设备对场景文本进行语义理解，提取对应的语义特征，其中语义特征中包括人物阿拉丁和魔法师，地点为地道口，事件为阿拉丁请求魔法师拉他。

则电子设备可以获取阿拉丁和魔法师的人物形象，伸手请求拉他一把的动作，以及地道口的场景，将画面进行合成叠加，生成阿拉丁在地道口请求魔法师拉他一把的画面内容。电子设备将场景文本转换为语音信息，将画面内容和语音信息进行合成，生成子场景视频。

作为一种实施方式，电子设备将场景文本转换为语音信息时，若已经获取到用户的人脸信息，则可以对用户的人脸信息进行识别，识别人脸信息中人物的性别，年龄等信息，将语音信息的音色与人物进行匹配。例如，电子设备识别的人脸信息为女，年龄10岁，则可以将语音信息的音色处理为甜美型，以贴近用户的身份形象，使得用户在听到语音信息时，产生更好的代入感。

操作S243：若生成一个子场景视频，将一个子场景视频作为场景视频。

若电子设备对视频文本信息进行切割后，获得一段场景文本，则对应该一段场景文本生成一个子场景视频，将一个子场景视频作为场景视频。

操作S244：若生成多个子场景视频，将多个子场景视频合成为场景视频。

若电子设备对视频文本信息进行切割后，获得多段场景文本，则根据每一段场景文本生成对应的多个子场景视频。电子设备将多个子场景视频按照视频文本信息的发生顺序，将多个子场景视频合成为场景视频。

作为一种实施方式，电子设备可以在生成子场景视频时，在子场景视频中添加对应的场景文本在视频文本信息中的位置信息，其中，位置信息可以是场景文本在视频文本信息中所在的段落信息。例如，场景文本在视频文本信息中的段落为第12段，则电子设备可以在生成与场景文本对应的子场景视频时，添加标注位置标注为第12段。

可以理解的是，标注可以通过人工对场景文本进行标注时，同时也标注的对应的段落信息。在通过场景文本生成对应的子场景视频时，则可以获取场景文本的段落信息作为位置标注，添加进子场景视频中。

电子设备将多个子场景视频合成为场景视频，可以是获取每个子场景视频中的位置标注，按照位置标注的先后顺序对子场景视频进行拼接合成得到场景视频。例如，电子设备生成了三个子场景视频，分别为第一子场景视频，第二子场景视频，第三子场景视频。其中，第一子场景视频中的位置标注为第1段，第二子场景视频中的位置标注为第12段，第三子场景视频中的位置标注为第6段，则可以通过位置标注，确定各个子场景视频的发生顺序为第一子场景视频，第三子场景视频，第二子场景视频，则可以按照该顺序将三个子场景视频进行拼接得到场景视频。

可以理解的是，根据视频文本信息生成的场景视频中，可以包括多个人物，其中一个人物可以是待匹配人物，以对待匹配的人物的脸部特征进行替换。

操作S250：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

操作S260：以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频。

操作S270：输出待播放视频。

操作S250至操作S270可参照前述实施例对应部分，在此不再赘述。

本申请实施例提出视频生成方法，电子设备通过交互信息获取视频文本信息，将视频文本信息按照场景进行切割，获得至少一段场景文本；对至少一段场景文本进行语义理解，分别生成对应每一段场景的子场景视频；若生成一个子场景视频，将子场景视频作为场景视频；若生成多个子场景视频，将多个子场景视频合成为场景视频。可以将视频文本信息转换为对应的场景视频，以给用户展示活灵活现的信息内容。

请参阅图5，本申请另一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了根据交互信息获取场景视频的过程，该方法可以包括：

操作S310：获取用户输入的交互信息。

操作S320：对交互信息进行语义理解，获取交互信息的语义信息。

操作S310至操作S320可参照前述实施例部分，在此不再赘述。

操作S330：根据语义信息搜索相关的视频文件作为场景视频。

电子设备获取到交互信息对应的语义信息后，则可以直接根据语义信息搜搜相关的视频文本作为场景视频。例如，用户的交互信息为“怎么做红烧肉”，通过语义理解可以获知用户是想知道怎么做红烧肉，则搜索与做红烧肉相关的视频教程，将搜索的到的视频教程作为场景视频。

电子设备在搜索相关的视频教程时，可能获取到多个视频教程，则可以根据视频的播放量以及评论量，将播放量或评论量最高的视频教程作为场景视频。可以理解的是，如何根据从搜索到的视频教程中选取场景视频可以根据实际的需求进行设置，在此不做限定。

可以理解的是，电子设备在根据语义信息进行搜索时，可以是在专门的数据库中进行搜索，也可以是通过网络进行网络查找，可根据实际的需求进行设置，在此不做限定。

操作S340：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

操作S350：以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频。

操作S360：输出待播放视频。

操作S340至操作S360可参照前述实施例对应部分，在此不再赘述。

本申请实施例提出视频生成方法，电子设备通过获取用户输入的交互信息；对交互信息进行语义理解，获取交互信息的语义信息，根据语义信息搜索相关的视频文件作为场景视频，获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；输出待播放视频。可以语义信息搜索相关的视频，从而通过视频的方式给将信息活灵活现的显示给用户，通过将视频中的待匹配人物的脸部特征进行替换，增强用户的代入感，从而提升用户获取信息的使用体验。

请参阅图6，本申请又一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了确定场景视频中待匹配人物的过程，具体的该方法可以包括：

操作S410：获取用户输入的交互信息。

操作S420：根据交互信息获取场景视频。

操作S430：确定场景视频中的待匹配人物。

电子设备在根据交互信息获取到的场景信息中，可以包括多个人物。在多个人物中，可以选择一个人物作为待匹配人物，进行脸部特征的替换。

作为一种实施方式，可以是对获取到的场景视频进行语义理解，获取整个场景视频中的主角，将所述主角作为待匹配人物，进行后续的脸部特征的替换。例如，获取到的场景视频为阿拉丁相关的视频，则可以对所述场景视频进行语义理解，获知所述场景视频中的主角为阿拉丁，则可以将阿拉丁作为待匹配人物。

具体的，在对所述场景视频进行语义理解时，可以对场景视频中每个人物出现的次数以及时长进行统计，将出现次数最多的人物作为所述场景视频的主角。例如，在一段场景视频中，出现的人物有人物A，人物B和人物C，其中，人物A出现2次，第一次出现的时长为50s，第二次出现的时长为10s；人物B出现一次，时长为10s；人物C出现1次，出现的时长为1s，结合每个人物出现的次数及时长，则可以确定人物A为该场景视频的主角。那么，人物A则可以作为所述场景视频的待匹配人物。

作为一种实施方式，可以是获取所述场景视频中所出现的人物，显示在所述场景视频中出现的人物，以指示用户从所显示的人物中选取指定人物，获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物。

操作S440：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

操作S450：以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频。

作为一种实施方式，电子设备可以对获取到的场景视频进行语义理解，获取整个场景视频中的主角，将主角作为待匹配人物；将待匹配人物的脸部特征替换为目标人脸特征生成待播放视频。例如，电子设备获取到的场景视频为阿拉丁相关的视频，则可以对场景视频进行语义理解，获知场景视频中的主角为阿拉丁，则可以将阿拉丁作为待匹配人物；将待匹配人物的脸部特征替换为目标人脸特征生成待播放视频。

具体的，电子设备在对场景视频进行语义理解时，可以对场景视频中每个人物出现的次数以及时长进行统计，将出现次数最多的人物作为场景视频的主角。例如，在一段场景视频中，出现的人物有人物A，人物B和人物C，其中，人物A出现2次，第一次出现的时长为50s，第二次出现的时长为10s；人物B出现一次，时长为10s；人物C出现1次，出现的时长为1s，结合每个人物出现的次数及时长，则可以确定人物A为该场景视频的主角。那么，人物A则可以作为场景视频的待匹配人物，将人物A的脸部特征替换为目标人脸特征生成待播放视频。

作为一种实施方式，电子设备可以获取场景视频中所出现的人物，显示场景视频中出现的人物，以指示用户从所显示的人物中选取指定人物，获取用户所选取的指定人物，以指定人物作为场景视频中的待匹配人物；将待匹配人物的脸部特征替换为目标人脸特征生成待播放视频。

操作S460：输出待播放视频。

操作S440至操作S460可参照前述实施例对应部分，在此不再赘述。

请参阅图7，其示出了本申请实施例提供的一种视频生成装置500，应用于电子设备，视频生成装置500包括信息输入模块510，场景视频获取模块520，人脸获取模块530，视频生成模块540以及输出模块550。

信息输入模块510，用于获取用户输入的交互信息；场景视频获取模块520，用于根据交互信息获取场景视频，场景视频中包括待匹配人物；人脸获取模块530，用于获取用户的人脸信息并提取对应的人脸特征作为目标特征；视频生成模块540，用于以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；输出模块550，用于输出待播放视频。

场景视频获取模块520还包括：理解单元，用于对交互信息进行语义理解，获取交互信息的语义信息；视频生成单元，用于根据语义信息搜索相关的视频文本信息；根据视频文本信息生成场景视频。

视频生成单元还包括：切割子单元，用于对视频文本信息按照场景进行切割，获得至少一段场景文本；生成子单元，用于对至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；合成子单元，用于若生成一个子场景视频，将一个子场景视频作为场景视频；若生成多个子场景视频，将多个子场景视频合成为场景视频。

生成子单元还用于从场景文本中提取语义特征，语义特征包括人物，地点，时间；将场景文本转换为语音信息；根据语义特征和语音信息，生成以人物在地点执行事件的子场景视频。

场景视频获取模块520还用于对交互信息进行语义理解，获取交互信息的语义信息；根据语义信息搜索相关的视频文件作为场景视频。

视频生成模块540还包括：确定单元，用于对场景视频进行语义劣迹，获取整个场景视频的主角，将主角作为场景视频中的待匹配人物；替换单元，用于将待匹配人物的脸部特征替换为目标人脸特征。

视频生成模块540还包括：显示单元，用于显示场景视频中的所有人物，以指示用户从所有人物中选取指定人物；获取用户所选取的指定人物，以指定人物作为场景视频中的待匹配人物；替换单元，用于将待匹配人物的脸部特征替换为目标人脸特征。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上，电子设备通过获取用户输入的交互信息；根据交互信息获取场景视频，场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；输出待播放视频。从而通过视频的方式给将信息活灵活现的显示给用户，并将视频中的特定人物的脸部特征替换为目标人脸特征，增强用户的代入感，从而提升用户获取信息的使用体验。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图8，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备600可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备600可以包括一个或多个如下部件：处理器610、存储器620，以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于实现以下操作：获取用户输入的交互信息；根据交互信息获取场景视频，场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频；及输出待播放视频。

进一步地，根据交互信息获取场景视频，包括：对交互信息进行语义理解，获取交互信息的语义信息；根据语义信息搜索相关的视频文本信息；及根据视频文本信息生成场景视频。

进一步地，根据视频文本信息生成场景视频，包括：对视频文本信息按照场景进行切割，获得至少一段场景文本；对至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；若生成一个子场景视频，将一个子场景视频作为场景视频；及若生成多个子场景视频，将多个子场景视频合成为场景视频。

进一步地，对至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：从场景文本中提取语义特征，语义特征包括人物，地点，事件；将场景文本转换为语音信息；及根据语义特征和语音信息，生成以人物在地点执行事件的子场景视频。

进一步地，根据交互信息获取场景视频，包括：对交互信息进行语义理解，获取交互信息的语义信息；及根据语义信息搜索相关的视频文件作为场景视频。

进一步地，以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频，包括：对场景视频进行语义理解，获取整个场景视频的主角，将主角作为场景视频中的待匹配人物；及将待匹配人物的脸部特征替换为目标人脸特征生成待播放视频。

进一步地，以目标人脸特征替换场景视频中待匹配人物的脸部特征生成待播放视频，包括：显示场景视频中的所有人物，以指示用户从所有人物中选取指定人物；获取用户所选取的指定人物，以指定人物作为场景视频中的待匹配人物；及将待匹配人物的脸部特征替换为目标人脸特征生成待播放视频。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，程序代码可被处理器调用执行时，实现以下操作：获取用户输入的交互信息；根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及输出所述待播放视频。

进一步地，所述根据所述交互信息获取场景视频，包括：对所述交互信息进行语义理解，获取所述交互信息的语义信息；根据所述语义信息搜索相关的视频文本信息；及根据所述视频文本信息生成场景视频。

进一步地，所述根据视频文本信息生成场景视频，包括：对所述视频文本信息按照场景进行切割，获得至少一段场景文本；对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；及若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。

进一步地，所述对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；将所述场景文本转换为语音信息；及根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

进一步地，所述根据所述交互信息获取场景视频，包括：对所述交互信息进行语义理解，获取所述交互信息的语义信息；及根据所述语义信息搜索相关的视频文件作为所述场景视频。

进一步地，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；及将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。

进一步地，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；及将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有用于执行根据本申请方法实施例中各操作的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种视频生成方法，所述方法包括：

获取用户输入的交互信息；

根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出所述待播放视频。
根据权利要求1所述的方法，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；

根据所述语义信息搜索相关的视频文本信息；及

根据所述视频文本信息生成场景视频。
根据权利要求2所述的方法，其特征在于，所述根据视频文本信息生成场景视频，包括：

对所述视频文本信息按照场景进行切割，获得至少一段场景文本；

对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；

若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；及

若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。
根据权利要求3所述的方法，其特征在于，所述对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：

从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；

将所述场景文本转换为语音信息；及

根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。
根据权利要求1所述的方法，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；及

根据所述语义信息搜索相关的视频文件作为所述场景视频。
根据权利要求1-5任一项所述的方法，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
根据权利要求1-5任一项所述的方法，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；

获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
一种视频生成装置，所述装置包括：

信息输入模块，用于获取用户输入的交互信息；

场景视频获取模块，用于根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

人脸获取模块，用于获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

视频生成模块，用于以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出模块，用于输出所述待播放视频。
根据权利要求8所述的装置，其特征在于，所述场景视频获取模块还用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；

根据所述语义信息搜索相关的视频文本信息；及

根据所述视频文本信息生成场景视频。
根据权利要求9所述的装置，其特征在于，所述场景视频获取模块还用于对所述视频文本信息按照场景进行切割，获得至少一段场景文本；

对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；

若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；及

若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。
根据权利要求10所述的装置，其特征在于，所述场景视频获取模块还用于从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；

将所述场景文本转换为语音信息；及

根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。
根据权利要求8所述的装置，其特征在于，所述场景视频获取模块还用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；及

根据所述语义信息搜索相关的视频文件作为所述场景视频。
根据权利要求8-12任一项所述的装置，其特征在于，所述视频生成模块还用于对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
根据权利要求8-12任一项所述的装置，其特征在于，所述视频生成模块还用于显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；

获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电连接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于实现以下操作：

获取用户输入的交互信息；

根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出所述待播放视频。
根据权利要求15所述的电子设备，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；

根据所述语义信息搜索相关的视频文本信息；及

根据所述视频文本信息生成场景视频。
根据权利要求16所述的电子设备，其特征在于，所述根据视频文本信息生成场景视频，包括：

对所述视频文本信息按照场景进行切割，获得至少一段场景文本；

对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；

若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；及

若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。
根据权利要求17所述的电子设备，其特征在于，所述对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：

从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；

将所述场景文本转换为语音信息；及

根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。
根据权利要求15所述的电子设备，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；及

根据所述语义信息搜索相关的视频文件作为所述场景视频。
根据权利要求15-19任一项所述的电子设备，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
根据权利要求15-19任一项所述的电子设备，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；

获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码被处理器调用执行时，实现以下操作：

获取用户输入的交互信息；

根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；及

输出所述待播放视频。
根据权利要求22所述的计算机可读取存储介质，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；

根据所述语义信息搜索相关的视频文本信息；及

根据所述视频文本信息生成场景视频。
根据权利要求23所述的计算机可读取存储介质，其特征在于，所述根据视频文本信息生成场景视频，包括：

对所述视频文本信息按照场景进行切割，获得至少一段场景文本；

对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；

若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；及

若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。
根据权利要求24所述的计算机可读取存储介质，其特征在于，所述对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：

从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；

将所述场景文本转换为语音信息；及

根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。
根据权利要求22所述的计算机可读取存储介质，其特征在于，所述根据所述交互信息获取场景视频，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；及

根据所述语义信息搜索相关的视频文件作为所述场景视频。
根据权利要求22-26任一项所述的计算机可读取存储介质，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。
根据权利要求22-26任一项所述的计算机可读取存储介质，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频，包括：

显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；

获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；及

将所述待匹配人物的脸部特征替换为所述目标人脸特征生成待播放视频。