WO2022012231A1

WO2022012231A1 - 视频生成方法、装置、可读介质及电子设备

Info

Publication number: WO2022012231A1
Application number: PCT/CN2021/099107
Authority: WO
Inventors: 靳潇杰; 沈晓辉; 王妍
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2020-07-17
Filing date: 2021-06-09
Publication date: 2022-01-20
Also published as: EP4178194A4; CN113949808B; CN113949808A; EP4178194A1; US11836887B2; US20230153941A1

Abstract

本公开涉及一种视频生成方法、装置、可读介质及电子设备。所述方法包括：获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；基于所述目标帧对应的目标图像，生成目标视频。这样，无需采用特定的拍摄手法，也无需人为处理，能够得到带有滑动变焦效果的视频，数据处理效率高。

Description

视频生成方法、装置、可读介质及电子设备

本申请要求于2020年07月17日提交中国国家知识产权局、申请号为202010694518.5、申请名称为“视频生成方法、装置、可读介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种视频生成方法、装置、可读介质及电子设备。

背景技术

滑动变焦，也叫希区柯克式变焦，是一种视频的拍摄手法，它能使视觉透视关系改变，从而在画面主体不变的情况下压缩或放大背景空间，以营造出种科幻、炫酷的镜头感。现有技术中，对于未使用希区柯克式变焦拍摄手法拍摄所得到的已拍摄视频，若需要使其具备希区柯克式变焦效果，可以通过手动对已拍摄视频进行后期处理的方式实现，也就是基于已拍摄的一段视频，手动定位画面中的主体(例如，画面中的人物)，再对除主体对象之外的背景打关键帧进行变焦。但是，手动处理的方式十分复杂，处理耗时且效率很低。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种视频生成方法，所述方法包括：

获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；

根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；

按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；

基于所述目标帧对应的目标图像，生成目标视频。

第二方面，本公开提供一种视频生成装置，所述装置包括：

第一获取模块，用于获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；

处理模块，用于根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；

第一生成模块，用于按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；

第二生成模块，用于基于所述目标帧对应的目标图像，生成目标视频。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

通过上述技术方案，获取目标帧对应的原始图像，并识别出原始图像中的目标对象，根据滑动变焦策略对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像，并按照目标对象在原始图像中的位置，将目标对象的图像叠加到目标背景图像上，得到目标帧对应的目标图像，以及，基于目标帧对应的目标图像，生成目标视频。由此，基于图像本身，能自动为图像增加滑动变焦效果，保证图像画面主体不变的同时改变背景的透视关系，从而，能够基于一系列这样的图像生成主体不变而背景快速被压缩或放大的视频，即带有滑动变焦效果的目标视频。这样，无需采用特定的拍摄手法，也无需人为处理，能够得到带有滑动变焦效果的视频，数据处理效率高。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1是根据本公开的一种实施方式提供的视频生成方法的流程图；

图2和图3是目标视频中两帧图像的示例性示意图；

图4是根据本公开提供的视频生成方法中，根据滑动变焦策略对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像的步骤的一种示例性流程图；

图5是根据本公开的一种实施方式提供的视频生成装置的框图；

图6示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为 “一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在音/视频处理领域，一般情况下，音/视频编辑包括三层结构，分别是业务层(前台)、SDK层(中台)、算法层(后台)，其中，SDK是Software Development Kit的缩写，中文意思是“软件开发工具包”。业务层负责接收用户操作，即客户端；SDK层负责数据传递，比如将待处理数据传递给算法层，以获得算法层的处理结果，并根据得到的处理结果进一步处理数据，举例来说，SDK层可以负责音/视频的抽帧、编解码、传递等，同时，在SDK层可以设置针对数据的处理策略；算法层负责处理SDK层传入的数据，并将得到的处理结果输出给SDK层。

本公开提供的方法主要应用于视频生成(即，生成带有滑动变焦效果的视频)的场景，并且，本公开所使用的相关算法集成在算法层，本公开提供的方法中有关于数据处理的步骤可以由SDK层(中台)执行，最终的处理结果(例如，目标视频)可以在客户端进行展示。

图1是根据本公开的一种实施方式提供的视频生成方法的流程图。如图1所示，该方法可以包括以下步骤：

在步骤11中，获取目标帧对应的原始图像，并识别出原始图像中的目标对象；

在步骤12中，根据滑动变焦策略对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；

在步骤13中，按照目标对象在原始图像中的位置，将目标对象的图像叠加在目标背景图像上，得到目标帧对应的目标图像；

在步骤14中，基于目标帧对应的目标图像，生成目标视频。

步骤11至步骤13描述的是针对某一个图像(也就是目标帧对应的原始图像)进行滑动变焦处理生成目标图像的过程，实际应用中，需要针对多个目标帧采用步骤11至步骤13的方式分别生成目标图像，并基于这些目标图像以及各自对应的目标帧的时间先后，共同构成目标视频。

在获取到目标帧对应的原始图像后，首先识别出原始图像中的目标对象，也就是识别出原始图像中的画面主体。在这里，以什么为画面主体(即，目标对象)可以是预先设定的。例如，若设定人是目标对象，则识别原始图像中的目标对象实际上就是识别原始图像中的人。再例如，若设定占画面比例最大的对象为目标对象，则识别原始图像中的目标对象实际上就是识别原始图像中占据画面比例更高一些的对象。

如前文所述，带有滑动变焦效果的视频是保证视频中图像画面主体不变的同时改变背景的透视关系，在这里需要两方面的处理，一方面是保证视频中画面主体不变，另一方面则是改变背景的透视关系。

在第一方面中，保证视频中画面主体不变，就是需要同一目标视频中每一目标帧对应的目标图像的目标对象的大小、位置都相同，也就是说，目标对象在画面中会有一个期望位置，最终获得的带有滑动变焦效果的目标视频中每一图像中的目标对象应当处于这个期望位置。示例地，这个期望位置可以人为选定，例如，选定为画面中心的位置。再例如，这个期望位置可以依据每一目标帧对应的原始图像来确定，例如，将目标对象在时间最靠前的目标帧对应的原始图像中所处的位置作为目标对象在整个目标视频中的期望位置。

在第二方面中，需要改变背景的透视关系，需要根据滑动变焦策略对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像。在这里，滑动变焦策略就用于改变原始图像中初始背景图像的透视关系，也就是在画面推进或后退的基础上进行变焦处理。拍摄原始图像时会对应一个拍摄位置，也就是镜头位置，画面推进或后退就是模拟在原始图像对应的三维图像空间中推进或后退镜头能够拍摄到的画面，它主要改变初始背景图像的透视关系，变焦则是对画面的放大或缩小。

其中，滑动变焦策略至少用于指示初始背景图像的滑动方向和变焦方向，且滑动方向和变焦方向相反。在涉及到有关透视关系的图像处理时，一般需要基于透视点进行。滑动方向可以为靠近透视点的方向或远离透视点的方向。若滑动方向为靠近透视点的方向，表示画面向目标对象推进(相当于镜头向靠近目标对象的方向移动)；若滑动方向为远离透视点的方向，表示画面相比于目标对象后退(相当于镜头向远离目标对象的方向移动)。变焦方向可以为靠近透视点的方向或远离透视点的方向。若变焦方向为靠近透视点的方向，表示视角变小(焦距增大)；若变焦方向为远离透视点的方向，表示视角变大(焦距缩小)。如上所述，在滑动变焦策略中，滑动方向和变焦方向是相反的。举例来说，若滑动方向为靠近透视点的方向，则变焦方向为远离透视点的方向。

根据滑动变焦策略，可以对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像。进一步地，按照目标对象在原始图像中的位置，将目标对象的图像叠加在目标背景图像上，就可以得到目标帧对应的目标图像。

如上所述，目标对象在画面中会有一个期望位置，因此，若这个期望位置与目标对象在原始图像中的位置不匹配(例如，位置不同)，还需要对目标对象的图像做进一步的处理，以使对目标对象的图像处理后得到的图像能与该期望位置相匹配。例如，若期望位置为画面中心且占据画面的50％，那么若目标对象在原始图像中处于画面中心但是仅占据画面的25％，则还需要对目标对象的图像进行放大处理，以使得处理后的图像处于画面中心且占据画面的50％。

参照上述处理方式，基于目标帧对应的目标对象，就可以生成目标视频。实际上，目标帧可以为多个，也就是，针对多个目标帧，生成各自的目标图像，从而，基于每一目标帧各自对应的目标图像，按照目标帧的时间先后关系，生成带有滑动变焦效果的目标视频。其中，目标对象在目标视频的每一帧图像中位置相同。并且，目标视频中每一帧图像的尺寸相同。

示例地，图2和图3为本公开提供的视频生成方法的效果示意图。其中，图2为目标视频中时间靠前的一帧视频帧，图3为目标视频中时间靠后的一帧视频帧，以及，在图2和图3中，T为目标对象，虚线部分表示背景。可见，在图2和图3中，目标对象的位置和大小没有变化，并且，图3和图2相比，背景部分被拉近，在视觉上图3更靠近T后方的背景，图3相当于在图2的基础上向目标对象T的后方进行了滑动变焦，造成了背景部分的透视关系变化。以图2和图3为参照，目标视频中的多个视频帧与此类似，使得目标视频能实现滑动变焦效果。

为了使本领域技术人员更加理解本发明实施例提供的技术方案，下面对上文中的相应步骤进行详细的说明。

首先，针对步骤11中获取目标帧对应的原始图像的方式进行详细说明。

在一种可能的实施方式中，获取目标帧对应的原始图像，可以包括以下步骤：

从待处理媒体文件中获取目标帧对应的原始图像。

其中，待处理媒体文件为包含目标对象的图像或视频。

这一实施方式相当于针对已存储的图像或视频的后处理，也就是基于已经拍摄完毕的图像或视频进行后期处理，得到具有滑动变焦效果的视频。

若待处理媒体文件为包含目标对象的图像，也就是仅针对一张已有图像进行处理，在这里，每一目标帧对应的原始图像均是该待处理媒体文件，每一目标帧获得相同的原始图像。本公开的方案相当于仅基于一张图像，对其背景做滑动变焦，生成对应于不同目标帧的多个目标图像，并合成为目标视频。

若待处理媒体文件为包含目标对象的视频，则目标帧的时间先后顺序可以遵循待处理媒体文件中各帧视频帧的先后顺序，例如，正序(或倒序)从待处理媒体文件中依次获取原始图像。若为正序，则待处理媒体文件中时间靠前的视频帧对应于时间靠前的目标帧，相反地，若为倒序，则待处理媒体文件中时间靠后的视频帧对应于时间靠前的目标帧。

在另一种可能的实施方式中，获取目标帧对应的原始图像，可以包括以下步骤：

从图像采集装置实时采集到的信息流中获取目标帧对应的原始图像。

这一实施方式相当于针对实时获取的信息流的实时处理，也就是在拍摄图像或视频的过程中，实时获取目标帧的原始图像，并进行步骤11至步骤13的操作，以获得对应于目标帧的目标图像，以便后续生成目标视频。

下面对步骤11中，识别出原始图像中的目标对象的实施方式进行详细说明。

在一种可能的实施方式中，识别出原始图像中的目标对象，可以包括以下步骤：

通过预先训练的目标对象识别模型识别出原始图像中的目标对象。

目标对象识别模型用于识别出图像中的目标对象，例如，识别出目标对象的轮廓，或者，识别出目标对象在图像中对应的位置，等等。目标对象识别模型相当于分类模型，即从图像中识别出属于目标对象这一类的像素点。示例地，目标对象分类模型可以通过如下方式获得：

获取多组训练数据，每一组训练数据包括一训练图像和表征训练图像中各像素点是否属于目标对象的标记信息；

根据多组训练数据，通过神经网络模型进行训练，以获得目标对象分类模型。

其中，在每一次训练过程中，将一组训练数据中的一训练图像作为输入数据，将该训练图像的标记信息作为真实输出，并利用神经网络模型针对输入的训练图像的实际输出与该真实输出进行比较，将比较结果(例如，通过二者计算的损失值)作用于神经网络模型，以调整神经网络模型内部的参数，如此循环往复，直至满足模型停止训练的条件(例如，训练次数达到一定次数，或者，损失值小于某一阈值，等等)，将得到的模型作为目标对象分类模型。其中，模型训练方式属于本领域的公知常识，上述仅作为举例说明，对于其他的可实现方式，本公开不再一一给出。

在另一种可能的实施方式中，识别出原始图像中的目标对象，可以包括以下步骤：

通过目标对象对应的历史位置信息识别出原始图像中的目标对象。

其中，历史位置信息是通过对原始图像前的图像进行运动追踪得到的。

通过历史位置信息，可以推测出原始图像中目标对象所处的位置。例如，通过目标对象的历史位置信息可以确定目标对象的运动趋势，从而，可以以原始图像之前、且时间上最接近原始图像的参照图像中目标对象所在位置为起点，依据历史位置信息中目标对象的运动趋势，以及参照图像与原始图像的拍摄时间差确定目标对象在原始图像中相对于在参照图像中的位置变化，从而能够推测出目标对象在原始图像中的位置，以识别出原始图像中的目标对象。

采用上述方式，能够直接通过历史对目标对象的运动追踪确定目标对象在原始图像中的位置，以识别出原始图像中的目标对象，数据处理量小。

下面对步骤12中，根据滑动变焦策略对原始图像中除目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像这一步骤进行详细说明。

在一种可能的实施方式中，步骤12可以包括以下步骤，如图4所示。

在步骤41中，确定初始背景图像的透视点；

在步骤42中，根据识别出的目标对象在原始图像中的初始位置和目标对象在画面中的期望位置，确定初始背景图像的滑动方向、滑动距离、变焦方向和变焦距离；

在步骤43中，以透视点为中心、沿滑动方向以滑动距离对初始背景图像进行画面滑动；

在步骤44中，以透视点为中心、沿变焦方向以变焦距离对初始背景图像进行画面变焦。

在处理图像时，特别是有关于透视关系的图像处理，一般需要借助图像中的透视点，因此，首先需要确定初始背景图像的透视点，以为后续的滑动变焦处理做准备。

在一种可能的实施方式中，步骤41可以包括以下步骤：

将原始图像的中心点确定为透视点。

由于图像或视频拍摄过程中一般是将画面主体置于画面中心进行拍摄，符合一般的一点透视规律，而背景的消失点一般也处于画面中心，因此，将图像中心点确定为滑动变焦的透视点是一种快速且比较稳妥的确定透视点的方式。

在另一种可能的实施方式中，步骤41可以包括以下步骤：

获取原始图像的深度信息；

根据深度信息确定原始图像中的灭点位置；

将灭点位置作为透视点。

二维图像中隐藏的深度信息可以帮助理解图像场景的三维结构，对二维图像的深度信息理解作为本领域的公知技术，在本领域中应用十分广泛。例如，通过明暗、光照、几何分析、特征学习等方式理解二维图像的深度信息，具体的方式此处不过多描述。

因此，基于原始图像，能够获取到原始图像的深度信息，进而，根据深度信息确定原始图像中的灭点位置，也就是消失点位置，进一步地，可以直接将灭点位置作为透视点。其中，基于原始图像的深度信息能够构建原始图像对应的三维图像空间，从而，灭点位置基于现有技术中常用的灭点识别方式即可获得。

若需要对原始图像进行滑动变焦处理，不仅需要确定透视点，还需要确定滑动处理的方式以及变焦处理的方式。其中，滑动处理的方式可以包括滑动方向和滑动距离，变焦处理的方式可以包括变焦方向和变焦距离。有关滑动方向和变焦方向的含义说明已在前文中详细列出，此处不再重复描述。滑动距离指在原始图像对应的三维图像空间中镜头应当推进或后退的距离。变焦距离指焦距变化的距离。因此，需要继续执行步骤42，以确定初始背景图像的滑动方向、滑动距离、变焦方向和变焦距离。

在一种可能的实施方式中，步骤42可以包括以下步骤：

确定初始位置在原始图像对应的三维图像空间中所处的第一坐标；

确定期望位置在三维图像空间中所处的第二坐标；

根据第一坐标和第二坐标，确定滑动方向、滑动距离、变焦方向和变焦距离。

如上所述，基于原始图像可以构建与原始图像对应的三维图像空间。在这个三维空间中，根据目标对象在原始图像中的初始位置可以确定出一个坐标，即第一坐标，并且，根据目标对象的期望位置可以确定出一个坐标，即第二坐标。滑动变焦的目的就是使目标对象处于期望位置，在这个过程中，由于目标对象的初始位置与期望位置之间的差距，背景可能也会对应变化，即，背景从通过第一坐标能够拍摄到的画面变化为通过第二坐标能够拍摄的画面。因此，根据第一坐标和第二坐标，即可确定出滑动方向、滑动距离、变焦方向和变焦距离。示例地，若第二坐标相比于第一坐标更加靠近透视点，则滑动方向应当是靠近透视点的方向，滑动距离是从第一坐标到第二坐标应当经过的距离，变焦方向是远离透视点的方向，变焦距离是从第一坐标到第二坐标镜头的焦距变化。

在通过步骤42确定出滑动方向、滑动距离、变焦方向、变焦距离后，可以以此为依据对初始背景图像进行滑动变焦处理，即，执行步骤43、44。其中，本公开对步骤43和步骤44的执行顺序不做严格限定，二者可以同时执行，也可以先后执行。

由于对图像的滑动变焦处理涉及到画面的变化，可能出现背景缺失的问题，因此可以进行一定程度的补背景处理，将补背景之后得到的图像作为初始背景图像，用以进行滑动变焦处理，使得到的目标背景图像的背景是无缺失的，进而使得到的目标图像是完整的、无缺失的。基于此，本公开提供的方法还可以包括以下步骤：

在原始图像中去掉目标对象，得到第一背景图像；

获取位于原始图像中目标对象所覆盖区域的第二背景图像；

按照目标对象所覆盖区域的位置，将第二背景图像补充到第一背景图像中，得到初始背景图像。

首先，在原始图像中去掉目标图像，得到第一背景图像，此时，第一背景图像是部分缺失的，为了保证最终生成的目标图像的背景的完整性，可以对缺失的部分进行补充。

因此，可以获取位于原始图像中目标对象所覆盖区域的第二背景图像，并按照目标对象所覆盖区域的位置，将第二背景图像补充到第一背景图像中，得到初始背景图像。

其中，对于获取位于原始图像中目标对象所覆盖区域的第二背景图像，可以采用多种方式。示例地，可以预先设置一些用于背景补充的图像，直接从这些图像中获取第二背景图像。再例如，可以基于第一背景图像，从第一背景图像中提取出部分图像作为第二背景图像。再例如，可以基于第一背景图像，对其中缺失的部分进行图像填充(例如，使用现有的图像修复算法、图像填充算法等进行图像填充)，并将填充的图像内容作为第二背景图像。

通过这一方式，得到的初始背景图像是完整的，基于这一初始背景图像进行滑动变焦处理后得到的目标背景图像也会是完整的，从而，在目标背景图像上覆盖目标对象的图像后得到的目标图像也是完整的，不会出现背景缺失的情况，保证了图像的信息完整性。

图5是根据本公开的一种实施方式提供的视频生成装置的框图。如图5所示，该装置50可以包括：

第一获取模块51，用于获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；

处理模块52，用于根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；

第一生成模块53，用于按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；

第二生成模块54，用于基于所述目标帧对应的目标图像，生成目标视频。

可选地，所述第一获取模块51包括：

第一识别子模块，用于通过预先训练的目标对象识别模型识别出所述原始图像中的目标对象；

或，

第二识别子模块，用于通过所述目标对象对应的历史位置信息识别出所述原始图像中的目标对象，所述历史位置信息是通过对所述原始图像前的图像进行运动追踪得到的。

可选地，所述处理模块52包括：

第一确定子模块，用于确定所述初始背景图像的透视点；

第二确定子模块，用于根据识别出的所述目标对象在所述原始图像中的初始位置和所述目标对象在画面中的期望位置，确定所述初始背景图像的所述滑动方向、滑动距离、所述变焦方向和变焦距离；

第三确定子模块，用于以所述透视点为中心、沿所述滑动方向以所述滑动距离对所述初始背景图像进行画面滑动；

第四确定子模块，用于以所述透视点为中心、沿所述变焦方向以所述变焦距离对所述初始背景图像进行画面变焦。

可选地，所述第一确定子模块用于将所述原始图像的中心点确定为所述透视点；

或者，

所述第一确定子模块用于：获取所述原始图像的深度信息；根据所述深度信息确定所述原始图像中的灭点位置；将所述灭点位置作为所述透视点。

可选地，所述第二确定子模块用于：确定所述初始位置在所述原始图像对应的三维图像空间中所处的第一坐标；确定所述期望位置在所述三维图像空间中所处的第二坐标；根据所述第一坐标和所述第二坐标，确定所述滑动方向、所述滑动距离、所述变焦方向和所述变焦距离。

可选地，所述装置还包括：

图像去除模块，用于在所述原始图像中去掉所述目标对象，得到第一背景图像；

第二获取模块，用于获取位于所述原始图像中所述目标对象所覆盖区域的第二背景图像；

补充模块，用于按照所述目标对象所覆盖区域的位置，将所述第二背景图像补充到所述第一背景图像中，得到所述初始背景图像。

可选地，所述第一获取模块51用于从待处理媒体文件中获取目标帧对应的原始图像，所述待处理媒体文件为包含所述目标对象的图像或视频；

或者，

所述第一获取模块51用于从图像采集装置实时采集到的信息流中获取目标帧对应的原始图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；基于所述目标帧对应的目标图像，生成目标视频。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述方法包括：

基于所述目标帧对应的目标图像，生成目标视频。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述识别出所述原始图像中的目标对象，包括：

通过预先训练的目标对象识别模型识别出所述原始图像中的目标对象；

或，

通过所述目标对象对应的历史位置信息识别出所述原始图像中的目标对象，所述历史位置信息是通过对所述原始图像前的图像进行运动追踪得到的。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像，包括：

确定所述初始背景图像的透视点；

根据识别出的所述目标对象在所述原始图像中的初始位置和所述目标对象在画面中的期望位置，确定所述初始背景图像的所述滑动方向、滑动距离、所述变焦方向和变焦距离；

以所述透视点为中心、沿所述滑动方向以所述滑动距离对所述初始背景图像进行画面滑动；

以所述透视点为中心、沿所述变焦方向以所述变焦距离对所述初始背景图像进行画面变焦。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述确定所述初始背景图像的透视点，包括：

将所述原始图像的中心点确定为所述透视点；

或者，

所述确定所述初始背景图像的透视点，包括：

获取所述原始图像的深度信息；

根据所述深度信息确定所述原始图像中的灭点位置；

将所述灭点位置作为所述透视点。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述根据识别出的所述目标对象在所述原始图像中的初始位置和所述目标对象在画面中的期望位置，确定所述初始背景图像的所述滑动方向、滑动距离、所述变焦方向和变焦距离，包括：

确定所述初始位置在所述原始图像对应的三维图像空间中所处的第一坐标；

确定所述期望位置在所述三维图像空间中所处的第二坐标；

根据所述第一坐标和所述第二坐标，确定所述滑动方向、所述滑动距离、所述变焦方向和所述变焦距离。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述方法还包括：

在所述原始图像中去掉所述目标对象，得到第一背景图像；

获取位于所述原始图像中所述目标对象所覆盖区域的第二背景图像；

按照所述目标对象所覆盖区域的位置，将所述第二背景图像补充到所述第一背景图像中，得到所述初始背景图像。

根据本公开的一个或多个实施例，提供了一种视频生成方法，所述获取目标帧对应的原始图像，包括：

从待处理媒体文件中获取目标帧对应的原始图像，所述待处理媒体文件为包含所述目标对象的图像或视频；

或者，

根据本公开的一个或多个实施例，提供了一种视频生成装置，所述装置包括：

根据本公开的一个或多个实施例，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开任意实施例所述的视频生成方法的步骤。

根据本公开的一个或多个实施例，提供了一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开任意实施例所述的视频生成方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

一种视频生成方法，其特征在于，所述方法包括：

获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；

根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；

按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；

基于所述目标帧对应的目标图像，生成目标视频。
根据权利要求1所述的方法，其特征在于，所述识别出所述原始图像中的目标对象，包括：

通过预先训练的目标对象识别模型识别出所述原始图像中的目标对象；

或，

通过所述目标对象对应的历史位置信息识别出所述原始图像中的目标对象，所述历史位置信息是通过对所述原始图像前的图像进行运动追踪得到的。
根据权利要求1所述的方法，其特征在于，所述根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像，包括：

确定所述初始背景图像的透视点；

根据识别出的所述目标对象在所述原始图像中的初始位置和所述目标对象在画面中的期望位置，确定所述初始背景图像的所述滑动方向、滑动距离、所述变焦方向和变焦距离；

以所述透视点为中心、沿所述滑动方向以所述滑动距离对所述初始背景图像进行画面滑动；

以所述透视点为中心、沿所述变焦方向以所述变焦距离对所述初始背景图像进行画面变焦。
根据权利要求3所述的方法，其特征在于，所述确定所述初始背景图像的透视点，包括：

将所述原始图像的中心点确定为所述透视点；

或者，

所述确定所述初始背景图像的透视点，包括：

获取所述原始图像的深度信息；

根据所述深度信息确定所述原始图像中的灭点位置；

将所述灭点位置作为所述透视点。
根据权利要求3所述的方法，其特征在于，所述根据识别出的所述目标对象在所述原始图像中的初始位置和所述目标对象在画面中的期望位置，确定所述初始背景图像的所述滑动方向、滑动距离、所述变焦方向和变焦距离，包括：

确定所述初始位置在所述原始图像对应的三维图像空间中所处的第一坐标；

确定所述期望位置在所述三维图像空间中所处的第二坐标；

根据所述第一坐标和所述第二坐标，确定所述滑动方向、所述滑动距离、所述变焦方向和所述变焦距离。
根据权利要求3-5任一项所述的方法，其特征在于，所述方法还包括：

若所述目标对象在所述原始图像中的位置和所述目标对象在画面中的期望位置不匹配，则，对所述原始图像进行处理，使处理后得到的图像中所述目标对象的位置与所述期望位置匹配，

将所述处理后得到的图像中所述目标对象的位置记作所述初始位置。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述原始图像中去掉所述目标对象，得到第一背景图像；

获取位于所述原始图像中所述目标对象所覆盖区域的第二背景图像；

按照所述目标对象所覆盖区域的位置，将所述第二背景图像补充到所述第一背景图像中，得到所述初始背景图像。
根据权利要求7所述的方法，其特征在于，所述获取位于所述原始图像中所述目标对象所覆盖区域的第二背景图像，包括：

从预先设置的背景补充图像中，获得所述第二背景图像；

或者，从所述第一背景图像中提取部分图像，将提取的图像作为所述第二背景图像；

又或者，对所述第一背景图像中缺失的部分进行图像填充，将填充的图像作为所述第二背景图像。
根据权利要求1所述的方法，其特征在于，所述获取目标帧对应的原始图像，包括：

从待处理媒体文件中获取目标帧对应的原始图像，所述待处理媒体文件为包含所述目标对象的图像或视频；

或者，

从图像采集装置实时采集到的信息流中获取目标帧对应的原始图像。
一种视频生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标帧对应的原始图像，并识别出所述原始图像中的目标对象；

处理模块，用于根据滑动变焦策略对所述原始图像中除所述目标对象外的初始背景图像进行滑动变焦处理，得到目标背景图像；其中，所述滑动变焦策略至少用于指示所述初始背景图像的滑动方向和变焦方向，所述滑动方向和所述变焦方向相反；

第一生成模块，用于按照所述目标对象在所述原始图像中的位置，将所述目标对象的图像叠加在所述目标背景图像上，得到所述目标帧对应的目标图像；

第二生成模块，用于基于所述目标帧对应的目标图像，生成目标视频。
一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-9中任一项所述方法的步骤。
一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。