WO2024077791A1

WO2024077791A1 - 视频生成方法、装置、设备与计算机可读存储介质

Info

Publication number: WO2024077791A1
Application number: PCT/CN2022/143214
Authority: WO
Inventors: 周彧聪; 王志浩; 杨斌
Original assignee: 名之梦(上海)科技有限公司
Priority date: 2022-10-09
Filing date: 2022-12-29
Publication date: 2024-04-18
Also published as: CN115761565A; CN115761565B

Abstract

本发明公开了一种视频生成方法、装置、设备与计算机可读存储介质，该方法包括：获取第一光线上的多个采样点的第一信息，多次获取目标对象的多个第一关键点的第二信息，根据第一信息和第二信息，分别生成多个第一关键点融合特征，基于第一关键点融合特征分别对多个采样点的空间坐标进行偏移，将多个采样点的偏移后的空间坐标和多个采样点对应的多个第一关键点融合特征，配对地输入预训练的神经辐射场模型，获得目标对象的多个静态图像，通过图像合成为目标对象的视频。

Description

视频生成方法、装置、设备与计算机可读存储介质

相关申请的交叉引用

本申请要求于2022年10月09日提交的申请号为202211231054X的中国新申请的优先权，其在此出于所有目的通过引用将其全部内容并入本文。

技术领域

本发明涉及计算机视觉技术领域，尤其涉及视频生成方法、装置、设备与计算机可读存储介质。

背景技术

近年来，基于深度学习的计算机视觉技术取得了很大的发展，如目标跟踪/图像分割等场景。其中，对于3D场景的重建及其渲染的研究也取得了很大的进展。神经辐射场(Neural radiance fields，简称NeRF)是一种对三维静态场景连续、隐式的表达方式，其灵活地表示了三维场景的几何和外观，实现了逼真的新视角二维图像合成。然而，通过NeRF仅仅能够得到的是二维图像，并不能满足人们对于三维视频重建的需求。

对于三维视频的合成，现有技术中通常采用在5D的基础上加入时间参数训练神经网络，从而就能够得到任意时间的3D图像，并合成视频。但是这种方式，直接增加了一个纬度，使得训练时的数据量大大增加，训练时间也大大增加，效率低。另一种方式常用的方式为基于时间的潜码(latent codes)来实现动态场景的3D视频生成。

因此，目前的3D视频生成主要还是直接或间接地依赖于时间，故亟待提出一种不依赖时间参数的视频生成方法。

发明内容

本发明的主要目的在于提供一种视频生成方法、装置、设备与计算机可读存储介质，旨在解决现有视频生成方法依赖时间参数的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种视频生成方法，包括：

获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

将所述多个静态图像合成为所述目标对象的视频。

第二方面，本申请实施例提供一种视频生成装置，包括：

光线获取模块，用于获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

关键点获取模块，用于多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

关键点编码模块，用于针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

光线弯曲模块，用于针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

神经辐射场模块，用于针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

视频生成模块，用于将所述多个静态图像合成为所述目标对象的视频。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述方法的步骤。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如上述方法的步骤。

在本发明实施例中，通过获取第一光线上多个采样点的空间坐标和方位视角信息，并获取目标对象的多个第一关键点，再多次获取第一关键点的第二信息，其中，第二信息包括关键点的空间坐标和关键点的特征，将第一光线上的每个采样点与每次获得的第二信息进行融合，生成第一关键点融合特征，根据第一关键点融合特征对每个采样点的空间坐标进行偏移操作，获得每个采样点偏移后的空间坐标，将采样点偏移后的空间坐标和第一关键点融合特征输入预训练的神经辐射场模型，生成每个采样点对应的静态图像，对每次输入的多个第一关键点的第二信息都生成一张对应的静态图像，再根据多张静态图像合成视频。通过依次输入目标对象多个第一关键点的第二信息，使得在根据神经辐射场生成第一光线对应的静态图像时，每一张静态图像实际是与每次输入的不同关键点的第二信息相关联的，则通过融入变化的关键点第二信息来模拟动态的场景中每一张图像的变化，再根据生成的图片来合成视频，在与时间解耦的同时实现了3D视频合成，合成方法简单，只需要用户指定视角即可合成目标对象的视频。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频生成方法的举例示意图；

图2是本申请实施例提供的一种视频生成方法的流程示意图；

图3是本申请实施例提供的一种视频生成方法的关键点示意图；

图4是本申请实施例提供的一种视频生成方法中根据关键点进行光线弯曲的示意图；

图5是本申请实施例提供的一种视频生成方法中生成多个第一关键点融合特征的细化流程示意图；

图6是本申请实施例提供的一种视频生成方法的整体流程图；

图7是本申请实施例提供的一种视频生成方法中确定第一关键点的细化流程示意图；

图8是本申请实施例提供的一种视频生成装置的结构示意图；

图9是本申请实施例提供的一种视频生成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

视频生成装置可以为手机、电脑、平板电脑、智能手表或车载设备等终端设备，也可以为终端设备中用于实现视频生成方法的模块，视频生成装置能够获取第一光线上的多个采样点的第一信息，第一信息包括空间坐标和方位视角，多次获取目标对象的多个第一关键点的第二信息，第二信息包括关键点的空间坐标和关键点的特征，针对多个采样点和每次获取的多个第一关键点的第二信息，根据第一信息和第二信息，分别生成多个第一关键点融合特征，其中，多个第一关键点融合特征中的每个第一关键点融合特征对应于多个采样点中的一个采样点，针对多个采样点中的第一采样点，根据第一采样点的空间坐标和第一采样点对应的第一关键点融合特征，对第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，第一采样点为多个采样点中的任意一个采样点，针对每次获取的多个第一关键点的第二信息，将多个采样点的偏移后的空间坐标和多个采样点对应的多个第一关键点融合特征，配对地输入预训练的NeRF模型，从而获得目标对象的多个静态图像，其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，将多个静态图像合成为目标对象的视频。

请一并参见图1，为本申请实施例提供了一种视频生成方法的举例示意图，图中示出的为合成目标对象3D视频的过程，在实际应用场景中，根据所需观看目标对象的视角可以得到一条光线或者可以说是拍摄方向视角，再根据目标对象的关键点信息驱动NeRF模型获得该光线对应的多张3D静态图片，再根据多张静态图片合成3D视频。

下面结合具体的实施例对本申请提供的视频生成方法进行详细说明。

请参见图2，为本申请实施例提供了一种视频生成方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S10-S60。

S10，获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

S20，多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

S30，针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

S40，针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

S50，针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的神经辐射场NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

S60，将所述多个静态图像合成为所述目标对象的视频。

本实施例中，基于传统的NeRF模型，提出了一种三维视频合成方法。NeRF利用MLP多层感知机去隐式地学习一个静态的3D场景。针对每一个静态3D场景，需要提供大量的已知相机参数的图片，来训练NeRF模型。训练好的NeRF模型，可以实现从任意角度重建三维模型，例如人体、建筑物、交通工具等。其输入是5维的坐标，该5维的坐标包括三维的空间坐标(x,y,z)和视角方向d＝(θ，φ)，NeRF模型的中间层的输出则是颜色c和体积密度σ(可近似理解为不透明度，取值越小越透明)，该函数可以理解为将5D坐标映射到相应的体积密度和方向的颜色。然后利用体渲染技术生成图像。在渲染时，针对每一条光线ray(并非必须实际存在)，我们使用立体渲染的方式得到这个点的像素值，具体而言，我们首先在一条光线上采样很多个点，之后通过上面的得到每个点对应的体素以及颜色，接下来利用下面的渲染方程：

其中

其中t _n和t _f代表着一条光线在场景中我们想要渲染的那一部分，函数T(t)表示光线tn到t沿着光线累积透射率，即光线从t _n到t不碰到任何离子的概率。通过对虚拟相机的每个像素的光线计算积分C(r)来为连续的神经辐射场绘制视图，从而就可以从任意角度渲染出图像。

上面描述的是利用NeRF重建静态的3D图像，显然不能得到动态的3D视频。理论上，在NeRF中所用5D坐标的基础上加入时间参数训练神经网络，就能够得到任意时间的3D图像，从而利用时间参数来合成动态视频。但是这种方式，会直接增加了一个全新的参数，训练时的数据量大大增加，训练时间也大量延长，效率明显降低。同时，现有技术中的其他三维视频合成方法也需要直接地或者间接地依赖时间参数。基于此，本申请提出了一种能与时间参数解耦的3D视频合成方法，使得3D视频不依赖于时间信息，也不依赖于训练时所使用的视频中每一帧图像的顺序。

以下将对各个步骤进行详细说明：

具体的，第一光线为根据视频观看视角得到的一条虚拟光线，其可以认为是从人眼或摄像机等光线始发点到目标对象处的一条光线。获取第一光线上多个采样点的第一信息，

第一信息可以包括采样点的空间坐标和方位视角。可以理解的，由于传统的NeRF的模型输入需要空间坐标和方位视角，故在本方案中同样至少要获取采样点的空间坐标和方位视角。

具体的，目标对象为所需要生成视频中包含的动态内容，可以是某个物体、人物、场景等等。例如，需要生成一个人说话的视频，那么目标对象就是该人头部，在说话的时候，人物的面部表情会发生变化，比如嘴唇会张开或者闭合等，通过获取人物面部的多个第一关键点，并跟踪人物在说话时这些关键点空间坐标的具体发生的变化，可以得到多个第一关键点的第二信息。参照图3，图3为本申请实施例提供的一种视频生成方法的关键点示意图，图中黑色的点为该人物头部的关键点。可以理解的，关键点的数量可以根据目标对象来确定，通常来说，第一关键点的数量越多则生成视频的模拟动作精度越高。

需要说明的是，关键点的特征并不会发生改变，会发生改变的是关键点的空间坐标。

具体的，对于动态的场景，相同的关键点会随着不同动作在空间中出现空间位置的移动，则动态NeRF的难点在于：在同一个光线角度下，如何模拟出该种动态的变化。参照图4，图4为本申请实施例提供的一种视频生成方法中根据关键点进行光线弯曲的示意图，图中标注的圆点为牙齿上的一个第一关键点，图中带箭头的光线为第一光线。假设要从图4中左边是闭合的嘴，变到右边张开的嘴，那么就需要对光线进行弯曲，使得光线弯曲之后依然能得到这个位置的体积密度和颜色。换句话说就是在动态的时候把这个原本静态的关键点的(x，y，z)加一些偏移量变成(x’，y’，z’)，使得该关键点仍然对应牙齿这个位置。因此，在对光线进行弯曲之前，通过特征融合，先将第一光线上的采样点坐标与关键点的坐标以及关键点特征相互关联或绑定起来，从而实现利用关键点来驱动NeRF。以生成一张图片为例，将第一光线上的每个采样点的第一信息和某一次获取的多个第一关键点的第二信息分别进行融合，生成每个采样点对应的第一关键点融合特征。其中，第一关键点融合特征不仅包括了融合后的采样点坐标、关键点坐标和关键点特征信息，还包括了采样点的方位视角。

具体的，在获得第一关键点融合特征之后，对第一光线进行弯曲，也即对光线上每一个采样点坐标进偏移。从多个采样点中获取一个第一采样点，再将第一采样点的空间坐标和第一采样点对应的第一关键点融合特征输入训练好的光线弯曲模块，通过光线弯曲模块中获得偏移后的第一采样点的空间坐标。光线弯曲模块可以基于神经网络训练得到。

S50，针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

具体的，在步骤S40中我们得到了偏移后的关键点坐标，再和第一关键点融合特征结合输入已经训练好的NeRF模型中。可选的，采用NVIDIA的InstantNG的多分辨率哈希编码Hashgrid方案来优化NeRF的编码，原因是传统的频率编码(encoding)是一种隐式encoding，而Hashgrid是一种显式encoding，两者结合能有更好的效果，并且允许用更少的计算量实现相同的渲染质量。通过预训练的NeRF模型输出是RGB的值以及体积密度density，同时，根据RGB的值和体积密度体渲染技术生成静态图像。体渲染技术为现有公开技术，在此不加赘述。

S60，将所述多个静态图像合成为所述目标对象的视频。

例如，将生成的静态图像作为视频中一帧一帧的图像，将图像按顺序进行拼接得到视频。可以理解的，假设生成的视频为人物说话视频，则在预先训练的过程中，我们采集的数据是人物说话的视频，并进行帧采样，如FPS为60，并获取每一帧图像中关键点的空间坐标，生成对应的第二信息，那么在视频合成的过程中将获取的多个第一关键点的第二信息按顺序输入，则对应的将顺序生成静态图像，直接进行拼接即可得到视频。这里的图像被拼接的顺序对应的是多个第一关键点输入的顺序，而不是对NeRF模型进行训练时的视频中的每一帧图像的时间顺序。

在本申请实施例中，通过获取第一光线上多个采样点的空间坐标和方位视角信息，并获取目标对象的多个第一关键点，再多次获取第一关键点的第二信息，其中，第二信息包括关键点的空间坐标和关键点的特征，将第一光线上的每个采样点与每次获得的第二信息进行融合，生成第一关键点融合特征，根据第一关键点融合特征对每个采样点的空间坐标进行偏移操作，获得每个采样点偏移后的空间坐标，将采样点偏移后的空间坐标和第一关键点融合特征输入预训练的神经辐射场模型，生成每个采样点对应的静态图像，对每次输入的多个第一关键点的第二信息都生成一张对应的静态图像，再根据多张静态图像合成视频。通过依次输入目标对象多个第一关键点的第二信息，使得在根据神经辐射场生成第一光线对应的静态图像时，每一张静态图像实际是与每次输入的不同关键点的第二信息相关联的，则通过融入变化的关键点第二信息来模拟动态的场景中每一张图像的变化，再根据生成的图片来合成视频，在与时间解耦的同时实现了3D视频合成，合成方法简单，只需要用户指定视角即可合成目标对象的视频。

参见图5，为本申请实施例提供了一种视频合成方法中生成多个第一关键点融合特征的细化流程示意图。如图5所示，本申请实施例的所述方法可以包括以下步骤S31-S32。

S31，从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点；

在本实施例中，在生成第一关键点融合特征时，从多个第一关键点中选取部分第二关键点与第一采样点的第一信息进行特征融合。可以理解的，空间中的采样点P(x，y，z)不会跟所有的关键点landmark(x，y，z)都存在关联，例如，眼睛附近的关键点驱动眼睛的运动，嘴巴附近的关键点驱动嘴巴的运动，眼睛附近的关键点不会驱动嘴巴运动。因此，需要从第一关键点中选取与第一采样点相关联的第二关键点，从而使得关键点驱动更加准确。具体的，从多个第一关键点中确定与第一采样点相关联的至少一个第二关键点可以通过训练神经网络来确定，输入关联特征，使神经网络学习关键点与采样点之间的关联特征，则可以通过训练得到的神经网络进行关联性预测，获取第一关键点中的第二关键点。可选的，还可以通过设定关键点与采样点的对应关系，当需要从多个第一关键点中确定与第一采样点相关的至少一个第二关键点时，可以从对应的关系映射表得到。

S32，对所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征。

具体的，当确认与第一采样点相关的第二关键点后，获取第二关键点的第二信息与第一采样点的第一信息进行注意力计算，从而将第一采样点与第二关键点之间进行关联，经过注意力机制attention之后，得到的第一关键点融合特征feature代表着目标对象关键点信息与光线信息交互后的特征。

例如，当确认与第一采样点相关的第二关键点后，获取第二关键点的第二信息与第一采样点的第一信息进行注意力计算，从而将第一采样点与第二关键点之间进行关联，经过注意力机制attention之后，得到的第一关键点融合特征feature代表着目标对象关键点信息与光线信息交互后的特征。以点P代表采样点，P(x，y，z)和landmark(x，y，z)实际上是同一空间中的点，并且关键点对P(x，y，z)的影响和其空间位置有关，所以这里采用了基于cross-attention的编码方法，例如如下方式：

采样点P(x，y，z)是1x3的tensor，将其作为query；

landmark(x，y，z)是Mx3的tensor，将其作为key；

考虑到M个landmark有对应的语义，所以给landmark(x，y，z)设置了对应的landmark feature，为Mx3的embedding，将其作为value；

对query、key、value做attention操作，得到最终的landmark encoding也即关键点融合特征。

进一步地，在一实施例中，所述从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点，包括：

S311，计算所述第一采样点的空间坐标与多个第一关键点的空间坐标的距离；

S312，确定所述距离小于或等于预设阈值的至少一个第一关键点为所述至少一个第二关键点。

具体的，对第一采样点P(x，y，z)和所有的第一关键点landmark(x，y，z)进行距离的计算，确定距离小于或等于预设阈值的至少一个第一关键点为与第一采样点相关联的至少一个第二关键点。下述公式中的Q乘以K本身表示一种相似度，也是一种距离的衡量。需要说明的是，注意力计算attention可以直接采用现有技术中的计算公式，具体为下面的公式所示：

式中，Q是输入的采样点的坐标(x，y，z)，K是landmak的坐标(x，y，z)，V是可学习的landmrak特征(可学习是指初始化为一些随机值，然后这些随机值可以在训练的时候随着网络参数的更新而更新)，d _k是Q或者K的嵌入(embedding)维度，这里举个例子，假设Q是200x2048，K和V是200x2048这里的dk就是2048。

进一步地，在一实施例中，本申请实施例的所述方法可以包括以下步骤S33-S34。

S34，从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点；

S34，将所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行拼接，生成所述第一关键点融合特征。

在一实施例中，从多个第一关键点中确认第二关键点后，生成第一关键点融合特征的方法为，将第一采样点的第一信息和至少一个第二关键点的第二信息进行拼接。具体的，把第二关键点坐标(x，y，z)直接变换成1维向量，然后和第一采样点P(x，y，z)拼接在一起，然后作为后续NeRF模型的输入。需要说明的是，将关键点坐标直接与采样点坐标进行拼接的特征融合方式，相较于通过注意力进行特征融合的方法，其效果更差，然而该方法简单、快速，在目标合成视频的质量要求不高的情况下可以采用该种方式提高生成视频的速度。

参照图6，图6为本申请实施例提供了一种视频生成方法的整体流程图。图6示出的为对每个第一采样点(也即图中的采样点)和对应的获取的一次第一关键点(也即图中的关键点)的第二信息的处理过程，核心处理模块包括关键点编码模块、光线弯曲模块和神经辐射场模块。首先将采样点坐标作为Query，关键点的坐标作为Key，关键点的特征作为Value通过注意力机制进行融合，得到关键点融合特征，需要说明的是，采样点的方位视角隐含包括在融合特征中以用于后续输入NeRF模型中；然后，将关键点融合特征和采样点坐标输入光线弯曲模块中的光线弯曲多层感知机，输出偏移后的采样点坐标，再将偏移后的采样点坐标和关键点融合特征输入神经辐射场模块，通过NeRF，结合Hashgrid，生成一个采样点对应的颜色RGB和体积密度，将第一光线上所有的第一采样点分别输入上述各个模块中，得到第一光线上所有采样点的颜色RGB和体积密度，基于所有采样点的颜色RGB和体积密度生成一张静态图片，静态图片的数量与多次获取第一关键点的第二信息的次数相等，再根据获取的多张静态图片生成视频。

本实施例中在生成第一关键点融合特征时，从多个第一关键点中选取与第一采样点相关联的第二关键点，并将第二采样点的第二信息与第一采样点的第一信息进行特征融合，生成第一关键点融合特征，具体的，对第一采样点的第一信息和至少一个第二关键点的第二信息进行注意力计算或者是直接将第一采样点的第一信息和至少一个第二关键点的第二信息进行拼接，生成第一关键点融合特征，实现关键点信息与光线上采样点信息的交互，使得后续神经辐射场模型能根据输入的关键点信息生成相应的图片。

请参见图7，为本申请实施例提供了一种视频生成方法中确定第一关键点的细化流程示意图。如图7所示，本申请实施例的所述方法可以包括以下步骤S71-S72。

S71，确定所述目标对象的类型；

在一实施例中，目标对象可以为多种类型，不同类型的目标对象所需要提取的关键点不同。可以理解的，如果目标对象是人物头像，则需要获取人物头像对应的关键点；如果目标对象是动物，则需要获取动物对应的关键点；又或者，目标对象为人体肢体，则需要获取肢体对应的关键点。具体的，目标对象的类型划分可以根据实际情况确定。

S72，基于所述目标对象的类型选择关键点提取模型，根据所述关键点提取模型确定所述第一关键点。

在一实施例中，根据确定目标对象的类型后，获取该目标对象的关键点提取模型，并通过关键点提取模型得到第一关键点。关键点提取模型可以采用现有的开源模型，也可以通过卷积神经网络训练提取模型。例如，人脸关键点提取模型，可以采用较流行的人脸识别的开源库Dlib。假设目标对象为人脸，使用Dlib关键点提取模型，则可以提取到输入的图片中人脸上的68个关键点。

可选的，本申请还提出一种用于生成视频的神经辐射场模型的训练方法，包括以下步骤S81-S82：

S81，创建初始化的神经辐射场模型；

S82，利用预先获取的训练图像对所述初始化的神经辐射场模型进行训练，获得训练好的神经辐射场模型，其中，每张训练图像中标注有采样点的第一信息、所有关键点的空间坐标和关键点的特征。

具体的，由于本申请中神经辐射场模型与传统的神经辐射场模型存在一定的区别，其输入数据还包括了关键点信息，故需要创建初始化的神经辐射场模型，并通过训练图像进行模型训练，使得神经辐射场模型学习采样点的第一信息和所有关键点的空间坐标及关键点特征。其中，预先获取的训练图像为从视频中截取出的图像，例如待合成的目标为侧面视角看到的人物行走视频，那么在训练时则可以从侧面拍摄的一个人物行走视频中，截取图片，例如从1秒的视频中截取30张图片，为每一张图片标注100个关键点，并获取每一张图片中关键点的空间位置和关键点的特征，为每一张图片对应的生成一份关键点信息，再将侧面视角对应的光线上的多个采样点，与每一份关键点信息进行特征融合和采样点偏移，将多个采样点的偏移后的空间坐标和多个采样点对应的多个关键点融合特征，配对地输入初始化的神经辐射场NeRF模型，生成一张实验图像，将实验图像与训练时使用的关键点信息对应的训练图像进行比较，通过迭代计算损失函数，训练得到神经辐射场模型。

可选的，本申请中进行特征融合和进行空间坐标弯曲的步骤可分别通过关键点编码模块和光线弯曲模块实现，对应的关键点编码模型和光线弯曲模型可以与神经辐射场模型一同训练。示例性的，训练步骤可如下：

获取训练视频数据，对训练视频数据进行帧采样生成训练图像集；

获取训练图像集中各图像的所有像素点的空间坐标和方位视角，并提取训练图像集中各图像的关键点，将空间坐标、方位视角和关键点输入初始关键点编码模型，获得初始关键点融合特征；

将初始关键点融合特征和空间坐标输入初始光线弯曲模型，并输出初始校正三维坐标；

将初始校正三维坐标和初始关键点驱动特征输入初始化的神经辐射场模型渲染生成实验图像；

基于实验图像与训练图像集，迭代计算预设的损失函数，直到损失函数满足预设条件时，训练得到关键点编码模型、光线弯曲模型和神经辐射场模型。

进一步地，在一实施例中，所述针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，是利用多层感知机实现的。

可以理解的，在人说话脸动的时候，脸上的关键点也会动，那么我们要实现的是光线随着关键点动。具体的，通过多层感知机(MLP)自动学习光线的偏移，根据关键点提供的信息来决定光线往哪里偏，才能得到偏移后关键点的位置。在训练的时候会设定约束，约束这一帧生成的坐标要和实际的这一帧嘴唇、牙齿的位置是一样的，也即通过生成的图片与原始图片(训练图片)进行对比训练模型。

进一步地，在一实施例中，所述针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，也可以利用多层感知机实现，具体训练方式与上述步骤类似，在此不加赘述。

在本申请实施例中，通过确定目标对象的类型，再根据目标对象的类型选择关键点提取模型，根据关键点提取模型来确定第一关键点。通过为不同类型的目标对象匹配对应的关键点提取模型，能够为生成视频中目标对象的提供更加准确地关键点信息，从而提高视频合成的准确性，同时通过预训练的关键点提取模型提取关键点，而不需要临时进行人工关键点标注，能够提高关键点信息采集效率，从而使得视频生成的过程更加快速。

下面将结合附图8，对本申请实施例提供的视频生成装置进行详细介绍。需要说明的是，附图8中的视频生成装置，用于执行本申请图2-图7所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图2-图7所示的实施例。

请参见图8，其示出了本申请一个示例性实施例提供的视频生成装置的结构示意图。该视频生成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括光线获取模块10、关键点获取模块20、关键点编码模块30、光线弯曲模块40、神经辐射场模块50和视频生成模块60。

光线获取模块10，用于获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

关键点获取模块20，用于多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

关键点编码模块30，用于针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

光线弯曲模块40，用于针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

神经辐射场模块50，用于针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

视频生成模块60，用于将所述多个静态图像合成为所述目标对象的视频。

可选的，所述关键点编码模块30具体用于针对所述第一采样点和每次获取的多个第一关键点的第二信息，

从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点；

对所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征

将所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行拼接，生成所述第一关键点融合特征。

可选的，所述关键点编码模块30具体用于计算所述第一采样点的空间坐标与多个第一关键点的空间坐标的距离；

确定所述距离小于或等于预设阈值的至少一个第一关键点为所述至少一个第二关键点。

可选的，所述关键点编码模块30是利用多层感知机执行针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征的操作；

可选的，所述光线弯曲模型40是利用多层感知机执行针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标的操作；

可选的，所述装置还包括关键点提取模块，所述关键点提取模块用于确定所述目标对象的类型；

基于所述目标对象的类型选择关键点提取模型，根据所述关键点提取模型确定所述第一关键点。

需要说明的是，上述实施例提供的视频生成装置在执行视频生成方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述图2-图7所示实施例的所述视频生成方法，具体执行过程可以参见图2-图7所示实施例的具体说明，在此不进行赘述。

请参考图9，其示出了本申请一个示例性实施例提供的视频生成设备的结构示意图。本申请中的视频生成设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个视频生成设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户页面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(Non-Transitory Computer-Readable Storage Medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。

存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的视频生成设备的结构并不构成对视频生成设备的限定，视频生成设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，视频生成设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

在图9所示的视频生成设备中，处理器110可以用于调用存储器120中存储的计算机程序，并具体执行以下操作：

将所述多个静态图像合成为所述目标对象的视频。

在一个实施例中，所述处理器110在执行基于所述针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征时，具体执行以下操作：

针对所述第一采样点和每次获取的多个第一关键点的第二信息，

对所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征。

在一个实施例中，所述处理器110在执行针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征时，具体执行以下操作：

在一个实施例中，所述处理器110在执行从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点时，具体执行以下操作：

计算所述第一采样点的空间坐标与多个第一关键点的空间坐标的距离；

在一个实施例中，所述处理器110在执行针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征时，是利用多层感知机实现的。

在一个实施例中，所述处理器110在执行针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标时，是利用多层感知机实现的。

在一个实施例中，所述处理器110在执行第一关键点为人体关键点，所述第一关键点包括面部关键点和肢体关键点，所述在多次获取目标对象的多个第一关键点的第二信息之前，还执行以下操作：

确定所述目标对象的类型；

在本申请实施例中，通过获取第一光线上多个采样点的空间坐标和方位视角信息，并获取目标对象的多个第一关键点，再多次获取第一关键点的第二信息，其中，第二信息包括关键点的空间坐标和关键点的特征，将第一光线上的每个采样点与每次获得的第二信息进行融合，生成第一关键点融合特征，根据第一关键点融合特征对每个采样点的空间坐标进行偏移操作，获得每个采样点偏移后的空间坐标，将采样点偏移后的空间坐标和第一关键点融合特征输入预训练的神经辐射场模型，生成每个采样点对应的静态图像，对每次输入的多个第一关键点的第二信息都生成一张对应的静态图像，再根据多张静态图像合成视频。通过依次输入目标对象多个第一关键点的第二信息，使得在根据神经辐射场生成第一光线对应的静态图像时，每一张静态图像实际是与每次输入的不同关键点的第二信息相关联的，则通过融入变化的关键点第二信息来模拟动态的场景中每一张图像的变化，再根据生成的图片来合成视频，在与时间解耦的同时实现了3D视频合成，合成方法简单，只需要用户指定视角即可合成目标对象的视频。并且，在生成第一关键点融合特征时，从多个第一关键点中选取与第一采样点相关联的第二关键点，并将第二采样点的第二信息与第一采样点的第一信息进行特征融合，生成第一关键点融合特征，具体的，对第一采样点的第一信息和至少一个第二关键点的第二信息进行注意力计算或者是直接将第一采样点的第一信息和至少一个第二关键点的第二信息进行拼接，生成第一关键点融合特征，实现关键点信息与光线上采样点信息的交互，使得后续神经辐射场模型能根据输入的关键点信息生成相应的图片。此外，通过确定目标对象的类型，再根据目标对象的类型选择关键点提取模型，根据关键点提取模型来确定第一关键点。通过为不同类型的目标对象匹配对应的关键点提取模型，能够为生成视频中目标对象的提供更加准确的关键点信息，从而提高视频合成的准确性，同时通过预训练的关键点提取模型提取关键点，而不需要临时进行人工关键点标注，能够提高关键点信息采集效率，从而使得视频生成的过程更加快速。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种视频生成方法，其特征在于，包括：

获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的神经辐射场NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

将所述多个静态图像合成为所述目标对象的视频。
如权利要求1所述的方法，其特征在于，所述针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，包括：

针对所述第一采样点和每次获取的多个第一关键点的第二信息，

从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点；

对所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征。
如权利要求1所述的方法，其特征在于，所述针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，包括：

针对所述第一采样点和每次获取的多个第一关键点的第二信息，

从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点；

将所述第一采样点的第一信息和所述至少一个第二关键点的第二信息进行拼接，生成所述第一关键点融合特征。
如权利要求2所述的方法，其特征在于，所述从多个第一关键点中确定与所述第一采样点相关联的至少一个第二关键点，包括：

计算所述第一采样点的空间坐标与多个第一关键点的空间坐标的距离；

确定所述距离小于或等于预设阈值的至少一个第一关键点为所述至少一个第二关键点。
如权利要求2所述的方法，其特征在于，所述针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，是利用多层感知机实现的。
如权利要求1所述的方法，其特征在于，所述针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，是利用多层感知机实现的。
如权利要求1所述的方法，其特征在于，所述第一关键点为人体关键点，所述第一关键点包括面部关键点和肢体关键点，所述在多次获取目标对象的多个第一关键点的第二信息之前，还包括：

确定所述目标对象的类型；

基于所述目标对象的类型选择关键点提取模型，根据所述关键点提取模型确定所述第一关键点。
一种视频生成装置，其特征在于，包括：

光线获取模块，用于获取第一光线上的多个采样点的第一信息，所述第一信息包括空间坐标和方位视角；

关键点获取模块，用于多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

关键点编码模块，用于针对多个采样点和每次获取的多个第一关键点的第二信息，根据所述第一信息和所述第二信息，分别生成多个第一关键点融合特征，其中，所述多个第一关键点融合特征中的每个第一关键点融合特征对应于所述多个采样点中的一个采样点；

光线弯曲模块，用于针对所述多个采样点中的第一采样点，根据所述第一采样点的空间坐标和所述第一采样点对应的第一关键点融合特征，对所述第一采样点的空间坐标进行偏移操作，获得偏移后的空间坐标，其中，所述第一采样点为所述多个采样点中的任意一个采样点；

神经辐射场模块，用于针对每次获取的多个第一关键点的第二信息，将所述多个采样点的偏移后的空间坐标和所述多个采样点对应的所述多个第一关键点融合特征，配对地输入预训练的神经辐射场NeRF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等；

视频生成模块，用于将所述多个静态图像合成为所述目标对象的视频。
一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至7中任一项所述方法的步骤。