WO2024077792A1

WO2024077792A1 - 视频生成方法、装置、设备与计算机可读存储介质

Info

Publication number: WO2024077792A1
Application number: PCT/CN2022/143239
Authority: WO
Inventors: 周彧聪; 王志浩; 杨斌
Original assignee: 名之梦(上海)科技有限公司
Priority date: 2022-10-09
Filing date: 2022-12-29
Publication date: 2024-04-18
Also published as: CN115714888B; CN115714888A

Abstract

本发明公开了一种视频生成方法、装置、设备与计算机可读存储介质，该方法包括：获取表征第一光线的第一信息，多次获取目标对象的多个第一关键点的第二信息，根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征；将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像，将多个静态图像合成为视频。

Description

视频生成方法、装置、设备与计算机可读存储介质

相关申请的交叉引用

本申请要求于2022年10月09日提交的申请号为2022112261806的中国新申请的优先权，其在此出于所有目的通过引用将其全部内容并入本文。

技术领域

本发明涉及人工智能技术领域，尤其涉及视频生成方法、装置、设备与计算机可读存储介质。

背景技术

近年来提出的神经光场是目前解决新视角合成问题的一个有力工具。传统的神经辐射场(NeRF，Neural Radiance Fields)是利用多层感知机(MLP，Multi-Layer Perceptron)神经网络去隐式地学习一个静态的三维(3D，3Dimensions)场景。针对每一个静态3D场景，需要提供大量的已知相机参数的图片，来训练神经网络。训练好的神经网络，可以实现从任意角度渲染出图片的结果。

NeRF用的神经网络(11层的MLP)本身很小，但是渲染一个像素需要采集一条光线上的很多点(例如，上百个)，这导致渲染一张图的计算量非常大。此外，通过NeRF仅能够重建静态的3D图像，而针对NeLF的动态的3D视频的重建，可以理解地直接加入时间参数实现，类似于现有的NeRF的实现方式。

然而，基于NeRF进行视频生成，需要大量的渲染时间，同时，需要时间参数才能实现。因此，如何提高三维视频的生成速度，并且进一步地脱离时间参数是亟待解决的问题。

发明内容

本发明的主要目的在于提供一种视频生成方法、装置、设备与计算机可读存储介质，旨在解决现有视频生成方式渲染速度慢且依赖时间参数的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种视频生成方法，包括：获取表征第一光线的第一信息；多次获取目标对象的多个第一关键点的第二信息，第二信息包括关键点的空间坐标和关键点的特征；根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征；将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像，其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由第一信息和一个第一关键融合特征配对后输入NeLF模型；将多个静态图像合成为视频。

第二方面，本申请实施例提供一种视频生成装置，包括：光线信息获取模块，用于获取表征第一光线的第一信息；关键点信息获取模块，用于多次获取目标对象的多个第一关键点的第二信息，第二信息包括关键点的空间坐标和关键点的特征；关键点编码模块，用于根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征；图像获取模块，用于将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像，其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由第一信息和一个第一关键融合特征配对后输入NeLF模型；视频合成模块，用于将多个静态图像合成为视频。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上述第一方面中任一项方法的步骤。

第四方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行如上述第一方面中任一项方法的步骤。

在本发明实施例中，通过依次输入目标对象多个第一关键点的第二信息，使得在根据神经光场生成第一光线对应的静态图像时，每一张静态图像实际还与每次输入的不同关键点相关联。如此一来，虽然静态图像都对应于第一光线，但由于关键点的不同，每次生成的静态图像可以是不一样的，从而达到利用关键点来驱动静态图像“动起来”，再根据生成的静态图像来合成视频，不仅实现了3D视频合成，还能够让视频的生成与时间信息或时间参数解耦，此外，利用神经光场速度快的特性，还可以提高视频生成的速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频生成方法的举例示意图；

图2是本申请实施例提供的一种视频生成方法的流程示意图；

图3是本申请实施例提供的一种视频生成方法的关键点示意图；

图4是本申请实施例提供的一种视频生成方法的神经辐射场模型与神经光场模型对比示意图；

图5是本申请实施例提供的一种视频生成装置的结构示意图；

图6是本申请实施例提供的一种视频生成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

视频生成装置可以为手机、电脑、平板电脑、智能手表或车载设备等终端设备，也可以为终端设备中用于实现视频生成方法的模块，视频生成装置能够获取表征第一光线的第一信息，并多次获取目标对象的多个第一关键点的第二信息。其中，第二信息包括关键点的空间坐标和关键点的特征。视频生成装置能够根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征，然后将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像，其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由第一信息和一个第一关键融合特征配对后输入NeLF模型。视频生成装置还能够将多个静态图像合成为视频。

请一并参见图1，为本申请实施例提供了一种视频生成方法的举例示意图，图中示出的为合成目标对象3D视频的过程，在实际应用场景中，根据所需观看目标对象的视角可以得到一条光线，这光线或该视角并非必须实际存在，并且可以是在训练NeLF模型时所没有的视角，即可以是全新的视角，再根据目标对象的关键点信息驱动NeLF模型获得该光线对应的多张3D静态图片，而后根据多张静态图片合成3D视频。图1中的所需观看视角即为所需观看目标对象的视角。

下面结合具体的实施例对本申请提供的视频生成方法进行详细说明。

请参见图2，为本申请实施例提供了一种视频生成方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S10-S50。

S10，获取表征第一光线的第一信息。

S20，多次获取目标对象的多个第一关键点的第二信息。其中，第二信息包括关键点的空间坐标和关键点的特征。

S30，根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征。

S40，将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像。其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由第一信息和一个第一关键融合特征配对后输入NeLF模型。

S50，将多个静态图像合成为视频。

本实施例中，基于NeLF提出了一种视频生成方法，能够在不需要时间参数的情况下合成三维视频，并且具有较快的渲染速度。

在计算机视觉技术领域，NeLF和NeRF相同的功能相似，都可以用作3D的目标对象的渲染。NeRF的输入是场景中的一个点(例如，输入表征该点的空间坐标和该点所在视线的方向的参数)，对应的输出是该点的颜色RGB和不透明度，从而根据每个点的颜色和不透明度，就可以渲染出3D的目标对象。NeLF的输入是一条光线，对应的输出直接是该光线对应图片上像素值。对于3D图像重建来说，NeLF的优势非常明显，即速度快。要得到图片中一个像素的RGB只需要运行一次神经网络的计算，而NeRF则需要运行上百次神经网络的计算。此外，基于NeRF进行渲染时，由于每条光线上需要采样的点较多，且图片分辨率较高，因此渲染时速度较慢，由此我们提出了使用NeLF进行优化，通过NeLF直接得到光线的颜色等参数，利用NeLF的快速渲染的特点，实现高校的动态渲染。

以下将对各个步骤进行详细说明：

S10，获取表征第一光线的第一信息；

可选地，第一光线可以用根据视频观看视角得到的一条虚拟光线的向量表示，第一光线也可以用多个采样点表示，例如利用16个采样点以及相邻采样点直接的位置关系表示第一光线。例如，光线起始处确定方位视角后，得到一条射线(光线)，然后在光线上均匀采样获得多个采样点，并将多个采样点相连成向量，以此表征第一光线。又如，依旧沿用前例，在光线上均匀采样获得多个采样点后，得到多个采样点中相邻采样点之间的相对位置，不将多个采样点组合为向量，而是直接利用采样点的信息和采样点之间的相对位置关系信息来表征第一光线。

在步骤S10中，获取表征第一光线的第一信息。可选地，第一信息为表征第一光线的多个采样点的信息，或者，第一信息为表征第一光线的向量的信息。例如，第一信息为20个采样点的空间坐标和视角。又如，第一信息为向量的信息，该向量能够反映出第一光线在空间中的位置以及视角，比如该向量为第一光线上的至少两个采样点连接而成。

可以理解的，由于不同的NeLF的模型所需要的输入参数可能不同，故在本方案中的第一信息可根据实际使用的NeLF模型的输入参数而变化。

具体的，目标对象为所期望生成视频中对象，其可以是物体、人物、建筑等等。例如，需要生成一个人说话的视频，那么目标对象可以是该人头部、人的上半身、整个人体等。例如，目标对象为人的头部，则在说话的时候，人物的面部表情会发生变化，比如嘴唇会张开或者闭合、眉毛的位置变动、脸颊轮廓的变化等。可以在人物的面部设置多个第一关键点，获取人物面部的多个第一关键点，并跟踪人物在说话时这些关键点空间坐标的具体发生的变化，可以得到多个第一关键点的第二信息。例如，人物的面部可以设置数百个第一关键点，如400多个第一关键点。目标对象的第一关键点随着目标对象而变化，比如面部关键点、人体关键点、汽车的关键点等。

参照图3，图3为本申请实施例提供的一种视频生成方法的关键点示意图，图中黑色的点为该人物头部的关键点。可以理解的，关键点的数量可以根据目标对象来确定，通常来说，第一关键点的数量越多则生成视频的模拟动作精度越高。

需要说明的是，关键点的特征并不会发生改变，会发生改变的是关键点的空间坐标。本申请的实施例中的关键点的特征也可以理解为关键点的语义特征，其赋予关键点相应的语义，比如，嘴角的关键点的语义为嘴角，从而即使关键点随着表情在空间内发生位置变化，其依旧对应于相同的语义或特征。

具体的，步骤S30可以将第一光线和第一关键点关联或绑定，从而可以实现利用关键点来驱动NeLF。在步骤S30中，第一信息只需要获取一次，而第二信息则是多次获取到的，例如第二信息是不断的获取到的，每次获取到第二信息对应生成一个第一关键点融合特征，从而不断的得到第一关键点融合特征。

可选地，针对所述第一信息和每次获取的第二信息，从多个第一关键点中确定与第一光线相关联的至少一个第二关键点，对第一信息和至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征。本实施例中的注意力计算可采用现有的计算方法，在此不进行限定。

在第一信息为表征第一光线的多个采样点的信息时，可以根据多个采样点中的每个采样点与多个第一关键点的位置关系，从多个第一关键点中确定至少一个第二关键点。例如，假设有12个采样点和456个第一关键点，分别计算12个采样点中每个采样点与456个第一关键点的距离，确定距离小于或等于预设阈值的第一关键点为第二关键点。又如，除了距离，还可以进一步考虑采样点和第一关键点之间的方向角，比如，选定一参考面，计算出采样点、第一关键点和该参考面之间的夹角，夹角大于预设角度的第一关键点则确定为不是第二关键点。

在第一信息为表征第一光线的向量的信息时，可以根据向量与多个第一关键点的位置关系，从多个第一关键点中确定至少一个第二关键点。例如，计算每个第一关键点到向量的投影距离或者确定每个第一关键点到向量的垂直距离，确定投影距离或者垂直距离小于或等于预设阈值的第一关键点为第二关键点。类似地，除了距离，还可以进一步考虑向量上的点和第一关键点之间的方向角，比如，选定一参考面并确定该向量上与第一关键点最接近的点，计算出该点、第一关键点和该参考面之间的夹角，夹角大于预设角度的第一关键点则确定为不是第二关键点。

可选地，还可以通过设定关键点与采样点的对应关系，当需要从多个第一关键点中确定与第一采样点相关的至少一个第二关键点时，可以从对应的关系映射表得到。

本实施方式中，确定第二关键点可以减少与第一光线关联的关键点的数量，从而可以减少计算量、节省计算资源并加快处理速度。例如，眼睛附近的关键点驱动眼睛的运动，嘴巴附近的关键点驱动嘴巴的运动，眼睛附近的关键点不会驱动嘴巴运动。因此，需要从第一关键点中选取与第一采样点相关联的第二关键点，从而使得关键点驱动更加快速。

本实施例中，第一信息和第一关键点融合特征是NeLF模型的输入，已经训练好的NeLF模型可以根据第一信息和不同的第一关键点融合特征渲染出不同的三维图像。

本申请中的神经光场NeLF模型可采用现有的NeLF模型，但需要预先进行训练。例如，现有的NeLF模型训练时仅需要标注出第一信息和对应的图像，从而训练好的NeLF模型的输入为第一信息，输出为三维图像。本实施例中的NeLF模型在训练时，需要标注出第一信息和第一关键点融合特征以及对应的图像，从而训练好的NeLF模型的输入是第一信息和第一关键点融合特征两者。

参照图4，图4为本实施例提供的一种视频生成方法的神经辐射场模型与神经光场模型对比示意图，由图4说明神经辐射场在训练时的数据量是远大于神经光场的，神经辐射场需要针对一条光线上的N个采样点进行训练，而神经光场则是利用例如向量来表征一条光线，从而针对光线进行训练，因此训练的数据量是神经辐射场的N分之一，由于训练的数据量大幅度减少以及网络结构的不同，训练速度显著提升。

S50，将多个静态图像合成为视频。

具体的，将生成的静态图像作为视频中一帧的图像，将多个图像合成为视频。可以理解的，假设生成的视频为人物说话视频，则在预先训练的过程中，我们采集的数据是人物说话的视频，并进行帧采样，如FPS为60，并获取每一帧图像中关键点的空间坐标，生成对应的第二信息，然后对NeLF模型进行训练。在视频合成的过程中，执行上述步骤S10-S40可以持续的获得多个静态图像，从而利用多个静态图像就可以得到实时的动态视频。可以理解地，在视频合成的过程中，至少一个关键点的第二信息是被输入的，其可以采用现有的关键点提取方法获得。

下面将结合附图5，对本申请实施例提供的视频生成装置进行详细介绍。需要说明的是，附图5中的视频生成装置，用于执行本申请图2-图4所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图2-图4所示的实施例。

请参见图5，其示出了本申请一个示例性实施例提供的视频生成装置的结构示意图。该视频生成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括光线信息获取模块10、关键点信息获取模块20、关键点编码模块30、图像获取模块40和视频合成模块50。

光线信息获取模块10，用于获取表征第一光线的第一信息。

关键点信息获取模块20，用于多次获取目标对象的多个第一关键点的第二信息，第二信息包括关键点的空间坐标和关键点的特征。

关键点编码模块30，用于根据第一信息和多次获取的第二信息，分别生成对应于第一光线的多个第一关键点融合特征。

图像获取模块40，用于将第一信息与多个第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得目标对象的多个静态图像，其中，多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由第一信息和一个第一关键融合特征配对后输入NeLF模型。

视频合成模块50，用于将多个静态图像合成为视频。

可选地，关键点编码模块30针对第一信息和每次获取的第二信息，从多个第一关键点中确定与第一光线相关联的至少一个第二关键点；对第一信息和至少一个第二关键点的第二信息进行注意力计算，获取第一关键点融合特征。

可选地，第一信息为表征第一光线的多个采样点的信息；或者，第一信息为表征第一光线的向量的信息。

可选地，关键点编码模块30还用于根据多个采样点与多个第一关键点的位置关系，从多个第一关键点中确定与多个采样点相关联的至少一个第二关键点。

可选地，关键点编码模块30还用于根据向量与多个第一关键点的位置关系，从多个第一关键点中确定与多个采样点相关联的至少一个第二关键点。

可选地，关键点编码模块30还用于计算多个采样点中的每个采样点的空间坐标与多个第一关键点的空间坐标的距离；确定距离小于或等于预设阈值的至少一个第一关键点为至少一个第二关键点。

需要说明的是，上述实施例提供的视频生成装置在执行视频生成方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述图2-图4所示实施例的所述视频生成方法，具体执行过程可以参见图2-图4所示实施例的具体说明，在此不进行赘述。

请参考图6，其示出了本申请一个示例性实施例提供的视频生成设备的结构示意图。本申请中的视频生成设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个视频生成设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户页面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(RandomAccess Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(Non-Transitory Computer-Readable Storage Medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。

存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的视频生成设备的结构并不构成对视频生成设备的限定，视频生成设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，视频生成设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

在图6所示的视频生成设备中，处理器110可以用于调用存储器120中存储的计算机程序，并具体上述方法实施例中描述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种视频生成方法，其特征在于，包括：

获取表征第一光线的第一信息；

多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

根据所述第一信息和多次获取的所述第二信息，分别生成对应于所述第一光线的多个第一关键点融合特征；

将所述第一信息与多个所述第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由所述第一信息和一个第一关键融合特征配对后输入所述NeLF模型；

将所述多个静态图像合成为视频。
如权利要求1所述的方法，其特征在于，所述根据所述第一信息和多次获取的所述第二信息，分别生成对应于所述第一光线的多个第一关键点融合特征，包括：

针对所述第一信息和每次获取的第二信息，

从多个第一关键点中确定与所述第一光线相关联的至少一个第二关键点；

对所述第一信息和所述至少一个第二关键点的第二信息进行注意力计算，获取所述第一关键点融合特征。
如权利要求1或2所述的方法，其特征在于，所述获取表征第一光线的第一信息，包括：

所述第一信息为表征所述第一光线的多个采样点的信息；或者，

所述第一信息为表征所述第一光线的向量的信息。
如权利要求3所述的方法，其特征在于，在所述第一信息为表征所述第一光线的多个采样点的信息时，所述从多个第一关键点中确定与所述第一光线相关联的至少一个第二关键点，包括：

根据所述多个采样点与所述多个第一关键点的位置关系，从所述多个第一关键点中确定与所述多个采样点相关联的至少一个第二关键点。
如权利要求3所述的方法，其特征在于，在所述第一信息为表征所述第一光线的向量的信息时，所述从多个第一关键点中确定与所述第一光线相关联的至少一个第二关键点，包括：

根据所述向量与所述多个第一关键点的位置关系，从所述多个第一关键点中确定与所述多个采样点相关联的至少一个第二关键点。
如权利要求4所述的方法，其特征在于，从所述多个第一关键点中确定与所述多个采样点相关联的至少一个第二关键点，包括：

计算所述多个采样点中的每个采样点的空间坐标与多个第一关键点的空间坐标的距离；

确定所述距离小于或等于预设阈值的至少一个第一关键点为所述至少一个第二关键点。
如权利要求5所述的方法，其特征在于，从所述多个第一关键点中确定与所述向量相关联的至少一个第二关键点，包括：

计算所述向量与多个第一关键点的空间坐标的距离；

确定所述距离小于或等于预设阈值的至少一个第一关键点为所述至少一个第二关键点。
一种视频生成装置，其特征在于，包括：

光线信息获取模块，用于获取表征第一光线的第一信息；

关键点信息获取模块，用于多次获取目标对象的多个第一关键点的第二信息，所述第二信息包括关键点的空间坐标和关键点的特征；

关键点编码模块，用于根据所述第一信息和多次获取的所述第二信息，分别生成对应于所述第一光线的多个第一关键点融合特征；

图像获取模块，用于将所述第一信息与多个所述第一关键点融合特征，配对地多次输入预训练的神经光场NeLF模型，从而获得所述目标对象的多个静态图像，其中，所述多个静态图像的数量和多次获取第一关键点的第二信息的次数相等，每次由所述第一信息和一个第一关键融合特征配对后输入所述NeLF模型；

视频合成模块，用于将所述多个静态图像合成为视频。
一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至7中任一项所述方法的步骤。