WO2024055211A1

WO2024055211A1 - 基于NeRF多景层结合的三维视频重建方法及系统

Info

Publication number: WO2024055211A1
Application number: PCT/CN2022/118818
Authority: WO
Inventors: 张泽恒; 张岩
Original assignee: 北京原创力科技有限公司
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2024-03-21

Abstract

本发明提出了一种基于NeRF多景层结合的三维视频重建方法和系统，利用利用覆盖全场景的照片，通过静态NeRF建模多路同步视频中的第一帧，得到包括前景和背景的全局静态信息；然后根据其中隐含的体素密度信息标记出有人的区域；并将动态的人体NeRF模型，拼接到所选择的区域；最后通过统一的体积渲染，就可以获得静态背景加动态人物的自由视点3D视频。结合静态NeRF输出的深度信息，划分超远距离和中近距离mask，由此可仅基于中近距离mask对中近静态场景直接静态NeRF建模，以降低静态NeRF模型的运算量，提高渲染速度。

Description

基于NeRF多景层结合的三维视频重建方法及系统

技术领域

本发明涉及三维场景重建和三维视频编辑渲染技术领域，并特别涉及一种基于NeRF多景层结合的三维视频重建方法及系统。

背景技术

Neural Radiance Fields(NeRF)神经辐射场可以通过多视角的场景照片进行训练，学习空间中的场景的3D信息。训练好的NeRF可以输出空间中给定点的体素密度信息，以及给定点在某个范围内任意方向的颜色信息。基于NeRF的输出信息，配合体积渲染，可以渲染出任意视点的高清3D场景画面。

将人体先验信息和NeRF相结合的模型，可以从多个方向的同步的人物视频中，学习到动态的3D人体信息。该模型可用于渲染任意视点的人物动态视频。

但NeRF模型只能学习并渲染单个静态场景。对于动态场景，理论上可以架设多台相机同步录制视频，将多路同步视频的同一时刻的每一帧构成一个静态场景并训练对应的NeRF模型。这种方法的缺点是对于多路同步视频的每一帧都需要一个NeRF模型，一个时长3秒钟，帧率为30FPS的视频就需要90个NeRF模型，随着视频时长和帧率的增加，需要更多的计算资源，由于训练单个NeRF的计算资源成本比较高昂，对于长视频的训练和渲染都几乎是不可能的。

基于人体建模的改进版NeRF，可以通过人体姿态的先验信息，大大压缩3D视频的信息量，从而能够在可接受的时间范围内，重建基于人物的3D自由视点视频，但其3D场景建模仅限于人物本身，无法融合周边的环境。

此外，NeRF由于其渲染方式的独特性，目前与传统3D模型没有一个有效结合的方法，导致基于NeRF的3D视频可用的编辑素材被大大局限。

发明公开

针对现有技术的不足，本发明提出一种基于NeRF多景层结合的三维视频重建方法，其中包括：

步骤1、获取待三维重建的多路同步视频，提取该多路同步视频中特定帧作为当前帧；

步骤2、提取该当前帧的场景深度信息和体素密度信息，并根据该帧与其他若干帧的场景深度信息和体素密度信息等相关信息标记出该当前帧的动态区域和静态区域；

步骤3、通过静态NeRF模型提取该静态区域区的三维信息，通过含时间的动态NeRF模型提取该动态区域的三维信息；

步骤4、拼接该动态区域的三维信息、该静态区域的三维信息，得到该当前帧的完整信息；

步骤5、选择该多路同步视频中另一帧作为当前帧，再次执行该步骤2到该步骤4，并循环，直到提取到该多路同步视频所有帧的完整信息，

步骤6、通过体积渲染每一帧的该完整信息，得到静态背景加动态内容的自由视点三维视频，作为该多路同步视频的三维重建结果。

该动态NeRF模型的构建和训练过程包括：

获取指定场景下拍摄的训练用视频，及拍摄的该指定场景的真实照片，获取包括时空编码模块和多层感知模块的三维重建模型；

使用该时空编码模块将该训练用视频的一维时间信息通过频率编码映射到高维空间，得到频率编码结果；并使用该时空编码模块对该训练用视频进行多尺度多分辨率的三维空间特征编码，并将归一化后的三维空间特征编码结果与该频率编码结果进行拼接，得到时空编码特征；

将该时空编码特征输入该多层感知模块中，经过多层感知处理，分别输出三维空间中空间坐标的颜色和密度信息，以进行体积渲染，得到对应像素点的RGB三通道预测颜色，根据该预测颜色和该真实照片的颜色的均方差作为损失函数，训练该三维重建模型，得到该动态NeRF模型；

其中该三维重建模型的时空编码模块在运行时将频率编码结果和三维空间特征编码结果缓存到GPU，以加速图片渲染速度；训练该三维重建模型包括，对训练阶段三维空间中每个相邻体素的特征做差，再进行求和，得到全变分值L _TV，将L _TV的值加入到损失函数中进行优化，以抑制三维空间中出现伪影；该频率编码过程包括：利用高频函数将输入时间t映射到更高维空间：

f(t)＝(sin(2 ⁰πt),cos(2 ⁰πt),…,sin(2 ^L-1πt),cos(2 ^l-1πt))

式中L为编码等级。

所述的基于NeRF多景层结合的三维视频重建方法，其中该步骤1包括多路相机采集视频流并进行帧对齐，得到该多路同步视频；该步骤2包括采用该静态NeRF模型提取该场景深度信息和该体素密度信息，采取相邻若干帧的体素密度信息标记该动态区域和该静态区域；

该步骤3包括：获取基于人体姿态的先验信息，重建基于人体3D自由视点视频帧的人体NeRF模型，将时间依赖加入该人体NeRF模型，得到具有时空依赖的人体NeRF模型，基于多路同步视频训练该具有时空依赖的人体NeRF模型，得到该动态NeRF模型。

所述的基于NeRF多景层结合的三维视频重建方法，其中该步骤4包括获取待加入视频帧的3D模型，根据该3D模型的几何表面材质，提取该3D模型的体素密度和给定方向的颜色信息，并将该3D模型的体素密度和给定方向的颜色信息融合到静态NeRF模型中进行统一渲染，以将该3D模型渲染至该完整信息。

所述的基于NeRF多景层结合的三维视频重建方法，其中

该步骤2包括根据该场景深度信息与该体素密度信息标记出该当前帧静态区域的近景区和背景区；

该步骤3包括通过一般静态NeRF模型提取该静态近景区域区的三维信息，而通过专门的背景模型提取该远景区三维信息，二者结合为该静态区域的三维信息；

该背景模型为背景NeRF模型，用于将无限延伸的欧式空间，通过连续坐标变换压缩到有限区域，从而在有限的资源下表示无限的距离，模型在更远距离精度更低；或

该背景模型，为背景3D模型，用于重建时从对应像素点产生对应模型贴图。

本发明还提出了一种基于NeRF多景层结合的三维视频重建系统，其中包括：

初始模块，用于获取待三维重建的多路同步视频，提取该多路同步视频中特定帧作为当前帧；

提取模块，用于提取该当前帧的场景深度信息和体素密度信息，并根据该帧与其他若干帧的场景深度信息和体素密度信息等相关信息标记出该当前帧的动态区域和静态区域；

拼接模块，通过静态NeRF模型提取该静态区域区的三维信息，通过含时间的动态NeRF模型提取该动态区域的三维信息，并拼接该动态区域的三维信息、该静态区域的三维信息，得到该当前帧的完整信息；

循环模块，选择该多路同步视频中另一帧作为当前帧，再次执行该提取模块和该拼接模块，并循环，直到提取到该多路同步视频所有帧的完整信息，

渲染模块，通过体积渲染每一帧的该完整信息，得到静态背景加动态人物的自由视点三维视频，作为该多路同步视频的三维重建结果。

所述的基于NeRF多景层结合的三维视频重建系统，其中

该初始模块用于多路相机采集视频流并进行帧对齐，得到该多路同步视频；

该提取模块用于采用该静态NeRF模型提取该场景深度信息和该体素密度信息，采取相邻若干帧的体素密度信息标记该动态区域和该静态区域；

该拼接模块用于获取基于人体姿态的先验信息，重建基于人体3D自由视点视频帧的人体NeRF模型，将时间依赖加入该人体NeRF模型，得到具有时空依赖的人体NeRF模型，基于多路同步视频训练该具有时空依赖的人体NeRF模型，得到该动态NeRF模型。

所述的基于NeRF多景层结合的三维视频重建系统，其中该拼接模块用于获取待加入视频帧的3D模型，根据该3D模型的几何表面材质，提取该3D模型的体素密度和给定方向的颜色信息，并将该3D模型的体素密度和给定方向的颜色信息融合到静态NeRF模型中进行统一渲染，以将该3D模型渲染至该完整信息。

所述的基于NeRF多景层结合的三维视频重建系统，其中

该提取模块包括根据该场景深度信息与该体素密度信息标记出该当前帧静态区域的近景区和背景区；

该拼接模块包括通过一般静态NeRF模型提取该静态近景区域区的三维信息，而通过专门的背景模型提取该远景区三维信息，二者结合为该静态区域的三维信息；

该背景模型为背景3D模型，用于重建时从对应像素点产生对应模型贴图。

本发明还提出了一种存储介质，用于存储执行所述任意一种基于NeRF多景层结合的三维视频重建方法的程序。

本发明还提出了一种客户端，用于所述任意一种基于NeRF多景层结合的三维视频重建系统。

由以上方案可知，本发明的优点在于：本发明将动态3D场景的渲染分为了动态，静态两部分，由于现实中场景大部分为静态部分，将静态部分分离出来可以大幅度降低存储，渲染等所消耗的计算资源，提高渲染速度；此外将整个场景分割成可单独编辑的若干部分，拥有更好的可编辑性。

附图简要说明

图1为本发明的系统结构图；

图2为本发明实施例对应的各步骤效果示意图；

图3是本发明优选采用的动态模型的整体框架图。

实现本发明的最佳方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

受限于计算资源，使用NeRF无法对通用动态场景进行建模。但是很多的动态场景中，其实只有人在一个较大的静态场景中运动。对于这种动态场景，可以采取静态的背景的NeRF模型与动态的人体NeRF模型进行融合渲染。

如图1所示。首先，利用覆盖全场景的照片，通过静态NeRF建模多路同步视频中的第一帧，得到包括前景和背景的全局静态信息；然后根据其中隐含的体素密度信息标记出有人的区域；并将动态的人体NeRF模型，拼接到所选择的区域；最后通过二者的输出合并的统一渲染，就可以获得静态背景加动态人物的自由视点3D视频。结合静态NeRF输出的深度信息，划分超远距离和中近距离mask，由此可仅基于中近距离mask对中近静态场景直接静态NeRF建模，以降低静态NeRF模型的运算量，提高渲染速度。

对于小区域中的动态物体，也可以建立小范围动态NeRF模型。由于模型较小，计算资源的消耗是可控的。这个小范围的动态NeRF模型，可以通过相似的融合方法，结合到NeRF背景中去。

背景NeRF模型中还能融入传统的3D模型，从而给基于NeRF的3D视频更多可编辑的素材。具体来说，只需让传统3D模型反馈体积渲染所需要的输入信息，就可以进行统一渲染。体积渲染所需的信息是给定点的体素密度和该点上给定方向的颜色信息，而体素密度信息原则上可以从传统3D模型的几何信息中获取，颜色信息原则上可以从其表面的纹理和材质信息获取。

基于超远距离的mask，超远距离静态背景的建模可以通过两种方式实现。第一种实现方法是简单的贴图。由于对于超远距离的场景，人是没法感知3D信息的，贴图也可以实现较为真实的效果。另一种也是通过NeRF建模实现，将本应延伸至无穷远的空间，通过连续坐标变换压缩到有限区域，利用静态的NeRF模型对这有限区域进行渲染。

如图2所示，本发明方法包括：

步骤S1、多路相机采集视频流并进行帧对齐；

步骤S2、使用NeRF模型针对每路相机视频流第一帧进行训练渲染，得到第一帧场景深度图；

步骤S3、根据第一帧场景深度图划分超远距离背景mask和中近景mask；

步骤S4、对每一帧重复步骤S2-S3，得到超远距离背景mask和包含动态部分的中近景场景mask；

步骤S5、利用超远距离背景mask获得图像中对应像素区域，得到超远距离背景贴图，或者利用坐标变换得到超远距离的NeRF静态建模，作为场景的超远距离部分；

步骤S6、利用中近景mask获得图像中对应像素区域，通过NeRF建模中近距离的静态背景信息，作为场景的中近距离静止部分；然后根据其中隐含的体素密度信息，标记出没有物体的区域；

步骤S7、利用S6给出的存在动态的区域，在该区域训练动态NeRF模型；或者也可利用另外提供的动态的人体NeRF模型，拼接到所选择的区域，作为场景的动态部分一；

步骤S8、从传统3D模型的几何和表面材质中获取体素密度和颜色信息，融合到NeRF模型中进行统一渲染，作为场景的动态部分二；

步骤S9、最后将各部分场景通过统一的体积渲染，就可以获得静态背景加动态人物的自由视点3D视频；

综上所述，可以通过，超远距离重建、中近距离静态重建、动态人物重建、传统3D模型导入相结合，将场景统一到体积渲染的框架中，来实现高效、实时、可编辑的3D视频生产。

下面结合图2以一个示例来展示此过程：

如图2(S1)、对于左侧多路视频，其中人物发生移动，采集了帧对齐的多路视频流，其中场景为小人，背景和平台，前方有三台示意摄像机，小人头上有旋转标志表明小人是动态场景；

如图2(S2)、对于第一帧，利用Nerf模型进行训练，得到右侧深度信息；

如图2(S3)、利用深度信息划分右侧超远距离背景mask和左侧中近景mask；

如图2(S4)、对每一帧重复步骤S2-S3，得到右侧超远距离背景mask和左侧包含动态部分的中近景场景mask；

如图2(S5)、利用超远距离mask和多帧信息，通过步骤S5的操作，得到超远距离建模作为场景的超远距离部分；

如图2(S6)、利用中近距离mask和多帧信息中静态部分信息，得到中近距离静止场景的建模，同时给出静止部分区域和没有物品区域；

如图2(S7)、利用存在动态部分区域训练动态NeRF模型，或者利用另外提供的动态NeRF模型，拼接到选择区域，作为场景的动态部分一；

如图2(S8)、利用传统的3D动态模型获取提密度和颜色信息，融合到NeRF模型中，作为场景的动态部分二；

如图2(S9)、最后将各部分场景通过统一的体积渲染，就可以获得静态背景加动态人物加额外场景的自由视点3D视频。

同时本发明还提出一种动态NeRF模型，基于多尺度动态三维场景编码方式，从而减少MLP的层数，增加了模型的训练和推理速度。图3是模型的整体框架图，下面我将就方法每个模块进行细致的介绍：

首先是时空编码模块，对于时间的编码，不同于直接输入视频帧的时间序列，我们将一维的时间信息进行频率编码，映射到高维的空间，以此来增加模型对时间的表达能力。其中利用高频函数将输入时间t映射到更高维空间可以更好地拟合包含高频变化的数据。具体函数形式为：

f(t)＝(sin ⁽2 ⁰πt ⁾,cos ⁽2 ⁰πt ⁾,…,sin ⁽2 ^L-1πt ⁾,cos(2 ^l-1πt))

式中L为编码等级。

对于要重建的三维场景，我们首先确定场景的空间范围，一般为长方体(长宽高)，将空间的中心设置为(0，0，0)，其他位置用三维笛卡尔坐标系来表示(x，y，z)。对于三维空间的编码，采取的多尺度多分辨率特征编码，对于空间中(x，y，z)位置的特征，将对每个尺度和分辨率下的特征进行三维线性插值，得到的特征和其他尺度下的特征进行拼接，同时再和时间的编码特征进行拼接，得到时空编码的最终特征表示。三维体积视频中的每个体素都有多达4个自由度(x,y,z,t)的变化，本发明采用上述时空编码方式来提高经过时空编码后特征的表达能力。由于多尺度空间编码提升模型的表达能力，这里的MLP层数将比原始NeRF大幅减少，经过3层MLP之后，分别输出对应空间坐标的颜色和密度信息。

模型在训练过程中，我们将对应视角下空间的颜色和密度信息进行体积渲染，得到对应像素点的RGB三通道预测颜色，然后和真实照片的颜色的均方差作为损失函数进行训练。由于我们建模的时空编码模块和多层感知模块都是可微分的，所以可以使用梯度下降的方法进行网络的训练。在推理阶段，我们可以把时空编码的特征信息缓存到GPU上，这样就可以加速图片渲染速度。

全变分正则化(TV Total Variation Regularization)：全变分模型是一个依靠梯度下降流对图像进行平滑的各向异性的模型，希望在图像内部尽可能对图像进行平滑(相邻像素的差值较小)，在本发明中，对训练阶段三维空间中的每个相邻体素的特征值做差，再进行求和，得到全变分值L _TV，将L _TV的值加入到损失函数中进行优化，这样就能有效的抑制空间中伪影的出现。

模型的损失函数形式为：L _total＝L _c+γL _TV。其中γ为全变分损失的权重。因为L _TV和L _c在都是可微的，所以利用梯度下降技术进行反向传播来优化，达到去除空间中噪点的目的。

工业应用性

本发明利用利用覆盖全场景的照片，通过静态NeRF建模多路同步视频中的第一帧，得到包括前景和背景的全局静态信息；然后根据其中隐含的体素密度信息标记出有人的区域；并将动态的人体NeRF模型，拼接到所选择的区域；最后通过统一的体积渲染，就可以获得静态背景加动态人物的自由视点3D视频。结合静态NeRF输出的深度信息，划分超远距离和中近距离mask，由此可仅基于中近距离mask对中近静态场景直接静态NeRF建模，以降低静态NeRF模型的运算量，提高渲染速度；利用静态和动态NeRF结合的方法，降低了动态NeRF模型的范围，降低了模型大小，提高渲染速度；此外将整个场景分割成可单独编辑的若干部分，拥有更好的可编辑性。

Claims

一种基于NeRF多景层结合的三维视频重建方法，其特征在于，包括：

步骤1、获取待三维重建的多路同步视频，提取该多路同步视频中特定帧作为当前帧；

步骤2、提取该当前帧的场景深度信息和体素密度信息，并根据该帧与其他若干帧的场景深度信息和体素密度信息等相关信息标记出该当前帧的动态区域和静态区域；

步骤3、通过静态NeRF模型提取该静态区域区的三维信息，通过含时间的动态NeRF模型提取该动态区域的三维信息；

步骤4、拼接该动态区域的三维信息、该静态区域的三维信息，得到该当前帧的完整信息；

步骤5、选择该多路同步视频中另一帧作为当前帧，再次执行该步骤2到该步骤4，并循环，直到提取到该多路同步视频所有帧的完整信息，

步骤6、通过体积渲染每一帧的该完整信息，得到静态背景加动态内容的自由视点三维视频，作为该多路同步视频的三维重建结果。
如权利要求1所述的基于NeRF多景层结合的三维视频重建方法，其特征在于，该步骤1包括多路相机采集视频流并进行帧对齐，得到该多路同步视频；该步骤2包括采用该静态NeRF模型提取该场景深度信息和该体素密度信息，采取相邻若干帧的体素密度信息标记该动态区域和该静态区域；

该步骤3包括：获取基于人体姿态的先验信息，重建基于人体3D自由视点视频帧的人体NeRF模型，将时间依赖加入该人体NeRF模型，得到具有时空依赖的人体NeRF模型，基于多路同步视频训练该具有时空依赖的人体NeRF模型，得到该动态NeRF模型。
如权利要求1所述的基于NeRF多景层结合的三维视频重建方法，其特征在于，该步骤4包括获取待加入视频帧的3D模型，根据该3D模型的几何表面材质，提取该3D模型的体素密度和给定方向的颜色信息，并将该3D模型的体素密度和给定方向的颜色信息融合到静态NeRF模型中进行统一渲染，以将该3D模型渲染至该完整信息。
如权利要求1所述的基于NeRF多景层结合的三维视频重建方法，其特征在于，

该步骤2包括根据该场景深度信息与该体素密度信息标记出该当前帧静态区域的近景区和背景区；

该步骤3包括通过一般静态NeRF模型提取该静态近景区域区的三维信息，而通过专门的背景模型提取该远景区三维信息，二者结合为该静态区域的三维信息；

该背景模型为背景NeRF模型，用于将无限延伸的欧式空间，通过连续坐标变换压缩到有限区域，从而在有限的资源下表示无限的距离，模型在更远距离精度更低；或

该背景模型，为背景3D模型，用于重建时从对应像素点产生对应模型贴图。
一种基于NeRF多景层结合的三维视频重建系统，其特征在于，包括：

初始模块，用于获取待三维重建的多路同步视频，提取该多路同步视频中特定帧作为当前帧；

提取模块，用于提取该当前帧的场景深度信息和体素密度信息，并根据该帧与其他若干帧的场景深度信息和体素密度信息等相关信息标记出该当前帧的动态区域和静态区域；

拼接模块，通过静态NeRF模型提取该静态区域区的三维信息，通过含时间的动态NeRF模型提取该动态区域的三维信息，并拼接该动态区域的三维信息、该静态区域的三维信息，得到该当前帧的完整信息；

循环模块，选择该多路同步视频中另一帧作为当前帧，再次执行该提取模块和该拼接模块，并循环，直到提取到该多路同步视频所有帧的完整信息，

渲染模块，通过体积渲染每一帧的该完整信息，得到静态背景加动态人物的自由视点三维视频，作为该多路同步视频的三维重建结果。
如权利要求5所述的基于NeRF多景层结合的三维视频重建系统，其特征在于，

该初始模块用于多路相机采集视频流并进行帧对齐，得到该多路同步视频；

该提取模块用于采用该静态NeRF模型提取该场景深度信息和该体素密度信息，采取相邻若干帧的体素密度信息标记该动态区域和该静态区域；

该拼接模块用于获取基于人体姿态的先验信息，重建基于人体3D自由视点视频帧的人体NeRF模型，将时间依赖加入该人体NeRF模型，得到具有时空依赖的人体NeRF模型，基于多路同步视频训练该具有时空依赖的人体NeRF模型，得到该动态NeRF模型。
如权利要求5所述的基于NeRF多景层结合的三维视频重建系统，其特征在于，该拼接模块用于获取待加入视频帧的3D模型，根据该3D模型的几何表面材质，提取该3D模型的体素密度和给定方向的颜色信息，并将该3D模型的体素密度和给定方向的颜色信息融合到静态NeRF模型中进行统一渲染，以将该3D模型渲染至该完整信息。
如权利要求5所述的基于NeRF多景层结合的三维视频重建系统，其特征在于，

该提取模块包括根据该场景深度信息与该体素密度信息标记出该当前帧静态区域的近景区和背景区；

该拼接模块包括通过一般静态NeRF模型提取该静态近景区域区的三维信息，而通过专门的背景模型提取该远景区三维信息，二者结合为该静态区域的三维信息；

该背景模型为背景NeRF模型，用于将无限延伸的欧式空间，通过连续坐标变换压缩到有限区域，从而在有限的资源下表示无限的距离，模型在更远距离精度更低；或

该背景模型为背景3D模型，用于重建时从对应像素点产生对应模型贴图。
一种存储介质，用于存储执行如权利要求1到4所述任意一种基于NeRF多景层结合的三维视频重建方法的程序。
一种客户端，用于权利要求5至8中任意一种基于NeRF多景层结合的三维视频重建系统。