WO2024007182A1

WO2024007182A1 - 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统

Info

Publication number: WO2024007182A1
Application number: PCT/CN2022/104048
Authority: WO
Inventors: 许杭锟; 张岩; 李兆涵; 李阮存
Original assignee: 北京原创力科技有限公司
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2024-01-11

Abstract

本发明提出了一种静态NeRF模型与动态NeRF模型融合的视频渲染方法和系统，包括：在训练用视频的采样射线上选取多个采样点，训练静态NeRF；并基于训练完成的静态NeRF提取的静态体积密度和颜色信息，结合时间信息，训练动态NeRF，获得采样点的动态体积密度和颜色信息；将动态体积密度和静态体积密度相加后输入激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色信息相加后输入激活函数网络层，得到最终颜色信息；将待渲染的参数输入静态NeRF和动态NeRF，得到采样点的体积密度和颜色信息，结合体积渲染，得到单帧图片渲染结果，结合所有单帧图片渲染结果生成视频渲染结果。本发明的采用静态NeRF模型与动态NeRF模型相互结合，加快了视频渲染速度。

Description

静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统

技术领域

本发明涉及三维场景重建和三维视频编辑渲染技术领域，并特别涉及一种静态NeRF模型与动态NeRF模型融合的方法及系统。

背景技术

基于静态场景的多路RGB图片输入，神经辐射场(Neural Radiance Fields，NeRF)可以重建该静态场景的3D模型。基于NeRF可以生成全新视角下的图片，而且成像质量是照片级别。

基于动态场景的多路RGB视频输入，一些加入了时间信息的动态NeRF可以重建动态场景的3D模型。基于动态的NeRF，可以在任意的视角和时间，渲染出图片。

但是目前在很多动态场景中，很大的一部分物体或者背景都是静态的，而只有一小部分物体是动态的。动态NeRF不对此做区分，导致必须使用较大的模型重建整个场景。而训练较大的动态NeRF需要过多的计算资源。

发明公开

针对现有技术的不足，本发明提出一种静态NeRF模型与动态NeRF模型融合的视频渲染方法，其中包括：

步骤1、获取指定场景下拍摄的训练用视频，构建包括静态NeRF、动态NeRF和激活函数网络层的视频渲染模型；

步骤2、将该训练用视频的视频帧的光心与该视频帧中指定像素点相连，得到采样射线，在该采样射线上选取多个采样点，输入静态NeRF，获得采样点上的体积密度和颜色信息，基于采样点的位置、体积密度和颜色信息进行体积渲染，得到给定像素点的渲染颜色，根据该渲染颜色与实际颜色间的差别，构建损失函数，训练该静态NeRF；

步骤3、在采样射线上采一定数量的点输入训练完成的静态NeRF，获得采样点上的静态体积密度和静态颜色信息；将采样射线上的采样点结合时间信息，输入该动态NeRF，获得采样点的动态体积密度和动态颜色信息；将动态体积密度和静态体积密度相加后输入该激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色信息相加后输入该激活函数网络层，得到最终颜色信息；基于采样点的位置、最终体积密度和最终颜色信息进行体积渲染，得到给定像素点的最终颜色，根据该最终颜色与实际颜色间的差别，构建损失函数，训练该动态NeRF；

步骤4、根据待渲染的相机参数、相机外参和时间段，计算该时间段中每一特定时间点对应的待渲染像素的采样射线，选取采样点输入训练完成的视频渲染模型，得到所有采样点的体积密度和颜色信息，结合体积渲染，得到全部给定像素点的颜色作为该特定时间点的单帧图片渲染结果，结合所有该特定时间点的单帧图片渲染结果生成视频渲染结果。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其中根据相机的内参和外参，得到该光心。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其中该内参为相机的焦距，像素点尺寸，该外参为在选取的坐标系，摄像机所处的位置和朝向。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其中该训练用视频为经过帧同步后的多路视频。

本发明还提出了一种静态NeRF模型与动态NeRF模型融合的视频渲染系统，其中包括：

初始模块，用于获取指定场景下拍摄的训练用视频，构建包括静态NeRF、动态NeRF和激活函数网络层的视频渲染模型；

静态NeRF训练模块，用于将该训练用视频的视频帧的光心与该视频帧中指定像素点相连，得到采样射线，在该采样射线上选取多个采样点，输入静态NeRF，获得采样点上的体积密度和颜色信息，基于采样点的位置、体积密度和颜色信息进行体积渲染，得到给定像素点的渲染颜色，根据该渲染颜色与实际颜色间的差别，构建损失函数，训练该静态NeRF；

动态NeRF训练模块，用于在采样射线上采一定数量的点输入训练完成的静态NeRF，获得采样点上的静态体积密度和静态颜色信息；将采样射线上的采样点结合时间信息，输入该动态NeRF，获得采样点的动态体积密度和动态颜色信息；将动态体积密度和静态体积密度相加后输入该激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色信息相加后输入该激活函数网络层，得到最终颜色信息；基于采样点的位置、最终体积密度和最终颜色信息进行体积渲染，得到给定像素点的最终颜色，根据该最终颜色与实际颜色间的差别，构建损失函数，训练该动态NeRF；

渲染模块，用于根据待渲染的相机参数、相机外参和时间段，计算该时间段中每一特定时间点对应的待渲染像素的采样射线，选取采样点输入训练完成的视频渲染模型，得到所有采样点的体积密度和颜色信息，结合体积渲染，得到全部给定像素点的颜色作为该特定时间点的单帧图片渲染结果，结合所有该特定时间点的单帧图片渲染结果生成视频渲染结果。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其中根据相机的内参和外参，得到该光心。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其中该内参为相机的焦距，像素点尺寸，该外参为在选取的坐标系，摄像机所处的位置和朝向。

所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其中该训练用视频为经过帧同步后的多路视频。

本发明还提出了一种存储介质，用于存储执行所述任意一种静态NeRF模型与动态NeRF模型融合的视频渲染方法的程序。

本发明还提出了一种客户端，用于所述任意一种静态NeRF模型与动态NeRF模型融合的视频渲染系统。

由以上方案可知，本发明的优点在于：

1、静态NeRF不含时间的信息，模型容量可以减小很多，而不损失场景中静态部分的渲染效果。

2、由于静态NeRF对于场景中静态部分已经进行了很好的重建，动态NeRF在这些区域输出的体积密度特征和颜色特征十分接近0，因此大大减小了动态NeRF所需表达的信息，动态NeRF的模型容量也可以大大减小。

3、由于静态NeRF和动态NeRF的容量减小，总的模型的推理时间大大减小，加快了渲染速度。

4、动态NeRF在场景中的静态区域的体积密度特征和颜色特征十分接近 0。基于此，渲染过程中，动态NeRF在这些区域是无需推理的，进一步加快了推理速度。

附图简要说明

图1为静态NeRF与动态NeRF的结合方式示意图；

图2为本申请整体流程图；

图3为NeRF模型推理以及训练示意图；

图4为实施例的拍摄场景示意图。

实现本发明的最佳方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明整体模型结构图如图1所示，图中(x,y,z)为位置的三维坐标，t为时间，σ为体积密度，rgb为图像的颜色三通道的值。而σ _h和rgb _h是与σ和rgb对应的特征向量。本发明步骤包括：

训练静态NeRF，如图3所示，图中时间t到模型的连线为虚线，表示静态NeRF训练不需要时间输入，只有动态NeRF需要时间输入。对于输入图片，首先随机选取一定数量的像素点。根据对应摄像机的内参和外参可以得到图片的光心。由光心出发，与给定像素点连线可得一根采样射线。在射线上采一定数量的点，输入静态NeRF模型，获得采样点上的体积密度和颜色rgb信息。将该采样射线上所有的采样点的位置，体积密度和颜色rgb信息输入到体积渲染模块中，就可以获得给定像素点的渲染颜色rgb。计算渲染颜色rgb与真实的拍摄rgb信息之间的差别，并且优化这个差别，就可以得到静态NeRF模型。

在训练静态NeRF的过程中，并没有利用到时间信息。即对于同一个摄像机的所有帧，其相同像素点射出的射线，采样点，静态NeRF的输出和体积渲染的结果都是相同的。在该摄像机拍摄到的静态区域，所有帧的相同像素点的颜色信息是一致的，静态NeRF在这些区域能够很好收敛，获得很好的效果。在该摄像机拍摄到的动态区域，由于不同帧之间颜色信息是不同的，静态NeRF在这里无法获得很好的收敛。从结果上看，静态NeRF对动态区域的渲染是模糊的。

训练动态NeRF模型。在利用模型进行推理过程中，静态NeRF输出体积密度特征与动态NeRF输出的体积密度特征相加，再经过激活函数得到体积密度。在利用模型进行推理过程中，静态NeRF输出颜色(RGB)特征与动态NeRF输出的颜色(RGB)特征相加，再经过激活函数得到颜色(RGB)。训练过程中，静态NeRF的参数保持不变，只训练动态NeRF的参数。也就是说，动态NeRF只需补偿静态NeRF表达不清晰的区域。

分拆静态NeRF和动态NeRF，加速渲染。由于静态NeRF对于场景中的静态部分已经有良好建模，对静态区域已经可以充分表达。比如空间中静态的某一点的体积密度是1，已经很好地和真实情况吻合，假设此处真实的是体积密度是1.01.此时加入动态模型，在训练的过程中，此处的动态模型只需要收敛0.01，所以动态NeRF在这些静态区域的补偿接近为0。由此我们可以把动态NeRF输出的体积密度和颜色特征的模小于某个阈值的区域划分为静态区域，其他的为动态区域。在渲染过程中，对于静态区域，动态NeRF将不做推理，完全由静态NeRF进行渲染，提升了渲染速度。

以图4的拍摄环境举例来说，本发明步骤包括：

(1)视频采集。如图4所示，采用一个摄像机整列拍摄一个跳舞的人。摄像机阵列之间是帧同步的。

(2)获取摄像机的内参和外参。内参指的是摄像机的焦距，像素点大小等参数。外参指的是相对于选取的某个坐标系，摄像机所处的位置和朝向。我们抽取相同时间下，所有摄像机整列的某一帧输入colmap开源软件包，既可以计算得到所有摄像机的内参和外参。

(3)训练静态NeRF。对于输入图片，首先随机选取一定数量的像素点。根据对应摄像机的内参和外参我们可以得到光心。由光心出发，与给定像素点连线可得一根采样射线。在射线上采一定数量的点，输入静态NeRF模型，获得采样点上的体积密度和颜色rgb信息。将该采样射线上所有的采样点的位置，体积密度和颜色rgb信息输入到体积渲染模块中，就可以获得给定像素点的渲染颜色rgb。计算渲染颜色rgb与真实的拍摄rgb信息之间的差别，并且优化这个差别，就可以得到静态NeRF模型。真实的拍摄rgb信息来源为该输入图片中与给定像素点相对应的像素的色彩。

(4)训练动态NeRF。对于输入图片，首先随机选取一定数量的像素点。根据对应摄像机的内参和外参我们可以得到光心。由光心出发，与给定像素点连线可得一根采样射线。在射线上采一定数量的点，输入静态NeRF模型，获得采样点上的没有经过激活函数的体积密度和颜色rgb信息。在射线上采一定数量的点，结合时间信息，输入动态NeRF模型，获得采样点上的没有经过激活函数的体积密度和颜色rgb信息。将动态NeRF和静态NeRF得到的没有经过激活函数的体积密度和颜色rgb信息相加并输入最后的激活函数网络层，得到最终的体积密度和颜色rgb信息。将该采样射线上所有的采样点的位置，体积密度和颜色rgb信息输入到体积渲染模块中，就可以获得给定像素点的渲染颜色rgb。计算渲染颜色rgb与真实的拍摄rgb信息之间的差别。优化这个差别，且在优化的过程中固定静态NeRF参数就可以得到动态NeRF模型。

(5)利用训练好的模型进行渲染。给定需要渲染的相机内参，相机外参，和时间，计算要渲染的像素的射线，选取采样点，输入静态NeRF和动态NeRF,得到各个采样点的体积密度和颜色rgb信息，结合体积渲染，得到给定像素点获得的颜色rgb信息。将所有像素点合成图片就完成了给定时间，给定视角下的渲染。对于某个时间段内，根据外参(例如相机位置和朝向)，在时间上采样，渲染出特定时间的视角的图片，并且结合所有图片生成视频。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

工业应用性

本发明提出了一种静态NeRF模型与动态NeRF模型融合的视频渲染方法和系统，包括：将训练用视频的视频帧的光心与视频帧中指定像素点相连，得到采样射线，在采样射线上选取多个采样点，训练静态NeRF；并基于训练完成的静态NeRF提取的获得采样点的静态体积密度和静态颜色信息，结合时间信息，训练动态NeRF，获得采样点的动态体积密度和动态颜色信息；将动态体积密度和静态体积密度相加后输入激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色信息相加后输入激活函数网络层，得到最终颜色信息；将待渲染的参数输入静态NeRF和动态NeRF，得到采样点的体积密度和颜色信息，结合体积渲染，得到全部给定像素点的颜色作为特定时间点的单帧图片渲染结果，结合所有特定时间点的单帧图片渲染结果生成视频渲染结果。本发明的采用静态NeRF不含时间的信息，模型体积小，且不损失场景中静态部分的渲染效果。动态NeRF在场景中的静态区域的体积密度特征和颜色特征十分接近0，因此渲染过程中，动态NeRF在体积密度特征和颜色特征近0的区域无需推理的，进一步加快了推理速度。

Claims

一种静态NeRF模型与动态NeRF模型融合的视频渲染方法，其特征在于，包括：

步骤1、获取指定场景下拍摄的训练用视频，构建包括静态NeRF、动态NeRF和激活函数网络层的视频渲染模型；

步骤2、将该训练用视频的视频帧的光心与该视频帧中指定像素点相连，得到采样射线，在该采样射线上选取多个采样点，输入静态NeRF，获得采样点上的体积密度和颜色信息，基于采样点的位置、体积密度和颜色信息进行体积渲染，得到给定像素点的渲染颜色，根据该渲染颜色与实际颜色间的差别，构建损失函数，训练该静态NeRF；

步骤3、在采样射线上采一定数量的点输入训练完成的静态NeRF，获得采样点上的静态体积密度和静态颜色信息；将采样射线上的采样点结合时间信息，输入该动态NeRF，获得采样点的动态体积密度和动态颜色信息；将动态体积密度和静态体积密度的特征相加后输入该激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色特征相加后输入该激活函数网络层，得到最终颜色信息；基于采样点的位置、最终体积密度和最终颜色信息进行体积渲染，得到给定像素点的最终颜色，根据该最终颜色与实际颜色间的差别，构建损失函数，训练该动态NeRF；

步骤4、根据待渲染的相机参数、相机外参和时间段，计算该时间段中每一特定时间点对应的待渲染像素的采样射线，选取采样点输入训练完成的视频渲染模型，得到所有采样点的体积密度和颜色信息，结合体积渲染，得到全部给定像素点的颜色作为该特定时间点的单帧图片渲染结果，结合所有该特定时间点的单帧图片渲染结果生成视频渲染结果。
如权利要求1所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其特征在于，根据相机的内参和外参，得到该光心。
如权利要求1所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其特征在于，该内参为相机的焦距，像素点尺寸，该外参为在选取的坐标系，摄像机所处的位置和朝向。
如权利要求1所述的静态NeRF模型与动态NeRF模型融合的视频渲染方法，其特征在于，该训练用视频为经过帧同步后的多路视频。
一种静态NeRF模型与动态NeRF模型融合的视频渲染系统，其特征在于，包括：

初始模块，用于获取指定场景下拍摄的训练用视频，构建包括静态NeRF、动态NeRF和激活函数网络层的视频渲染模型；

静态NeRF训练模块，用于将该训练用视频的视频帧的光心与该视频帧中指定像素点相连，得到采样射线，在该采样射线上选取多个采样点，输入静态NeRF，获得采样点上的体积密度和颜色信息，基于采样点的位置、体积密度和颜色信息进行体积渲染，得到给定像素点的渲染颜色，根据该渲染颜色与实际颜色间的差别，构建损失函数，训练该静态NeRF；

动态NeRF训练模块，用于在采样射线上采一定数量的点输入训练完成的静态NeRF，获得采样点上的静态体积密度和静态颜色信息；将采样射线上的采样点结合时间信息，输入该动态NeRF，获得采样点的动态体积密度和动态颜色信息；将动态体积密度和静态体积密度的特征相加后输入该激活函数网络层，得到最终体积密度；将动态颜色信息和静态颜色信息相加后输入该激活函数网络层，得到最终颜色信息；基于采样点的位置、最终体积密度和最终颜色信息进行体积渲染，得到给定像素点的最终颜色，根据该最终颜色与实际颜色间的差别，构建损失函数，训练该动态NeRF；

渲染模块，用于根据待渲染的相机参数、相机外参和时间段，计算该时间段中每一特定时间点对应的待渲染像素的采样射线，选取采样点输入训练完成的视频渲染模型，得到所有采样点的体积密度和颜色信息，结合体积渲染，得到全部给定像素点的颜色作为该特定时间点的单帧图片渲染结果，结合所有该特定时间点的单帧图片渲染结果生成视频渲染结果。
如权利要求5所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其特征在于，根据相机的内参和外参，得到该光心。
如权利要求5所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其特征在于，该内参为相机的焦距，像素点尺寸，该外参为在选取的坐标系，摄像机所处的位置和朝向。
如权利要求5所述的静态NeRF模型与动态NeRF模型融合的视频渲染系统，其特征在于，该训练用视频为经过帧同步后的多路视频。
一种存储介质，用于存储执行如权利要求1到4所述任意一种静态NeRF模型与动态NeRF模型融合的视频渲染方法的程序。
一种客户端，用于权利要求5至8中任意一种静态NeRF模型与动态NeRF模型融合的视频渲染系统。