WO2024031251A1

WO2024031251A1 - 在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法及系统

Info

Publication number: WO2024031251A1
Application number: PCT/CN2022/110907
Authority: WO
Inventors: 张岩
Original assignee: 北京原创力科技有限公司
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2024-02-15

Abstract

本发明提出了一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法和系统，包括：获取观看视角参数和2D/3D视频的嵌入位置，输入到已训练完的NeRF离线模型中，得到NeRF三维空间场景；对待嵌入的2D或3D视频流进行图片帧体素化处理后嵌入该NeRF三维空间场景中，得到视频嵌入三维空间场景；对该视频嵌入三维空间场景进行联合体积渲染，得到该视角参数下嵌入该2D或3D视频流的三维视频。本发明将已有的2D/3D视频资源得到充分利用，提高体积视频素材库的丰富程度。缩短了现有体积视频制作周期，减少了制作成本。

Description

在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法及系统

技术领域

本发明涉及计算机图像学和三维重建技术领域，并特别涉及一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法及系统。

背景技术

神经辐射场NeRF(neural radiance field)是一种隐式的三维场景表示方法，可将一个复杂的静态场景用一个神经网络来建模，可对静态和动态(含时)场景进行建模，经过训练的NeRF模型能够计算出三维空间中任意时间(动态场景)，任意坐标下的体素密度值，以及某个射线行进方向的颜色值。利用NeRF重建的场景和视频可以支持自由视点的观看，给用户带来更加沉浸的体验。

虽然NeRF的方法可以较好的重建三维场景，但是需要苛刻的拍摄条件，例如现阶段的体积视频制作需要昂贵的相机阵列拍摄设备和大量的后期制作时间，基于NeRF的体积视频制作方法可以减少相机阵列的数量，减少后期制作的时间，但体积视频由于其采集制作成本高，难以大规模推广。

发明公开

针对现有技术的不足，本发明结合NeRF的场景表达方式，将已有的2D/3D视频资源得到充分利用，提高体积视频素材库的丰富程度。解决了现有体积视频制作周期长，成本高的问题。并且本发明可以任意插入丰富的2D/3D视频资源，解决了先有体积视频内容不丰富，艺术表达力不够的问题。

具体来说本发明还提出了一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其中包括：

步骤1、获取观看视角参数和2D/3D视频的嵌入位置，输入到已训练完的NeRF离线模型中，得到NeRF三维空间场景；

步骤2、对待嵌入的2D或3D视频流进行图片帧体素化处理后嵌入该NeRF三维空间场景中，得到视频嵌入三维空间场景；

步骤3、对该视频嵌入三维空间场景进行联合体积渲染，得到该视角参数下嵌入该2D或3D视频流的三维视频。

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其中该步骤1包括从头戴式VR显示器获取该观看视角参数，或通过实时人眼识别定位，获取视点的双目相机参数作为该观看视角参数。

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其中步骤2中该图片帧体素化包括：

按该视频嵌入位置及其覆盖的分辨率，把视频流的图片帧体素化，每个体素保存的信息包括RGB三通道颜色值和体素不透明度，颜色值参照原图片帧，体素不透明度为光线通过体素后被吸收的概率。

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其中该步骤3包括：

根据该观看视角参数确认光线的采样区域，沿着光线的行进方向对经过体素的颜色和体素不透明度进行积分，直到射线被吸收，积分值为此次采样的颜色值作为当前帧的渲染结果；光线在行进过程中体素如果和视频流的体素重合，则选用视频流的体素颜色值和不透明度值；集合所有帧的渲染结果构成该三维视频。

本发明还提出了一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其中包括：

初始模块，用于获取观看视角参数和2D/3D视频的嵌入位置，输入到已训练完的NeRF离线模型中，得到NeRF三维空间场景；

嵌入模块，用于对待嵌入的2D或3D视频流进行图片帧体素化处理后嵌入该NeRF三维空间场景中，得到视频嵌入三维空间场景；

渲染模块，用于对该视频嵌入三维空间场景进行联合体积渲染，得到该视角参数下嵌入该2D或3D视频流的三维视频。

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其中该初始模块用于从头戴式VR显示器获取该观看视角参数，或通过实时人眼识别定位，获取视点的双目相机参数作为该观看视角参数。

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其中该图片帧体素化包括：

所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其中该渲染模块包括：

本发明还提出了一种存储介质，用于存储执行所述任意一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法的程序。

本发明还提出了一种客户端，用于所述任意一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统。

由以上方案可知，本发明的优点在于：与现有的体积视频制作工具对比，本发明大大缩短体积视频的制作周期，减少制作成本；同时增加了体积视频的可编辑性。

附图简要说明

图1为本发明NeRF三维场景融合2D/3D视频技术框图；

图2为本发明渲染过程中光线采样示意图。

实现本发明的最佳方式

本发明利用NeRF的体积渲染原理，提出了一种渲染流水线：将2D/3D视频在体积渲染过程中嵌入到三维场景中指定区域，以达到2D/3D与NeRF三维场景融合的目的。本发明体积渲染指的是仅考虑体素吸收，体素为有一定概率吸收所有撞到他们身上光的冷的黑色粒子组成，体素不发光，也不散射光。为了实现上述技术效果，本发明包括以下关键技术点：利用2D/3D视频来丰富NeRF重建三维场景；以及利用体积渲染的原理来将2D/3D视频和NeRF模型进行联合渲染。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

随着AR/VR，裸眼3D、全息显示设备的快速发展，人们对与3D视频甚至自由视点体积视频的需求越来越高，现阶段体积视频生产流程具有拍摄成本高、制作周期长等问题。基于NeRF三维重建的体积视频制作方法可以有效的降低拍摄成本和后期制作时长。受限于算力和内存开销限制，现阶段的NeRF重建方法只能重建有限范围的场景，重建体积视频的丰富度受到了影响。为了丰富体积视频内容的多样性，充分利用已有的2D/3D视频资源，本发明提出了一种联合体积渲染技术，将2D/3D视频嵌入到NeRF重建的三维场景中，得到内容丰富、更具沉浸感的体积视频。

本发明的整体技术框架如图1所示。因为NeRF模型是隐式的将三维场景表示到神经网络中，所以首先将观看视角的相机参数和2D/3D视频的嵌入位置输入到已经训练完成的NeRF离线模型中，以确认渲染的三维场景区域。嵌入的2D/3D视频流相当于在NeRF三维场景中显式的插入视频流(相当于在空间放了个显示屏)

接下来在体渲染过程中，将2D或3D视频流嵌入到对应的NeRF三维空间场景中，最后输入融合后的双目RGB图像。接下来介绍每个模块的具体实现细节：

步骤S1，观看视点相机参数：不同观看设备的视点相机参数获取方式不同，对于VR/AR头显，可以直接获取观看视点的双目相机参数；对于3D光场显示器和全息投影技术，可以通过实时人眼识别定位技术获取视点的双目相机参数。

相机参数包括外参矩阵和内参矩阵，通过外参和内参可以把三维空间点映射到图像空间。摄像机外参矩阵：包括旋转矩阵和平移矩阵，旋转矩阵和平移矩阵共同描述了如何把点从世界坐标系转换到摄像机坐标系。摄像机内参矩阵用于将图像坐标系转化为像素坐标系。后续渲染中，确定了观看视角后，通过相机参数来将视角方向的三维空间点映射到图像空间，产生对应的二维RGB图像。

步骤S2，嵌入位置：根据NeRF重建场景的尺寸和2D/3D视频的分辨率，使用自动化位置推荐算法，推荐最适合的视频嵌入位置，同时支持手动调节。

步骤S3，NeRF离线模型：通过多路相机阵列采集视频，训练NeRF光场模型保存体积视频的信息。

步骤S4，2D/3D视频流：可以是已有的视频素材，也是可以是实时采集的视频流。

步骤S5，图片帧体素化：按步骤S2中的确定的视频嵌入位置和分辨率，把图片帧进行体素化，可以根据呈现效果的需求来确定图片帧体素化的厚度。每个体素保存的信息包括RGB三通道颜色值(0～255)和不透明度值(0～1)，颜色值参照原图片帧，不透明度可以自由设置，体素不透明度为光线通过体素后是否被吸收的概率。

步骤S6，NeRF离线模型渲染和2D/3D视频流的渲染融合，即联合渲染。对于某一视点的图像渲染流程，分为以下步骤：

步骤S61.通过步骤S1中确定的参数确认光线的采样区域；

步骤S62.如图2所示，根据相机参数得到光线的行进方向，沿着该行进方向对经过体素的颜色进行积分，直到射线被吸收，积分值为此次采样的颜色值，体素的颜色和不透明度由NeRF模型计算得到；

步骤S63.光线在行进过程中体素如果和步骤S5中预定义的体素重合，则选用步骤S5中体素的颜色值和不透明度值；

步骤S64.对每个像素点的RGB颜色值采样100次取平均(消除统计误差)。

工业应用性

本发明提出了一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法和系统，首先将观看视角的相机参数和2D/3D视频的嵌入位置输入到已经训练完成的NeRF离线模型中，以确认渲染的三维场景区域。在NeRF三维场景中显式的插入2D/3D视频流，通过体渲染过将2D或3D视频流嵌入到对应的NeRF三维空间场景中，最后输入融合后的双目RGB图像。本发明将已有的2D/3D视频资源得到充分利用，提高体积视频素材库的丰富程度。缩短了现有体积视频制作周期，减少了制作成本，同时增加了体积视频的可编辑性。

Claims

一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其特征在于，包括：

步骤1、获取观看视角参数和2D/3D视频的嵌入位置，输入到已训练完的NeRF离线模型中，得到NeRF三维空间场景；

步骤2、对待嵌入的2D或3D视频流进行图片帧体素化处理后嵌入该NeRF三维空间场景中，得到视频嵌入三维空间场景；

步骤3、对该视频嵌入三维空间场景进行联合体积渲染，得到该视角参数下嵌入该2D或3D视频流的三维视频。
如权利要求1所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其特征在于，该步骤1包括从头戴式VR显示器获取该观看视角参数，或通过实时人眼识别定位，获取视点的双目相机参数作为该观看视角参数。
如权利要求1所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其特征在于，步骤2中该图片帧体素化包括：

按该视频嵌入位置及其覆盖的分辨率，把视频流的图片帧体素化，每个体素保存的信息包括RGB三通道颜色值和体素不透明度，颜色值参照原图片帧，体素不透明度为光线通过体素后被吸收的概率。
如权利要求1所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法，其特征在于，该步骤3包括：

根据该观看视角参数确认光线的采样区域，沿着光线的行进方向对经过体素的颜色和体素不透明度进行积分，直到射线被吸收，积分值为此次采样的颜色值作为当前帧的渲染结果；光线在行进过程中体素如果和视频流的体素重合，则选用视频流的体素颜色值和不透明度值；集合所有帧的渲染结果构成该三维视频。
一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其特征在于，包括：

初始模块，用于获取观看视角参数和2D/3D视频的嵌入位置，输入到已训练完的NeRF离线模型中，得到NeRF三维空间场景；

嵌入模块，用于对待嵌入的2D或3D视频流进行图片帧体素化处理后嵌入该NeRF三维空间场景中，得到视频嵌入三维空间场景；

渲染模块，用于对该视频嵌入三维空间场景进行联合体积渲染，得到该视角参数下嵌入该2D或3D视频流的三维视频。
如权利要求5所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其特征在于，该初始模块用于从头戴式VR显示器获取该观看视角参数，或通过实时人眼识别定位，获取视点的双目相机参数作为该观看视角参数。
如权利要求5所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其特征在于，该图片帧体素化包括：

按该视频嵌入位置及其覆盖的分辨率，把视频流的图片帧体素化，每个体素保存的信息包括RGB三通道颜色值和体素不透明度，颜色值参照原图片帧，体素不透明度为光线通过体素后被吸收的概率。
如权利要求5所述的在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统，其特征在于，该渲染模块包括：

根据该观看视角参数确认光线的采样区域，沿着光线的行进方向对经过体素的颜色和体素不透明度进行积分，直到射线被吸收，积分值为此次采样的颜色值作为当前帧的渲染结果；光线在行进过程中体素如果和视频流的体素重合，则选用视频流的体素颜色值和不透明度值；集合所有帧的渲染结果构成该三维视频。
一种存储介质，用于存储执行如权利要求1到4所述任意一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法的程序。
一种客户端，用于权利要求5至8中任意一种在NeRF三维场景重建中嵌入2D/3D视频的体积渲染系统。