WO2022222077A1

WO2022222077A1 - 基于反射分解的室内场景虚拟漫游方法

Info

Publication number: WO2022222077A1
Application number: PCT/CN2021/088788
Authority: WO
Inventors: 许威威; 许佳敏; 吴秀超; 朱紫涵; 鲍虎军
Original assignee: 浙江大学
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-10-27
Also published as: US20240169674A1

Abstract

本发明公开了一种基于反射分解的室内场景虚拟漫游方法，首先利用三维重建获得粗略全局三角网格模型投影作为初始深度图，将深度边缘对齐到彩色边缘，将对齐深度图转换为简化的三角网格；检测全局三角网格模型中的平面，如果某平面为反射平面，则对每张可见该反射平面的图片在反射区域上构建双层表达，用于正确渲染物体表面的反射效果；给定虚拟视角，利用邻域图片及三角网格绘制虚拟视角图片，对于反射区域，利用前景背景图片和前景背景三角网格进行绘制。本发明方法可以在较小的存储需求的情况下，在较大的含有反射效果的室内场景中进行大自由度的虚拟漫游。本发明渲染效果好，漫游自由度较大，可绘制部分反射、高光等效果，结果鲁棒。

Description

基于反射分解的室内场景虚拟漫游方法

技术领域

本发明涉及基于图片的渲染和虚拟视点合成技术领域，特别涉及一种基于图片的渲染技术结合反射分解进行室内场景虚拟漫游的方法。

背景技术

室内场景虚拟漫游的目的是构建一个系统，给定虚拟相机的内外参，输出虚拟视点的绘制图片。现有比较成熟的虚拟漫游应用主要基于一系列的全景图片，以每个全景图片为中心可以进行纯旋转的虚拟漫游，全景图片间的移动多数系统利用简单的插值进行，这时候视觉误差比较大。对于大自由度的虚拟漫游，现有很多方法做到了物体级别的观察或者对场景中的一部分进行视点移动观察，包括利用光场相机显式的获取目标物体周围的光场，参见Gortler,Steven J.,et al.“The lumigraph.”Proceedings of the 23rd annual conference on Computer graphics and interactive techniques.1996，或者使用普通相机的拍摄图片利用神经网络进行场景的表达和插值，参见Mildenhall,Ben,et al.“Nerf:Representing scenes as neural radiance fields for view synthesis.”Proceedings of the European Conference on Computer Vision.2020。对于较大的室内场景，目前最新的方法可以做到相对自由视点的渲染，但是渲染效果还是不够好，参见Riegler and Koltun.“Free View Synthesis.”Proceedings of the European Conference on Computer Vision.2020。特别的，对于较大的室内场景中存在的各种反射类型(地面、桌子、镜面等)，目前仍然没有一个系统可以较好处理具有这种复杂材质的室内漫游。

发明内容

本发明针对现有技术的不足，提供了一种基于反射分解的室内场景虚拟漫游方法，可以在较小的存储需求的情况下，在较大的含有反射效果的室内场景中进行大自由度的虚拟漫游。

为了达到上述目的，本发明采用以下技术方案：一种基于反射分解的室内场景虚拟漫游方法，包括以下步骤：

S1：在目标室内场景拍摄足够覆盖场景的图片，基于拍摄图片对室内场景进行三维重建，获取相机内外参及室内场景的粗略全局三角网格模型；

S2：对于每张图片，将全局三角网格模型投影为对应的深度图，将深度边缘对齐到彩色边缘，将对齐后的深度图转换为三角网格，对三角网格进行网格简化；

S3：检测全局三角网格模型中的平面，利用相邻图像间的颜色一致性，检测该平面是否为反射平面，如果是则对每张可见该反射平面的图片在反射区域上构建双层表达，用于正确渲染物体表面的反射效果；所述双层表达包含前景背景双层三角网格及前景背景两张分解后的图片，前景三角网格用于表达物体表面几何，背景三角网格用于表达场景几何在反射平面的镜像，前景图片用于表达去除反射分量后的物体表面纹理，背景图片用于表达场景在物体表面的反射分量；具体包括以下子步骤：

S31：检测全局三角网格模型中的平面，保留面积大于面积阈值的平面，将平面投影到可见的图片上面，将可见该平面的图片集合记为

对于

中的每一张图片I _k，计算其K近邻图片集合

K近邻的计算是按照平面反射之后的全局三角网格模型中顶点的重叠率排序获得的；

利用

构建匹配代价体，判断该平面在图片I _k上是否具有足够的反射分量，判断方法为：对于每一个像素，将全局三角网格模型依照平面方程镜像之后，在匹配代价体中寻找镜像后的深度值对应的代价，判断代价位置是否是一个局部最小点，如果该图片中代价局部最小点像素数量大于像素数量阈值，则认为该平面在该图片上具有反射分量，如果某个平面具有反射分量的可见图片数量大于图片数量阈值，则认为该平面为反射平面；

S32：对于每个反射平面，计算其在每一幅可见图片上的二维反射区域β _k，具体为：将反射平面投影到可见的图片上获得投影深度图，对投影深度图进行膨胀操作，然后将膨胀后的投影深度图和对齐的深度图做比较，获取精确的二维反射区域，对于投影深度图中的每个有深度值的像素，利用三维点距离和法线夹角进行筛选，将筛选后的像素区域作为该反射平面在该图片上的反射区域β _k；

S33：对每张可见该反射平面的图片在反射区域上构建双层表达，具体为：将投影深度图作为初始前景深度图，将该图片的相机内外参依照该平面方程镜像为虚拟相机，然后在虚拟相机中利用全局三角网格模型渲染初始背景深度图，将初始前景背景深度图转换为简化的两层三角网格

和

利用迭代优化算法，计算两层前景背景图片

和

并且进一步优化

和

在优化前，所有相关的原始图片均预先进行反伽马矫正，用于后续分解；

优化的目标是最小化如下能量函数：

其中优化目标中

代表反射层三角网格的刚体变换，其初始值分别为单位矩阵和0，

和

只优化网格顶点三维位置，不改变拓扑结构，E _d、E _s、E _p分别为数据项、平滑项、先验项，λ _s、λ _p为各项的权重，u表示

中的像素；具体的：

其中H是拉普拉斯矩阵；函数ω ^-1返回二维坐标，将图像I _k′中的点u按照深度值和相机内外参投影到图像I _k；

表示

投影得到的深度图；v表示

中的顶点；

为了最小化上述能量函数，使用交替优化方案，对于每一轮优化，首先固定

和

优化

其中

的初始值用如下公式计算：

给定初始值，使用非线性共轭梯度法进行优化；之后，固定

优化

和

同样使用共轭梯度法；一次交替为一轮优化，整个优化过程总共进行两轮优化，并且在第一轮优化之后，利用多个视角间前景图片的一致性约束对于第一轮优化后的

进行去噪，具体的，已知第一轮优化后的

和

利用如下公式获取去噪后的图像

和

使用

和

作为

的初始值继续第二轮的优化，进一步地，在第二轮优化中添加一个先验项到总的能量方程：

其中λ _g为先验项权重，用于约束第二轮优化；

在两轮优化之后，利用

变换

获取最终的两层简化的三角网格

和分解之后的

用于正确渲染物体表面的反射效果；

S4：给定虚拟视角，利用邻域图片及三角网格绘制虚拟视角图片，对于反射区域，利用前景背景图片和前景背景三角网格进行绘制，具体为：将邻域图片中的反射区域β _k绘制到当前虚拟视点，获取当前虚拟视点的反射区域β _n，对于反射区域内的像素，需要利用前景背景两层的图片和简化的三角网格进行绘制，分别对两层的图像进行深度图的计算和颜色混合，由于两层图片

和

是进行过反伽马矫正之后分解获得的，在渲染阶段，对两层混合的图片相加，做一次伽马矫正获得正确的带反射效果的图片。

进一步地，所述S2中，将深度图的深度边缘对齐到原图片的彩色边缘，获取对齐的深度图，具体为：

首先计算深度图对应的法线图，然后对于深度图中的每个像素i，将其深度值d _i按照相机内参转换为局部坐标系的三维点v _i，计算相邻点i,j之间的平面距离dt _ij＝max(|(v _i-v _j)·n _i|,|(v _i-v _j)·n _j|)，n _i,n _j分别为点i,j的法线向量，如果dt _ij大于λ*max(1,min(d _i,d _j))，则将该像素记为深度边缘像素，其中λ为边缘检测阈值；

对于每一幅图片，在获取所有深度边缘像素之后，利用索贝尔卷积计算深度边缘的局部二维梯度，然后以每一个深度边缘像素为起点，沿着边缘二维梯度方向及其反方向同时逐个像素遍历，直到两边的其中一边遍历到彩色边缘像素；在遍历到彩色边缘像素之后，删除起点像素到该彩色边缘像素中间路径的所有像素的深度值；将删除深度值的像素定义为未对齐像素，将未删除深度值的像素定义对齐像素，对于每个被删除的深度值，利用周围未删除的深度值进行插值填充。

进一步地，对于每个被删除的深度值，利用周围未删除的深度值进行插值填充，具体为：对于每个待插值的未对齐像素p _i，计算其到所有其他对齐像素的测地线距离d _g(p _i,p _j)，利用测地线距离找到m个最近的对齐像素，计算插值的深度值

其中

表示像素p _i的最近邻对齐像素集合，w _g(i,j)＝exp(-d _g(p _i,p _j))，

表示将像素p _i投影到p _j的局部平面方程上，该局部平面方程由v _j和n _j计算获得。

进一步地，所述S4中，根据虚拟相机内外参计算邻域图片集合，将当前虚拟相机的局部坐标系按照坐标轴平面分割为8个象限，在每个象限中，进一步选取一系列邻域图片，利用图片光心方向

和虚拟相机光心方向

的夹角

和图片光心t _k和虚拟相机光心t _n的距离‖t _k-t _n‖，将每个象限再一次分割为若干区域；之后，在每个区域内，选出相似性d _k最小的1张图片加入到邻域图片集合中，

其中λ为距离占比权重；

在获得邻域图片集合之后，将邻域图片集合中的每一幅图片按照其对应的简化后的三角网格绘制到虚拟视点，具体为：

a)计算一幅鲁棒深度图，对于面片着色器的每一个像素，计算其渲染代价c(t _k,t _n,x)：

c(t _k,t _n,x)＝∠(t _k-x,t _n-x)*π/180+max(0,1-‖t _n-x‖/‖t _k-x‖)

其中t _k和t _n代表图片和虚拟相机的光心三维坐标，x表示该像素对应三维点的三维坐标，每个像素有一系列的三角面片渲染到，这里用“点”表示面片和像素所决定光线的交点，如果某个点的渲染代价大于该像素中所有点的最小渲染代价+范围阈值λ，那么该点不参与计算深度图，如此将所有参与计算深度图的点的深度进行比较取最小值，作为该像素的深度值；

b)计算完虚拟相机的深度图，将图片作为纹理贴图加入三角网格进行绘制，对于每个虚拟相机图片的像素，将深度图附近的点的颜色按照设定权重w _k进行混合，获取最终的渲染颜色。

进一步地，所述S4中，为了减小存储规模，所有图片降采样到1/n存储，n≥1，渲染的时候虚拟窗口设置为原图大小。

进一步地，训练一个超分辨率神经网络补偿存储图片降采样造成的清晰度损失，同时减少可能存在的绘制错误，具体为：在每一个新的虚拟视角渲染获得深度图片和彩色图片之后，利用深度神经网络减少渲染错误并且提升清晰度；网络利用当前帧彩色图片和深度图片加上前一帧彩色图片和深度图片作为输入；首先利用一个三层卷积网络分别对当前帧的深度彩色图片和前一帧的深度彩色图片提取特征，下一步将前一帧特征扭曲映射到当前帧，初始的对应由深度图计算获得，由于深度图并不完全准确，利用对齐模块进一步拟合一个局部二维偏移将前后两帧特征进行进一步对齐，将对齐后的前后两帧特征合并输入通过U-Net卷积神经网络实现的超分辨模块，输出当前帧的高清图片。

本发明的有益效果在于：

1、构建一套完整的流程可以处理大数量的拍摄数据，对较大规模的室内场景实现较大自由度的虚拟视点漫游；

2、检测室内场景中的反射面和图片中的反射区域，对反射区域构建双层表达，使得在室内场景漫游过程中可以较好的渲染出反射效果，极大提高渲染真实感；

3、通过后接一个专用的超分辨率神经网络，在减少渲染错误的同时，减少支持单个场景漫游需要的图片分辨率，从而减少存储和内存消耗。

附图说明

图1为本发明实施例提供的基于反射分解的室内场景虚拟漫游方法流程图；

图2为本发明实施例提供的全局三角网格模型示意图；

图3为本发明实施例提供的反射区域双层表达构建结果示意图；

图4为本发明实施例提供的带反射虚拟视点绘制结果示意图；

图5为本发明实施例提供的是否使用超分辨率神经网络结果对比图；

图6为本发明实施例提供的超分辨率神经网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明，应当理解，此处描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的一种基于反射分解的室内场景虚拟漫游方法，该方法包括以下步骤：

(1)在目标室内场景拍摄足够覆盖场景的图片，基于拍摄图片对室内场景进行三维重建，如图2所示，获取相机内外参及室内场景的粗略全局三角网格模型。

具体的，可以采用三维重建软件COLMAP或者RealityCapture获取相机内外参及全局三角网格模型。

(2)对于每张图片，将全局三角网格模型投影为对应的深度图，将深度边缘对齐到彩色边缘，将对齐后的深度图转换为三角网格，对三角网格进行网格简化。

具体的，由于全局三角网格模型包含一些错误，将投影出来的深度图的深度边缘对齐到原图片的彩色边缘，获取对齐的深度图，该步骤具体为：

首先计算深度图对应的法线图，然后对于深度图中的每个像素i，将其深度值d _i按照相机内参转换为局部坐标系的三维点v _i，计算相邻点i,j之间的平面距离dt _ij＝max(|(v _i-v _j)·n _i|,|(v _i-v _j)·n _j|)，n _i,n _j分别为点i,j的法线向量，如果dt _ij大于λ*max(1,min(d _i,d _j))，则将该像素记为深度边缘像素，其中λ为边缘检测阈值，本实施例中取λ＝0.01。

对于每一幅图片，在获取所有深度边缘像素之后，利用索贝尔(Sobel)卷积计算深度边缘的局部二维梯度，然后以每一个深度边缘像素为起点，沿着边缘二维梯度方向及其反方向同时逐个像素遍历，直到两边的其中一边遍历到彩色边缘像素，其中彩色边缘像素由坎尼(Canny)边缘提取算法获得；在遍历到彩色边缘像素之后，删除起点像素到该彩色边缘像素中间路径的所有像素的深度值；将删除深度值的像素定义为未对齐像素，将未删除深度值的像素定义对齐像素，对于每个被删除的深度值，利用周围未删除的深度值进行插值填充，具体的，对于每个待插值的未对齐像素p _i，计算其到所有其他对齐像素的测地线距离d _g(p _i,p _j)，参见Revaud,Jerome,et al.“Epicflow:Edge-preserving interpolation of correspondences for optical flow.”Proceedings of the IEEE conference on computer vision and pattern recognition.2015，利用测地线距离找到m个(本实施例中取m＝4)最近的对齐像素，计算插值的深度值

其中

具体的，深度图对齐后，将对齐后的深度图转换为三角网格，具体为：将深度值转换为三维坐标，将所有横竖边连接并且连接一条斜边，遇到前面步骤所述的深度边缘则断开相应的边，获取三角网格。

具体的，调用网格简化算法对生成的三角网格进行网格简化，参见Garland,Michael,and Paul S.Heckbert.“Surface simplification using quadric error metrics.”Proceedings of the 24th annual conference on Computer graphics and interactive techniques.1997。

(3)检测全局三角网格模型中的平面，利用相邻图像间的颜色一致性，检测该平面是否为反射平面，如果是则对每张可见该反射平面的图片在反射区域上构建双层表达，用于正确渲染物体表面的反射效果。图3为本发明实施例提供的反射区域双层表达构建结果示意图。

所述双层表达包含前景背景双层三角网格及前景背景两张分解后的图片，前景三角网格用于表达物体表面几何，背景三角网格用于表达场景几何在反射平面的镜像，前景图片用于表达去除反射分量后的物体表面纹理，背景图片用于表达场景在物体表面的反射分量。

具体的，首先检测全局三角网格模型中的平面，保留面积大于面积阈值的平面(本实施例中面积阈值取0.09m ²)，将平面投影到可见的图片上面，将可见该平面的图片集合记为

对于

中的每一张图片I _k，计算其K近邻(本实施例中取K＝6)图片集合

这里K近邻的计算是按照平面反射之后的全局三角网格模型中顶点的重叠率排序获得的，包含图片I _k自身，其重叠率一定是最高的。之后，利用

构建匹配代价体(cost volume)，参见，Sinha,Sudipta N.,et al.“Image-based rendering for scenes with reflections.”ACM Transactions on Graphics(TOG)31.4(2012):1-10，判断该平面在图片I _k上是否具有足够的反射分量，具体的，对于每一个像素，将全局三角网格模型依照平面方程镜像之后，在匹配代价体中寻找镜像后的深度值对应的代价，判断代价位置是否是一个局部最小点，如果该图片中代价局部最小点像素数量大于像素数量阈值(本实施例中取50)，则认为该平面在该图片上具有反射分量，如果某个平面具有反射分量的可见图片数量大于图片数量阈值(本实施例中取5)，则认为该平面为反射平面。

具体的，对于每个反射平面，计算其在每一幅可见图片上的二维反射区域β _k，具体的，将反射平面(具有三维边界)投影到可见的图片上获得投影深度图，对投影深度图进行膨胀操作(可以采用9x9窗口)，然后将膨胀后的投影深度图和前面步骤对齐的深度图做比较，获取精确的二维反射区域，对于投影深度图中的每个有深度值的像素，利用三维点距离和法线夹角进行筛选(将三维点距离小于0.03米并且法线夹角小于60度的保留)，将筛选后的像素区域作为该反射平面在该图片上的反射区域β _k；同时，利用该平面的平面方程，获取初始的两层深度图，具体的，将投影深度图作为初始前景深度图，将该图片的相机内外参依照该平面方程镜像为虚拟相机，然后在虚拟相机中利用全局三角网格模型渲染初始背景深度图，注意需要修改渲染的近剪裁平面为反射平面，然后按照步骤2)的方法将初始前景背景深度图转换为简化的两层三角网格

和

下一步，利用迭代优化算法，计算两层前景背景图片

和

并且进一步优化

和

在优化前，所有相关的原始图片均预先进行反伽马矫正(gamma correction)，用于后续分解。

优化的目标是最小化如下能量函数：

其中优化目标中

和

只优化网格顶点三维位置，不改变拓扑结构，E _d、E _s、E _p分别为数据项、平滑项、先验项，λ _s、λ _p为各项的权重，分别为0.04和0.01，u表示

中的像素；具体的：

表示

投影得到的深度图；v表示

中的顶点。

和

优化

其中

的初始值用如下公式计算：

给定初始值，使用非线性共轭梯度法进行优化，迭代次数为30次；之后，固定

优化

和

同样使用共轭梯度法，迭代30次；一次交替为一轮优化，整个优化过程总共进行两轮优化，并且在第一轮优化之后，利用多个视角间前景图片(表面颜色)的一致性约束对于第一轮优化后的

进行去噪，具体的，已知第一轮优化后的

和

利用如下公式获取去噪后的图像

和

使用

和

作为

其中先验项权重λ _g等于0.05，用于约束第二轮优化。

在两轮优化之后，利用

变换

获取最终的两层简化的三角网格

和分解之后的

用于正确渲染物体表面的反射效果。

(4)给定虚拟视角，利用邻域图片及三角网格绘制虚拟视角图片，对于反射区域，利用前景背景图片和前景背景三角网格进行绘制。图4为本发明实施例提供的带反射虚拟视点绘制结果示意图。

具体的，在线渲染流程的目标是给定虚拟相机的内外参，输出是对应该虚拟相机的虚拟图片。具体的：根据虚拟相机内外参计算邻域图片集合，将当前虚拟相机的局部坐标系按照坐标轴平面分割为8个象限，在每个象限中，进一步选取一系列邻域图片，利用图片光心方向

和虚拟相机光心方向

的夹角

和图片光心t _k和虚拟相机光心t _n的距离‖t _k-t _n‖，将每个象限再一次分割为若干区域；优选的，分割为9个区域，9个区域为

在[0°,10°)、[10°,20°)、[20°,∞)，‖t _k-t _n‖在[0,0.6)、[0.6,1.2)、[1.2,1.8)，各自三个区间的排列组合；之后，在每个区域内，选出相似性d _k最小的1张图片加入到邻域图片集合中：

其中，距离占比权重λ等于0.1。

c(t _k,t _n,x)＝∠(t _k-x,t _n-x)*π/180+max(0,1-‖t _n-x‖/‖t _k-x‖)

其中，t _k和t _n代表图片和虚拟相机的光心三维坐标，x表示该像素对应三维点的三维坐标，每个像素有一系列的三角面片渲染到，这里用“点”表示面片和像素所决定光线的交点，如果某个点的渲染代价过大，大于该像素中所有点的最小渲染代价+范围阈值λ，本实施例中λ取0.17，那么该点不参与计算深度图，如此将所有参与计算深度图的点的深度进行比较取最小值，作为该像素的深度值。

b)计算完虚拟相机的深度图，将图片作为纹理贴图加入三角网格进行绘制，对于每个虚拟相机图片的像素，将深度图附近(距离小于3cm)的点的颜色按照设定权重w _k(w _k＝exp(-d _k/0.033))进行混合(blending)，获取最终的渲染颜色。

具体的，将邻域图片中的反射区域β _k也绘制到当前虚拟视点，获取当前虚拟视点的反射区域β _n，对于反射区域内的像素，需要利用前景背景两层的图片和简化的三角网格进行绘制，按照上述步骤分别对两层的图像进行深度图的计算和颜色混合，由于两层图片

和

是进行过反伽马矫正之后分解获得的，在渲染阶段，对两层混合的图片相加，然后需要做一次伽马矫正获得正确的带反射效果的图片。

具体的，上述渲染步骤中，为了减小存储，所有图片降采样到1/n存储(n≥1，本实施例中n取4)，渲染的时候虚拟窗口设置为原图大小，如此渲染的虚拟视点图片分辨率不变但是会较为模糊，在下一步利用超分辨率神经网络提升清晰度。

(5)训练一个超分辨率神经网络补偿存储图片降采样造成的清晰度损失，同时减少可能存在的绘制错误；图5为本发明实施例提供的是否使用超分辨率神经网络结果对比图，图6为本发明实施例提供的超分辨率神经网络结构图。

具体的，在每一个新的虚拟视角渲染获得深度图片和彩色图片之后，利用深度神经网络减少渲染错误并且提升清晰度。具体的，网络利用当前帧彩色图片和深度图片加上前一帧彩色图片和深度图片作为输入，使用前后两帧图片的目的是加入更多的有效信息并且提升时序稳定性；首先利用一个三层卷积网络分别对当前帧的深度彩色图片和前一帧的深度彩色图片提取特征，下一步将前一帧特征扭曲映射(warp)到当前帧，初始的对应由深度图计算获得，由于深度图并不完全准确，利用一个对齐模块(通过三层卷积层的卷积神经网络实现)进一步拟合一个局部二维偏移将前后两帧特征进行进一步对齐，将对齐后的前后两帧特征合并(concat)输入超分辨模块(通过U-Net卷积神经网络实现)，输出当前帧的高清图片。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中基于反射分解的室内场景虚拟漫游方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中基于反射分解的室内场景虚拟漫游方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种基于反射分解的室内场景虚拟漫游方法，其特征在于，包括以下步骤：

S1：在目标室内场景拍摄足够覆盖场景的图片，基于拍摄图片对室内场景进行三维重建，获取相机内外参及室内场景的粗略全局三角网格模型；

S2：对于每张图片，将全局三角网格模型投影为对应的深度图，将深度边缘对齐到彩色边缘，将对齐后的深度图转换为三角网格，对三角网格进行网格简化；

S3：检测全局三角网格模型中的平面，利用相邻图像间的颜色一致性，检测该平面是否为反射平面，如果是则对每张可见该反射平面的图片在反射区域上构建双层表达，用于正确渲染物体表面的反射效果；所述双层表达包含前景背景双层三角网格及前景背景两张分解后的图片，前景三角网格用于表达物体表面几何，背景三角网格用于表达场景几何在反射平面的镜像，前景图片用于表达去除反射分量后的物体表面纹理，背景图片用于表达场景在物体表面的反射分量；具体包括以下子步骤：

S31：检测全局三角网格模型中的平面，保留面积大于面积阈值的平面，将平面投影到可见的图片上面，将可见该平面的图片集合记为
对于
中的每一张图片I _k，计算其K近邻图片集合
K近邻的计算是按照平面反射之后的全局三角网格模型中顶点的重叠率排序获得的；

利用
构建匹配代价体，判断该平面在图片I _k上是否具有足够的反射分量，判断方法为：对于每一个像素，将全局三角网格模型依照平面方程镜像之后，在匹配代价体中寻找镜像后的深度值对应的代价，判断代价位置是否是一个局部最小点，如果该图片中代价局部最小点像素数量大于像素数量阈值，则认为该平面在该图片上具有反射分量，如果某个平面具有反射分量的可见图片数量大于图片数量阈值，则认为该平面为反射平面；

S32：对于每个反射平面，计算其在每一幅可见图片上的二维反射区域β _k，具体为：将反射平面投影到可见的图片上获得投影深度图，对投影深度图进行膨胀操作，然后将膨胀后的投影深度图和对齐的深度图做比较，获取精确的二维反射区域，对于投影深度图中的每个有深度值的像素，利用三维点距离和法线夹角进行筛选，将筛选后的像素区域作为该反射平面在该图片上的反射区域β _k；

S33：对每张可见该反射平面的图片在反射区域上构建双层表达，具体为：将投影深度图作为初始前景深度图，将该图片的相机内外参依照该平面方程镜像为虚拟相机，然后在虚拟相机中利用全局三角网格模型渲染初始背景深度图，将初始前景背景深度图转换为简化的两层三角网格
和

利用迭代优化算法，计算两层前景背景图片
和
并且进一步优化
和
在优化前，所有相关的原始图片均预先进行反伽马矫正，用于后续分解；

优化的目标是最小化如下能量函数：

其中优化目标中
代表反射层三角网格的刚体变换，其初始值分别为单位矩阵和0，
和
只优化网格顶点三维位置，不改变拓扑结构，E _d、E _s、E _p分别为数据项、平滑项、先验项，λ _s、λ _p为各项的权重，u表示
中的像素；具体的：

其中H是拉普拉斯矩阵；函数ω ^-1返回二维坐标，将图像I _k′中的点u按照深度值和相机内外参投影到图像I _k；
表示
投影得到的深度图；v表示
中的顶点；

为了最小化上述能量函数，使用交替优化方案，对于每一轮优化，首先固定
和
优化
其中
的初始值用如下公式计算：

给定初始值，使用非线性共轭梯度法进行优化；之后，固定
优化
和
同样使用共轭梯度法；一次交替为一轮优化，整个优化过程总共进行两轮优化，并且在第一轮优化之后，利用多个视角间前景图片的一致性约束对于第一轮优化后的
进行去噪，具体的，已知第一轮优化后的
和
利用如下公式获取去噪后的图像
和

使用
和
作为
的初始值继续第二轮的优化，进一步地，在第二轮优化中添加一个先验项到总的能量方程：

其中λ _g为先验项权重，用于约束第二轮优化；

在两轮优化之后，利用
变换
获取最终的两层简化的三角网格
和分解之后的
用于正确渲染物体表面的反射效果；

S4：给定虚拟视角，利用邻域图片及三角网格绘制虚拟视角图片，对于反射区域，利用前景背景图片和前景背景三角网格进行绘制，具体为：将邻域图片中的反射区域β _k绘制到当前虚拟视点，获取当前虚拟视点的反射区域β _n，对于反射区域内的像素，需要利用前景背景两层的图片和简化的三角网格进行绘制，分别对两层的图像进行深度图的计算和颜色混合，由于两层图片
和
是进行过反伽马矫正之后分解获得的，在渲染阶段，对两层混合的图片相加，做一次伽马矫正获得正确的带反射效果的图片。
根据权利要求1所述的一种基于反射分解的室内场景虚拟漫游方法，其特征在于，所述S2中，将深度图的深度边缘对齐到原图片的彩色边缘，获取对齐的深度图，具体为：

首先计算深度图对应的法线图，然后对于深度图中的每个像素i，将其深度值d _i按照相机内参转换为局部坐标系的三维点v _i，计算相邻点i,j之间的平面距离dt _ij＝max(|(v _i-v _j)·n _i|,|(v _i-v _j)·n _j|)，n _i,n _j分别为点i,j的法线向量，如果dt _ij大于λ*max(1,min(d _i,d _j))，则将该像素记为深度边缘像素，其中λ为边缘检测阈值；

对于每一幅图片，在获取所有深度边缘像素之后，利用索贝尔卷积计算深度边缘的局部二维梯度，然后以每一个深度边缘像素为起点，沿着边缘二维梯度方向及其反方向同时逐个像素遍历，直到两边的其中一边遍历到彩色边缘像素；在遍历到彩色边缘像素之后，删除起点像素到该彩色边缘像素中间路径的所有像素的深度值；将删除深度值的像素定义为未对齐像素，将未删除深度值的像素定义对齐像素，对于每个被删除的深度值，利用周围未删除的深度值进行插值填充。
根据权利要求2所述的一种基于反射分解的室内场景虚拟漫游方法，其特征在于，对于每个被删除的深度值，利用周围未删除的深度值进行插值填充，具体为：对于每个待插值的未对齐像素p _i，计算其到所有其他对齐像素的测地线距离d _g(p _i,p _j)，利用测地线距离找到m个最近的对齐像素，计算插值的深度值
其中
表示像素p _i的最近邻对齐像素集合，w _g(i,j)＝exp(-d _g(p _i,p _j))，
表示将像素p _i投影到p _j的局部平面方程上，该局部平面方程由v _j和n _j计算获得。
根据权利要求1所述的一种基于反射分解的室内场景虚拟漫游方法，其特征在于，所述S4中，根据虚拟相机内外参计算邻域图片集合，将当前虚拟相机的局部坐标系按照坐标轴平面分割为8个象限，在每个象限中，进一步选取一系列邻域图片，利用图片光心方向
和虚拟相机光心方向
的夹角
和图片光心t _k和虚拟相机光心t _n的距离‖t _k-t _n‖，将每个象限再一次分割为若干区域；之后，在每个区域内，选出相似性d _k最小的1张图片加入到邻域图片集合中，
其中λ为距离占比权重；

在获得邻域图片集合之后，将邻域图片集合中的每一幅图片按照其对应的简化后的三角网格绘制到虚拟视点，具体为：

a)计算一幅鲁棒深度图，对于面片着色器的每一个像素，计算其渲染代价c(t _k,t _n,x)：

c(t _k,t _n,x)＝∠(t _k-x,t _n-x)*π/180+max(0,1-‖t _n-x‖/‖t _k-x‖)

其中t _k和t _n代表图片和虚拟相机的光心三维坐标，x表示该像素对应三维点的三维坐标，每个像素有一系列的三角面片渲染到，这里用“点”表示面片和像素所决定光线的交点，如果某个点的渲染代价大于该像素中所有点的最小渲染代价+范围阈值λ，那么该点不参与计算深度图，如此将所有参与计算深度图的点的深度进行比较取最小值，作为该像素的深度值；

b)计算完虚拟相机的深度图，将图片作为纹理贴图加入三角网格进行绘制，对于每个虚拟相机图片的像素，将深度图附近的点的颜色按照设定权重w _k进行混合，获取最终的渲染颜色。
根据权利要求1所述的一种基于反射分解的室内场景虚拟漫游方法，其特征在于，所述S4中，为了减小存储规模，所有图片降采样到1/n存储，n≥1，渲染的时候虚拟窗口设置为原图大小。
根据权利要求1-5任一项所述的一种基于反射分解的室内场景虚拟漫游方法，其特征在于，训练一个超分辨率神经网络补偿存储图片降采样造成的清晰度损失，同时减少可能存在的绘制错误，具体为：在每一个新的虚拟视角渲染获得深度图片和彩色图片之后，利用深度神经网络减少渲染错误并且提升清晰度；网络利用当前帧彩色图片和深度图片加上前一帧彩色图片和深度图片作为输入；首先利用一个三层卷积网络分别对当前帧的深度彩色图片和前一帧的深度彩色图片提取特征，下一步将前一帧特征扭曲映射到当前帧，初始的对应由深度图计算获得，由于深度图并不完全准确，利用对齐模块进一步拟合一个局部二维偏移将前后两帧特征进行进一步对齐，将对齐后的前后两帧特征合并输入通过U-Net卷积神经网络实现的超分辨模块，输出当前帧的高清图片。