WO2019170164A1

WO2019170164A1 - 基于深度相机的三维重建方法、装置、设备及存储介质

Info

Publication number: WO2019170164A1
Application number: PCT/CN2019/084820
Authority: WO
Inventors: 方璐; 韩磊; 苏卓; 戴琼海
Original assignee: 清华-伯克利深圳学院筹备办公室
Priority date: 2018-03-05
Filing date: 2019-04-28
Publication date: 2019-09-12
Also published as: CN108537876A; US20210110599A1; CN108537876B

Abstract

本申请实施例公开了一种基于深度相机的三维重建方法、装置、设备及存储介质，其中，该方法包括：获取深度相机对目标场景进行采集得到的至少两帧图像；根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿；针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则；依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型；生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型。

Description

基于深度相机的三维重建方法、装置、设备及存储介质

本申请要求在2018年03月05日提交中国专利局、申请号为201810179264.6的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，例如涉及一种基于深度相机的三维重建方法、装置、设备及存储介质。

背景技术

三维重建是通过特定的装置及算法对现实世界中的三维物体的数学模型进行重新构建，对于虚拟现实、增强现实、机器人感知、人机交互及机器人路径规划等具有极其重要的意义。

目前的三维重建方法中，为保证重建结果的质量、一致性及实时性，通常需要由高性能的图形处理器(Graphics Processing Unit，GPU)和深度相机(RGB-D相机)来完成。首先利用深度相机对目标场景进行拍摄，获得至少两帧图像；利用GPU对每帧图像进行求解，以获取拍摄每帧图像时深度相机的相对相机位姿；依据每帧图像对应的相对相机位姿，遍历该帧图像中的所有体素，以确定满足一定条件的体素作为候选体素；进而依据每帧图像中的候选体素来构建该帧图像的截断符号距离函数(Truncated Signed Distance Function，TSDF)模型；最后在TSDF模型的基础上，对每帧图像生成等值面，从而能完成对目标场景的实时重建。

但是相关技术中的三维重建方法运算量较大，对专用于图像处理的GPU依赖性很强。而GPU无法便携化，难以应用于移动机器人、便携化设备及可穿戴设备(如增强现实头显设备Microsoft HoloLens)等。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种基于深度相机的三维重建方法、装置、设备及存储介质，避免了对目标场景进行三维重建时运算量大的情况，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

第一方面，本申请实施例提供了一种基于深度相机的三维重建方法，该方法包括：获取深度相机对目标场景进行采集得到的至少两帧图像；根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿；针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则；依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型；生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型。

第二方面，本申请实施例还提供了一种基于深度相机的三维重建装置，该装置包括：图像获取模块，设置为获取深度相机对目标场景进行采集得到的至少两帧图像；位姿确定模块，设置为根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿；体素确定模块，设置为针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则；模型生成模块，设置为依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型；三维重建模块，设置为生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，设置为存储一个或多个程序；至少一个深度相机，设置为对目标场景进行图像采集；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任意实施例所述的基于深度相机的三维重建方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所述的基于深度相机的三维重建方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

为了更加清楚地说明本申请示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。所介绍的附图只是本申请所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1是本申请实施例提供的一种基于深度相机的三维重建方法的流程图；

图2是本申请实施例提供的两级嵌套筛选方式的立方体示意图；

图3是本申请实施例提供的确定深度相机对目标场景进行采集时的相对相机位姿的方法流程图；

图4是本申请实施例提供的从图像中确定至少一个特征体素的方法流程图；

图5是本申请实施例提供的确定至少一个特征体素的平面示意图；

图6是本申请另一实施例提供的一种基于深度相机的三维重建方法的流程图；

图7是本申请实施例提供的一种基于深度相机的三维重建装置的结构框图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

图1为本申请实施例提供的一种基于深度相机的三维重建方法的流程图，本实施例可适用于基于深度相机对目标场景进行三维重建的情况，该方法可以由基于深度相机的三维重建装置或电子设备来执行，该装置可采用硬件和/或软件的方式实现，下面结合图2的两级嵌套筛选方式的立方体示意图对图1的基于深度相机的三维重建方法进行示意说明，该方法包括步骤S101至步骤S105。

在步骤S101中，获取深度相机对目标场景进行采集得到的至少两帧图像。

其中，深度相机与传统相机不同之处在于该相机可同时拍摄景物的图像信息及其对应的深度信息，其设计原理是针对待测目标场景发射一参考光束，由计算回光的时间差或相位差，来换算被拍摄景物的距离，以产生深度信息，此外，再结合传统的相机拍摄，以获取图像信息。而目标场景是指待进行三维重建的场景，例如，自动驾驶的汽车在公路上行驶时，目标场景为该汽车的行驶环境场景，通过深度相机实时采集该汽车的行驶环境图像。在一实施例中，为了能够准确的对目标场景进行三维重建，要获取深度相机采集到的至少两帧图像进行处理，且获取的帧数越多，重建的目标场景模型就越准确。获取深度相机采集的图像的方法有很多，例如，可以是通过串口、网线等有线的方式进行获取，可以通过蓝牙、无线宽带等无线的方式进行获取。

在步骤S102中，根据至少两帧图像，确定深度相机对目标场景进行采集时的相对相机位姿。

其中，相机的位姿是指相机的位置和姿态，在一实施例中，位置代表相机的平移距离(如相机在X、Y、Z三个方向的平移变换)，姿态代表相机的旋转角度(如相机在X、Y、Z三个方向上的角度变换α、β、γ)。

由于深度相机的视场角是固定的，拍摄的角度也是固定的，因此为了准确进行目标场景的三维重建，要改变深度相机的位姿，从不同的位置和角度进行拍摄，才能够精准的重建目标场景。因此，拍摄每帧图像时深度相机的相对位置和姿态都是不一样的，可以通过深度相机的相对位姿来表示，例如，深度相机可以按照一定的轨迹自动进行位置和姿态的变换，也可以是人工转动、移动深度相机进行拍摄。所以，要对采集每帧图像时的相对相机位姿进行确定，准确的将该帧图像重建到目标场景对应的位置。

在一实施例中，确定深度相机位姿的方法有很多，例如，可以通过在深度相机上安装测量平移距离和旋转角度的传感器，直接获取相机的位姿。由于深度相机在采集相邻两帧图像时相对位姿变化不大，为了更准确的获取相对相机位姿，可以通过对采集的图像进行处理，从而确定该相机采集该帧图像时的相对位姿。

在步骤S103中，针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级对应的体素分块规则。

其中，本申请实施例在进行目标场景的三维重建时是将重建的目标场景分成一个个栅格状的体素块(图2为重建的目标场景的部分栅格状体素块)，将其对应到每帧图像的相应位置可将每帧图像也分为一个个平面的体素格。由于深度相机采集到的图像中包含了对目标场景进行三维重建时的特征体素和非特征体素，例如，要进行汽车行驶环境场景重建时，图像中的行人，车辆等为特征体素，而远处的蓝天白云为非特征体素。因此，要对采集的每帧图像中的体素进行筛选，找到目标场景三维重建时的特征体素。特征体素可以由一个体素块构成，也可以是预设个数的体素块构成。

如果对每帧图像中的体素格一个个的进行是否是特征体素的判断，运算量较大，在一实施例中，可以通过体素分块规则采用至少两级嵌套筛选的方式从图像中确定至少一个特征体素。在一实施例中，体素分块规则可以是设置至少两级体素单位，将每级筛选对象按照该级对应的体素单位划分为至少两个该级体素单位对应的索引块，逐级进行索引块的筛选。

示例性的，结合图2以两级嵌套筛选的方式为例进行介绍，假设两级嵌套筛选对应的两级体素单位分别为20mm和5mm的体素单位，例如：

(1)将一帧图像对应的目标场景栅格体素按20mm体素单位划分为多个第一索引块(图 2中的立方体20即为20mm体素单位划分后的一个第一索引块)。

(2)对划分后的所有第一索引块进行一级筛选，判断其中是否包含特征体素，基于第一索引块(立方体20)中不包含特征体素的判断结果，将其移除，基于第一索引块(立方体20)中包含特征体素的判断结果，将其选为特征块。

(3)假设图2中的立方体20中包含特征体素，则对选出的特征块(立方体20)再按照5mm体素单位进行划分，每个特征块(立方体20)可以划分为4×4×4个第二索引块(图2中的立方体21即为5mm体素单位划分后的一个第二索引块)。

(4)对划分后的所有第二索引块(立方体21)进行二级筛选，判断其中是否包含特征体素，基于第二索引块(立方体21)中不包含特征体素的判断结果，将其移除，基于第二索引块(立方体21)中包含特征体素的判断结果，将其选为特征体素。

在为多级嵌套筛选的情况下，除第一次将整帧图像划分为多个索引块进行筛选，剩余的几级嵌套筛选均将上一次嵌套筛选出的包含特征体素的特征块所为下一级筛选时待划分的对象，按下一级体素单位划分为多个索引块，进行是否包含特征体素的判断，直到完成最后一级体素单位的嵌套筛选为止。例如，在进行三级嵌套筛选的情况下，执行完上述二级筛选操作后，由于还没有进行第三级体素单位的筛选，因此需要再将上述二级嵌套筛选第(4)步得出的包含特征体素的所有第二索引块(立方体21)作为第三级筛选时待划分的对象，按照第三级体素单位划分为多个索引块，再进行是否包含特征体素的判断。

在步骤S104中，依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型。

其中，步骤S103中确定出图像对应的至少一个特征体素之后，要得到目标场景的栅格体素模型，就要结合深度相机采集该帧图像时的相对相机位姿，对确定的至少一个特征体素进行融合计算得到目标场景的栅格体素模型。该栅格体素模型中的每一个体素中都存储有距离目标场景表面的距离以及表示观测不确定度的权值信息。

在一实施例中，本实施例中的栅格体素模型可以是TSDF模型，如图2所示，假设立方块21为多级嵌套筛选出的特征体素，按照公式

对每帧图像中的每个特征体素进行融合计算，从而得到目标场景的TSDF模型。其中，tsdf ^avg为当前特征体素的融合结果，tsdf _i-1为前一特征体素到目标场景表面的距离，w _i-1为前一特征体素的权值信息，tsdf _i为当前特征体素到目标场景表面的距离，w _i为当前特征体素的权值信息。

在一实施例中，在步骤S103筛选特征体素时，为了提高筛选速率，筛选出的特征体素中可能包括预设个数的体素单位对应的体素块(如一个特征体素可以是由8×8×8个体素块构成的)，此时在进行融合计算时可将每个特征体素中的体素块按照一定的个数进行融合计算，例如，可以是对特征体素中的8×8×8个体素块按照2×2×2个体素块作为一个融合对象(即一个体元)进行融合计算。

在一实施例中，可以并行同时对步骤S103中选出的特征体素进行融合计算，提高目标场景的栅格体素模型的融合速率。

在步骤S105中，生成栅格体素模型的等值面，得到目标场景的三维重建模型。

其中，步骤S104中得到的目标场景的栅格体素模型是特征体素到目标场景表面的距离模型，要得到目标场景的三维重建模型，还需要在栅格体素模型的基础上，生成等值面。例如，可以利用移动立方体(Marching Cubes)算法，进行等值面生成(即生成表示模型表面的三角面片)、三线性插值进行颜色提取与添加以及法向量提取，进而得到目标场景的三维重建模型。

深度相机在进行目标场景的图像采集时，相邻两帧图像中大部分的场景是重合的，为了提高三维重建模型的生成速率，在一实施例中，生成栅格体素模型的等值面可以包括：响应于确定采集目标场景得到的当前帧图像为关键帧，生成当前关键帧对应的体素块的等值面，并对等值面添加颜色，得到目标场景的三维重建模型。

其中，关键帧是对深度相机采集到的两帧图像之间的特征点相似度进行判断处理后设置的。例如可以为连续的相似度高的几帧图像设置一个关键帧，在进行等值面生成时，只对关键帧进行处理，生成每个关键帧图像对应体素块的等值面，此时得到的模型没有颜色信息，不易识别出图像中多个对象。例如重建的目标场景为汽车行驶环境的场景，此时生成等值面的模型中行人、车辆、公路是一体的，无法区分哪部分是行人，哪部分是车辆，因此还要根据每帧图像中的颜色信息，为生成的等值面添加颜色，进而能够清楚的识别目标场景的三维重建模型中多个对象。

需要说明的是，三维重建过程是一个实时动态的过程，随着相机对图像的采集，实时确定采集每帧图像时的相对相机位姿，并针对相应图像进行特征体素的确定、栅格体素模型及其等值面的生成。

本实施例提供了一种基于深度相机的三维重建方法，通过获取深度相机采集的目标场景图像，确定深度相机在采集目标场景图像时的相对相机位姿，采用至少两级嵌套筛选方式确定每帧图像的特征体素，并进行融合计算得到目标场景的栅格体素模型，生成栅格体素模型的等值面，得到目标场景的三维重建模型。在融合计算阶段，采用至少两级嵌套筛选方式确定每帧图像的特征体素，无需逐个体素进行遍历，减少计算量，在保证重建精度的同时，极大地提升了融合速度，进而可以提升三维重建的效率。避免了对目标场景进行三维重建时运算量大的情况，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

本实施例在上述实施例的基础上，对步骤S102中根据至少两帧图像确定深度相机对目标场景进行采集时的相对相机位姿进行了细化。图3为本申请实施例提供的确定深度相机对目标场景进行采集时的相对相机位姿的方法流程图，如图3所示，该方法包括步骤S301至步骤S305。

在步骤S301中，对每帧图像进行特征提取，得到每帧图像的至少一个特征点。

其中，对图像进行特征提取是为了找到该帧图像中一些具有标志性特征的像素点(即特征点)。例如，特征点可以是一帧图像中的角点、纹理、边缘处的像素点。对每帧图像进行特征提取可以采用快速特征点提取和描述(Oriented FAST and Rotated BRIEF，ORB)算法，找到该帧图像中的至少一个特征点。

在步骤S302中，对相邻两帧图像间的特征点进行匹配运算，得到相邻两帧图像间的特征点对应关系。

在对目标场景进行图像采集时，相邻两帧图像的大部分内容是一样的，因此两帧图像对应的特征点之间也存在着对应关系。在一实施例中，可以采用快速搜索方式(稀疏匹配算法)比较相邻两帧图像间的特征点之间的汉明距离，得到相邻两帧图像间的特征点对应关系。

在一实施例中，以相邻两帧图像间的一个特征点为例，假设两帧图像中表示同一个纹理特征的特征点X1，X2分别位于两帧图像的不同位置，以H(X1，X2)表示两个特征点X1， X2之间的汉明距离，对两特征点进行异或运算，并统计结果为1的个数，作为相邻两帧图像间的一个特征点的汉明距离(即特征点对应关系)。

在步骤S303中，移除特征点对应关系中的异常对应关系，通过包含剩余特征点二阶统计量的线性成分以及包含相对相机位姿的非线性成分，计算J(ξ) ^T J(ξ)中的非线性项

对δ＝-(J(ξ) ^TJ(ξ)) ^-1J(ξ) ^Tr(ξ)进行多次迭代计算，求解重投影误差小于预设误差阈值时的相对相机位姿。例如可使用高斯牛顿法进行迭代计算。例如可以计算重投影误差最小化时的位姿。

其中，r(ξ)表示包含所有重投影误差的向量，J(ξ)为r(ξ)的雅克比矩阵，ξ表示相对相机位姿的李代数，δ表示每次迭代时r(ξ)的增量值；R _i表示采集第i帧图像时相机的旋转矩阵；R _j表示采集第j帧图像时相机的旋转矩阵；

表示第i帧图像上的第k个特征点；

表示第j帧图像上的第k个特征点；C _i,j表示第i帧图像与第j帧图像的特征点对应关系的集合；||C _i,j||-1表示第i帧图像与第j帧图像的特征点对应关系的数量；[] _×表示向量积；||C _i,j||表示取C _i,j的范数。

在一实施例中，非线性项

的表达式为：

其中，

表示线性成分；r _il ^T和r _jl表示非线性成分，r _il ^T是旋转矩阵R _i中的第l行，r _jl是旋转矩阵R _j中的第l行的转置，l＝0,1,2(本实施例基于编程思想从0开始计数，即表示通常所说的矩阵第1行，依此类推)。

在一实施例中，步骤S302中得到的相邻两帧图像间的特征点对应关系中有一部分是异常对应关系。例如，相邻的两帧图像中，每帧图像中一定存在另一帧图像所没有的特征点，将它们进行步骤S302的匹配运算，就会出现异常的对应关系。在一实施例中，可以使用随机抽样一致(Random Sample Consensus，RANSAC)算法对异常对应关系进行移除处理，得到的剩余特征点对应关系可以表示为

其中，

表示第i帧图像与第j帧图像间第k个特征点之间的对应关系；j＝i-1。

在相对相机位姿确定时，必然会产生一定的误差，因此确定相机位姿就是求解以下式为代价函数的两帧图像之间的非线性最小二乘问题：

其中，E表示欧氏空间中第i帧图像相比于第j帧图像(本实施例中指上一帧图像)的重投影误差；T _i表示相机采集第i帧图像时的位姿(根据前述对相机位姿的解释可知，实际是指采集第i帧图像相对于上一帧图像的位姿变化)，T _j表示相机采集第j帧图像时的位姿；N表示相机采集到的总帧数；

表示第i帧图像上的第k个特征点

的齐次坐标，

表示第j帧图像上的第k个特征点

的齐次坐标。需要说明的是，当i和k取值相同时，

和

表示同一个点，区别在于

是本地坐标，

是齐次坐标。

在一实施例中，在进行相对相机位姿确定时，为了加快运算速率，并不是对上式的代价函数进行直接计算，而是通过包含剩余特征点二阶统计量对应关系的线性成分以及包含相对相机位姿的非线性成分计算J(ξ) ^TJ(ξ)中的非线性项

对δ＝-(J(ξ) ^TJ(ξ))- ¹J(ξ) ^Tr(ξ)进行多次迭代计算，求解重投影误差小于预设误差阈值时的相对相机位姿；由非线性项

的表达式可知，在进行非线性项

计算时，将两帧图像间固定的线性部分

看成一个整体W来进行计算，不需要按照特征点对应关系的数量进行计算，降低了相对相机位姿确定算法的复杂度，增强了相对相机位姿计算的实时性。

下面对式(1)的推导过程进行说明，并结合推导过程分析降低算法复杂度的原理。

欧氏空间中相机采集第i帧图像时的相机位姿T _i＝[R _i/t _i]，实际上T _i是指相机采集第i帧图像时相对于采集第j帧图像(本实施例中指上一帧图像)时的位姿变换矩阵，包括旋转矩阵R _i和平移矩阵t _i。将欧氏空间中的刚性变换T _i用SE3空间上的李代数ξ _i来表示，即ξ _i也表示相机采集第i帧图像时的相机位姿，T(ξ _i)将李代数ξ _i映射为欧氏空间中的T _i。

对于每个特征点对应关系

其重投影误差为：

式(1)中欧氏空间的重投影误差可表示为E(ξ)＝||r(ξ)||，r(ξ)表示包含所有重投影误差的向量，即：

可以表示为(为表示简便，以下省去ξ _i)：

其中，

表示旋转矩阵R _i中的第l行；t _il表示平移向量t _i中的第l个元素，l＝0,1,2。

其中，

表示第i帧图像与第j帧图像间特征点对应关系相应的雅克比矩阵；m表示第m个特征点对应关系。

是一个6×6方阵，

表示矩阵

的转置，

表达式如下：

其中，I _3×3表示3×3的单位矩阵。根据式(6)和式(7)，

中四个非零的6×6子矩阵为：

下面以

为例进行说明，其他三个非零子矩阵也类似计算，不再赘述。

其中，结合式(5)可以得到：

将

表示为W，结合式(5)，则可将式(10)中的非线性项

简化为式(1)，该非线性项中的结构项

被线性为W。虽然对结构项

而言，

是非线性的，但经过上述分析，

中的所有非零元素与C _i,j中结构项的二阶统计量成线性关系，结构项的二阶统计量为

和

也就是说，稀疏矩阵

对C _i,j中结构项的二阶统计量是元素线性的。

需要说明的是，每个对应关系

的雅克比矩阵均由几何项ξ _i，ξ _j和结构项

决定。对于同一帧对C _i,j中的所有对应关系，其对应的雅可比矩阵共享相同的几何项，但具有不同的结构项。对于一个帧对C _i,j，计算

时，相关技术中的算法依赖于C _i,j中特征点对应关系的数量，而本实施例可以固定的复杂度高效计算

只需计算结构项的二阶统计量W，而不需要每个对应关系都将相关的结构项去参与计算，即

中四个非零子矩阵可以用复杂度O(1)代替复杂度O(||C _i,j||)来计算。

因此，在δ＝-(J(ξ) ^TJ(ξ))- ¹J(ξ) ^Tr(ξ)的非线性高斯牛顿最优化的迭代步骤中需要的稀疏矩阵J ^TJ和J ^Tr可以复杂度O(M)高效计算，代替原来的计算复杂度O(N _coor)，N _coor表示所有帧对的全部特征点对应关系的总数，M表示帧对的个数。一般的，O(N _coor)在稀疏匹配中大约为300，而在稠密匹配中大约为10000，远大于帧对个数M。

经过上述推导，在相机位姿计算过程中，对于每个帧对，计算W，然后计算式(1)、(10、(9)、(8)和(6)，求取

进而可以通过迭代计算，求取r(ξ)最小时的ξ。

在步骤S304中，判断采集目标场景得到的当前帧图像是否为关键帧，基于当前帧图像是关键帧的判断结果，执行步骤S305，基于当前帧图像不是关键帧的判断结果，等待下一帧图像重新执行步骤S304。

其中，判断采集目标场景得到的当前帧图像是否为关键帧可以是：对采集目标场景得到的当前帧图像与上一关键帧图像进行匹配运算，得到两帧图像之间的转换关系矩阵；在转换关系矩阵大于或等于预设转换阈值的情况下，确定当前帧图像为当前关键帧。

在一实施例中，与S302中确定相邻两帧图像间特征点对应关系的方法类似，可以对当前帧图像与上一关键帧进行匹配运算，得到两帧图像之间的特征点对应关系矩阵，当该矩阵大于或等于预设转换阈值，则确定当前图像为当前关键帧。其中，两帧图像之间的转换关系矩阵可以是由两帧图像之间的特征点对应关系组成的矩阵。

需要说明的是，可以将采集目标场景得到的第一帧图像设置为第一个关键帧，预设转换阈值是根据深度相机采集图像时的运动情况提前设定的，例如，若相机拍摄相邻两帧图像时位姿变化较大，则预设转换阈值就设置大一些。

在步骤S305中，根据当前关键帧和历史关键帧进行回环检测；响应于确定回环成功，根据当前关键帧对已确定的相对相机位姿进行全局一致的优化更新。

其中，全局一致的优化更新是指在重建过程中，随着相机的运动，重建算法不断扩展目标场景的三维重建模型，而当深度相机运动到曾经到达的地方或与历史视角具有较大重叠时，扩展的三维重建模型和已生成的模型一致或一同优化更新为新的模型，而非产生交错、混叠等现象。回环检测则是依据深度相机当前观测判断该相机是否运动到曾经达到的地方或与历史视角具有较大重叠的地方，并以此优化减小累积误差。

为了提高优化速率，若前关键帧与历史关键帧回环检测成功(即深度相机运动到了曾经达到的地方或与历史视角具有较大重叠的地方)，则通过当前关键帧与历史关键帧对已生成的模型进行全局一致的优化更新，减小三维重建模型的误差；响应于确定回环检测不成功，等待下一关键帧的出现，对下一关键帧进行回环检测。在一实施例中，将当前关键帧与历史关键帧进行回环检测可以是将当前关键帧与历史关键帧的特征点进行匹配运算，若匹配度高，则说明回环成功。

在一实施例中，进行相对相机位姿的全局一致的优化更新，即依据当前关键帧和匹配度高的一个或多个历史关键帧之间的对应关系，求解以

为代价函数的当前关键帧与所有匹配度高的历史关键帧间的最小化转换误差问题。其中，E(T ₁,T ₂,···,T _N-1|T _i∈SE3,i∈[1,N-1])表示所有帧对(任意一个历史匹配关键帧与当前关键帧即为一个帧对)的转换误差；N为与当前关键帧匹配度高的历史关键帧的个数；E _i,j表示第i帧与第j帧之间的转换误差，转换误差即为重投影误差。

在一实施例中，在进行相对相机位姿更新优化的过程中，需要保持非关键帧和其对应的关键帧的相对位姿不变，优化更新算法使用相关技术中的BA算法，也可以使用步骤S303中的方法，具体不再赘述。

本实施例提供的确定深度相机对目标场景进行采集时的相对相机位姿的方法，提取每帧图像的至少一个特征点，并对相邻两帧图像间的特征点进行匹配运算，得到相邻两帧图像间特征点对应关系，移出其中的异常对应关系，通过包含剩余特征点对应关系的线性成分以及包含相对相机位姿的非线性成分计算相对相机位姿，并进行关键帧的判断，若当前采集到的图像为关键帧且回环检测成功，则根据当前关键帧和历史关键帧对已确定的相对相机位姿进行全局一致的优化更新。在保证全局一致的同时，减少了三维重建时的运算量，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

本实施例在上述实施例的基础上，对S103中针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素进行了解释说明。下面结合图5的确定至少一个特征体素的平面示意图，对图4的从图像中确定至少一个特征体素的方法进行示意说明，该方法包括步骤S401至步骤S406。

在步骤S401中，针对每帧图像，将该图像作为当前级筛选对象，并确定当前级体素单位。

其中，体素单位代表了构建的三维重建模型的精度，是根据要求重建的目标场景三维重建模型的精度提前设定的。例如，可以是5mm、10mm等。由于本实施例是采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，因此，会设置至少两级体素单位，其中最小级体素单位即为要求重建模型的精度。首先要将采集到的图像作为当前筛选对象，进行特征体素的筛选，此时的当前体素单位是预设的多级体素单位中最大级的体素单位。

示例性的，如图5所示，假设要实现基于CPU的100Hz帧率、5mm体素级精度模型的实时三维重建，且分别以20mm的体素单位和5mm的体素单位进行两级嵌套筛选特征体素。此时要以采集到的图像作为当前筛选对象，且当前级体素单位为20mm的体素单位。

在步骤S402中，将当前级筛选对象按照当前级体素单位划分为体素块，根据体素块确定至少一个当前索引块；其中，当前索引块包含预设个数的体素块。

其中，为了提高筛选速率，在对当前级筛选对象进行筛选时，可以根据当前体素单位划分的体素块按预设个数确定至少一个索引块，按照索引块进行特征体素的筛选，该方法与直接按照当前级体素单位划分的体素块进行筛选相比，提高了筛选的速率。需要说明的是此时的特征体素大小并不是一个体素块的大小，而是预设个数的体素块大小。

示例性的，如图5所示，假设当前索引块是由预设个数的8×8×8个体素块组成，将采集到的图像按照20mm的体素单位划分为多个边长为20mm的体素块，再将划分后的多个边长为20mm的体素块按照8×8×8的个数分成至少一个20mm体素单位对应的边长为160mm的索引块，映射到平面示意图中则是按照8×8的方框将整幅图像分为20mm体素单位对应的6 个边长为160mm的索引块。

在步骤S403中，在所有当前索引块中选取至少一个特征块，至少一个特征块到目标场景表面的距离小于当前级体素单位对应距离阈值。

其中，计算S402中确定的所有当前索引块到目标场景表面的距离，距离越小，说明该索引块距离目标场景表面的距离越近，每级体素单位都预先设定一个距离阈值，当索引块到目标场景表面的距离小于当前级体素单位对应的距离阈值时，则将该索引块选为特征块。其中上一级体素单位对应的距离阈值大于下一级体素单位对应的距离阈值。

在一实施例中，在所有当前索引块中选取至少一个特征块，至少一个特征块到目标场景表面的距离小于当前级体素单位对应距离阈值，可以是：针对每个当前索引块，按照当前索引块的哈希值访问索引块，依据采集每帧图像时的相对相机位姿及深度相机获取的图像深度值，分别计算当前索引块全部顶点到目标场景表面的距离；选取全部顶点到所述目标场景表面的距离均小于当前级体素单位对应距离阈值的当前索引块作为特征块。

在一实施例中，可以为每个当前索引块设置一个哈希值，通过哈希值来访问每个索引块，每个索引块具有多个顶点。按照公式sdf＝||ξ-S||-D(u,v)计算位于当前索引块每个顶点的体素块到目标场景表面的距离，其中，sdf表示体素块(索引块的每个顶点处的体素块)到目标场景表面的距离；ξ表示采集该帧图像时的相对相机位姿；S表示该体素块在重建空间的栅格体素体素模型中的坐标；D(u,v)表示该体素块在深度相机获取图像中对应的深度值。当该索引块全部顶点到目标场景表面距离均小于当前级体素单位对应的距离阈值时，将该索引块设置为特征块；若大于或等于当前级体素单位对应的距离时，则将该索引块移除。在一实施例中，也可以计算该索引块全部顶点到目标场景表面距离的平均值，若平均值小于当前体素单位对应的距离阈值时，将该索引块设置为特征块。示例性的，如图5所示，图中边长为160mm的斜线方格为20mm体素单位划分的待移除索引块，即该部分索引块到目标场景表面距离大于20mm体素单位对应的距离阈值。

在步骤S404中，判断特征块是否满足最小级体素单位的划分条件，基于特征块满足最小级体素单位的划分条件的判断结果，执行步骤S405，基于特征块不满足最小级体素单位的划分条件的判断结果，执行步骤S406。

其中，判断特征块是否满足最小级体素单位的划分条件，即判断步骤S403中选出的特征块是否是预设的最小级体素单位划分后选取的特征块。示例性的，如图5所示，若步骤S403中选取的特征块是20mm体素单位划分的边长为160mm的特征块，而最小级体素单位为5mm的体素单位，则说明步骤S403中选取的特征块不满足最小级5mm体素单位的划分条件，执行步骤S406，进行下一级5mm体素单位的筛选；若步骤S403中选取的特征块是5mm体素单位划分的边长为40mm的特征块，则说明步骤S403中选取的特征块满足最小级5mm体素单位的划分条件，执行步骤S405将该特征块作为特征体素。

在步骤S405中，将该特征块作为特征体素。

在步骤S406中，将当前级筛选对象确定的所有特征块替换为新的当前级筛选对象，并选择下一级体素单位替换为新的当前级体素单位，返回执行步骤S402。

其中，当步骤S403中选取特征块不满足最小级体素单位的划分条件时，则将步骤S403中选出的所有特征块作为新的当前级筛选对象，选择下一级体素单位作为当前级体素单位，返回执行步骤S402，再次进行特征块的筛选。

示例性的，如图5所示，若判断出步骤S403选取的特征块是20mm体素单位划分的边长为160mm的特征块，并不是最小级5mm体素单位划分的边长为40mm的特征块，此时将20mm体素单位划分的边长为160mm的所有特征块作为当前级筛选对象，选择下一级5mm体素单位作为当前级体素单位，返回执行步骤S402，将步骤S403筛选出的边长为160mm的所有特征块按照5mm的体素单位划分为多个边长为5mm的体素块，再将划分后的多个边长为5mm的体素块按照8×8×8的个数分成至少一个5mm体素单位对应的边长为40mm的索引块，映射到平面示意图中则是按照8×8的方框将整幅图像分为5mm体素单位对应的32个边长为40mm的索引块，然后再执行步骤S403和步骤S404，此时，得到的边长为40mm的特征块(如图中边长为40mm对应的空白方格)为最小级5mm体素单位划分后选取的特征块，即该特征块为选定的特征体素，而图5中边长为40mm的点状方格为5mm体素单位划分的待移除索引块。

本实施例提供的从图像中确定至少一个特征体素的方法，通过针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素。避免了对目标场景进行三维重建时运算量大的情况，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

本实施例在上述实施例的基础上，提供了一种基于深度相机的三维重建的示例实施例，如图6所示，该方法包括步骤S601至步骤S6011。

在步骤S601中，获取深度相机对目标场景进行采集得到的至少两帧图像。

在步骤S602中，根据至少两帧图像，确定深度相机对目标场景进行采集时的相对相机位姿。

在步骤S603中，判断采集目标场景得到的当前帧图像是否为关键帧，基于当前帧图像是关键帧的判断结果，存储该关键帧并执行步骤S604，基于当前帧图像不是关键帧的判断结果，等待下一帧图像重新执行步骤S603。

其中，对于相机采集的每帧图像，都可以判断该帧图像是否为关键帧，并存储判断出的关键帧，以按照关键帧率生成等值面以及作为历史关键帧在后续回环优化中使用。需要说明的是，相机采集的第一帧默认作为关键帧。

在步骤S604中，根据当前关键帧和历史关键帧进行回环检测，响应于确定回环成功，执行步骤S608(以进行栅格体素模型和等值面的优化更新)和步骤S6011(以进行相对相机位姿的优化更新)。

在步骤S605中，针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则。

在步骤S606中，依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型。

在步骤S607中，生成栅格体素模型的等值面，得到目标场景的三维重建模型。

在步骤S608中，在历史关键帧中选取与当前关键帧匹配的第一预设个数的匹配关键帧，并分别在选取的每个匹配关键帧对应的非关键帧中获取第二预设个数的非关键帧。

其中，为了实现模型重建的全局一致性，在采集的当前帧图像为关键帧的情况下，要在历史关键帧中选取与当前关键帧匹配的第一预设个数的匹配关键帧，在一实施例中，可以对当前关键帧与历史关键帧进行匹配运算，例如，可以计算当前关键帧与历史关键帧之间特征点间的汉明距离来完成当前关键帧与历史关键帧间的匹配。选取与当前关键帧匹配度高的第一预设个数的历史关键帧，例如，选择与当前关键帧匹配度高的10个历史关键帧。每个关键帧都有与其对应的非关键帧，对每一个选出的匹配度高的历史关键帧，还要在其对应的非关键帧中选出第二预设个数的非关键帧，在一实施例中，可以在该历史关键帧对应的所有非关键帧中平均、分散地选取最多不超过11个的非关键帧，以提高优化更新效率的同时使优化帧选取更具有代表性。第一预设个数和第二预设个数可以是根据更新三维重建模型时的需要提前设定的。

在步骤S609中，根据当前关键帧与每个匹配关键帧的对应关系以及获取的非关键帧对三维重建模型的栅格体素模型进行优化更新。

其中，对三维重建模型的栅格体素模型进行优化更新分为对特征体素的更新以及对目标场景的栅格体素模型的更新。

在一实施例中，在进行特征体素的更新时，考虑到深度相机采集相邻两帧图像时的视角重叠过大，导致相邻两帧图像选取的特征体素几乎一致，且对每帧图像都进行一次特征体素的优化更新耗时较长，因此在更新特征体素时只对匹配的历史关键帧重新执行步骤S605完成特征体素的优化更新。

由于步骤S606生成目标场景的栅格体素模型是对每一帧图像进行处理后生成的，因此在进行目标场景的栅格体素模型的更新时，对匹配度高的历史关键帧及其对应的非关键帧都要进行优化更新，即在每一个关键帧到来之时，对步骤S608中选取的与当前关键帧匹配度高的第一预设个数的历史关键帧及每个历史关键帧对应的第二预设个数的非关键帧，去除对应融合数据，重新执行步骤S606进行融合计算，完成对目标场景的栅格体素模型的优化更新。

其中，无论是初始得到目标场景的栅格体素模型时的融合计算，还是栅格体素模型优化更新阶段的融合计算，可以将一个体素块作为一个融合对象进行融合计算。为了提高融合效率，也可将预设个数的体素块作为一个融合对象进行融合计算，例如大小为2×2×2个体素块的体元。

在步骤S610中，根据当前关键帧与每个匹配关键帧的对应关系对三维重建模型的等值面进行优化更新。

由于步骤S607仅对关键帧生成栅格体素模型的等值面，因此在进行等值面更新时，可以是只对步骤S608中选取的与当前关键帧匹配度高的历史关键重新执行步骤S607进行匹配关键帧的等值面的更新。

为了加快模型更新优化速度，对三维重建模型的等值面进行优化更新可以是：针对每个匹配关键帧，在所述当前关键帧对应的多个体素块中，选取至少一个体素块，所述至少一个体素块到目标场景表面的距离小于或等于所述匹配关键帧中对应体元的更新阈值；依据选取的至少一个体素块对每个匹配关键帧的等值面进行优化更新。

其中，更新阈值可以是在步骤S607生成栅格体素模型的等值面的同时，针对生成等值面所使用的关键帧中的每个体元，选取该体元中体素块到目标场景表面的距离的最大值，将所述最大值设置为该体元的更新阈值。也就是说，生成等值面所使用的关键帧中每个体元都设置有对应的更新阈值。

在一实施例中，可以计算当前关键帧的所有体素块到目标场景表面的距离，然后针对每个匹配关键帧，根据当前关键帧与该匹配关键帧的对应关系，确定该两帧图像的体元对应关系。按照体元对应关系在该匹配关键帧中找到与当前关键帧中当前体元对应的体元，以确定对应的更新阈值，然后在当前体元的多个体素块中选取至少一个体素块，所述至少一个体素块到目标场景表面的距离小于或等于该更新阈值。由此逐个对当前关键帧中每个体元执行如上选取操作，完成了体素块的过滤，根据选取的体素块进行等值面优化更新，得到等值面的过程与步骤S607类似，不再赘述。而距离大于更新阈值的体素块为需忽略的体素块，不对其进行任何操作。由此过滤了部分体素块，能提高计算速度。

在一实施例中，为了避免访问一个体素块就要在哈希表中搜索一次哈希值，可以在访问体素块时一并在哈希表中搜索相邻的多个体素块的哈希值进行处理。

在步骤S6011中，根据当前关键帧对已确定的相对相机位姿进行全局一致的优化更新。更新相对相机位姿，以便于更新对应的栅格体素模型时使用。

为了保证三维重建的实时性，可以在步骤S601进行目标场景图像采集的同时，实时对每帧图像进步骤行S602相对相机位姿的确定以及步骤S603关键帧的判断，即一边采集图像一边进行位姿的计算及关键帧判断。且步骤S605到步骤S607生成目标场景的三维重建模型的过程与步骤S608到步骤S610对生成的三维重建模型进行更新的过程也是同时进行的，即在生成三维重建模型的过程中完成对已建部分模型的优化更新。

本实施例提供了一种基于深度相机的三维重建方法，通过获取深度相机采集的目标场景图像，确定深度相机在采集目标场景图像时的相对相机位姿，采用至少两级嵌套筛选方式确定每帧图像的特征体素，并进行融合计算得到目标场景的栅格体素模型，生成栅格体素模型的等值面，得到目标场景的三维重建模型，并根据当前关键帧、多个匹配关键帧以及多个匹配关键帧的非关键帧对目标场景的三维重建模型进行优化更新，保证模型的全局一致性。避免了对目标场景进行三维重建时运算量大的情况，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

图7为本申请实施例提供的一种基于深度相机的三维重建装置的结构框图，该装置可执行本申请任意实施例所提供的基于深度相机的三维重建方法，具备执行方法相应的功能模块。该装置可以基于CPU实现。如图7所示，该装置包括图像获取模块701，位姿确定模块702，体素确定模块703，模型生成模块704以及三维重建模块705。

图像获取模块701，设置为获取深度相机对目标场景进行采集得到的至少两帧图像。

位姿确定模块702，设置为根据至少两帧图像，确定深度相机对目标场景进行采集时的相对相机位姿。

体素确定模块703，设置为针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则。

模型生成模块704，设置为依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型。

三维重建模块705，设置为生成栅格体素模型的等值面，得到目标场景的三维重建模型。

在一实施例中，三维重建模块705，设置为响应于确定采集目标场景得到的当前帧图像为关键帧，生成当前关键帧对应的体素块的等值面，并对等值面添加颜色，得到目标场景的三维重建模型。

本实施例提供了一种基于深度相机的三维重建装置，通过获取深度相机采集的目标场景图像，确定深度相机在采集目标场景图像时的相机位姿，采用至少两级嵌套筛选方式确定每帧图像的特征体素，并进行融合计算得到目标场景的栅格体素模型，生成栅格体素模型的等值面，得到目标场景的三维重建模型。避免了对目标场景进行三维重建时运算量大的情况，实现了将三维重建应用于便携化的设备中，使得三维重建的应用更加广泛。

在一实施例中，上述位姿确定模块702包括特征点提取单元，匹配运算单元和位姿确定单元。

特征点提取单元，设置为对每帧图像进行特征提取，得到每帧图像的至少一个特征点。

匹配运算单元，设置为对相邻两帧图像间的特征点进行匹配运算，得到相邻两帧图像间的特征点对应关系。

位姿确定单元，设置为移除特征点对应关系中的异常对应关系，通过包含剩余特征点二阶统计量的线性成分以及包含相对相机位姿的非线性成分计算J(ξ) ^TJ(ξ)中的非线性项

对δ＝-(J(ξ) ^TJ(ξ)) ^-1J(ξ) ^Tr(ξ)进行多次迭代计算，求解重投影误差小于预设误差阈值时的相对相机位姿。

表示第i帧图像上的第k个特征点；

在一实施例中，非线性项

的表达式为：

其中，

表示线性成分；r _il ^T和r _jl表示非线性成分，r _il ^T是旋转矩阵R _i中的第l行，r _jl是旋转矩阵R _j中的第l行的转置，l＝0,1,2。

在一实施例中，上述装置还包括关键帧确定模块，回环检测模块以及位姿更新模块。

关键帧确定模块，设置为对采集目标场景得到的当前帧图像与上一关键帧图像进行匹配运算，得到两帧图像之间的转换关系矩阵；若转换关系矩阵大于或等于预设转换阈值，则确定当前帧图像为当前关键帧。

回环检测模块，设置为响应于确定采集目标场景得到的当前帧图像为关键帧，根据当前关键帧和历史关键帧进行回环检测。

位姿更新模块，设置为响应于确定回环成功，根据当前关键帧对已确定的相对相机位姿进行全局一致的优化更新。

在一实施例中，上述体素确定模块703包括初始确定单元，索引块确定单元，特征块选取单元，特征体素确定单元以及循环单元。

初始确定单元，设置为针对每帧图像，将图像作为当前级筛选对象，并确定当前级体素单位。

索引块确定单元，设置为将当前级筛选对象按照当前级体素单位划分为体素块，根据体素块确定至少一个当前索引块；其中，当前索引块包含预设个数的体素块。

特征块选取单元，设置为在所有当前索引块中选取至少一个特征块，所述至少一个特征块到目标场景表面的距离小于当前级体素单位对应距离阈值的。

特征体素确定单元，设置为如果特征块满足最小级体素单位的划分条件，则将特征块作为特征体素。

循环单元，设置为如果特征块不满足最小级体素单位的划分条件，则将当前级筛选对象确定的所有特征块替换为新的当前级筛选对象，并选择下一级体素单位替换为新的当前级体素单位，返回执行针对当前级筛选对象的体素块划分操作；其中，体素单位逐级减小至最小级体素单位。

在一实施例中，上述特征块选取单元，设置为：针对每个当前索引块，按照当前索引块的哈希值访问索引块，依据采集每帧图像时的相对相机位姿及深度相机获取的图像深度值，分别计算当前索引块全部顶点到目标场景表面的距离；选取全部顶点到所述目标场景表面的距离均小于当前级体素单位对应距离阈值的当前索引块作为特征块。

在一实施例中，上述装置还包括匹配帧确定模块，模型更新模块以及等值面更新模块。

匹配帧确定模块，设置为响应于确定采集目标场景得到的当前帧图像为关键帧，在历史关键帧中选取与当前关键帧匹配的第一预设个数的匹配关键帧，并分别在选取的每个匹配关键帧对应的非关键帧中获取第二预设个数的非关键帧。

模型更新模块，设置为根据当前关键帧与每个匹配关键帧的对应关系以及获取的非关键帧对三维重建模型的栅格体素模型进行优化更新。

等值面更新模块，设置为根据当前关键帧与每个匹配关键帧的对应关系对三维重建模型的等值面进行优化更新。

在一实施例中，等值面更新模块，设置为针对每个匹配关键帧，在当前关键帧对应的多个体素块中选取至少一个体素块，至少一个体素块到目标场景表面的距离小于或等于匹配关键帧中对应体元的更新阈值；依据选取的至少一个体素块对匹配关键帧的等值面进行优化更新。

其中，三维重建模块705在生成当前关键帧图像对应的体素块的等值面的同时，还设置为针对生成等值面所使用的关键帧中的每个体元，选取该体元中所有体素块到所述目标场景表面的距离的最大值，将所述最大值设置为该体元的更新阈值。

图8为本申请实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备包括存储装置80、一个或多个处理器81和至少一个深度相机82；电子设备的存储装置80、处理器81和深度相机82可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储装置80作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的基于深度相机的三维重建装置对应的模块(例如，设置为基于深度相机的三维重建装置中的图像获取模块701)。处理器81通过处理存储在存储装置80中的软件程序、指令以及模块，从而执行电子设备设备的多种功能应用以及数据处理，即实现上述的基于深度相机的三维重建方法。在一实施例中，处理器81可以为中央处理器或高性能的图形处理器。

存储装置80可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置80可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置80可包括相对于处理器81远程设置的存储装置，这些远程存储装置可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

深度相机82可设置为在处理器81的控制下对目标场景进行图像采集。该深度相机可嵌入式安装在电子设备中，在一实施例中，该电子设备可以是便携式移动电子设备，例如，该电子设备可以是智能终端(手机、平板电脑)或三维视觉交互设备(虚拟现实(Virtual Reality，VR)眼镜、可戴式头盔)，可以进行移动、旋转等操作下的图像拍摄。

本实施例提供的一种电子设备可设置为执行上述任意实施例提供的基于深度相机的三维重建方法，具备相应的功能。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述实施例的基于深度相机的三维重建方法。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电子设备上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本申请实施例提供的基于深度相机的三维重建方案，在融合计算阶段，采用由粗到细的嵌套筛选策略及稀疏采样的思想进行特征体素的选取，在保证重建精度的同时，极大地提升了融合速度；以关键帧率进行等值面的生成，能够提升等值面的生成速度；提升了三维重建效率。另外，通过优化更新阶段能够有效保证三维重建的全局一致性。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本申请实施例的各模块或各操作可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，例如，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成集成电路模块，或者将它们中的多个模块或操作制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件的结合。

本说明书中的实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，实施例之间的相同或相似的部分互相参见即可。

Claims

一种基于深度相机的三维重建方法，包括：

获取深度相机对目标场景进行采集得到的至少两帧图像；

根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿；

针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则；

依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型；

生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型。
根据权利要求1所述的方法，其中，根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿，包括：

对每帧图像进行特征提取，得到每帧图像的至少一个特征点；

对相邻两帧图像间的特征点进行匹配运算，得到所述相邻两帧图像间的特征点对应关系；

移除所述特征点对应关系中的异常对应关系，通过包含剩余特征点二阶统计量的线性成分以及包含相对相机位姿的非线性成分，计算J(ξ) ^TJ(ξ)中的非线性项
对δ＝-(J(ξ) ^TJ(ξ))- ¹J(ξ) ^Tr(ξ)进行多次迭代计算，求解重投影误差小于预设误差阈值时的相对相机位姿；

其中，r(ξ)表示包含所有重投影误差的向量，J(ξ)为r(ξ)的雅克比矩阵，ξ表示相对相机位姿的李代数，δ表示每次迭代时r(ξ)的增量值；R _i表示采集第i帧图像时相机的旋转矩阵；R _j表示采集第j帧图像时相机的旋转矩阵；
表示第i帧图像上的第k个特征点；
表示第j帧图像上的第k个特征点；C _i,j表示第i帧图像与第j帧图像的特征点对应关系的集合；||C _i,j||-1表示第i帧图像与第j帧图像的特征点对应关系的数量；[] _×表示向量积；||C _i,j||表示取C _i,j的范数。
根据权利要求2所述的方法，其中，所述非线性项
的表达式为：

其中，
表示线性成分；r _il ^T和r _jl表示非线性成分，r _il ^T是旋转矩阵R _i中的第l行，r _jl是旋转矩阵R _j中的第l行的转置，l＝0,1,2。
根据权利要求1或2所述的方法，根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿之后，还包括：

响应于确定采集所述目标场景得到的当前帧图像为当前关键帧，根据当前关键帧和历史关键帧进行回环检测；

响应于确定回环成功，根据所述当前关键帧对已确定的相对相机位姿进行全局一致的优化更新。
根据权利要求4所述的方法，在根据当前关键帧和历史关键帧进行回环检测之前，还包括：

对采集所述目标场景得到的当前帧图像与上一关键帧图像进行匹配运算，得到两帧图像之间的转换关系矩阵；

响应于确定所述转换关系矩阵大于或等于预设转换阈值，确定所述当前帧图像为所述当前关键帧。
根据权利要求1所述的方法，其中，针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，包括：

针对每帧图像，将每帧图像作为当前级筛选对象，并确定当前级体素单位；

将所述当前级筛选对象按照当前级体素单位划分为体素块，根据体素块确定至少一个当前索引块；其中，所述当前索引块包含预设个数的体素块；

在所有当前索引块中选取至少一个特征块，所述至少一个特征块到目标场景表面的距离小于所述当前级体素单位对应距离阈值；

在所述特征块满足最小级体素单位的划分条件的情况下，将所述特征块作为特征体素；

在所述特征块不满足最小级体素单位的划分条件的情况下，将当前级筛选对象确定的所有特征块替换为新的当前级筛选对象，并选择下一级体素单位替换为新的当前级体素单位，返回执行针对当前级筛选对象的体素块划分操作；

其中，体素单位逐级减小至最小级体素单位。
根据权利要求6所述的方法，其中，在所有当前索引块中选取至少一个特征块，所述至少一个特征块到目标场景表面的距离小于所述当前级体素单位对应距离阈值，包括：

针对每个当前索引块，所述每个当前索引块具有多个顶点，按照当前索引块的哈希值访问索引块，依据采集每帧图像时的相对相机位姿及深度相机获取的图像深度值，分别计算所述当前索引块的每个顶点到所述目标场景表面的距离；

选取每个顶点到所述目标场景表面的距离均小于所述当前级体素单位对应距离阈值的当前索引块，作为特征块。
根据权利要求1所述的方法，其中，生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型，包括：

响应于确定采集所述目标场景得到的当前帧图像为关键帧，生成当前关键帧对应的体素块的等值面，并对所述等值面添加颜色，得到所述目标场景的三维重建模型。
根据权利要求1所述的方法，在生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型之后，还包括：

响应于确定采集所述目标场景得到的当前帧图像为当前关键帧，在历史关键帧中选取与当前关键帧匹配的第一预设个数的匹配关键帧，并分别在选取的每个匹配关键帧对应的非关键帧中获取第二预设个数的非关键帧；

根据所述当前关键帧与所述每个匹配关键帧的对应关系，以及获取的非关键帧，对所述三维重建模型的栅格体素模型进行优化更新；

根据所述当前关键帧与所述每个匹配关键帧的对应关系，对所述三维重建模型的等值面进行优化更新。
根据权利要求9所述的方法，其中，根据所述当前关键帧与所述每个匹配关键帧的对应关系，对所述三维重建模型的等值面进行优化更新，包括：

针对每个匹配关键帧，在所述当前关键帧对应的多个体素块中，选取至少一个体素块，所述至少一个体素块到所述目标场景表面的距离小于或等于所述匹配关键帧中对应体元的更新阈值；

依据选取的所述至少一个体素块对所述匹配关键帧的等值面进行优化更新。
根据权利要求10所述的方法，其中，生成所述栅格体素模型的等值面，包括：

针对生成等值面所使用的关键帧中的每个体元，选取该体元中所有体素块到所述目标场景表面的距离的最大值，将所述最大值设置为该体元的更新阈值。
一种基于深度相机的三维重建装置，包括：

图像获取模块，设置为获取深度相机对目标场景进行采集得到的至少两帧图像；

位姿确定模块，设置为根据所述至少两帧图像，确定所述深度相机对目标场景进行采集时的相对相机位姿；

体素确定模块，设置为针对每帧图像，采用至少两级嵌套筛选方式从每帧图像中确定至少一个特征体素，其中，每级筛选采用与每级筛选对应的体素分块规则；

模型生成模块，设置为依据每帧图像的相对相机位姿对每帧图像的至少一个特征体素进行融合计算，得到目标场景的栅格体素模型；

三维重建模块，设置为生成所述栅格体素模型的等值面，得到所述目标场景的三维重建模型。
一种电子设备，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序；

至少一个深度相机，设置为对目标场景进行图像采集；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-11中任一所述的基于深度相机的三维重建方法。
根据权利要求13所述的设备，所述至少一个处理器为中央处理器；所述电子设备为便携式移动电子设备。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11中任一所述的基于深度相机的三维重建方法。