WO2022151661A1

WO2022151661A1 - 一种三维重建方法、装置、设备及存储介质

Info

Publication number: WO2022151661A1
Application number: PCT/CN2021/102117
Authority: WO
Inventors: 鲍虎军; 周晓巍; 孙佳明; 谢一鸣
Original assignee: 浙江商汤科技开发有限公司
Priority date: 2021-01-15
Filing date: 2021-06-24
Publication date: 2022-07-21
Also published as: JP2023514107A; US20230290099A1; KR20220120674A; JP7352748B2; CN112750201A; CN112750201B

Abstract

一种三维重建方法、装置、设备及存储介质，其中，三维重建方法包括：获取用于本次重建的若干帧第一关键图像，并确定包围若干帧第一关键图像的视锥的第一空间(S11)；其中，第一关键图像是对待重建目标拍摄得到的；基于若干帧第一关键图像中的图像信息，得到第一空间的第一特征图(S12)，其中，第一特征图包括第一空间中体素的第一特征信息；基于第一特征图，得到本次重建的第一重建结果(S13)；基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新(S14)。上述方法，能够提高三维重建过程的实时性以及三维重建结果的平滑度。

Description

一种三维重建方法、装置、设备及存储介质

相关申请的交叉引用

本专利申请要求2021年01月15提交的中国专利申请号为202110057035.9，申请人为浙江商汤科技开发有限公司，申请名称为“三维重建方法及相关装置、设备”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种三维重建方法、装置、设备及存储介质。

背景技术

随着电子信息技术的发展，通过手机、平板电脑等集成有摄像头的电子设备对真实场景中的物体进行三维重建，在诸多应用场景中均得到了广泛应用。例如，可以应用于AR(Augmented Reality，增强现实)等下游应用之中，而为了增强AR效果和物理场景之间的沉浸感，三维重建结果需要尽可能地平滑，且三维重建过程需要尽可能地实时。有鉴于此，如何提高三维重建过程的实时性以及三维重建结果的平滑度成为极具研究价值的课题。

发明内容

本申请实施例提供一种三维重建方法、装置、设备及存储介质。

本申请实施例提供了一种三维重建方法，包括：获取用于本次重建的至少两帧第一关键图像，并确定包围至少两帧第一关键图像的视锥的第一空间；其中，第一关键图像是对待重建目标拍摄得到的；基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，其中，第一特征图包括第一空间中体素的第一特征信息；基于第一特征图，得到本次重建的第一重建结果；基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。

因此，通过获取用于本次重建的至少两帧第一关键图像，并确定包围至少两帧第一关键图像的视锥的第一空间，且第一关键图像是对待重建目标拍摄得到的，在此基础上基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，且第一特征图包括第一空间中体素的第一特征信息，从而基于第一特征图，得到本次重建的第一重建结果，进而基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新，故此每次重建过程中，均能够对包围至少两帧第一关键图像的视锥的第一空间整体进行三维重建，从而不仅能够大大降低计算负荷，还能够降低重建结果出现分层或分散的概率，进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。

其中，在获取用于本次重建的至少两帧第一关键图像之后，方法还包括：分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图；基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，包括：基于第一空间的各体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图。

因此，通过分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图，从而基于第一空间的各体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图，故能够融合各帧第一关键图像的第二特征图，得到第一空间的第一特征图，有利于提高第一特征图的准确性，进而能够有利于提高三维重建的准确性。

其中，基于第一空间的各体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图，包括：分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息；将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息；基于第一空间的各体素的第一特征信息，得到第一空间的第一特征图。

因此，通过分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息，并将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息，从而基于第一空间的各体素的第一特征信息，得到第一空间的第一特征图，故此对于第一空间中每一体素而言，均融合有对应每帧第一关键图像的第二特征信息，能够有利于进一步提高第一空间的第一特征图的精准性。

其中，将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息，包括以下至少之一：将体素对应每帧第一关键图像的第二特征信息的平均值，作为体素的第一特征信息；在分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息之后，方法还包括：在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下，将预设特征信息作为体素的第一特征信息。

因此，通过将体素对应每帧第一关键图像的第二特征信息的平均值，作为体素的第一特征信息，能够降低获取第一特征信息的复杂度，从而能够有利于提高三维重建的速度，进而能够有利于进一步提高三维重建过程的实时性；而在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下，将预设特征信息作为体素的第一特征信息，能够有利于进一步降低获取第一特征信息的复杂度。

其中，每帧第一关键图像的第二特征图均包括对应不同分辨率的预设数量张第二特征图；第一空间包括对应不同分辨率的预设数量个第一空间，分辨率越高，第一空间中体素的尺寸越小；第一特征图包括对应不同分辨率的预设数量张第一特征图，每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到。

因此，通过将每帧第一关键图像的第二特征图设置为均包括对应不同分辨率的预设数量张第二特征图，且第一空间包括对应不同分辨率的预设数量个第一空间，分辨率越高，第一空间中体素的尺寸越小，此外将第一特征图设置为包括对应不同分辨率的预设数量张第一特征图，每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到，故能够有利于通过不同分辨率的预设数量张第二特征图来进行三维重建，从而能够有利于进一步提高三维重建的精细度。

其中，基于第一特征图，得到本次重建的第一重建结果，包括：按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率；将上一次选择的分辨率对应的第一重建结果进行上采样，并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合，得到与当前分辨率对应的融合特征图；基于融合特征图，得到与当前分辨率对应的第一重建结果；在当前分辨率并非最高分辨率的情况下，重新执行按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率的步骤以及后续步骤；在当前分辨率为最高分辨率的情况下，将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。

因此，通过按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率，并将上一次选择的分辨率对应的第一重建结果进行上采样，将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合，得到与当前分辨率对应的融合特征图，在此基础上基于融合特征图，得到与当前分辨率对应的第一重建结果，从而在当前分辨率并非最高分辨率的情况下，重新执行按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率的步骤以及后续步骤，或者在当前分辨率为最高分辨率的情况下，将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果，故此能够由基于“低分辨率”的第一特征图至基于“高分辨率”的第一特征图逐渐进行三维重建，从而能够有利于实现“由粗到细”的三维重建，进而能够有利于进一步提高三维重建的精细度。

其中，基于第一特征图，得到本次重建的第一重建结果，包括：基于第一特征图进行预测，得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值；其中，第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离；选择第一空间中概率值满足预设条件的体素；基于选择的体素的第一重建值，得到本次重建的第一重建结果。

因此，通过基于第一特征图进行预测，得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值，且第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离，并选择第一空间中概率值满足预设条件的体素，从而基于选择的体素的第一重建值，得到本次重建的第一重建结果，故能够滤除概率值不满足预设条件的体素对于三维重建的干扰，能够有利于进一步提高三维重建的准确性。

其中，第一重建结果包括第一空间中体素的第一重建值，第二重建结果包括第二空间中体素的第二重建值，第二空间是包围之前重建的第二关键图像的视锥的总空间，第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离；基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新，包括：基于第一空间中体素的第一重建值，更新第二空间中对应体素的第二重建值。

因此，通过将第一重建结果设置为包括第一空间中体素的第一重建值，第二重建结果设置为包括第二空间中体素的第二重建值，且第二空间是包围之前重建的第二关键图像的视锥的总空间，第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离，在此基础上基于第一空间中体素的第一重建值，更新第二空间中对应体素的第二重建值，以对之前重建得到的第二重建结果进行更新，能够有利于在三维重建过程中基于本次重建过程中第一空间中体素的第一重建值，更新之前重建得到的第二重建结果，进而能够有利于在重建过程中不断完善第二重建结果，提高三维重建的准确性。

其中，关联物体表面为待重建目标中与体素距离最近的物体表面。

因此，通过将关联物体表面设置为待重建目标中与体素距离最近的物体表面，能够有利于进一步提高三维重建的准确性。

其中，第一重建结果是采用三维重建模型得到的；基于第一特征图，得到本次重建的第一重建结果，包括：获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态；其中，第一历史隐层状态包括第二空间中体素对应的状态值，第二空间是包围之前重建的第二关键图像的视锥的总空间；从第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态；基于融合网络执行：基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态；采用三维重建模型对本次隐层状态进行预测，得到第一重建结果。

因此，通过将第一重建结果设置为是采用三维重建模型得到的，并获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态，且第一历史隐层状态包括第二空间中体素对应的状态值，第二空间是包围之前重建的第二关键图像的视锥的总空间，在此基础上从第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态，从而基于融合网络执行：基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态，进而采用三维重建模型对本次隐层状态进行预测，得到第一重建结果，故此每次重建过程中均能参考之前重建所得到的第一历史隐层状态，能够有利于提高本次重建与之前重建的一致性，从而能够有利于降低本次重建结果与之前重建结果之间发生分层或分散的概率，进而能够有利于进一步提高三维重建结果的平滑度。

其中，在本次重建为首次重建的情况下，第一历史隐层状态中的状态值为预设状态值。

因此，在本次重建为首次重建的情况下，通过将第一历史隐层状态中的状态值设置为预设状态值，能够有利于提高三维重建的鲁棒性。

其中，融合网络包括：门控循环单元；三维重建模型还包括预测网络，采用三维重建模型对本次隐层状态进行预测，得到第一重建结果，包括：基于预测网络对本次隐层状态进行预测，得到第一重建结果。

因此，通过将融合网络设置为包括门控循环单元，能够有利于通过门控循环单元引入选择性注意机制，从而能够有利于在三维重建过程中选择性地参考之前重建所得到的第一历史隐层状态，进而能够有利于提高三维重建的准确性；而通过将三维重建模型设置为包括预测网络，从而基于预测网络对本次隐层状态进行预测，得到第一重建结果，能够有利于提高三维重建的效率。

其中，在基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态之前，方法还包括：对第一特征图进行几何信息提取，得到几何特征图；其中，几何特征图包括体素的几何信息；基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态，包括：基于几何特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态。

因此，通过对第一特征图进行几何信息提取，得到几何特征图，且几何特征图包括体素的几何信息，在此基础上基于几何特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态，能够在提取得到的体素的几何信息的基础上对本次重建的第一空间的第二历史隐层状态进行更新，有利于提高三维重建的准确性。

其中，在基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态之后，方法还包括：基于本次隐层状态中的状态值，更新第一历史隐层状态中相应体素对应的状态值。

因此，通过基于本次隐层状态中的状态值，更新本次重建的第一空间的第二历史隐层状态中相应体素对应的状态值，故能够在更新得到本次隐层状态之后，进一步更新第二空间的第一历史隐层状态，有利于在本次重建的基础上进一步提高第二空间的第一历史隐层状态的准确性，从而能够有利于提高三维重建的准确性。

其中，在拍摄待重建目标过程中，获取至少两帧第一关键图像；第一关键图像对应有相机位姿参数，相机位姿参数包括平移距离和旋转角度，第一关键图像满足以下至少之一：相邻第一关键图像之间平移距离的差异大于预设距离阈值，相邻第一关键图像之间旋转角度的差异大于预设角度阈值。

因此，通过将至少两帧第一关键图像设置为是在拍摄待重建目标过程中获取的，能够实现一边拍摄一边进行三维重建；而第一关键图像对应有相机位姿参数，相机位姿参数包括平移距离和旋转角度，第一关键图像设置为满足以下至少之一：相邻第一关键图像之间平移距离的差异大于预设距离阈值，相邻第一关键图像之间旋转角度的差异大于预设角度阈值，能够有利于在每次重建过程中参考尽可能少的关键图像的基础上，尽可能地扩大第一空间的视觉范围，从而能够有利于提高三维重建的效率。

本申请实施例提供了一种三维重建装置，包括：关键图像获取模块、第一空间确定模块、第一特征获取模块、重建结果获取模块和重建结果更新模块，关键图像获取模块配置为获取用于本次重建的至少两帧第一关键图像；第一空间确定模块配置为确定包围至少两帧第一关键图像的视锥的第一空间；其中，第一关键图像是对待重建目标拍摄得到的；第一特征获取模块配置为基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，其中，第一特征图包括第一空间中体素的第一特征信息；重建结果获取模块配置为基于第一特征图，得到本次重建的第一重建结果；重建结果更新模块配置为基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。

本申请实施例提供了一种电子设备，包括相互耦接的存储器和处理器，处理器配置为执行存储器中存储的程序指令，以实现上述三维重建方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述三维重建方法。

上述方案，通过获取配置为本次重建的至少两帧第一关键图像，并确定包围至少两帧第一关键图像的视锥的第一空间，且第一关键图像是对待重建目标拍摄得到的，在此基础上基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，且第一特征图包括第一空间中体素的第一特征信息，从而基于第一特征图，得到本次重建的第一重建结果，进而基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新，故此每次重建过程中，均能够对包围至少两帧第一关键图像的视锥的第一空间整体进行三维重建，从而不仅能够大大降低计算负荷，还能够降低重建结果出现分层或分散的概率，进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1A是本申请实施例一种三维重建方法一实施例的流程示意图；

图1B示出了本申请实施例一种三维重建方法的一种系统架构示意图；

图2是第一空间一实施例的示意图；

图3是本申请实施例一种三维重建方法一实施例的过程示意图；

图4是本申请实施例一种三维重建方法与其他三维重建方法的效果示意图；

图5是图1A中步骤S12一实施例的流程示意图；

图6是获取第一特征图一实施例的状态示意图；

图7是图1A中步骤S13一实施例的流程示意图；

图8是获取本次隐层状态一实施例的状态示意图；

图9是本申请实施例一种三维重建方法另一实施例的过程示意图；

图10是本申请实施例一种三维重建装置一实施例的框架示意图；

图11是本申请实施例电子设备一实施例的框架示意图；

图12是本申请实施例计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的细节，以便透彻理解本申请实施例。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1A，图1A是本申请实施例三维重建方法一实施例的流程示意图。可以包括如下步骤：

步骤S11：获取用于本次重建的至少两帧第一关键图像，并确定包围至少两帧第一关键图像的视锥的第一空间。

本公开实施例中，第一关键图像是对待重建目标拍摄得到的。待重建目标可以根据实际应用情况进行设置。例如，在需要对某一物体进行三维重建的情况下，待重建目标可以为物体，例如，待重建目标可以包括但不限于：桌子、椅子、沙发等等，在此不做限定；或者，在需要对某一场景进行三维重建的情况下，待重建目标可以为场景，需要说明的是，场景中可以包含若干物体，以待重建目标是客厅为例，客厅内可以包括但不限于如下物体：桌子、椅子、沙发等，以待重建目标是建筑为例，建筑可以包括但不限于如下物体：楼梯、走廊、大门等，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，为了提高三维重建的实时性，第一关键图像可以是在拍摄待重建目标过程中获取的。可以一边拍摄待重建目标，一边获取用于本次重建的至少两帧第一关键图像，以实现对三维重建过程进行增量处理。

在一个实施场景中，第一关键图像可以对应有相机位姿参数，相机位姿参数例如可以包括平移距离和旋转角度，在此基础上，第一关键图像满足以下至少之一：相邻第一关键图像之间的平移距离的差异大于预设距离阈值，相邻第一关键图像之间旋转角度的差异大于预设角度阈值。上述方式，能够有利于在每次重建过程中参考尽可能少的关键图像的基础上，尽可能地扩大第一空间的视觉范围，从而能够有利于提高三维重建的效率。

在一个实施场景中，相机位姿参数可以基于诸如SLAM(Simultaneous Localization And Mapping，即时定位与地图构建)等方式获取，在此不做限定。SLAM通常包括如下几个部分，特征提取，数据关联，状态估计，状态更新以及特征更新等，细节在此不再赘述。

在另一个实施场景中，为了便于描述，对待重建目标拍摄得到的图像序列可以记为{I _t}，图像序列所对应的相机位姿参数可以记为{ξ _t}，对于相机位姿参数ξ _t而言，可以包括平移距离t和旋转角度R。为了在保持多视角重建过程中提供足够的视觉范围，在上述图像序列中所挑选的第一关键图像在三维空间中彼此之间须既不太靠近又不太远离，故在图像序列中某一帧图像的平移距离t与最新挑选的第一关键图像的平移距离t之间的差异大于预设距离阈值t _max，且该帧图像的旋转角度R与上述最新挑选的第一关键图像的旋转角度R之间的差异大于预设角度阈值R _max的情况下，可以将该帧图像挑选为新的第一关键图像。上述方式，能够在每次重建过程中最大可能地基于较少的第一关键图像，同时最大可能地扩大第一空间的视觉范围。

在又一个实施场景中，为了合理控制每次三维重建的计算负荷，每次三维重建所获取的至少两帧第一关键图像的图像数量可以小于预设数量阈值，预设数量阈值可以根据实际应用情况进行设置，例如，在执行三维重建的电子设备具有较为富余的计算资源的情况下，预设数量阈值可以设置地稍大一些，如可以设置为5、10、15等等；或者，在执行三维重建的电子设备具有相对贫乏的计算资源的情况下，预设数量阈值也可以设置地稍小一些，如可以设置为2、3、4等等，在此不做限定。

此外，需要说明的是，视锥可以理解为一个形状为四棱锥的实体形状，该实体形状就是相机渲染时能够看到区域的形状。可以理解，摄像头所拍摄到的图像中任何一点最终对应于现实世界中的一条线，并且只会现实这条线上的一个点，这条线上所有在这个显示的点后面的物体都会被遮挡，而图像的外边界由四个顶点对应的发散线定义，且这四条线最终相较于摄像头所在位置。

图1B可以应用本申请实施例一种三维重建方法的一种系统架构示意图；如图1B所示，该系统架构中包括：图像采集设备2001、网络2002和图像获取终端2003。为实现支撑一个示例性应用，图像采集设备2001和图像获取终端2003可以通过网络2002建立通信连接，图像采集设备2001通过网络2002向图像获取终端2003传输采集的图像，图像获取终端2003接收图像，并对图像进行处理，进而得到本次重建结果。

作为示例，当前场景图像采集设备2001可以包括摄像头等具有图像采集功能的设备。图像获取终端2003可以包括具有一定计算能力和图像处理能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备。网络2002可以采用有线连接或无线连接方式。其中，上图像获取终端2003为服务器时，图像采集设备可以通过有线连接的方式与图像获取终端通信连接，例如通过总线进行数据通信；当图像获取终端2003为终端设备时，图像采集设备可以通过无线连接的方式与图像获取终端通信连接，进而进行数据通信。

或者，在一些场景中，图像获取终端2003可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本申请实施例的信息处理方法可以由图像获取终端2003执行，上述系统架构可以不包含网络2002和图像采集设备2001。

在一个实施场景中，请结合参阅图2，图2是第一空间一实施例的示意图。如图2所示，第一关键图像分别由黑点表示的相机1、相机2和相机3拍摄得到，在实际应用过程中，为了降低相对相机过远的图像信息对后续三维重建可能产生的干扰，在确定第一空间时，可以预先定义上述视锥的最大深度为D _max，即四棱锥的高度为上述最大深度D _max。请继续结合参阅图2，为了便于描述，图2以等腰三角形所示的视锥为俯视第一空间的情况下视锥的示意图，即图2所示的第一空间为二维视角下的示意图，其中等腰三角形中的虚线即表示上述最大深度D _max，在此情况下，可以定义将相机1、相机2和相机3拍摄到的第一关键图像的视锥包围起来的空间即为第一空间。为了便于三维重建，本公开实施例以及下述公开实施例中，如无特别说明，第一空间例如可以包括长方体、正方体等相邻表面相互垂直的六面体。此外，在第一关键图像的视锥为其他情况下，或者第一关键图像为其他数量的情况下，第一空间可以参照上述描述以此类推，在此不再一一举例。

此外，本公开实施例以及下述公开实施例中，第一空间可以包括若干体素(voxel)。以第一空间为长方体或正方体为例，体素也可以为长方体或正方体，若干体素堆叠形成第一空间。此外，体素的尺寸可以根据实际应用情况进行设置。例如，在对三维重建的精度要求较高的情况下，体素的尺寸可以设置地稍小一些，或者，在对三维重建的精度要求相对宽松的情况下，体素的尺寸可以设置地稍大一些，在此不做限定。

步骤S12：基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图。

本公开实施例中，第一特征图包括第一空间中体素的第一特征信息。

在一个实施场景中，可以分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图，在此基础上可以基于第一空间的各个体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图。上述方式，能够融合各帧第一关键图像的第二特征图，得到第一空间的第一特征图，有利于提高第一特征图的准确性，进而能够有利于提高三维重建的准确性。

在一个实施场景中，为了提高特征提取的效率，可以预先训练一个三维重建模型，且该三维重建模型包括特征提取网络，从而可以基于特征提取网络分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图。特征提取网络可以包括但不限于卷积神经网络(Convolutional Neural Networks，CNN)等等，在此不做限定。三维重建模型的训练过程可以参阅下述相关公开实施例，在此暂不赘述。

在另一个实施场景中，第一关键图像的第二特征图可以为预设分辨率的特征图，预设分辨率可以根据实际应用情况进行设置，例如，在对三维重建的精度要求较高的情况下，预设分辨率可以设置地稍大一些，而在对三维重建的精度要求相对宽松的情况下，预设分辨率可以设置地稍小一些，在此不做限定。

在又一个实施场景中，对于第一空间的每一体素而言，可以融合该体素在第二特征图中对应的第二特征信息，从而得到该体素的第一特征信息，最终在得到第一空间所有体素的第一特征信息的基础上，可以得到第一空间的第一特征图。

在又一个实施场景中，在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下，可以将预设特征信息作为该体素的第一特征信息。预设特征信息可以根据实际应用情况进行设置，例如，为了进一步降低三维重建的计算复杂度，预设特征信息可以设置为0，在此不做限定。

在另一个实施场景中，每帧第一关键图像的第二特征图可以包括对应不同分辨率的预设数量张第二特征图，且第一空间包括对应不同分辨率的预设数量个第一空间，分辨率越高，第一空间中体素的尺寸越小，第一特征图也可以包括对应不同分辨率的预设数量张第一特征图，每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到的。上述方式，能够有利于通过不同分辨率的预设数量张第二特征图来进行三维重建，从而能够有利于进一步提高三维重建的精细度。

在一个实施场景中，预设数量可以根据实际应用情况进行设置，例如，可以设置两种不同分辨率、三种不同分辨率、四种不同分辨率等等，在此不做限定。此外，不同分辨率也可以根据实际应用情况进行设置，例如，可以设置640*480和480*360两种分辨率，也可以设置1280*960和640*480两种分辨率；或者，可以设置640*480、480*360和360*240三种分辨率，也可以设置1280*960、640*480和480*360三种分辨率，在此不做限定。

在另一个实施场景中，如前所述，为了提高三维重建的效率，可以预先训练一个三维重建模型，且该三维重建模型可以包括特征提取网络，进而可以基于该特征提取网络分别对若干第一关键图像进行特征提取，得到不同分辨率的第二特征图。该特征提取网络可以包括但不限于FPN(Feature Pyramid Networks，特征金字塔网络)等，在此不做限定。

在另一个实施场景中，在第一关键图像的第二特征图包括对应N种不同分辨率的N张第二特征图的情况下，第一空间也包括分别与N种不同分辨率对应的N个第一空间，且分辨率越高，第一空间中体素的尺寸越小。例如，在第一关键图像的第二特征图包括1280*960和640*480两种分辨的第二特征图的情况下，第一空间也包括与分辨率1280*960对应的第一空间和与分辨率640*480对应的第一空间，且与分辨率1280*960对应的第一空间中体素的尺寸小于与分辨率640*480对应的第一空间中体素的尺寸。其他情况可以以此类推，在此不再一一举例。在一些实施例中，对于第i种分辨率对应的第一空间中体素的第一特征信息，可以基于至少两帧第一关键图像中第i种分辨率的第二特征图中对应的第二特征信息得到，详细过程可以参阅下述公开实施例，在此暂不赘述。

在又一个实施场景中，第i种分辨率对应的第一空间中体素的宽度可以采用下式计算得到：

上述公式(1)中，w _i表示第i种分辨率对应的第一空间中体素的宽度，s表示预先设置的基准体素宽度，可以根据实际应用情况进行调整。此外，需要说明的是，i是将不同分辨率按照由低到高的顺序排序之后的第i种分辨率。仍以上述1280*960、640*480和480*360三种分辨率为例，由低到高排序之后，分别为480*360、640*480、1280*960，即在计算分辨率480*360对应的第一空间的体素的宽度时，i为1，在计算分辨率640*480对应的第一空间的体素的宽度时，i为2，在计算分辨率1280*960对应的第一空间的体素的宽度时，i为3，其他情况可以以此类推，在此不再一一举例。

步骤S13：基于第一特征图，得到本次重建的第一重建结果。

在一个实施场景中，可以基于第一特征图进行预测，得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值，且第一重建值用于表示体素与待重建目标中关联物体表面之间的距离，在此基础上，可以对上述预测结果进行稀疏化(sparsify)处理，可以选择第一空间中概率满足预设条件的体素，并基于选择的体素的第一重建值，得到本次充电的第一重建结果。上述方式，能够滤除概率值不满足预设条件的体素对于三维重建的干扰，能够有利于进一步提高三维重建的准确性。

在一个实施场景中，为了提高三维重建的效率，可以预先训练一个三维重建模型，且该三维重建模型可以包括预测网络，从而可以将第一特征图输入预测网络，得到第一空间中各个体素的第一重建值和第一重建值在预设数值范围内的概率值。预测网络可以包括但不限于MLP(Multi-Layer Perceptron，多层感知机)等等，在此不做限定。

在另一个实施场景中，第一重建值可以采用TSDF(Truncated Signed Distance Function，截断有符号距离函数)进行表示，在此情况下，预设数值范围可以为-1至1之间。为了便于描述，可以将第j个体素的第一重建值表示为

需要说明的是，在

大于0 且小于1的情况下，表示第j个体素位于关联物体表面之前的截断距离λ之内，而在

小于0且大于-1的情况下，表示第j个体素位于关联物体表面之后的截断距离λ之内。

在又一个实施场景中，第一重建值在预设数值范围内的概率值可以视为第一重建值在预设数值范围内的可能性，且概率值越高，第一重建值在预设数值范围内的可能性越高，反之，概率值越低，第一重建值在预设数值范围内的可能性越低。

在又一个实施场景中，预设条件可以设置为包括概率值大于预设概率阈值。预设概率阈值可以根据实际应用情况进行设置。例如，在对三维重建的准确性要求较高的情况下，预设概率阈值可以设置地稍大一些，如可以设置为0.9、0.95等，或者，在对三维重建的准确性要求相对宽松的情况下，预设概率阈值可以设置地稍小一些，如可以设置为0.8、0.85等，在此不做限定。

在又一个实施场景中，在选择得到第一空间中概率值满足预设条件的体素之后，可以将选择的体素及其第一重建值整体作为本次重建的第一重建结果。

在又一个实施场景中，为了便于后续基于重建值重建出待重建目标的表面，关联物体表面可以为待重建目标中与体素距离最近的物体表面。以待重建目标是客厅为例，对于最靠近客厅中地板的体素而言，关联物体表面可以为地板，而对于最靠近客厅中沙发的体素而言，关联物体表面可以为沙发，其他情况可以以此类推，在此不再一一举例。上述方式，能够有利于进一步提高三维重建的准确性。

在另一个实施场景中，如前所述，每帧第一关键图像的第二特征图均可以包括对应不同分辨率的预设数量张第二特征图，在此情况下，可以按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率，在此基础上将上一次选择的分辨率对应的第一重建结果进行上采样(Upsample)，并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合，得到与当前分辨率对应的融合特征图，从而基于融合特征图，得到与当前分辨率对应的第一重建结果，进而在当前分辨率并非最高分辨率的情况下，重新执行按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率的步骤以及后续步骤，或者在当前分辨率为最高分辨率的情况下，将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。上述方式，能够由基于“低分辨率”的第一特征图至基于“高分辨率”的第一特征图逐渐进行三维重建，从而能够有利于实现“由粗到细”的三维重建，进而能够有利于进一步提高三维重建的精细度。

在一个实施场景中，可以采用最近邻插值等上采样方式对第一重建结果进行上采样。需要说明的是，为了便于后续将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合，在体素宽度由诸如上述公式(1)计算得到的情况下，即在第i种分辨率对应的第一空间中体素的宽度两倍于第i+1种分辨率对应的第一空间中体素的宽度的情况下，上采样之后体素的宽度为原宽度的一半，从而可以使得上采样后的第一重建结果中体素的宽度与当前分辨率对应的第一空间中体素的宽度相同。

在另一个实施场景中，对于每一体素而言，可以将上采样后的第一重建结果中第j个体素的第一重建值与当前分辨率对应的第一空间中第j个体素的第一特征信息进行拼接(Concatenate)，从而实现将上采样后的第一重建结果与当前分辨率对应的第一特征图的融合。例如，当前分辨率对应的第一空间中每一体素的第一特征信息可以表示为维度d的矩阵，而上采样后的第一重建结果中每一体素的第一重建值可以视为维度1的矩阵，故将两者拼接之后所得到的融合特征图可以视为维度d+1的矩阵，进而融合特征图中每一体素可以表示为d+1维度的矩阵。

在又一个实施场景中，基于融合特征图，得到与当前分辨率对应的第一重建结果的详细过程，可以参阅前述基于第一特征图得到本次重建的第一重建结果的相关描述，在此不再赘述。

在又一个实施场景中，请结合参阅图3，图3是本申请实施例三维重建方法一实施例的过程示意图。如图3所示，在对待重建目标拍摄的图像序列中挑选得到若干第一关键图像，经特征提取网络(如前述FPN)进行特征提取之后，对于每帧第一关键图像而言，提取得到3种不同分辨率的第二特征图，这3种不同分辨率按照由低到高排序之后，可以分别记为分辨率1、分辨率2和分辨率3，分辨率1对应的第一空间可以记为第一空间1，分辨率2对应的第一空间可以记为第一空间2、分辨率3对应的第一空间可以记为第一空间3，对于每种分辨率，可以基于与该种分辨率对应的第一空间的各体素在该种分辨率的第二特征图中对应的第二特征信息，得到该种分辨率对应的第一空间的第一特征图。为了便于描述可以将本次重建(即第t时间步)第一空间1的第一特征图记为F _t ¹，第一空间2的第一特征图记为F _t ²，第一空间3的第一特征图记为F _t ³。按照分辨率由低到高的顺序，先选择分辨率1作为当前分辨率，并将上一次选择的分辨率对应的第一重建结果进行上采样，由于分辨率1位首次选择的分辨率，故不存在上一次选择的分辨率对应的第一重建结果，从而可以直接基于诸如MLP等预测网络对当前分辨率对应的第一特征图F _t ¹进行预测，得到第一空间1中各体素的第一重建值和第一重建值在预设数值范围内的概率值，为了便于描述可以记为

再对

进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率并非最高分辨率，故可以接着将分辨率2作为当前分辨率，并将上一次选择的分辨率1对应的第一重建结果进行上采样(即图3中U)，并基于上采样后的第一重建结果与当前分辨率对应的第一特征图F _t ²进行拼接(即图3中C)处理，得到与分辨率2对应的融合特征图，从而基于诸如MLP等预测网络对融合特征图进行预测，得到第一空间2中各体素的第一重建值和第一重建值在预设数值范围内的概率值，为了便于描述可以记为

再对

进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率仍然并非最高分辨率，故可以接着将分辨率3作为当前分辨率，并将上一次选择的分辨率2对应的第一重建结果进行上采样(即图3中U)，并基于上采样后的第一重建结果与当前分辨率对应的第一特征图F _t ³进行拼接(即图3中C)处理，得到与分辨率3对应的融合特征图，从而基于诸如MLP等预测网络对融合特征图进行预测，得到第一空间3中各体素的第一重建值和第一重建值在预设数值范围内的概率值，为了便于描述可以记为

再对

进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率为最高分辨率，故可以将当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果，为了便于描述可以将本次重建最终的第一重建结果记为

其他情况可以以此类推，在此不再一一举例。

步骤S14：基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。

在一个实施场景中，如前所述，第一重建结果例如包括第一空间中体素的第一重建值，类似地，第二重建结果包括第二空间中体素的第二重建值，第二空间是包围之前重建的第二关键图像的视锥的总空间，且第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离。例如可以参阅前述关于第一重建值的相关描述，在此不再赘述。在此基础上，可以基于第一空间中体素的第一重建值，更新第二空间中对应体素的第二重建值。上述方式，能够有利于在三维重建过程中基于本次重建过程中第一空间中体素的第一重建值，更新之前重建得到的第二重建结果，进而能够有利于在重建过程中不断完善第二重建结果，提高三维重建的准确性。

在一个实施场景中，在本次重建为对待重建目标的三维重建过程中首次重建的情况下，可以不执行基于本次重建的第一重建结果对之前重建得到的第二重建结果进行更新的步骤。

在另一个实施场景中，可以将第二空间中与第一空间对应部分的体素的第二重建值替换为本次重建第一空间中体素的第一重建值。请继续结合参阅图3，如前所述，为了便于描述本次重建最终的第一重建结果记为

之前重建得到的第二重建结果可以记为

通过基于第一空间中体素的第一重建值更新第二空间中对应体素的第二重建值，可以得到更新后的第二重建结果，为了便于描述可以记为

在又一个实施场景中，在本次重建之后需要进一步重建的情况下，可以重新执行上述步骤S11以及后续步骤，以通过多次重建不断完善第二重建结果。此外，在本次重建之后无需进一步重建的情况下，可以将更新后的第二重建结果

作为待重建目标的最终重建结果。

在另一个实施场景中，请结合参阅图4，图4是本申请实施例三维重建方法与其他三维重建方法的效果示意图。图4中41和42表示其他重建方法重建得到的重建结果，图4中43和44表示本申请实施例三维重建方法重建得到的重建结果。如图4中41和42所示，其他三维重建方法重建得到的重建结果在矩形框圈出的墙壁部分呈现出明显的分散和分层现象，而图4中43和44中，本申请实施例三维重建方法重建得到的重建二级果在矩形框圈出的墙壁部分未呈现出明显的分散或分层现象，且具有较优的平滑度。

上述方案，通过获取用于本次重建的至少两帧第一关键图像，并确定包围至少两帧第一关键图像的视锥的第一空间，且第一关键图像是对待重建目标拍摄得到的，在此基础上基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，且第一特征图包括第一空间中体素的第一特征信息，从而基于第一特征图，得到本次重建的第一重建结果，进而基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新，故此每次重建过程中，均能够对包围至少两帧第一关键图像的视锥的第一空间整体进行三维重建，从而不仅能够大大降低计算负荷，还能够降低重建结果出现分层或分散的概率，进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。

请参阅图5，图5是图1A中步骤S12一实施例的流程示意图。如前述公开实施例所述，可以分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图，从而可以基于第一空间的各体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图。本公开实施例是基于第一空间的各体素在第二特征图中对应的第二特征信息得到第一特征图的流程示意图。可以包括如下步骤：

步骤S51：分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息。

本公开实施例中，对于第一空间中每一体素，可以分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息。

在一个实施场景中，可以基于第一关键图像的相机位姿参数以及相机内部参数对第二特征图中各个像素点进行反投影，确定第一空间中与第二特征图中像素点对应的体素。在此基础上，对于第一空间中每一体素，可以从各帧第一关键图像的第二特征图中提取得到与该体素对应的像素点的第二特征信息。

在另一个实施场景中，请结合参阅图6，图6是获取第一特征图一实施例的状态示意图。如图6所示，为了便于描述，与图2类似地，图6也以“二维视角”描述获取第一特征图的详细过程。如图6所示，通过对第二特征图中像素点进行反投影，能够确定第一空间中与各个像素点对应的体素。需要说明的是，图6中不同颜色的方格表示对应于不同的第二特征信息。

步骤S52：将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息。

在一个实施场景中，请继续结合参阅图6，可以将体素分别对应至少两帧第一关键图像的第二特征信息的平均值，作为体素的第一特征信息。例如，第一空间中第k个体素，在第1个第一关键图像的第二特征图中对应于第i行第j列个像素点，而在第2个第一关键图像的第二特征图中对应于第m行第n列个像素点，在此基础上，可以将第1个第一关键图像的第二特征图中第i行第j列个像素点的第二特征信息和第2个第一关键图像的第二特征图中第m行第n列个像素点的第二特征信息的平均值，作为第一空间中第k个体素的第一特征信息，其他情况可以以此类推，在此不再一一举例。

在另一个实施场景中，还可以将体素分别对应至少两帧第一关键图像的第二特征信息的加权结果，作为体素的第一特征信息。上述加权结果可以包括但不限于：加权求和、加权平均等，在此不做限定。

在又一个实施场景中，如前述公开实施例所述，在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下，将预设特征信息作为体素的第一特征信息。可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S53：基于第一空间的各体素的第一特征信息，得到第一空间的第一特征图。

在求得第一空间中各个像素点的第一特征信息之后，即可将第一空间中各个体素的第一特征信息整体作为第一特征图。

区别于前述实施例，通过分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息，并将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息，从而基于第一空间的各体素的第一特征信息，得到第一空间的第一特征图，故此对于第一空间中每一体素而言，均融合有对应每帧第一关键图像的第二特征信息，能够有利于进一步提高第一空间的第一特征图的精准性。

请参阅图7，图7是图1A中步骤S13一实施例的流程示意图。本公开实施例中，第一重建结果是采用三维重建模型得到的。可以包括如下步骤：

步骤S71：获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态。

本公开实施例中，第一历史隐层状态包括第二空间中体素对应的状态值，第二空间是包围之前重建的第二关键图像的视锥的总空间。需要说明的是，在本次重建为首次重建的情况下，第二空间即为本次重建的第一空间，且在此情况下，可以将第一历史隐层状态所包含的第二空间中体素对应的状态值设置为预设状态值(如，将预设状态值设置为0)。

步骤S72：从第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态。

请结合参阅图8，图8是获取本次隐层状态一实施例的状态示意图。需要说明的是，为了便于描述，与前述图2和图6类似，图8是在“二维视角”描述的获取本次隐层状态的状态示意图。如图8所示，为了便于描述，可以将第一历史隐层状态记为

第一历史隐层状态

中不同灰度的方格表示体素的状态值，无颜色的方格表示对应体素无状态值，此外第一历史隐层状态

中的矩形框表示第一空间，从第一历史隐层状态

中提取第一空间的体素对应的状态值，可以得到第二历史隐层状态

其他情况可以以此类推，在此不再一一举例。

步骤S73：基于融合网络执行：基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态。

在一个实施场景中，可以将第一特征图、第二历史隐层状态输入融合网络，从而输出得到本次隐层状态。融合网络可以设置为包括但不限于GRU(Gated Recurrent Unit，门控循环单元)，在此不做限定。

在另一个实施场景中，请继续结合参阅图8，在更新第二历史隐层状态

之前，可以进一步对第一特征图F _t ^l进行几何信息提取，得到几何特征图

且几何特征图包括体素的几何信息，从而可以基于几何特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态。上述方式，能够在提取得到的体素的几何信息的基础上对本次重建的第一空间的第二历史隐层状态进行更新，有利于提高三维重建的准确性。

在一个实施场景中，可以通过三维稀疏卷积、pointnet等网络对第一特征图F _t ^l进行几何信息提取，得到几何特征图

可以根据实际应用需要进行设置，在此不做限定。

在另一个实施场景中，以融合网络包括门控循环单元GRU为例，请结合参阅图8， GRU通过融合几何特征图

和第二历史隐层状态

最终可以得到本次隐层状态

为了便于描述，可以记门控循环单元GRU的更新门控为z _t，重置门控为r _t，可以表示为：

上述公式(2)和公式(3)中，sparseconv表示稀疏卷积，W _z,W _r表示稀疏卷积的网络权重，σ表示激活函数(如，sigmoid)。

在此基础上，更新门控z _t和重置门控r _t可以决定了从几何特征图

中引入多少信息进行融合，以及从第二历史隐层状态

中引入多少信息进行融合。可以表示为：

上述公式(4)和公式(5)中，sparseconv表示稀疏卷积，W _h表示稀疏卷积的网络权重，tanh表示激活函数。由此可见，作为一种数据驱动方式，GRU在三维重建过程中能够提供一种选择性的注意力机制。

步骤S74：采用三维重建模型对本次隐层状态进行预测，得到第一重建结果。

在一个实施场景中，如前述公开实施例所述，三维模型还可以进一步包括预测网络(如，MLP)，在此基础上，可以基于预测网络对本次隐层状态

进行预测，得到第一重建结果。

在一个实施场景中，基于预测网络对本次隐层状态

进行预测可以得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值，且第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离，在此基础上，可以选择第一空间中概率值满足预设条件的体素，从而可以基于选择的体素的第一重建值，得到本次重建的第一重建结果。详细可以参阅前述公开实施例中相关描述，在此不再赘述。

在另一个实施场景中，请继续结合参阅图8，在得到本次隐层状态

之后，可以基于本次隐层状态

中的状态值，更新第一历史隐层状态

中相应体素对应的状态值，得到更新后的第一历史隐层状态

以供下次重建使用。上述方式，能够在更新得到本次隐层状态之后，进一步更新第二空间的第一历史隐层状态，有利于在本次重建的基础上进一步提高第二空间的第一历史隐层状态的准确性，从而能够有利于提高三维重建的准确性。

在一个实施场景中，可以将第一历史隐层状态

中第一空间中体素的状态值直接替换为本次隐层状态

中对应体素的状态值。

在又一个实施场景中，请结合参阅图9，图9是本申请实施例三维重建方法另一实施例的过程示意图。不同于图3所示的三维重建过程，如本公开实施例所述，图9所示的三维重建过程引入了之前重建得到的第一历史隐层状态(即图9中global hidden state)，即在前述公开实施例所描述的三维重建过程中，每次基于诸如MLP等预测网络对当前分辨率对应的第一特征图F _t ⁱ进行预测可以包括如下步骤：获取在之前重建所得到的与当前分辨率对应的第一历史隐层状态，并从当前分辨率对应的第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态，并基于诸如GRU的融合网络执行：基于与当前分辨率对应的第一特征图F _t ⁱ对第二历史隐层状态中的状态值进行更新，得到与当前分辨率对应的本次隐层状态，在此基础上再基于诸如MLP等预测网络对当前分辨率对应的本次隐层状态进行预测，得到当前分辨率对应的第一重建结果。本公开实施例仅描述与前述公开实施例的不同之处，其他过程可以参阅前述公开实施例中相关描述，在此不再赘述。

区别于前述实施例，通过将第一重建结果设置为是采用三维重建模型得到的，并获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态，且第一历史隐层状态包括第二空间中体素对应的状态值，第二空间是包围之前重建的第二关键图像的视锥的总空间，在此基础上从第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态，从而基于融合网络执行：基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态，进而采用三维重建模型对本次隐层状态进行预测，得到第一重建结果，故此每次重建过程中均能参考之前重建所得到的第一历史隐层状态，能够有利于提高本次重建与之前重建的一致性，从而能够有利于降低本次重建结果与之前重建结果之间发生分层或分散的概率，进而能够有利于进一步提高三维重建结果的平滑度。

在一些公开实施例中，上述任一三维重建方法实施例中的三维重建结果可以是由三维重建模型重建得到的。可以预先收集对样本目标拍摄的若干组样本图像，每组样本图像包括至少两帧样本关键图像，且每组样本图像所包含的至少两帧样本关键图像的视锥由第一样本空间包围，第一样本空间包括若干体素，可以参阅前述公开实施例中相关描述，在此不再赘述。与前述公开实施例不同的是，每组样本图像标注有第一样本空间中各个体素的第一实际重建值和第一实际重建值在预设数值范围内的实际概率值，且第一实际重建值用于表示体素与样本目标中关联物体表面之间的距离，第一实际重建值可以采用TSDF表示，关联物体表面可以参见前述公开实施例中的相关描述，在此不再赘述。此外，在第一实际重建值位于预设数值范围内的情况下，第一实际重建值对应的实际概率值可以标注为1，而在第一实际重建值不位于预设数值范围内的情况下，第一实际重建值对应的实际概率值可以标注为0。在此基础上，可以将一组样本图像所包含的至少两帧样本关键图像输入三维重建模型的特征提取网络(如，FPN)，得到第一样本空间的第一样本特征图，且第一样本特征图包括第一样本空间中体素的第一样本特征信息，从而可以将第一样本特征图输入三维重建模型的预测网络，得到第一样本重建结果，且第一样本重建结果包括第一样本空间中各体素的第一样本重建值和第一样本重建值在预设数值范围内的样本概率值，进而可以基于第一样本空间中各体素的第一样本重建值和第一实际重建值之间的差异，以及第一样本空间中各体素的样本概率值和实际概率值之间的差异，调整三维重建模型的网络参数。

在一个实施场景中，可以基于二分类交叉熵损失(binary cross-entropy，BCE)函数计算样本概率值和实际概率值之间的第一损失值，并基于L1损失函数计算第一样本重建值和第一实际重建值之间的第二损失值，从而可以基于第一损失值和第二损失值，调整三维重建模型的网络参数。

在另一个实施场景中，与前述公开实施例类似地，在预测第一样本重建结果过程中，可以获取三维重建模型的融合网络在之前重建所得到的第一样本历史隐层状态，且第一样本历史隐层状态包括第二样本空间中体素对应的样本状态值，第二样本空间时包围之前重建的若干组样本图像的视锥的总空间，在此基础上，可以从第一样本历史隐层状态中，提取第一样本空间的体素对应的样本状态值，以作为第二样本历史隐层状态，从而可以基于融合网络执行：基于第一样本特征图对第二样本历史隐层状态中的样本状态值进行更新，得到本次样本隐层状态，进而可以基于预测网络对本次样本隐层状态进行预测，得到第一样本重建结果。可以参阅前述公开实施例中相关描述，在此不再赘述。

请参阅图10，图10是本申请实施例三维重建装置100一实施例的框架示意图。三维重建装置100包括关键图像获取模块101、第一空间确定模块102、第一特征获取模块103、重建结果获取模块104和重建结果更新模块105，关键图像获取模块101配置为获取用于本次重建的至少两帧第一关键图像；第一空间确定模块102配置为确定包围至少两帧第一关键图像的视锥的第一空间；其中，第一关键图像是对待重建目标拍摄得到的；第一特征获取模块103配置为基于至少两帧第一关键图像中的图像信息，得到第一空间的第一特征图，其中，第一特征图包括第一空间中体素的第一特征信息；重建结果获取模块104配置为基于第一特征图，得到本次重建的第一重建结果；重建结果更新模块105配置为基于本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。

在一些公开实施例中，三维重建装置100还包括第二特征获取模块，配置为分别对每帧第一关键图像进行特征提取，得到第一关键图像的第二特征图，第一特征获取模块103配置为基于第一空间的各体素在第二特征图中对应的第二特征信息，得到第一空间的第一特征图。

在一些公开实施例中，第一特征获取模块103包括特征信息提取子模块，配置为分别从每帧第一关键图像的第二特征图中，提取体素对应的第二特征信息，第一特征获取模块103包括特征信息融合子模块，配置为将体素分别对应至少两帧第一关键图像的第二特征信息进行融合，得到体素的第一特征信息，第一特征获取模块103包括第一特征获取子模块，配置为基于第一空间的各体素的第一特征信息，得到第一空间的第一特征图。

在一些公开实施例中，特征信息融合子模块配置为将体素对应每帧第一关键图像的第二特征信息的平均值，作为体素的第一特征信息。

在一些公开实施例中，第一特征获取模块103还包括特征信息设置子模块，配置为在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下，将预设特征信息作为体素的第一特征信息。

在一些公开实施例中，每帧第一关键图像的第二特征图均包括对应不同分辨率的预设数量张第二特征图；第一空间包括对应不同分辨率的预设数量个第一空间，分辨率越高，第一空间中体素的尺寸越小；第一特征图包括对应不同分辨率的预设数量张第一特征图，每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到。

在一些公开实施例中，重建结果获取模块104包括分辨率选择子模块，配置为按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率，重建结果获取模块104包括特征图更新子模块，配置为将上一次选择的分辨率对应的第一重建结果进行上采样，并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合，得到与当前分辨率对应的融合特征图，重建结果获取模块104包括重建结果获取子模块，配置为基于融合特征图，得到与当前分辨率对应的第一重建结果，重建结果获取模块104包括循环执行子模块，配置为在当前分辨率并非最高分辨率的情况下，结合前述分辨率选择子模块、特征图更新子模块和重建结果获取子模块重新执行按照分辨率由低到高的顺序，依次选择一种分辨率作为当前分辨率的步骤以及后续步骤，重建结果获取模块104包括第一结果确定子模块，配置为在当前分辨率为最高分辨率的情况下，将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。

在一些公开实施例中，重建结果获取模块104包括结果预测子模块，配置为基于第一特征图进行预测，得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值；其中，第一重建值配置为表示体素与待重建目标中的关联物体表面之间的距离，重建结果获取模块104包括体素选择子模块，配置为选择第一空间中概率值满足预设条件的体素，重建结果获取模块104包括第二结果确定子模块，配置为基于选择的体素的第一重建值，得到本次重建的第一重建结果。

在一些公开实施例中，第一重建结果包括第一空间中体素的第一重建值，第二重建结果包括第二空间中体素的第二重建值，第二空间是包围之前重建的第二关键图像的视锥的总空间，第一重建值和第二重建值配置为表示体素与待重建目标中的关联物体表面之间的距离，重建结果更新模块105配置为基于第一空间中体素的第一重建值，更新第二空间中对应体素的第二重建值。

在一些公开实施例中，关联物体表面为待重建目标中与体素距离最近的物体表面。

在一些公开实施例中，第一重建结果是采用三维重建模型得到的，重建结果获取模块104包括隐层状态获取子模块，配置为获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态；其中，第一历史隐层状态包括第二空间中体素对应的状态值，第二空间是包围之前重建的第二关键图像的视锥的总空间，重建结果获取模块104包括隐层状态提取子模块，配置为从第一历史隐层状态中，提取第一空间的体素对应的状态值，以作为第二历史隐层状态，重建结果获取模块104包括隐层状态更新子模块，配置为基于融合网络执行：基于第一特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态，重建结果获取模块104包括重建结果预测子模块，配置为采用三维重建模型对本次隐层状态进行预测，得到第一重建结果。

在一些公开实施例中，在本次重建为首次重建的情况下，第一历史隐层状态中的状态值为预设状态值。

在一些公开实施例中，融合网络包括：门控循环单元。

在一些公开实施例中，三维重建模型还包括预测网络，重建结果预测子模块配置为基于预测网络对本次隐层状态进行预测，得到第一重建结果。

在一些公开实施例中，重建结果获取模块104包括几何特征提取子模块，配置为对第一特征图进行几何信息提取，得到几何特征图；其中，几何特征图包括体素的几何信息，隐层状态更新子模块配置为基于几何特征图对第二历史隐层状态中的状态值进行更新，得到本次隐层状态。

在一些公开实施例中，重建结果获取模块104还包括历史状态更新子模块，配置为基于本次隐层状态中的状态值，更新第一历史隐层状态中相应体素对应的状态值。

在一些公开实施例中，在拍摄所述待重建目标过程中，获取所述至少两帧第一关键图像；第一关键图像对应有相机位姿参数，相机位姿参数包括平移距离和旋转角度，第一关键图像满足以下至少之一：相邻第一关键图像之间平移距离的差异大于预设距离阈值，相邻第一关键图像之间旋转角度的差异大于预设角度阈值。

请参阅图11，图11是本申请实施例电子设备110一实施例的框架示意图。电子设备110包括相互耦接的存储器111和处理器112，处理器112配置为执行存储器111中存储的程序指令，以实现上述任一三维重建方法实施例的步骤。在一个实施场景中，电子设备110可以包括但不限于：微型计算机、服务器，此外，电子设备110还可以包括手机、笔记本电脑、平板电脑等移动设备，在此不做限定。

处理器112配置为控制其自身以及存储器111以实现上述任一三维重建方法实施例的步骤。处理器112还可以称为CPU(Central Processing Unit，中央处理单元)。处理器112可能是一种集成电路芯片，具有信号的处理能力。处理器112还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器112可以由集成电路芯片共同实现。

上述方案，能够提高三维重建过程的实时性以及三维重建结果的平滑度。

请参阅图12，图12为本申请实施例计算机可读存储介质120一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121，程序指令121配置为实现上述任一三维重建方法实施例的步骤。

上述方案，提高三维重建过程的实时性以及三维重建结果的平滑度。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以配置为执行上文方法实施例描述的方法，其实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

工业实用性

本公开实施例公开了一种三维重建方法、装置、设备及存储介质，其中，三维重建方法，包括：获取用于本次重建的至少两帧第一关键图像，并确定包围所述至少两帧第一关键图像的视锥的第一空间；其中，所述第一关键图像是对待重建目标拍摄得到的；基于所述至少两帧第一关键图像中的图像信息，得到所述第一空间的第一特征图，其中，所述第一特征图包括所述第一空间中体素的第一特征信息；基于所述第一特征图，得到本次重建的第一重建结果；基于所述本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。

Claims

一种三维重建方法，所述方法由电子设备执行，包括：

获取用于本次重建的至少两帧第一关键图像，并确定包围所述至少两帧第一关键图像的视锥的第一空间；其中，所述第一关键图像是对待重建目标拍摄得到的；

基于所述至少两帧第一关键图像中的图像信息，得到所述第一空间的第一特征图，其中，所述第一特征图包括所述第一空间中体素的第一特征信息；

基于所述第一特征图，确定本次重建的第一重建结果；

基于所述本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。
根据权利要求1所述的方法，其中，在所述获取用于本次重建的至少两帧第一关键图像之后，所述方法还包括：

分别对每帧所述第一关键图像进行特征提取，得到每帧所述第一关键图像的第二特征图；

所述基于所述至少两帧第一关键图像中的图像信息，得到所述第一空间的第一特征图，包括：

基于所述第一空间的各体素在所述第二特征图中对应的第二特征信息，得到所述第一空间的所述第一特征图。
根据权利要求2所述的方法，其中，所述基于所述第一空间的各体素在所述第二特征图中对应的第二特征信息，得到所述第一空间的所述第一特征图，包括：

分别从每帧所述第一关键图像的所述第二特征图中，提取所述体素对应的第二特征信息；

将所述体素分别对应所述至少两帧第一关键图像的所述第二特征信息进行融合，得到所述体素的第一特征信息；

基于所述第一空间的各体素的所述第一特征信息，得到所述第一空间的所述第一特征图。
根据权利要求3所述的方法，其中，所述将所述体素分别对应所述至少两帧第一关键图像的所述第二特征信息进行融合，得到所述体素的第一特征信息，包括以下至少之一：

将所述体素分别对应所述至少两帧第一关键图像的第二特征信息的平均值，作为所述体素的第一特征信息；

在每帧所述第一关键图像的第二特征图中均未提取得到所述体素对应的第二特征信息的情况下，将预设特征信息作为所述体素的第一特征信息。
根据权利要求2至4任一项所述的方法，其中，每帧所述第一关键图像的第二特征图包括对应不同分辨率的预设数量张第二特征图；所述第一空间包括对应不同所述分辨率的预设数量个第一空间；所述第一特征图包括对应不同所述分辨率的预设数量张第一特征图，每张所述第一特征图是基于相同所述分辨率的所述第二特征图的第二特征信息得到。
根据权利要求5所述的方法，其中，所述基于所述第一特征图，得到本次重建的第一重建结果，包括：

按照所述分辨率由低到高的顺序，依次选择一种所述分辨率作为当前分辨率；

将上一次选择的分辨率对应的第一重建结果进行上采样，并将上采样后的第一重建结果与所述当前分辨率对应的第一特征图进行融合，得到与所述当前分辨率对应的融合特征图；

基于所述融合特征图，得到与所述当前分辨率对应的第一重建结果；

在所述当前分辨率并非最高所述分辨率的情况下，重新执行所述按照所述分辨率由低到高的顺序，依次选择一种所述分辨率作为当前分辨率的步骤以及后续步骤；

在所述当前分辨率为最高所述分辨率的情况下，将与所述当前分辨率对应的第一重建结果作为本次重建的所述第一重建结果。
根据权利要求1至6任一项所述的方法，其中，所述基于所述第一特征图，得到本次重建的第一重建结果，包括：

基于所述第一特征图进行预测，得到所述第一空间中各所述体素的第一重建值和所述第一重建值在预设数值范围内的概率值；其中，所述第一重建值用于表示所述体素与所述待重建目标中的关联物体表面之间的距离；

选择第一空间中所述概率值满足预设条件的所述体素；

基于选择的所述体素的所述第一重建值，得到本次重建的第一重建结果。
根据权利要求1至7任一项所述的方法，其中，所述第一重建结果包括所述第一空间中所述体素的第一重建值，所述第二重建结果包括第二空间中所述体素的第二重建值，所述第二空间是包围之前重建的第二关键图像的视锥的总空间，所述第一重建值和所述第二重建值用于表示所述体素与所述待重建目标中的关联物体表面之间的距离；

所述基于所述本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新，包括：

基于所述第一空间中所述体素的第一重建值，更新所述第二空间中对应所述体素的第二重建值。
根据权利要求7或8所述的方法，其中，所述关联物体表面为所述待重建目标中与所述体素距离最近的物体表面。
根据权利要求1至9任一项所述的方法，其中，所述第一重建结果是采用三维重建模型得到的；所述基于所述第一特征图，得到本次重建的第一重建结果，包括：

获取所述三维重建模型的融合网络在之前重建所得到的第一历史隐层状态；其中，所述第一历史隐层状态包括第二空间中所述体素对应的状态值，所述第二空间是包围之前重建的第二关键图像的视锥的总空间；

从所述第一历史隐层状态中，提取所述第一空间的体素对应的状态值，作为第二历史隐层状态；

在所述融合网络中，基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新，得到本次隐层状态；

采用所述三维重建模型对所述本次隐层状态进行预测，得到所述第一重建结果。
根据权利要求10所述的方法，其中，在本次重建为首次重建的情况下，所述第一历史隐层状态中的状态值为预设状态值。
根据权利要求10所述的方法，其中，所述融合网络包括：门控循环单元；所述三维重建模型还包括预测网络，所述采用所述三维重建模型对所述本次隐层状态进行预测，得到所述第一重建结果，包括：

基于所述预测网络对所述本次隐层状态进行预测，得到所述第一重建结果。
根据权利要求10至12任一项所述的方法，其中，在所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新，得到本次隐层状态之前，所述方法还包括：

对所述第一特征图进行几何信息提取，得到几何特征图；其中，所述几何特征图包括所述体素的几何信息；

所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新，得到本次隐层状态，包括：

基于所述几何特征图对所述第二历史隐层状态中的所述状态值进行更新，得到本次隐层状态。
根据权利要求10至13任一项所述的方法，其中，在所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新，得到本次隐层状态之后，所述方法还包括：

基于所述本次隐层状态中的状态值，更新所述第一历史隐层状态中相应所述体素对应的状态值。
根据权利要求1至14任一项所述的方法，其中，所述获取用于本次重建的至少两帧第一关键图像，包括：

在拍摄所述待重建目标过程中，获取所述至少两帧第一关键图像。
根据权利要求1至15任一项所述的方法，其中，所述第一关键图像对应有相机位姿参数，所述相机位姿参数包括平移距离和旋转角度，所述第一关键图像满足以下至少之一：相邻所述第一关键图像之间所述平移距离的差异大于预设距离阈值，相邻所述第一关键图像之间所述旋转角度的差异大于预设角度阈值。
一种三维重建装置，包括：

关键图像获取模块，配置为获取用于本次重建的至少两帧第一关键图像；

第一空间确定模块，配置为确定包围所述至少两帧第一关键图像的视锥的第一空间；其中，所述第一关键图像是对待重建目标拍摄得到的；

第一特征获取模块，配置为基于所述至少两帧第一关键图像中的图像信息，得到所述第一空间的第一特征图，其中，所述第一特征图包括所述第一空间中体素的第一特征信息；

重建结果获取模块，配置为基于所述第一特征图，得到本次重建的第一重建结果；

重建结果更新模块，配置为基于所述本次重建的第一重建结果，对之前重建得到的第二重建结果进行更新。
一种电子设备，包括相互耦接的存储器和处理器，所述处理器配置为执行所述存储器中存储的程序指令，以实现权利要求1至16任一项所述的三维重建方法。
一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现权利要求1至16任一项所述的三维重建方法。