WO2023164845A1

WO2023164845A1 - 三维重建方法、装置、系统及存储介质

Info

Publication number: WO2023164845A1
Application number: PCT/CN2022/078878
Authority: WO
Inventors: 尹晓川; 李鑫超; 李思晋
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-09-07

Abstract

一种三维重建方法，包括：（S101）在可移动平台（11）移动至目标场景之后，通过设置在可移动平台（11）中的摄像头采集目标场景的图像；以及，通过设置在可移动平台（11）中的点云采集装置采集目标场景的第一点云；（S102）根据图像和第一点云，实时生成目标场景的三维模型。三维重建方法图像和第一点云两类数据互补，有利于提高三维重建的准确性，且实时生成目标场景的三维模型，能够满足某些场景下的实时性需求。还公开了三维重建装置（400）、系统及存储介质。

Description

三维重建方法、装置、系统及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体而言，涉及一种三维重建方法、装置、系统及存储介质。

背景技术

三维重建是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。

相关的三维重建方法有：从环境中采集多张图像，然后采用运动恢复结构(Structure from motion,SfM)或同时定位与制图(simultaneous localization and mapping，SLAM)等方法对多张图像进行处理，实现对环境进行建模。但是，图像从二维空间中反映的信息有限，仅基于图像重建得到的三维模型的重建效果不佳。

发明内容

有鉴于此，本申请的目的之一是提供一种三维重建方法、装置、系统及存储介质。

第一方面，本申请实施例提供了一种三维重建方法，包括：

在可移动平台移动至目标场景之后，通过设置在所述可移动平台中的摄像头采集目标场景的图像；以及，通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云；

根据所述图像和所述第一点云，实时生成所述目标场景的三维模型。

第二方面，本申请实施例提供了一种三维重建装置，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述一个或多个处理器单独或者共同执行所述可执行指令，以执行第一方面所述的方法。

第三方面，本申请实施例提供了一种三维重建系统，包括可移动平台以及第二方面所述的三维重建装置；

所述可移动平台搭载有成像装置和点云采集装置；

所述可移动平台用于在移动至目标场景之后，利用所述成像装置采集图像以及利用所述点云采集装置采集第一点云，并将所述图像和所述第一点云传输给所述三维重建装置。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可执行指令，所述可执行指令被处理器执行时实现第一方面所述的方法。

本申请实施例所提供的一种三维重建方法、装置、系统及存储介质，在可移动平台移动至目标场景之后，可以通过设置在所述可移动平台中的摄像头采集目标场景的图像，以及通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云；进而综合图像和第一点云两类数据，实时生成所述目标场景的三维模型。本实施例图像和第一点云两类数据互补，有利于提高三维重建的准确性，且能够在采集到图像和第一点云之后，实时生成目标场景的三维模型，能够满足某些场景下的实时性需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种三维重建系统的示意图；

图2是本申请实施例提供的一种三维重建方法的流程示意图；

图3是本申请实施例提供的一种第二神经网络模型的结构示意图；

图4是本申请实施例提供的一种第一神经网络模型的结构示意图；

图5是本申请实施例提供的一种第三神经网络模型的结构示意图；

图6是本申请实施例提供的利用单帧图像和单帧第一点云生成单视角的三维模型的示意图；

图7是本申请实施例提供的一种三维重建装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于相关技术中的问题，本申请实施例提供了一种三维重建方法，在可移动平台移动至目标场景之后，可以通过设置在所述可移动平台中的摄像头采集目标场景的图像，以及通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云；进而综合图像和第一点云两类数据，实时生成所述目标场景的三维模型。本实施例实现图像和第一点云两类数据互补，有利于提高三维重建的准确性，且能够在采集到图像和第一点云之后，实时生成目标场景的三维模型，能够满足某些场景下的实时性需求。

在一些实施例中，所述三维重建方法可由三维重建装置来执行，所述三维重建装置可以是具有数据处理能力的电子设备，如电脑、服务器、云端服务器或者终端、可移动平台等；或者，所述三维重建装置也可以是具有数据处理能力的计算机芯片或者集成电路，例如中央处理单元(Central Processing Unit，CPU)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)或者现成可编程门阵列(Field-Programmable Gate Array，FPGA)等；或者，所述三维重建装置还可以是集成于电子设备中的程序产品。

示例性的，当所述三维地图处理装置为具有数据处理能力的计算机芯片或者集成电路时，所述三维地图处理装置可以安装在遥控设备中。所述遥控设备与可移动平台通信连接，用于对可移动平台进行控制，比如控制可移动平台运动、或者控制可移动平台中的成像装置拍照等等；以及可移动平台可以将其采集的图像或者其他数据发送给遥控设备，以便在遥控设备中显示或者由遥控设备进行进一步地处理。所述可移动平台包括但不限于无人飞行器、车辆、无人驾驶船只或者移动机器人(比如扫地机器人)等等。

在一示例性的应用场景中，请参阅图1，以三维重建装置为可移动平台的遥控设备为例，图1中以可移动平台为无人飞行器进行示例说明。可移动平台11与遥控设备12通信连接，其中，可移动平台11搭载有成像装置和点云采集装置。在需要对某一目标场景进行三维建模时，可以将可移动平台11放置于该目标场景中，或者通过遥控设备12控制可移动平台11运动至该目标场景。则位于目标场景中的可移动平台11可以利用其搭载的成像装置采集图像以及利用其搭载的点云采集装置采集第一点云，然后将采集的图像和第一点云传输给遥控设备12，遥控设备12可以执行本申请实施例提供的三维重建方法，利用图像和第一点云进行三维重建，从而获得目标场景的三维模型。其中，成像装置的视场和点云采集装置的探测范围部分或全部重叠。

其中，成像装置例如可以是照相机或摄像机等用于捕获图像的设备，成像装置可以在遥控设备或者可移动平台的控制下进行拍摄。成像装置至少包括感光元件，该感光元件例如为互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，CMOS)传感器或电荷耦合元件(Charge-coupled Device，CCD)传感器。示例性的，所述成像装置包括但不限于可见光相机、灰度相机以及红外相机等，所述图像可以是彩色图像、灰度图像或者红外图像等。

其中，点云采集装置包括但不限于激光雷达、毫米波雷达、双目视觉传感器或者结构光深度相机等。

激光雷达用于向目标场景发射激光脉冲序列，然后接收从目标反射回来的激光脉冲序列，并根据反射回来的激光脉冲序列生成三维点云。在一个例子中，所述激光雷达可以确定反射回来的激光脉冲序列的接收时间，例如，通过探测电信号脉冲的上升沿时间和/或下降沿时间确定激光脉冲序列的接收时间。如此，所述激光雷达可以利用激光脉冲序列的接收时间信息和发射时间计算TOF(Time of flight，飞行时间)，从而确定探测物到所述激光雷达的距离。所述激光雷达属于自主发光的传感器，不依赖于光源光照，受环境光干扰比较小，即使在无光封闭环境内也可以正常工作，以便后续生成高精度的三维模型，具有广泛的适用性。毫米波雷达的点云采集原理与激光雷达类似，此处不再赘述。

双目视觉传感器是基于视差原理从不同的位置获取目标场景的两幅图像，通过计算两幅图像对应点间的位置偏差，来获取三维几何信息，以此生成三维点云。双目视觉传感器对于硬件要求低，相应的，也可以降低成本，只需是普通的CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)相机即可，只要光线合适，室内环境和室外环境均可使用，因此也具有一定的适用性。

结构光深度相机是将具有一定结构特征的光线投射到目标场景中再进行采集，这种具备一定结构的光线，会因被摄物体的不同深度区域而采集不同的图像相位信息，然后将其换算成深度信息，以此来获得三维点云。结构光深度相机也是属于自主发光的传感器，不依赖于光源光照，受环境光干扰比较小，即使在无光封闭环境内也可以正常工作，以便后续生成高精度的三维模型，具有广泛的适用性。

示例性的，本申请实施例生成的目标场景的三维模型可应用于各种不同的领域中，可依据选定的目标场景进行具体设置。比如所述三维模型可应用于虚拟现实(Virtual Reality)，增强现实(Augmented Reality)，自动驾驶，高精度地图、测绘、地质勘测、建筑设计或者风景表现等领域。

接下来对本申请实施例提供的三维重建过程进行说明，请参阅图2，图2为本申请实施例提供的一种三维重建方法的流程示意图，所述方法可由三维重建装置来执行。所述三维重建装置与可移动平台通信连接，示例性的，所述三维重建装置为可移动平台的遥控设备。所述方法包括：

在步骤S101中，在可移动平台移动至目标场景之后，通过设置在所述可移动平台中的摄像头采集目标场景的图像；以及，通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云。

在步骤S102中，根据所述图像和所述第一点云，实时生成所述目标场景的三维模型。

可以理解的是，本申请对于所述目标场景不做任何限制，可依据实际应用场景进行具体设置。示例性的，所述目标场景可以是室内场景，也可以是室外场景；比如利用从室内场景采集的图像和第一点云生成的三维模型可提供给用户进行虚拟现实、增强现实等交互；比如可以获取大尺度的室外场景的图像和第一点云，进而基于本申请实施例提供的三维重建方法可以生成具有较高精度的三维模型，解决室外大尺度环境的三维重建问题。示例性的，所述目标场景为车辆驾驶场景，所述三维重建装置安装在车辆上，所述图像为车辆利用其搭载的成像装置采集得到，以及所述第一点云为车辆利用其搭载的点云采集装置(比如激光雷达)采集得到，则车辆中的三维重建装置利用从车辆驾驶场景采集的图像和第一点云生成三维模型，该三维模型可用于辅助车辆自动驾驶决策。

示例性的，由位于目标场景中的可移动平台利用其搭载的成像装置采集所述图像以及利用其搭载的点云采集装置采集所述第一点云之后，可移动平台可以将采集的图像和第一点云传输给三维重建装置，由三维重建装置根据所述图像和所述第一点云进行目标场景的三维重建。示例性的，所述三维重建装置为所述可移动平台的遥控设备，所述可移动平台安装有摄像头和激光雷达，可以通过遥控设备控制可移动平台在待建模的场景中运动，当控制所述可移动平台移动至所述目标场景后，通过所述摄像头采集所述目标场景的RGB图像，以及通过激光雷达采集所述目标场景的第一点云。

第一点云包括有若干三维点，这些三维点可以用来代表一个物体的外表面形状。另外，所述三维点还可以包括该三维点的深度值、分割结果等信息。而图像可以提供物体的颜色、纹理等特征。

在一些实施例中，考虑到通常使用点云采集装置得到的第一点云中三维点的数量比较少，三维点与三维点之间的间距比较大，即第一点云是稀疏点云。在获取从目标场景采集的图像和第一点云之后，三维重建装置可以根据图像和稀疏的第一点云来生成稠密的第二点云，即第二点云中三维点的数量较多，三维点与三维点之间的间距也比较小；换句话说，所述第二点云的密度高于所述第一点云的密度；进而三维重建装置根据稠密的第二点云实时输出所述目标场景的三维模型。

在另一些实施例中，考虑到第二点云由图像和第一点云加工处理得到，其相较于真实的目标场景可能存在一定误差，因此，三维重建装置在根据图像和稀疏的第一点云来生成稠密的第二点云之后，可以进一步对第二点云进行优化，根据所述第一点云、所述第二点云和所述图像进行三维重建，实时生成所述目标场景的三维模型。本实施例中考虑到图像和第一点云是从目标场景采集的真实数据，在重建过程中引入图像和第一点云，实现为第二点云提供误差补偿，因此有利于提高生成的三维模型的精度。

在一种可能的实施方式中，在获取第二点云的过程中，首先可以将所述第一点云映射到所述图像所在二维空间，获得第一深度图，由于第一点云是稀疏点云，则映射得到第一深度图中可能有些像素对应有深度值(即像素值非0)，而有些像素没有深度值(即像素值为0)。示例性的，可以预先确定成像装置和点云采集装置(比如激光雷达)之间的相对位姿，根据所述相对位姿和成像装置的内参确定图像空间和点云空间之间的转换关系，进而可以利用所述转换关系将所述第一点云映射到所述图像所在二维空间，获得稀疏的第一深度图。

在获得第一深度图之后，考虑到目标场景的深度分布与图像的特征分布有着很强的关联性，图像中在同一目标对象上的像素点往往深度值是相似或者是相近的。依据这一特性，三维重建装置可以根据所述第一深度图和所述图像来获取第二深度图，比如将所述第一深度图和所述图像进行融合，获得与图像中的像素对应的第二深度图。进而将所述第二深度图映射到所述第一点云所在三维空间，获取所述第二点云。本实施例实现利用图像的特征来对稀疏的第一深度图进行深度补全，获取稠密的第二深度图，所述第二深度图中像素值非零(即对应有深度值)的像素数量多于所述第一深度图中像素值非零(即对应有深度值)的像素数量，进而可以通过二维空间到三维空间的映射得到稠密的第二点云。

在一可能的实施方式中，三维重建装置可以从所述第一深度图中提取深度特征，以及从所述图像中提取图像特征；然后对所述深度特征和所述图像特征进行融合处理，比如可以在所述图像所在二维空间中融合深度特征和图像特征，从而获得所述第二深度图。其中，所述图像特征包括但不限于纹理特征、颜色特征、形状特征或者边缘特征等等。本实施例中，利用图像的图像特征来对稀疏的第一深度图进行深度补全，有利于提高后续生成的三维模型的精度。

示例性的，可以通过深度学习的方法，利用预先训练的第二神经网络模型200对所述第一深度图进行自动补全。请参阅图3，所述第二神经网络模型200包括有深度图提取网络10，图像提取网络20和第二融合网络30。将所述第一深度图和所述图像输入第二神经网络模型200中，可以由所述深度图提取网络10来对第一深度图进行特征提取，得到深度特征；以及可以由图像提取网络20来对图像进行特征提取，得到图像特征；进而所述第二融合网络30可以将深度特征和图像特征进行融合处理，比如可以在所述图像所在二维空间中沿着通道维将深度特征和图像特征进行串联得到融合特征，并对融合特征进行进一步地处理获得所述第二深度图。

在一个例子中，所述深度图提取网络至少包括一个或多个卷积层，以实现对第一深度图进行特征提取；所述图像提取网络至少包括一个或多个卷积层，以实现对图像进行特征提取。

在一个例子中，可以基于有监督学习方式训练第二神经网络模型，比如可以获得如下训练数据：图像样本、由第一点云样本映射得到的第一深度图样本和第二深度图标签。在训练过程中，可以将图像样本和第一深度图样本输入第二神经网络模型中，由第二神经网络模型利用图像样本对第一深度图样本进行深度补全，获取预测的第二深度图；进而可以根据预测的第二深度图和所述第二深度图标签之间的差异调整第二神经网络模型的参数；比如可以利用预测的第二深度图与所述第二深度图标签之间的差异计算所述第二神经网络模型的损失函数，根据计算得到的损失值调整第二神经网络模型的参数，获得训练好的第二神经网络模型。可以理解的是，本申请实施例对于所述损失函数的具体类型不做任何限制，可依据实际应用场景进行具体设置，比如所述第二神经网络模型的损失函数包括均方误差函数。

在进行深度补全以获得与图像中的像素对应的第二深度图之后，三维重建装置可以将所述第二深度图映射到所述第一点云所在三维空间，获取所述第二点云。示例性的，可以预先确定成像装置和激光雷达之间的相对位姿，根据所述相对位姿和成像装置的内参确定图像空间和点云空间之间的转换关系，进而可以利用所述转换关系将所述第二深度图映射到所述第一点云所在三维空间，获得稠密的第二点云。

在一些实施例中，在根据图像和第一点云生成第二点云之后，考虑到第二点云是图像和第一点云加工处理得到，其相较于真实的目标场景可能存在一定误差，即获得的第二点云是粗糙的稠密的点云，需进行进一步地精细化处理，以提高三维模型的精度。而考虑到图像和第一点云是从目标场景采集的真实数据，因此三维重建装置可以引入图像和第一点云来对第二点云进行优化，根据所述第一点云、所述第二点云和所述图像进行三维重建，实时生成所述目标场景的三维模型，图像和第一点云为第二点云提供误差补偿，有利于提高三维模型的精度。

在一种可能实施方式中，三维重建装置可以将第一点云、所述第二点云和所述图像进行融合，实时生成所述目标场景的三维模型。比如可以分别从所述第一点云和所述第二点云中提取点云特征，以及从所述图像中提取图像特征；其中，所述图像特征包括以下至少一种：纹理特征、颜色特征、形状特征或者边缘特征；所述点云特征包括以下至少一种：包络信息、三维点之间的距离信息或者位置关系信息；然后根据所述点云特征和所述图像特征进行三维重建，比如将所述点云特征和所述图像特征进行融合，并利用融合后的特征进行三维重建。本实施例中，分别从第一点云、第二点云和图像中提取有效特征进行重建处理，无需融合所有数据，在为重建处理提供丰富特征以提高三维模型精度的基础上，也减少了重建处理过程中的数据量，有利于提高重建处理效率。

示例性的，在将所述点云特征和所述图像特征进行融合时，为了提高三维重建效率，可以在所述第二点云所在三维空间中融合所述点云特征和所述图像特征，则融合后的特征也属于三维特征，利用融合后的特征进行三维重建，无需再进行其他维度转换过程，从而有利于提高三维重建效率。

示例性的，可以通过深度学习的方法，利用预先训练的第一神经网络模型100来进行三维重建。请参阅图4，所述第一神经网络模型100包括有点云提取网络40、图像提取网络20和第一融合网络50；将所述第一点云、所述第二点云和所述图像输入第一神经网络模型100中，可以由所述点云提取网络40来对第一点云和第二点云进行特征提取，得到点云特征，其中，所述点云特征包括但不限于包络信息、三维点之间的距离信息或者位置关系信息等；以及可以由图像提取网络20来对图像进行特征提取，得到图像特征，其中，所述图像特征包括但不限于纹理特征、颜色特征、形状特征或者边缘特征等；进而所述第一融合网络50可以在所述第二点云所在三维空间中融合所述点云特征和所述图像特征，并根据融合后的特征进行三维重建。

在一个例子中，所述点云提取网络至少包括一个或多个卷积层，以实现对第一点云和第二点云进行特征提取；所述图像提取网络至少包括一个或多个卷积层，以实现对图像进行特征提取。

在一个例子中，可以基于有监督学习方式训练第一神经网络模型，比如可以获得如下训练数据：图像样本、第一点云样本、由所述图像样本和所述点云样本得到的第二点云样本以及三维模型标签。

在训练过程中，可以将图像样本、第一点云样本和第二点云样本输入第一神经网络模型中，由第一神经网络模型利用输入的数据进行三维重建，获得预测的三维模型；进而可以根据预测的三维模型和所述三维模型标签之间的差异调整第一神经网络模型的参数。示例性的，可以设置所述第一神经网络模型的损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的差异；第二损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的距离差异；进而可以根据第一损失函数的损失值和第二损失函数的损失值调整第一神经网络模型的参数，获得训练好的第一神经网络模型。可以理解的是，本申请实施例对于所述损失函数的具体类型不做任何限制，可依据实际应用场景进行具体设置，比如所述第一损失函数包括均方误差函数；所述第二损失函数包括倒角距离函数和/或EMD距离函数。

在一些实施例中，考虑到第一神经网络模型和第二神经网络模型所应用的数据之间的联系，为了提高训练效率和训练精度，可以基于多任务学习联合训练所述第一神经网络模型和第二神经网络模型。在训练过程中，利用所述第一神经网络模型和所述第二神经网络模型的损失函数共同调整所述第一神经网络模型和第二神经网络模型的参数。

在一些实施例中，考虑到第一神经网络模型和第二神经网络模型中都具有图像提取网络，该图像提取网络的功能相同，且在实际应用过程中，针对于同一三维模型，第一神经网络模型的图像提取网络和第二神经网络模型的图像提取网络处理的图像相同，则为了提高数据处理效率，精简网络结构，所述第一神经网络模型和所述第二神经网络模型可以共用用于提取图像特征的图像提取网络，即是说，在生成第二点云的过程中利用图像提取网络提取的图像特征可以用于三维模型的三维重建过程，实现对图像特征的复用，无需重复提取图像特征的步骤，有利于提高三维重建效率。

示例性的，基于第一神经网络模型100和所述第二神经网络模型200共用图像提取网络20，如图5所示，提出了一种结合第一神经网络模型100和所述第二神经网络模型200的新神经网络模型(以下称为第三神经网络模型300)。第三神经网络模型300包括第一转换层60、第二转换层70、深度图提取网络10、图像提取网络20、点云提取网络40、第一融合网络50和第二融合网络30。所述第一转换层60用于将第一点云映射到所述图像所在二维空间，获得第一深度图；所述第一深度图提取网络10用于从所述第一深度图中提取深度特征；所述图像提取网络20用于从图像中提取图像特征；所述第二融合网络30用于对所述深度特征和所述图像特征进行融合处理，获得第二深度图；所述第二转换层70用于将第二深度图映射到第一点云所在三维空间，获取第二点云；所述点云提取网络40用于对从所述第一点云和所述第二点云中提取点云特征；所述第一融合网络50用于对融合所述图像特征和所述点云特征得到的特征进行三维重建处理，得到三维模型。

在一些实施例中，请参阅图6，可以获取从目标场景采集的单帧图像和单帧第一点云，利用单帧图像和单帧第一点云实时生成所述目标场景的单视角的三维模型。示例性的，利用单帧图像和单帧第一点云实时生成单帧第二点云，所述第二点云的密度高于所述第一点云的密度，基于单帧第二点云实时输出所述目标场景的单视角的三维模型。示例性的，为了提高三维模型精度，在获取单帧第二点云后，可以利用单帧图像和单帧第一点云进一步优化单帧第二点云，根据单帧第一点云、单帧第二点云和单帧图像进行三维重建，生成单视角的三维模型。本实施例实现基于单帧图像和单帧第一点云恢复出目标场景的单视角的三维结构。

在另一些实施例中，可以获取从目标场景采集的多帧图像和多帧第一点云，利用多帧图像和多帧第一点云实时生成所述目标场景的多视角的三维模型。示例性的，利用多帧图像和多帧第一点云实时生成多帧第二点云，所述第二点云的密度高于所述第一点云的密度，基于多帧第二点云实时输出所述目标场景的多视角的三维模型。示例性的，为了提高三维模型精度，在获取多帧第二点云后，可以利用多帧图像和多帧第一点云进一步优化多帧第二点云，根据多帧第一点云、多帧第二点云和多帧图像进行三维重建，生成多视角的三维模型。本实施例实现基于多帧图像和多帧第一点云恢复出目标场景的多视角的三维结构。

在一些实施例中，在需要显示三维模型的场景中，为了提高显示效果，还可以根据所述三维模型中的三维点的深度，对所述三维模型进行伪彩变换和纹理变换中的至少一种，并显示变换后的三维模型；其中，所述三维点的不同深度对应不同的颜色和/或纹理。示例性的，以灰度值0～255为例，比如可以设置三维点的深度与灰度值成负相关关系，即三维点的深度越小，对应的灰度值越大，即越接近白色，反之，三维点的深度越大，对应的灰度值越小，即越接近黑色。示例性的，所述纹理可以根据所述图像中的RGB信息来确定，比如可以将所述图像中的RGB信息映射到所述三维模型的表面，形成纹理信息；或者所述纹理也可以是预设的纹理信息。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

相应地，请参阅图7，本申请实施例还提供了一种三维重建装置400，包括：

一个或多个处理器41；

用于存储所述处理器可执行指令的存储器42；

其中，所述一个或多个处理器41单独或者共同执行所述可执行指令，以执行上述任意一项所述的方法。

所述处理器41执行所述存储器42中包括的可执行指令，所述处理器41可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器42存储三维重建方法的可执行指令，所述存储器42可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，设备可以与通过网络连接执行存储器的存储功能的网络存储装置协作。存储器42可以是三维重建装置400的内部存储单元，例如三维重建装置400的硬盘或内存。存储器42也可以是三维重建装置400的外部存储设备，例如三维重建装置400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器42还可以既包括三维重建装置400的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序(或可执行指令)和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

在一实施例中，所述处理器41用于：

在可移动平台移动至目标场景之后，通过设置在所述可移动平台中的摄像头采集所述目标场景的图像；以及，通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云；

可选地，所述处理器41还用于：根据所述图像和所述第一点云，生成第二点云；其中，所述第二点云的密度高于所述第一点云的密度；根据所述第一点云、所述第二点云和所述图像进行三维重建，实时生成所述目标场景的三维模型。

可选地，所述处理器41还用于：根据所述三维模型中的三维点的深度，对所述三维模型进行伪彩变换和/或纹理变换，并显示变换后的三维模型；其中，所述三维点的不同深度对应不同的颜色和/或纹理。

可选地，所述处理器41还用于：从所述第一点云和所述第二点云中提取点云特征，以及从所述图像中提取图像特征；根据所述点云特征和所述图像特征进行三维重建。

可选地，所述点云特征由预先训练的第一神经网络模型中的点云提取网络提取得到；所述图像特征由所述第一神经网络模型中的图像提取网络提取得到。

可选地，所述处理器41还用于：在所述第二点云所在三维空间中融合所述点云特征和所述图像特征，并根据融合后的特征进行三维重建。

可选地，所述三维模型由预先训练的第一神经网络模型中的第一融合网络对融合所述图像特征和所述点云特征得到的特征进行三维重建处理得到。

可选地，所述图像特征包括以下至少一种：纹理特征、颜色特征、形状特征或者边缘特征；所述点云特征包括以下至少一种：包络信息、三维点之间的距离信息或者位置关系信息。

可选地，所述处理器41还用于：将所述第一点云映射到所述图像所在二维空间，获得第一深度图；根据所述第一深度图和所述图像，获取第二深度图；其中，所述第二深度图中像素值非零的像素数量多于所述第一深度图中像素值非零的像素数量；将所述第二深度图映射到所述第一点云所在三维空间，获取所述第二点云。

可选地，所述处理器41还用于：从所述第一深度图中提取深度特征，以及从所述图像中提取图像特征；对所述深度特征和所述图像特征进行融合处理，获得所述第二深度图。

可选地，所述深度特征由预先训练的第二神经网络模型中的深度图提取网络提取得到；所述图像特征由所述第二神经网络模型中的图像提取网络提取得到；所述第二深度图由所述第二神经网络模型中的第二融合网络对融合所述深度特征和所述图像特征得到的特征进行处理得到。

可选地，所述深度特征和所述图像特征在所述图像所在二维空间中进行融合。

可选地，所述三维模型由预先训练的第一神经网络模型对所述第一点云、所述第二点云和所述图像进行三维重建处理得到；所述第二点云对应的第二深度图由预先训练的第二神经网络模型对所述图像和所述第一点云对应的第一深度图进行处理得到；其中，所述第一神经网络模型和第二神经网络模型基于多任务学习联合训练得到；和/或，所述第一神经网络模型和所述第二神经网络模型共用用于提取图像特征的图像提取网络。

可选地，所述第一神经网络模型的训练数据包括：图像样本、第一点云样本、由所述图像样本和所述点云样本得到的第二点云样本以及三维模型标签；所述第二神经网络模型的训练数据包括：所述图像样本、由所述第一点云样本映射得到的第一深度图样本和第二深度图标签。

可选地，所述第一神经网络模型的损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的差异；第二损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的距离差异。所述第二神经网络模型的损失函数用于描述从所述图像样本和所述第一深度图样本中预测得到的第二深度图与所述第二深度图标签之间的差异。示例性的，所述第一损失函数包括均方误差函数；所述第二损失函数包括倒角距离函数和/或EMD距离函数；所述第二神经网络模型的损失函数包括均方误差函数。

可选地，所述图像包括单帧图像；所述第一点云包括单帧第一点云。所述处理器41还用于：根据所述单帧图像和所述单帧第一点云，实时生成所述目标场景的单视角的三维模型。

这里描述的各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

本领域技术人员可以理解，图7仅仅是三维重建装置400的示例，并不构成对三维重建装置400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如设备还可以包括输入输出设备、网络接入设备、总线等。

上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

在一些实施例中，请参阅图1，本申请实施例还提供了一种三维重建系统，包括可移动平台以及上述的三维重建装置；所述可移动平台搭载有成像装置和点云采集装置。

可选地，所述可移动平台包括以下任一种或多种：无人飞行器、自动驾驶车辆、无人驾驶船只或者移动机器人；所述点云采集装置包括以下任一种或多种：激光雷达、毫米波雷达或者双目视觉传感器。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请实施例所提供的方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种三维重建方法，其特征在于，包括：

在可移动平台移动至目标场景之后，通过设置在所述可移动平台中的摄像头采集所述目标场景的图像；以及，通过设置在所述可移动平台中的点云采集装置采集所述目标场景的第一点云；

根据所述图像和所述第一点云，实时生成所述目标场景的三维模型。
根据权利要求1所述的方法，其特征在于，所述根据所述第一图像和所述第一点云，实时生成所述目标场景的三维模型，包括：

根据所述图像和所述第一点云，生成第二点云；其中，所述第二点云的密度高于所述第一点云的密度；

根据所述第一点云、所述第二点云和所述图像进行三维重建，实时生成所述目标场景的三维模型。
根据权利要求1所述的方法，其特征在于，还包括：

根据所述三维模型中的三维点的深度，对所述三维模型进行伪彩变换和/或纹理变换，并显示变换后的三维模型；其中，所述三维点的不同深度对应不同的颜色和/或纹理。
根据权利要求2所述的方法，其特征在于，所述根据所述第一点云、所述第二点云和所述图像进行三维重建，包括：

从所述第一点云和所述第二点云中提取点云特征，以及从所述图像中提取图像特征；

根据所述点云特征和所述图像特征进行三维重建。
根据权利要求4所述的方法，其特征在于，所述点云特征由预先训练的第一神经网络模型中的点云提取网络提取得到；

所述图像特征由所述第一神经网络模型中的图像提取网络提取得到。
根据权利要求4或5所述的方法，其特征在于，所述根据所述点云特征和所述图像特征进行三维重建，包括：

在所述第二点云所在三维空间中融合所述点云特征和所述图像特征，并根据融合后的特征进行三维重建。
根据权利要求6所述的方法，其特征在于，所述三维模型由预先训练的第一神经网络模型中的第一融合网络对融合所述图像特征和所述点云特征得到的特征进行三维重建处理得到。
根据权利要求4至7任意一项所述的方法，其特征在于，所述图像特征包括以下至少一种：纹理特征、颜色特征、形状特征或者边缘特征；

所述点云特征包括以下至少一种：包络信息、三维点之间的距离信息或者位置关系信息。
根据权利要求2至7任意一项所述的方法，其特征在于，所述根据所述图像和第一点云，生成第二点云，包括：

将所述第一点云映射到所述图像所在二维空间，获得第一深度图；

根据所述第一深度图和所述图像，获取第二深度图；其中，所述第二深度图中像素值非零的像素数量多于所述第一深度图中像素值非零的像素数量；

将所述第二深度图映射到所述第一点云所在三维空间，获取所述第二点云。
根据权利要求9所述的方法，其特征在于，所述根据所述第一深度图和所述图像，获取第二深度图，包括：

从所述第一深度图中提取深度特征，以及从所述图像中提取图像特征；

对所述深度特征和所述图像特征进行融合处理，获得所述第二深度图。
根据权利要求10所述的方法，其特征在于，所述深度特征由预先训练的第二神经网络模型中的深度图提取网络提取得到；

所述图像特征由所述第二神经网络模型中的图像提取网络提取得到；

所述第二深度图由所述第二神经网络模型中的第二融合网络对融合所述深度特征和所述图像特征得到的特征进行处理得到。
根据权利要求10或11所述的方法，其特征在于，所述深度特征和所述图像特征在所述图像所在二维空间中进行融合。
根据权利要求2至12任意一项所述的方法，其特征在于，所述三维模型由预先训练的第一神经网络模型对所述第一点云、所述第二点云和所述图像进行三维重建处理得到；

所述第二点云对应的第二深度图由预先训练的第二神经网络模型对所述图像和所述第一点云对应的第一深度图进行处理得到；

其中，所述第一神经网络模型和第二神经网络模型基于多任务学习联合训练得到；和/或，所述第一神经网络模型和所述第二神经网络模型共用用于提取图像特征的图像提取网络。
根据权利要求13所述的方法，其特征在于，所述第一神经网络模型的训练数据包括：图像样本、第一点云样本、由所述图像样本和所述点云样本得到的第二点云样本以及三维模型标签；

所述第二神经网络模型的训练数据包括：所述图像样本、由所述第一点云样本映射得到的第一深度图样本和第二深度图标签。
根据权利要求14所述的方法，其特征在于，所述第一神经网络模型的损失函数包括第一损失函数和第二损失函数；

其中，所述第一损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的差异；

第二损失函数用于描述从所述图像样本、所述第一点云样本和所述第二样本中预测得到的三维模型与所述三维模型标签之间的距离差异；

所述第二神经网络模型的损失函数用于描述从所述图像样本和所述第一深度图样本中预测得到的第二深度图与所述第二深度图标签之间的差异。
根据权利要求15所述的方法，其特征在于，所述第一损失函数包括均方误差函数；所述第二损失函数包括倒角距离函数和/或EMD距离函数；

所述第二神经网络模型的损失函数包括均方误差函数。
根据权利要求1至16任意一项所述的方法，其特征在于，所述图像包括单帧图像；所述第一点云包括单帧第一点云；

所述根据所述第一图像和所述第一点云，实时生成所述目标场景的三维模型，包括：

根据所述单帧图像和所述单帧第一点云，实时生成所述目标场景的单视角的三维模型。
一种三维重建装置，其特征在于，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述一个或多个处理器单独或者共同执行所述可执行指令，以执行如权利要求1至17任意一项所述的方法。
一种三维重建系统，其特征在于，包括可移动平台以及如权利要求18所述的三维重建装置；

所述可移动平台搭载有成像装置和点云采集装置；

所述可移动平台用于在移动至目标场景之后，利用所述成像装置采集图像以及利用所述点云采集装置采集第一点云，并将所述图像和所述第一点云传输给所述三维重建装置。
根据权利要求19所述的系统，其特征在于，所述可移动平台包括以下任一种或多种：无人飞行器、自动驾驶车辆、无人驾驶船只或者移动机器人；

所述点云采集装置包括以下任一种或多种：激光雷达、毫米波雷达或者双目视觉传感器。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可执行指令，所述可执行指令被处理器执行时实现如权利要求1至17任一项所述的方法。