WO2023241097A1

WO2023241097A1 - 一种语义实例重建方法、装置、设备及介质

Info

Publication number: WO2023241097A1
Application number: PCT/CN2023/078805
Authority: WO
Inventors: 卢丽华; 魏辉; 李茹杨; 赵雅倩; 李仁刚
Original assignee: 山东海量信息技术研究院
Priority date: 2022-06-16
Filing date: 2023-02-28
Publication date: 2023-12-21
Also published as: CN114758337B; CN114758337A

Abstract

一种语义实例重建方法、装置、设备及介质，涉及三维视觉领域，包括：利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息（S11）；基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云（S12）；基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果（S13）。通过结合原始图像的第一特征信息和三维点云的第二特征信息，能够提高语义实例重建结果的质量。

Description

一种语义实例重建方法、装置、设备及介质

相关申请的交叉引用

本申请要求于2022年06月16日提交中国专利局，申请号为202210677281.9，申请名称为“一种语义实例重建方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及三维视觉领域，特别涉及一种语义实例重建方法、装置、设备及介质。

背景技术

深度相机等设备扫描三维真实场景时，由于遮挡、视角限制、光线不好等原因，扫描结果存在缺失。语义实例重建任务将三维语义理解与三维重建进行耦合，目的在于修复不完整的场景扫描结果，重建得到物体的完整几何形状、姿态以及类别信息，为三维场景理解提供基础，广泛应用于智能驾驶、机器人、虚拟现实、增强现实等领域。当前的语义实例重建方法大多是基于单模态的，主要可以分为两类：基于RGB(Red Green Blue，红绿蓝)图和基于三维点云。在基于RGB图的语义实例重建方法中，利用RGB图进行目标检测和实例重建，例如Mesh R-CNN(Mesh Region-Convolutional Neural Network，网格区域卷积神经网络)框架通过改进实例分割框架Mask R-CNN(Mask Region-Convolutional Neural Network，掩模区域卷积神经网络)，以增加网格预测分支来生成物体的重建网格，可以用RGB图实现目标检测、实例分割和物体网格预测，但是仅利用RGB图，会产生深度歧义，导致目标定位错误等情况。在基于三维点云的语义实例重建方法中，通过利用点云提供的几何信息可以提高物体检测以及重建的质量。如Najibi等人提出的DOPS(Distributional Optimization from Samples，基于样本的分布优化)模型，首次在点云上实现了语义实例重建，但是将点云进行网格化处理，限制了实例重建的分辨率。此后，Nie等人提出RfD-Net(Reconstruction From Detection-Net，先检测再重建网络)框架，可以直接从原始点云中学习物体的语义信息，并重建物体的几何形状。尽管上述方法取得了不错的效果，但是上述方法依然存在物体位置定位的准确率较低以及语义实例重建结果较低的问题。

综上，在语义实例重建任务中，如何准确定位物体位置并提高语义实例重建结果的质量是目前有待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语义实例重建方法、装置、设备及介质，能够在语义实例重建任务中准确定位物体位置并提高语义实例重建结果的质量。其方案如下：

本申请提供了一种语义实例重建方法，包括：

利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息；

基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云；

基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。

在一些实施例中，利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，包括：

利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。

在一些实施例中，利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息，包括：

利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取，并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。

在一些实施例中，基于第一特征信息预测目标物体的第一粗糙点云，包括：

基于位置信息和语义类别信息，利用点生成网络预测目标物体的第一粗糙点云。

在一些实施例中，语义实例重建方法，还包括：

基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。

在一些实施例中，语义实例重建方法，还包括：

构建总损失函数，并利用总损失函数对语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。

在一些实施例中，利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息，包括：

利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。

在一些实施例中，利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息，包括：

利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征；

基于三维点云特征和三维点云坐标，并通过多层感知机网络得到目标物体的中心点坐标；

基于中心点坐标和三维点云特征，并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。

在一些实施例中，利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果，包括：

基于三维特征信息和初始点云得到目标物体的第三特征信息；

利用PointNet网络对第三特征信息进行特征提取得到第四特征信息，并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格；

利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。

在一些实施例中，基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格，包括：

基于第四特征信息、初始占有网络和初始点云，并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布；

对概率分布进行采样得到隐式变量，基于隐式变量和初始点云预测目标物体的目标占有网格。

在一些实施例中，构建总损失函数，包括：

基于概率分布和目标占有网格构建形状损失函数；

基于形状损失函数和检测损失函数构建总损失函数；其中，检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。

在一些实施例中，基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云，包括：

基于第一特征信息和第二特征信息，并利用边界框回归网络预测目标物体的三维检测边框；

基于三维检测边框从三维点云中提取目标物体的点云信息，以得到第二粗糙点云。

本申请还提供了一种语义实例重建装置，包括：

特征提取模块，用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息；

预测模块，用于基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云；

重建结果获取模块，用于基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。

本申请还提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行计算机程序，以实现前述提供的语义实例重建方法的步骤。

本申请还提供了一种非易失性计算机可读存储介质，用于存储计算机程序；其中，计算机程序被处理器执行时实现前述提供的语义实例重建方法的步骤。

可见，本申请利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息；基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云；基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。由此可见，本申请获取目标场景的原始图像和三维点云，并利用第一目标检测网络和第二目标检测网络对分别对原始图像和三维点云进行处理，以获取对应的第一特征信息和第二特征信息，然后根据第一特征信息预测目标物体的第一粗糙点云，其次，通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果，能够使得三维检测结果更加准确，也即物体定位更加准确，从而基于三维检测结果得到第二粗糙点云的质量更高，再融合第一粗糙点云和第二粗糙点云得到目标物体的初始点云，以利用预设形状生成网络对该初始点云进行处理以得到语义实例重建结果，如此一来，通过结合原始图像的第一特征信息和三维点云的第二特征信息，能够准确定位物体位置并提高语义实例重建结果的质量。

附图说明

为了更清楚地说明本申请一些实施例实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种语义实例重建方法的流程图；

图2为本申请实施例提供的一种语义实例重建方法的流程图；

图3为本申请实施例提供的一种语义实例重建方法的实现过程图；

图4为本申请实施例提供的一种语义实例重建方法的流程图；

图5为本申请实施例提供的一种语义实例重建方法的流程图；

图6为本申请实施例提供的一种语义实例重建方法的流程图；

图7为本申请实施例提供的一种语义实例重建结果的示意图；

图8为本申请实施例提供的一种语义实例重建装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构图；

图10为本申请实施例提供的一种非易失性计算机可读存储介质的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前的语义实例重建方法大多是基于单模态的，主要可以分为两类：基于RGB图和基于三维点云。如果仅利用RGB图，会产生深度歧义，导致目标定位错误等情况，而仅利用三维点云进行处理，会限制实例重建的分辨率。为此，本申请实施例提供了一种语义实例重建方法、装置、设备及介质，能够在语义实例重建任务中准确定位物体位置并提高语义实例重建结果的质量。

参见图1所示，本申请实施例提供了一种语义实例重建方法，该方法可以包括：

步骤S11：利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息。

在一些实施例中，首先需要获取目标场景的原始图像和三维点云，该原始图像可以为RGB图像，并分别利用第一目标检测网络和第二目标检测网络对原始图像和三维点云进行处理，以得到与目标场景中目标物体对应的第一特征信息和第二特征信息。

需要指出的是，在一些实施例中目标场景的原始图像和三维点云来源于ScanNet数据集，ScanNet数据集一共包含1513个实际场景，同时提供具有实例级标注的场景三维点云。Scan2CAD(Management Software Computer Aided Design，管理软件计算机辅助设计)软件将ShapeNet数据集中物体的三维模型与ScanNet数据集中的物体实例对齐，并提供了物体的重建网格。在一些实施中，对于ScanNet中的每个场景，以其RGB图以及三维点云作为多模态输入，其中三维点云可由数据集直接提供，也可以利用多视角的RGB图和深度图生成。

步骤S12：基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云。

在一些实施例中，基于第一特征信息预测目标物体的第一粗糙点云，并结合第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云，可以为，基于三维检测结果从目标场景的三维点云中定位并提取目标物体的点云，以得到第二粗糙点云。通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果，能够使得三维检测结果更加准确，也即物体定位更加准确，从而基于三维检测结果得到第二粗糙点云的质量更高。

步骤S13：基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。

在一些实施例中，融合第一粗糙点云和第二粗糙点云以得到目标物体的初始点云，再利用形状生成网络对初始点云进行补全优化，以得到目标物体的语义实例重建结果，也即目标物体的完整形状，最终的语义实例重建结果以重建网格形式表示。

参见图2和图3所示，本申请实施例提供了一种语义实例重建方法，可以包括：

步骤S21：利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息，并利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。

在一些实施例中，第一目标检测网络和第二目标检测网络可以分别为Faster R-CNN网络和VoteNet网络，也可以为其他的目标检测网络，此处不做限制。其中，因为目标场景的原始图像也即RGB图像为二维图像，那么将Faster R-CNN网络作为二维目标检测网络，得到的特征信息则为二维特征信息；而三维点云是三维图像，那么将VoteNet网络作为三维目标检测网络，得到的特征信息则为三维特征信息。

进一步的，上述利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息，包括：利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取，并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。可以理解的是，Faster R-CNN网络可以包括图片特征提取模块和候选生成模块，其中，图片特征提取模块，用于利用多个卷积层对目标场景的原始图像进行特征提取，也即提取场景RGB图像的特征表示；候选生成模块，用于通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息，也即利用Softmax层生成物体候选。那么，给定目标场景的RGB图像，二维目标检测网络会输出K个物体候选，表示为K×F_2D，其中F_2D为物体的二维特征信息，包含目标物体的位置信息和语义类别信息。

上述利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息，包括：利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征；基于三维点云特征和三维点云坐标，并通过多层感知机网络得到目标物体的中心点坐标；基于中心点坐标和三维点云特征，并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。可以理解的是，VoteNet网络可以包括点云特征提取模块、投票生成模块和候选生成模块。其中，特征提取模块用于利用PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征，也即从输入的三维点云中提取场景的点云特征表示；投票生成模块，用于融合三维点云特征和三维点云坐标，并通过多层感知机网络生成投票，表示物体的中心点坐标。候选生成模块，用于融合中心点坐标和附近的三维点云特征，利用多层感知机生成物体候选，并预测物体类别信息。那么，给定目标场景的三维点云，三维目标检测网络会输出K个物体候选，表示为K×M×3，其中F_3D为物体的三维特征信息。

步骤S22：基于位置信息和语义类别信息，利用点生成网络预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息，并利用边界框回归网络预测目标物体的三维检测边框。

在一些实施例中，根据目标物体的位置信息和语义类别信息，利用点生成网络和多层感知机，预测目标物体的第一粗糙点云，记为K×M_r×3。再基于目标物体的第一特征信息和第二特征信息，也即融合二维特征信息和三维特征信息得到物体的特征表示K×(F_2D+F_3D)；基于此特征，三维边界框回归网络利用多层感知机，预测物体的三维检测边框。

步骤S23：基于三维检测边框从三维点云中提取目标物体的点云信息，以得到第二粗糙点云。

在一些实施例中，基于目标物体的三维检测边框，实例提取网络从目标场景的三维点云中提取物体的点云信息，并利用多层感知机预测点云信息是否真实属于当前物体，得到目标物体的第二粗糙点云，记为K×M_p×3。

步骤S24：基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。

在一些实施例中，基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云K×M×3。利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果，也即得到完整的物体形状。

可见，第一目标检测网络和第二目标检测网络可以分别为Faster R-CNN网络和VoteNet网络，通过利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息，并利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。在基于第一特征信息和第二特征信息预测目标物体的第二粗糙点云时，需要基于第一特征信息和第二特征信息，并利用边界框回归网络预测目标物体的三维检测边框；基于三维检测边框从三维点云中提取目标物体的点云信息，以得到第二粗糙点云。通过利用基于RGB图像的二维目标检测来优化基于三维点云的三维目标检测，能够准确定位并提取场景中的目标物体。

参见图4所示，本申请实施例提供了一种语义实例重建方法，可以包括：

步骤S31：利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息。

步骤S32：基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云。

步骤S33：基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并基于第二特征信息和初始点云得到目标物体的第三特征信息。

在一些实施例中，在得到目标物体的初始点云K×M×3后，需要再次融合物体的第二特征信息，也即三维特征信息K×M×3得到物体的第三特征信息，记为K×M×(F_3D+3)。

步骤S34：利用PointNet网络对第三特征信息进行特征提取得到第四特征信息，并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格。

在一些实施例中，利用PointNet网络对第三特征信息进一步进行特征提取得到第四特征信息，记为K×M×D_3D。其次，基于第四特征信息利用已有的占有网格预测算法预测目标物体的目标占有网格。其中，上述基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格，包括：基于第四特征信息、初始占有网络和初始点云，并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布；对概率分布进行采样得到隐式变量，基于隐式变量和初始点云预测目标物体的目标占有网格。可以理解的是，将形状生成网络构建为概率生成模型，基于第四特征信息、初始占有网络和初始点云，利用占有网络预测算法中的隐式编码器，预测目标物体的概率分布，包括均值和标准差也即(μ，σ)，使得其值近似标准正态分布，从得到的分布(μ，σ)中采样得到隐式变量Z，并融合物体的初始点云，预测物体的目标占有网格。

步骤S35：利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。

在一些实施例中，利用移动立方体算法从目标物体的目标占有网格中生成物体的语义实例重建结果，也即重建网格表面。其中，初始时设置隐式变量Z＝0。

其中，关于上述步骤S31和S32的处理过程可以参考前述实施例中提供的相应内容，在此不再进行赘述。

可见，在利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果时，为基于三维特征信息和初始点云得到目标物体的第三特征信息；利用PointNet网络对第三特征信息进行特征提取得到第四特征信息，并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格；利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。也即，通过利用形状生成网络对得到的初始点云进一步进行补全优化，能够重建物体的完整形状，通过重建网格表面表示。

参见图5所示，本申请实施例的语义实例重建方法，还包括：

步骤S41：基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。

在一些实施例中，可以理解的是，语义实例重建网络包括三维目标检测网络和三维物体重建网络两个部分，而三维目标检测网络包括但不限于第一目标检测网络和第二目标检测网络，三维物体重建网络包括但不限于点生成网络和预设形状生成网络。也即参见图6所示，将场景的三维点云和场景的RGB图输入语义实例重建网络中的三维目标检测网络和三维物体重建网络，分别进行多模态三维目标检测和多模态三维物体重建，最终输出语义实例重建结果，也即完整的物体形状。

步骤S42：构建总损失函数，并利用总损失函数对语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。

在一些实施例中，需要构建总损失函数，并利用总损失函数对语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。进一步的，上述构建总损失函数，包括：基于概率分布和目标占有网格构建形状损失函数；基于形状损失函数和检测损失函数构建总损失函数；其中，检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。需要指出的是，总损失函数包括两个部分，分别是检测损失函数和形状损失函数；其中，检测损失函数L_box采用目标检测任务中常见的形式，包括：物体中心点的L1回归损失Lc、航向角L1回归损失L_θ、检测框大小交叉熵损失Ls、物体语义类别交叉熵损失Lz；也即L_box＝L_c+L_θ+L_s+L_z。形状损失函数是基于概率分布和目标占有网格构建的，也即对于每个物体实例，形状损失函数的计算公式为：

其中，L_shape表示形状损失函数，L_ce和KL分别表示交叉熵和KL散度，和o_i，j分别表示第i个物体的第j个点的预测占有网格和真值占有网格，预测占有网格也即上述预测的目标占有网格，真值占有网格指数据集提供的真实的占有网格；和p(z_i)分别表示预测的概率分布和标准正态分布；K和M分别表示初始点云的维度信息。因此，总损失函数为：L_pred＝L_box+L_shape。

构建好总损失函数后，则利用总损失函数对语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。其中，训练过程为，首先分别在给定目标场景的原始图像和三维点云上，预训练二维目标检测网络和三维目标检测网络；固定网络参数，训练语义实例重建网络时，二维目标检测网络和三维目标检测网络不再训练。将Scan2CAD提供的物体重建网格作为监督信息训练网络，利用梯度下降最小化的总损失函数L_pred训练语义实例重建网络，预测完整的三维物体形状。当网络的训练误差达到一个指定的较小值或者满足预设迭代次数时，训练结束，得到训练后语义实例重建网络。

进一步的，将测试集输入训练后语义实例重建网络，以测试网络。其中，可以将 ScanNet测试集中某个场景的RGB图和三维点云输入到已训练好的语义实例重建网络中，输出语义实例重建结果，以重建网格形式表示。图7为本申请实施例提供的语义实例重建结果示意图，图7中第一列是语义实例重建结果，第二列是对应的真值。

可见，语义实例重建网络包括三维目标检测网络和三维物体重建网络两个部分，因此提供了一种多模态的两阶段语义实例重建方法，而三维目标检测网络又包括第一目标检测网络、第二目标检测网络等，三维物体重建网络包括点生成网络、预设形状生成网络等，能够通过利用场景的RGB图和三维点云所提供的二维语义信息和三维几何信息，提高语义实例重建的质量。并且在构建总损失函数时是基于检测损失函数和形状损失函数构建，以利用构建好的总损失函数对语义实例重建网络进行训练，以得到训练后语义实例重建网络。

参见图8所示，本申请实施例提供了一种语义实例重建装置，该装置包括：

特征提取模块11，用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息；

预测模块12，用于基于第一特征信息预测目标物体的第一粗糙点云，并基于第一特征信息和第二特征信息预测目标物体的三维检测结果，以基于三维检测结果得到目标物体的第二粗糙点云；

重建结果获取模块13，用于基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。

在一些实施例中，特征提取模块11，可以包括：

第一特征提取子模块，用于利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。

在一些实施例中，第一特征提取子模块，可以包括：

二维特征提取单元，用于利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取，并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。

在一些实施例中，预测模块12，可以包括：

第一粗糙点云预测单元，用于基于位置信息和语义类别信息，利用点生成网络预测目标物体的第一粗糙点云。

在一些实施例中，语义实例重建装置，还可以包括：

网络构建模块，用于基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。

在一些实施例中，语义实例重建装置，还可以包括：

网络训练模块，用于构建总损失函数，并利用总损失函数对语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。

在一些实施例中，特征提取模块11，可以包括：

第二特征提取子模块，用于利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。

在一些实施例中，第二特征提取子模块，可以包括：

三维点云特征提取单元，用于利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征；

中心点坐标获取单元，用于基于三维点云特征和三维点云坐标，并通过多层感知机网络得到目标物体的中心点坐标；

三维特征提取单元，用于基于中心点坐标和三维点云特征，并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。

在一些实施例中，重建结果获取模块13，可以包括：

第三特征信息获取单元，用于基于三维特征信息和初始点云得到目标物体的第三特征信息；

占有网格预测子模块，用于利用PointNet网络对第三特征信息进行特征提取得到第四特征信息，并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格；

占有网格处理单元，用于利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。

在一些实施例中，占有网格预测子模块，可以包括：

概率分布预测单元，用于基于第四特征信息、初始占有网络和初始点云，并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布；

预测单元，用于对概率分布进行采样得到隐式变量，基于隐式变量和初始点云预测目标物体的目标占有网格。

在一些实施例中，网络训练模块，可以包括：

形状损失函数构建单元，用于基于概率分布和目标占有网格构建形状损失函数；

总损失函数构建单元，用于基于形状损失函数和检测损失函数构建总损失函数；其中，检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。

在一些实施例中，预测模块12，可以包括：

三维检测边框预测单元，用于基于第一特征信息和第二特征信息，并利用边界框回归网络预测目标物体的三维检测边框；

第二粗糙点云获取单元，用于基于三维检测边框从三维点云中提取目标物体的点云信息，以得到第二粗糙点云。

图9为本申请实施例提供的一种电子设备的结构示意图。可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，存储器22用于存储计算机程序，计算机程序由处理器21加载并执行，以实现前述任一实施例提供的由电子设备执行的语义实例重建方法中的相关步骤。

在一些实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以再集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例提供的由电子设备20执行的语义实例重建方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

图10为本申请实施例提供的一种非易失性计算机可读存储介质的结构示意图，非易失性计算机可读存储介质10中存储有计算机程序101，计算机程序101被处理器加载并执行时，实现前述任一实施例提供的由语义实例重建过程中执行的方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例提供的装置而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所提供的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器、内存、只读存储器、电可编程只读存储器、电可擦除可编程只读存储器、寄存器、硬盘、可移动磁盘、只读光盘存储器、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种语义实例重建方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

一种语义实例重建方法，其特征在于，包括：

利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息；

基于所述第一特征信息预测所述目标物体的第一粗糙点云，并基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果，以基于所述三维检测结果得到所述目标物体的第二粗糙点云；

基于所述第一粗糙点云和所述第二粗糙点云得到所述目标物体的初始点云，并利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果。
根据权利要求1所述的语义实例重建方法，其特征在于，所述原始图像为红绿蓝RGB图像。
根据权利要求2所述的语义实例重建方法，其特征在于，所述利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，包括：

利用快速区域卷积神经网络Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。
根据权利要求3所述的语义实例重建方法，其特征在于，所述利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息，包括：

利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取，并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
根据权利要求4所述的语义实例重建方法，其特征在于，所述Faster R-CNN网络包括图片特征提取模块和候选生成模块；

所述图片特征提取模块，用于利用多个卷积层对目标场景的原始图像进行特征提取；

所述候选生成模块，用于通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
根据权利要求4所述的语义实例重建方法，其特征在于，所述基于所述第一特征信息预测所述目标物体的第一粗糙点云，包括：

基于所述位置信息和所述语义类别信息，利用点生成网络预测所述目标物体的第一粗糙点云。
根据权利要求6所述的语义实例重建方法，其特征在于，所述基于所述位置信息和所述语义类别信息，利用点生成网络预测所述目标物体的第一粗糙点云，包括：

根据目标物体的位置信息和语义类别信息，利用点生成网络和多层感知机，预测目标物体的第一粗糙点云。
根据权利要求6所述的语义实例重建方法，其特征在于，还包括：

基于三维目标检测网络和三维物体重建网络构建包括所述第一目标检测网络、所述第二目标检测网络、所述点生成网络和所述预设形状生成网络的语义实例重建网络。
根据权利要求8所述的语义实例重建方法，其特征在于，还包括：

构建总损失函数，并利用所述总损失函数对所述语义实例重建网络进行训练，直到满足预设迭代次数，以得到训练后语义实例重建网络。
根据权利要求9所述的语义实例重建方法，其特征在于，所述利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息，包括：

利用VoteNet网络对所述目标场景的三维点云进行处理以得到所述目标物体的三维特征信息。
根据权利要求10所述的语义实例重建方法，其特征在于，所述利用VoteNet网络对所述目标场景的三维点云进行处理以得到所述目标物体的三维特征信息，包括：

利用VoteNet网络的PointNet网络对所述目标场景的三维点云进行特征提取得到三维点云特征；

基于所述三维点云特征和三维点云坐标，并通过多层感知机网络得到所述目标物体的中心点坐标；

基于所述中心点坐标和所述三维点云特征，并通过多层感知机网络输出第二预设数量个包括所述目标物体的物体类别信息的三维特征信息。
根据权利要求11所述的语义实例重建方法，其特征在于，所述VoteNet网络包括点云特征提取模块、投票生成模块和候选生成模块；

所述特征提取模块，用于利用PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征；

所述投票生成模块，用于融合三维点云特征和三维点云坐标，并通过多层感知机网络生成投票，表示物体的中心点坐标；

所述候选生成模块，用于融合中心点坐标和附近的三维点云特征，利用多层感知机生成物体候选，并预测物体类别信息。
根据权利要求11所述的语义实例重建方法，其特征在于，所述利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果，包括：

基于所述三维特征信息和所述初始点云得到所述目标物体的第三特征信息；

利用PointNet网络对所述第三特征信息进行特征提取得到第四特征信息，并基于所述第四特征信息利用占有网格预测算法预测所述目标物体的目标占有网格；

利用移动立方体算法对所述目标占有网格进行处理以得到所述目标物体的语义实例重建结果。
根据权利要求13所述的语义实例重建方法，其特征在于，所述基于所述第四特征信息利用占有网格预测算法预测所述目标物体的目标占有网格，包括：

基于所述第四特征信息、初始占有网络和所述初始点云，并利用占有网络预测算法中的隐式编码器预测所述目标物体的概率分布；

对所述概率分布进行采样得到隐式变量，基于所述隐式变量和所述初始点云预测所述目标物体的目标占有网格。
根据权利要求14所述的语义实例重建方法，其特征在于，所述构建总损失函数，包括：

基于所述概率分布和所述目标占有网格构建形状损失函数；

基于所述形状损失函数和检测损失函数构建总损失函数；其中，所述检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。
根据权利要求1至15任一项所述的语义实例重建方法，其特征在于，所述基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果，以基于所述三维检测结果得到所述目标物体的第二粗糙点云，包括：

基于所述第一特征信息和所述第二特征信息，并利用边界框回归网络预测所述目标物体的三维检测边框；

基于所述三维检测边框从所述三维点云中提取所述目标物体的点云信息，以得到第二粗糙点云。
根据权利要求16所述的语义实例重建方法，其特征在于，所述基于所述第一特征信息和所述第二特征信息，并利用边界框回归网络预测所述目标物体的三维检测边框，包括：

融合二维特征信息和三维特征信息得到所述目标物体的特征表示；

基于所述特征标识，三维边界框回归网络利用多层感知机，预测所述目标物体的三维检测边框。
根据权利要求1所述的语义实例重建方法，其特征在于，所述基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云，包括：

融合所述第一粗糙点云和所述第二粗糙点云，以得到所述目标物体的所述初始点云。
一种语义实例重建装置，其特征在于，包括：

特征提取模块，用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息，并利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息；

预测模块，用于基于所述第一特征信息预测所述目标物体的第一粗糙点云，并基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果，以基于所述三维检测结果得到所述目标物体的第二粗糙点云；

重建结果获取模块，用于基于所述第一粗糙点云和所述第二粗糙点云得到所述目标物体的初始点云，并利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果。
一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至18任一项所述的语义实例重建方法的步骤。
一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述的语义实例重建方法的步骤。