WO2022078197A1

WO2022078197A1 - 点云分割方法、装置、设备和存储介质

Info

Publication number: WO2022078197A1
Application number: PCT/CN2021/120919
Authority: WO
Inventors: 孔涛; 储瑞航; 李磊
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2020-10-16
Filing date: 2021-09-27
Publication date: 2022-04-21
Also published as: JP2023545423A; CN112258512A; CN112258512B; US20230394669A1

Abstract

一种点云分割方法、装置、设备和存储介质。该点云分割方法包括：获取待处理的点云（S201）；通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格（S202），其中，所述预训练神经网络通过样本点云和样本点云在样本网格化场景空间中对应的样本目标网格训练得到；根据目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同（S203）。

Description

点云分割方法、装置、设备和存储介质

本申请要求在2020年10月16日提交中国专利局、申请号为202011112395.6的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，例如涉及一种点云分割方法、装置、设备和存储介质。

背景技术

随着计算机技术的发展，数字图像的数量与日俱增，能否正确识别数字图像对于如自动驾驶以及机器人控制等技术领域来说是非常重要的。数字图像可以使用点云数据来表示，因此，点云的分割处理也是数字图像处理技术中的重要分支。

在对点云进行分割如实例分割时，通常可以采用“自上而下型”的分割方法。“自上而下型”的方法是通过预测多个三维边界框来表示不同实例，接着在每个边界框内通过二元分类找到属于对应该实例的点。但是，这种方式需要去除大量冗余的边界框，导致点云分割效率较低；同时，点云的分类效果也依赖于上一阶段对于边界框预测的准确性。

发明内容

本申请提供一种点云分割方法、装置、设备和存储介质，以解决点云分割效率较低以及点云分割的准确性较低的技术问题。

提供了一种点云分割方法，包括：

获取待处理的点云；

通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和样本点云在样本网格化场景空间中对应的样本目标网格训练得到；

根据目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。

还提供了一种点云分割装置，包括：

第一获取模块，设置为获取待处理的点云；

预测模块，设置为通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和样本点云在样本网格化场景空间中对应的样本目标网格训练得到；

输出模块，设置为根据目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。

还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的上述点云分割方法。

还提供了一种计算机可读存储介质，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的上述点云分割方法。

附图说明

图1为本申请实施例提供的点云分割方法的应用环境图；

图2为本申请实施例提供的一种点云分割方法的流程示意图；

图3为本申请实施例提供的另一种点云分割方法的流程示意图；

图4为本申请实施例提供的一种点云分割过程的原理示意图；

图5为本申请实施例提供的另一种点云分割过程的原理示意图；

图6为本申请实施例提供的一种特征空间距离分布对比示意图；

图7为本申请实施例提供的一种点云分割装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图描述本公开的实施例。虽然附图中显示了本公开的一些实施例，然而本公开可以通过多种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了理解本公开。本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

本公开的方法实施方式中记载的多个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，除非在上下文另有指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1为本申请实施例提供的点云分割方法的应用环境图。参照图1，该点云分割方法应用于点云分割系统。该点云分割系统可以包括终端101和服务器102。终端101和服务器102通过无线网络或者有线网络连接。终端101可以是台式终端或者移动终端，可选的，移动终端可以为个人数字助理(Personal Digital Assistant，PDA)、平板电脑(Portable Android Device，PAD)、便携式多媒体播放器(Personal Multimedia Player，PMP)、车载终端(例如车载导航终端)以及手机等中的至少一种。服务器102可以为独立的服务器或者多个服务器组成的服务器集群。

本申请实施例中的点云分割方法可以由终端101或者服务器102分别单独执行，也可由终端101和服务器102联合执行。下述方法实施例以执行主体是电子设备(该电子设备为终端101和/或服务器102)为例进行说明。

下述对本申请实施例涉及的一些概念进行简要介绍：

实例为类的具体对象，一个具体对象可以认为是一个实例，实例类别就是指具体对象的类别。比如，物体1、物体2、物体3等。实例分割可以是将点云分割为一个或多个互不重叠的、属于一个具体对象的点组，一个点组对应一个实例。比如，在二维图像或者三维场景中，区分出哪些点属于一个具体对象，哪些点属于另一个具体对象等。

图2为本申请实施例提供的一种点云分割方法的流程示意图。本实施例涉及的是电子设备如何通过单阶段逐点分类的方式实现点云分割的过程。如图2所示，该方法可以包括以下步骤。

S201、获取待处理的点云。

待处理的点云是指需要进行实例分割的点云。本申请实施例中的点云可以包括二维点云或者三维点云等。其中，二维点云可以为二维图像中的多个像素点的集合，三维点云可以为三维场景中多个三维点的集合。

本申请实施例提供的点云分割方法具有广阔的应用前景，在自动驾驶、机器人控制以及增强现实等领域有很大潜力。电子设备可以从多个应用领域中的前端扫描设备中获取待处理的点云。前端扫描设备也可以将扫描到的点云上传到云端，电子设备从云端下载需要进行实例分割的点云。

S202、通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格。

所述预训练神经网络通过样本点云和样本点云在样本网格化场景空间中对应的样本目标网格训练得到。

在实际应用中，考虑到场景空间中物体是互不重叠的，且不同的物体实例占据场景空间中的不同位置，因此，可以预先将点云所属的场景空间网格化，且定义不同的网格对应不同的实例类别。例如，可以预先将点云所属的场景空间划分为多个网格(如划分为N _s*N _s*N _s个网格)，每个网格占据特定位置，并代表一个实例类别。如果一个物体实例的中心点(该中心点的坐标为该物体实例中所有点的坐标的平均值)位于一个网格的内部，则将属于该物体实例的所有点均分类到该网格中，即分类到该网格对应的实例类别。

基于此，可以通过预训练神经网络来实现上述点云的逐点分类过程。因此，需要采用大量的训练数据来训练该预训练神经网络。在该预训练神经网络的训练过程中，可以通过大量的样本点云和样本点云在样本网格化场景空间中对应的样本目标网格来进行训练。可以将样本场景空间进行网格化，得到样本网格化场景空间，同时，定义样本网格化场景空间中的每个网格所对应的实例类别，不同的网格对应不同的实例类别。获取样本点云，并对样本点云中每个点在该网格化场景空间中对应的样本目标网格进行标记，从而得到预训练神经网络的训练数据(即样本点云和样本点云在样本网格化场景空间中对应的样本目标网格)。使用该训练数据对预训练神经网络进行训练。

这样，在得到该网格化场景空间的预训练神经网络之后，电子设备便可以将待处理的点云，输入至该预训练神经网络，通过预训练神经网络预测点云中每个点在所属网格化场景空间中对应的目标网格。

为了便于预训练神经网络对点云的处理，可选的，在获取到待处理的点云之后，电子设备还可以将点云中每个点的坐标特征和通道特征组合，得到每个点的初始特征；通过特征提取网络，从所述每个点的初始特征中提取每个点的局部特征。

点的坐标特征可以是点的坐标位置。点的通道特征可以是点的通道值，比如颜色通道值(红绿蓝(Red Green Blue，RGB)值)。将坐标特征和通道特征组合，可以是将每个坐标位置和每个通道值进行拼接，从而得到每个点的初始特征。这里的初始特征可以是矩阵形式，即初始特征矩阵。电子设备将初始特征矩阵输入至特征提取网络，以提取每个点的局部特征。这里的局部特征可以是对点云的特性的高维表达，局部特征涵盖了该整个点云的信息。局部特征也可以是矩阵形式，即局部特征矩阵。电子设备将该局部特征矩阵输入至预训练神经网络，将局部特征矩阵投影到用于实例分类的特征空间，输出每个点在所属网格化场景空间中对应的目标网格。

在一个可选的实施例中，电子设备可以选择深度学习网络作为特征提取网络。该特征提取网络可以是PointNet网络的前半部分，或者PointNet++网络的前半部分，或者PointConv的前半部分，或者其它网络结构等。

S203、根据目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。

由于预先定义了点云所属网格化场景空间中的网格对应的实例类别，且不同的网格对应的实例类别不同，因此，在得到点云中每个点在所属网格化场景空间中对应的目标网格之后，电子设备便可以基于目标网格对应的实例类别，将点云中每个点划分到对应的物体实例，并输出每个物体实例对应的点云。

本申请实施例提供的点云分割方法，在获取到待处理的点云之后，电子设备通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，进而根据目标网格对应的实例类别，输出每个实例对应的点云。在点云分割过程中，由于电子设备可以直接通过预训练神经网络预测点云中每个点在所属网格化场景空间中对应的目标网格，且相同目标网格的实例类别相同，即通过单阶段的逐点分类方式直接将点云中的每个点分类到明确而特定的实例类别，避免了多阶段带来的误差积累，提高了分割结果的准确性。同时，也避免了第一阶段去除大量冗余边界框带来的计算量的损耗，提高了点云分割的效率。

在实际应用中，可能存在这样一种情况，预测的点云中的同一个目标点对应多个目标网格，此时，需要将该目标点明确地分类到对应的目标网格中。为此，可以参照下述实施例所述的过程进行处理。可选的，在上述实施例的基础上，如图3所示，当同一个目标点对应多个目标网格时，在上述S203之前，该方法还可以包括：

S301、获取所述多个目标网格中每个目标网格的可信度。

在将点云所属的场景空间网格化之后，网格化场景空间中包括的多数网格并没有对应真实的物体实例，仅有少数网格对应到真实的物体实例。为此，可以为每个网格计算一个可信度，网格的可信度越高，则表示该网格对应真实的物体实例的概率越大，反之该网格对应真实的物体实例的概率越小。

这样，在通过预训练神经网络得到同一个目标点对应多个目标网格时，电子设备可以分别获取每个目标网格的可信度。作为一种可选的实施方式，电子设备可以通过下述过程获取多个目标网格中每个目标网格的可信度，上述S301可以包括：

S3011、针对每个目标网格，从所述点云中选择距离所述目标网格的中心点最近的多个相关点。

距离目标网格的中心点最近的多个相关点的特征能够表征目标网格的特性，因此，电子设备可以选择距离目标网格的中心点最近的多个相关点，来计算相应目标网格的可信度。在实际应用中，可以根据实际需求，设置所选择的相关点的数量。可选的，可以选择距离中心点最近的32个点来参与可信度的计算过程。

S3012、聚合所述多个相关点的特征，得到所述每个目标网格的聚合特征。

聚合多个相关点的特征，可以是将多个相关点的特征进行均值池化处理，即将多个相关点的特征数据相加再求均值，从而得到对应目标网格的聚合特征。

S3013、对所述聚合特征进行激活处理，得到每个目标网格的可信度。

在得到每个目标网格的聚合特征之后，电子设备可以采用sigmoid激活函数对聚合特征进行激活处理，从而得到每个目标网格的可信度。

作为另一种可选的实施方式，电子设备可以在上述预训练神经网络中增加一个分支，来预测点云所属网格化场景空间中每个网格的可信度。在通过预训练神经网络得到同一个目标点对应多个目标网格时，电子设备可以直接从上述预训练神经网络中获取该多个目标网格中每个目标网格的可信度。为了实现该目的，在训练上述预训练神经网络时，训练数据还需要包括通过样本点云得到的每个网格的实际可信度，并结合每个网格的实际可信度对预训练神经网络进行训练。

S302、根据所述可信度，确定所述目标点对应的最终目标网格。

电子设备可以将可信度最大的目标网格作为目标点对应的最终目标网格。当存在多个可信度相同的目标网格时，可以任意选择一个目标网格作为目标点对应的最终目标网格。

在本实施例中，当点云中同一个目标点对应多个目标网格时，电子设备可以基于每个目标网格的可信度，来确定该目标点对应的最终目标网格。并且，在确定每个目标网格的可信度时，结合了距离目标网格的中心点最近的多个相关点的特征，从而提高了每个目标网格的可信度的计算结果。基于准确的可信度的计算结果，后续能够准确地将目标点分类到对应的目标网格中，进而能够准确地将目标点分类到对应的实例类别，从而提高了点云分割结果的准确性。

在一个实施例中，为了通过预训练神经网络实现点云的逐点分类过程，可选的，该预训练神经网络的输出通道与所述网格化场景空间中的网格一一对应。

可以预先将预训练神经网络的输出通道与网格化场景空间中所包括的网格一一对应，当预训练神经网络的一个输出通道的输出值为1，则表示该点属于该输出通道所对应的网格，反之则该输出通道的输出值为0。可选的，该预训练神经网络可以通过两层感知机来实现，即该预训练神经网络包括两层感知机。相应地，上述S202可以为：通过预训练神经网络中的两层感知机得到点云中每个点在所属网格化场景空间中对应的目标网格。

参见图4，假设点云P包括N _p个点，且预先将点云所属场景空间划分为N _s*N _s*N _s个网格，每个网格对应不同的实例类别，且在本实施例中网格和预训练神经网络的输出通道一一对应。电子设备将点云中每个点的坐标特征和通道特征组合，得到对应点的初始特征N _p′，通过特征提取网络(如PointNet)，从初始特征N _p′中提取对应点的局部特征，得到局部特征矩阵

电子设备将局部特征矩阵F _l输入至上述预训练神经网络中，通过多层感知机(如该感知机可以是形状为(32，

)的两层感知机)将F _l投影到用于分类的特征空间，输出特征矩阵

并采用sigmoid激活函数将F中的元素值放缩到区间(0，1)中，得到该点云的预测矩阵

从而得到每个点所对应的目标网格。其中，N _p是点云中点的个数，N _l是局部特征维度，N _c表示分类特征维度，R是一个符号表示空间。预测矩阵F′的行维度代表点云中的多个点，列维度代表点云所属网格化场景中的多个网格。

通常情况下，一个场景空间中仅有少数网格对应到真实的物体实例，预训练神经网络的输出空间的特征向量(该特征向量为

维)过于稀疏。为了降低计算资源的损耗，在一个实施例中，还提供了另一种预训练神经网络。该预训练神经网络包括x轴、y轴以及z轴方向上的输出通道。在该网络架构下，该预训练神经网络可以通过三个独立的三层感知机来实现，即该预训练神经网络包括与x轴、y轴以及z轴输出通道对应的三层感知机。

上述S202可以包括：

S2021、通过预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置。

可选的，电子设备可以通过预训练神经网络中的与x轴、y轴以及z轴输出通道对应的三层感知机分别得到点云中每个点在x轴、y轴以及z轴方向上的投影位置。

S2022、根据x轴、y轴以及z轴方向上的投影位置，确定每个点在所属网格化场景空间中对应的目标网格。

电子设备通过预测点云中每个点在x轴、y轴以及z轴三个方向上的正交投影，来确定每个点在所属网格化场景空间中对应的目标网格。假设针对点云中的一个点，所预测的在x轴、y轴以及z轴三个方向上的正交投影分别为a _x、a _y、a _z，则基于该点在x轴、y轴以及z轴方向上的投影位置，便可以确定出该点在所属网格化场景空间中对应的目标网格为(a _x,a _y,a _z)。

参见图5，假设点云P包括N _p个点，且预先将点云所属场景空间划分为N _s*N _s*N _s个网格，每个网格对应不同的实例类别，且预训练神经网络在x轴方向上的输出通道与网格在x轴方向上的投影相对应，预训练神经网络在y轴方向上的输出通道与网格在y轴方向上的投影相对应，预训练神经网络在z轴方向上的输出通道与网格在z轴方向上的投影相对应。电子设备将点云中每个点的坐标特征和通道特征组合，得到对应点的初始特征N _p′，通过特征提取网络(如PointNet)，从初始特征N _p′中提取对应点的局部特征，得到局部特征矩阵

电子设备将局部特征矩阵F _l输入至该预训练神经网络中，通过三个独立的多层感知机(如该感知机可以是形状为(32，32，N _s)的三层感知机)将F _l投影到用于分类的特征空间，并采用sigmoid激活函数进行激活处理，得到该点云在x轴方向上的预测矩阵

y轴方向上的预测矩阵

以及z轴方向上的预测矩阵

电子设备基于预测矩阵F ^x、F ^y和F ^z，得到点云中每个点所对应的目标网格。

在该网络架构下，预训练神经网络的输出空间的维度为

相比输出空间的维度

降低了逐点分类过程中的计算量，且降低了对内存的消耗。

在本实施例中，电子设备可以采用不同的网络架构的预训练神经网络来预测点云中每个点在所属网格化场景空间中对应的目标网格，提高了点云分割方式的多样化。同时，该预训练神经网络可以包括x轴、y轴以及z轴方向上的输出通道，采用包括三个方向上的输出通道的预训练神经网络预测每个点对应的目标网格，能够降低逐点分类过程中的计算量，且降低对内存的消耗。

在一个实施例中，还提供了上述预训练神经网络的获取过程。在上述实施例的基础上，可选的，该预训练神经网络的获取过程可以为：将所述样本点云作为所述预训练神经网络的第一输入，所述样本点云在样本网格化场景空间中对应的样本目标网格作为所述第一输入对应的第一期望输出，以及将所述样本网格化场景空间中的每个网格的实际可信度作为所述第一输入对应的第二期望输出，采用交叉熵损失函数对所述预训练神经网络进行训练。

可以将样本场景空间进行网格化，得到样本网格化场景空间，同时，定义样本网格化场景空间中的每个网格所对应的实例类别，不同的网格对应不同的实例类别。获取样本点云，并对样本点云中每个点在该网格化场景空间中对应的样本目标网格进行标记，得到样本点云对应的样本目标网格。同时，还可以基于样本点云以及每个网格的位置信息，计算每个网格的实际可信度。将上述样本点云、样本点云对应的样本目标网格以及每个网格的实际可信度作为训练数据，对预训练神经网络进行训练。上述计算每个网格的实际可信度的过程可以为：针对每个网格，从样本点云中选择距离网格的中心点最近的多个样本相关点，聚合多个样本相关点的特征，得到每个网格的聚合特征，分别对该聚合特征进行激活处理，得到对应网格的实际可信度。可选的，可以选择距离中心点最近的32个点来参与可信度的计算过程。

在得到训练数据之后，电子设备将样本点云作为预训练神经网络的第一输入，样本点云对应的样本目标网格作为第一输入对应的第一期望输出，计算交叉熵损失函数的第一损失值；将每个网格的实际可信度作为第一输入对应的第二期望输出，计算交叉熵损失函数的第二损失值，基于第一损失值和第二损失值的加权和，对预训练神经网络的参数进行调整，直至达到损失函数的收敛条件，从而得到训练好的预训练神经网络。

上述第一损失值L _cate的计算公式可以为：

该计算公式中的N _pos为可信网格的数量(此处的可信网格可以理解为可信度大于预设阈值的网格)，

为对应矩阵第j列的指示器，如果第j列对应的网格为正样本，则

取值为1，反之为0；F _ij表示预测矩阵F的第i行第j列元素，D _ij表示样本矩阵G(样本矩阵G可以表示样本点云与样本目标网格之间的对应关系)的第i行第j列元素；这里使用Dice Loss来计算矩阵间的距离D(·)。

在本实施例中，电子设备可以基于大量的样本点云、样本点云在样本网格化场景空间中对应的样本目标网格以及每个网格的实际可信度作为训练数据，采用交叉熵损失函数对预训练神经网络进行训练，使得训练得到的预训练神经网络更加准确。基于准确的预训练神经网络能够直接预测待处理的点云中每个点在所属网格化场景空间中对应的目标网格，提高了预测结果的准确性，提高了点云分割结果的准确性。

本申请实施例提供的技术方案能够广泛应用于自动驾驶、机器人控制、增强现实以及视频实例分割等领域。如室内机器人的控制，如果可以将扫描得到的点云进行分割，便可使得机器人能够精确感知每一个物体，给机器人的导航和控制赋能。

为了验证本申请实施例提供的技术方案，将本申请实施例提供的技术方案与点云分割方式(如ASIS)进行了对比。参见图6，从图6中可以看出，本申请实施例提供的点云分割方法，能够使得相同实例间的特征距离和不同实例间的特征距离的重叠范围更小，使得不同实例间的区分度更高。

图7为本申请实施例提供的一种点云分割装置的结构示意图。如图7所示，该装置可以包括：第一获取模块701、预测模块702和输出模块703。

第一获取模块701设置为获取待处理的点云；

预测模块702设置为通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和样本点云在样本网格化场景空间中对应的样本目标网格训练得到；

输出模块703设置为根据目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。

本申请实施例提供的点云分割装置，在获取到待处理的点云之后，电子设备通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，进而根据目标网格对应的实例类别，输出每个实例对应的点云。在点云分割过程中，由于电子设备可以直接通过预训练神经网络预测点云中每个点在所属网格化场景空间中对应的目标网格，且相同目标网格的实例类别相同，即通过单阶段的逐点分类方式直接将点云中的每个点分类到明确而特定的实例类别，避免了多阶段带来的误差积累，提高了分割结果的准确性。同时，也避免了第一阶段去除大量冗余边界框带来的计算量的损耗，提高了点云分割的效率。

在上述实施例的基础上，可选的，当同一个目标点对应多个目标网格时，该装置还可以包括：第二获取模块和确定模块。

第二获取模块设置为在所述输出模块703根据目标网格对应的实例类别，输出每个实例对应的点云之前之前，获取所述多个目标网格中每个目标网格的可信度；

确定模块设置为根据所述可信度，确定所述目标点对应的最终目标网格。

在上述实施例的基础上，可选的，第二获取模块是设置为针对每个目标网格，从所述点云中选择距离所述目标网格的中心点最近的多个相关点；聚合所述多个相关点的特征，得到所述每个目标网格的聚合特征；对所述聚合特征进行激活处理，得到每个目标网格的可信度。

可选的，所述预训练神经网络的输出通道与所述网格化场景空间中的网格一一对应。

在上述实施例的基础上，可选的，所述预训练神经网络包括x轴、y轴以及z轴方向上的输出通道；

预测模块702是设置为通过预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置；根据x轴、y轴以及z轴方向上的投影位置，确定每个点在所属网格化场景空间中对应的目标网格。

在上述实施例的基础上，可选的，该装置还可以包括：网络训练模块；

网络训练模块设置为将所述样本点云作为所述预训练神经网络的第一输入，所述样本点云在样本网格化场景空间中对应的样本目标网格作为所述第一输入对应的第一期望输出，以及将所述样本网格化场景空间中的每个网格的实际可信度作为所述第一输入对应的第二期望输出，采用交叉熵损失函数对所述预训练神经网络进行训练。

在上述实施例的基础上，可选的，该装置还可以包括：组合模块和特征提取模块；

组合模块设置为在第一获取模块701获取待处理的点云之后，将点云中每个点的坐标特征和通道特征组合，得到每个点的初始特征；

特征提取模块设置为通过特征提取网络，从所述每个点的初始特征中提取每个点的局部特征。

下面参考图8，图8示出了适于用来实现本公开实施例的电子设备(例如图1中的终端或服务器)800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，处理装置801可以根据存储在只读存储器(Read-only Memory，ROM)802中的程序或者从存储装置808加载到随机访问存储器(Random Access Memory，RAM)803中的程序而执行多种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的多种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置808；包括例如液晶显示器(Liquid Crystal Display，LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有多种装置的电子设备800，但是并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本公开实施例的方法中限定的上述功能。

本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质可以是非暂态(non-transitory)存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如超文本传输协议(HyperText Transfer Protocol，HTTP)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待处理的点云；通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和所述样本点云在样本网格化场景空间中对应的样本目标网格训练得到；根据所述目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开多种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在一种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application Specific Standard Parts，ASSP)、片上系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM、快闪存储器、光纤、便捷式CD-ROM、光学储存设备、磁储存设备、或上述内容的任何合适组合。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤:

获取待处理的点云；

本申请实施例提供的点云分割设备，在获取到待处理的点云之后，电子设备通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，进而根据目标网格对应的实例类别，输出每个实例对应的点云。在点云分割过程中，由于电子设备可以直接通过预训练神经网络预测点云中每个点在所属网格化场景空间中对应的目标网格，且相同目标网格的实例类别相同，即通过单阶段的逐点分类方式直接将点云中的每个点分类到明确而特定的实例类别，避免了多阶段带来的误差积累，提高了分割结果的准确性。同时，也避免了第一阶段去除大量冗余边界框带来的计算量的损耗，提高了点云分割的效率。

当同一个目标点对应多个目标网格时，在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取所述多个目标网格中每个目标网格的可信度；根据所述可信度，确定所述目标点对应的最终目标网格。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：针对每个目标网格，从所述点云中选择距离所述目标网格的中心点最近的多个相关点；聚合所述多个相关点的特征，得到每个所述目标网格的聚合特征；对所述聚合特征进行激活处理，得到每个目标网格的可信度。

在一个实施例中，所述预训练神经网络包括两层感知机；处理器执行计算机程序时还实现以下步骤：通过预训练神经网络中的所述两层感知机得到所述点云中每个点在所属网格化场景空间中对应的目标网格。

在一个实施例中，所述预训练神经网络包括x轴、y轴以及z轴方向上的输出通道；处理器执行计算机程序时还实现以下步骤：通过预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置；根据x轴、y轴以及z轴方向上的投影位置，确定对应点在所属网格化场景空间中对应的目标网格。

在一个实施例中，所述预训练神经网络包括与x轴、y轴以及z轴输出通道对应的三层感知机；处理器执行计算机程序时还实现以下步骤：通过预训练神经网络中的所述三层感知机分别得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将所述样本点云作为所述预训练神经网络的第一输入，所述样本点云在样本网格化场景空间中对应的样本目标网格作为所述第一输入对应的第一期望输出，以及将所述样本网格化场景空间中的每个网格的实际可信度作为所述第一输入对应的第二期望输出，采用交叉熵损失函数对所述预训练神经网络进行训练。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将点云中每个点的坐标特征和通道特征组合，得到对应点的初始特征；通过特征提取网络，从所述每个点的初始特征中提取对应点的局部特征。

上述实施例中提供的点云分割装置、设备以及存储介质可执行本申请任意实施例所提供的点云分割方法，具备执行该方法相应的功能模块和效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的点云分割方法。

根据本公开的一个或多个实施例，提供一种点云分割方法，包括：

获取待处理的点云；

当同一个目标点对应多个目标网格时，根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：获取所述多个目标网格中每个目标网格的可信度；根据所述可信度，确定所述目标点对应的最终目标网格。

根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：针对每个目标网格，从所述点云中选择距离所述目标网格的中心点最近的多个相关点；聚合所述多个相关点的特征，得到每个所述目标网格的聚合特征；对所述聚合特征进行激活处理，得到每个目标网格的可信度。

可选的，所述预训练神经网络包括两层感知机；根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：通过预训练神经网络中的所述两层感知机得到所述点云中每个点在所属网格化场景空间中对应的目标网格。

可选的，所述预训练神经网络包括x轴、y轴以及z轴方向上的输出通道；根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：通过预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置；根据x轴、y轴以及z轴方向上的投影位置，确定对应点在所属网格化场景空间中对应的目标网格。

可选的，所述预训练神经网络包括与x轴、y轴以及z轴输出通道对应的三层感知机；根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：通过预训练神经网络中的所述三层感知机分别得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置。

根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：将所述样本点云作为所述预训练神经网络的第一输入，所述样本点云在样本网格化场景空间中对应的样本目标网格作为所述第一输入对应的第一期望输出，以及将所述样本网格化场景空间中的每个网格的实际可信度作为所述第一输入对应的第二期望输出，采用交叉熵损失函数对所述预训练神经网络进行训练。

根据本公开的一个或多个实施例，提供了如上的点云分割方法，还包括：将点云中每个点的坐标特征和通道特征组合，得到对应点的初始特征；通过特征提取网络，从所述每个点的初始特征中提取对应点的局部特征。

此外，虽然采用特定次序描绘了每个操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了多个实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的一些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的多种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

Claims

一种点云分割方法，包括：

获取待处理的点云；

通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和所述样本点云在样本网格化场景空间中对应的样本目标网格训练得到；

根据所述目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。
根据权利要求1所述的方法，其中，在同一个目标点对应多个目标网格的情况下，在所述根据所述目标网格对应的实例类别，输出每个实例对应的点云之前，还包括：

获取所述多个目标网格中每个目标网格的可信度；

根据所述可信度，确定所述目标点对应的最终目标网格。
根据权利要求2所述的方法，其中，所述获取所述多个目标网格中每个目标网格的可信度，包括：

针对每个目标网格，从所述点云中选择距离所述目标网格的中心点最近的多个相关点；

聚合所述多个相关点的特征，得到所述每个目标网格的聚合特征；

对所述聚合特征进行激活处理，得到所述每个目标网格的可信度。
根据权利要求1至3中任一项所述的方法，其中，所述预训练神经网络的输出通道与所述网格化场景空间中的网格一一对应。
根据权利要求4所述的方法，其中，所述预训练神经网络包括两层感知机；

所述通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，包括：

通过所述预训练神经网络中的所述两层感知机得到所述点云中每个点在所属网格化场景空间中对应的目标网格。
根据权利要求1至3中任一项所述的方法，其中，所述预训练神经网络包括x轴、y轴以及z轴方向上的输出通道；

所述通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，包括：

通过所述预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置；

根据所述x轴、y轴以及z轴方向上的投影位置，确定所述每个点在所属网格化场景空间中对应的目标网格。
根据权利要求6所述的方法，其中，所述预训练神经网络包括与x轴、y轴以及z轴方向上的输出通道对应的三层感知机；

所述通过所述预训练神经网络得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置，包括：通过所述预训练神经网络中的所述三层感知机分别得到所述点云中每个点在x轴、y轴以及z轴方向上的投影位置。
根据权利要求1至3中任一项所述的方法，其中，所述预训练神经网络的获取过程，包括：

将所述样本点云作为所述预训练神经网络的第一输入，所述样本点云在所述样本网格化场景空间中对应的样本目标网格作为所述第一输入对应的第一期望输出，以及将所述样本网格化场景空间中的每个网格的实际可信度作为所述第一输入对应的第二期望输出，采用交叉熵损失函数对所述预训练神经网络进行训练。
根据权利要求1至3中任一项所述的方法，其中，在所述获取待处理的点云之后，还包括：

将所述点云中每个点的坐标特征和通道特征组合，得到所述每个点的初始特征；

通过特征提取网络，从所述每个点的初始特征中提取所述每个点的局部特征。
一种点云分割装置，包括：

第一获取模块，设置为获取待处理的点云；

预测模块，设置为通过预训练神经网络得到所述点云中每个点在所属网格化场景空间中对应的目标网格，其中，所述预训练神经网络通过样本点云和所述样本点云在样本网格化场景空间中对应的样本目标网格训练得到；

输出模块，设置为根据所述目标网格对应的实例类别，输出每个实例对应的点云，相同目标网格的实例类别相同。
一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法。