WO2021081808A1

WO2021081808A1 - 基于人工神经网络的物体检测的系统及方法

Info

Publication number: WO2021081808A1
Application number: PCT/CN2019/114357
Authority: WO
Inventors: 蒋卓键; 陈晓智
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-06
Also published as: CN111602138B; CN111602138A

Abstract

一种基于人工神经网络的物体检测的系统及方法，该方法包括：获取三维点云，并使用主干神经网络获取三维点云的第一特征图（S101）；使用注意力分支神经网络处理第一特征图，并获取第二特征图，该第二特征图的各个位置包括与该位置对应的预测注意力系数，第二特征图还用于获取目标物体的损失函数，该损失函数用于更新注意力分支神经网络的网络系数（S102）；根据第二特征图获得预测结果，预测结果包括目标物体的位置信息（S103）。

Description

基于人工神经网络的物体检测的系统及方法

版权申明

技术领域

本发明涉及三维物体检测和深度学习技术领域，并且更为具体地，涉及一种基于人工神经网络的物体检测的系统及方法。

背景技术

安全性是自动驾驶中人们最为关注的问题之一。在算法层面，无人车对周围环境的准确感知是保证安全的基础，因此，算法的精度十分重要。在无人驾驶过程中，无人车需要对周围的三维物体进行检测。目前，大多采用激光雷达对三维物体进行检测，传统的检测方法在面对被检测的三维物体被部分遮挡的情况时，会由于点云被遮挡，出现检测效果差的问题。

因此，如何提升对被遮挡的三维物体的检测效果，成为亟待解决的问题。

发明内容

本发明提供一种基于人工神经网络的物体检测的系统及方法，相对于现有技术，可以进一步提高对被遮挡物体的预测效果。

第一方面，提供了一种基于人工神经网络的物体检测的方法，所述方法包括：获取三维点云，并使用主干神经网络获取所述三维点云的第一特征图；使用注意力分支神经网络处理所述第一特征图，并获取第二特征图，其中，所述第二特征图还用于获取所述目标物体的损失函数，所述损失函数用于更新所述注意力分支神经网络的网络系数；根据所述第二特征图获得预测结果，所述预测结果包括目标物体的位置信息。

可选地，通过根据被遮挡目标物体的三维点云数据确定的第一特征图可以获得各个位置生成有预测注意力系数的第二特征图，根据预测注意力系数和真值注意力生成的注意力损失函数对该预测注意力系数进行校正或者更新后，使该被遮挡目标物体的可见部分的预测注意力系数高于被遮挡部分的预测注意力系数，在预测过程中可以更大程度利用该可见部分，更准确地预测目标物体的位置和大小等信息。

应理解，本申请实施例提供的一种基于人工神经网络的物体检测的方法，可以应用于无人机或者无人车等无人驾驶设备的自动驾驶领域，用于预测无人驾驶的可移动设备周围环境中的障碍物(如其他车辆、行人等)，其中，该障碍物(即目标物体)可以是被部分遮挡的物体。根据本申请实施例提供的方法，可以通过神经网络的深度学习，训练出能够根据被遮挡目标物体的可见部分信息获得目标物体位置信息以及尺寸信息等的基于人工神经网络的物体检测模型。其中，该物体检测模型在被训练的过程中，可以基于注意力机制，对目标物体的可见部分的信息赋予更多的权重，也即对可见部分的信息更加敏感，使得该物体检测模型可以在后续预测过程中，可以根据目标物体的可见部分，更准确地获取目标物体的信息。

结合第一方面，在第一方面的某些实现方式中，所述使用注意力分支神经网络处理所述第一特征图，并获取第二特征图，包括：对所述第一特征图划分候选框；通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数，其中，每个所述候选框的所述预测注意力系数的值为根据与所述第一特征图匹配的样本特征图确定的；将所述预测注意力系数与所述第一特征图进行点乘，获取所述第二特征图。

可选地，在对检测模型进行训练之前，可以先建立样本库，该样本库中可以包括该目标物体的样本特征图，该样本特征图包括真值注意力系数，示例性的，该样本特征图中目标物体可见部分对应的真值注意力系数高于被遮挡部分的真值注意力系数。

可选地，该目标物体的样本特征图可以与该检测模型获取的第一特征图的各部分点云特征信息相同，其区别仅为各个位置生成的注意力系数不同。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：对比所述第二特征图的候选框的预测注意力系数与所述候选框对应的样本特征图中的真值框的注意力系数；当所述候选框的预测注意力系数与所述真值框的真值注意力系数的置信度高于第一阈值时，根据所述预测注意力系数和所述真值注意力系数确定注意力损失函数的结果；根据所述注意力损失函数的结果对所述注意力分支神经网络系数进行更新，使所述注意力分支神经网络系数的置信度高于第二阈值。

可选地，第二阈值可以高于第一阈值。换句话说，通过对预测注意力系数更新后，预测注意力系数和与其对应的真值注意力系数的值更为接近。其中，第一阈值和第二阈值的值可以灵活设置，本申请实施例对此不做限定。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：当对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。

应理解，对更新后的预测注意力系数进行取e指数操作后，可以使得目标物体可见部分对应的预测注意力系数与被遮挡部分对应的预测注意力系数区分更加明显，凸显可见部分的信息。

结合第一方面，在第一方面的某些实现方式中，所述根据所述注意力损失函数的结果对所述预测注意力系数进行更新，包括：根据所述注意力损失函数的结果通过反向传播算法对所述预测注意力系数进行更新。

结合第一方面，在第一方面的某些实现方式中，所述注意力损失函数为

其中，k为所述候选框中的特征点个数，L _a为smooth L1损失函数，m _k为所述预测注意力系数，t _k为所述真值注意力系数。

结合第一方面，在第一方面的某些实现方式中，所述获取三维点云，并使用主干神经网络获取所述三维点云的第一特征图，包括：获取被遮挡的目标物体的三维点云数据；将所述三维点云数据进行三维网络划分，并获得多个三维空间体素；根据每个所述体素中的点云密度，获得所述体素的点云特征；使用所述主干神经网络提取所述点云特征，并生成所述第一特征图。

结合第一方面，在第一方面的某些实现方式中，所述通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数，包括：所述注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成所述预测注意力系数。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：通过所述人工神经网络对所述目标物体进行物体检测，并获得所述目标物体可见部分对应的特征图候选框的三维位置和置信度；对所述置信度进行排序，并选取置信度高于第三阈值的候选框；根据所述置信度高于第三阈值的候选框预测所述目标物体的信息。

应理解，在预测过程中，根据置信度对候选框进行筛选，根据该置信度较高的候选框的信息确定目标物体的预测结果。

结合第一方面，在第一方面的某些实现方式中，所述目标物体的信息包括所述目标物体的位置和/或尺寸。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：显示根据所述第二特征图获得的预测结果。

应理解，在预测目标物体的位置或者尺寸信息时，通过本申请实施例提供的方法获取可见部分预测注意力系数高于被遮挡部分预测注意力系数的特征图，并根据该特征图获取目标物体的预测结果，其中，该预测结果可以由显示器直接显示。

第二方面，提供了一种基于人工神经网络的物体检测的系统，包括至少一个处理器和激光雷达，其中，所述激光雷达，用于获取三维点云；并将所述目标物体的三维点云输入所述处理器；所述处理器，用于对所述三维点云进行三维网格划分，得到多个体素；所述处理器，还用于根据每个所述体素中的点云密度，确定所述体素对应位置的点云特征；所述处理器，还用于通过所述物体检测模型的主干网络提取所述点云特征，并生成所述目标物体的第一特征图；所述处理器，还用于通过所述物体检测模型的注意力分支神经网络在所述第一特征图中生成预测注意力系数；所述处理器，还用于利用损失函数分支神经网络根据样本特征图中的真值注意力系数和所述预测注意力系数计算注意力损失函数的结果；所述处理器，还用于根据所述注意力损失函数的结果对所述预测注意力系数进行更新，使得所述第二特征图中所述目标物体可见部分对应的特征图部分生成的预测注意力系数高于所述目标物体被遮挡部分的特征图部分的预测注意力系数；所述处理器，还用于根据所述目标物体的可见部分信息获得预测结果，所述预测结果包括目标物体的位置信息。

应理解，通过根据被遮挡目标物体的三维点云数据确定的第一特征图可以获得各个位置生成有预测注意力系数的第二特征图，根据预测注意力系数和真值注意力生成的注意力损失函数对该预测注意力系数进行校正或者更新后，使该被遮挡目标物体的可见部分的预测注意力系数高于被遮挡部分的预测注意力系数，在预测过程中可以更大程度利用该可见部分，更准确地预测目标物体的位置和大小等信息。

结合第二方面，在第二方面的某些实现方式中，所述处理器，还用于对所述第一特征图划分候选框；所述处理器，还用于通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数；所述处理器，还用于将所述预测注意力系数与所述第一特征图进行点乘，获取所述第二特征图。

可选地，在对检测系统进行训练之前，可以先建立样本库，该样本库中可以包括该目标物体的样本特征图，该样本特征图包括真值注意力系数，示例性的，该样本特征图中目标物体可见部分对应的真值注意力系数高于被遮挡部分的真值注意力系数。

结合第二方面，在第二方面的某些实现方式中，所述处理器，还用于对比所述第二特征图的候选框的预测注意力系数与所述候选框对应的样本特征图中的真值框的注意力系数；所述处理器，还用于当所述候选框的预测注意力系数与所述真值框的真值注意力系数的置信度高于第一阈值时，根据所述预测注意力系数和所述真值注意力系数确定注意力损失函数的结果；所述处理器，还用于根据所述注意力损失函数的结果对所述预测注意力系数进行更新，使所述预测注意力系数的置信度高于第二阈值。

结合第二方面，在第二方面的某些实现方式中，当所述处理器，用于对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。

结合第二方面，在第二方面的某些实现方式中，所述处理器，还用于根据所述注意力损失函数的结果通过反向传播算法对所述预测注意力系数进行更新。

结合第二方面，在第二方面的某些实现方式中，所述注意力损失函数为

结合第二方面，在第二方面的某些实现方式中，所述处理器，还用于获取被遮挡的目标物体的三维点云数据；所述处理器，还用于将所述三维点云数据进行三维网络划分，并获得多个三维空间体素；所述处理器，还用于根据每个所述体素中的点云密度，获得所述体素的点云特征；所述处理器，还用于使用所述主干神经网络提取所述点云特征，并生成所述第一特征图。

结合第二方面，在第二方面的某些实现方式中，所述处理器，用于通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数，包括：所述注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成所述预测注意力系数。

结合第二方面，在第二方面的某些实现方式中，所述处理器，用于通过所述人工神经网络对所述目标物体进行物体检测，并获得所述目标物体可见部分对应的特征图候选框的三维位置和置信度；所述处理器，还用于对所述置信度进行排序，并选取置信度高于第三阈值的候选框；所述处理器，还用于根据所述置信度高于第三阈值的候选框预测所述目标物体的信息。

结合第二方面，在第二方面的某些实现方式中，所述目标物体的信息包括所述目标物体的位置和/或尺寸。

结合第二方面，在第二方面的某些实现方式中，所述系统还包括显示器，所述显示器用于显示根据所述第二特征图获得的预测结果。

可选地，本申请实施例提供的系统可以应用于无人驾驶领域的可移动设备中，该可移动设备可以为无人机或者无人车。该可移动设备可以通过激光雷达对被遮挡目标物体的三维点云进行采集，并根据被遮挡物体的可见部分对目标物体的位置和/或尺寸信息进行预测。

第三方面，提供了一种基于人工神经网络的物体检测的系统，所述系统包括处理模块和接收模块，其中，所述系统用于执行如第一方面任一实现方式中所述的方法。

第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机执行时使得，所述计算机执行第一方面提供的方法。

第五方面，提供了一种芯片系统，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得如第一方面中任一项所述的方法得以实现。

第六方面，提供了一种包含指令的计算机程序产品，所述指令被计算机执行时使得计算机执行第一方面提供的方法。

本申请实施例提供的一种基于人工神经网络的物体检测的方法，可以应用于无人机或者无人车等无人驾驶设备的自动驾驶领域，用于预测无人驾驶的可移动设备周围环境中的障碍物(如其他车辆、行人等)，其中，该障碍物(即目标物体)可以是被部分遮挡的物体。根据本申请实施例提供的方法，可以通过神经网络的深度学习，训练出能够根据被遮挡目标物体的可见部分信息获得目标物体位置信息以及尺寸信息等的基于人工神经网络的物体检测模型。其中，该物体检测模型在被训练的过程中，可以基于注意力机制，对目标物体的可见部分的信息赋予更多的权重，也即对可见部分的信息更加敏感，使得该物体检测模型可以在后续预测过程中，可以根据目标物体的可见部分，更准确地获取目标物体的信息。

附图说明

图1示出了本申请实施例提供的基于人工神经网络的物体检测的方法所应用的场景的示意图。

图2示出了本申请实施例提供的基于人工神经网络的物体检测的方法的示意性流程图。

图3示出了本申请实施例提供的基于人工神经网络的物体检测的方法的示意性流程图。

图4示出了本申请实施例提供的一种基于人工神经网络的物体检测的系统示意图。

图5示出了本申请实施例提供的另一种基于人工神经网络的物体检测的系统示意图。

具体实施方式

为了便于理解本发明实施例提供的技术方案，下文首先描述本发明实施例涉及的一些概念。

1、注意力(attention)机制

通俗来讲，attention机制就是把注意力集中放在重要的点上，而忽略其他不重要的因素。举例来说，attention机制类似于人类的视觉注意力机制，人类视觉在面对图像时，可以通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多需要关注目标的细节信息，而抑制其他无用信息。其中，重要程度的判断可以取决于应用场景。根据应用场景的不同，attention机制分为空间注意力和时间注意力，前者一般用于图像处理，后者一般用于自然语言处理。本申请实施例主要涉及空间注意力。

应理解，本申请实施例提供的物体检测的方法可以适用于自动驾驶场景中(如图1所示)。具体地，在自动驾驶过程中，无人车可以使用激光雷达获取三维点云探测周围环境，并对周围环境中的三维物体进行检测，而当被检测的三维物体被部分遮挡时，使得点云缺失导致漏检，检测效果将会大大下降。为了在对被遮挡物体检测时，能够获得更好的检测结果，从而更精准地预测出被遮挡三维物体的位置和大小，本申请实施例通过改进深度学习算法中神经网络的训练策略，在三维物体的神经网络检测模型中，加入attention网络分支，提高对可见部分中关键点云的利用程度，进而提升被遮挡三维物体的检测效果。

以下结合附图对本申请实施例提供的物体检测的方法进行进一步介绍。

图2示出了本申请实施例提供的基于人工神经网络的物体检测的方法的示意性流程图。包括以下步骤。

S101，获取三维点云，并使用主干神经网络获取该三维点云的第一特征图。

其中，该三维点云为被部分遮挡的目标物体的三维点云数据。

应理解，在获取三维点云数据之前，先通过深度学习算法生成一个三维物体的神经网络检测模型。在神经网络检测模型的训练阶段，该检测模型可以包括主干网络以及网络分支，其中，主干网络可以用于接收三维点云数据，并根据该三维点云数据生成特征图；网络分支可以用于计算网络的损失函数，该损失函数为分别与置信度、位置和attention系数相关的损失函数，这些损失函数可指导更新网络参数，如attention系数等，使该神经网络检测模型能够根据目标物体的未被遮挡部分更准确地预测出目标物体的位置和大小，具备更好的预测性能。

在一种实现方式中，在根据点云数据生成特征图之前，神经网络检测模型可以将目标物体的三维空间体素化，并根据每个体素中的点云密度确定该体素位置的点云特征。该过程可以将目标物体的点云数据转化为神经网络可以接收的维度。

示例性的，神经网络检测模型可以首先在xyz方向上按照一定分辨率对目标物体的点云进行三维网络划分处理，以获得多个三维空间的体素；然后基于体素中的点云密度确定该体素对应的点云特征。其中，对于存在点云的体素，计算该体素中的点云密度P，并将该位置的点云特征置为P；对于无点云存在的体素，将其点云特征置为0。

在一种实现方式中，神经网络检测模型可以通过一个主干网络提取点云特征，并生成第一特征图。其中，主干网络可以是任意的网络结构，第一特征图的大小可以为H*W，本申请实施例对H和W的具体数值不做限定。

在一种实现方式中，向神经网络检测模型输入的数据并不限于目标物体的点云数据，还可以是目标物体的图像信息，如目标物体的RGB图像信息。

S102，使用注意力分支神经网络处理第一特征图，获取第二特征图，其中，该第二特征图还用于获取目标物体的损失函数，该损失函数用于更新注意力分支神经网络的网络系数。

在一种实现方式中，可以通过注意力分支神经网络对第一特征图的候选框生成预测注意力系数。其中，第一特征图的各个位置可以指对第一特征图进行划分后得到的各个候选框，该候选框的尺寸可以根据需要灵活设置，本申请对此不做限定。

在一种实现方式中，注意力分支神经网络可以通过多种方式在第一特征图的各个位置生成相应的预测注意力系数，例如通过卷积操作、全连接以及卷积的变种(如SPAS、STAR、SGRS、SPARSE等)。

在一种实现方式中，第一特征图上初始生成的预测注意力系数的值可以为预设置的默认值；或者，该初始生成的预测注意力系数的值为经验值。

可选地，在进行检测物体的神经网络模型训练过程之前，可以先建立样本库，该样本库中包括有目标物体的样本特征图，其中，该样本特征图上可以划分有真值框，且真值框的大小可以与第二特征图中候选框的大小相同。

可选地，可以预先对样本特征图中目标物体的各个部分进行真值注意力系数的标注。例如，对于目标物体被遮挡的部分，可以预先标注其真值注意力系数的值为负数或者小于1的正数；对于目标物体未被遮挡的部分(也即可见部分)，可以预先标注其真值注意力系数的值为大于1的正数。

在一种实现方式中，可以对样本特征图中的真值注意力系数取自然对数e指数，使得未被遮挡部分的信息更加突出。

应理解，本申请实施例提供的物体检测模型训练过程，是为了使得目标物体可见部分的注意力系数可以高于或者远高于目标物体被遮挡部分的注意力系数。注意力系数越高也就意味着该部分点云为预测目标物体的关键点云，在后续预测目标物体的位置或者尺寸时，部分点云的受关注程度以及利用程度也就越高。

在一种实现方式中，根据生成有预测注意力系数的第一特征图可以获得第二特征图。示例性的，可以将生成的预测注意力系数与第一特征图通过最小二乘法进行点乘，获取第二特征图。换句话说，第二特征图是基于第一特征图在各个候选框生成相应的预测注意力系数后获得的，该第二特征图也可以理解为注意力特征图(即attention特征图)。

应理解，由于第二特征图中各个候选框中的预测注意力系数为默认值或者经验值，因此，其无法保证满足目标物体可见部分的预测注意力系数高于或者远高于遮挡部分的预测注意力系数。在这种情况下，需要以样本特征图中的真值注意力系数为参照对第二特征图中的预测注意力系数进行校正和更新，使得预测注意力系数和真值注意力系数的置信度达到第一阈值，在该过程中，训练注意力分支神经网络在目标物体的可见部分生成高注意力系数，在目标物体的被遮挡部分生成较低的注意力系数，进而能更准确地获得目标物体可见部分对应的特征图部分，便于后续利用该可见部分对目标物体的信息进行预测。

在一种实现方式中，检测物体神经网络模型可以通过注意力系数损失函数对预测注意力系数进行校正和更新。具体来说，对比第二特征图的候选框中的预测注意力系数与该候选框对应的样本特征图中真值框中的真值注意力系数；当候选框的预测注意力系数与真值框的真值注意力系数的置信度高于第一阈值时，根据该预测注意力系数和真值注意力系数确定注意力损失函数的结果；当根据预测注意力系数和真值注意力系数计算出注意力损失函数的结果后，根据该注意力损失函数的结构对注意力分支神经网络系数进行更新，使得该注意力分支神经网络系数的置信度高于第二阈值。其中，注意力损失函数为∑ _n＝0 ^k[L _a(m _k，t _k)]，k为候选框中的特征点个数，L _a为平滑最小一乘smooth L1损失函数，m _k为预测注意力函数，t _k为实际的真值注意力系数。

在一种实现方式中，当计算出注意力损失函数的结果后，可以利用反向传播算法，利用该结果对注意力分支神经网络的网络系数进行校正和更新。

应理解，通过利用注意力损失函数的结果对第二特征图中的预测注意力系数进行校正和更新，能够使的该预测注意力系数更接近真值注意力系数的值。

在一种实现方式中，当对第二特征图的预测注意力系数更新后，可以对更新后的预测注意力系数进行取自然常数e指数的操作，使得可见部分的注意力系数与遮挡部分的注意力系数具有更明显的差别，以突出可见部分的信息。

应理解，对第二特征图中的预测注意力系数进行校正和更新后，该第二特征图中目标物体可见部分对应的注意力系数较高，从而该物体检测神经网络模型对该可见部分的信息更加敏感，更大程度地利用该可见部分的信息预测整个目标物体的位置和尺寸。

还应理解，对注意力分支神经网络的预测注意力系数进行校正和更新后，该注意力分支神经网络在后续对目标物体的检测过程中可以在目标物体的可见部分生成高预测注意力系数，而在目标物体的被遮挡部分生成较低的预测注意力系数，也即注意力分支神经网络在上述训练过程之后可以对目标物体可见部分的信息更加敏感，使得该物体检测模型在实际预测过程中更加关注可见部分的信息，以达到提升被遮挡的目标物体的检测效果。

S103，根据第二特征图获得预测结果，该预测结果包括目标物体的位置信息。

在一种实现方式中，神经网络物体检测模型可以根据预测注意力系数经过校正或者更新后的第二特征图获得预测结果，该预测结果可以包括目标物体的位置信息，也可以包括目标物体的尺寸等信息。

在一种实现方式中，对于通过上述训练过程训练好的神经网络物体检测模型，在实际预测过程中，可以将目标物体的点云数据或者图像信息数据输入该检测模型，该检测模型可以筛选出该点云数据或者图像信息中属于未被遮挡部分的数据或者信息，根据该未被遮挡部分的数据或者信息预测整个被遮挡目标物体的位置或者尺寸等信息。

在一种实现方式中，通过上述神经网络物体检测模型，可以得出被检测物体的候选框所对应的三维位置和置信度；以置信度对候选框排序后，按照置信度由高到低的顺序可以筛选出一定数量的候选框，其中，被筛选出的候选框的置信度可以均高于第三阈值；根据筛选出的具有较高置信度候选框对目标物体的位置和尺寸进行预测。其中，通过神经网络的深度学习算法，根据目标物体的某些关键部分的点云数据或者图像信息预测整个物体的尺寸或者位置的过程可以参见现有流程，此处不再赘述。

应理解，本申请实施例提供的基于人工神经网络的物体检测的方法，可以适用于自动驾驶领域中，无人车或者无人机等对周围环境存在的障碍物的位置、尺寸等信息进行预测的场景下。鉴于传统的对障碍物检测的过程中，当根据障碍物的信息生成特征图后，会直接将该特征图输入用于计算位置、置信度的损失函数的分支网络，也即该种情况下，对障碍物的被遮挡部分和可见部分赋予基本相同的关注度，然而由于障碍物被部分遮挡，使得用于预测障碍物位置、置信度等的有价值的信息部分缺失，会导致检测效果较差。本申请实施例提供的基于人工神经网络的物体检测的方法，在人工神经网络中加入注意力网络分支，并训练该注意力网络分支学习能够准确识别障碍物的可见部分，然后由物体检测模型利用该可见部分的关键信息预测障碍物的位置、尺寸或者置信度等信息，使得无人车或者无人机能够准确获知周围环境的障碍物的分布、大小等，以做出准确的行驶轨迹。

此外，本申请实施例提供的基于人工神经网络的物体检测的方法，可以仍然利用激光雷达进行检测，不需要利用其它传感器进行融合，降低了硬件成本。

图3示出了本申请实施例提供的基于人工神经网络的物体检测方法的示意性流程图。该过程包括以下步骤。

S201，输入点云。

应理解，本申请实施例提供的物体检测方法还可以输入目标物体的图像，如GRB图像。

S202，三维网格化。

其中，三维网络化是指对目标物体的点云进行三维网格划分处理，也即将三维空间体素化。具体来说，可以对空间点云在xyz三个空间坐标方向上按照一定分辨率，进行栅格划分，得到三维空间的体素。

在一种实现方式中，根据体素中的点云密度确定点云特征。其中，对于存在点云的体素，计算该体素中的点云密度(记为P)，并将该位置的点云特征置为P；对于无点云的体素，将其点云特征置为0。该过程可以将目标物体的点云数据转化为神经网络可以接收的维度。

S203，通过主干网络获取第一特征图。

其中，该第一特征图为目标物体点云的特征图。

在一种实现方式中，主干网络可以是任意的网络结构，第一特征图的大小可以为H*W，本申请实施例对H和W的具体数值不做限定。

S204，注意力系数相关操作。

其中，该流程中注意力系数的相关操作可以包括基于第一特征图生成第一特征图中各个位置对应的预测注意力系数。该第一特征图的各个位置可以指对第一特征图进行划分后得到的各个候选框，该候选框的尺寸可以根据需要灵活设置，本申请对此不做限定。

S205，获得注意力系数。

S206，获得第二特征图。

其中，该第二特征图第二特征图是基于第一特征图在各个候选框生成相应的预测注意力系数后获得的，该第二特征图也可以理解为注意力特征图(即attention特征图)。

在一种实现方式中，检测物体神经网络模型可以通过注意力系数损失函数对预测注意力系数进行校正和更新。具体来说，对比第二特征图的候选框中的预测注意力系数与该候选框对应的样本特征图中真值框中的真值注意力系数；当候选框的预测注意力系数与真值框的真值注意力系数的置信度高于第一阈值时，根据该预测注意力系数和真值注意力系数确定注意力损失函数的结果；当根据预测注意力系数和真值注意力系数计算出注意力损失函数的结果后，根据该注意力损失函数的结构对注意力分支神经网络系数进行更新，使得该注意力分支神经网络系数的置信度高于第二阈值。其中，注意力损失函数为∑ _n＝0 ^k[L _a(m _k，t _k)]，k为候选框中的特征点个数，L _a为smooth L1损失函数，m _k为预测注意力函数，t _k为实际的真值注意力系数。

S207，获得预测结果。

S208，置信度排序及阈值筛选。

在一种实现方式中，通过上述神经网络物体检测模型，可以得出被检测物体的候选框所对应的三维位置和置信度；以置信度对候选框排序后，按照置信度由高到低的顺序可以筛选出一定数据的候选框；根据筛选出的具有较高置信度候选框对目标物体的位置和尺寸进行预测。其中，通过神经网络的深度学习算法，根据目标物体的某些关键部分的点云数据或者图像信息预测整个物体的尺寸或者位置的过程可以参见现有流程，此处不再赘述。

S209，获得目标物体的最终预测结果。

本申请实施例提供的基于人工神经网络的物体检测的方法，可以适用于自动驾驶领域中，无人车或者无人机等对周围环境存在的障碍物的位置、尺寸等信息进行预测的场景下。鉴于传统的对障碍物检测的过程中，当根据障碍物的信息生成特征图后，会直接将该特征图输入用于计算位置、置信度的损失函数的分支网络，因此，其会对障碍物的被遮挡部分和可见部分赋予基本相同的关注度，也即该种情况下，由于障碍物被部分遮挡，使得用于预测障碍物位置、置信度等的有价值的信息部分缺失，检测效果较差。而本申请实施例提供的基于人工神经网络的物体检测的方法，在人工神经网络中加入注意力网络分支，并训练该注意力网络分支能够准确识别障碍物的可见部分，然后由物体检测模型利用该可见部分的关键信息预测障碍物的位置、尺寸或者置信度等信息，使得无人车或者无人机能够准确获知周围环境的障碍物的分布、大小等，以做出准确的行驶轨迹。

图4示出了本申请实施例提供的一种基于人工神经网络的物体检测的系统示意图。该系统300包括至少一个激光雷达310和处理器320。该系统300可以是设置在自动驾驶车辆上的分布式的感知处理系统，例如至少一个激光雷达310可以设置在车顶且为旋转式激光雷达；激光雷达310也可以设置在自动驾驶车辆上的其他位置或使用其他形式的激光雷达。处理器320可以是设置于自动驾驶车辆上的超算平台，即处理器320可以包括一个或多个CPU、GPU、FPGA或ASIC等形式的处理单元，用于处理自动驾驶车辆的传感器所获取的传感数据。

在一种实现方式中，激光雷达310，用于获取三维点云。

在一种实现方式中，处理器320，用于使用主干神经网络获取三维点云的第一特征图。

在一种实现方式中，处理器320，还用于使用注意力分支神经网络处理第一特征图，并获取第二特征图，所述第二特征图的各个位置包括与位置对应的预测注意力系数，第二特征图还用于获取目标物体的损失函数，损失函数用于更新预测注意力系数。

在一种实现方式中，处理器320，还用于根据第二特征图获得预测结果，预测结果包括目标物体的位置信息。

在一种实现方式中，处理器320，还用于对第一特征图划分候选框。

在一种实现方式中，处理器320，还用于通过注意力分支神经网络对第一特征图的候选框生成预测注意力系数。

在一种实现方式中，处理器320，还用于将预测注意力系数与第一特征图进行点乘，获取第二特征图。

在一种实现方式中，处理器320，还用于对比第二特征图的候选框的预测注意力系数与候选框对应的样本特征图中的真值框的注意力系数。

在一种实现方式中，处理器320，还用于当候选框的预测注意力系数与真值框的真值注意力系数的置信度高于第一阈值时，根据预测注意力系数和真值注意力系数确定注意力损失函数的结果。

在一种实现方式中，处理器320，还用于根据注意力损失函数的结果对预测注意力系数进行更新，使预测注意力系数的置信度高于第二阈值。

在一种实现方式中，当所述处理器320，用于对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。

在一种实现方式中，所述处理器320，还用于根据注意力损失函数的结果通过反向传播算法对预测注意力系数进行更新。

在一种实现方式中，注意力损失函数为

其中，k为候选框中的特征点个数，L _a为smooth L1损失函数，m _k为预测注意力系数，t _k为真值注意力系数。

在一种实现方式中，处理器320，还用于获取被遮挡的目标物体的三维点云数据。

在一种实现方式中，处理器320，还用于将三维点云数据进行三维网络划分，并获得多个三维空间体素。

在一种实现方式中，处理器320，还用于根据每个体素中的点云密度，获得体素的点云特征。

在一种实现方式中，处理器320，还用于使用主干神经网络提取点云特征，并生成第一特征图。

在一种实现方式中，处理器320，用于通过注意力分支神经网络对第一特征图的候选框生成预测注意力系数，包括：注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成预测注意力系数。

在一种实现方式中，处理器320，用于通过人工神经网络对目标物体进行物体检测，并获得目标物体可见部分对应的特征图候选框的三维位置和置信度。

在一种实现方式中，处理器320，还用于对置信度进行排序，并选取置信度高于第三阈值的候选框。

在一种实现方式中，处理器320，还用于根据置信度高于第三阈值的候选框预测目标物体的信息。

在一种实现方式中，目标物体的信息包括所述目标物体的位置和/或尺寸。

在一种实现方式中，本申请实施例提供的系统300还可以包括显示器，该显示器用于显示根据第二特征图预测的目标物体的预测结果。

应理解，本申请实施例提供的一种基于人工神经网络的物体检测模型的系统，可以应用于无人机或者无人车等无人驾驶设备的自动驾驶领域，用于预测无人驾驶的可移动设备周围环境中的障碍物(如其他车辆、行人等)，其中，该障碍物(即目标物体)可以是被部分遮挡的物体。本申请实施例提供的系统，可以通过神经网络的深度学习，训练出能够根据被遮挡目标物体的可见部分信息获得目标物体位置信息以及尺寸信息等的基于人工神经网络的物体检测模型。其中，该物体检测模型在被训练的过程中，可以基于注意力机制，对目标物体的可见部分的信息赋予更多的权重，也即对可见部分的信息更加敏感，使得该物体检测模型可以在后续预测过程中，可以根据目标物体的可见部分，更准确地获取目标物体的信息。

图5示出了本申请实施例提供的一种基于人工神经网络的物体检测的系统示意图。该系统400包括至少一个接收模块410和处理模块420。

在一种实现方式中，接收模块410，用于获取三维点云。

在一种实现方式中，处理模块420，用于使用主干神经网络获取三维点云的第一特征图。

在一种实现方式中，处理模块420，还用于使用注意力分支神经网络处理第一特征图，并获取第二特征图，所述第二特征图的各个位置包括与位置对应的预测注意力系数，第二特征图还用于获取目标物体的损失函数，损失函数用于更新预测注意力系数。

在一种实现方式中，处理模块420，还用于根据第二特征图获得预测结果，预测结果包括目标物体的位置信息。

在一种实现方式中，处理模块420，还用于对第一特征图划分候选框。

在一种实现方式中，处理模块420，还用于通过注意力分支神经网络对第一特征图的候选框生成预测注意力系数。

在一种实现方式中，处理模块420，还用于将预测注意力系数与第一特征图进行点乘，获取第二特征图。

在一种实现方式中，处理模块420，还用于对比第二特征图的候选框的预测注意力系数与候选框对应的样本特征图中的真值框的注意力系数。

在一种实现方式中，处理模块420，还用于当候选框的预测注意力系数与真值框的真值注意力系数的置信度高于第一阈值时，根据预测注意力系数和真值注意力系数确定注意力损失函数的结果。

在一种实现方式中，处理模块420，还用于根据注意力损失函数的结果对预测注意力系数进行更新，使预测注意力系数的置信度高于第二阈值。

在一种实现方式中，当处理模块420，用于对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。

在一种实现方式中，处理模块420，还用于根据注意力损失函数的结果通过反向传播算法对预测注意力系数进行更新。

在一种实现方式中，注意力损失函数为

在一种实现方式中，处理模块420，还用于获取被遮挡的目标物体的三维点云数据。

在一种实现方式中，处理模块420，还用于将三维点云数据进行三维网络划分，并获得多个三维空间体素。

在一种实现方式中，处理模块420，还用于根据每个体素中的点云密度，获得体素的点云特征。

在一种实现方式中，处理模块420，还用于使用主干神经网络提取点云特征，并生成第一特征图。

在一种实现方式中，处理模块420，用于通过注意力分支神经网络对第一特征图的候选框生成预测注意力系数，包括：注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成预测注意力系数。

在一种实现方式中，处理模块420，用于通过人工神经网络对目标物体进行物体检测，并获得目标物体可见部分对应的特征图候选框的三维位置和置信度。

在一种实现方式中，处理模块420，还用于对置信度进行排序，并选取置信度高于第三阈值的候选框。

在一种实现方式中，处理模块420，还用于根据置信度高于第三阈值的候选框预测目标物体的信息。

在一种实现方式中，本申请实施例提供的物体检测模型的系统还可以包括显示器，该显示器用于显示根据第二特征图获得的预测结果。

本发明实施例还提供一种芯片系统，芯片系统包括至少一个处理器，当程序指令在该至少一个处理器中执行时，使得本申请实施例提供的方法得以实现。

本发明实施例还提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述方法实施例的方法。

本发明实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线 (例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种基于人工神经网络的物体检测的系统，其特征在于，包括至少一个处理器和激光雷达，其中，

所述激光雷达，用于获取目标物体的三维点云，并将所述三维点云输入所述处理器；

所述处理器，用于对所述三维点云进行三维网格划分，得到多个体素；根据每个所述体素中的点云密度，确定所述体素对应位置的点云特征，通过所述物体检测模型的主干网络提取所述点云特征，并生成所述目标物体的第一特征图；通过所述物体检测模型的注意力分支神经网络在所述第一特征图中生成预测注意力系数；利用损失函数分支神经网络根据样本特征图中的真值注意力系数和所述预测注意力系数计算注意力损失函数的结果；根据所述注意力损失函数的结果对所述预测注意力系数进行更新，使得所述第二特征图中所述目标物体可见部分对应的特征图部分生成的预测注意力系数高于所述目标物体被遮挡部分的特征图部分的预测注意力系数；根据所述目标物体的可见部分信息获得预测结果，所述预测结果包括目标物体的位置信息。
根据权利要求1所述的系统，其特征在于，所述处理器，还用于对所述第一特征图划分候选框；通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数；将所述预测注意力系数与所述第一特征图进行点乘，获取所述第二特征图。
根据权利要求2所述的系统，其特征在于，所述处理器，还用于对比所述第二特征图的候选框的预测注意力系数与所述候选框对应的样本特征图中的真值框的注意力系数；当所述候选框的预测注意力系数与所述真值框的真值注意力系数的置信度高于第一阈值时，根据所述预测注意力系数和所述真值注意力系数确定注意力损失函数的结果；根据所述注意力损失函数的结果对所述预测注意力系数进行更新，使所述预测注意力系数与所述真值注意力系数的置信度高于第二阈值。
根据权利要求1-3中任一项所述的系统，其特征在于，当所述处理器，用于对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。
根据权利要求3或4所述的系统，其特征在于，所述处理器，还用于根据所述注意力损失函数的结果通过反向传播算法对所述预测注意力系数进行更新。
根据权利要求3-5中任一项所述的系统，其特征在于，所述注意力损失函数为
其中，k为所述候选框中的特征点个数，L _a为平滑最小一乘smooth L1损失函数，m _k为所述预测注意力系数，t _k为所述真值注意力系数。
根据权利要求1-6中任一项所述的系统，其特征在于，所述处理器，还用于获取被遮挡的目标物体的三维点云数据；

所述处理器，还用于将所述三维点云数据进行三维网络划分，并获得多个三维空间体素；

所述处理器，还用于根据每个所述体素中的点云密度，获得所述体素的点云特征；

所述处理器，还用于使用所述主干神经网络提取所述点云特征，并生成所述第一特征图。
根据权利要求2-7中任一项所述的系统，其特征在于，所述处理器，用于通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数，包括：

所述注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成所述预测注意力系数。
根据权利要求1-8中任一项所述的系统，其特征在于，所述处理器，用于通过所述人工神经网络对所述目标物体进行物体检测，并获得所述目标物体可见部分对应的特征图候选框的三维位置和置信度；

所述处理器，还用于对所述置信度进行排序，并选取置信度高于第三阈值的候选框；

所述处理器，还用于根据所述置信度高于第三阈值的候选框预测所述目标物体的信息。
根据权利要求9所述的系统，其特征在于，所述目标物体的信息包括所述目标物体的位置和/或尺寸。
根据权利要求1-10中任一项所述的系统，其特征在于，所述系统包括显示器，所述显示器用于显示根据所述第二特征图获得的预测结果。
一种基于人工神经网络的物体检测的方法，其特征在于，所述方法包括：

获取三维点云，并使用主干神经网络获取所述三维点云的第一特征图；

使用注意力分支神经网络处理所述第一特征图，并获取第二特征图，所述第二特征图的各个位置包括与所述位置对应的预测注意力系数，所述第二特征图还用于获取所述目标物体的损失函数，所述损失函数用于更新所述预测注意力系数；

根据所述第二特征图获得预测结果，所述预测结果包括目标物体的位置信息。
根据权利要求12所述的方法，其特征在于，所述使用注意力分支神经网络处理所述第一特征图，并获取第二特征图，包括：

对所述第一特征图划分候选框；

通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数；

将所述预测注意力系数与所述第一特征图进行点乘，获取所述第二特征图。
根据权利要求13所述的方法，其特征在于，所述方法还包括：

对比所述第二特征图的候选框的预测注意力系数与所述候选框对应的样本特征图中的真值框的注意力系数；

当所述候选框的预测注意力系数与所述真值框的真值注意力系数的置信度高于第一阈值时，根据所述预测注意力系数和所述真值注意力系数确定注意力损失函数的结果；

根据所述注意力损失函数的结果对所述预测注意力系数进行更新，使所述预测注意力系数与所述真值注意力系数的置信度高于第二阈值。
根据权利要求12-14中任一项所述的方法，其特征在于，所述方法还包括：

当对所述第二特征图的预测注意力系数更新后，对更新后的所述预测注意力系数进行取自然常数e指数操作。
根据权利要求14或15所述的方法，其特征在于，所述根据所述注意力损失函数的结果对所述预测注意力系数进行更新，包括：

根据所述注意力损失函数的结果通过反向传播算法对所述预测注意力系数进行更新。
根据权利要求14-16中任一项所述的方法，其特征在于，所述注意力损失函数为
其中，k为所述候选框中的特征点个数，L _a为smooth L1损失函数，m _k为所述预测注意力系数，t _k为所述真值注意力系数。
根据权利要求12-17中任一项所述的方法，其特征在于，所述获取三维点云，并使用主干神经网络获取所述三维点云的第一特征图，包括：

获取被遮挡的目标物体的三维点云数据；

将所述三维点云数据进行三维网络划分，并获得多个三维空间体素；

根据每个所述体素中的点云密度，获得所述体素的点云特征；

使用所述主干神经网络提取所述点云特征，并生成所述第一特征图。
根据权利要求13-18中任一项所述的方法，其特征在于，所述通过所述注意力分支神经网络对所述第一特征图的候选框生成预测注意力系数，包括：

所述注意力分支神经网络通过卷积操作、全连接以及卷积操作的变种中的一种或多种方式生成所述预测注意力系数。
根据权利要求12-19中任一项所述的方法，其特征在于，所述方法还包括：

通过所述人工神经网络对所述目标物体进行物体检测，并获得所述目标物体可见部分对应的特征图候选框的三维位置和置信度；

对所述置信度进行排序，并选取置信度高于第三阈值的候选框；

根据所述置信度高于第三阈值的候选框预测所述目标物体的信息。
根据权利要求20所述的方法，其特征在于，所述目标物体的信息包括所述目标物体的位置和/或尺寸。
根据权利要求12-21中任一项所述的方法，其特征在于，所述方法还包括：

显示根据所述第二特征图获得的预测结果。
根据权利要求12-22中任一项所述的方法，其特征在于，所述方法适用于自动驾驶场景中对部分点云被遮挡的目标物体的检测过程，包括：

建立基于人工神经网络的物体检测模型；

将所述目标物体的三维点云输入所述物体检测模型，通过所述物体检测模型对所述三维点云进行三维网格划分，得到多个体素；

根据每个所述体素中的点云密度，确定所述体素位置的点云特征；

通过所述物体检测模型的主干网络提取所述点云特征，并生成所述目标物体的第一特征图；

通过所述物体检测模型的注意力分支神经网络在所述第一特征图中生成预测注意力系数；

利用损失函数分支神经网络根据样本特征图中的真值注意力系数和所述预测注意力系数计算注意力损失函数的结果；

根据所述注意力损失函数的结果对所述注意力分支神经网络的网络系数进行更新，使得所述注意力分支神经网络在所述目标物体可见部分对应的特征图部分生成的预测注意力系数高于在所述目标物体被遮挡部分的特征图部分的预测注意力系数；

根据所述目标物体的可见部分信息获得预测结果，所述预测结果包括目标物体的位置信息。
一种计算机存储介质，其特征在于，所述计算机程序存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得如权利要求12至23中任一项所述的方法得以实现。