WO2023279584A1

WO2023279584A1 - 一种目标检测方法、目标检测装置及机器人

Info

Publication number: WO2023279584A1
Application number: PCT/CN2021/126716
Authority: WO
Inventors: 刘业鹏; 庞建新
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2021-07-08
Filing date: 2021-10-27
Publication date: 2023-01-12
Also published as: CN113627478A

Abstract

本申请公开了一种目标检测方法、目标检测装置、机器人及计算机可读存储介质。其中，该方法包括：获取环境彩色图及环境深度图；对所述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；基于所述二维位置信息，在环境点云图中提取出包含所述目标的视锥体，其中，所述环境点云图基于所述环境深度图及所述环境彩色图而生成；基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息；输出所述类别信息及所述空间位置信息。通过本申请方案，不仅可准确识别出环境中目标的位置，还可识别出环境中目标的类别，可帮助机器人更好的进行避障决策。

Description

一种目标检测方法、目标检测装置及机器人

本申请要求于2021年07月08日在中国专利局提交的、申请号为202110775039.0的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于机器人技术领域，尤其涉及一种目标检测方法、目标检测装置、机器人及计算机可读存储介质。

背景技术

在机器人的导航应用中，通常需要机器人先识别出室内的障碍物，然后判断自身和障碍物的空间位置关系，之后才可决策下一步的移动轨迹，从而避开障碍物。目前，大部分机器人均依赖于激光雷达来识别环境中的障碍物，而激光雷达存在如下缺点：一方面，激光雷达成本较高，且在室内场景下容易出现前景遮挡后景而导致干扰的问题；另一方面，基于激光雷达所获取的点云信息没有语义信息，也即，机器人只能知道前方是否有物体，但不知道该物体是什么物体。

技术问题

本申请提供了一种目标检测方法、目标检测装置、机器人及计算机可读存储介质，不仅可准确识别出环境中目标的位置，还可识别出环境中目标的类别，可帮助机器人更好的进行避障决策。

技术解决方案

第一方面，本申请提供了一种目标检测方法，包括：

获取环境彩色图及环境深度图；

对上述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；

基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体，其中，上述环境点云图基于上述环境深度图及上述环境彩色图而生成；

基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息；

输出上述类别信息及上述空间位置信息。

第二方面，本申请提供了一种目标检测装置，包括：

获取模块，用于获取环境彩色图及环境深度图；

识别模块，用于对上述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；

第一提取模块，用于基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体，其中，上述环境点云图基于上述环境深度图及上述环境彩色图而生成；

第二提取模块，用于基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息；

输出模块，用于输出上述类别信息及上述空间位置信息。

第三方面，本申请提供了一种机器人，上述机器人包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

有益效果

本申请与现有技术相比存在的有益效果是：机器人可先获取环境彩色图及环境深度图，然后对上述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息，接着基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体，其中，上述环境点云图基于上述环境深度图及上述环境彩色图而生成，随后基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息，最后输出上述类别信息及上述空间位置信息。本申请方案只需要机器人搭载成本较低的RGB相机及深度相机即可实现：通过RGB相机所采集的环境彩色图可以快速识别出环境中的语义信息，获知目标的类别，通过深度相机所采集的环境深度图结合环境彩色图可以得到目标的点云信息，以此可快速识别出目标在环境空间中的位置。可见，上述过程在降低了机器人成本的前提下，不仅可准确识别出环境中目标的位置，还可识别出环境中目标的类别，可帮助机器人更好地进行避障决策。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标检测方法的实现流程示意图；

图2是本申请实施例提供的视椎体的示例图；

图3是本申请实施例提供的点云分类网络的结构示意图；

图4是本申请实施例提供的点云回归网络的结构示意图；

图5是本申请实施例提供的点云坐标系的调整过程的示例图；

图6是本申请实施例提供的目标检测装置的结构框图；

图7是本申请实施例提供的机器人的结构示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所提出的技术方案，下面通过具体实施例来进行说明。

下面对本申请实施例所提出的目标检测方法作出说明。请参阅图1，该目标检测方法包括：

步骤101，获取环境彩色图及环境深度图。

在本申请实施例中，机器人身上可搭载有一RGB相机及一深度相机。其中，RGB相机用于采集环境彩色图，深度相机用于采集环境深度图。由此，机器人可通过该RGB相机及该深度相机，获取到各个时刻下的环境彩色图及环境深度图。通常情况下，该RGB相机及该深度相机的位置相近，且该RGB相机及该深度相机的拍摄角度及拍摄范围等基本相同，可以近似认为该环境彩色图及环境深度图的对应像素点(也即同一位置的像素点)指向了环境中的同一位置。

步骤102，对上述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息。

在本申请实施例中，可先对环境彩色图进行目标识别。具体地，可采用预设的已训练的轻量级目标检测网络对该环境彩色图进行目标识别。仅作为示例，该轻量级目标检测网络可以是Pnet网络。通过该轻量级目标检测网络，可得到环境中的物体(也即目标)在该环境彩色图中的检测框(bounding box)的位置、置信度得分(score)及目标可能所属的各个类别的概率。可以理解，该检测框(bounding box)的位置即表示了目标的二维位置信息，具体表现为(x,y,w,h)的形式，其中，x为检测框的左上顶点的横坐标，y为检测框的左上顶点的纵坐标，w为检测框的宽，h为检测框的高。置信度得分用于反映该检测框是否包含目标以及包含目标的情况下该检测框位置的准确性。针对每个置信度得分超过预设的置信度得分阈值的检测框，可基于该检测框中的目标所对应的概率最高的类别确定该目标的类别信息。通过上述过程，即可找到环境中各个目标的二维位置信息及类别信息。

可以理解，该轻量级目标检测网络需要预先进行单独的训练。例如，需要先采集多个环境训练图像，并对该环境训练图像中的各个障碍物进行标注，以组成一训练集。将该训练集输入到待训练的轻量级目标检测网络进行训练，直至该轻量级目标检测网络的损失收敛或训练迭代次数达到预设的次数阈值为止，即可得到已训练的轻量级目标检测网络。仅作为示例，该轻量级目标检测网络的损失函数包括分类和回归两个部分，可参考当前通用的目标检测网络的损失函数，此处不作赘述。可以理解，该轻量级目标检测网络的训练可由机器人进行，也可由其它电子设备进行，此处不作限定。

步骤103，基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体。

在本申请实施例中，机器人可在获取到同一时刻下的环境深度图及环境彩色图之后，将二者进行对相结合，得到环境结合图。可以理解，该环境结合图中的每个像素点具备6个值(r,g,b,x,y,d)。其中r、g及b分别代表该像素点在红、绿及蓝三个通道的像素值，x及y分别代表该像素点的横坐标及纵坐标，d代表该像素点的深度信息。由于机器人还可预先获得深度相机的内参和外参，例如深度相机的焦距、光圈中心的坐标及深度图像(也即环境深度图)的缩放因子等，因而，可通过如下公式得到该环境结合图中的各个像素点的点云信息(r,g,b,x,y,z)：

其中，cx及cy分别为深度相机的中心对比原点在相机坐标系下的X轴方向及Y轴方向的平移像素；fx及fy分别为该X轴及该Y轴的焦距；z代表物体离相机的距离，也即深度；u及v分别为物体在相机坐标系下的横坐标及纵坐标；d代表实际距离单位，s代表距离换算成像素单位，也即，z的单位是像素。通过上述过程，即可得到环境点云图；可以理解，通过该环境点云图，即可得到环境彩色图中的每个像素点(也是环境结合图中的每个像素点)所对应的点云信息(r,g,b,x,y,z)，其中，该x、y及z代表的是像素点在点云坐标系中的坐标。

在获得环境点云图后，机器人即可基于步骤102中已获得的目标的二维位置信息，通过预设的投影矩阵在该环境点云图中映射得到该目标的点云。为便于说明，可将该点云记作映射点云；随后，机器人可通过预设的近平面及远平面，获取能够包含该映射点云的预设数量个角点的视锥体。请参阅图2，图2给出了一视椎体的示例。其中，该近平面及该远平面是深度相机的固有属性，可以理解为深度相机所能够拍摄的最小距离及最大距离所分别构成的平面。通过该近平面及远平面，可以找到一个刚好能够外切映射点云的预设数量个角点(例如四个角点)的立方体，该立方体即为本步骤最后所要提取的视椎体。显然，该视椎体必然包含了所有的映射点云。

步骤104，基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息。

在本申请实施例中，由于该视椎体包含了所有的映射点云，而映射点云是基于目标在二维图像(也即环境彩色图)中的位置而确定的，因而，可认为该视椎体一定程度上代表了该目标。机器人可通过已训练的神经网络对该视椎体进行进一步处理，以提取得到该目标的空间位置信息。具体地，该神经网络包括：点云分类网络及点云回归网络；则机器人可通过已训练的点云分类网络对视锥体内的点云进行筛选，得到目标点云，该目标点云为属于该目标的点云，之后再通过已训练的点云回归网络提取出该目标点云的三维包围框的空间位置信息，该空间位置信息即可等价于该目标的空间位置信息。

请参阅图3，图3给出了该点云分类网络的网络结构示意。该点云分类网络整体可分为抽象层和特征图提取层两部分。其中，该点云分类网络的输入为n个点的三维信息，也即(r,g,b)；n为视椎体内的点云所包含的点的数量；也即，将视椎体内的所有点一起输入至该点云分类网络。可以理解，抽象层的作用是对视锥体内的各个点进行一系列的聚类分组操作。特征图提取层实际与2维的CNN网络的处理过程一致。全连接层用于输出每个点属于目标的概率。基于此，机器人在将视锥体内的点云输入至已训练的点云分类网络后，即可得到视锥体内的点云中的各个点属于该目标的概率。机器人由此可将属于该目标的概率大于预设概率阈值的所有点确定为目标点云。

请参阅图4，图4给出了该点云回归网络的网络结构示意。该点云回归网络的设计更加轻量级，相对点云分类网络来说，其减少了一个抽象层。最后输出的回归为七维向量，包括：x、y、z、w、h、l及angle。其中，x、y及z分别为目标点云的三维包围框的中心点的三维坐标；w、h及l分别为该三维包围框的宽、高及长(也即尺寸)，也即，侧面表达了三维包围框的中心点到三维包围框的六个面的距离；angle为该三维包围框在俯视情况下的朝向角度。可以理解，该目标点云的三维包围框实际上为目标的三维模拟；也即，可认为该目标点云的三维包围框等价于目标。

可以理解，该点云分类网络及该点云回归网络可以进行联合训练，则该点云分类网络及该点云回归网络在训练过程中的损失函数如下：

L＝L _seg+α(L _c1-reg+L _c2-reg+L _h+L _s)

其中，Lseg是点云分类网络的损失；Lc1-reg是点云回归网络计算目标的三维包围框的中心点的损失；Lc2-reg是点云回归网络计算目标的三维包围框的尺寸的损失；Lh是点云回归网络计算目标的三维包围框的朝向角度的损失；Ls是点云回归网络计算目标的三维包围框的体积的损失；α为预设常量。可以理解，该点云分类网络及该点云回归网络的训练可由机器人进行，也可由其它电子设备进行，此处不作限定。

步骤105，输出上述类别信息及上述空间位置信息。

在本申请实施例中，该类别信息指示了目标是什么类别的物体，该空间位置信息指示了目标在环境中的准确位置。机器人可向其它模块输出该类别信息及该空间位置信息。仅作为示例，该其它模块可以是避障决策模块或导航模块等，以便于更好的实现避障决策或导航，此处不作限定。

在一些实施例中，每个物体类别可分别对应一个已训练的点云分类网络及一个已训练的点云回归网络；也即，机器人可预先设置有多个已训练的点云分类网络及多个已训练的点云回归网络。基于此，机器人可在确定了目标的类别信息后，先基于该类别信息确定当前所要应用的点云分类网络及点云回归网络，可分别记作目标点云分类网络及目标点云回归网络；接着再可通过已训练的目标点云分类网络对视锥体内的点云进行筛选，得到目标点云；之后再通过已训练的目标点云回归网络提取出该目标点云的三维包围框的空间位置信息。

在一些实施例中，为了增加点云分类网络及点云回归网络的收敛速度，还可在步骤104之前，由机器人先对视锥体内的点云进行坐标归一化处理；则步骤104可相应表现为：基于上述已训练的神经网络及坐标归一化处理后的上述视锥体内的点云，提取得到上述目标的空间位置信息。可以理解，由于步骤103所得的视椎体并不垂直于相机平面，因此需要对点云坐标系进行调整(旋转及平移)；视椎体内的点云在调整后的点云坐标系下的点云坐标即为归一化处理后的点云坐标。请参阅图5，图5给出了点云坐标系的调整过程的示意：由于点云自身具备旋转不变性的特点，可先将相机原点与视椎体内点云的中心点的连线作为新的Z轴，与原始的点云坐标系的Z轴计算旋转角度，由此可基于该旋转角度实现点云坐标系的旋转；然后将该中心点作为新的原点，由此可实现点云坐标系的平移。可以理解，对点云坐标系的调整实际上是为了对点云的点云坐标进行归一化操作，使得点云分布更加均匀，有利于后续神经网络(也即点云分类网络及点云回归网络)的收敛。

由上可见，通过本申请实施例，只需要机器人搭载成本较低的RGB相机及深度相机即可实现准确的目标检测，具体为：通过RGB相机所采集的环境彩色图可以快速识别出环境中的语义信息，获知目标的类别，通过深度相机所采集的环境深度图结合环境彩色图可以得到目标的点云信息，以此可快速识别出目标在环境空间中的位置。可见，上述过程在降低了机器人成本的前提下，不仅可准确识别出环境中目标的位置，还可识别出环境中目标的类别，可帮助机器人更好的进行避障决策。

对应于上文所提供的目标检测方法，本申请实施例还提供了一种目标检测装置。如图6所示，该目标检测装置600包括：

获取模块601，用于获取环境彩色图及环境深度图；

识别模块602，用于对上述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；

第一提取模块603，用于基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体，其中，上述环境点云图基于上述环境深度图及上述环境彩色图而生成；

第二提取模块604，用于基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息；

输出模块605，用于输出上述类别信息及上述空间位置信息。

可选地，上述第一提取模块603，包括：

映射点云确定单元，用于基于上述二维位置信息，在上述环境点云图中确定上述目标的映射点云；

视椎体获取单元，用于通过预设的近平面及远平面，获取能够包含上述映射点云的预设数量个角点的视锥体。

可选地，上述第二提取模块604，包括：

筛选单元，用于通过已训练的点云分类网络对上述视锥体内的点云进行筛选，得到目标点云，上述目标点云为属于上述目标的点云；

提取单元，用于通过已训练的点云回归网络提取出上述目标点云的三维包围框的空间位置信息。

可选地，上述筛选单元，包括：

概率获取子单元，用于将上述视锥体内的点云输入至上述已训练的点云分类网络中，得到上述视锥体内的点云中的各个点属于上述目标的概率；

目标点云确定子单元，用于将属于上述目标的概率大于预设概率阈值的所有点确定为上述目标点云。

可选地，上述提取单元，具体用于将上述目标点云输入至上述已训练的点云回归网络中，得到上述三维包围框的中心点的三维坐标、上述三维包围框的尺寸及上述三维包围框的朝向角度。

可选地，每个物体类别分别对应一个已训练的点云分类网络；上述第二提取模块604还包括：

目标点云分类网络确定单元，用于将与上述类别信息对应的已训练的点云分类网络确定为已训练的目标点云分类网络；

相应地，上述筛选单元，用于通过上述已训练的目标点云分类网络对上述视锥体内的点云进行筛选，得到上述目标点云。

可选地，上述目标检测装置600还包括：

归一化模块，用于对上述视锥体内的点云进行坐标归一化处理；

相应地，上述第二提取模块604，具体用于基于上述已训练的神经网络及坐标归一化处理后的上述视锥体内的点云，提取得到上述目标的空间位置信息。

对应于上文所提供的目标检测方法，本申请实施例还提供了一种机器人。请参阅图7，本申请实施例中的机器人7包括：存储器701，一个或多个处理器702(图7中仅示出一个)及存储在存储器701上并可在处理器上运行的计算机程序。其中：存储器701用于存储软件程序以及单元，处理器702通过运行存储在存储器701的软件程序以及单元，从而执行各种功能应用以及诊断，以获取上述预设事件对应的资源。具体地，处理器702通过运行存储在存储器701的上述计算机程序时实现以下步骤：

获取环境彩色图及环境深度图；

输出上述类别信息及上述空间位置信息。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述基于上述二维位置信息，在环境点云图中提取出包含上述目标的视锥体，包括：

基于上述二维位置信息，在上述环境点云图中确定上述目标的映射点云；

通过预设的近平面及远平面，获取能够包含上述映射点云的预设数量个角点的视锥体。

在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息，包括：

通过已训练的点云分类网络对上述视锥体内的点云进行筛选，得到目标点云，上述目标点云为属于上述目标的点云；

通过已训练的点云回归网络提取出上述目标点云的三维包围框的空间位置信息。

在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述通过已训练的点云分类网络对上述视锥体内的点云进行筛选，得到目标点云，包括：

将上述视锥体内的点云输入至上述已训练的点云分类网络中，得到上述视锥体内的点云中的各个点属于上述目标的概率；

将属于上述目标的概率大于预设概率阈值的所有点确定为上述目标点云。

在上述第三种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述通过已训练的点云回归网络提取出上述目标点云的三维包围框的空间位置信息，包括：

将上述目标点云输入至上述已训练的点云回归网络中，得到上述三维包围框的中心点的三维坐标、上述三维包围框的尺寸及上述三维包围框的朝向角度。

在上述第三种可能的实施方式作为基础而提供的第六种可能的实施方式中，每个物体类别分别对应一个已训练的点云分类网络；在上述通过已训练的点云分类网络对上述视锥体内的点云进行筛选之前，处理器702通过运行存储在存储器701的上述计算机程序时还实现以下步骤：

将与上述类别信息对应的已训练的点云分类网络确定为已训练的目标点云分类网络；

相应地，上述通过已训练的点云分类网络对上述视锥体内的点云进行筛选，得到目标点云，包括：

通过上述已训练的目标点云分类网络对上述视锥体内的点云进行筛选，得到上述目标点云。

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础，或者上述第六种可能的实施方式作为基础而提供的第七种可能的实施方式中，在上述基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息之前，处理器702通过运行存储在存储器701的上述计算机程序时还实现以下步骤：

对上述视锥体内的点云进行坐标归一化处理；

相应地，上述基于已训练的神经网络及上述视锥体，提取得到上述目标的空间位置信息，包括：

基于上述已训练的神经网络及坐标归一化处理后的上述视锥体内的点云，提取得到上述目标的空间位置信息。

应当理解，在本申请实施例中，所称处理器702可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器701可以包括只读存储器和随机存取存储器，并向处理器702提供指令和数据。存储器701的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器701还可以存储设备类别的信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种目标检测方法，其特征在于，包括：

获取环境彩色图及环境深度图；

对所述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；

基于所述二维位置信息，在环境点云图中提取出包含所述目标的视锥体，其中，所述环境点云图基于所述环境深度图及所述环境彩色图而生成；

基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息；

输出所述类别信息及所述空间位置信息。
如权利要求1所述的目标检测方法，其特征在于，所述基于所述二维位置信息，在环境点云图中提取出包含所述目标的视锥体，包括：

基于所述二维位置信息，在所述环境点云图中确定所述目标的映射点云；

通过预设的近平面及远平面，获取能够包含所述映射点云的预设数量个角点的视锥体。
如权利要求1所述的目标检测方法，其特征在于，所述基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息，包括：

通过已训练的点云分类网络对所述视锥体内的点云进行筛选，得到目标点云，所述目标点云为属于所述目标的点云；

通过已训练的点云回归网络提取出所述目标点云的三维包围框的空间位置信息。
如权利要求3所述的目标检测方法，其特征在于，所述通过已训练的点云分类网络对所述视锥体内的点云进行筛选，得到目标点云，包括：

将所述视锥体内的点云输入至所述已训练的点云分类网络中，得到所述视锥体内的点云中的各个点属于所述目标的概率；

将属于所述目标的概率大于预设概率阈值的所有点确定为所述目标点云。
如权利要求3所述的目标检测方法，其特征在于，所述通过已训练的点云回归网络提取出所述目标点云的三维包围框的空间位置信息，包括：

将所述目标点云输入至所述已训练的点云回归网络中，得到所述三维包围框的中心点的三维坐标、所述三维包围框的尺寸及所述三维包围框的朝向角度。
如权利要求3所述的目标检测方法，其特征在于，每个物体类别分别对应一个已训练的点云分类网络；在所述通过已训练的点云分类网络对所述视锥体内的点云进行筛选之前，所述目标检测方法还包括：

将与所述类别信息对应的已训练的点云分类网络确定为已训练的目标点云分类网络；

相应地，所述通过已训练的点云分类网络对所述视锥体内的点云进行筛选，得到目标点云，包括：

通过所述已训练的目标点云分类网络对所述视锥体内的点云进行筛选，得到所述目标点云。
如权利要求1至6任一项所述的目标检测方法，其特征在于，在所述基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息之前，所述目标检测方法还包括：

对所述视锥体内的点云进行坐标归一化处理；

相应地，所述基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息，包括：

基于所述已训练的神经网络及坐标归一化处理后的所述视锥体内的点云，提取得到所述目标的空间位置信息。
一种目标检测装置，其特征在于，包括：

获取模块，用于获取环境彩色图及环境深度图；

识别模块，用于对所述环境彩色图进行目标识别，得到目标的类别信息及二维位置信息；

第一提取模块，用于基于所述二维位置信息，在环境点云图中提取出包含所述目标的视锥体，其中，所述环境点云图基于所述环境深度图及所述环境彩色图而生成；

第二提取模块，用于基于已训练的神经网络及所述视锥体，提取得到所述目标的空间位置信息；

输出模块，用于输出所述类别信息及所述空间位置信息。
一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。