WO2020119661A1

WO2020119661A1 - 一种目标检测方法、装置以及行人检测方法、系统

Info

Publication number: WO2020119661A1
Application number: PCT/CN2019/124189
Authority: WO
Inventors: 王磊; 陈嘉豪; 程俊
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2018-12-14
Filing date: 2019-12-10
Publication date: 2020-06-18
Also published as: CN109753885A; CN109753885B

Abstract

本发明提供一种目标检测方法、装置以及行人检测方法、系统，属于目标检测技术领域。通过获取图像的三维点云数据，根据所述点云数据划分栅格，并获取每个栅格对应的三维坐标，提取栅格的第一特征向量；根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；根据所述第三特征张量，提取目标。本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作的方法，其能提取到更为精细的目标形状信息，从而实现更精确的目标提取。

Description

一种目标检测方法、装置以及行人检测方法、系统

技术领域

本发明涉及目标检测技术领域，尤其涉及一种目标检测方法、装置以及行人检测方法、系统。

背景技术

无人驾驶正成为人工智能领域最炙手可热的技术，得益于深度学习技术的突破性进展，无人驾驶技术也正趋于成熟，而无人驾驶中对于路边行人的检测对于整个驾驶的安全性显得尤为重要。

现有技术中检测行人目标，行之有效的方法都是在图像上提取精细的特征，再用该特征做后续的分类、分割等任务。按照特征提取方式的不同，目标检测技术可分为传统方法以及深度学习方法：其中，传统方法主要使用人工设计的特征，比如基于原始图像特征的尺度不变特征变换方法，针对点云或者特定的颜色、形状和几何特征的旋转图像方法，基于原始图像特征的尺度不变特征变换、加速稳健特征和方向梯度直方图方法等是基于人工设计特征提取和表达的方法，这类方法需要人工根据先验信息来设计特征、识别率不高。深度学习方法主要是利用深度网络提取深层次的特征，再结合低层次的特征来做分类、分割等任务。利用深度学习方法，处理目标检测任务的主流且有效的基本思路是拆分成目标分割(instance segmentation)和目标分类两个子任务，前者一般是基于区域候选网络(region proposal network)，这种网络目的在于生成矩形框来缩小目标范围，而后者则一般应用卷积神经网络，对于前者分割得到的局部图像对目标分类，识别出它是哪种类别的物体。

目前，无人驾驶已可以很好地实现简单的驾驶任务，然而，其处理复杂路况、复杂目标的能力还有很大的提升空间，现有技术中无人驾驶仍然不能完全检测出周边的物体并归类，即使是深度学习方法，其通用性、适用范围还有待提高，并不能保证所有无人驾驶过程中所有任务都爆出高精度检测，尤其是在面对密集的人群时，现有技术中检测人群中每个人位置的精度还远远不足。

发明内容

有鉴于此，本发明提供了一种目标检测方法、装置以及行人检测方法、系统，用以解决现有的针对无人驾驶场景下行人目标识别精度不高的技术问题。

本发明的技术方案如下：

根据本申请的第一方面，提出了一种目标检测方法，包括：

获取图像的三维点云数据，根据所述点云数据划分栅格，并获取每个栅格对应的三维坐标，提取栅格的第一特征向量；

根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；

根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；

根据所述第三特征张量，提取目标。

相应的，所述提取栅格的第一特征向量，包括：

(1)全连接层：根据栅格内点列向量生成的第一栅格矩阵，经过全连接层，生成全连接栅格特征；

(2)最大池化操作：对所述全连接栅格特征执行最大池化操作，提取栅格局部特征；

(3)首尾连接所述栅格局部特征、全连接栅格特征，组成第一子特征向量；

(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作，生成所述第一特征向量。

相应的，所述第二特征张量为一四维特征张量；

所述根据所述点云数据划分栅格，包括：所述点云数据划分为统一大小的栅格。

相应的，根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量，包括：

(1)固定第二特征张量任意一个通道，得到三维张量S∈R _{D′×H′×W′}；所述D′，H′，W′分别为栅格在三维坐标上的个数；

(2)对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作：

其中，F为卷积核，s _i，j，k为第二特征张量S在(i，j，k)位置上的元素，S ¹为卷积得到的第三特征张量，

为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

相应的，所述根据所述第三特征张量提取目标，包括：

将所述第三特征张量输入到区域候选网络，生成多个区域候选框；

获取所述多个区域候选框与真实的目标框的重叠比例大小，将重叠比例最高区域候选框的确定为最后目标检测的结果。

根据本申请的第二方面，提出了一种目标检测装置，包括：

栅格特征提取器，获取图像的三维点云数据，根据所述点云数据划分栅格，并获取每个栅格对应的三维坐标，提取栅格的第一特征向量；

生成模块，根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；

三视图卷积层，根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；

提取模块，根据所述第三特征张量，提取目标。

相应的，所述栅格特征提取器，包括：

全连接层模块：根据栅格内点列向量生成的第一栅格矩阵，经过全连接层，生成全连接栅格特征；

最大池化操作模块：对所述全连接栅格特征执行最大池化操作，提取栅格局部特征；

首尾连接模块，首尾连接所述栅格局部特征、全连接栅格特征，组成第一子特征向量；

栅格特征生成模块，根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作，生成所述第一特征向量。

相应的，所述第二特征张量为一四维特征张量；

所述栅格特征提取器，包括：将所述点云数据划分为统一大小的栅格。

相应的，所述三视图卷积层包括：

为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

相应的，所述提取模块包括：

区域候选模块，将所述第三特征张量输入到区域候选网络，生成多个区域候选框；

目标确定模块，获取所述多个区域候选框与真实的目标框的重叠比例大小，将重叠比例最高区域候选框的确定为最后目标检测的结果。

根据本申请的第三方面，提出了一种行人检测方法，所述方法应用于无人驾驶场景，所述方法包括上述相应的任意一项所述的目标检测方法，所述行人设定为检测目标。

根据本申请的第四方面，提出了一种行人检测系统，所述系统应用于无人驾驶场景，所述系统包括上述相应的任意一项所述的目标检测装置，所述行人设定为检测目标。

由以上技术方案可见，本申请在针对无人驾驶场景下行人目标识别精度不高的技术问题，该方法首先将点云所在的三维空间分割成一个个的栅格，再将每个栅格里的点通过栅格特征提取器，整合成一个特征向量，紧接着结合这些栅格的三维坐标信息，将一幅图的点云数据融合成一个四维的第二特征张量；其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时，本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作的方法，其能提取到更为精细的目标形状信息，从而实现更精确的目标提取。

附图说明

图1为本发明实施例一的目标检测方法流程图；

图2为本发明实施例一的目标检测方法中所述提取栅格的第一特征向量的流程图；

图3为本发明实施例一的三视图卷积效果图；

图4为本发明实施例一的区域候选网络结构图；

图5为本发明实施例二的目标检测装置结构；

图6为本发明实施例二的栅格特征提取器结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例一种目标检测方法，包括：

相应的，栅格特征提取，通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W，栅格三个维度为v _D，v _H，v _W，划分三维空间为统一大小的栅格之后，可得到

为栅格在三坐标上的个数。

如图2所示，所述提取栅格的第一特征向量，包括：

相应的，每个栅格内的点经过栅格特征编码层：首先每个点是由三坐标组成的三维向量，这些向量经过全连接层，转换为进一步的特征：

Y＝W _YX

其中W _Y为全连接层的权重矩阵，X为栅格内点列向量组成的矩阵，Y∈R ^m×n；为进一步的特征。

相应的，再通过最大池化操作提取局部特征：

相应地，该局部特征Y _L与上一步的特征Y首尾连接起来，组成特征向量：

经过栅格特征编码层之后，特征向量Y _C再次经过全连接层和最大池化操作：

如此，每个栅格都可以表示成一个m维向量。

本实施，根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；所述第二特征张量为一四维特征张量；

具体地，通过结合每个栅格的三维坐标信息，点云空间即表示成一个4维的特征张量T∈R ^{m×D′×H′×W′}。

本实施，根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；

所述根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量，包括：

为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

相应的，三视图卷积层是用作中间隐藏层，用于提取更为精细且更抽象的特征。三视图包括前视图、侧视图、俯视图，对于特征张量来讲，除去作为通道的维度，三视图卷积在其余三个维度上同时进行二维卷积核的滑动，固定特征张量T任意一个通道，得到一个三维张量S∈R ^{D′×H′×W′}，以俯视图卷积为例：

其中，W为卷积核，s _i，j，k为特征张量S在(i，j，k)位置上的元素，S ¹为卷积得到的张量，

为特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

三视图卷积各自提取到相同维度大小的特征张量T ¹,T ²,T ³∈R ^{C×D′×H′×W′}然后将这三个张量在连接通道维度之后整合成一个特征张量T ^C∈R ^{3C×D′×H′×W′}

如图3所示，三视图卷积对于三维卷积的改进在于，三维卷积是用三维的滤波器对四维张量做卷积操作，其滑动的方式是在深度、高度、宽度三个维度上进行滑动，而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动，并且还会在垂直于滑动面的方向上进行移动，保证得到三个视图的相同大小维度的特征张量。

根据所述第三特征张量，提取目标。所述根据所述第三特征张量提取目标，包括：

具体地，经过了两次三视图卷积层之后，提取到的特征输入到区域候选网络里，用于生成多个区域候选框，这些框标示了目标的位置和大小，并且根据其与真实的框重叠部分的比例大小判断这些框的优劣，分数最高即重叠比例最高的作为最后检测的结果。

本实施例，如图4所示，区域候选网络是一个编码-解码框架，编码部分由卷积层堆叠组成，相对的，解码部分则由反卷积层堆叠组成。其中，Conv2D表示2维卷积，Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征，该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率，而回归图则用于确定候选框的大小及位置。

对于三视图卷积层提取到的特征，该特征为4维张量，将代表通道数的维度和深度的维度合成一个维度，新的维度则作为通道数，因此该特征调整为三维的特征。该三维特征也是多张二维特征图的叠加，而特征图的数量就是通道数。由于原始图片上面的物体(车，人)都有对应的3维框信息作为标签，目标检测任务的最终目的也是框出图片中的所有目标，因此,区域候选网络即是通过输入的这些特征图来生成目标区域的框。

本实施例，具体地，每张特征图维度为H′×W′，特征图经过如图4所示的区域候选网络，前半部分为编码部分，由二维卷积(Conv2D)组成，一步步下采样得到编码信息；后半部分为解码部分，由二维反卷积(Deconv2D)组成，将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外，还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征，紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。

回归图维度为14×(H′/2)×(W′/2)，第一个维度表示目标包围框的坐标、宽度、高度等参数信息，而概率分数图维度为2×(H′/2)×(W′/2)，第一个维度表示该点在回归图上对应的点的目标包围框包含了目标的概率分数，以及包含的不是目标的概率分数。结合回归图、概率分数图就可以得到包含目标的概率分数最高的候选框，作为区域候选网络最终预测的目标包围框。

实施例二

如图4所示，本发明实施例一种目标检测装置，包括：

相应的，栅格特征提取器，通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W，栅格三个维度为v _D，v _H，v _W，划分三维空间为统一大小的栅格之后，可得到

为栅格在三坐标上的个数。

如图6所示，为本实施的栅格特征提取器，包括：

Y＝W _YX

其中W _Y为全连接层的权重矩阵，X为栅格内点列向量组成的矩阵，Y∈R _m×n为进一步的特征。

相应的，再通过最大池化操作提取局部特征：

如此，每个栅格都可以表示成一个m维向量。

生成模块，根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；所述第二特征张量为一四维特征张量；

相应的，所述三视图卷积层，包括：

为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

为特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。

本实施，通过三视图卷积对于三维卷积的改进在于，三维卷积是用三维的滤波器对四维张量做卷积操作，其滑动的方式是在深度、高度、宽度三个维度上进行滑动，而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动，并且还会在垂直于滑动面的方向上进行移动，保证得到三个视图的相同大小维度的特征张量。

提取模块，根据所述第三特征张量，提取目标。

相应地，所述提取模块包括：区域候选模块，将所述第三特征张量输入到区域候选网络，生成多个区域候选框；目标确定模块，获取所述多个区域候选框与真实的目标框的重叠比例大小，将重叠比例最高区域候选框的确定为最后目标检测的结果。

本实施例，区域候选网络是一个编码-解码框架，编码部分由卷积层堆叠组成，相对的，解码部分则由反卷积层堆叠组成。

如图4所示，区域候选网络是一个编码-解码框架，编码部分由卷积层堆叠组成，相对的，解码部分则由反卷积层堆叠组成。其中，Conv2D表示2维卷积，Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征，该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率，而回归图则用于确定候选框的大小及位置。

具体地，每张特征图维度为H′×W′，特征图经过如图4所示的区域候选网络，前半部分为编码部分，由二维卷积(Conv2D)组成，一步步下采样得到编码信息；后半部分为解码部分，由二维反卷积(Deconv2D)组成，将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外，还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征，紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。

实施例三

本实施提供一种行人检测方法，所述方法应用于无人驾驶场景，所述方法包括使用上述实施例一实施的所述的目标检测方法，其中，将所述行人设定为检测目标，实现所述目标的检测实施。

实施例四

本实施提供一种行人检测系统，所述系统应用于无人驾驶场景，所述系统包括使用上述实施例一实施的所述的目标检测装置，其中，将所述行人设定为检测目标，实现所述目标的检测实施。

本发明上述实施例实施的目标检测方法、装置以及行人检测方法、系统，通过将点云所在的三维空间分割成一个个的栅格，再将每个栅格里的点通过栅格特征提取器，整合成一个特征向量，紧接着结合这些栅格的三维坐标信息，将一幅图的点云数据融合成一个四维的第二特征张量；其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时，本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作的方法，其能提取到更为精细的目标形状信息，从而实现更精确的目标提取。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种目标检测方法，其特征在于，包括：

获取图像的三维点云数据，根据所述点云数据划分栅格，并获取每个栅格对应的三维坐标，提取栅格的第一特征向量；

根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；

根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；

根据所述第三特征张量，提取目标。
根据权利要求1所述的目标检测方法，其特征在于，所述提取栅格的第一特征向量，包括：

(1)全连接层：根据栅格内点列向量生成的第一栅格矩阵，经过全连接层，生成全连接栅格特征；

(2)最大池化操作：对所述全连接栅格特征执行最大池化操作，提取栅格局部特征；

(3)首尾连接所述栅格局部特征、全连接栅格特征，组成第一子特征向量；

(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作，生成所述第一特征向量。
根据权利要求1所述的目标检测方法，其特征在于，所述第二特征张量为一四维特征张量；

所述根据所述点云数据划分栅格，包括：所述点云数据划分为统一大小的栅格。
根据权利要求1所述的目标检测方法，其特征在于，根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量，包括：

(1)固定第二特征张量任意一个通道，得到三维张量S∈R _{D′×H′×W′}；所述D′，H′，W′分别为栅格在三维坐标上的个数；

(2)对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作：

其中，F为卷积核，s _i，j，k为第二特征张量S在(i，j，k)位置上的元素，S ¹为卷积得到的第三特征张量，
为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。
根据权利要求4所述的目标检测方法，其特征在于，所述根据所述第三特征张量提取目标，包括：

将所述第三特征张量输入到区域候选网络，生成多个区域候选框；

获取所述多个区域候选框与真实的目标框的重叠比例大小，将重叠比例最高区域候选框的确定为最后目标检测的结果。
一种目标检测装置，其特征在于，包括：

栅格特征提取器，获取图像的三维点云数据，根据所述点云数据划分栅格，并获取每个栅格对应的三维坐标，提取栅格的第一特征向量；

生成模块，根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量；三视图卷积层，根据第二特征张量进行三视图卷积，获得三个视图的相同大小维度的第三特征张量；所述三视图包括前视图、侧视图、俯视图；

提取模块，根据所述第三特征张量，提取目标。
根据权利要求6所述的目标检测装置，其特征在于，所述栅格特征提取器，包括：

全连接层模块：根据栅格内点列向量生成的第一栅格矩阵，经过全连接层，生成全连接栅格特征；

最大池化操作模块：对所述全连接栅格特征执行最大池化操作，提取栅格局部特征；

首尾连接模块，首尾连接所述栅格局部特征、全连接栅格特征，组成第一子特征向量；

栅格特征生成模块，根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作，生成所述第一特征向量。
根据权利要求6所述的目标检测装置，其特征在于，所述第二特征张量为一四维特征张量；

所述栅格特征提取器，包括：将所述点云数据划分为统一大小的栅格。
根据权利要求6所述的目标检测装置，其特征在于，所述三视图卷积层包括：

(1)固定第二特征张量任意一个通道，得到三维张量S∈R _{D′×H′×W′}；所述D′，H′， W′分别为栅格在三维坐标上的个数；

(2)对应于前视图、侧视图、俯视图三视图，对前垂直面、侧垂直面、水平面，执行卷积操作：

其中，F为卷积核，s _i，j，k为第二特征张量S在(i，j，k)位置上的元素，S ¹为卷积得到的第三特征张量，
为第三特征张量S ¹在(i，j，k)位置上的元素，⊙表示点乘。
根据权利要求9所述的目标检测装置，其特征在于，所述提取模块包括：区域候选模块，将所述第三特征张量输入到区域候选网络，生成多个区域候选框；目标确定模块，获取所述多个区域候选框与真实的目标框的重叠比例大小，将重叠比例最高区域候选框的确定为最后目标检测的结果。
一种行人检测方法，所述方法应用于无人驾驶场景，其特征在于，所述方法包括权利要求1-5任意一项所述的目标检测方法，所述行人设定为检测目标。
一种行人检测系统，所述系统应用于无人驾驶场景，其特征在于，所述系统包括权利要求6-10任意一项所述的目标检测装置，所述行人设定为检测目标。