WO2020119661A1 - 一种目标检测方法、装置以及行人检测方法、系统 - Google Patents

一种目标检测方法、装置以及行人检测方法、系统 Download PDF

Info

Publication number
WO2020119661A1
WO2020119661A1 PCT/CN2019/124189 CN2019124189W WO2020119661A1 WO 2020119661 A1 WO2020119661 A1 WO 2020119661A1 CN 2019124189 W CN2019124189 W CN 2019124189W WO 2020119661 A1 WO2020119661 A1 WO 2020119661A1
Authority
WO
WIPO (PCT)
Prior art keywords
grid
feature
tensor
view
target
Prior art date
Application number
PCT/CN2019/124189
Other languages
English (en)
French (fr)
Inventor
王磊
陈嘉豪
程俊
Original Assignee
中国科学院深圳先进技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院深圳先进技术研究院 filed Critical 中国科学院深圳先进技术研究院
Publication of WO2020119661A1 publication Critical patent/WO2020119661A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法、装置以及行人检测方法、系统,属于目标检测技术领域。通过获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;根据所述第三特征张量,提取目标。本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。

Description

一种目标检测方法、装置以及行人检测方法、系统 技术领域
本发明涉及目标检测技术领域,尤其涉及一种目标检测方法、装置以及行人检测方法、系统。
背景技术
无人驾驶正成为人工智能领域最炙手可热的技术,得益于深度学习技术的突破性进展,无人驾驶技术也正趋于成熟,而无人驾驶中对于路边行人的检测对于整个驾驶的安全性显得尤为重要。
现有技术中检测行人目标,行之有效的方法都是在图像上提取精细的特征,再用该特征做后续的分类、分割等任务。按照特征提取方式的不同,目标检测技术可分为传统方法以及深度学习方法:其中,传统方法主要使用人工设计的特征,比如基于原始图像特征的尺度不变特征变换方法,针对点云或者特定的颜色、形状和几何特征的旋转图像方法,基于原始图像特征的尺度不变特征变换、加速稳健特征和方向梯度直方图方法等是基于人工设计特征提取和表达的方法,这类方法需要人工根据先验信息来设计特征、识别率不高。深度学习方法主要是利用深度网络提取深层次的特征,再结合低层次的特征来做分类、分割等任务。利用深度学习方法,处理目标检测任务的主流且有效的基本思路是拆分成目标分割(instance segmentation)和目标分类两个子任务,前者一般是基于区域候选网络(region proposal network),这种网络目的在于生成矩形框来缩小目标范围,而后者则一般应用卷积神经网络,对于前者分割得到的局部图像对目标分类,识别出它是哪种类别的物体。
目前,无人驾驶已可以很好地实现简单的驾驶任务,然而,其处理复杂路况、复杂目标的能力还有很大的提升空间,现有技术中无人驾驶仍然不能完全检测出周边的物体并归类,即使是深度学习方法,其通用性、适用范围还有待提高,并不能保证所有无人驾驶过程中所有任务都爆出高精度检测,尤其是在面对密集的人群时,现有技术中检测人群中每个人位置的精度还远远不足。
发明内容
有鉴于此,本发明提供了一种目标检测方法、装置以及行人检测方法、系统,用以解决现有的针对无人驾驶场景下行人目标识别精度不高的技术问题。
本发明的技术方案如下:
根据本申请的第一方面,提出了一种目标检测方法,包括:
获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
根据所述第三特征张量,提取目标。
相应的,所述提取栅格的第一特征向量,包括:
(1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
(2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
(3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
相应的,所述第二特征张量为一四维特征张量;
所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
相应的,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
Figure PCTCN2019124189-appb-000001
其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得 到的第三特征张量,
Figure PCTCN2019124189-appb-000002
为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,所述根据所述第三特征张量提取目标,包括:
将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
根据本申请的第二方面,提出了一种目标检测装置,包括:
栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
提取模块,根据所述第三特征张量,提取目标。
相应的,所述栅格特征提取器,包括:
全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
相应的,所述第二特征张量为一四维特征张量;
所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
相应的,所述三视图卷积层包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
Figure PCTCN2019124189-appb-000003
其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的第三特征张量,
Figure PCTCN2019124189-appb-000004
为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,所述提取模块包括:
区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
根据本申请的第三方面,提出了一种行人检测方法,所述方法应用于无人驾驶场景,所述方法包括上述相应的任意一项所述的目标检测方法,所述行人设定为检测目标。
根据本申请的第四方面,提出了一种行人检测系统,所述系统应用于无人驾驶场景,所述系统包括上述相应的任意一项所述的目标检测装置,所述行人设定为检测目标。
由以上技术方案可见,本申请在针对无人驾驶场景下行人目标识别精度不高的技术问题,该方法首先将点云所在的三维空间分割成一个个的栅格,再将每个栅格里的点通过栅格特征提取器,整合成一个特征向量,紧接着结合这些栅格的三维坐标信息,将一幅图的点云数据融合成一个四维的第二特征张量;其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时,本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。
附图说明
图1为本发明实施例一的目标检测方法流程图;
图2为本发明实施例一的目标检测方法中所述提取栅格的第一特征向量的流程图;
图3为本发明实施例一的三视图卷积效果图;
图4为本发明实施例一的区域候选网络结构图;
图5为本发明实施例二的目标检测装置结构;
图6为本发明实施例二的栅格特征提取器结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例一种目标检测方法,包括:
获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
相应的,栅格特征提取,通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W,栅格三个维度为v D,v H,v W,划分三维空间为统一大小的栅格之后,可得到
Figure PCTCN2019124189-appb-000005
为栅格在三坐标上的个数。
如图2所示,所述提取栅格的第一特征向量,包括:
(1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
相应的,每个栅格内的点经过栅格特征编码层:首先每个点是由三坐标组成的三维向量,这些向量经过全连接层,转换为进一步的特征:
Figure PCTCN2019124189-appb-000006
Figure PCTCN2019124189-appb-000007
Y=W YX
其中W Y为全连接层的权重矩阵,X为栅格内点列向量组成的矩阵,Y∈R m×n;为进一步的特征。
(2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
相应的,再通过最大池化操作提取局部特征:
Figure PCTCN2019124189-appb-000008
Figure PCTCN2019124189-appb-000009
(3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
相应地,该局部特征Y L与上一步的特征Y首尾连接起来,组成特征向量:
Figure PCTCN2019124189-appb-000010
(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
经过栅格特征编码层之后,特征向量Y C再次经过全连接层和最大池化操作:
Figure PCTCN2019124189-appb-000011
Figure PCTCN2019124189-appb-000012
如此,每个栅格都可以表示成一个m维向量。
本实施,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量; 所述第二特征张量为一四维特征张量;
具体地,通过结合每个栅格的三维坐标信息,点云空间即表示成一个4维的特征张量T∈R m×D′×H′×W′
本实施,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
所述根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
Figure PCTCN2019124189-appb-000013
其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的第三特征张量,
Figure PCTCN2019124189-appb-000014
为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,三视图卷积层是用作中间隐藏层,用于提取更为精细且更抽象的特征。三视图包括前视图、侧视图、俯视图,对于特征张量来讲,除去作为通道的维度,三视图卷积在其余三个维度上同时进行二维卷积核的滑动,固定特征张量T任意一个通道,得到一个三维张量S∈R D′×H′×W′,以俯视图卷积为例:
Figure PCTCN2019124189-appb-000015
Figure PCTCN2019124189-appb-000016
其中,W为卷积核,s i,j,k为特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的张量,
Figure PCTCN2019124189-appb-000017
为特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
三视图卷积各自提取到相同维度大小的特征张量T 1,T 2,T 3∈R C×D′×H′×W′然后将这三个张量在连接通道维度之后整合成一个特征张量T C∈R 3C×D′×H′×W′
如图3所示,三视图卷积对于三维卷积的改进在于,三维卷积是用三维的滤波器对四维张量做卷积操作,其滑动的方式是在深度、高度、宽度三个维度上进行滑动,而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动,并且还会在垂直于滑动面的方向上进行移动,保证得到三个视图的相同大小维度的特征张量。
根据所述第三特征张量,提取目标。所述根据所述第三特征张量提取目标,包括:
将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
具体地,经过了两次三视图卷积层之后,提取到的特征输入到区域候选网络里,用于生成多个区域候选框,这些框标示了目标的位置和大小,并且根据其与真实的框重叠部分的比例大小判断这些框的优劣,分数最高即重叠比例最高的作为最后检测的结果。
本实施例,如图4所示,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠组成,相对的,解码部分则由反卷积层堆叠组成。其中,Conv2D表示2维卷积,Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征,该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率,而回归图则用于确定候选框的大小及位置。
对于三视图卷积层提取到的特征,该特征为4维张量,将代表通道数的维度和深度的维度合成一个维度,新的维度则作为通道数,因此该特征调整为三维的特征。该三维特征也是多张二维特征图的叠加,而特征图的数量就是通道数。由 于原始图片上面的物体(车,人)都有对应的3维框信息作为标签,目标检测任务的最终目的也是框出图片中的所有目标,因此,区域候选网络即是通过输入的这些特征图来生成目标区域的框。
本实施例,具体地,每张特征图维度为H′×W′,特征图经过如图4所示的区域候选网络,前半部分为编码部分,由二维卷积(Conv2D)组成,一步步下采样得到编码信息;后半部分为解码部分,由二维反卷积(Deconv2D)组成,将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外,还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征,紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。
回归图维度为14×(H′/2)×(W′/2),第一个维度表示目标包围框的坐标、宽度、高度等参数信息,而概率分数图维度为2×(H′/2)×(W′/2),第一个维度表示该点在回归图上对应的点的目标包围框包含了目标的概率分数,以及包含的不是目标的概率分数。结合回归图、概率分数图就可以得到包含目标的概率分数最高的候选框,作为区域候选网络最终预测的目标包围框。
实施例二
如图4所示,本发明实施例一种目标检测装置,包括:
栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
相应的,栅格特征提取器,通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W,栅格三个维度为v D,v H,v W,划分三维空间为统一大小的栅格之后,可得到
Figure PCTCN2019124189-appb-000018
为栅格在三坐标上的个数。
如图6所示,为本实施的栅格特征提取器,包括:
全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
相应的,每个栅格内的点经过栅格特征编码层:首先每个点是由三坐标组成的三维向量,这些向量经过全连接层,转换为进一步的特征:
Figure PCTCN2019124189-appb-000019
Figure PCTCN2019124189-appb-000020
Y=W YX
其中W Y为全连接层的权重矩阵,X为栅格内点列向量组成的矩阵,Y∈R m×n为进一步的特征。
最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
相应的,再通过最大池化操作提取局部特征:
Figure PCTCN2019124189-appb-000021
Figure PCTCN2019124189-appb-000022
首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
相应地,该局部特征Y L与上一步的特征Y首尾连接起来,组成特征向量:
Figure PCTCN2019124189-appb-000023
栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
经过栅格特征编码层之后,特征向量Y C再次经过全连接层和最大池化操作:
Figure PCTCN2019124189-appb-000024
Figure PCTCN2019124189-appb-000025
如此,每个栅格都可以表示成一个m维向量。
生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;所述第二特征张量为一四维特征张量;
具体地,通过结合每个栅格的三维坐标信息,点云空间即表示成一个4维的特征张量T∈R m×D′×H′×W′
三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
相应的,所述三视图卷积层,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
Figure PCTCN2019124189-appb-000026
其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的第三特征张量,
Figure PCTCN2019124189-appb-000027
为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,三视图卷积层是用作中间隐藏层,用于提取更为精细且更抽象的特征。三视图包括前视图、侧视图、俯视图,对于特征张量来讲,除去作为通道的维度,三视图卷积在其余三个维度上同时进行二维卷积核的滑动,固定特征张量T任意一个通道,得到一个三维张量S∈R D′×H′×W′,以俯视图卷积为例:
Figure PCTCN2019124189-appb-000028
Figure PCTCN2019124189-appb-000029
其中,W为卷积核,s i,j,k为特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的张量,
Figure PCTCN2019124189-appb-000030
为特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
三视图卷积各自提取到相同维度大小的特征张量T 1,T 2,T 3∈R C×D′×H′×W′然后将这三个张量在连接通道维度之后整合成一个特征张量T C∈R 3C×D′×H′×W′
本实施,通过三视图卷积对于三维卷积的改进在于,三维卷积是用三维的滤波器对四维张量做卷积操作,其滑动的方式是在深度、高度、宽度三个维度上进行滑动,而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动,并且还会在垂直于滑动面的方向上进行移动,保证得到三个视图的相同大小维度的特征张量。
提取模块,根据所述第三特征张量,提取目标。
相应地,所述提取模块包括:区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
具体地,经过了两次三视图卷积层之后,提取到的特征输入到区域候选网络里,用于生成多个区域候选框,这些框标示了目标的位置和大小,并且根据其与真实的框重叠部分的比例大小判断这些框的优劣,分数最高即重叠比例最高的作为最后检测的结果。
本实施例,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠组成,相对的,解码部分则由反卷积层堆叠组成。
如图4所示,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠 组成,相对的,解码部分则由反卷积层堆叠组成。其中,Conv2D表示2维卷积,Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征,该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率,而回归图则用于确定候选框的大小及位置。
对于三视图卷积层提取到的特征,该特征为4维张量,将代表通道数的维度和深度的维度合成一个维度,新的维度则作为通道数,因此该特征调整为三维的特征。该三维特征也是多张二维特征图的叠加,而特征图的数量就是通道数。由于原始图片上面的物体(车,人)都有对应的3维框信息作为标签,目标检测任务的最终目的也是框出图片中的所有目标,因此,区域候选网络即是通过输入的这些特征图来生成目标区域的框。
具体地,每张特征图维度为H′×W′,特征图经过如图4所示的区域候选网络,前半部分为编码部分,由二维卷积(Conv2D)组成,一步步下采样得到编码信息;后半部分为解码部分,由二维反卷积(Deconv2D)组成,将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外,还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征,紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。
回归图维度为14×(H′/2)×(W′/2),第一个维度表示目标包围框的坐标、宽度、高度等参数信息,而概率分数图维度为2×(H′/2)×(W′/2),第一个维度表示该点在回归图上对应的点的目标包围框包含了目标的概率分数,以及包含的不是目标的概率分数。结合回归图、概率分数图就可以得到包含目标的概率分数最高的候选框,作为区域候选网络最终预测的目标包围框。
实施例三
本实施提供一种行人检测方法,所述方法应用于无人驾驶场景,所述方法包括使用上述实施例一实施的所述的目标检测方法,其中,将所述行人设定为检测目标,实现所述目标的检测实施。
实施例四
本实施提供一种行人检测系统,所述系统应用于无人驾驶场景,所述系统包 括使用上述实施例一实施的所述的目标检测装置,其中,将所述行人设定为检测目标,实现所述目标的检测实施。
本发明上述实施例实施的目标检测方法、装置以及行人检测方法、系统,通过将点云所在的三维空间分割成一个个的栅格,再将每个栅格里的点通过栅格特征提取器,整合成一个特征向量,紧接着结合这些栅格的三维坐标信息,将一幅图的点云数据融合成一个四维的第二特征张量;其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时,本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

  1. 一种目标检测方法,其特征在于,包括:
    获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
    根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
    根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
    根据所述第三特征张量,提取目标。
  2. 根据权利要求1所述的目标检测方法,其特征在于,所述提取栅格的第一特征向量,包括:
    (1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
    (2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
    (3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
    (4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
  3. 根据权利要求1所述的目标检测方法,其特征在于,所述第二特征张量为一四维特征张量;
    所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
  4. 根据权利要求1所述的目标检测方法,其特征在于,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
    (1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
    (2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
    Figure PCTCN2019124189-appb-100001
    其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得到 的第三特征张量,
    Figure PCTCN2019124189-appb-100002
    为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
  5. 根据权利要求4所述的目标检测方法,其特征在于,所述根据所述第三特征张量提取目标,包括:
    将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
    获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
  6. 一种目标检测装置,其特征在于,包括:
    栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
    生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
    提取模块,根据所述第三特征张量,提取目标。
  7. 根据权利要求6所述的目标检测装置,其特征在于,所述栅格特征提取器,包括:
    全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
    最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
    首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
    栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
  8. 根据权利要求6所述的目标检测装置,其特征在于,所述第二特征张量为一四维特征张量;
    所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
  9. 根据权利要求6所述的目标检测装置,其特征在于,所述三视图卷积层包括:
    (1)固定第二特征张量任意一个通道,得到三维张量S∈R D′×H′×W′;所述D′,H′, W′分别为栅格在三维坐标上的个数;
    (2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
    Figure PCTCN2019124189-appb-100003
    其中,F为卷积核,s i,j,k为第二特征张量S在(i,j,k)位置上的元素,S 1为卷积得到的第三特征张量,
    Figure PCTCN2019124189-appb-100004
    为第三特征张量S 1在(i,j,k)位置上的元素,⊙表示点乘。
  10. 根据权利要求9所述的目标检测装置,其特征在于,所述提取模块包括:区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
  11. 一种行人检测方法,所述方法应用于无人驾驶场景,其特征在于,所述方法包括权利要求1-5任意一项所述的目标检测方法,所述行人设定为检测目标。
  12. 一种行人检测系统,所述系统应用于无人驾驶场景,其特征在于,所述系统包括权利要求6-10任意一项所述的目标检测装置,所述行人设定为检测目标。
PCT/CN2019/124189 2018-12-14 2019-12-10 一种目标检测方法、装置以及行人检测方法、系统 WO2020119661A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811537033.4 2018-12-14
CN201811537033.4A CN109753885B (zh) 2018-12-14 2018-12-14 一种目标检测方法、装置以及行人检测方法、系统

Publications (1)

Publication Number Publication Date
WO2020119661A1 true WO2020119661A1 (zh) 2020-06-18

Family

ID=66403796

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/124189 WO2020119661A1 (zh) 2018-12-14 2019-12-10 一种目标检测方法、装置以及行人检测方法、系统

Country Status (2)

Country Link
CN (1) CN109753885B (zh)
WO (1) WO2020119661A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832471A (zh) * 2020-07-10 2020-10-27 北京经纬恒润科技有限公司 一种物体识别方法及装置
CN112001226A (zh) * 2020-07-07 2020-11-27 中科曙光(南京)计算技术有限公司 一种无人驾驶3d目标检测方法、装置及存储介质
CN112183393A (zh) * 2020-09-30 2021-01-05 深兰人工智能(深圳)有限公司 激光雷达点云目标检测方法、系统及装置
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN113506372A (zh) * 2021-07-26 2021-10-15 西北工业大学 一种环境重建方法及装置
CN117392337A (zh) * 2023-10-11 2024-01-12 中色地科矿产勘查股份有限公司 基于ai的数字化矿产勘查方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753885B (zh) * 2018-12-14 2020-10-16 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN111144242B (zh) * 2019-12-13 2023-09-29 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
CN111079652B (zh) * 2019-12-18 2022-05-13 北京航空航天大学 一种基于点云数据简易编码的3d目标检测方法
CN111476242B (zh) * 2020-03-31 2023-10-20 北京经纬恒润科技股份有限公司 一种激光点云语义分割方法及装置
CN111402256B (zh) * 2020-04-13 2020-10-16 视研智能科技(广州)有限公司 一种基于模板的三维点云目标检测和姿态估计方法
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN112613378B (zh) * 2020-12-17 2023-03-28 上海交通大学 3d目标检测方法、系统、介质及终端
CN113095228B (zh) * 2021-04-13 2024-04-30 地平线(上海)人工智能技术有限公司 图像中的目标检测方法、装置及计算机可读存储介质
CN113705631B (zh) * 2021-08-10 2024-01-23 大庆瑞昂环保科技有限公司 一种基于图卷积的3d点云目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298971A (zh) * 2014-09-28 2015-01-21 北京理工大学 一种3d点云数据中的目标识别方法
WO2018055377A1 (en) * 2016-09-21 2018-03-29 Oxford University Innovation Ltd. A neural network and method of using a neural network to detect objects in an environment
CN108596961A (zh) * 2018-04-17 2018-09-28 浙江工业大学 基于三维卷积神经网络的点云配准方法
CN108764024A (zh) * 2018-04-09 2018-11-06 平安科技(深圳)有限公司 人脸识别模型的生成装置、方法及计算机可读存储介质
CN109753885A (zh) * 2018-12-14 2019-05-14 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172227A1 (en) * 2014-05-13 2015-11-19 Pcp Vr Inc. Method, system and apparatus for generation and playback of virtual reality multimedia
GB2537681B (en) * 2015-04-24 2018-04-25 Univ Oxford Innovation Ltd A method of detecting objects within a 3D environment
CN106408650B (zh) * 2016-08-26 2018-12-11 中国人民解放军国防科学技术大学 在轨掠飞成像对空间目标三维重建与测量方法
CN107067015B (zh) * 2016-10-27 2020-09-11 武汉烽火众智数字技术有限责任公司 一种基于多特征深度学习的车辆检测方法及装置
CN107330437B (zh) * 2017-07-03 2021-01-08 贵州大学 基于卷积神经网络目标实时检测模型的特征提取方法
CN107885224A (zh) * 2017-11-06 2018-04-06 北京韦加无人机科技股份有限公司 基于三目立体视觉的无人机避障方法
CN108960288B (zh) * 2018-06-07 2021-05-04 山东师范大学 基于卷积神经网络的三维模型分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298971A (zh) * 2014-09-28 2015-01-21 北京理工大学 一种3d点云数据中的目标识别方法
WO2018055377A1 (en) * 2016-09-21 2018-03-29 Oxford University Innovation Ltd. A neural network and method of using a neural network to detect objects in an environment
CN108764024A (zh) * 2018-04-09 2018-11-06 平安科技(深圳)有限公司 人脸识别模型的生成装置、方法及计算机可读存储介质
CN108596961A (zh) * 2018-04-17 2018-09-28 浙江工业大学 基于三维卷积神经网络的点云配准方法
CN109753885A (zh) * 2018-12-14 2019-05-14 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001226A (zh) * 2020-07-07 2020-11-27 中科曙光(南京)计算技术有限公司 一种无人驾驶3d目标检测方法、装置及存储介质
CN111832471A (zh) * 2020-07-10 2020-10-27 北京经纬恒润科技有限公司 一种物体识别方法及装置
CN111832471B (zh) * 2020-07-10 2024-04-12 北京经纬恒润科技股份有限公司 一种物体识别方法及装置
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN112183393A (zh) * 2020-09-30 2021-01-05 深兰人工智能(深圳)有限公司 激光雷达点云目标检测方法、系统及装置
CN113506372A (zh) * 2021-07-26 2021-10-15 西北工业大学 一种环境重建方法及装置
CN117392337A (zh) * 2023-10-11 2024-01-12 中色地科矿产勘查股份有限公司 基于ai的数字化矿产勘查方法
CN117392337B (zh) * 2023-10-11 2024-04-05 中色地科矿产勘查股份有限公司 基于ai的数字化矿产勘查方法

Also Published As

Publication number Publication date
CN109753885A (zh) 2019-05-14
CN109753885B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
WO2020119661A1 (zh) 一种目标检测方法、装置以及行人检测方法、系统
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
US9633483B1 (en) System for filtering, segmenting and recognizing objects in unconstrained environments
Ni et al. Visual tracking using neuromorphic asynchronous event-based cameras
JP2020520512A (ja) 車両外観特徴識別及び車両検索方法、装置、記憶媒体、電子デバイス
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN103530619A (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
Wang et al. An overview of 3d object detection
Ardiyanto et al. Partial least squares-based human upper body orientation estimation with combined detection and tracking
Naik et al. Deep-violence: individual person violent activity detection in video
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
Montserrat et al. Logo detection and recognition with synthetic images
CN110751097A (zh) 一种半监督的三维点云手势关键点检测方法
Lee et al. Head and body orientation estimation using convolutional random projection forests
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
CN115797350A (zh) 桥梁病害检测方法、装置、计算机设备和存储介质
Vafadar et al. A vision based system for communicating in virtual reality environments by recognizing human hand gestures
CN104504715A (zh) 基于局部四元数矩特征的图像分割方法
Mahayuddin et al. Moving object detection using semantic convolutional features
Zhao et al. DHA: Lidar and vision data fusion-based on road object classifier
Dilawari et al. Toward generating human-centered video annotations
Kishore et al. A quad joint relational feature for 3D skeletal action recognition with circular CNNs
Dadgostar et al. Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking
Karbasi et al. Real-time hand detection by depth images: A survey

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19894633

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 04.11.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19894633

Country of ref document: EP

Kind code of ref document: A1