WO2023098018A1

WO2023098018A1 - 一种基于多帧点云的运动目标检测系统和方法

Info

Publication number: WO2023098018A1
Application number: PCT/CN2022/098356
Authority: WO
Inventors: 马也驰; 华炜; 冯权; 张顺
Original assignee: 之江实验室
Priority date: 2021-12-02
Filing date: 2022-06-13
Publication date: 2023-06-08
Also published as: US20230351618A1; US11900618B2; CN113870318A; CN113870318B

Abstract

本发明公开了一种基于多帧点云的运动目标检测系统和方法，系统包括体素特征提取模块，将连续帧点云序列进行体素化，并提取特征张量序列；转换模块，对特征张量序列通过跨模态注意力模块进行匹配融合，将第一特征张量与第二特征张量融合，融合的结果再与第三特征张量融合，再将融合后的结果与第四特征张量融合，在以此类推，得到最终融合后的特征张量；跨模态注意力模块，将两个特征张量，根据注意力机制，通过卷积神经网络融合，得到融合后的特征张量；识别模块，对最终融合后的特征张量进行特征提取，输出目标的检测信息。方法包括：S1，构建各系统模块；S2，通过训练集数据，对模型进行训练；S3，通过训练好的模型进行预测。

Description

一种基于多帧点云的运动目标检测系统和方法

技术领域

本发明涉及三维目标检测技术领域，尤其是涉及一种基于多帧点云的运动目标检测系统和方法。

背景技术

现阶段自动驾驶技术应用越来越广泛，感知技术中尤其是基于点云的三维目标检测技术是自动驾驶技术中最重要的任务之一。现阶段效果较佳的基于点云的三维目标检测技术包括论文《Sparsely Embedded Convolutional Detection》、《3D Object Proposal Generation and Detection from Point Cloud》以及专利《一种基于激光点云的三维目标检测系统及其检测方法》、《一种基于点云的三维目标检测方法》等，但上述现有技术存在一下问题：首先上述方法未考虑连续帧点云数据，不但没有预测目标轨迹，而且也影响目标的检测精度；其次上述方法完全依赖于训练数据集的固有类别，即当实际场景中出现训练集没有的类别，会产生目标漏检的现象。

发明内容

为解决现有技术的不足，本发明不但考虑多帧点云数据，并且对运动目标的检测，不强依赖训练集目标的类别，从而实现能够预测目标轨迹、提高检测精度，以及避免漏检的目的，本发明采用如下的技术方案：

一种基于多帧点云的运动目标检测系统，包括体素特征提取模块、转换模块和识别模块，转换模块包括跨模态注意力模块；

所述体素特征提取模块，将连续帧点云序列{Pointcloud[i],0<i<＝N}进行体素化，并提取特征张量序列{F_Base[i],0<i<＝N}，i表示帧索引，N表示帧数；

所述转换模块，获取特征张量序列{F_Base[i],0<i<＝N}，通过跨模态注意力模块，将第一特征张量与第二特征张量进行融合，融合的结果再与第三特征张量融合，再将融合后的结果与第四特征张量融合，在以此类推，得到最终融合后的特征张量F_Base_fusion_seq[N-1,N]；

所述跨模态注意力模块，将两个特征张量，根据注意力机制进行匹配融合，并通过卷积神经网络融合，得到融合后的特征张量；

所述识别模块，对最终融合后的特征张量F_Base_fusion_seq[N-1,N]进行特征提取，输出目标的检测信息。

进一步地，体素特征提取模块根据每帧激光雷达对应的位姿{Pose[i],0<i<＝N}，将连续帧点云序列{Pointcloud[i],0<i<＝N}转换到大地坐标系C_Base上，并对转换后的连续帧点云序列{Pointcloud_Base[i],0<i<＝N}进行体素化，大地坐标系C_Base是相对于大地的固定预设坐标原点的笛卡尔正交坐标系，以第一帧点云数据向前方向为大地坐标系C_Base的X轴正方向，向右方向为大地坐标系C_Base的Y轴正方向，向上方向为大地坐标系C_Base的Z轴正方向。

进一步地，体素化是通过构建体素大小及体素化范围，将每个体素内所有点的均值作为体素化特征，体素化特征大小为C*D*W*H，C表示特征通道数，D表示高度，W表示宽度，H表示长度。

进一步地，提取特征张量是对体素化得到的特征序列{Voxel_Base[i]，0<i<＝N}，通过三维稀疏卷积模块进行特征提取，得到特征张量序列{F_Base[i],0<i<＝N}，三维稀疏卷积模块包括一组子卷积模块，子卷积模块包括三维子流行卷积层、归一化层和Relu层。

进一步地，转换模块将形状大小为C*D*W*H的特征张量F_Base[i]，重塑成大小为C*(D*W*H)的特征张量F_Base_seq[i]，C表示特征通道数，D表示高度，W表示宽度，H表示长度，再对重塑后的特征张量序列{F_Base_seq[i],0<i<＝N}进行匹配融合。

进一步地，所述特征张量序列为{F_Base_seq[i],0<i<＝N}，i表示帧索引，N表示帧数，对序列中的特征张量进行匹配融合，得到融合后的特征张量F_Base_fusion_seq[j,j+1]，j表示帧索引，0<j<＝N，当j＝1时，对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合，当1<j<N时，对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合，输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。

进一步地，跨模态注意力模块的匹配融合如下：

其中，Q_a＝X_a*W_Q和Q_b＝X_b*W_Q分别表示注意力机制中的Query，K_a＝X_a*W_K和K_b＝X_b*W_K分别表示注意力机制中Key，V_a＝X_a*W_V和V_b＝X_b*W_V分别表示注意力机制中Value，X_a和X_b表示待融合的两个特征张量，W_Q、W_K以及*W_V分别表示可训练权重矩阵，d分别表示Q_a与K_b的维度和Q_b与K_a的维度，Trans()为矩阵转置操作，softmax_col()表示矩阵按列进行归一化操作；

再将Y(X_a,X_b)和Y(X_b,X_a)通过卷积神经网络进行融合，得到融合后的特征张量：

Crossmodal Attention(X_a,X_b)＝Conv(Y(X_a,X_b),Y(X_b,X_a))

其中，Conv()表示卷积神经网络。

进一步地，识别模块将最终融合后的特征张量F_Base_fusion_seq[N-1,N]重塑成形状大小为(C*D)W*H的特征张量F_Base_fusion，再对重塑后的特征张量进行特征提取，输出目标的检测信息。

进一步地，识别模块通过一组二维卷积神经网络，分别获取目标中心点在C_Base大地坐标系下的三维坐标hm、目标中心点的运动方向diret、目标中心点偏移量offset、目标中心点预测轨迹trajectory、目标的长宽高dim、目标的高度z和目标的类别信息；训练阶段，目标中心点三维坐标的检测采用Focal_loss损失函数，目标中心点的运动方向的检测，回归其正弦值与余弦值，并采用L1_loss损失函数，目标中心点的偏移量的回归采用L1_Loss损失函数，目标中心点的预测轨迹的回归采用L1_Loss损失函数，目标的长宽高以及目标高度(Z轴坐标)的回归采用SmothL1_loss损失函数，其中不同检测分支的损失分配不同的权重，最终得到训练好的系统。

一种基于多帧点云的运动目标检测方法，包括如下步骤：

S1，构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块；

S2，通过训练集数据，对模型进行训练；

S3，通过训练好的模型进行预测。

本发明的优势和有益效果在于：

本发明通过多帧融合的机制，判断目标的运动状态，从而判断目标采用的运动方式，例如两轮运动、四轮运动、两足运动、四足运动等；当训练数据集中只有人，轿车两种类别，在实际预测中，出现卡车的目标类别时，同样可以通过多帧信息，识别出它是四轮运动，不依赖训练数据集中的固有类别，从而在提高检测精度的同时，避免了目标漏检的现象。

附图说明

图1是本发明的方法流程图。

图2是本发明中稀疏3D_Conv的网络结构示意图。

图3是本发明中卷积神经网络的网络结构示意图。

图4是本发明的系统结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明的实施例采用的kitti数据集，其中，实施例的数据集包括5000段长度为10的连续帧点云数据、点云采集设备激光雷达的位姿以及目标的三维信息标签，其中4000段数据为训练集，1000段数据为验证集。

如图1所示，一种基于多帧点云的运动目标检测系统和方法，包括以下步骤：

第一步：首先构造体素特征提取模块。

输入长度为10的连续帧点云序列{Pointcloud[i]|i为帧索引，0<i<＝10}以及每帧激光雷达传感器的位姿{Pose[i]|i为帧索引，0<i<＝N}。

将长度为10的连续帧点云序列，通过每帧激光雷达的位姿，转换到C_Base坐标系上，得到10帧新的点云序列{Pointcloud_Base[i]|i为帧索引，0<i<＝10}，其中C_Base坐标系为以相对于大地的固定预设坐标原点的笛卡尔正交坐标系，第一帧点云数据向前方向为C_Base坐标系的X轴正方向，向右方向为C_Base坐标系的Y轴正方向，向上方向为C_Base坐标系的Z轴正方向。

对长度为10的连续帧点云序列{Pointcloud_Base[i]|i为帧索引，0<i<＝10}进行体素化，并得到10帧点云体素化后的特征{Voxel_Base[i]|i为帧索引，0<i<＝10}，其中体素化的点云特征序列在X、Y、Z轴的取值范围分别是[0米,70.4米]，[-40米,40米],[-3米,1米]，每个体素的大小为[0.05米,0.05米,0.1米]，每个体素化特征为体素内所有点的均值。体素化后的特征大小为C*D*W*H，C表示特征通道数，D表示高度，W表示宽度，H表示长度，本实施例中的大小为3*40*1600*1408。

对体素化特征序列{Voxel_Base[i]|i为帧索引，0<i<＝10}通过稀疏3D_Conv进行特征提取，得到特征张量序列{F_Base[i]|i为帧索引，0<i<＝10}，形状大小为64*2*200*176，其中稀疏3D_Conv的网络结构如图2所示，包括一组子卷积模块，卷积模块由子流行卷积层、归一化层和Relu层，具体网络参数如下表所示：

F_Base[i]为体素特征提取模块的输出。

第二步，构造Crossmodal_Attention模块。

输入为两个特征张量，X_a和X_b(张量的选取在第三步中设置，第三步是对第二步的调用)。

Crossmodal Attention(X_a,X_b)＝Conv(Y(X_a,X_b),Y(X_b,X_a))

其中Q_a＝X_a*W_Q作为Query，K_b＝X_b*W_K作为Key，V_b＝X_b*W_V作为Value，W_Q、W_K以及*W_V分别为可训练权重矩阵；d为Q_a与K_b的维度；Trans()为矩阵转置函数；softmax_col()为矩阵按列进行归一化操作。

其中Q_b＝X_b*W_Q作为Query，K_a＝X_a*W_K作为Key，V_a＝X_a*W_V作为Value，d为Q_b与K_a的维度；softmax为对向量进行归一化操作。

Conv()为卷积神经网络函数，将Y(X_a,X_b),Y(X_b,X_a)进行Concat再通过1*1卷积神经网络融合，得到特征张量Crossmodal_Attention(X_a,X_b)，形状大小为64*(200*176*2)。

第三步：构造Transformer模块。

输入为长度为10的连续帧特征张量序列{F_Base[i]|i为帧索引，0<i<＝10}。将{F_Base[i]|i为帧索引，0<i<＝10}reshape成形状大小为64*(2*200*176)的特征序列{F_Base_seq[i]|i为帧索引，0<i<＝10}。

使用Crossmodal_Attention对{F_Base[i]|i为帧索引，0<i<＝N}特征序列进行匹配融合。其中当j＝1时，F_Base_fusion_seq[1,2]＝Crossmodal_Attention(F_Base_seq[1],F_Base_seq[2])，当1<j<10时，F_Base_fusion_seq[j,j+1]＝Crossmodal_Attention(F_Base_fusion_seq[j-1,j],F_Base_seq[j+1])，其中，j为帧索引，Crossmodal_Attention为多帧融合模块，特征张量F_Base_fusion_seq[10-1,10]为Transformer模块的输出。

第四步，构造识别模块。

输入为F_Base_fusion_seq[10-1,10]，将其reshape成形状大小为(C*D)*W*H，本实施例中为128*200*176的特征张量F_Base_fusion。使用卷积神经网络对特征张量F_Base_fusion进行特征提取，并输出目标的检测信息，包括目标中心点在C_Base坐标系下的三维坐标hm、目标的长宽高dim、目标中心点的运动方向diret、目标中心点偏移量offset、目标的高度z、目标的类别信息，目标类别信息包括两轮运动、四轮运动、两足运动、四足运动，针对于kitti数据，将轿车划分为四足运动，行人划分为两足运动，骑自行车的人划分为两轮运动。卷积神经网络的网络结构如图3所示，具体网络参数如下表所示：

网络层	卷积核尺寸	步长	填充	通道数	输入尺寸	输出尺寸
Conv2d(hm)	3*3	111	000	64	128200176	4200176
Conv2d(offset)	3*3	111	000	64	128200176	2200176
Conv2d(diret)	3*3	111	000	64	128200176	2200176
Conv2d(z)	3*3	111	000	64	128200176	2200176
Conv2d(dim)	3*3	111	000	64	128200176	3200176

第五步，如图4所示，对各模块进行连接，训练。

使用kitti训练集数据对神经网络进行训练，其中针对于目标中心点的检测采用Focal_loss损失函数，针对目标中心点的运动方向的检测，回归其正弦值与余弦值，并采用L1_loss损失函数，针对目标中心点的偏移量的回归采用L1_Loss损失函数，针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。其中不同检测分支的损失分配不同的权重。最后，得到训练好的模型。

第六步，推理测试。

加载训练好的模型，使用kitti的验证集数据对神经网络进行推理测试。

所述采用本发明实施方案中的基于多帧点云的运动目标检测系统和方法，与现阶段较为流行的基于纯点云的三维目标检测方案PointPillars、PointRCNN、Second相对比，在同样的训练集以及模型参数优化方法下，各自在验证集的各类别指标的3D map比较如下表所示：

	车辆	行人	骑车的人
PointPillars	89.65372	72.65376	86.88952
PointRCNN	94.78256	73.66579	88.63552
Second	93.37265	73.22698	88.98336
Ours	97.34768	80.45791	92.36704

通过上表可以看出，本发明相对于现有的主流方法，在三维目标检测精度上有较大的提升，且本发明的整体效率只降低了15ms，保证了三维目标检测的实时性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

一种基于多帧点云的运动目标检测系统，包括体素特征提取模块、转换模块和识别模块，其特征在于所述转换模块包括跨模态注意力模块；

所述体素特征提取模块，将连续帧点云序列进行体素化，并提取特征张量序列；

所述转换模块，获取特征张量序列，通过跨模态注意力模块，将第一特征张量与第二特征张量进行融合，融合的结果再与第三特征张量融合，再将融合后的结果与第四特征张量融合，在以此类推，得到最终融合后的特征张量；跨模态注意力模块，将两个特征张量，根据注意力机制进行匹配融合，并通过卷积神经网络融合后，得到融合后的特征张量；

所述识别模块，对最终融合后的特征张量进行特征提取，输出目标的检测信息；

跨模态注意力模块的匹配融合如下：

其中，Q_a＝X_a*W_Q和Q_b＝X_b*W_Q分别表示注意力机制中的Query，K_a＝X_a*W_K和K_b＝X_b*W_K分别表示注意力机制中Key，V_a＝X_a*W_V和V_b＝X_b*W_V分别表示注意力机制中Value，X_a和X_b表示待融合的两个特征张量，W_Q、W_K以及W_V分别表示可训练权重矩阵，d分别表示Q_a与K_b的维度和Q_b与K_a的维度，Trans()为矩阵转置操作，softmax_col()表示矩阵按列进行归一化操作；

再将Y(X_a,X_b)和Y(X_b,X_a)通过卷积神经网络进行融合，得到融合后的特征张量：

Crossmodal Attention(X_a,X_b)＝Conv(Y(X_a,X_b),Y(X_b,X_a))

其中，Conv()表示卷积神经网络。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述体素特征提取模块，根据每帧对应的位姿，将连续帧点云序列转换到大地坐标系，并对转换后的连续帧点云序列进行体素化，大地坐标系是相对于大地的固定预设坐标原点的笛卡尔正交坐标系，以第一帧点云数据向前方向为大地坐标系的X轴正方向，向右方向为大地坐标系的Y轴正方向，向上方向为大地坐标系的Z轴正方向。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述体素化，通过构建体素大小及体素化范围，将每个体素内点的均值作为体素化特征。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述提取特征张量，是对体素化得到的特征，通过稀疏卷积模块进行特征提取，得到特征张量，稀疏卷积模块包括一组子卷积模块，子卷积模块包括子流行卷积层、归一化层和Relu层。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述转换模块，将形状大小为C*D*W*H的特征张量重塑成大小为C*(D*W*H)的特征张量，C表示特征通道数，D表示高度，W表示宽度，H表示长度，再对重塑后的特征张量序列进行匹配融合。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述特征张量序列为{F_Base_seq[i],0<i<＝N}，i表示帧索引，N表示帧数，对序列中的特征张量进行匹配融合，得到融合后的特征张量F_Base_fusion_seq[j,j+1]，j表示帧索引，0<j<＝N，当j＝1时，对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合，当1<j<N时，对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合，输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。
根据权利要求5所述的一种基于多帧点云的运动目标检测系统，其特征在于所述识别模块，将最终融合后的特征张量重塑成形状大小为(C*D)*W*H的特征张量，再对重塑后的特征张量进行特征提取，输出目标的检测信息。
根据权利要求1所述的一种基于多帧点云的运动目标检测系统，其特征在于所述识别模块，通过一组卷积神经网络，分别获取目标中心点坐标、目标中心点的运动方向、目标中心点偏移量、目标的长宽高、目标的高度和目标的类别信息；训练阶段，目标中心点坐标的检测采用Focal_loss损失函数，目标中心点的运动方向的检测，回归其正弦值与余弦值，并采用L1_loss损失函数，目标中心点的偏移量的回归采用L1_Loss损失函数，目标中心点的预测轨迹的回归采用L1_Loss损失函数，目标的长宽高以及目标高度的回归采用SmothL1_loss损失函数，其中不同检测分支的损失分配不同的权重，最终得到训练好的模型。
一种使用如权利要求1所述的一种基于多帧点云的运动目标检测系统的目标检测方法，其特征在于包括如下步骤：

S1，构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块；

S2，通过训练集数据，对模型进行训练；

S3，通过训练好的模型进行预测。