WO2023040247A1

WO2023040247A1 - 一种基于图像和点云融合网络的道路区域图像识别方法

Info

Publication number: WO2023040247A1
Application number: PCT/CN2022/085903
Authority: WO
Inventors: 陈剑; 王麒; 张心放; 李浩亮
Original assignee: 浙江大学
Priority date: 2021-09-18
Filing date: 2022-04-08
Publication date: 2023-03-23
Also published as: CN113887349A

Abstract

本发明公开了一种基于图像和点云融合的道路区域图像识别方法。构建融合主干网络，提取原始图像和原始点云中的特征，并对这两种特征进行融合，获得融合后特征图；使用Upsampling、2D卷积层和ReLU激活函数层构建解码层，并以此构建解码网络，将融合后特征图输入到解码网络处理获得解码特征结果；针对解码特征结果使用逐点卷积运算，得到是否为道路区域分类类别。本发明解决了图像和点云直接融合的难题，将原始点云直接输入到道路区域网络中，不需要对点云做任何前处理操作，使得整个方法的运算量较低；对高精度地检测复杂环境中的道路区域能稳定精确地检测道路区域。

Description

一种基于图像和点云融合网络的道路区域图像识别方法

技术领域

本发明属于计算机视觉的领域的一种道路图像识别方法，涉及一种基于图像和点云融合网络的道路区域图像识别方法。

背景技术

无人驾驶车辆需要对交通环境中的道路区域进行识别，从而进一步规划自身行驶轨迹。在多样的复杂交通环境中，由于交通场景的多样性、交通参与者的多样性、光照条件的多样性等因素使得准确地识别道路区域非常困难的。

随着深度卷积神经网络技术的发展，该技术被成功的应用在各种任务中，也包括道路区域识别任务。该类方法(典型代表：G.L.Oliveira,W.Burgard and T.Brox,"Efficient deep models for monocular road segmentation,"2016 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),Daejeon,Korea(South),2016,pp.4885-4891)一般使用单目相机拍摄的RGB图像作为输入，使用深度卷积神经网络作为特征提取器和分类器，对图像中的每个像素都分类为“道路”或者“非道路”两个类别。通过将分类为“道路”类别的像素连接起来，形成一个连通的区域，得到最终在图像中所识别的道路区域。但此类方法面临着仅依赖RGB图像难以应对室外光照条件多变的挑战，例如在白天晴天条件下训练的神经网络往往在雨天或者夜间就很难起到效果。

为了解决这一问题，另一类方法采取同时利用单目相机拍摄的RGB图像和激光雷达扫描的点云的两种信息作为输入，通过设计融合图像和点云信息的神经网络来提升对道路区域识别的准确性。该类方法(典型代表：Z.Chen,J.Zhang and D.Tao,"Progressive LiDAR adaptation for road detection,"in IEEE/CAA Journal of Automatica Sinica,vol.6,no.3,pp.693-702,May 2019)对点云信息先投影到2D平面，然后进行栅格化，通过对每个栅格构造人工特征，将点云信息表示成伪图像的形式。然后使用2D卷积操作提取特征点云并与从RGB图像中提取的特征进行融合。但此类方法均需要将点云转为伪图像的形式，在这个转换中丢失点云的原有结构，而且增加了操作，对道路识别的算法的精度和效率都有影响。

发明内容

为了突破以往图像和点云融合技术需要将点云转为伪图像的限制，针对复杂的室外场景，本发明提出了一种基于图像和点云融合网络的道路区域图像识别方法。

如图1所示，本发明采用的技术方案是：

1)构建融合主干网络，提取原始图像和原始点云中的特征，并对这两种特征进行融合，获得融合后特征图；

2)然后使用Upsampling、2D卷积层和ReLU激活函数层构建解码层，并以此构建密集连接的解码网络，解码网络用于恢复特征的分辨率，将融合后特征图输入到解码网络处理获得解码特征结果；

本发明利用解码网络提升图像信息分辨率对道路区域进行识别。具体是对图像特征进行解码，恢复特征尺寸至输入图像大小。

3)最后针对解码特征结果使用逐点卷积运算，得到原始图像中每个像素为“道路”或者“非道路”的分类类别。使用逐点卷积和特征检测图像中属于道路的像素。

所述步骤1)具体为：

融合主干网络使用ResNet-101的图像处理分支和PointNet++的点云处理分支分别从原始图像和原始点云中提取图像外观特征和和几何特征点云，对图像外观特征和和几何特征点云使用融合模块进行融合获得融合后特征图。

对图像外观特征和和几何特征点云的融合，具体是将从几何特征点云融合到相对应的图像外观特征上。

对图像外观特征和和几何特征点云进行融合，具体是分为图像和点云的对齐步骤和特征点云融合到图像步骤的两个步骤：

所述的图像和点云对齐步骤，通过预先标定激光雷达和相机的外参矩阵以及相机的内参矩阵，首先计算点云投影到图像坐标系中的坐标；

特征点云融合到图像步骤，利用点云投影到图像坐标系的坐标，对图像特征中每个像素选取点云中对应的，并对所有对应点的特征求平均，得到该像素从点云中获取的特征作为最终的融合后特征图。

本发明的原始点云和原始图像从安装车辆前部的摄像头和激光雷达探测获得。原始点云是和原始图像同时同步获得的前方道路数据。

所述的图像外观特征是指使用ResNet网络作为特征提取网络，以RGB图像作为输入处理输出获得的图像特征。

所述的几何特征点云，使用PointNet++网络作为特征提取网络，以包含每个点的三维坐标信息和反射前途信息的点云作为输入处理输出获得的特征点云。

如图2所示，所述的融合主干网络包括图像处理分支、点云处理分支和融合模块，

所述的图像处理分支包括了五个依次级联连接的特征提取块，原始图像输入到第一个特征提取块，经五个特征提取块依次处理后输出各自的图像特征；特征提取块为ResNet-101网络中的结构，

所述的点云处理分支包括了四个依次连接的SA层，原始点云输入到第一个SA层，经五个特征提取块依次处理后输出各自的特征点云；SA层为PointNet++网络中的结构，

将各个特征提取块输出的结果以及各个SA层输出的结果和原始点云通过多个融合模块进行融合传递处理并反馈到特征提取块中，具体是将当前特征提取块输出的结果和对应的SA层输出的特征点云/原始点云通过融合模块进行融合传递处理并反馈到下一个特征提取块中；即第一个特征提取块块输出的图像特征和原始点云通过融合模块进行融合传递处理并反馈到第二个特征提取块中，第二个特征提取块块输出的结果和第一个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第三个特征提取块中，第三个特征提取块块输出的结果和第二个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第四个特征提取块中，第四个特征提取块块输出的结果和第三个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第五个特征提取块中，第吴个特征提取块块输出的结果和第四个SA层输出的特征点云通过融合模块进行融合传递处理并直接输出。

给定一张原始图像I ₀和原始点云P ₀，表示为以下操作：

F _i＝I _i+Fusion(P _j,I _i),j＝i-1,i∈{1,2,3,4,5}，j∈{0,1,2,3,4}

其中，

为第1个特征提取块的操作，I _i表示第i个特征提取块输出的图像特征，I ₀表示原始图像，I ₁表示第1个特征提取块输出的图像特征，F _i表示第i个融合模块输出的融合后特征图，Fusion(·)为融合模块的操作，P _j表示第j个SA层输出的特征点云，P ₀为原始点云，

为第j+1个SA层的操作；

通过循环上述操作得到各个融合模块的输出结果，组成融合后特征图集合{F ₁,F ₂,F ₃,F ₄,F ₅}。

所述融合模块的具体操作步骤如下：

S1、使用预先标定的激光雷达和相机的外参矩阵

(该矩阵为4x4的方阵)和相机的内参矩阵K，求出第j个SA层输出的特征点云P _j中的每个点在第i个特征提取块输出的图像特征I _i的图像坐标系下的像素位置：

c _i＝2 ⁱ

其中，P′ _j为P _j的齐次坐标，Q _ij为特征点云P _j在图像特征图I _i的图像坐标系下的齐次坐标，c _i为图像特征图I _i所对应的缩放尺度常量，

表示向下取整操作；

S2、这样会出现特征点云P _j中的多个点投影到图像特征I _i中的同一像素位置，因此对于图像特征I _i的每个像素，选取齐次坐标为该像素位置的特征点云P _j中的点组成集合，对该集合中的所有点的特征值取平均值，得到图像特征I _i的该像素从特征点云P _j中获取的特征；

S3、对图像特征I _i中的每个像素均进行上述操作，组成完整图像作为融合后特征图F _i。

如图3所示，所述的解码网络包括五个解码层，分别记作

每个解码层均由上采样Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU依次级联连接构建而成，其中上采样Upsampling为使用双线性插值实现，2D卷积使用卷积核尺寸为3x3、padding尺寸为1的卷积操作，BN为批标准化层，ReLU为激活函数；

五个解码层分别和融合后特征图集合{F ₁,F ₂,F ₃,F ₄,F ₅}中的五个融合后特征图一一对应处理，将融合后特征图集合{F ₁，F ₂,F ₃,F ₄,F ₅}中的每个当前融合后特征图均输入到各自对应的一个解码层中处理获得当前解码特征，并将当前解码特征和当前融合后特征图一起反馈到下一个解码层中处理，具体表示为：

其中，

为第i+1个解码层的调用操作，U _i表示第i个解码特征；

第i+1个解码层

具体步骤为，对第i+1个解码特征U _i+1进行上采样Upsampling操作，然后将上采样Upsampling操作得到的结果与第i+1个融合后特征图F _5-i相加，然后对相加结果依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作；

第5个融合后特征图F ₅作为初始的解码特征U ₀；对于第5个解码层

输入只有第4个解码特征U ₄，直接对第4个解码特征U ₄依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作得到输出第5个解码特征U ₅。

所述的逐点卷积具体是将解码网络输出的解码特征结果依次经卷积操作和Sigmoid操作后通过阈值判断进行分类处理。

本发明的有益效果是：

1)解决了图像和点云直接融合的难题，可以将原始点云直接输入到道路区域网络中，不需要对点云做任何前处理操作，使得整个方法的运算量较低；

2)通过融合图像和点云的信息，可以对高精度地检测复杂环境中的道路区域，例如图4所示，在多种环境中，本方法都能稳定精确地检测道路区域。

附图说明

图1是本发明的网络流程图。

图2是本发明的融合主干网络图。

图3是本发明中密集连接的解码网路。

图4是本发明的实施例中针对典型场景的实验结果图，图中每一行代表一个示例场景，每行左图代表示意场景，其中检测结果用偏浅色区域表示。为了清晰表示检测结果，可见每行右图，其中白色部分表示检测到的道路区域。

具体实施方式

下面结合附图和具体实施对本发明作进一步说明。

本发明的具体实施例过程如下：

1、构建融合主干网络，提取图像和点云中的特征，并对这两种特征进行融合，具体步骤如下：

1.1、使用ResNet-101构建图像处理分支，其中包含五个特征提取块，记作

每特征提取块的操作记作如下：

其中，

为第i个特征提取块的操作，I _in是输入一张图像特征或者原始图像，I _out表示经过特征提取块的操作输出的一张图像特征，其长宽尺寸减少为I _in的长宽尺寸的1/2。

1.2、使用PointNet++构建点云处理分支，其中包含四个SA层，分别记作

各个SA层构建所需要的参数如下表给出：

每个SA层的操作记作如下：

其中，

为第i个SA层的操作，P _in是输入点云，P _out是输出点云。

将输入的原始点云P ₀和四个SA层分别得到的四个特征点云，构成的集合{P ₁,P ₂,P ₃,P ₄,P ₅}称为特征点云集，其中每一个元素称为特征点云。

1.3、给定一张原始图像I ₀和原始点云P ₀，根据每个当前特征提取块输出的结果和对应的SA层输出的特征点云/原始点云通过当前的融合模块进行融合传递处理并反馈到下一个特征提取块中，这样的进行反馈传递表示为以下操作：

F _i＝I _i+Fusion(P _j,I _i),j＝i-1,i∈{1,2,3,4,5}，j∈{0,1,2,3,4}

其中，

为第1个特征提取块的操作，I _i表示第i个特征提取块输出的特征点云，I ₀表示原始图像，I ₁表示第1个特征提取块输出的图像特征，F _i表示第i个融合模块输出的融合后特征图，Fusion(·)为融合模块的操作，P _j表示第j个SA层输出的特征点云，P ₀为原始点云，

为第j+1个SA层的操作；

具体实施中的融合模块的具体操作步骤如下：

S1、使用预先标定的激光雷达和相机的外参矩阵

c _i＝2 ⁱ

表示对运算结果的向下取整操作；

2、使用解码网络和逐点卷积，恢复特征尺寸至输入图像大小，并将输入图片中的像素分类为“道路”和“非道路”。

2.1、构建密集连接的解码网络

2.1.1、使用Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU构建解码层。

其中Upsampling为使用双线性插值实现；

2D卷积使用卷积核尺寸为3x3，padding尺寸为1的卷积操作；BN为批标准化层，ReLU为激活函数。通过以上方式构建解码层。

2.1.2、通过构建5个解码层，分别记作

构建解码网络。

解码网络的输入是融合后特征图集合{F ₁,F ₂,F ₃,F ₄，F ₅}，解码网络的具体表示为：

其中，

为第i+1个解码层的调用操作，U _i表示第i个解码特征；

第i+1个解码层

2.2、逐点卷积

对于解码网络输出的第5个解码特征U ₅，使用卷积核尺寸为1x1、通道数为1的卷积操作作为逐点卷积操作，得到结果记为S，S具有和输入图像尺寸大小相同的性质。

对S做Sigmoid操作，将S中每个像素的值归一化至(0,1)内，然后进行判断：当S中的某个像素的值大于等于0.5，将该像素分到“道路”类别，当S中的某个像素的值小于0.5，将该像素分到“非道路”类别。

3、神经网络的训练过程，由前面描述可知，方法使用的整个道路区域检测网络分类为融合主干网络、解码网络和逐点卷积三部分构成，而融合主干网络中又分为图像处理分支和点云处理分支。

3.1、由步骤1.2可知，点云处理分支是由PointNet++网络构建，在Semantic-KITTI数据集上训练。仅对融合主干网络的点云处理分支进行预训练，得到其网络参数权重。

3.2、加融合主干网络的点云处理分支的预训练网络参数，并将其冻结。然后对整个网络，包括融合主干网络、解码网络和逐点卷积三部分在KITTI数据集的Road任务进行训练，使用负对数似然损失，用SGD优化器，学习率设置为0.001进行mini-batch训练，mini-batch设置为4。通过迭代训练1000次，保存训练过程中损失最小的网络参数权重。

3.3、将一张图片和相对应的点云作为输入，送入已经训练好的网络，可以得到对图片中每个像素的标签，标签只可能是“道路”和“非道路”两种。所有属于“道路”的像素所构成的区域就是最终识别的道路区域。

按照本发明实施例对一系列典型道路场景进行了实验验证。结果如图4所示。在KITTI数据集的道路检测任务中，选取其中的训练集作为训练数据，根据上述发明说明书中所述构建网络和训练方式，进行训练，保存损失最小的权重参数。使用KITTI数据集的道路检测任务中的测试集做验证，可以得到图4所示的结果。从结果中可以看出，识别出的道路区域在原始图像中具有较高的精度。

Claims

一种基于图像和点云融合的道路区域图像识别方法，其特征在于：

1)构建融合主干网络，提取原始图像和原始点云中的特征，并对这两种特征进行融合，获得融合后特征图；

2)然后使用Upsampling、2D卷积层和ReLU激活函数层构建解码层，并以此构建解码网络，将融合后特征图输入到解码网络处理获得解码特征结果；

3)最后针对解码特征结果使用逐点卷积运算，得到原始图像中每个像素为“道路”或者“非道路”的分类类别。
根据权利要求1所述的一种基于图像和点云融合的道路区域图像识别方法，其特征在于：所述步骤1)具体为：

融合主干网络使用图像处理分支和点云处理分支分别从原始图像和原始点云中提取图像外观特征和和几何特征点云，对图像外观特征和和几何特征点云使用融合模块进行融合获得融合后特征图。
根据权利要求2所述的一种基于图像和点云融合的道路区域图像识别方法，其特征在于：对图像外观特征和和几何特征点云的融合，具体是将从几何特征点云融合到相对应的图像外观特征上。
根据权利要求2或3所述的一种基于图像和点云融合的道路区域图像识别方法，其特征在于：对图像外观特征和和几何特征点云进行融合，具体是分为图像和点云的对齐步骤和特征点云融合到图像步骤的两个步骤：

所述的图像和点云对齐步骤，通过预先标定激光雷达和相机的外参矩阵以及相机的内参矩阵，首先计算点云投影到图像坐标系中的坐标；

特征点云融合到图像步骤，利用点云投影到图像坐标系的坐标，对图像特征中每个像素选取点云中对应的，并对所有对应点的特征求平均，得到该像素从点云中获取的特征作为最终的融合后特征图。
根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络，其特征在于：所述的融合主干网络包括图像处理分支、点云处理分支和融合模块，所述的图像处理分支包括了五个依次级联连接的特征提取块，原始图像输入到第一个特征提取块，经五个特征提取块依次处理后输出各自的图像特征；

所述的点云处理分支包括了四个依次连接的SA层，原始点云输入到第一个SA层，经五个特征提取块依次处理后输出各自的特征点云；将各个特征提取块输出的结果以及各个SA层输出的结果和原始点云通过多个融合模块进行融合传递处理并反馈到特征提取块中；表示为以下操作：

F _i＝I _i+Fusion(P _j,I _i),j＝i-1,i∈{1,2,3,4,5}，j∈{0,1,2,3,4}

其中，
为第1个特征提取块的操作，I _i表示第i个特征提取块输出的图像特征，I ₀表示原始图像，I ₁表示第1个特征提取块输出的图像特征，F _i表示第i个融合模块输出的融合后特征图，Fusion(·)为融合模块的操作，P _j表示第j个SA层输出的特征点云，P ₀为原始点云，
为第j+1个SA层的操作；

通过循环上述操作得到各个融合模块的输出结果，组成融合后特征图集合{F ₁,F ₂,F ₃,F ₄,F ₅}。
根据权利要求5所述的一种基于图像和点云融合的道路区域检测网络，其特征在于：所述融合模块的具体操作步骤如下：

S1、使用预先标定的激光雷达和相机的外参矩阵
(该矩阵为4x4的方阵)和相机的内参矩阵K，求出第j个SA层输出的特征点云P _j中的每个点在第i个特征提取块输出的图像特征I _i的图像坐标系下的像素位置：

c _i＝2 ⁱ

其中，P′ _j为P _j的齐次坐标，Q _ij为特征点云P _j在图像特征图I _i的图像坐标系下的齐次坐标，c _i为图像特征图I _i所对应的缩放尺度常量，
表示向下取整操作；

S2、对于图像特征I _i的每个像素，选取齐次坐标为该像素位置的特征点云P _j中的点组成集合，对该集合中的所有点的特征值取平均值，得到图像特征I _i的该像素从特征点云P _j中获取的特征；

S3、对图像特征I _i中的每个像素均进行上述操作，组成完整图像作为融合后特征图F _i。
根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络，其特征在于：所述的解码网络包括五个解码层，每个解码层均由上采样Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU依次级联连接构建而成，其中上采样Upsampling为使用双线性插值实现，2D卷积使用卷积核尺寸为3x3、padding尺寸为1的卷积操作，BN为批标准化层，ReLU为激活函数；

五个解码层分别和融合后特征图集合{F ₁,F ₂,F ₃,F ₄,F ₅}中的五个融合后特征图一一对应处理，将融合后特征图集合{F ₁,F ₂,F ₃,F ₄,F ₅}中的每个当前融合后特征图均输入到各自对应的一个解码层中处理获得当前解码特征，并将当前解码特征和当前融合后特征图一起反馈到下一个解码层中处理，具体表示为：

其中，
为第i+1个解码层的调用操作，U _i表示第i个解码特征；

第i+1个解码层
具体步骤为，对第i+1个解码特征U _i+1进行上采样Upsampling操作，然后将上采样Upsampling操作得到的结果与第i+1个融合后特征图F _5-i相加，然后对相加结果依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作；

第5个融合后特征图F ₅作为初始的解码特征U ₀；对于第5个解码层
输入只有第4个解码特征U ₄，直接对第4个解码特征U ₄依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作得到输出第5个解码特征U ₅。
根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络，其特征在于：所述的逐点卷积具体是将解码网络输出的解码特征结果依次经卷积操作和Sigmoid操作后通过阈值判断进行分类处理。