WO2023040247A1 - 一种基于图像和点云融合网络的道路区域图像识别方法 - Google Patents

一种基于图像和点云融合网络的道路区域图像识别方法 Download PDF

Info

Publication number
WO2023040247A1
WO2023040247A1 PCT/CN2022/085903 CN2022085903W WO2023040247A1 WO 2023040247 A1 WO2023040247 A1 WO 2023040247A1 CN 2022085903 W CN2022085903 W CN 2022085903W WO 2023040247 A1 WO2023040247 A1 WO 2023040247A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
image
point cloud
decoding
fusion
Prior art date
Application number
PCT/CN2022/085903
Other languages
English (en)
French (fr)
Inventor
陈剑
王麒
张心放
李浩亮
Original Assignee
浙江大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江大学 filed Critical 浙江大学
Publication of WO2023040247A1 publication Critical patent/WO2023040247A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the feature point cloud is then extracted using 2D convolution operations and fused with features extracted from RGB images.
  • these methods all need to convert the point cloud into a pseudo-image form. In this conversion, the original structure of the point cloud is lost, and the operation is increased, which affects the accuracy and efficiency of the road recognition algorithm.
  • this invention proposes a road area image recognition method based on image and point cloud fusion network.
  • the fusion of the image appearance features and the geometric feature point cloud specifically, the fusion of the geometric feature point cloud to the corresponding image appearance feature.
  • the geometric feature point cloud uses the PointNet++ network as a feature extraction network, and uses the point cloud containing the three-dimensional coordinate information and reflection future information of each point as the input processing to output the obtained feature point cloud.
  • the image processing branch includes five sequentially connected feature extraction blocks, the original image is input to the first feature extraction block, and the respective image features are output after the five feature extraction blocks are sequentially processed;
  • the feature extraction block is ResNet -101 structures in the network,
  • the fifth fused feature map F 5 is used as the initial decoding feature U 0 ; for the fifth decoding layer
  • the input is only the fourth decoding feature U 4 , and the operation of 2D convolution + BN + ReLU + 2D convolution + BN + ReLU is directly performed on the fourth decoding feature U 4 to obtain the output of the fifth decoding feature U 5 .
  • the point-by-point convolution is specifically to classify the decoding feature results output by the decoding network through a convolution operation and a Sigmoid operation in turn through threshold judgment.
  • Fig. 1 is a network flowchart of the present invention.
  • I i represents the feature point cloud output by the i-th feature extraction block
  • I 0 represents the original image
  • I 1 represents the image feature output by the first feature extraction block
  • F i represents the i-th
  • Fusion( ) is the operation of the fusion module
  • P j represents the feature point cloud output by the jth SA layer
  • P 0 is the original point cloud
  • the fifth fused feature map F 5 is used as the initial decoding feature U 0 ; for the fifth decoding layer
  • the input is only the fourth decoding feature U 4 , and the operation of 2D convolution + BN + ReLU + 2D convolution + BN + ReLU is directly performed on the fourth decoding feature U 4 to obtain the output of the fifth decoding feature U 5 .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于图像和点云融合的道路区域图像识别方法。构建融合主干网络,提取原始图像和原始点云中的特征,并对这两种特征进行融合,获得融合后特征图;使用Upsampling、2D卷积层和ReLU激活函数层构建解码层,并以此构建解码网络,将融合后特征图输入到解码网络处理获得解码特征结果;针对解码特征结果使用逐点卷积运算,得到是否为道路区域分类类别。本发明解决了图像和点云直接融合的难题,将原始点云直接输入到道路区域网络中,不需要对点云做任何前处理操作,使得整个方法的运算量较低;对高精度地检测复杂环境中的道路区域能稳定精确地检测道路区域。

Description

一种基于图像和点云融合网络的道路区域图像识别方法 技术领域
本发明属于计算机视觉的领域的一种道路图像识别方法,涉及一种基于图像和点云融合网络的道路区域图像识别方法。
背景技术
无人驾驶车辆需要对交通环境中的道路区域进行识别,从而进一步规划自身行驶轨迹。在多样的复杂交通环境中,由于交通场景的多样性、交通参与者的多样性、光照条件的多样性等因素使得准确地识别道路区域非常困难的。
随着深度卷积神经网络技术的发展,该技术被成功的应用在各种任务中,也包括道路区域识别任务。该类方法(典型代表:G.L.Oliveira,W.Burgard and T.Brox,"Efficient deep models for monocular road segmentation,"2016 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),Daejeon,Korea(South),2016,pp.4885-4891)一般使用单目相机拍摄的RGB图像作为输入,使用深度卷积神经网络作为特征提取器和分类器,对图像中的每个像素都分类为“道路”或者“非道路”两个类别。通过将分类为“道路”类别的像素连接起来,形成一个连通的区域,得到最终在图像中所识别的道路区域。但此类方法面临着仅依赖RGB图像难以应对室外光照条件多变的挑战,例如在白天晴天条件下训练的神经网络往往在雨天或者夜间就很难起到效果。
为了解决这一问题,另一类方法采取同时利用单目相机拍摄的RGB图像和激光雷达扫描的点云的两种信息作为输入,通过设计融合图像和点云信息的神经网络来提升对道路区域识别的准确性。该类方法(典型代表:Z.Chen,J.Zhang and D.Tao,"Progressive LiDAR adaptation for road detection,"in IEEE/CAA Journal of Automatica Sinica,vol.6,no.3,pp.693-702,May 2019)对点云信息先投影到2D平面,然后进行栅格化,通过对每个栅格构造人工特征,将点云信息表示成伪图像的形式。然后使用2D卷积操作提取特征点云并与从RGB图像中提取的特征进行融合。但此类方法均需要将点云转为伪图像的形式,在这个转换中丢失点云的原有结构,而且增加了操作,对道路识别的算法的精度和效率都有影响。
发明内容
为了突破以往图像和点云融合技术需要将点云转为伪图像的限制,针对复杂的室外场景,本发明提出了一种基于图像和点云融合网络的道路区域图像识 别方法。
如图1所示,本发明采用的技术方案是:
1)构建融合主干网络,提取原始图像和原始点云中的特征,并对这两种特征进行融合,获得融合后特征图;
2)然后使用Upsampling、2D卷积层和ReLU激活函数层构建解码层,并以此构建密集连接的解码网络,解码网络用于恢复特征的分辨率,将融合后特征图输入到解码网络处理获得解码特征结果;
本发明利用解码网络提升图像信息分辨率对道路区域进行识别。具体是对图像特征进行解码,恢复特征尺寸至输入图像大小。
3)最后针对解码特征结果使用逐点卷积运算,得到原始图像中每个像素为“道路”或者“非道路”的分类类别。使用逐点卷积和特征检测图像中属于道路的像素。
所述步骤1)具体为:
融合主干网络使用ResNet-101的图像处理分支和PointNet++的点云处理分支分别从原始图像和原始点云中提取图像外观特征和和几何特征点云,对图像外观特征和和几何特征点云使用融合模块进行融合获得融合后特征图。
对图像外观特征和和几何特征点云的融合,具体是将从几何特征点云融合到相对应的图像外观特征上。
对图像外观特征和和几何特征点云进行融合,具体是分为图像和点云的对齐步骤和特征点云融合到图像步骤的两个步骤:
所述的图像和点云对齐步骤,通过预先标定激光雷达和相机的外参矩阵以及相机的内参矩阵,首先计算点云投影到图像坐标系中的坐标;
特征点云融合到图像步骤,利用点云投影到图像坐标系的坐标,对图像特征中每个像素选取点云中对应的,并对所有对应点的特征求平均,得到该像素从点云中获取的特征作为最终的融合后特征图。
本发明的原始点云和原始图像从安装车辆前部的摄像头和激光雷达探测获得。原始点云是和原始图像同时同步获得的前方道路数据。
所述的图像外观特征是指使用ResNet网络作为特征提取网络,以RGB图像作为输入处理输出获得的图像特征。
所述的几何特征点云,使用PointNet++网络作为特征提取网络,以包含每个点的三维坐标信息和反射前途信息的点云作为输入处理输出获得的特征点云。
如图2所示,所述的融合主干网络包括图像处理分支、点云处理分支和融合模块,
所述的图像处理分支包括了五个依次级联连接的特征提取块,原始图像输入到第一个特征提取块,经五个特征提取块依次处理后输出各自的图像特征;特征提取块为ResNet-101网络中的结构,
所述的点云处理分支包括了四个依次连接的SA层,原始点云输入到第一个SA层,经五个特征提取块依次处理后输出各自的特征点云;SA层为PointNet++网络中的结构,
将各个特征提取块输出的结果以及各个SA层输出的结果和原始点云通过多个融合模块进行融合传递处理并反馈到特征提取块中,具体是将当前特征提取块输出的结果和对应的SA层输出的特征点云/原始点云通过融合模块进行融合传递处理并反馈到下一个特征提取块中;即第一个特征提取块块输出的图像特征和原始点云通过融合模块进行融合传递处理并反馈到第二个特征提取块中,第二个特征提取块块输出的结果和第一个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第三个特征提取块中,第三个特征提取块块输出的结果和第二个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第四个特征提取块中,第四个特征提取块块输出的结果和第三个SA层输出的特征点云通过融合模块进行融合传递处理并反馈到第五个特征提取块中,第吴个特征提取块块输出的结果和第四个SA层输出的特征点云通过融合模块进行融合传递处理并直接输出。
给定一张原始图像I 0和原始点云P 0,表示为以下操作:
Figure PCTCN2022085903-appb-000001
F i=I i+Fusion(P j,I i),j=i-1,i∈{1,2,3,4,5},j∈{0,1,2,3,4}
Figure PCTCN2022085903-appb-000002
Figure PCTCN2022085903-appb-000003
其中,
Figure PCTCN2022085903-appb-000004
为第1个特征提取块的操作,I i表示第i个特征提取块输出的图像特征,I 0表示原始图像,I 1表示第1个特征提取块输出的图像特征,F i表示第i个融合模块输出的融合后特征图,Fusion(·)为融合模块的操作,P j表示第j个SA层输出的特征点云,P 0为原始点云,
Figure PCTCN2022085903-appb-000005
为第j+1个SA层的操作;
通过循环上述操作得到各个融合模块的输出结果,组成融合后特征图集合{F 1,F 2,F 3,F 4,F 5}。
所述融合模块的具体操作步骤如下:
S1、使用预先标定的激光雷达和相机的外参矩阵
Figure PCTCN2022085903-appb-000006
(该矩阵为4x4的方阵)和相机的内参矩阵K,求出第j个SA层输出的特征点云P j中的每个点在第i个特征提取块输出的图像特征I i的图像坐标系下的像素位置:
Figure PCTCN2022085903-appb-000007
c i=2 i
其中,P′ j为P j的齐次坐标,Q ij为特征点云P j在图像特征图I i的图像坐标系下的齐次坐标,c i为图像特征图I i所对应的缩放尺度常量,
Figure PCTCN2022085903-appb-000008
表示向下取整操作;
S2、这样会出现特征点云P j中的多个点投影到图像特征I i中的同一像素位置,因此对于图像特征I i的每个像素,选取齐次坐标为该像素位置的特征点云P j中的点组成集合,对该集合中的所有点的特征值取平均值,得到图像特征I i的该像素从特征点云P j中获取的特征;
S3、对图像特征I i中的每个像素均进行上述操作,组成完整图像作为融合后特征图F i
如图3所示,所述的解码网络包括五个解码层,分别记作
Figure PCTCN2022085903-appb-000009
每个解码层均由上采样Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU依次级联连接构建而成,其中上采样Upsampling为使用双线性插值实现,2D卷积使用卷积核尺寸为3x3、padding尺寸为1的卷积操作,BN为批标准化层,ReLU为激活函数;
五个解码层分别和融合后特征图集合{F 1,F 2,F 3,F 4,F 5}中的五个融合后特征图一一对应处理,将融合后特征图集合{F 1,F 2,F 3,F 4,F 5}中的每个当前融合后特征图均输入到各自对应的一个解码层中处理获得当前解码特征,并将当前解码特征和当前融合后特征图一起反馈到下一个解码层中处理,具体表示为:
Figure PCTCN2022085903-appb-000010
其中,
Figure PCTCN2022085903-appb-000011
为第i+1个解码层的调用操作,U i表示第i个解码特征;
第i+1个解码层
Figure PCTCN2022085903-appb-000012
具体步骤为,对第i+1个解码特征U i+1进行上采样Upsampling操作,然后将上采样Upsampling操作得到的结果与第i+1个融合后特征图F 5-i相加,然后对相加结果依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作;
第5个融合后特征图F 5作为初始的解码特征U 0;对于第5个解码层
Figure PCTCN2022085903-appb-000013
输入只有第4个解码特征U 4,直接对第4个解码特征U 4依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作得到输出第5个解码特征U 5
所述的逐点卷积具体是将解码网络输出的解码特征结果依次经卷积操作和Sigmoid操作后通过阈值判断进行分类处理。
本发明的有益效果是:
1)解决了图像和点云直接融合的难题,可以将原始点云直接输入到道路区域网络中,不需要对点云做任何前处理操作,使得整个方法的运算量较低;
2)通过融合图像和点云的信息,可以对高精度地检测复杂环境中的道路区域,例如图4所示,在多种环境中,本方法都能稳定精确地检测道路区域。
附图说明
图1是本发明的网络流程图。
图2是本发明的融合主干网络图。
图3是本发明中密集连接的解码网路。
图4是本发明的实施例中针对典型场景的实验结果图,图中每一行代表一个示例场景,每行左图代表示意场景,其中检测结果用偏浅色区域表示。为了清晰表示检测结果,可见每行右图,其中白色部分表示检测到的道路区域。
具体实施方式
下面结合附图和具体实施对本发明作进一步说明。
本发明的具体实施例过程如下:
1、构建融合主干网络,提取图像和点云中的特征,并对这两种特征进行融合,具体步骤如下:
1.1、使用ResNet-101构建图像处理分支,其中包含五个特征提取块,记作
Figure PCTCN2022085903-appb-000014
每特征提取块的操作记作如下:
Figure PCTCN2022085903-appb-000015
其中,
Figure PCTCN2022085903-appb-000016
为第i个特征提取块的操作,I in是输入一张图像特征或者原始图像,I out表示经过特征提取块的操作输出的一张图像特征,其长宽尺寸减少为I in的长宽尺寸的1/2。
1.2、使用PointNet++构建点云处理分支,其中包含四个SA层,分别记作
Figure PCTCN2022085903-appb-000017
各个SA层构建所需要的参数如下表给出:
Figure PCTCN2022085903-appb-000018
每个SA层的操作记作如下:
Figure PCTCN2022085903-appb-000019
其中,
Figure PCTCN2022085903-appb-000020
为第i个SA层的操作,P in是输入点云,P out是输出点云。
将输入的原始点云P 0和四个SA层分别得到的四个特征点云,构成的集合{P 1,P 2,P 3,P 4,P 5}称为特征点云集,其中每一个元素称为特征点云。
1.3、给定一张原始图像I 0和原始点云P 0,根据每个当前特征提取块输出的 结果和对应的SA层输出的特征点云/原始点云通过当前的融合模块进行融合传递处理并反馈到下一个特征提取块中,这样的进行反馈传递表示为以下操作:
Figure PCTCN2022085903-appb-000021
F i=I i+Fusion(P j,I i),j=i-1,i∈{1,2,3,4,5},j∈{0,1,2,3,4}
Figure PCTCN2022085903-appb-000022
Figure PCTCN2022085903-appb-000023
其中,
Figure PCTCN2022085903-appb-000024
为第1个特征提取块的操作,I i表示第i个特征提取块输出的特征点云,I 0表示原始图像,I 1表示第1个特征提取块输出的图像特征,F i表示第i个融合模块输出的融合后特征图,Fusion(·)为融合模块的操作,P j表示第j个SA层输出的特征点云,P 0为原始点云,
Figure PCTCN2022085903-appb-000025
为第j+1个SA层的操作;
通过循环上述操作得到各个融合模块的输出结果,组成融合后特征图集合{F 1,F 2,F 3,F 4,F 5}。
具体实施中的融合模块的具体操作步骤如下:
S1、使用预先标定的激光雷达和相机的外参矩阵
Figure PCTCN2022085903-appb-000026
(该矩阵为4x4的方阵)和相机的内参矩阵K,求出第j个SA层输出的特征点云P j中的每个点在第i个特征提取块输出的图像特征I i的图像坐标系下的像素位置:
Figure PCTCN2022085903-appb-000027
c i=2 i
其中,P′ j为P j的齐次坐标,Q ij为特征点云P j在图像特征图I i的图像坐标系下的齐次坐标,c i为图像特征图I i所对应的缩放尺度常量,
Figure PCTCN2022085903-appb-000028
表示对运算结果的向下取整操作;
S2、这样会出现特征点云P j中的多个点投影到图像特征I i中的同一像素位置,因此对于图像特征I i的每个像素,选取齐次坐标为该像素位置的特征点云P j中的点组成集合,对该集合中的所有点的特征值取平均值,得到图像特征I i的该像素从特征点云P j中获取的特征;
S3、对图像特征I i中的每个像素均进行上述操作,组成完整图像作为融合后特征图F i
2、使用解码网络和逐点卷积,恢复特征尺寸至输入图像大小,并将输入图片中的像素分类为“道路”和“非道路”。
2.1、构建密集连接的解码网络
2.1.1、使用Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU构建解码层。
其中Upsampling为使用双线性插值实现;
2D卷积使用卷积核尺寸为3x3,padding尺寸为1的卷积操作;BN为批标准化层,ReLU为激活函数。通过以上方式构建解码层。
2.1.2、通过构建5个解码层,分别记作
Figure PCTCN2022085903-appb-000029
构建解码网络。
解码网络的输入是融合后特征图集合{F 1,F 2,F 3,F 4,F 5},解码网络的具体表示为:
Figure PCTCN2022085903-appb-000030
其中,
Figure PCTCN2022085903-appb-000031
为第i+1个解码层的调用操作,U i表示第i个解码特征;
第i+1个解码层
Figure PCTCN2022085903-appb-000032
具体步骤为,对第i+1个解码特征U i+1进行上采样Upsampling操作,然后将上采样Upsampling操作得到的结果与第i+1个融合后特征图F 5-i相加,然后对相加结果依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作;
第5个融合后特征图F 5作为初始的解码特征U 0;对于第5个解码层
Figure PCTCN2022085903-appb-000033
输入只有第4个解码特征U 4,直接对第4个解码特征U 4依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作得到输出第5个解码特征U 5
2.2、逐点卷积
对于解码网络输出的第5个解码特征U 5,使用卷积核尺寸为1x1、通道数为1的卷积操作作为逐点卷积操作,得到结果记为S,S具有和输入图像尺寸大小相同的性质。
对S做Sigmoid操作,将S中每个像素的值归一化至(0,1)内,然后进行判断:当S中的某个像素的值大于等于0.5,将该像素分到“道路”类别,当S中的某个像素的值小于0.5,将该像素分到“非道路”类别。
3、神经网络的训练过程,由前面描述可知,方法使用的整个道路区域检测网络分类为融合主干网络、解码网络和逐点卷积三部分构成,而融合主干网络中又分为图像处理分支和点云处理分支。
3.1、由步骤1.2可知,点云处理分支是由PointNet++网络构建,在Semantic-KITTI数据集上训练。仅对融合主干网络的点云处理分支进行预训练,得到其网络参数权重。
3.2、加融合主干网络的点云处理分支的预训练网络参数,并将其冻结。然后对整个网络,包括融合主干网络、解码网络和逐点卷积三部分在KITTI数据集的Road任务进行训练,使用负对数似然损失,用SGD优化器,学习率设置为0.001进行mini-batch训练,mini-batch设置为4。通过迭代训练1000次,保存训练过程中损失最小的网络参数权重。
3.3、将一张图片和相对应的点云作为输入,送入已经训练好的网络,可以 得到对图片中每个像素的标签,标签只可能是“道路”和“非道路”两种。所有属于“道路”的像素所构成的区域就是最终识别的道路区域。
按照本发明实施例对一系列典型道路场景进行了实验验证。结果如图4所示。在KITTI数据集的道路检测任务中,选取其中的训练集作为训练数据,根据上述发明说明书中所述构建网络和训练方式,进行训练,保存损失最小的权重参数。使用KITTI数据集的道路检测任务中的测试集做验证,可以得到图4所示的结果。从结果中可以看出,识别出的道路区域在原始图像中具有较高的精度。

Claims (8)

  1. 一种基于图像和点云融合的道路区域图像识别方法,其特征在于:
    1)构建融合主干网络,提取原始图像和原始点云中的特征,并对这两种特征进行融合,获得融合后特征图;
    2)然后使用Upsampling、2D卷积层和ReLU激活函数层构建解码层,并以此构建解码网络,将融合后特征图输入到解码网络处理获得解码特征结果;
    3)最后针对解码特征结果使用逐点卷积运算,得到原始图像中每个像素为“道路”或者“非道路”的分类类别。
  2. 根据权利要求1所述的一种基于图像和点云融合的道路区域图像识别方法,其特征在于:所述步骤1)具体为:
    融合主干网络使用图像处理分支和点云处理分支分别从原始图像和原始点云中提取图像外观特征和和几何特征点云,对图像外观特征和和几何特征点云使用融合模块进行融合获得融合后特征图。
  3. 根据权利要求2所述的一种基于图像和点云融合的道路区域图像识别方法,其特征在于:对图像外观特征和和几何特征点云的融合,具体是将从几何特征点云融合到相对应的图像外观特征上。
  4. 根据权利要求2或3所述的一种基于图像和点云融合的道路区域图像识别方法,其特征在于:对图像外观特征和和几何特征点云进行融合,具体是分为图像和点云的对齐步骤和特征点云融合到图像步骤的两个步骤:
    所述的图像和点云对齐步骤,通过预先标定激光雷达和相机的外参矩阵以及相机的内参矩阵,首先计算点云投影到图像坐标系中的坐标;
    特征点云融合到图像步骤,利用点云投影到图像坐标系的坐标,对图像特征中每个像素选取点云中对应的,并对所有对应点的特征求平均,得到该像素从点云中获取的特征作为最终的融合后特征图。
  5. 根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络,其特征在于:所述的融合主干网络包括图像处理分支、点云处理分支和融合模块,所述的图像处理分支包括了五个依次级联连接的特征提取块,原始图像输入到第一个特征提取块,经五个特征提取块依次处理后输出各自的图像特征;
    所述的点云处理分支包括了四个依次连接的SA层,原始点云输入到第一个SA层,经五个特征提取块依次处理后输出各自的特征点云;将各个特征提取块输出的结果以及各个SA层输出的结果和原始点云通过多个融合模块进行融合传递处理并反馈到特征提取块中;表示为以下操作:
    Figure PCTCN2022085903-appb-100001
    F i=I i+Fusion(P j,I i),j=i-1,i∈{1,2,3,4,5},j∈{0,1,2,3,4}
    Figure PCTCN2022085903-appb-100002
    Figure PCTCN2022085903-appb-100003
    其中,
    Figure PCTCN2022085903-appb-100004
    为第1个特征提取块的操作,I i表示第i个特征提取块输出的图像特征,I 0表示原始图像,I 1表示第1个特征提取块输出的图像特征,F i表示第i个融合模块输出的融合后特征图,Fusion(·)为融合模块的操作,P j表示第j个SA层输出的特征点云,P 0为原始点云,
    Figure PCTCN2022085903-appb-100005
    为第j+1个SA层的操作;
    通过循环上述操作得到各个融合模块的输出结果,组成融合后特征图集合{F 1,F 2,F 3,F 4,F 5}。
  6. 根据权利要求5所述的一种基于图像和点云融合的道路区域检测网络,其特征在于:所述融合模块的具体操作步骤如下:
    S1、使用预先标定的激光雷达和相机的外参矩阵
    Figure PCTCN2022085903-appb-100006
    (该矩阵为4x4的方阵)和相机的内参矩阵K,求出第j个SA层输出的特征点云P j中的每个点在第i个特征提取块输出的图像特征I i的图像坐标系下的像素位置:
    Figure PCTCN2022085903-appb-100007
    c i=2 i
    其中,P′ j为P j的齐次坐标,Q ij为特征点云P j在图像特征图I i的图像坐标系下的齐次坐标,c i为图像特征图I i所对应的缩放尺度常量,
    Figure PCTCN2022085903-appb-100008
    表示向下取整操作;
    S2、对于图像特征I i的每个像素,选取齐次坐标为该像素位置的特征点云P j中的点组成集合,对该集合中的所有点的特征值取平均值,得到图像特征I i的该像素从特征点云P j中获取的特征;
    S3、对图像特征I i中的每个像素均进行上述操作,组成完整图像作为融合后特征图F i
  7. 根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络,其特征在于:所述的解码网络包括五个解码层,每个解码层均由上采样Upsampling+2D卷积+BN+ReLU+2D卷积+BN+ReLU依次级联连接构建而成,其中上采样Upsampling为使用双线性插值实现,2D卷积使用卷积核尺寸为3x3、padding尺寸为1的卷积操作,BN为批标准化层,ReLU为激活函数;
    五个解码层分别和融合后特征图集合{F 1,F 2,F 3,F 4,F 5}中的五个融合后特征图一一对应处理,将融合后特征图集合{F 1,F 2,F 3,F 4,F 5}中的每个当前融合后特征图均输入到各自对应的一个解码层中处理获得当前解码特征,并将当前解码特征和当前融合后特征图一起反馈到下一个解码层中处理,具体表示为:
    Figure PCTCN2022085903-appb-100009
    其中,
    Figure PCTCN2022085903-appb-100010
    为第i+1个解码层的调用操作,U i表示第i个解码特征;
    第i+1个解码层
    Figure PCTCN2022085903-appb-100011
    具体步骤为,对第i+1个解码特征U i+1进行上采样Upsampling操作,然后将上采样Upsampling操作得到的结果与第i+1个融合后特征图F 5-i相加,然后对相加结果依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作;
    第5个融合后特征图F 5作为初始的解码特征U 0;对于第5个解码层
    Figure PCTCN2022085903-appb-100012
    输入只有第4个解码特征U 4,直接对第4个解码特征U 4依次进行2D卷积+BN+ReLU+2D卷积+BN+ReLU的操作得到输出第5个解码特征U 5
  8. 根据权利要求1所述的一种基于图像和点云融合的道路区域检测网络,其特征在于:所述的逐点卷积具体是将解码网络输出的解码特征结果依次经卷积操作和Sigmoid操作后通过阈值判断进行分类处理。
PCT/CN2022/085903 2021-09-18 2022-04-08 一种基于图像和点云融合网络的道路区域图像识别方法 WO2023040247A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111098880.7A CN113887349A (zh) 2021-09-18 2021-09-18 一种基于图像和点云融合网络的道路区域图像识别方法
CN202111098880.7 2021-09-18

Publications (1)

Publication Number Publication Date
WO2023040247A1 true WO2023040247A1 (zh) 2023-03-23

Family

ID=79009998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/085903 WO2023040247A1 (zh) 2021-09-18 2022-04-08 一种基于图像和点云融合网络的道路区域图像识别方法

Country Status (2)

Country Link
CN (1) CN113887349A (zh)
WO (1) WO2023040247A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343063A (zh) * 2023-05-26 2023-06-27 南京航空航天大学 一种路网提取方法、系统、设备及计算机可读存储介质
CN116452866A (zh) * 2023-04-04 2023-07-18 北京科技大学顺德创新学院 基于点云-体素的几何自适应点云分类和分割方法及装置
CN116612287A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN117092612A (zh) * 2023-10-18 2023-11-21 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117152330A (zh) * 2023-07-10 2023-12-01 中国地质大学(武汉) 一种基于深度学习的点云3d模型贴图方法和装置
CN117740186A (zh) * 2024-02-21 2024-03-22 微牌科技(浙江)有限公司 隧道设备温度检测方法、装置和计算机设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887349A (zh) * 2021-09-18 2022-01-04 浙江大学 一种基于图像和点云融合网络的道路区域图像识别方法
CN114821131A (zh) * 2022-05-05 2022-07-29 北京京东乾石科技有限公司 目标检测方法、装置和无人车

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929692A (zh) * 2019-12-11 2020-03-27 中国科学院长春光学精密机械与物理研究所 一种基于多传感器信息融合的三维目标检测方法及装置
CN111583337A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于多传感器融合的全方位障碍物检测方法
CN111950467A (zh) * 2020-08-14 2020-11-17 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN113160330A (zh) * 2021-04-16 2021-07-23 上海交通大学 基于端到端的相机与激光雷达标定方法、系统及介质
US20210241026A1 (en) * 2020-02-04 2021-08-05 Nio Usa, Inc. Single frame 4d detection using deep fusion of camera image, imaging radar and lidar point cloud
CN113887349A (zh) * 2021-09-18 2022-01-04 浙江大学 一种基于图像和点云融合网络的道路区域图像识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929692A (zh) * 2019-12-11 2020-03-27 中国科学院长春光学精密机械与物理研究所 一种基于多传感器信息融合的三维目标检测方法及装置
US20210241026A1 (en) * 2020-02-04 2021-08-05 Nio Usa, Inc. Single frame 4d detection using deep fusion of camera image, imaging radar and lidar point cloud
CN111583337A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于多传感器融合的全方位障碍物检测方法
CN111950467A (zh) * 2020-08-14 2020-11-17 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN113160330A (zh) * 2021-04-16 2021-07-23 上海交通大学 基于端到端的相机与激光雷达标定方法、系统及介质
CN113887349A (zh) * 2021-09-18 2022-01-04 浙江大学 一种基于图像和点云融合网络的道路区域图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG, QI ET AL.: "PI-Net: An End-to-End Deep Neural Network for Bidirectionally and Directly Fusing Point Clouds With Images", IEEE ROBOTICS AND AUTOMATION LETTERS, vol. 6, no. 4, 22 September 2021 (2021-09-22), pages 8647 - 8654, XP011880654, DOI: 10.1109/LRA.2021.3114429 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452866A (zh) * 2023-04-04 2023-07-18 北京科技大学顺德创新学院 基于点云-体素的几何自适应点云分类和分割方法及装置
CN116343063A (zh) * 2023-05-26 2023-06-27 南京航空航天大学 一种路网提取方法、系统、设备及计算机可读存储介质
CN116343063B (zh) * 2023-05-26 2023-08-11 南京航空航天大学 一种路网提取方法、系统、设备及计算机可读存储介质
CN117152330A (zh) * 2023-07-10 2023-12-01 中国地质大学(武汉) 一种基于深度学习的点云3d模型贴图方法和装置
CN117152330B (zh) * 2023-07-10 2024-05-28 中国地质大学(武汉) 一种基于深度学习的点云3d模型贴图方法和装置
CN116612287A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116612287B (zh) * 2023-07-17 2023-09-22 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN117092612A (zh) * 2023-10-18 2023-11-21 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117092612B (zh) * 2023-10-18 2024-01-26 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117740186A (zh) * 2024-02-21 2024-03-22 微牌科技(浙江)有限公司 隧道设备温度检测方法、装置和计算机设备
CN117740186B (zh) * 2024-02-21 2024-05-10 微牌科技(浙江)有限公司 隧道设备温度检测方法、装置和计算机设备

Also Published As

Publication number Publication date
CN113887349A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
WO2023040247A1 (zh) 一种基于图像和点云融合网络的道路区域图像识别方法
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN111626217B (zh) 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN111968129A (zh) 具有语义感知的即时定位与地图构建系统及方法
CN110751185A (zh) 目标检测模型的训练方法和装置
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与系统
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN109753959B (zh) 基于自适应多尺度特征融合的路面交通标志检测方法
CN112633220B (zh) 一种基于双向序列化建模的人体姿态估计方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法
CN112784834A (zh) 一种自然场景下的车牌自动识别方法
Lv et al. A novel approach for detecting road based on two-stream fusion fully convolutional network
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN115661777A (zh) 一种联合语义的雾天道路目标检测算法
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
Luo et al. Dynamic multitarget detection algorithm of voxel point cloud fusion based on pointrcnn
CN114677558A (zh) 一种基于方向梯度直方图与改进胶囊网络的目标检测方法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN106650814B (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
Ramezani et al. Deep robust multi-robot re-localisation in natural environments
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE