WO2024060605A1

WO2024060605A1 - 基于改进YOLOv5的多任务全景驾驶感知方法与系统

Info

Publication number: WO2024060605A1
Application number: PCT/CN2023/089631
Authority: WO
Inventors: 戚湧; 曾鑫
Original assignee: 南京理工大学
Priority date: 2022-09-20
Filing date: 2023-04-21
Publication date: 2024-03-28
Also published as: CN115223130A; CN115223130B; GB2624812A; GB202403166D0

Abstract

本发明属于自动驾驶技术领域，公开了一种基于改进YOLOv5的多任务全景驾驶感知方法与系统。本发明的方法包括对数据集中的图像进行图片预处理，得到输入图像；利用改进YOLOv5的主干网络提取输入图像的特征，得到特征图；主干网络由将YOLOv5主干网络中C3模块替换为反转残差瓶颈模块得到；将特征图输入颈部网络得到的特征图与主干网络得到的特征图融合；将融合特征图输入到检测头进行交通目标检测；将颈部网络的特征图输入到分支网络，进行车道线检测和可行驶区域分割。采用本发明能够实时、高精度地处理车辆周围场景信息，帮助车辆决策系统做出判断，能够同时进行交通目标检测、可行驶区域分割和车道线检测这三个任务。

Description

基于改进YOLOv5的多任务全景驾驶感知方法与系统

本申请要求于2022年09月20日提交中国专利局、申请号为202211141578.X、发明名称为“基于改进YOLOv5的多任务全景驾驶感知方法与系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于自动驾驶技术领域，具体涉及一种基于改进YOLOv5的多任务全景驾驶感知方法及系统。

背景技术

深度学习对于许多领域的最新进展至关重要，尤其是在自动驾驶方面。自动驾驶汽车中的许多深度学习应用都在其感知系统中。因为感知系统可以从一个放在车上的单目相机拍摄的图像中提取视觉信息，并帮助车辆的决策系统做出良好的驾驶决策来控制车辆行为。为了车辆能在遵守交通规则前提下安全地行驶在道路上，视觉感知系统应该能够实时地处理周围的场景信息，然后来帮助决策系统做出判断，包括：障碍物的位置、道路是否可行驶、车道的位置等。因此，全景驾驶感知算法必须确保对交通目标检测、可行驶区域分割和车道线检测三个最关键的任务进行检测。

因此很多研究者提出了多任务网络，该网络可以同时处理多个任务而不是逐个处理来加速图像分析过程，该网络还可以在多个任务之间共享信息，这可能会提高每个任务的性能，因为多任务网络通常共享相同主干网络用于特征提取。其中，有的研究者提出了一个实例分割算法Mask R-CNN，该算法用于联合检测对象和分割实例，每个任务都达到了最先进的性能。但这不可能直接应用于智能交通领域，因为该网络无法检测可行驶区域和车道线。有的研究者提出了MultiNet网络结构，该网络结构由一个共享的主干网络和三个单独的分支网络，用于分类、目标检测和语义分割。它在这些任务上表现良好，并在KITTI可行驶区域分割任务上达到了最先进的水平。然而，在全景驾驶感知系统中，分类任务不如车道检测那么重要。有的研究者提出了DLT-Net网络结构，该网络结构将交通目标检测、可行驶区域分割和车道线检测结合在一起，并提出了上下文张量来融合分支网络之间的特征地图，以共享相互信息。虽然具有竞争性的性能，但它不能达到实时性。有的研究者为全景驾驶感知系统构建了一个高效的多任务网络(YOLOP)，该网络包括目标检测、可行驶区域分割和车道检测任务，可以在嵌入式设备JetsonTX2上通过TensorRT部署实现实时性，虽然在实时性和高精度上都达到了先进的水平，但它的三分支网络分别用于处理三个不同的任务增加了网络的推理时间。

综上所述，全景驾驶感知算法中由于可行驶区域分割和车道线检测任务分别采用不同的分支网络进行网络推理，增加了网络的推理时间，因此存在一定的改进空间。

发明内容

本发明目的是：针对现有技术的不足，提供一种基于改进YOLOv5的多任务全景驾驶感知方法与系统，能够实时、高精度地处理车辆周围的场景信息，帮助车辆的决策系统做出判断，能够同时完成交通目标检测、可行驶区域分割和车道线检测这三个任务。

具体地说，本发明是采用以下技术方案实现的。

一方面，本发明提供一种基于改进YOLOv5的多任务全景驾驶感知方法，包括：

采用YOLOv4的图片预处理方法对车载摄像头采集的视频中每一帧图像进行图片预处理，得到输入图像；

利用改进YOLOv5的主干网络提取所述输入图像的特征，得到特征图；所述改进YOLOv5的主干网络，由将YOLOv5的主干网络中C3模块替换为反转残差瓶颈模块得到，所述反转残差瓶颈模块由x个反转残差瓶颈组件结构组成，其中，x为自然数；所述反转残差瓶颈组件结构由三层组成，第一层是卷积组件，该层将低维空间映射到高维空间进行维度扩展；第二层是深度可分离卷积层，采用深度可分离卷积进行空间过滤；第三层是卷积组件，该层将高维空间映射到低维空间；

将所述改进YOLOv5的主干网络得到的特征图输入到颈部网络，在颈部网络中经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图与所述改进YOLOv5的主干网络得到的特征图融合，得到融合的特征图；

将所述融合的特征图输入到检测头，经路径聚合网络PAN得到多尺度融合特征图，对所述多尺度融合特征图采用YOLOv4基于锚定的多尺度检测方案，进行交通目标检测；

将所述经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图中底层特征图输入到分支网络，利用分支网络进行车道线检测和可行驶区域分割。

进一步的，所述图片预处理还包括将所述车载摄像头采集的视频中每一帧图像从宽度×高度×通道数为1280×720×3的图像调整成宽度×高度×通道数为640×384×3的图像。

进一步的，所述改进YOLOv5的主干网络中采用三个反转残差瓶颈模块；

第一个反转残差瓶颈模块为CSPI_1，由卷积组件Conv和一个反转残差瓶颈组件结构经过Concat操作组成；

第二个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；

第三个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；

其中，卷积组件Conv由conv函数、Bn函数、SiLU函数三者组成；

所述利用改进YOLOv5的主干网络提取所述输入图像的特征，得到的特征图包括特征图out1、特征图out2和特征图out3；

所述特征图out1，为预处理图片经过Focus操作后又经过Conv、CSPI_1操作，再经过Conv、CSPI_3操作后得到的特征图；

所述特征图out2，为所述特征图out1经过Conv、CSPI_3操作后得到的特征图；

所述特征图out3，为所述特征图out2经过Conv操作后得到的特征图。

进一步的，在所述特征金字塔网络FPN中，由空间金字塔池SPP网络输入的特征图经过反转残差瓶颈模块，再经过Conv操作后得到高层特征图f3，输出到检测头；

所述高层特征图f3经过上采样，再与所述特征图out2进行Concat操作得到的特征图，经过反转残差瓶颈模块，再经过Conv操作后得到中层特征图f2，输出到检测头；

所述中层特征图f2经过上采样，再与所述特征图out1进行Concat操作得到底层特征图f1，输出到检测头。

进一步的，所述分支网络由四层卷积组件、三层BottleneckCSP模块和三层上采样层组成；

所述利用分支网络进行车道线检测和可行驶区域分割包括：将所述特征金字塔网络FPN中底层特征图f1在分支网络中经过三层上采样层后，恢复成大小为W×H×4的特征图，其中，W为输入图像宽度，H为输入图像高度，特征图中特征点与输入图像中像素点一一对应，4表示特征图中每个特征点有四个取值；所述分支网络将所述大小为W×H×4的特征图切分成两个大小为W×H×2的特征图，其中一个大小为W×H×2的特征图表示输入图像中每个像素点对于可行驶区域对应背景的概率，用来预测可行驶区域，预测所得的可行驶区域作为可行驶区域分割的结果；另一个大小为W×H×2的特征图表示输入图像中每个像素点对于车道线对应背景的概率，用来预测车道线，预测所得的车道线作为车道线检测的结果；其中，W为输入图像宽度，H为输入图像高度，2表示该特征图中每个特征点有两个取值，用这两个取值分别表示该特征点相应像素点有目标的概率、该特征点相应像素点无目标的概率。

进一步的，在所述上采样层中使用最近插值方法进行上采样处理。

另一方面，本发明还提供一种基于改进YOLOv5的多任务全景驾驶感知系统，实现上述基于改进YOLOv5的多任务全景驾驶感知方法，包括：

人机交互模块，用于提供预留输入接口，获得格式正确的输入数据；

多任务检测模块，用于根据所述人机交互模块获得的输入数据，分别完成交通目标检测、车道线检测和可行驶区域分割这三个任务，将交通目标检测、车道线检测和可行驶区域分割的结果输出给显示模块；

显示模块，显示所述输入数据，和多任务检测模块输出的交通目标检测、车道线检测和可行驶区域分割的结果。

进一步的，所述基于改进YOLOv5的多任务全景驾驶感知系统，还包括：

交通目标检测模块，用于完成交通目标检测任务，将交通目标检测结果、交通目标类别和交通目标检测精确率输出给显示模块；

车道线检测模块，用于完成车道线检测任务，将车道线检测结果和车道线检测精确率输出给显示模块；

可行驶区域分割模块，用于完成可行驶区域分割任务，将可行驶区域分割结果输出给显示模块；

所述显示模块，能够显示交通目标类别、交通目标检测精确率或车道线检测精确率。

再一方面，本发明还提供一种基于改进YOLOv5的多任务全景驾驶感知设备，所述设备包括存储器和处理器；所述存储器存储有实现上述基于改进YOLOv5的多任务全景驾驶感知方法的计算机程序，所述处理器执行所述计算机程序，以实现上述方法的步骤。

又一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现上述方法的步骤。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统的有益效果如下：

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，采用基于YOLOv5网络结构的多任务全景驾驶感知算法框架DP-YOLO(Driving perception-YOLO)，使用端到端的网络实现实时、高精度的交通目标检测、可行驶区域分割和车道线检测。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，设计了一种反转残差瓶颈模块(CSPI_x模块)，把YOLOv5主干网络中原有的C3模块替换为反转残差瓶颈模块。反转残差瓶颈模块(CSPI_x模块)是由x个反转残差瓶颈组件结构组成，x为自然数。CSPI_x模块把基础层的特征映射为两部分，然后通过跨阶段层次结构将它们合并，这样可以大大减少主干网络的计算量，提高主干网络的运行速度，同时精度基本上保持不变。对于实时性要求很高的系统，反转残差瓶颈模块允许一个特别的内存有效管理方式，从而提升了网络模型的识别精度。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，设计了一种分支网络，由四层卷积组件(Conv)、三层BottleneckCSP模块和三层上采样层组成。该分支网络可以同时对可行驶区域分割和车道线检测两个任务进行训练，采用BottleneckCSP模块，能加强网络特征融合的能力，提高检测精度；将特征金字塔网络FPN输出的底层特征图输入到可行驶区域分割分支网络，FPN的底层具有较强的语义信息和利于定位的高分辨率信息。进一步的，在上采样层中使用最近插值方法进行上采样处理，以减少计算成本。本发明的分支网络不仅获得了高精度的输出，而且减少了其推理时间，从而在保证对精度影响不大的前提下提高了分支网络提取特征的速度。

本发明提供一种基于改进YOLOv5的多任务全景驾驶感知系统，方便展示基于改进YOLOv5的多任务全景驾驶感知方法进行交通目标检测、车道线检测、可行驶区域分割的结果。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，能够同时进行交通目标检测、可行驶区域分割和车道线检测这三个任务，与其他现有方法相比，具有更高的推理速度和检测精确度；本发明的基于改进YOLOv5的多任务全景驾驶感知方法和系统可以更好地处理车辆周围的场景信息，然后来帮助车辆的决策系统做出判断，具有较好的实际可行性。

说明书附图

图1为本发明的方法流程图。

图2为本发明实施例的网络模型结构示意图。

图3为本发明实施例的反转残差瓶颈模块结构示意图，其中，(a)为反转残差瓶颈模块(CSPI_x模块)，(b)为反转残差瓶颈组件结构(Invert Bottleneck)。

图4为本发明实施例的输入图片经过主干网络时特征图的大小和通道数变化示意图。

图5为本发明实施例的特征图经过颈部网络时大小和通道数变化示意图。

图6为本发明实施例的分支网络模型结构示意图。

具体实施方式

下面结合实施例并参照附图对本发明作进一步详细描述。

实施例1：

本发明的一个实施例，为一种基于改进YOLOv5的全景驾驶感知方法，是一种简单高效的检测方法(DP-YOLO，Driving perception-YOLO)。本实施例实施的硬件条件和相关软件配置如下：

实验机器操作系统版本为CentOS Linux release 7.6.1810，CPU型号为HygonC86 7185 32-core Processor CPU@2.0GHz，GPU型号为NVIDIA Tesla T4，显存大小为16GB，内存大小为50GB。

程序代码使用Python3.8和Pytorch 1.9实现，并使用cuda 11.2和cudnn 7.6.5对GPU进行加速。模型迭代次数设置为200，每批次的输入数据量为24，表示每次训练时在训练集中取24个训练样本进行训练，初始学习率为0.01，动量与重量衰减分别设置为0.937和0.0005，在训练过程中，通过预热和余弦退火调整学习速率，使模型更快更好地收敛。

如图1所示，本实施例的基于改进YOLOv5的全景驾驶感知方法包括以下步骤：

一、图片预处理

本发明采用YOLOv4的图片预处理方法对车载摄像头采集的视频中每一帧图像进行图片预处理，得到输入图像。其中，YOLOv4的图片预处理方法，用来消除原始图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。

本实施例选择BDD 100K数据集来训练和评估本发明的网络模型，将BDD 100K数据集分为三部分，即70K图像的训练集、10K图像的验证集和20K图像的测试集。由于测试集的标签不是公共的，所以在验证集上评估网络模型。

优选的，在另一个实施例中，为了节省内存使用，还将BDD 100K数据集中的每一帧图像从宽度×高度×通道数为1280×720×3的图像调整成宽度×高度×通道数为640×384×3的图像，其中宽度、高度单位为像素。

二、特征提取，即利用基于改进YOLOv5的主干网提取输入图像的特征。

如图2所示，本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，采用改进YOLOv5的主干网络，把YOLOv5主干网络中原有的C3模块替换为反转残差瓶颈模块(CSPI_x模块)。反转残差瓶颈模块(CSPI_x模块)由x个反转残差瓶颈组件结构(InvertBottleneck)组成，x为自然数。如图3中(a)所示，本发明中的CSPI_x模块，把基础层的特征映射为两部分，然后通过跨阶段层次结构将它们合并，这样可以大大减少网络的计算量，提高网络的运行速度，同时精度基本上保持不变。对于实时性要求很高的系统，反转残差瓶颈模块允许一个特别的内存有效管理方式，从而提升了网络模型的识别精度。

本实施例的主干网络中采用了三个CSPI_x模块，如图2所示。

第一个反转残差瓶颈模块为CSPI_1，由卷积组件Conv和一个反转残差瓶颈组件结构经过Concat操作组成。

第二个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成。

第三个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成。

其中，卷积组件Conv由conv函数(卷积函数)、Bn函数(归一化函数)、SiLU函数(激活函数)三者组成。

如图3中(b)所示，CSPI_x模块中的反转残差瓶颈组件结构(Invert Bottleneck)由三层组成。第一层是卷积组件(Conv)，该层将低维空间映射到高维空间进行维度扩展。第二层是深度可分离卷积层(DWConv层)，采用深度可分离卷积进行空间过滤。第三层是卷积组件(Conv)，该层将高维空间映射到低维空间。比较对维度扩展时分别将低维空间映射到2倍高维空间、3倍高维空间和4倍高维空间时的网络推理速度，当维度扩展到2倍高维空间时，推理速度能达到7.9毫秒/帧，但网络的检测精度比较低。当维度扩展到3倍高维空间时推理速度为9.1毫秒/帧。当维度扩展到4倍高维空间时推理速度达到了10.3毫秒/帧。优选的，在另一个实施例中，选择将低维空间映射到3倍高维空间，与维度扩展到4倍相比，网络在检测精度有些下降，但减少了网络的推理时间和计算量。

如图2和图4所示，利用改进YOLOv5的主干网络提取所述输入图像的特征后，得到的特征图包括特征图out1、特征图out2和特征图out3。

特征图out1，为预处理图片经过Focus操作后又经过Conv、CSPI_1操作，再经过Conv、CSPI_3操作后得到的特征图。

特征图out2，为所述特征图out1经过Conv、CSPI_3操作后得到的特征图。

特征图out3，为所述特征图out2经过Conv操作后得到的特征图。

例如，经过预处理的图片(即输入图像)大小为640×384×3，即图片的宽度、高度、通道数分别为640、384、3。将经过预处理的图片输入到主干网络，最后输出三个特征图，分别是out1(特征图out1大小为80×48×128)、out2(特征图out2大小为40×24×256)和out3(特征图out3大小为20×12×512)。在主干网络中，特征图的大小和通道数的变化的规律如下：

输入图像，即图2和图4中输入图像(大小为640×384×3)，经过Focus操作后成为(320×192×32)的特征图；经过Conv、CSPI_1操作后成为(160×96×64)的特征图；再经过Conv、CSPI_3操作后成为(80×48×128)的特征图，作为第一个输出out1；再经过Conv、CSPI_3操作后成为(40×24×256)的特征图，作为第二个输出out2；经过Conv操作后成为(20×12×512)的特征图，作为第三个输出out3。即经过预处理的大小为(640×384×3)的图片，经过主干网络后得到尺度为20×12的特征图。

三、特征融合，即经过主干网络的特征输入到颈部网络(Neck)，在颈部网络中经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图与所述主干网络得到的特征图融合，得到融合的特征图。

本发明的颈部网络中采用了空间金字塔池SPP网络和特征金字塔网络FPN组成颈部网络。空间金字塔池SPP网络首要作用是用来解决输入图像尺寸不统一的问题，SPP网络中不同大小特征的融合，有利于待检测图像中目标大小差异较大的情况。特征金字塔网络FPN主要作用是解决物体检测中的多尺度问题，在基本不增加原有网络模型计算量的情况下，通过简单的网络连接改变，大幅度提升了小物体的检测性能。具体包括：

将主干网络输出的特征图送入颈部网络，依次经过SPP网络、FPN，得到的特征图输入检测头(Detect Head)。

SPP网络使卷积神经网络能够输入任意大小的图片，在卷积神经网络的最后一层卷积层后面加入一层SPP网络，它能使不同任意尺寸的特征图通过该SPP网络之后都能输出一个固定长度的特征图。

FPN是自顶向下的，将高层特征通过上采样与底层特征做融合，得到用于预测的特征图，将高层的强语义特征传递下来，从而对整个金字塔进行增强。

例如，如图2所示，将主干网络输出的特征图大小为(20×12×512)送入SPP网络中，得到的特征图，再送入FPN。

如图5所示，在所述特征金字塔网络FPN中，由空间金字塔池SPP网络输入的特征图经过反转残差瓶颈模块，再经过Conv操作后得到高层特征图f3，输出到检测头。

所述高层特征图f3经过上采样(UpSample)，再与主干网络得到的特征图out2进行Concat操作得到的特征图，经过反转残差瓶颈模块，再经过Conv操作后得到中层特征图f2，输出到检测头。

所述中层特征图f2经过上采样(UpSample)，再与主干网络得到的特征图out1进行Concat操作得到底层特征图f1，输出到检测头。

例如，在特征金字塔网络FPN中，由空间金字塔池SPP网络输入的(大小为20×12×512)的特征图经过反转残差瓶颈模块后(大小为20×12×512)，再经过Conv操作后得到高层特征图f3(大小为20×12×256)，最后输出到检测头。

上述的高层特征图f3(大小为20×12×256)，经过上采样变成的特征图(大小为40×24×256)，再与主干网络中的特征图out2(大小为40×24×256)进行Concat操作得到的特征图(大小为40×24×512)，经过反转残差瓶颈模块(CSPI_1模块)得到的特征图(大小为40×24×256)，再经过Conv操作后得到中层特征图f2(大小为40×24×128)，最后输出到检测头。

上述的中层特征图f2(大小为40×24×128)，经过上采样变成的特征图(大小为80×48×128)，再与主干网络中特征图out1(大小为80×48×128)进行Concat操作得到底层特征图f1(大小为80×48×256)，最后输出到检测头。

四、交通目标检测，即经过颈部网络得到的融合的特征图输入到检测头，检测头利用获得到的特征对交通目标进行预测。具体包括：

将所述融合的特征图输入到检测头，经路径聚合网络PAN得到多尺度融合特征图，对所述多尺度融合特征图采用YOLOv4基于锚定的多尺度检测方案，进行交通目标检测。

本发明的检测头中采用了路径聚合网络PAN。路径聚合网络是一种自下而上的特征金字塔网络。利用颈部网络中FPN自上而下传递语义特征，以及PAN自下而上传递定位特征，将二者结合起来获得更好的特征融合效果。然后直接使用PAN中的多尺度融合特征图进行检测。所述YOLOv4基于锚定的多尺度检测方案包括将多尺度特征图(例如大小为(20×12×3×6)、(40×24×3×6)、(80×48×3×6)这三个特征图大小不一样，所以叫多尺度特征图)的每个网格(例如大小为(20×12×3×6)特征图中尺度就是(20×12)，总计20*12＝240个网格)分配若干个(例如3个)不同长宽比的先验框，检测头对位置偏移、高度和宽度的缩放，以及交通目标对应的概率和预测的置信度进行预测。例如：

首先，颈部网络输出的三个特征图，输入到PAN之后得到大小为(80×48×128)、(40×24×256)和(80×48×512)的三个特征图，再经过Conv操作后得到三个特征图大小分别为(20×12×18)、(40×24×18)、(80×48×18)，每个特征图的每个网格中，都配置3个不同的先验框，经过检测头中reshape操作后，三张特征图大小分别为(20×12×3×6)、(40×24×3×6)、(80×48×3×6)。这三张特征图就是最终的输出的检测结果。因为检测框位置(4维)、检测置信度(1维)、类别(1维)，加起来正好是6维，特征图最后一个特征的维度为6，代表的就是这些信息，而特征图其他特征的维度M×N×3中，M代表特征矩阵的行数，N代表特征矩阵的列数，3代表3个不同尺度的先验框。

五、车道线检测和可行驶区域分割，即利用分支网络进行车道线检测和可行驶区域分割。

因为FPN的底层具有较强的语义信息和利于定位的高分辨率信息，将经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图中的底层特征图输入到分支网络，其大小为(W/8)×(H/8)×128，其中，W为输入图像宽度640(像素)，H为输入图像高度384(像素)。

分支网络由四层卷积组件(Conv)、三层BottleneckCSP模块和三层上采样层组成，如图6所示。BottleneckCSP模块能加强网络特征融合的能力，提高检测精度，因此，本发明的分支网络能够获得了高精度的输出。优选的，在另一个实施例中，在上采样层中使用最近插值方法进行上采样处理，可以减少计算成本，从而使得分支网络减少了推理时间。

特征金字塔网络FPN中底层特征图f1在分支网络中经过三层上采样层(即经过了三次上采样处理)后，恢复成大小为W×H×4的特征图，其中，W为输入图像宽度(例如640像素)，H为输入图像高度(例如384像素)，特征图中特征点与输入图像中像素点一一对应，4表示特征图中每个特征点有四个取值。

本发明的分支网络最终将大小为W×H×4的特征图切分成两个大小为W×H×2特征图。其中一个大小为W×H×2的特征图表示输入图像中每个像素对于可行驶区域对应背景的概率，用来预测可行驶区域，预测所得的可行驶区域作为可行驶区域分割的结果；另一个大小为W×H×2的特征图表示输入图像中每个像素对于车道线对应背景的概率，用来预测车道线，预测所得的车道线作为车道线检测的结果。其中，W为输入图像宽度(例如640像素)，H为输入图像高度(例如384像素)，2表示该特征图中每个特征点有两个取值，用这两个取值分别表示该特征点相应像素点有目标的概率、该特征点相应像素点无目标的概率。

为了验证对YOLOv5进行改进后网络模型的性能，需要选用恰当的评价指标对网络模型进行评价。本发明采用交并比(IoU)来评估可行驶区域和车道线分割，采用平均交并比(mIoU)来评估不同模型的分割性能。

交并比(IoU)用于衡量预测掩码图与真实掩码图之间的像素重叠，公式如下。

其中，TN是指被模型预测为负类的负样本，FP是指被模型预测为正类的负样本，FN是指被模型预测为负类的正样本。

采用平均交并比(mIoU)是对于每个预测类别(指的是车道线预测、可行驶区域预测)计算出的IoU求和取平均，公式如下。

其中，K表示预测类别的数量，K+1表示加上了背景类的预测类别的数量，TP是指被模型预测为正类的正样本，FP是指被模型预测为正类的负样本，FN是指被模型预测为负类的正样本。

原始模型与改进模型的性能指标对比参见下表。

表1原始模型与改进模型的性能指标对比表

其中，Recall(召回率)、AP(平均精度)、mIoU(平均交并比)、Accuracy(车道线的精确度)、IoU(交并比)的单位为(％)，Speed(帧率)的单位是毫秒/帧。从表1数据可以看出改进模型在各个任务中的识别精度都有较好的提升，在交通目标检测任务中召回率(Recall)达到了89.3％，AP值达到了77.2％，在可行驶区域分割任务中平均交并比(mIoU)达到了91.5％，在车道线检测任务中检测精度(Accurary)达到了71.1％，交并比(IoU)达到了26.0％，检测速度达到了9.1ms/frames。实验数据结果表明本发明提出的基于改进YOLOv5的多任务全景驾驶感知方法对全景驾驶感知任务有着较好的提升作用，并且满足实时性的要求。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，设计了一种反转残差瓶颈模块(CSPI_x模块)，把YOLOv5主干网络中原有的C3模块用反转残差瓶颈模块进行替换。反转残差瓶颈模块(CSPI_x模块)是由x个反转残差瓶颈组件结构组成，x为自然数。CSPI_x模块把基础层的特征映射为两部分，然后通过跨阶段层次结构将它们合并，这样可以大大减少主干网络的计算量，提高主干网络的运行速度，同时精度基本上保持不变。对于实时性要求很高的系统，反转残差瓶颈模块允许一个特别的内存有效管理方式，从而提升了网络模型的识别精度。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，设计了一种分支网络，由四层卷积组件(Conv)、三层BottleneckCSP模块和三层上采样层组成。该分支网络可以同时对可行驶区域分割和车道线检测这两个任务进行训练，采用BottleneckCSP模块，能加强网络特征融合的能力，提高检测精度；将FPN的底层输入到分割分支，FPN的底层具有较强的语义信息和利于定位的高分辨率信息。进一步的，在上采样层中使用最近插值方法进行上采样处理，以减少计算成本。本发明的分支网络不仅获得了高精度的输出，而且减少了其推理时间，从而在保证对精度影响不大的前提下提高了分支网络提取特征的速度。

实施例2：

本发明的另一个实施例，为一种基于改进YOLOv5的多任务全景驾驶感知系统，包括：

人机交互模块，用于提供预留输入接口，获得格式正确的输入数据。

多任务检测模块，用于根据所述人机交互模块获得的输入数据，分别完成交通目标检测、车道线检测和可行驶区域分割这三个任务，将交通目标检测、车道线检测和可行驶区域分割的结果输出给显示模块。

优选的，在另一个实施例中，基于改进YOLOv5的多任务全景驾驶感知系统还包括：

交通目标检测模块，用于完成交通目标检测任务，将交通目标检测结果、交通目标类别和交通目标检测精确率输出给显示模块；当只对交通目标类别中的车辆这一类别进行检测，把所有车辆统一归于vehicle这个类别进行检测。

车道线检测模块，用于完成车道线检测任务，将车道线检测结果和车道线检测精确率输出给显示模块。

可行驶区域分割模块，用于完成可行驶区域分割任务，将可行驶区域分割结果输出给显示模块。

所述显示模块还能够显示交通目标类别、交通目标检测精确率或车道线检测精确率。

本发明提供一种基于改进YOLOv5的多任务全景驾驶感知系统，方便展示基于改进YOLOv5的多任务全景驾驶感知方法进行分别进行交通目标检测、车道线检测、可行驶区域分割，或者同时进行多任务检测的检测结果。

在一些实施例中，上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器来实现。该软件包括存储或以其他方式有形实施在非暂时性计算机可读存储介质上的一个或多个可执行指令集合。软件可以包括指令和某些数据，这些指令和某些数据在由一个或多个处理器执行时操纵一个或多个处理器以执行上述技术的一个或多个方面。非暂时性计算机可读存储介质可以包括例如磁或光盘存储设备，诸如闪存、高速缓存、随机存取存储器(RAM)等的固态存储设备或其他非易失性存储器设备。存储在非临时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码或被一个或多个处理器解释或以其他方式执行的其他指令格式。

本发明的基于改进YOLOv5的多任务全景驾驶感知方法与系统，能够对交通目标检测、可行驶区域分割和车道线检测这三个任务同时进行检测，与其他现有方法相比，具有更高的推理速度和检测精确度；本发明的基于改进YOLOv5的多任务全景驾驶感知方法和系统可以更好地处理车辆周围的场景信息，然后来帮助车辆的决策系统做出判断，具有较好的实际可行性。

计算机可读存储介质可以包括在使用期间可由计算机系统访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这样的存储介质可以包括但不限于光学介质(例如，光盘(CD)、数字多功能光盘(DVD)、蓝光光盘)、磁介质(例如，软盘、磁带或磁性硬盘驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如，只读存储器(ROM)或闪存)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以嵌入计算系统(例如，系统RAM或ROM)中，固定地附接到计算系统(例如，磁性硬盘驱动器)，可移除地附接到计算系统(例如，光盘或通用基于串行总线(USB)的闪存)，或者经由有线或无线网络(例如，网络可访问存储(NAS))耦合到计算机系统。

请注意，并非上述一般性描述中的所有活动或要素都是必需的，特定活动或设备的一部分可能不是必需的，并且除了描述的那些之外可以执行一个或多个进一步的活动或包括的要素。更进一步，活动列出的顺序不必是执行它们的顺序。而且，已经参考具体实施例描述了这些概念。然而，本领域的普通技术人员认识到，在不脱离权利要求书中阐述的本公开的范围的情况下，可以进行各种修改和改变。因此，说明书和附图被认为是说明性的而不是限制性的，并且所有这样的修改被包括在本公开的范围内。

上面已经关于具体实施例描述了益处、其他优点和问题的解决方案。然而，可能导致任何益处、优点或解决方案发生或变得更明显的益处、优点、问题的解决方案以及任何特征都不应被解释为任何或其他方面的关键、必需或任何或所有权利要求的基本特征。此外，上面公开的特定实施例仅仅是说明性的，因为所公开的主题可以以受益于这里的教导的本领域技术人员显而易见的不同但等同的方式进行修改和实施。除了在权利要求书中描述的以外，没有意图限制在此示出的构造或设计的细节。因此明显的是，上面公开的特定实施例可以被改变或修改，并且所有这样的变化被认为在所公开的主题的范围内。

Claims

一种基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，包括：

采用YOLOv4的图片预处理方法对车载摄像头采集的视频中每一帧图像进行图片预处理，得到输入图像；

利用改进YOLOv5的主干网络提取所述输入图像的特征，得到特征图；所述改进YOLOv5的主干网络，由将YOLOv5的主干网络中C3模块替换为反转残差瓶颈模块得到，所述反转残差瓶颈模块由x个反转残差瓶颈组件结构组成，其中，x为自然数；所述反转残差瓶颈组件结构由三层组成，第一层是卷积组件，该层将低维空间映射到高维空间进行维度扩展；第二层是深度可分离卷积层，采用深度可分离卷积进行空间过滤；第三层是卷积组件，该层将高维空间映射到低维空间；

将所述改进YOLOv5的主干网络得到的特征图输入到颈部网络，在颈部网络中经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图与所述改进YOLOv5的主干网络得到的特征图融合，得到融合的特征图；

将所述融合的特征图输入到检测头，经路径聚合网络PAN得到多尺度融合特征图，对所述多尺度融合特征图采用YOLOv4基于锚定的多尺度检测方案，进行交通目标检测；

将所述经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图中底层特征图输入到分支网络，利用分支网络进行车道线检测和可行驶区域分割。
根据权利要求1所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述图片预处理还包括将所述车载摄像头采集的视频中每一帧图像从宽度×高度×通道数为1280×720×3的图像调整成宽度×高度×通道数为640×384×3的图像。
根据权利要求1所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述改进YOLOv5的主干网络中采用三个反转残差瓶颈模块；

第一个反转残差瓶颈模块为CSPI_1，由卷积组件Conv和一个反转残差瓶颈组件结构经过Concat操作组成；

第二个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；

第三个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；

其中，卷积组件Conv由conv函数、Bn函数、SiLU函数三者组成；

所述利用改进YOLOv5的主干网络提取所述输入图像的特征，得到的特征图包括特征图out1、特征图out2和特征图out3；

所述特征图out1，为预处理图片经过Focus操作后又经过Conv、CSPI_1操作，再经过Conv、CSPI_3操作后得到的特征图；

所述特征图out2，为所述特征图out1经过Conv、CSPI_3操作后得到的特征图；

所述特征图out3，为所述特征图out2经过Conv操作后得到的特征图。
根据权利要求3所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，在所述特征金字塔网络FPN中，由空间金字塔池SPP网络输入的特征图经过反转残差瓶颈模块，再经过Conv操作后得到高层特征图f3，输出到检测头；

所述高层特征图f3经过上采样，再与所述特征图out2进行Concat操作得到的特征图，经过反转残差瓶颈模块，再经过Conv操作后得到中层特征图f2，输出到检测头；

所述中层特征图f2经过上采样，再与所述特征图out1进行Concat操作得到底层特征图f1，输出到检测头。
根据权利要求4所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述分支网络由四层卷积组件、三层BottleneckCSP模块和三层上采样层组成；

所述利用分支网络进行车道线检测和可行驶区域分割包括：将所述特征金字塔网络FPN中底层特征图f1在分支网络中经过三层上采样层后，恢复成大小为W×H×4的特征图，其中，W为输入图像宽度，H为输入图像高度，特征图中特征点与输入图像中像素点一一对应，4表示特征图中每个特征点有四个取值；所述分支网络将所述大小为W×H×4的特征图切分成两个大小为W×H×2的特征图，其中一个大小为W×H×2的特征图表示输入图像中每个像素点对于可行驶区域对应背景的概率，用来预测可行驶区域，预测所得的可行驶区域作为可行驶区域分割的结果；另一个大小为W×H×2的特征图表示输入图像中每个像素点对于车道线对应背景的概率，用来预测车道线，预测所得的车道线作为车道线检测的结果；其中，W为输入图像宽度，H为输入图像高度，2表示该特征图中每个特征点有两个取值，用这两个取值分别表示该特征点相应像素点有目标的概率、该特征点相应像素点无目标的概率。
根据权利要求5所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，在所述上采样层中使用最近插值方法进行上采样处理。
一种基于改进YOLOv5的多任务全景驾驶感知系统，实现根据权利要求1至6任一所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，包括：

人机交互模块，用于提供预留输入接口，获得格式正确的输入数据；

多任务检测模块，用于根据所述人机交互模块获得的输入数据，分别完成交通目标检测、车道线检测和可行驶区域分割这三个任务，将交通目标检测、车道线检测和可行驶区域分割的结果输出给显示模块；

显示模块，显示所述输入数据，和多任务检测模块输出的交通目标检测、车道线检测和可行驶区域分割的结果。
根据权利要求7所述的基于改进YOLOv5的多任务全景驾驶感知系统，其特征在于，还包括：

交通目标检测模块，用于完成交通目标检测任务，将交通目标检测结果、交通目标类别和交通目标检测精确率输出给显示模块；

车道线检测模块，用于完成车道线检测任务，将车道线检测结果和车道线检测精确率输出给显示模块；

可行驶区域分割模块，用于完成可行驶区域分割任务，将可行驶区域分割结果输出给显示模块；

所述显示模块，能够显示交通目标类别、交通目标检测精确率或车道线检测精确率。
一种基于改进YOLOv5的多任务全景驾驶感知设备，其特征在于，所述设备包括存储器和处理器；所述存储器存储有实现基于改进YOLOv5 的多任务全景驾驶感知方法的计算机程序，所述处理器执行所述计算机程序，以实现根据权利要求1-6任一所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现根据权利要求1-6任一所述方法的步骤。