WO2021238019A1

WO2021238019A1 - 基于Ghost卷积特征融合神经网络实时车流量检测系统及方法

Info

Publication number: WO2021238019A1
Application number: PCT/CN2020/120742
Authority: WO
Inventors: 张莉; 于厚舜; 屈蕴茜; 王邦军; 孙涌
Original assignee: 苏州大学
Priority date: 2020-05-29
Filing date: 2020-10-14
Publication date: 2021-12-02
Also published as: CN111640101A; CN111640101B

Abstract

本发明涉及一种基于Ghost卷积特征融合神经网络实时车流量检测系统及方法,包括：数据预处理模块，用于从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；网络训练模块，通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；目标信息预测模块，从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。本发明误差小，有利于获得良好的性能。

Description

基于Ghost卷积特征融合神经网络实时车流量检测系统及方法

技术领域

本发明涉及车流量检测的技术领域，尤其是指一种基于Ghost卷积特征融合神经网络实时车流量检测系统及方法。

背景技术

近年来，随着交通车辆数量高速增长，交通监管面临巨大挑战。随着智能城市智能交通系统(Intelligent Transport System,ITS)的推广，其应用的核心技术得到了迅速的发展。车流量检测，作为构建交通状况视频监控的一项关键技术，一直是其重要的组成部分。

现有车流量检测的方法大致可以归于三类：第一类是在地下埋感应线圈，当车辆经过感应线圈区域时，由感应线圈装置受到压力发出脉冲信号，从而判断是否有车辆。常用的方法有环形线圈检测法、地磁检测法、电磁检测法等。这类方法较在安装和维修时需要破坏地面，安装成本较高，同时也给车辆的出行造成了不便。第二类是悬挂式检测方法，当车辆驶入检测范围时，检测器发出的微波、超声波或红外线，以此来判断是否有车辆。这类检测方法易于安装，对路面不会造成破坏，但当两辆车并排进入检测范围时，只能计数一辆车，检测精度受到了影响，检测范围较小。第三类为通过摄像机拍摄交通视频，利用计算机视觉技术以及图像处理技术对视频进行处理。相对于前两类传统方法，视频检测方法具有明显的优势：安装和维护装置方便，能对整个路面的路况进行拍摄，检测到的范围比较广，获取到的交通信息比较全面。

传统的基于视觉的车辆检测方法通常是手动提取特征，费时费力，泛化能力差，易受环境变化影响。随着深度学习理论和实践的迅速发展，基于深度学习的目标检测与分类进入了一个新的阶段。不同于传统的特征提取算法，卷积神经网络有很强的泛化性，可以克服改变车辆外观的困难，能够自适应的训练数据驱动下构建的特征描述，具有更大的灵活性和综合能力。目前多数的基于视频的车流量检测方法都是采用了目标检测的方案，采用目标检测的方案优点在于算法不但能够统计车辆的数量，更能给出车辆在图像中的位置。不过这种方案的缺点也很明显，那就是目标检测算法需要很高性能的硬件支持，才能满足其运行时的算力需求。虽然有SSD(Single ShotMultibox Detector)、YOLO(You Only Look Once)等其他快速目标检测网络致力于在保持高速度的同时实现高精度检测，但在低算力移动设备上，这类算法依旧很难满足实时检测车流量的需求。

基于目标检测的方法速度之慢在于这些方法将大部分的算力消耗在车辆的定位和种类识别上，实际上对于车流量的检测这种定位和分类是非必要的，并且基于目标检测的计数方法在车流量大、车辆重叠遮挡严重的场景下识别率会大打折扣。Shi等人在论文“A Real-Time Deep Network For Crowd Counting”中提出了一种实时检测人群密度的轻量化卷积神经网络(Compact Convolutional Neural Network，C-CNN)。该网络对硬件性能要求较低且同样可用于车流量计数，同属于目标计数的领域的技术，但是C-CNN网络结构较为简单且作为轻量化的网络本身没有使用模型压缩技术，因此检测后的误差大，不能获得良好的性能。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中检测后的误差大，不能获得良好性能的问题，从而提供一种检测后的误差小，且获得良好的性能的基于Ghost卷积特征融合神经网络实时车流量检测系统及方法。

为解决上述技术问题，本发明的一种基于Ghost卷积特征融合神经网络实时车流量检测系统，包括：数据预处理模块，用于从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；网络训练模块，通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；目标信息预测模块，从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。

在本发明的一个实施例中，所述网络包括第一层、第二层、第三层、第四层以及第五层，其中所述第一层是三列卷积层，且所述三列卷积层的卷积核大小不同，所述第二层是五层卷积核大小均相同的卷积层，所述第五层是两层卷积核大小均相同的特征融合层。

在本发明的一个实施例中，所述第一层的三列卷积得到的特征图连结后经过最大池化层处理。

在本发明的一个实施例中，所述第三层和第四层卷积得到的特征图均经过最大池化层处理。

在本发明的一个实施例中，所述网络模型包括损失函数。

在本发明的一个实施例中，利用高斯滤波器生成目标图像的密度图后，还包括对所有图像进行归一化处理的步骤。

在本发明的一个实施例中，所述网络模型还包括激活函数。

本发明还提供了一种基于Ghost卷积特征融合神经网络实时车流量检测方法，包括如下步骤：步骤S1:从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；步骤S2:通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；步骤S3:从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。

在本发明的一个实施例中，对所述第一训练集中的目标图像进行标记的方法为:利用标注工具对所述第一训练集中的目标图像进行标记。

在本发明的一个实施例中，将所述测试图像输入至所述网络模型中进行预测时，得到测试图像的预测密度图，对预测密度图进行求和运算就可以得到测试图像的目标信息。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于Ghost卷积特征融合神经网络实时车流量检测系统及方法，在数据预处理模块中，使用图像中已经标注好的目标位置信息，利用高斯滤波器生成目标图像的密度图，并将所有图像归一化；在网络训练模块，使用处理好的图像及生成的密度图对网络进行训练；在目标信息预测模块中，给定一张图像，使用训练好的网络进行预测图像中的目标信息。本发明所述网络包括多个Ghost卷积层，使得所述网络在保证原有性能的同时能够降低参数量，降低对硬件资源的消耗并加快运行速度；不但方法简单，而且检测后的误差小，能获得良好的性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于Ghost卷积特征融合神经网络实时车流量检测系统流程图；

图2是本发明网络模型的示意图；

图3是本发明目标计数结果在TRANCOS数据集上的对比；

图4是本发明目标计数结果在TRANCOS数据集上参数量对比；

图5是基于Ghost卷积特征融合神经网络实时车流量检测方法的流程图。

说明书附图标记说明：10-数据预处理模块，20-网络训练模块，30-目标信息预测模块。

具体实施方式

实施例一

如图1和图2所示，本实施例提供一种基于Ghost卷积特征融合神经网络实时车流量检测系统，包括：数据预处理模块10，用于从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；网络训练模块20，通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；目标信息预测模块30从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。

本实施例所述基于Ghost卷积特征融合神经网络实时车流量检测系统，包括：数据预处理模块10，用于从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集，有利于对网络进行训练；网络训练模块20，通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层，使得所述网络在保证原有性能的同时能够降低参数量，降低对硬件资源的消耗并加快运行速度；目标信息预测模块30从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息，不但方法简单，而且检测后的误差小，能获得良好的性能。

所述数据预处理模块10中，从监控摄像头拍摄的视频中进行抽帧，抽帧得到训练集

其中X _i为训练集中第i张图像，大小为m×n，N为训练集的数量。

使用标注工具标注训练集

中图像X _i中所有目标的中心位置。标注完成可得训练集

其中X _i为训练集中第i张图像，大小为m×n；P _i是第i张图像中目标中心坐标的信息，大小为c _i×2，其中第一列为目标中心点在图像中的横坐标，第二列为目标中心点在图像中的纵坐标，c _i为该图像中的目标数；N为训练集的数量。

采用一个大小为15×15、方差为σ的高斯滤波器，根据P _i中目标中心的坐标信息，生成X _i图像的密度图M _i。

利用高斯滤波器生成目标图像的密度图后，还包括对所有图像进行归一化处理的步骤，将输入图像各通道的像素值由0-255转换到0-1的区间内，通过所述归一化处理能够加快梯度下降的求解速度，提升模型的收敛速度。

训练集D经过上述处理后就可以得到处理好的训练集

用于训练网络。

如图2所示，所述网络训练模块20中，所述网络包括第一层、第二层、第三层、第四层以及第五层，其中所述第一层是三列卷积层，且所述三列卷积层的卷积核大小不同，卷积核大小不同的多列结构使得网络能够捕捉到不同尺度的特征信息，有利于提高目标计数的准确率；所述第二层是五层卷积核大小均相同的卷积层；所述第五层是两层卷积核大小均相同的特征融合层，从而有利于能够有效提升网络生成密度图的质量。

具体地，所有卷积层全部使用“same”模式填充，卷积层参数含义Ghost Conv-(卷积核数量)-(卷积核大小)。所述网络第一层是一个三列卷积层，三列的通道数分别为10、14和16，卷积核大小分别为9、7和5，所述卷积核大小不同的多列结构使得网络能够捕捉到不同尺度的特征信息，提高目标计数的准确率。第一层的三列卷积得到的特征图连结后经过一层最大池化层处理。接着是五层卷积核大小均为3的卷积层，其中所述第三层和第四层卷积得到的特征图均经过最大池化层处理。最后是两层卷积核大小为3的特征融合层，该层的作用是将网络提取到的不同尺度的特征进行融合并进一步提取生成最终预测密度图。由于网络全部采用Ghost卷积层，保证性能的同时网络参数量大幅下降，更适合部署在移动设备和其他低性能设备上运行。

所述网络模型还包括激活函数。本发明网络中使用的所有激活函数均为ReLU激活函数，所有卷积层后均接批标准化层。由于如果网络中没有引入激活函数，那么即使网络层数再多形成的也只是线性变换，而线性函数复杂性有限，因此从数据中学习复杂函数映射的能力小。本发明通过引入激活函数，所述激活函数对特征图进行非线性转换，所有的卷积层生成的特征图经批标准化层处理后再经ReLU激活函数处理，因此有利于提高学习复杂函数映射的能力。

使用处理好的训练集

训练图2所示网络，所述网络模型包括损失函数。所述损失函数的定义为：

其中，N为训练样本的个数，X _i为第i个训练样本，Θ为网络学习的参数，F(X _i；Θ)为网络预测第i个样本的密度图，M _i为第i个样本的真实密度图。

所述目标信息预测模块30中，从监控摄像头拍摄的视频中进行抽帧，作为测试图像。对任意测试图像P，将其输入到训练好的网络模型中进行预测，可以得到图像P的预测密度图M _p，对M _p进行求和运算得到的值即为图像P中预测的目标数：p_count＝sum(M _p)。

下面结合目标计数数据集TRaffic ANd COngestionS(简称TRANCOS)上的测试具体说明：

所述数据集中一共包含1244张已标注的图像，数据集中共有46796个车辆中心坐标信息已标注。该数据集中823张用于训练，其余421张用于测试，其中的图像均是路面监控拍摄而得，图像尺寸均为480*640。

对于所述数据预处理模块10中，由于TRANCOS数据集图像均已标注,可直接得到有标注信息的训练集

其中X _i为TRANCOS中的第i张图像，大小为480*640；P _i是第i张图像中目标中心坐标的信息，大小为c×2，其中第一列为目标中心点在图像中的横坐标，第二列为目标中心点在图像中的纵坐标，c为第i张图像中的目标数；N为TRANCOS中训练集的数量。

(2)采用一个大小为15*15、方差为σ的高斯滤波器，根据P _i中目标中心的坐标信息，生成X _i图像的密度图M _i。

(3)训练集D′经过步骤(2)后就可以得到处理好的训练集

用于训练网络。

所述网络训练模块20中，使用处理好的训练集

在如图2所示的特征融合卷积神经网络上进行训练。本网络第一层是一个三列卷积层，三列的通道数分别为10、14和16，卷积核大小分别为9、7和5。卷积核大小不同的多列结构使得网络能够捕捉到不同尺度的特征信息，提高目标计数的准确率。第一层的三列卷积得到的特征图连结后经过一层最大池化层处理。接下来是五层卷积核大小均为3的卷积层，其中第三层和第四层卷积得到的特征图均经过最大池化层处理。最后是两层卷积核大小为3的特征融合层，该层的作用是将网络提取到的不同尺度的特征进行融合并进一步提取生成最终预测密度图。由于网络全部采用Ghost卷积层，保证性能的同时网络参数量大幅下降，更适合部署在移动设备和其他低性能设备上运行。本发明网络中使用的所有激活函数均为ReLU激活函数，所有卷积层后均接批标准化层。

所述网络的损失函数L(Θ)定义如下：

其中N为训练样本的个数，X _i为第i个训练样本，Θ为网络学习的参数，F(X _i；Θ)为网络预测第i个样本的密度图，M _i为第i个样本的真实密度图。

所述目标信息预测模块30中，给定一张测试图像P，将图像P输入到训练好的网络模型中进行预测，可以得到图像P的预测密度图M _p，对M _p进行求和运算得到的值即为图像P中预测的目标：p_count＝sum(M _p)。

本发明的效果可以通过如下实验验证：

本发明基于C-CNN网络提出了基于Ghost卷积的特征融合神经网络结构，它既可捕捉图像中尺度不一致的特征信息，也能够将不同尺度的特征融合并进一步提取生成高质量预测密度图。能够进一步提高目标计数性能。除此之外它还大幅降低网络参数量，使网络更适合运行在低性能设备和移动设备上。本网络模型与C-CNN网络模型在相同的数据集上做目标计数比较。从图3的结果中可以看出，本发明提出的网络模型在平均绝对误差(MAE)和均方误差(MSE)上都比C-CNN模型获得了更好的性能，同时在图4中参数量相较于C-CNN也有大幅下降。

实施例二

基于同一发明构思，本实施例提供了基于Ghost卷积特征融合神经网络实时车流量检测方法，其解决问题的原理与所述基于Ghost卷积特征融合神经网络实时车流量检测系统，重复之处不再赘述。

如图5所示，本实施例提供一种基于Ghost卷积特征融合神经网络实时车流量检测方法，包括如下步骤：

步骤S1：从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；

步骤S2：通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；

步骤S3：从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

一种基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于，包括：

数据预处理模块，用于从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；

网络训练模块，通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；

目标信息预测模块，从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：所述网络包括第一层、第二层、第三层、第四层以及第五层，其中所述第一层是三列卷积层，且所述三列卷积层的卷积核大小不同，所述第二层是五层卷积核大小均相同的卷积层，所述第五层是两层卷积核大小均相同的特征融合层。
根据权利要求2所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：所述第一层的三列卷积得到的特征图连结后经过最大池化层处理。
根据权利要求2所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：所述第三层和第四层卷积得到的特征图均经过最大池化层处理。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：对所述第一训练集中的目标图像进行标记的方法为:利用标注工具对所述第一训练集中的目标图像进行标记。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：将所述测试图像输入至所述网络模型中进行预测时，得到测试图像的预测密度图，对预测密度图进行求和运算就可以得到测试图像的目标信息。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：所述网络模型包括损失函数。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：利用高斯滤波器生成目标图像的密度图后，还包括对所有图像进行归一化处理的步骤。
根据权利要求1所述的基于Ghost卷积特征融合神经网络实时车流量检测系统，其特征在于：所述网络模型还包括激活函数。
一种基于Ghost卷积特征融合神经网络实时车流量检测方法，其特征在于，包括如下步骤：

步骤S1:从拍摄的视频中进行抽帧，得到第一训练集，对所述第一训练集中的目标图像进行标记形成第二训练集，再利用高斯滤波器生成目标图像的密度图，形成第三训练集；

步骤S2:通过所述第三训练集对网络进行训练得到网络模型，其中所述网络包括多个Ghost卷积层；

步骤S3:从拍摄的视频中进行抽帧，作为测试图像，将所述测试图像输入至所述网络模型中进行预测，得到测试图像的目标信息。