WO2020206861A1

WO2020206861A1 - 基于YOLO v3的针对交通枢纽关键物体的检测方法

Info

Publication number: WO2020206861A1
Application number: PCT/CN2019/096014
Authority: WO
Inventors: 杨杰; 康庄; 贾利民; 郭濠奇; 何文玉; 张天露; 李家俊
Original assignee: 江西理工大学
Priority date: 2019-04-08
Filing date: 2019-07-15
Publication date: 2020-10-15
Also published as: CN110472467A

Abstract

一种基于YOLO v3的针对交通枢纽关键物体的检测方法。本发明基于直接回归的思想进行算法设计，可以实现多尺度检测和多标签分类。本发明基于目前目标检测技术的缺陷设计了基于ResNet的Darknet-53网络作为特征提取器，使YOLO技术架构检测精度与速度提升，同时使其不擅长检测小物体的缺陷得到了改善。Darknet-53网络兼顾了网络复杂度与检测准确率，与常用的目标检测特征提取网络VGG-16相比降低了模型运算量。本专利方法将人工智能领域的最新进展引入交通枢纽中的主要目标检测，在检测精度和检测速度上都有很好的效果，同时具有拓展应用到其他领域的潜力。

Description

基于YOLO v3的针对交通枢纽关键物体的检测方法

技术领域

本发明涉及图像处理领域，具体而言涉及一种基于YOLO v3的针对交通枢纽关键物体的检测方法。

背景技术

随着社会的飞速发展，各种高新技术不断涌现，推动着人工智能的发展。其中，在图像处理领域中，关于物体识别的技术更是发展迅速。基于图像的物体检测技术在各行各业中应用十分广泛，例如，在无人驾驶、无人超市、遥感图像识别、生物医学检测、军事和公安刑侦等领域，均需要图像识别技术的参与。尤其在交通领域中，物体识别技术正在逐渐代替原有的技术进行行人、机动车辆、非机动车辆的检测与识别。

目前，主流的目标检测算法主要有Faster R-CNN、YOLO、SSD等。其中，RCNN采用proposal+classifier的思想，但是将提取proposal的步骤放在CNN中实现，其计算效率不高。YOLO在识别精度和速度上都有很好的效果。但是，YOLO系列算法从v1到v3，各有其优缺点。YOLO的检测方式采用了端到端的思想，利用Darknet网络进行训练。其中，YOLOv1将整张图作为网络的输入，它利用回归的方法直接在输出层对bounding box(边界框)的位置及其所属的类别进行回归计算。但是，由于YOLO采用直接回归的思路，其对每一帧图像仅作为独立的数据源进行识别和孤立的处理，其针对每一帧图像所处理的结果往往连续性和一致性欠佳。

发明内容

本发明针对现有技术的不足，提供一种基于YOLO v3的针对交通枢纽关键物体的检测方法，本发明利用人工智能技术对交通枢纽视频中的主要目标进行检测，以便优化人车环境，为交通管控、拥堵预防和疏导等应用提供可靠的数据基础和技术支撑。本发明具体采用如下技术方案。

首先，为实现上述目的，提出一种基于YOLO v3的针对交通枢纽关键物体的检测方法，其步骤包括：第一步，按照时间顺序获取交通枢纽中监控视频中的各帧图像；分别对每一帧图像进行去雾、清晰、增强处理；根据之前的检测结果更新数据集，并对数据集中每一种物体进行标签标记为object，其中，所述数据集中包含有现有的图像数据集中针对交通枢纽内主要物体的数据；其中，现有的图像数据集包括但并不限于微软的coco数据集、PASCAL VOC数据集；第二步，分别调整第一步中处理后的每一帧图像的大小为p×p，其中，p为32的整数倍；第三步，将第二步所得到的每一个图像划分为s×s个网格，为每个网格分配B个需要预测的预测框bounding box，通过YOLO v3卷积网络进行约束训练，以获得每一个预测框bounding box所对应的自身位置、物体类别信息c和置信值confidence值；其中，所述置信值confidence由以下公式计算获得：

所述预测框bounding box的自身位置坐标记为(x,y,w,h)；

其中，x和y表示预测框bounding box的中心点坐标，w和h表示预测框bounding box的长和宽；物体落入标记：

为预测框bounding box与ground truth之间的交并集之比，其中，ground truth表示预测框bounding box所在网格的并集；第四步，对所述第三步中计算获得的所述预测框bounding box的自身位置坐标(x,y,w,h)进行归一化，获得归一化位置坐标(X,Y,W,H)；第五步，对所述各帧图像中置信值confidence满足阈值的预测框bounding box进行NMS(非极大值抑制，non maximum suppression)处理；第六步，根据NMS处理结果，在所述各帧图像中标记相应的预测框bounding box所对应的物体类别信息c及其所对应的归一化位置坐标(X,Y,W,H)范围。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述第一步中，对所述各帧图像进行增强处理时，具体采用GAN网络(生成式对抗网络,Generative Adversarial Networks)进行图像增强处理。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述第三步中，YOLO v3卷积网络还对应有先验框anchor，所述先验框anchor根据第一步所获得的数据集进行k-means(K均值聚类算法)或IOU(交并比)计算而获得。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述先验框anchor由以下步骤而确定：步骤A1，在每一个网格上为每一个先验框anchor预测其初始位置坐标(t _x,t _y,p _w,p _h)；步骤A2，计算所述预测框bounding box相对于图像左上角顶点的偏移量为(c _x,c _y)；步骤A3，计算所述先验框anchor所对应的先验框位置坐标为(b _x,b _y,b _w,b _h)，其中，b _x＝σ(t _x)+c _x，b _y＝σ(t _y)+c _y，

其中，σ(*)表示logistic函数，将坐标归一化到0-1之间。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述第三步中，YOLO v3卷积网络中的训练参数设置如下：decay＝0.005，learning_rate＝0.001，steps＝400000。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述YOLO v3卷积网络所进行的约束训练在GPU(图形处理器)上进行。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述第三步中，YOLO v3卷积网络的训练过程中，以基于残差神经网络改进的Darknet-53网络作为特征提取器。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，还包括以下步骤：分别对每一帧图像进行第一步至第五步的处理后，还分别对所述各帧图像中标记的各物体进行跟踪和统计。

可选的，上述的基于YOLO v3的针对交通枢纽关键物体的检测方法中，所述第四步中归一化的具体步骤为：步骤401，获取各帧图像的大小为XX×YY；获取所述预测框bounding box的自身位置坐标为(x,y,w,h)；步骤402，计算X＝x/XX；Y＝y/YY；W＝w/XX；H＝h/YY；步骤403，获得所述预测框bounding box的自身位置坐标(x,y,w,h)所对应的归一化位置坐标为(X,Y,W,H)。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法的步骤。

本发明还提供了一种电子设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-9中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法的步骤。

有益效果

本发明，基于直接回归的思想进行算法设计，可以实现多尺度检测和多标签分类。本发明在检测过程中参考了SSD和Resnet网络结构设计了基于残差神经网络改进的Darknet53网络作为特征提取器，使YOLO技术架构不擅长检测小物体的缺陷得到了改善。Darknet-53网络兼顾了网络复杂度与检测准确率，与常用的目标检测特征提取网络VGG-16相比降低了模型运算量。本专利方法将人工智能领域的最新进展引入交通枢纽中的主要目标检测，在检测精度和检测速度上都有很好的效果，同时具有拓展应用到其他领域的潜力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的基于YOLO v3的针对交通枢纽关键物体的检测流程示意图；

图2是本发明中计算预测框bounding box与ground truth之间

的交并集之比的示意图；

图3是本发明所使用的YOLO v3卷积网络的框架图；

图4是本发明中计算先验框anchor所对应的先验框位置坐标的示意图；

图5是本发明所提供的基于YOLO v3的针对交通枢纽关键物体的检测方法的整体流程图；

图6是本发明检测交通枢纽中行人的识别效果的示意图；

图7是本发明所检测出的交通枢纽中行人及其他物体的示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

图1为根据本发明的一种基于YOLO v3的针对交通枢纽关键物体的检测方法。其将视频帧视为独立的图像，对图像先进行网格划分，而后进行预测边框、置信度和类别概率的计算，最终通过矩形标记显示检测结果。具体而言，参考图5，其具体步骤如下：

1、读取视频的每一帧，将每帧看做独立的图像，并对每一帧图片进行去雾清晰增强处理，以便获得质量更好的图片，使得后期的训练网络获得更好的图像特征，增加结果的准确度。此处的图像增强网络可以使用GAN网络，但不局限于这一种方法。

2、利用已有的数据集(例如coco、voc等)，在针对本专利检测的交通枢纽主要物体并入我们自己的数据集，对加入的数据集进行重新打标签标记，扩展原有数据集，使得训练结果更加准确。YOLO首先将一幅图像分成S×S个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。对于S×S个网格，每个网格要预测B个bounding box，每个bounding box负责预测自身位置和confidence值两个参数。此处需要调整图片的大小，可调整为320*320，416*416，608*608，这个大小必须是32的整数倍数。

3、准备好数据集后，利用循环卷积神经网络进行训练，其中一些训练参数设置如下，decay＝0.005，learning_rate＝0.001，steps＝400000，训练在GPU(图形处理器)上进行。在第2步中，图片尺寸需要处理为32的倍数，是因为YOLO v3有5次下采样，每次采样步长为2，所以网络的最大步幅(步幅指层的输入大小除以输出)为2^5＝32。第2步中的B个bounding box预测的confidence这个值衡量了预测的box中含有object的置信度和这个box预测的准确率这两个参数的信息，其值的计算公式如下所示：

式中

object指数据集中的物体标记，grid cell指网格范围。

IOU值的是预测的bounding box和实际的ground truth之间交并集之比。参考图2所示，

为预测框bounding box与ground truth之间的交并集之比，其中，ground truth表示预测框bounding box所在网格的并集。

每个bounding box负责预测自身位置和confidence值两个参数，自身位置需要4个参数(x,y,w,h)来支持，x和y表示预测框的中心点坐标，w和h表示预测框的长和宽，所以每个bounding box要预测(x,y,w,h)和confidence共5个值，同时每个网格还要预测一个类别信息，记为C类。图像被分为S×S个网格，输出的数据大小就是S×S×(5*B+C)，这里注意class信息是针对每个网格的，confidence信息是针对每个bounding box的，这(5*B+C)维中，(5*B-B)维是回归box的坐标，B维是box的confidence，还有C维是类别。为了方便数据的计算，对坐标x，y和w，h进行归一化，利用网格的坐标和图像的长宽，分别对两者进行归一化，让其值限制在0-1之间，方便我们计算。在实现中，最主要的就是怎么设计损失函数，让这个三个方面得到很好的平衡。采用了sum-squared error loss设计损失函数，其最终的损失函数如下：

这个损失函数中，主要分为四部分，坐标预测、含有物体(object)的特征值(confidence)预测、不含物体(object)的特征值(confidence)预测和类别预测，利用损失函数进行约束训练网络。

4、YOLO v3算法可利用新的网络结构，可以参考SSD和Resnet网络结构设计基于残差神经网络改进的Darknet-53网络作为特征提取器，使YOLO系列方法不擅长检测小物体的缺陷得到改善。Darknet-53兼顾网络复杂度与检测准确率，与常用的目标检测特征提取网络VGG-16相比降低了模型运算量，Darknet-53与Darknet-19、Resnet-101、Resnet-152的性能对比如表1所示：

表1 Darknet-53与Darknet-19、Resnet的性能对比表

由表1可以看出，Darknet-53在Top-1和Top-5中的准确率分别为77.2％和93.8％，高于Darknet-19；浮点运算速度为1457次/s，高于Darknet-19、Resnet-101和Resnet-152；每秒可检测78帧图像，高于Resnet-101和Resnet-152，可以达到实时检测。YOLO v3也因此成为目前为止最优秀的目标检测算法之一，它对小物体和大物体都具有比较好的效果，这源于它的多尺度卷积网络结构，一般为三个尺度的预测，分别为8×8、16×16、32×32，最终预测输出量维度为S×S×[3×(B×5+C)]，其结构图如图参考图3所示。

5、利用YOLO v3算法检测，需要获得anchor(先验框)，具体可在扩展后的数据集上利用k-means、IOU等方法重新得到新的anchor，但不限于这两种方法。Anchor机制指的是对每个栅格设置一些参考的边框形状及尺寸，检测时只要对参考边框进行精修即可，代替了整张图像的位置回归。

使用Anchor机制首先要确定参考边框的宽高维度。虽然网络训练的过程也会调整边框的宽高维度，最终得到准确的边框，但如果一开始就选择更有代表性的参考边框，那么网络能更容易检测到准确的位置。卷积神经网络在每一个单元格上会为每一个边界框预测4个值，即坐标(x,y)与目标的宽w和高h，分别记为t _x,t _y，p _w，p _h。若目标中心在单元格中相对于图像左上角有偏移(c _x,c _y)，并且锚点框具有高度和宽度p _w，p _h，则修正后的边界框如图4所示。其中，b _x＝σ(t _x)+c _x，b _y＝σ(t _y)+c _y，

其中，σ(*)表示logistic函数，将坐标归一化到0-1之间。

6、利用YOLO v3算法对提取的单帧图片进行识别，并且标注出物体的类别与位置。其具体做法如下：

利用NMS(非极大值抑制法)进行过滤处理，经过卷积网络训练后，在测试的时候，每个网格预测的类别(class)信息和bounding box预测的confidence信息相乘，就得到每个bounding box的类别信息和准确率信息(class-specific confidence score)：

等式左边第一项就是每个网格预测的类别信息，第二、三项就是每个bounding box预测的confidence。得到每个box的类别信息和准确率信息(class-specific confidence score)以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS处理，就得到最终的检测结果。

进一步，本发明还可加入智能视频监控功能，在交通枢纽(如火车站、十字路口等站口)的监控视频中，利用YOLO v3进行行人、车辆检测，同时利用跟踪技术进行跟踪，进行人数和车辆数统计等其他综合服务功能。其识别结果参考图6以及图7所示。

由此，本发明巧妙使用了YOLO v3算法多尺度检测的原理，对小目标的检测精度很高，运用anchor box的方法在不改变mAP的情况下增加了recall，而使用新的网络结构则减少了33％的计算。速度要快过其他检测系统(FasterR-CNN，ResNet，SSD)，改善了召回率和准确率，提升定位的准确度，同时保持分类的准确度。随着网络的加深和多个模型的结合，使得训练准确度得到提高，同时对图片进行数据增强，使得提取特征更加显著，图片质量更高，同时利用跟踪技术，对识别的行人等目标进行跟踪，进行人数统计等功能。

如图8所示，本发明还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述自动识别晃动视频方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有指令，该指令用于使得机器执行本申请上述任一项权利要求1-6所述的自动识别晃动视频的方法。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

一种基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，包括：

第一步，按照时间顺序获取交通枢纽中监控视频中的各帧图像；分别对每一帧图像进行去雾、清晰、增强处理；

根据之前的检测结果更新数据集，并对数据集中每一种物体利用标签object进行标记，其中，所述数据集中包含有现有的图像数据集中针对交通枢纽内主要物体的数据；其中，现有的图像数据集包括但并不限于公共的coco数据集、PASCAL VOC数据集；

第二步，分别调整第一步中处理后的每一帧图像的大小为p×p，其中，p为32的整数倍；

第三步，将第二步所得到的每一个图像划分为s×s个网格，为每个网格分配B个需要预测的预测框bounding box，通过YOLO v3卷积网络进行约束训练，以获得每一个预测框bounding box所对应的自身位置、物体类别信息c和置信值confidence值；其中，所述置信值confidence由以下公式计算获得：

所述预测框bounding box的自身位置坐标记为(x,y,w,h)；其中，x和y表示预测框bounding box的中心点坐标，w和h表示预测框bounding box的长和宽；物体落入标记

为预测框bounding box与ground truth之间的交并集之比，其中，ground truth表示预测框bounding box所在网格的并集；

第四步，对所述第三步中计算获得的所述预测框bounding box的自身位置坐标(x,y,w,h)进行归一化，获得归一化位置坐标(X,Y,W,H)；

第五步，对所述各帧图像中置信值confidence满足阈值的预测框bounding box进行NMS处理；

第六步，根据NMS处理结果，在所述各帧图像中标记相应的预测框bounding box所对应的物体类别信息c及其所对应的归一化位置坐标(X,Y,W,H)范围。
如权利要求1所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述第一步中，对所述各帧图像进行增强处理时，具体采用GAN网络进行图像增强处理。
如权利要求1或2所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述第三步中，YOLO v3卷积网络还对应有先验框anchor，所述先验框anchor根据第一步所获得的数据集进行k-means或IOU计算而获得。
如权利要求3所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述先验框anchor由以下步骤而确定：

步骤A1，在每一个网格上为每一个先验框anchor预测其初始位置坐标(t _x,t _y,p _w,p _h)；

步骤A2，计算所述预测框bounding box相对于图像左上角顶点的偏移量为(c _x,c _y)；

步骤A3，计算所述先验框anchor所对应的先验框位置坐标为(b _x,b _y,b _w,b _h)，其中，b _x＝σ(t _x)+c _x，b _y＝σ(t _y)+c _y，
其中，σ(*)表示logistic函数，将坐标归一化到0-1之间。
如权利要求1-4中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述第三步中，YOLO v3卷积网络中的训练参数设置如下：decay＝0.005，learning_rate＝0.001，steps＝400000。
如权利要求1-4中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述YOLO v3卷积网络所进行的约束训练在GPU上进行。
如权利要求1-4中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述第三步中，YOLO v3卷积网络的训练过程中，以基于残差神经网络改进的Darknet-53网络作为特征提取器。
如权利要求1-7中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，还包括以下步骤：

分别对每一帧图像进行第一步至第五步的处理后，还分别对所述各帧图像中标记的各物体进行跟踪和统计。
如权利要求1-3中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法，其特征在于，所述第四步中归一化的具体步骤为：

步骤401，获取各帧图像的大小为XX×YY；获取所述预测框bounding box的自身位置坐标为(x,y,w,h)；

步骤402，计算X＝x/XX；Y＝y/YY；W＝w/XX；H＝h/YY；

步骤403，获得所述预测框bounding box的自身位置坐标(x,y,w,h)所对应的归一化位置坐标为(X,Y,W,H)。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法的步骤。
一种电子设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-9中任意一项所述的基于YOLO v3的针对交通枢纽关键物体的检测方法的步骤。