WO2018233205A1

WO2018233205A1 - 使用高斯惩罚检测图像中行人的方法

Info

Publication number: WO2018233205A1
Application number: PCT/CN2017/112782
Authority: WO
Inventors: 王文敏; 董培磊; 范梦迪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: 北京大学深圳研究生院
Priority date: 2017-06-21
Filing date: 2017-11-24
Publication date: 2018-12-27
Also published as: CN109101859A; US20200160048A1; US11030444B2

Abstract

本发明公布了一种使用高斯惩罚检测图像中行人的方法，在行人检测过程中，使用高斯惩罚对获得的初步行人边界框进行筛选，从而提升对图像中行人尤其是遮挡行人的检测性能；包括：获取行人检测图像的训练数据集、测试数据集和行人标注；使用行人检测方法用训练数据集训练得到检测模型，获取初步的行人边界框及其置信度和坐标；对行人边界框的置信度进行高斯惩罚，得到惩罚后的行人边界框置信度；通过行人边界框筛选得到最终的行人边界框，从而达到去除单个行人的重复边界框，而保留被遮挡行人的边界框的目的，由此实现对图像中行人的检测。本发明能够显著降低行人检测的漏检率，提高遮挡行人的检出率。

Description

使用高斯惩罚检测图像中行人的方法

技术领域

本发明属于信息技术领域，涉及计算机视觉，模式识别等技术，具体涉及使用高斯惩罚的方式进行行人边界框的筛选，从而检测图像中行人的方法。

背景技术

行人检测即判断输入的图像或视频中是否出现行人，并确定其位置。近年来，随着计算机视觉领域飞速发展，计算机视觉技术在智能驾驶，智能视频监控和机器人领域得到大量地应用。行人检测作为保障汽车、行人安全的一种主动安全手段，具有提高驾驶安全性、保障行人生命财产安全的重要意义和实用价值。因此行人检测技术在计算机视觉领域占据着不可比拟的重要地位。

由于行人间的相互遮挡或者行人与其他物体之间的遮挡，造成被遮挡行人在图片或者视频中只有局部的信息，因此行人检测目前所面临的一个主要的挑战是遮挡行人。目前主流的方法首先在图像中检测到足够多的边界框，并对每个边界框生成一个置信度。之后对初步生成的边界框进一步的筛选，获得最后的检测结果。普遍的筛选方法是依据置信度的高低和重叠度大小按照非极大值抑制的策略将重复边界框直接删除。但是这种筛选方法忽略了对遮挡行人的处理。在人群密集的区域，由于行人间的相互遮挡，对多个边界框的直接删除也去除了被遮挡行人的边界框。使得对遮挡行人的检测效果表现不佳。

发明内容

为了克服现有技术的不足，本发明提供一种使用高斯惩罚的边界框筛选方法，能够显著提升行人检测的性能，尤其是对遮挡行人的检测。

本发明提供的技术方案是：

一种使用高斯惩罚检测图像中行人的方法，在行人检测过程中，使用高斯惩罚对获得的初步行人边界框进行筛选，从而提升对图像中行人尤其是遮挡行人的检测性能；包括如下步骤：

1)获取训练数据、测试数据及行人数据标签；

本发明实施例从加州理工大学公开的行人数据集(Caltech)分别得到训练数据和测试数据，训练样本或测试样本均有行人的标注，标注的方式是使用矩形框代表行人的位置，矩形框使用在图像中的左上角和右下角的坐标来表示。即采用矩形框在图像中的左上角和右下角的坐标来表示行人在图像中的位置。

2)训练模型并检测，获取初步的行人边界框及其置信度和坐标；

使用行人检测方法(现有方法如Faster RCNN)在训练集上训练得到检测模型。使用检测模型在测试数据集上分类定位行人的位置，获得初步的行人边界框及其置信度和坐标。

3)对边界框的置信度进行高斯惩罚，通过行人边界框筛选得到最终的行人边界框，由此实现对图像中行人的检测；包括如下步骤：

31)可依据边界框之间重叠度的大小对初步的行人边界框进行分类；

具体地，本发明对初步的行人边界框的分类包括：行人边界框之间完全没有重叠、单个行人边界框、遮挡行人间的边界框。

32)针对不同种类的初步的行人边界框，对边界框的置信度进行不同程度的惩罚，得到惩罚后的行人边界框置信度；从而达到去除单个行人的重复边界框，而保留被遮挡行人的边界框的目的；具体为：

对于每一幅图像，根据置信度对边界框进行排序，选择置信度最大的边界框M；

通过式1计算其他每一个边界框bbox_i与边界框M的重叠比例IoU(M,bbox_i)：

其中，area(M∩bbox_i)是边界框bbox_i与M的区域交集，area(M∪bbox_i)是边界框bbox_i与M的区域并集；

通过式3对边界框的置信度进行惩罚：

其中，e为自然对数，σ是方差；score_i为边界框bbox_i惩罚后的置信度；IoU(M,bbox_i)是边界框bbox_i与M的重叠度(比例)。

33)设置置信度阈值，对每张图像将惩罚后的置信度大于所设置的置信度阈值(例如0.5)的行人边界框，作为最终检测结果；由此检测得到图像中的行人。

本发明的筛选方法将行人边界框分为三种情况。第一种是行人边界框之间完全没有重叠，如图1所示。第二种是单个行人边界框，这种情况下边界框之间的重叠度较大且置信度较高，如图2所示。第三种情况是遮挡行人间的边界框，由于遮挡行人间区域并不是完全的重叠，所以重叠度大小小于第二种情况。基于这三种情况，对边界框的置信度进行不同程度的惩罚。惩罚方式为：如果没有重叠区域，对边界框置信度不惩罚；对于重叠度较大边界框，对置信度进行较大惩罚；对于重叠度较小的边界框，对置信度进行较小惩罚。最后对每张图像保留置信度大于0.5的行人边界框作为最终检测结果。

与现有技术相比，本发明的有益效果是：

本发明提供一种使用高斯惩罚的边界框筛选方法。在获得初步的行人边界框之后，依据边界框之间重叠度的大小对边界框的置信度进行惩罚。对于完全没有遮挡的行人，能够保留原有的边界框。对单个行人区域的重复边界框进行较大的置信度惩罚，从而去除多个边界框重复检测同一个行人。对遮挡行人区域的边界框进行较小的置信度惩罚，从而保留有可能是被遮挡行人的边界框。实验表明，此发明方案能够显著降低行人检测的漏检率，在基本不增加计算复杂度的前提下，提高了遮挡行人的检测效果。本发明实现了较低的漏检率。

附图说明

图1是本发明提供的行人边界框筛选方法的流程框图；

其中，每个行人边界框都有一个对应的置信度；首先根据置信度对边界框进行排序，获得置信度最大的边界框M；然后计算其他边界框与M的重叠度，根据重叠度对边界框的置信度进行处罚；最后选择置信度大于阈值(如设置为0.5)的边界框作为最终的检测结果。

图2是本发明进行行人边界框筛选采用Faster RCNN网络结构的示意图；

其中，整个Faster RCNN网络分为三部分：输入层、中间层和输出层；中间层包括卷积层、池化层和全连接层；网络以原始图片作为输入，经过卷积、池化和全连接获得图像的特征，输出分类的类别信息和位置信息；输出层包括分类层和定位层，分类层输出类别，定位层输出位置信息。

图3是本发明实施例中完全没有重叠区域的行人。

图4是本发明实施例中单个行人的重复检测得到行人边界框的示意图。

图5是本发明实施例中遮挡行人的边界框检测示意图。

其中以上所述的行人是否存在遮挡或者区域重叠均指在图像中使用黑色和灰色边界框中的行人的关系。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种使用高斯惩罚的边界框筛选方法，在获得初步的行人边界框之后，依据边界框之间重叠度的大小对边界框的置信度进行惩罚；本发明能够显著降低行人检测的漏检率，在基本不增加计算复杂度的前提下，提高了遮挡行人的检测效果。

图1是本发明提供的行人边界框筛选方法的流程框图；其中，每个行人边界框都有一个对应的置信度；首先根据置信度对边界框进行排序，获得置信度最大的边界框M；然后计算其他边界框与M的重叠度，根据重叠度对边界框的置信度进行处罚；最后选择置信度大于阈值(如设置为0.5)的边界框作为最终的检测结果。本发明实施步骤具体如下：

(一)训练检测模型并检测获得初步边界框；

1)训练检测模型；

检测模型可以选择现有方法如梯度直方图方法(Histogram of Oriented Gradient)、区域卷积神经网络(Faster Region-based convolutional neural network)等中的任意一种。本发明以文献[1](S.Ren,K.He,R.Girshick,and J.Sun,“Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks,”，TPAMI(2016))提出的检测模型Faster RCNN(Faster Region-based convolutional neural network)为例，通过训练得到行人检测模型。

Faster RCNN的神经网络架构如图2所示。本发明利用Caltech数据集的训练图像对Faster RCNN网络的全连接层进行微调。在行人检测中，将分类的类别设为两类：背景类和行人类。训练过程中，将训练图片及标注信息(ground-truth label)输入至神经网络中，利用反向传播算法将目前模型的检测和标注之间的差异损失回馈到网络模型中，并调整网络模型的参数。当在整个训练集上多次迭代完成后，获得行人的检测模型。

2)在Caltech数据集的测试图像上，利用训练好的行人检测模型，检测获得初步的边界框。

将测试图像输入至检测模型中。检测每张图像上是否包含行人。如果包含行人，经过检测模型的分类和定位，保留网络输出的边界框的坐标信息(x₁,y₁,x₂,y₂)及其置信度(score)。其中(x₁,y₁)是边界框的左上角的坐标，(x₂,y₂)是边界框的右上角的坐标。每张图片选取置信度较高的前300个边界框作为初步的边界框。

(二)边界框的筛选

由于检测模型分类的能力限制，初步获取的边界框中在一个行人周围分类模型会定位到密集的重叠度较大且置信度较高的多个边界框。普遍采取的筛选方法是对于每一幅图像，首先选择置信度最大的边界框M，计算与其他每一个边界框bbox_i与M的重叠度(比例)IoU。计算方法如式1：

其中，area(M∩bbox_i)是边界框bbox_i与M的区域交集，area(M∪bbox_i)是边界框bbox_i与M的区域并集。

当与边界框M的重叠度大于阈值thr时，就认为边界框bbox_i与边界框M为同一个行人区域，所以就删除掉边界框bbox_i。删除的方法为将边界框bbox_i的置信度置为0，即式2：

其中，score_i为边界框bbox_i的置信度，由检测模型获得。

这种筛选方式可以去除如图4所示的单个行人区域的重复边界框。但是如果在行人密集的区域且行人间相互遮挡。由于被遮挡行人缺少部分信息，所以一般被遮挡行人边界框的置信度小于其他行人边界框的置信度，如图4所示，黑色框的置信度大于灰色框的置信度，而灰色框又与黑色框有较大区域的重叠。此时按照以上筛选方式就会删除灰色边界框，从而造成被遮挡行人的漏检。

根据本发明的筛选方法，可将边界框分为三种情况。第一种是行人边界框之间完全没有重叠，如图3所示。第二种是单个行人边界框，这种情况下边界框之间的重叠度较大且置信度较高，如图4所示。第三种情况是遮挡行人间的边界框，由于遮挡行人间区域并不是完全的重叠，所以重叠度大小小于第二种情况，如图5所示。基于这三种情况，对边界框的置信度进行依据重叠度大小进行高斯惩罚。惩罚方式为：如果没有重叠区域，对边界框置信度不惩罚；对于重叠度较大边界框，对置信度进行较大惩罚；对于重叠度较小的边界框，对置信度进行较小惩罚。从而达到去除单个行人的重复边界框，而保留被遮挡行人的边界框的目的。

边界框的筛选过程具体包括如下步骤：

(一)对于每一幅图像，首先根据置信度对边界框排序，选择置信度最大的边界框M。

(二)通过式1计算与其他每一个边界框bbox_i与M的重叠比例IoU。

(三)对每个边界框进行置信度处罚，对置信度的惩罚表示为：

其中，e为自然对数，σ是方差；score_i为初始边界框的置信度；S_i为边界框bbox_i惩罚后的置信度；IoU(M,bbox_i)是边界框bbox_i与M的重叠度(比例)，由式1计算得到。

最后使用惩罚公式(式3)对每一张图像的初步边界框的置信度进行更新，将更新后的置信度大于设置阈值(比如设置阈值为0.5)的边界框作为最终检测结果。

表1给出了在Caltech数据集上使用本发明后的行人检测效果及与现有方法的对比。表1中前9项的现有方法，分别对应以下文献[2]～[10]记载的方法：

[2]Paul Viola,Michael J Jones,and Daniel Snow.2005.Detectingpedestrians using patterns of motion and appearance.International Journal of Computer Vision 63,2(2005),153–161.

[3]Pierre Sermanet,Koray Kavukcuoglu,Soumith Chintala,and Yann LeCun.2013.Pedestrian detection with unsupervised multistage feature learning.In Computer Vision and Pattern Recognition.IEEE,3626–3633.

[4]Navneet Dalal and Bill Triggs.2005.Histograms of orientedgradients for human detection.In Computer Vision and PatternRecognition.IEEE,886–893.

[5]Xiaoyu Wang,Tony X Han,and Shuicheng Yan.2009.An HOGLBP human detector with partial occlusion handling.In International Conference on Computer Vision.32–39.

[6]Piotr Doll′ar,Serge J Belongie,and Pietro Perona.2010.TheFastest Pedestrian Detector in the West.In British Machine Vision Conference,Vol.2.Citeseer,7.

[7]Piotr Doll′ar,Zhuowen Tu,Pietro Perona,and Serge Belongie.2009.Integral channel features.In British Machine Vision Conference.

[8]Piotr Doll′ar,Ron Appel,Serge Belongie,and Pietro Perona.2014.Fast feature pyramids for object detection.IEEE transactionson pattern analysis and machine intelligence 36,8(2014),1532–1545.

[9]Wanli Ouyang,Xingyu Zeng,and Xiaogang Wang.2013.Modeling mutual visibility relationship in pedestrian detection.InComputer Vision and Pattern Recognition.IEEE,3222–3229.

[10]Ping Luo,Yonglong Tian,Xiaogang Wang,and Xiaoou Tang.2014.Switchable deep network for pedestrian detection.In Computer Vision and Pattern Recognition.IEEE,899–906.

表1中，检测效果用平均对数miss rate–fppi(false positive per image)值衡量，其中miss rate为漏检率，fppi指每帧图像的误检率。该miss rate–fppi值越低，说明检测效果越好。

表1 Caltech数据集上的检测效果

检测方法	检测效果(miss rate–fppi值)
VJ(文献[2])	0.95
ConvNet(文献[3])	0.77
HOG(文献[4])	0.68
HOGLBP(文献[5])	0.68
FPDW(文献[6]	0.57
ChnFtrs(文献[7])	0.56
ACF(文献[8])	0.51
DBN-Mut(文献[9])	0.48
SDN(文献[10])	0.38
Faster RCNN(文献[1])	0.27
本发明方法	0.24

从表中可以看出，采用本发明方法的行人检测效果和其他方法相比，达到了最低的miss rate–fppi值。采用Faster RCNN模型，使用本发明的边界框筛选方法比原有方法降低了3％的漏检率。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种使用高斯惩罚检测图像中行人的方法，在行人检测过程中，使用高斯惩罚对获得的初步行人边界框进行筛选，从而提升对图像中行人尤其是遮挡行人的检测性能；包括如下步骤：

1)获取行人检测图像的训练数据集、测试数据集和行人标注；

2)使用行人检测方法用训练数据集训练得到检测模型，获取初步的行人边界框的坐标及其置信度；

3)对行人边界框的置信度进行高斯惩罚，得到惩罚后的行人边界框置信度；通过行人边界框筛选得到最终的行人边界框，从而达到去除单个行人的重复边界框，而保留被遮挡行人的边界框的目的，由此实现对图像中行人的检测；包括如下步骤：

31)对于每一幅图像，根据置信度对边界框进行排序，选择置信度最大的边界框M；

32)通过式1计算其他每一个边界框bbox_i与边界框M的重叠度IoU(M,bbox_i)：

其中，area(M∩bbox_i)是边界框bbox_i与M的区域交集，area(M∪bbox_i)是边界框bbox_i与M的区域并集；

通过式3对边界框的置信度进行惩罚，得到惩罚后的行人边界框置信度：

其中，e为自然对数，σ是方差；score_i为初始边界框的置信度；S_i为边界框bbox_i惩罚后的置信度；IoU(M,bbox_i)是边界框bbox_i与M的重叠度；

33)设置置信度阈值，对每张图像，将惩罚后的置信度大于所设置的置信度阈值的行人边界框，作为最终检测结果；由此检测得到图像中的行人。
如权利要求1所述方法，其特征是，步骤1)具体从行人数据集Caltech中分别得到训练数据和测试数据，所述训练数据和测试数据均有行人标注，所述行人标注采用矩形框在图像中的左上角和右下角的坐标来表示行人在图像中的位置。
如权利要求1所述方法，其特征是，步骤2)具体采用检测模型Faster RCNN进行训练，利用训练数据集的图像对Faster RCNN神经网络的全连接层进行微调；将训练图像和标注信息输入Faster RCNN神经网络中，通过反向传播算法将模型检测和标注之间的差异损失回馈到模型中，并调整网络模型的参数；在训练数据集上多次迭代后，获得行人检测模型；再将测试数据集输入行人的检测模型，对行人的位置进行分类和定位，由此获得初步的行人边界框及其置信度和坐标。
如权利要求1所述方法，其特征是，步骤33)设置置信度阈值为0.5。
如权利要求1所述方法，其特征是，步骤2)所述获取的初步的行人边界框类别包括：行人边界框之间完全没有重叠的边界框、单个行人边界框、遮挡行人间的边界框。