WO2019232836A1

WO2019232836A1 - 基于改进全卷积网络的多尺度感知行人检测方法

Info

Publication number: WO2019232836A1
Application number: PCT/CN2018/093046
Authority: WO
Inventors: 彭力; 刘辉; 闻继伟; 谢林柏; 李稳
Original assignee: 江南大学
Priority date: 2018-06-04
Filing date: 2018-06-27
Publication date: 2019-12-12
Also published as: CN108830205A; CN108830205B; US10977521B2; US20210056351A1

Abstract

本发明涉及一种基于改进全卷积网络的多尺度感知行人检测方法，属于行人检测领域。首先，通过在全卷积网络结构中引进可形变卷积层，扩大特征图的感受野；其次，通过级联RPN提取多尺度行人建议区域，引入多尺度判别策略，定义尺度判别层，判别行人建议区域的尺度类别；最后构建一个多尺度感知网络，引进Soft-NMS检测算法，融合每个网络输出的分类值和回归值，获取最终的行人检测结果。实验表明，本发明的检测算法在基准行人检测数据集Caltech和ETH上产生较低的检测误差，优于当前数据集中所有检测算法的精度，并适用于检测远尺度的行人。

Description

基于改进全卷积网络的多尺度感知行人检测方法

技术领域

本发明涉及行人检测技术领域，特别是涉及基于改进全卷积网络的多尺度感知行人检测方法。

背景技术

近年来，随着智能视频监控、车辆辅助驾驶(ADAS)、基于内容的图像或者视频的探索和人体行为分析等领域的广泛应用，以及一些新的应领域的出现，如家庭服务机器人、基于航拍图像的行人等，行人检测技术的研究已经成为了机器视觉领域的重要研究课题。行人检测技术具有很大的挑战性和提升空间，主要是因为行人目标比人脸目标有更大幅度的姿态变化，而且在视频或者图片中不同行人尺寸跨度较大。由于行人所在背景不同、光照强度不同、服饰装扮的多样性等，使得实时检测行人检测而且高精度非常困难，特别是在智能车辆辅助驾驶这个领域。

传统技术存在以下技术问题：

由于环境的复杂性，当前的算法在雨天或者黑夜条件下检测到行人的精度达不到工业的要求。

发明内容

基于此，有必要针对上述技术问题，提供一种基于改进全卷积网络的多尺度感知行人检测方法，可以在复杂背景下检测出不同尺度的行人，减少交通事故的发生，该方法通过在全卷积网络结构中引进可形变卷积层，通过级联RPN提取多尺度行人建议区域，提出多尺度判别策略，构建一个多尺度感知网络，引进Soft-NMS检测算法，融合每个网络输出的分类值和回归值，输出行人检测的结果。

一种基于改进全卷积网络的多尺度感知行人检测方法，包括：

将输入图片尺寸归一化为预定像素，输入到ResNet-50网络的RoIDataLayer，学习行人特征；

ResNet-50网络的前四层用于提取图像中的行人区域，生成不同尺度的特征图；

在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，膨胀大小为2，步长为1，留白为2，输出多尺度特征图y(p ₀)；

分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积，将最后输出通道尺度减少到1024维，实现每个卷积层的特征共享；

在ResNet-50的res4f层引入级联RPN网络，定义近尺度RPN和远尺度RPN，级联后提取不同高度的RoIs；

对每个提取到的行人RoI的高度进行判断，根据级联RPN获取到的图片的输入信息，定义一个尺度判别层，输出近尺度的RoIs-N和远尺度的RoIs-F；

尺度判别层分别输出不同尺度的RoI-N和RoI-F，构建一个多尺度感知网络，所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成；

利用Soft-NMS算法来抑制生成框中的冗余信息。

在另外的一个实施例中，步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，膨胀大小为2，步长为1，留白为2，输出多尺度特征图；”中的多尺度特征图y(p ₀)计算公式为：

y(p ₀)＝∑w(p _n)·x(p ₀+p _n+Δp _n)

其中卷积窗口中的每个像素点p _n对应权重w，p ₀代表窗口输出的每个像素点，x是输入层像素点集合，采样位置为p _n，可变形卷积利用偏移量Δp _n({Δp _n|n＝1,...,N})来增大规则网格R的感受野，N＝|R|表示网格中像素个数，采样偏移位置为p _n+Δp _n。

在另外的一个实施例中，步骤“在ResNet-50的res4f层引入级联RPN网络，定义近尺度RPN和远尺度RPN，级联后提取不同高度的RoIs；”中的级联RPN获取不同高度的RoIs方式如下：级联RPN中锚点的尺度改为32，64，128，256，512，比例为1:2，1:1，2:1，生成15个锚点，通过滑动窗口的方式，RPN-N获取近尺度的行人区域建议(reg-N)和分类得分，然后将reg-N作为RPN-F的输入，RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs，得到最终的得分值和行人区域建议。

在另外的一个实施例中，步骤“对每个提取到的行人RoI的高度进行判断，根据级联RPN获取到的图片的输入信息，定义一个尺度判别层，输出近尺度的RoIs-N和远尺度的RoIs-F；”中的尺度判别层判别过程如下：

根据级联RPN获取不同尺度的RoIs，定义每个RoI的边界框j的高度大小为H _j＝y _max-y _min；在第m层(m＝3,4,5)的平均高度

N表示当前层训练样本数量，i表示一个行人边界框，y表示获取到行人标注框的纵坐标；

引进符号函数ε(x)，判断后输出近尺度的RoIs和远尺度的RoIs；

其中，Scale _n表示近尺度网络，Scale _f表示远尺度网络，如果输入图片中包含的行人感兴趣区域判定为远尺度行人，则激活Scale _f，将RoI-F池化后传播到远尺度检测网络中检测；若判定为近尺度行人，则激活Scale _n，将RoI-N池化后传播到近尺度检测网络中训练。

在另外的一个实施例中，步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F，构建一个多尺度感知网络，所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成；”的近尺度检测网络和远尺度检测网络组成为：每个子网络都有两个输出层，对于每个目标建议i，第一个输出层输出离散置信值分布s _i＝(s ₀,s ₁)，另一层输出每个边界框回归偏移值t _i＝(t _x,t _y,t _w,t _h)，其中，t _i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值，t _x，t _y，t _w，t _h分别表示边界框的坐标和宽度与高度。

在另外的一个实施例中，步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中，Soft-NMS的计算方法为：

当IoU小于阈值N _t时，检测得分值为s _i；在IoU大于阈值N _t后，得分值s _i为

s _i(1-iou(M,b _i))；

每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t ^*的标签，多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数：

其中L _cls和L _loc分别是分类和边界框回归损失函数，L _cls是Softmax损失函数，输出分类的准确值。

在另外的一个实施例中，步骤“将输入图片尺寸归一化为预定像素，输入到ResNet-50网络的RoIDataLayer，学习行人特征；”中所述预定像素是640x480。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

上述基于改进全卷积网络的多尺度感知行人检测方法，可以在复杂背景下检测出不同尺度的行人，减少交通事故的发生，该方法通过在全卷积网络结构中引进可形变卷积层，通过级联RPN提取多尺度行人建议区域，提出多尺度判别策略，构建一个多尺度感知网络，引进Soft-NMS检测算法，融合每个网络输出的分类值和回归值，输出行人检测的结果。

附图说明

图1为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的网络结构图。

图2为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的可形变卷积示例图。

图3为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的级联RPN提取不同尺度建议的过程图。

图4为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的Caltech数据集行人多尺度检测结果对比图。

图5为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的ETH数据集行人多尺度检测结果对比图。

图6为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参阅图6，一种基于改进全卷积网络的多尺度感知行人检测方法，包括：

在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，膨胀大小为2，步长为1，留白为2，输出多尺度特征图y(p ₀)：

利用Soft-NMS算法来抑制生成框中的冗余信息。

y(p ₀)＝∑w(p _n)·x(p ₀+p _n+Δp _n)

引进符号函数ε(x)，判断后输出近尺度的RoIs和远尺度的RoIs；

s _i(1-iou(M,b _i))；

下面介绍本发明的一个具体应用场景：

学习行人特征：将输入图片尺寸归一化为640×480像素的大小，输入到ResNet-50网络的“RoIDataLayer”，学习行人特征。

提取行人多尺度特征图：在ResNet-50网络中引入可形变卷积，扩大特征图感受野，提取行人多尺度特征图。

在res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，扩张大小为2，步长为1，留白(pad)为2，可形变卷积组为4。传统的卷积输出特征图y(p ₀)通过等式(1)获得：

y(p ₀)＝∑w(p _n)·x(p ₀+p _n)) (1)

其中卷积窗口中的每个像素点p _n对应权重w，p ₀代表窗口输出的每个像素点，x是输入层像素点集合，采样位置为p _n。可变形卷积利用偏移量Δp _n ({Δp _n|n＝1,...,N})来增大规则网格R的感受野，其中N＝|R|表示网格中像素个数，如等式(2):

y(p ₀)＝∑w(p _n)·x(p ₀+p _n+Δp _n) (2)

采样偏移位置为p _n+Δp _n。由于Δp _n为分数，所以等式(2)通过双线性插值为

x(p)＝∑G(q,p)·x(q) (3)

其中p表示任意位置(p＝p ₀+p _n+Δp _n)，q枚举特征图x中的所有整体空间位置，G(·,·)为双线性插值内核，G函数可以分为两个一维内核的乘积

G(q,p)＝g(q _x,p _x)·g(q _y,p _y) (4)

其中g(x,y)＝max(0,1-|x-y|)，可以快速计算G(q,p)非零时的q值。

移除了ResNet-50模型的平均池化层，在C3、C4、C5的最后增加了一个随机初始化的1×1卷积，将最后输出通道尺度减少到1024维，实现每个卷积层的特征共享。保留了原始输入图像中的空间信息，RoI池化层将每个RoI池化为固定长度的特征向量，该特征向量前向传播到全连接层，如图2所示。

引进级联RPN网络提取区域建议，然后输入到尺度判别层中，判断当前边界框的类别，是属于近尺度或者远尺度行人。

将锚点的尺度改为32，64，128，256，512，比例为1:2，1:1，2:1，生成15个锚点，用于提取原图片中的不同尺度的RoIs。通过滑动窗口的方式，RPN-N获取行人的区域建议(reg-N)和分类得分(cls-N)，然后将reg-N输入到RPN-F中，RPN-F通过获取到的reg-N在原图片获取行人区域，得到最终的得分值(cls-F)和区域建议(reg-F)。对于获取不同尺度的行人RoIs，通过级联RPN的方式，将RPN-N中输出的reg-N作为RPN-F的输入，代替了RPN-F中锚点的结构，直接计算出最终的区域建议(reg-F)，相比于滑动窗口的方式，可以很大程度上节省计算的时间，而且比单个RPN提取行人建议的效果好，如图3所示。

对于行人建议j的边界框高度H _j＝y _max-y _min。在当前第m层(m＝3，4,5)的行人建议的平均高度

(N表示当前层训练样本数量，i表示一个行人边界框，y表示获取到行人标注框的纵坐标)。定义了一个符号函数ε(x)

其中，Scale _n表示为近尺度网络，Scale _f表示远尺度网络。符号函数ε(x)表示为

如果输入图片中包含的行人感兴趣区域判定为远尺度行人，则激活Scale _f，将RoI传播到远尺度网络中检测；若判定为近尺度行人，则激活Scale _n，将RoI传播到近尺度网络中训练。由于每张图片会包含多个行人区域，为了减少计算时间，根据当前的判别机制，构建了一个多尺度感知网络(MSAN)。

尺度判别层分别输出不同尺度的RoI-N和RoI-F，为了分别检测不同尺度的RoIs，构建了一个多尺度感知网络。

每个子网络都有两个输出层，对于每个目标建议i，第一个输出层输出离散置信值分布s _i＝(s ₀,s ₁)，另一层输出每个边界框回归偏移值t _i＝(t _x,t _y,t _w,t _h)。其中，t _i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值，t _x，t _y，t _w，t _h分别表示边界框的坐标和宽度与高度。

引进Soft-NMS算法来抑制生成框中的冗余信息。传统的NMS算法和Soft-NMS的公式如下：

当IoU小于阈值N _t时，检测得分值为s _i；IoU大于阈值N _t时，得分值为0。该过程被不断递归的应用于其余检测框。根据算法的设计，如果一个物体处于预设的重叠阈值之内，可能会导致检测不到该待检测物体。而Soft-NMS对非最大检测框的检测分数进行衰减而非彻底移除。在IoU大于阈值N _t后，得分值s _i为s _i(1-iou(M,b _i))。在传统的NMS算法进行简单的改动，而且不增额外的参数,可以提高检测精度1.5％左右和检测速度。

每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t ^*的标签。多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数：

其中L _cls和L _loc分别是分类和边界框回归损失函数。L _cls是Softmax损失函数，输出分类的准确值；L _loc为SmoothL ₁损失函数，输出边界框坐标和宽高。1[g≥1]当分类值g≥1为1，否则为0。通过联合两个子检测网络(NSN和FSN)的输出，使用Soft-NMS算法输出检测结果，该算法在不同范围的输入尺度下，可以准确的输出检测结果。如图5和下表所示。

表1 漏检率与检测速度

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，包括：

将所述输入图片尺寸归一化为预定像素，输入到ResNet-50网络的RoIDataLayer，学习行人特征；

ResNet-50网络的前四层用于提取图像中的行人区域，生成不同尺度的特征图；

在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，膨胀大小为2，步长为1，留白为2，输出多尺度特征图y(p ₀)；

分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积，将最后输出通道尺度减少到1024维，实现每个卷积层的特征共享；

在ResNet-50的res4f层引入级联RPN网络，定义近尺度RPN和远尺度RPN，级联后提取不同高度的RoIs；

对每个提取到的行人RoI的高度进行判断，根据级联RPN获取到的图片的输入信息，定义一个尺度判别层，输出近尺度的RoIs-N和远尺度的RoIs-F；

尺度判别层分别输出不同尺度的RoI-N和RoI-F，构建一个多尺度感知网络，所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成；

利用Soft-NMS算法来抑制生成框中的冗余信息。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层，卷积核大小为3×3，膨胀大小为2，步长为1，留白为2，输出多尺度特征图；”中的多尺度特征图y(p ₀)计算公式为：

y(p ₀)＝∑w(p _n)·x(p ₀+p _n+Δp _n)

其中卷积窗口中的每个像素点p _n对应权重w，p ₀代表窗口输出的每个像素点，x是输入层像素点集合，采样位置为p _n，可变形卷积利用偏移量Δp _n({Δp _n|n＝1,...,N})来增大规则网格R的感受野，N＝|R|表示网格中像素个数，采样偏移位置为p _n+Δp _n。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“在ResNet-50的res4f层引入级联RPN网络，定义近尺度RPN和远尺度RPN，级联后提取不同高度的RoIs；”中的级联RPN获取不同高度的RoIs方式如下：级联RPN中锚点的尺度改为32，64，128，256，512，比例为1:2，1:1，2:1，生成15个锚点，通过滑动窗口的方式，RPN-N获取近尺度的行人区域建议(reg-N)和分类得分，然后将reg-N作为RPN-F的输入，RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs，得到最终的得分值和行人区域建议。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“对每个提取到的行人RoI的高度进行判断，根据级联RPN获取到的图片的输入信息，定义一个尺度判别层，输出近尺度的RoIs-N和远尺度的RoIs-F；”中的尺度判别层判别过程如下：

根据级联RPN获取不同尺度的RoIs，定义每个RoI的边界框j的高度大小为H _j＝y _max-y _min；在第m层(m＝3,4,5)的平均高度

N表示当前层训练样本数量，i表示一个行人边界框，y表示获取到行人标注框的纵坐标；

引进符号函数ε(x)，判断后输出近尺度的RoIs和远尺度的RoIs；

其中，Scale _n表示近尺度网络，Scale _f表示远尺度网络，如果输入图片中包含的行人感兴趣区域判定为远尺度行人，则激活Scale _f，将RoI-F池化后传播到远尺度检测网络中检测；若判定为近尺度行人，则激活Scale _n，将RoI-N池化后传播到近尺度检测网络中训练。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F，构建一个多尺度感知网络，所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成；”的近尺度检测网络和远尺度检测网络组成为：每个子网络都有两个输出层，对于每个目标建议i，第一个输出层输出离散置信值分布s _i＝(s ₀,s ₁)，另一层输出每个边界框回归偏移值t _i＝(t _x,t _y,t _w,t _h)其中，t _i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值，t _x，t _y，t _w，t _h分别表示边界框的坐标和宽度与高度。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中，Soft-NMS的计算方法为：

当IoU小于阈值N _t时，检测得分值为s _i；在IoU大于阈值N _t后，得分值s _i为s _i(1-iou(M,b _i))；

每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t ^*的标签，多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数：

其中L _cls和L _loc分别是分类和边界框回归损失函数，L _cls是Softmax损失函数，输出分类的准确值。
根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法，其特征在于，步骤“将输入图片尺寸归一化为预定像素，输入到ResNet-50网络的RoIDataLayer，学习行人特征；”中所述预定像素是640x480。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。