WO2020108075A1

WO2020108075A1 - 结合人脸与外观的两阶段行人搜索方法

Info

Publication number: WO2020108075A1
Application number: PCT/CN2019/108502
Authority: WO
Inventors: 杨华; 李亮奇
Original assignee: 上海交通大学
Priority date: 2018-11-29
Filing date: 2019-09-27
Publication date: 2020-06-04
Also published as: CN109635686A; US11017215B2; US20210012094A1; CN109635686B

Abstract

一种结合人脸与外观的两阶段行人搜索方法，包括：利用人脸检测器检测行人的人脸，基于人脸比对模型输出人脸表征向量；根据欧氏距离对待匹配行人集进行排序获取人脸排序结果；根据排序结果选取若干个样本作为下一阶段的多匹配目标；将同一数据集中不同行人的所挑选出的下一阶段的多匹配目标作为彼此的负样本，从而压缩下一阶段匹配的样本空间；最后进行多目标行人再识别，将待匹配图片集根据与多个目标的平均距离或相似度进行排序输出最终结果。通过基于DenseNet的卷积神经网络将人脸与行人再识别联合起来搜索目标行人，并通过精心设计的限制条件提高了鲁棒性减少了计算量，进一步提升了行人搜索的性能。

Description

结合人脸与外观的两阶段行人搜索方法

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种结合人脸与外观的两阶段行人搜索方法。

背景技术

目前，行人再识别(Person Re-identification)技术在实际应用中发挥着越来越重要的作用，比如安全监控，人群流量监测，行人行为分析等。现如今大部分计算机视觉研究者将行人再识别研究聚焦于相似场景下多摄像头间的行人匹配问题。

但是，在实际应用中，例如在对犯罪嫌疑人进行布控时，目标行人图像(如肖像照)与待匹配的摄像机拍摄行人图像之间往往外观差异较大，采用传统的行人再识别方法无法有效地匹配目标行人。该场景下较可靠的行人特征应为人脸特征，但如果只用人脸进行匹配，则无人脸的目标行人样本无法匹配，可能会丢失对其轨迹的追踪。

发明内容

本发明的目的在于克服上述现有技术的不足之处，提出了一种基于深度学习的结合人脸与外观的两阶段行人搜索方法，联合人脸识别与行人再识别问题。首先，本发明基于卷积神经网络提取更具有分辨力的特征，采用了DenseNet网络结构(参见：Gao Huang,Zhuang Liu,Laurens van der Maaten,and Kilian Q Weinberger,“Densely connected convolutional networks,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.)；其次，本发明提出了一种结合人脸与外观的两阶段行人搜索方法，利用人脸检测和识别从目标行人图像出发，从候选行人图片中产生Multi-query；最后，本发明设计了一种行人再识别匹配样本空间压缩方法，提升行人再识别的准确率。

本发明是通过以下技术方案实现的。

一种结合人脸与外观的两阶段行人搜索方法，包括：

获取包含目标行人的图像I _c(x,y)，称为Cast；

获取待识别的全景图像(Gallery)，以及全景图像中的行人坐标信息，确定包含候选行人的图像I _G(x,y)；

根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数；

根据所述人脸相似性分数进行排序，若相似性分数大于或等于预设阈值，则将对应的包含候选行人的图像作为行人再识别的目标图像I _Q(x,y)(Multi-query)；若相似性分数小于预设阈值，则将对应的包含候选行人的图像作为行人再识别的全景图像(Gallery)；

若图像I _c(x,y)中包含2个及以上目标行人时，对每个所述目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像I _G‘(x,y)；

根据所述目标图像I _Q(x,y)、处理后的候选行人图像I _G‘(x,y)，计算目标图像I _Q(x,y)中的候选行人与处理后的候选行人图像I _G‘(x,y)中的候选行人之间的初始欧式距离；

将处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的平均欧式距离作为候选行人的最终欧式距离，并按照所述最终欧式距离对处理后的候选行人图像I _G‘(x,y)中的候选行人进行排序，得到对应的排序结果。

可选地，根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数，包括：

按照第一预设尺度对所述图像I _c(x,y)进行缩放处理，得到第一缩放图像；

将所述第一缩放图像输入MTCNN网络中，得到目标行人的人脸图像；

将所述目标行人的人脸图像输入到Insight Face网络中，得到所述目标行人的人脸特征向量x _c；

按照第一预设尺度对所述图像I _G(x,y)进行缩放处理，得到第二缩放图像；将所述第二缩放图像输入MTCNN网络中，判断是否包含候选行人的人脸图像；

若包含有候选行人的人脸图像，则将所述候选行人的人脸图像输入到Insight Face网络中，得到所述候选行人的人脸特征向量x _G；

根据余弦相似度计算公式，计算所述候选行人与所述目标行人的人脸相似性分数，所述余弦相似度计算公式如下：

其中，s _C,G为候选行人与目标行人的人脸相似性分数，x _C为Cast行人对应的特征，x _G为Gallery行人对应的特征；

若不包含候选行人的人脸图像，则确定所述候选行人与所述目标行人的人脸相似性分数为-1。

可选地，将所述第一缩放图像输入MTCNN网络中，得到目标行人的人脸图像，包括：

通过MTCNN网络获取目标行人的人脸图像，以及人脸图像对应的N个关键点；N为大于1的自然数；

若通过MTCNN网络获取的目标人脸图像的数量大于1，则获取置信度最高的目标行人的人脸图像，以及所述人脸图像对应的N个关键点。

可选地，所述预设阈值为0.35。

可选地，在根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数之后，还包括：若相似性分数大于或等于预设阈值的行人图像的数量小于M，则选择相似性分数排在前M个的候选行人作为行人再识别的目标图像I _Q(x,y)；其中，M为大于1的自然数。

可选地，根据所述目标图像I _Q(x,y)、处理后的候选行人图像I _G‘(x,y)，计算目标行人与候选行人的初始欧式距离，包括：

按照第二预设尺度对所述目标图像I _Q(x,y)进行缩放处理，得到第三缩放图像；

将所述第三缩放图像输入基于DenseNet的行人再识别网络中，得到目标行人的特征向量

按照第二预设尺度对所述处理后的候选行人图像I _G‘(x,y)进行缩放处理，得到第四缩放图像；

将所述第四缩放图像输入基于DenseNet的行人再识别网络中，得到候选行人的特征向量

计算处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的欧式距离，计算公式如下：

其中：

为目标行人图像与候选行人图像间的相似度，

为归一化的目标行人特征，

为归一化的候选行人特征，D _Q,G为目标行人图像与候选行人图像之间的距离；

根据基于K互补近邻的重排算法，对计算到的欧式距离进行修正，得到处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的初始欧式距离。

可选地，若图像I _c(x,y)中包含2个及以上目标行人时，对每个所述目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像I _G‘(x,y)，包括：

假设图像I _c(x,y)中包含目标行人A和目标行人B，由于目标行人A和目标行人B所对应的全景图像集相同，因此，当确定全景图像集中的某一图像为目标行人A的目标图像时，则将该图像从目标行人B的全景图像集中删除。

与现有技术相比，本发明具有如下的有益效果：

1)利用基于DenseNet的卷积神经网络提取具有更高鲁棒性的特征；

2)有效利用人脸信息，首先获取高置信度的含人脸的目标图像，再根据外观特征行人再识别，获得最终的候选行人排序结果，识别效果更好；

3)设计多个目标行人之间的行人再识别的全景图像进行过滤处理，压缩行人再识别匹配样本空间，减少计算量，提高准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的结合人脸与外观的两阶段行人搜索方法的原理示意图；

图2为本发明提供的结合人脸与外观的两阶段行人搜索方法的效果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明提供的结合人脸与外观的两阶段行人搜索方法的原理示意图，如图1所示，对原目标集、原待匹配集提取人脸特征，进行人脸检测及人脸识别，获得目标行人与候选行人的人脸相似性分数。然后，根据人脸相似性分数进行排序，根据预设阈值对原待匹配集进行阈值分离，得到新多目标集、新待匹配集。若原目标集中包含2个及以上目标行人时，对每个目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像。其中，新多目标集包含行人再识别的目标图像；新待匹配集包含行人再识别的处理后的候选行人图像。然后，对新多目标集、新待匹配集进行行人再识别，并根据基于K互补近邻的重排算法，对计算到的欧式距离进行修正，最终输出候选行人的排序结果。图2为本发明提供的结合人脸与外观的两阶段行人搜索方法的效果示意图，如图2所示，仅通过人脸识别只能识别左侧实线箭头表示的正面照片，对右侧虚线箭头表示不露脸的行人图像不能识别。而本发明提供的方法将人脸特征和外观特征相结合，可以有效地识别背影等图像，提高了图像识别的性能。

本发明提供的结合人脸与外观的两阶段行人搜索方法，具体步骤包括：

S101、获取包含目标行人的图像I _c(x,y)。

本实施例中，原目标集中可以包含多个目标行人的图像，也可以一个图像中包含多个目标行人。

S102、获取待识别的全景图像(Gallery)，以及全景图像中的行人坐标信息，确定包含候选行人的图像I _G(x,y)。

S103、根据图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数。

本实施例中，将给定的输入目标行人图片I _c(x,y)，即Cast，送入神经网络，按比例缩放到固定尺度(112×112)，利用MTCNN网络检测当前目标行人图像中的人脸，确定人脸位置并将人脸部分送入Insight Face网络提取特征得到512维向量

根据给定的输入全景图片(Gallery)和行人坐标信息获取行人图像I _G(x,y)，然后将其送入神经网络，按比例缩放到固定尺度(112×112)，利用MTCNN网络检测当前行人图像中是否含有人脸。若含有人脸，确定人脸位置并将人脸部分送入Insight Face网络提取特征得到512维向量

计算目标行人与候选行人的人脸相似度，利用如下的余弦相似度计算公式得到相似性分数：

没有检测到人脸的候选行人图片相似性分数设为-1。

优选地，MTCNN网络输出人脸所在区域以及对应的10个人脸关键点；若MTCNN在一张行人图像中检测到超过一个人脸区域，则只选择最高置信度的人脸区域及对应的人脸关键点进行输出。

优选地，计算相似性分数时首先对网络输出的特征进行归一化，而后进行向量点乘即可；具体操作时可利用矩阵乘法加速运算。

S104、根据人脸相似性分数进行排序，若相似性分数大于或等于预设阈值，则将对应的包含候选行人的图像作为行人再识别的目标图像I _Q(x,y)(Multi-query)；若相似性分数小于预设阈值，则将对应的包含候选行人的图像作为行人再识别的全景图像(Gallery)。

本实施例中，按照与目标行人即Cast的相似度从大到小对全部候选行人图片进行排序，没有检测到人脸的候选行人图片相似性分数设为-1，并随机排序在最后，从而得到人脸相似度排序列表。

根据经验设置相似性分数阈值，取相似性分数大于阈值的候选行人图片作为后续行人再识别的Multi-query，剩余的相似性分数小于阈值的候选杏仁图片作为后续行人再识别的Gallery。

优选地，得到相似性分数的候选行人图像只是全部候选行人图像的一部分，后续再识别的Multi-query从这里产生。

优选地，一般选择相似性阈值为0.35，即具有人脸相似度0.35以上的候选行人被选作后续再识别的Multi-query；若某些目标行人阈值以上的候选行人数量过少，如少于5个，则选择相似性分数最高的5个候选行人作为后续再识别的Multi-query。

S105、若图像I _c(x,y)中包含2个及以上目标行人时，对每个目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像I _G‘(x,y)。

本实施例中，从当前目标行人的Gallery中移除该数据集中其余目标行人对应的Multi-query图像，缩减行人再识别的匹配样本空间。

优选地，在同一个数据集里，不同的目标行人的候选行人集合相同，则行人A对应的Multi-query因为与行人A的人脸相似度较高，可以大概率认为就是行人A，从而可以将这部分Multi-query从行人B的Gallery中移除，压缩行人B的行人再识别匹配空间，提高匹配准群率。

S106、根据目标图像I _Q(x,y)、处理后的候选行人图像I _G‘(x,y)，计算目标图像I _Q(x,y)中的候选行人与处理后的候选行人图像I _G‘(x,y)中的候选行人之间的初始欧式距离。

本实施例中，将当前行人的所有Multi-query图像I _Q(x,y)送入神经网络，按比例缩放到固定尺度(256×256)，利用基于DenseNet的行人再识别网络提取Multi-query图像的特征得到向量

将当前行人的所有Gallery图像I _G(x,y)送入神经网络，按比例缩放到固定尺度(256×256)，利用基于DenseNet的行人再识别网络提取Gallery图像的特征得到向量

计算Multi-query行人与Gallery行人的相似度，利用如下的余弦相似度计算公式得到相似性分数：

将

作为Multi-query行人与Gallery行人的距离，并根据基于K互补近邻的重排算法重新计算距离Multi-query行人与Gallery行人的距离；

优选地：首先要对行人再识别网络进行训练。

优选地：行人再识别网络进行训练的过程，具体为：

将行人再识别视为分类任务，统计训练集中所有的ID数作为分类类别数，将输入图片缩放到288×288大小，并随机裁剪到256×256大小，利用随机水平翻转进行数据增广，随后输入DenseNet网络提取特征，输出8×8×1024大小的特征图；对其进行Average Pooling得到1024维向量，并用全连接层输出对应于类别数维度的向量，经过Softmax函数激活得到输入图像对应于每个ID类别的概率。

行人再识别结果由如下的Loss函数监督：

L(x,y)＝-logp _t,

其中，p _i表示当前行人属于某第i个类别的概率，p _t表示对应于真实类别的概率。

S107、将处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的平均欧式距离作为候选行人的最终欧式距离，并按照最终欧式距离对处理后的候选行人图像I _G‘(x,y)中的候选行人进行排序，得到对应的排序结果。

本实施例中，对某一Gallery行人，计算其相对于所有Multi-query行人的平均距离作为最终距离；并按照此距离从小到大对所有Gallery行人进行排序，输出最终匹配结果。

本实施例，利用现有的人脸检测器检测所给行人的人脸；基于公开大型数据集训练人脸比对模型并输出人脸表征向量；根据欧氏距离对待匹配行人集进行排序并利用重排算法获取更鲁棒的人脸排序结果；根据与原匹配目标的距离从排序结果中选取若干个样本作为下一阶段的多匹配目标；将同一数据集中不同行人的所挑选出的下一阶段的多匹配目标作为彼此的负样本，从而压缩下一阶段匹配的样本空间；最后进行多目标行人再识别，将待匹配图片集根据与多个目标的平均距离或相似度进行排序输出最终结果。本发明通过基于DenseNet的卷积神经网络将人脸与行人再识别联合起来搜索目标行人，并通过精心设计的限制条件提高了鲁棒性减少了计算量，进一步提升了行人搜索的性能。

下面结合具体实例对本实施例进一步描述。

本具体实例采用的训练数据来自115部中西方电影采样帧，每部电影可以视作一个独立的数据集，平均每部电影待搜索行人为6.7个。验证数据和测试数据分别包含19部和58部电影。

通过实验证明，本实施例方法能很好联合人脸识别和行人再识别完成行人搜索任务。表1和表2为本实施例分别在验证数据集和测试数据集上的行人再识别结果，评价标准采用mAP(mean Average Precision)。

表1

表2

可以看出由本实施例得到的结果较大程度了提升了行人搜索任务中行人再识别的性能。此外，本实施例采用一体化的处理方式，充分地利用了人脸检测的结果，极大地降低了实际应用中的研究复杂度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

一种结合人脸与外观的两阶段行人搜索方法，其特征在于，包括:

获取包含目标行人的图像I _c(x,y)；

获取待识别的全景图像，以及全景图像中的行人坐标信息，确定包含候选行人的图像I _G(x,y)；

根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数；

根据所述人脸相似性分数进行排序，若相似性分数大于或等于预设阈值，则将对应的包含候选行人的图像作为行人再识别的目标图像I _Q(x,y)；若相似性分数小于预设阈值，则将对应的包含候选行人的图像作为行人再识别的全景图像；

若图像I _c(x,y)中包含2个及以上目标行人时，对每个所述目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像I _G‘(x,y)；

根据所述目标图像I _Q(x,y)、处理后的候选行人图像I _G‘(x,y)，计算目标图像I _Q(x,y)中的候选行人与处理后的候选行人图像I _G‘(x,y)中的候选行人之间的初始欧式距离；

将处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的平均欧式距离作为候选行人的最终欧式距离，并按照所述最终欧式距离对处理后的候选行人图像I _G‘(x,y)中的候选行人进行排序，得到对应的排序结果。
根据权利要求1所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数，包括：

按照第一预设尺度对所述图像I _c(x,y)进行缩放处理，得到第一缩放图像；

将所述第一缩放图像输入MTCNN网络中，得到目标行人的人脸图像；

将所述目标行人的人脸图像输入到Insight Face网络中，得到所述目标行人的人脸特征向量x _c；

按照第一预设尺度对所述图像I _G(x,y)进行缩放处理，得到第二缩放图像；将所述第二缩放图像输入MTCNN网络中，判断是否包含候选行人的人脸图像；

若包含有候选行人的人脸图像，则将所述候选行人的人脸图像输入到Insight Face网络中，得到所述候选行人的人脸特征向量x _G；

根据余弦相似度计算公式，计算所述候选行人与所述目标行人的人脸相似性分数，所述余弦相似度计算公式如下：

其中，s _C,G为候选行人与目标行人的人脸相似性分数，x _C为Cast行人对应的特征，x _G为Gallery行人对应的特征；

若不包含候选行人的人脸图像，则确定所述候选行人与所述目标行人的人脸相似性分数为-1。
根据权利要求2所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，将所述第一缩放图像输入MTCNN网络中，得到目标行人的人脸图像，包括：

通过MTCNN网络获取目标行人的人脸图像，以及人脸图像对应的N个关键点；N为大于1的自然数；

若通过MTCNN网络获取的目标人脸图像的数量大于1，则获取置信度最高的目标行人的人脸图像，以及所述人脸图像对应的N个关键点。
根据权利要求1所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，所述预设阈值为0.35。
根据权利要求1所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，在根据所述图像I _c(x,y)、图像I _G(x,y)，计算目标行人与候选行人的人脸相似性分数之后，还包括：若相似性分数大于或等于预设阈值的行人图像的数量小于M，则选择相似性分数排在前M个的候选行人作为行人再识别的目标图像I _Q(x,y)；其中，M为大于1的自然数。
根据权利要求1所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，根据所述目标图像I _Q(x,y)、处理后的候选行人图像I _G‘(x,y)，计算目标行人与候选行人的初始欧式距离，包括：

按照第二预设尺度对所述目标图像I _Q(x,y)进行缩放处理，得到第三缩放图像；

将所述第三缩放图像输入基于DenseNet的行人再识别网络中，得到目标行人的特征向量

按照第二预设尺度对所述处理后的候选行人图像I _G‘(x,y)进行缩放处理，得到第四缩放图像；

将所述第四缩放图像输入基于DenseNet的行人再识别网络中，得到候选行人的特征向量

计算处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的欧式距离，计算公式如下：

其中：
为目标行人图像与候选行人图像间的相似度，
为归一化的目标行人特征，
为归一化的候选行人特征，D _Q,G为目标行人图像与候选行人图像之间的距离；

根据基于K互补近邻的重排算法，对计算到的欧式距离进行修正，得到处理后的候选行人图像I _G‘(x,y)中的候选行人与目标图像I _Q(x,y)中的候选行人之间的初始欧式距离。
根据权利要求1所述的结合人脸与外观的两阶段行人搜索方法，其特征在于，若图像I _c(x,y)中包含2个及以上目标行人时，对每个所述目标行人对应的行人再识别的全景图像进行过滤处理，得到处理后的候选行人图像I _G‘(x,y)，包括：

假设图像I _c(x,y)中包含目标行人A和目标行人B，由于目标行人A和目标行人B所对应的全景图像集相同，因此，当确定全景图像集中的某一图像为目标行人A的目标图像时，则将该图像从目标行人B的全景图像集中删除。