WO2021077785A1

WO2021077785A1 - 一种基于行人重识别驱动定位调整的行人搜索方法

Info

Publication number: WO2021077785A1
Application number: PCT/CN2020/097623
Authority: WO
Inventors: 桑农; 韩楚楚; 邵远杰; 郑若辰; 高常鑫
Original assignee: 华中科技大学
Priority date: 2019-10-21
Filing date: 2020-06-23
Publication date: 2021-04-29
Also published as: US20210365743A1; CN110826424B; US11263491B2; CN110826424A

Abstract

本发明公开了一种基于行人重识别驱动定位调整的行人搜索方法，属于计算机视觉技术领域，本发明通过设计感兴趣转换模块有效实现行人检测网络和行人重识别的联合优化；一方面，感兴趣转换模块将原始输入图像转换为感兴趣区域对应的小图，避免行人重识别网络和检测网络共享部分特征存在的矛盾；另一方面，行人重识别网络的损失可通过感兴趣区域转换模块梯度回传至检测网络，实现行人重识别网络损失对检测网络输出检测框的监督，调整后的检测框可以有效去除背景干扰，并且会包含更多有用的属性信息，更适合用于行人搜索，从而大大提升了行人搜索的准确率。

Description

一种基于行人重识别驱动定位调整的行人搜索方法

【技术领域】

本发明属于计算机视觉技术领域，更具体地，涉及一种基于行人重识别驱动定位调整的行人搜索方法。

【背景技术】

目前在人员密集的公共场所、政府部门、企事业单位、住宅小区、甚至许多居民的家中都装有监控摄像头，为维护社会治安、保障人民生命财产安全提供了可靠的视频监控资源。在视频监控中，由于摄像头的分辨率、拍摄角度等参数变化较大，难以实现高质量人脸图片的稳定获取，使得基于人脸识别技术的目标追踪稳定性较差。相对而言，行人搜索(Person Sea rch)技术可以为视频监控提供鲁棒性更强的目标追踪解决方案。行人搜索是指给定一张包含待查询行人的图片，从图片库中将该行人检测并识别出来，共包括行人检测和行人重识别两个子任务。相比于行人重识别直接利用裁好的行人图片，行人搜索更加接近现实场景。

现有的行人搜索方法主要分为两大类：一类方法是通过共享行人检测和行人重识别网络的部分特征进行联合训练，例如首篇行人搜索文章：“Joint detection and identification feature learning for person search，ComputerVisionand Pattern Recognition(CVPR)，2017IEEE Conferenceon IEEE，2017：3376-3385.”，但这类方法忽略了行人检测是二分类，而行人重识别是多分类任务，直接共享特征这种做法存在冲突，因此这类方法的准确率普遍比较低；另一类方法是分别进行检测和重识别，将两个任务分隔开，不能很好的进行联合优化，检测网络输出的检测框往往存在背景干扰，不适合用于行人搜索，因此这类方法的准确率普遍也较低；此外，该方法不能实现端到端的检测，也导致了行人搜索的效率比较低。

总体而言，现有现有行人搜索方法通过共享部分特征，实现行人检测网络和行人重识别网络的联合训练，由于共享特征存在冲突，而造成行人搜索的准确率较低的技术问题。

【发明内容】

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于行人重识别驱动定位调整的行人搜索方法，其目的在于解决，现有现有行人搜索方法通过共享部分特征，实现行人检测网络和行人重识别网络的联合训练，由于共享特征存在冲突，而造成行人搜索的准确率较低的技术问题。

为实现上述目的，本发明提供了一种基于行人重识别驱动定位调整的行人搜索方法，包括：

(1)构建行人重识别驱动定位调整模型；所述行人重识别驱动定位调整模型包括检测模块、感兴趣区域转换模块和行人重识别模块；

所述检测模块，用于对输入图像中的行人进行检测，得到行人位置对应的检测框坐标；所述感兴趣区域转换模块，用于根据所述检测框坐标计算得到由输入图像到检测框坐标的仿射变换参数，并根据所述仿射变换参数和双线性采样对输入图像中的感兴趣区域进行提取；所述行人重识别模块，用于对所述感兴趣区域提取深度特征；

(2)将原始图片作为所述行人重识别驱动定位调整模型的输入，将原始图片内行人对应的身份标签的概率值作为所述行人重识别驱动定位调整模型输出特征经过分类后的期望输出，对所述行人重识别驱动定位调整模型进行训练；

(3)将待搜索图像和目标图像分别输入训练好的行人重识别驱动定位调整模型，得到待搜索图像行人特征和目标图像行人特征，计算待搜索图像行人特征与目标图像行人特征之间的相似度，获得待搜索图像的匹配结果。

进一步地，采用交叉熵损失和三元组代理损失对所述行人重识别模型进行监督。

进一步地，采用三元组代理损失监督所述行人重识别模块的方法具体为：

(01)初始化用于存储每个类别特征值的三元组代理表T∈R ^N*K；其中，N代表样本的类别总数，K代表每个类别存储特征的个数；

(02)前向传播时，通过计算三元组代理损失值使同类别的样本之间距离更近，不同类别样本之间的距离更远；

(03)反向传播时，更新当前样本对应类别在所述三元组代理表中的特征，采用先入先出原则替换已有特征。

进一步地，所述行人重识别模块的损失函数对所述检测模块输出的检测框坐标进行监督。

进一步地，所述检测模块采用Faster R-CNN作为网络主干。

进一步地，所述FasterR-CNN包括分类损失，不包括回归损失。

进一步地，所述FasterR-CNN采用的锚框长宽比小于1。

进一步地，所述行人重识别模块ResNet50作为网络主干。

进一步地，所述ResNet50采用批归一化层替换网络最后的全连接层。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明通过设计感兴趣转换模块有效实现行人检测网络和行人重识别的联合优化；一方面，感兴趣转换模块将原始输入图像转换为感兴趣区域对应的小图，避免行人重识别网络和检测网络共享部分特征存在的矛盾；另一方面，行人重识别网络的损失可通过感兴趣区域转换模块梯度回传至检测网络，实现行人重识别网络损失对检测网络输出检测框的监督，调整后的检测框可以有效去除背景干扰，并且会包含更多有用的属性信息，更适合用于行人搜索，从而大大提升了行人搜索的准确率。

(2)本发明设计了一种三元组代理损失，用一个三元组代理表来存储所有类别的特征，并且在每次迭代进行更新，因此即使在行人搜索任务中，由于批训练样本个数太少的限制，无法构建常规的三元组损失，也可以通过提取三元组代理表中的代理样本来构建三元组，进而使同类别的样本之间距离更近，不同类别样本之间的距离更远，提高行人搜索的精确度。

【附图说明】

图1是本发明实施例的一种基于行人重识别驱动定位调整的行人搜索方法的流程图。

图2是本发明实施例的行人重识别驱动定位调整模型结构图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供了一种基于行人重识别驱动定位调整的行人搜索方法，包括：

(1)构建行人重识别驱动定位调整模型；如图2所示，该行人重识别驱动定位调整模型包括检测模块、感兴趣区域转换模块和行人重识别模块；其中，检测模块，用于对输入图像中的行人进行检测，得到行人位置对应的检测框坐标；感兴趣区域转换模块，用于根据检测框坐标计算得到由输入图像到检测框坐标的仿射变换参数，并根据仿射变换参数和双线性采样对输入图像中的感兴趣区域进行提取；行人重识别模块，用于对感兴趣区域提取深度特征；

具体地，本发明实施例提供的检测模块采用Faster R-CNN作为网络主干，由于检测目标为行人，为更适合人体比例，应修改FasterR-CNN中anchor的长宽比使其小于1，本发明实施例修改FasterR-CNN中anchor的长宽比从1:1,1:2,2:1到1:1,1:2,1:3；同时为使重识别损失能够主导检测框的生成，而不仅仅使检测框接近于真实框，本发明只保留原始Faster R-CNN的分类损失，去掉原始网络中的回归损失。

由于感兴趣转换模块的作用，使得重识别网络的损失可以梯度回传至检测网络，从而对检测出的坐标进行监督，具体地，采用以下公式根据检测框坐标计算得到由输入图像到检测框坐标的仿射变换参数θ：

其中，

表示检测框在原始输入图像中的坐标，

表示提取的感兴趣区域小图的坐标；

根据仿射变换参数θ以及双线性采样，可以得到检测框对应的感兴趣区域小图，并且实现损失函数的梯度回传；感兴趣区域小图的计算公式为：

V＝B(P ^S,U)

其中，B代表双线性采样，U和V分别代表原始输入图像和感兴趣区域小图，P ^S是根据仿射变换得到由小图到原图像的像素点。

行人重识别模块采用ResNet50作为网络主干，为了保持训练的类别数和训练集类别数保持一致，本发明移除ResNet50最后的全连接层，得到修改后的残差网络，并在修改后的残差网络之后添加批归一化层。

(2)将原始图片作为所述行人重识别驱动定位调整模型的输入，将原始图片内行人对应的身份标签概率值作为所述行人重识别驱动定位调整模型输出特征经过分类后的期望输出，对所述行人重识别驱动定位调整模型进行训练；

具体地，本发明采用交叉熵损失和三元组代理损失对行人重识别模型进行监督；其中，三元组损失是行人重识别领域一种常用的度量损失，该损失可以使同类别的样本之间距离更近，不同类别样本之间的距离更远，但是由于在行人搜索任务中，由于批训练样本个数太少的限制，无法构建常规的三元组损失。因此本发明设计了一种三元组代理损失，用一个三元组代理表来存储所有类别的特征，并且在每次迭代进行更新，这样即使批训练样本不足以构成三元组，也可以通过提取三元组代理表中的代理样本来构建三元组，故称为三元组代理损失；采用三元组代理损失监督所述行人重识别模块的方法具体为：(01)初始化用于存储每个类别特征值的三元组代理表T∈R ^N*K；其中，N代表样本的类别总数，K代表每个类别存储特征的个数，本发明实施例取K＝2；(02)前向传播时，通过计算三元组代理损失值L使同类别的样本之间距离更近，不同类别样本之间的距离更远：

其中，m表示约束负样本对大于正样本对距离的间隔，f _i ^a,f _i ^p,f _i ⁿ分别表示三元组中的锚点样本、正样本以及负样本的特征，D表示欧氏距离；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，包括：

(1)构建行人重识别驱动定位调整模型；所述行人重识别驱动定位调整模型包括检测模块、感兴趣区域转换模块和行人重识别模块；

所述检测模块，用于对输入图像中的行人进行检测，得到行人位置对应的检测框坐标；所述感兴趣区域转换模块，用于根据所述检测框坐标计算得到由输入图像到检测框坐标的仿射变换参数，并根据所述仿射变换参数和双线性采样对输入图像中的感兴趣区域进行提取；所述行人重识别模块，用于对所述感兴趣区域提取深度特征；

(2)将原始图片作为所述行人重识别驱动定位调整模型的输入，将原始图片内行人对应的身份标签的概率值作为所述行人重识别驱动定位调整模型输出特征经过分类后的期望输出，对所述行人重识别驱动定位调整模型进行训练；

(3)将待搜索图像和目标图像分别输入训练好的行人重识别驱动定位调整模型，得到待搜索图像行人特征和目标图像行人特征，计算待搜索图像行人特征与目标图像行人特征之间的相似度，获得待搜索图像的匹配结果。
根据权利要求1所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，采用交叉熵损失和三元组代理损失对所述行人重识别模型进行监督。
根据权利要求2所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，采用三元组代理损失监督所述行人重识别模块的方法具体为：

(01)初始化用于存储每个类别特征值的三元组代理表T∈R ^N*K；其中， N代表样本的类别总数，K代表每个类别存储特征的个数；

(02)前向传播时，通过计算三元组代理损失值使同类别的样本之间距离更近，不同类别样本之间的距离更远；

(03)反向传播时，更新当前样本对应类别在所述三元组代理表中的特征，采用先入先出原则替换已有特征。
根据权利要求1-3任一项所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述行人重识别模块的损失函数对所述检测模块输出的检测框坐标进行监督。
根据权利要求1-4任一项所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述检测模块采用Faster R-CNN作为网络主干。
根据权利要求5所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述FasterR-CNN包括分类损失，不包括回归损失。
根据权利要求6所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述FasterR-CNN采用的锚框长宽比小于1。
根据权利要求1-7任一项所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述行人重识别模块ResNet50作为网络主干。
根据权利要求8所述的一种基于行人重识别驱动定位调整的行人搜索方法，其特征在于，所述ResNet50采用批归一化层替换网络最后的全连接层。