WO2019041360A1

WO2019041360A1 - 行人属性识别与定位方法以及卷积神经网络系统

Info

Publication number: WO2019041360A1
Application number: PCT/CN2017/100430
Authority: WO
Inventors: 冯柏岚; 姚春凤; 黄凯奇; 张彰; 周阳
Original assignee: 华为技术有限公司; 中国科学院自动化研究所
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-03-07
Also published as: US11574187B2; CN111052126B; CN111052126A; US20200272902A1

Abstract

一种行人属性识别与定位方法以及卷积神经网络系统，该方法包括：对待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图；对多种第一特征映射图进行卷积，得到多种第二特征映射图，并将每种第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到多种高维特征向量；其中，多个互有重叠的bin均匀地覆盖每种第二特征映射图；将多种高维特征向量处理为低维向量，得到所述行人属性的识别结果；进一步可根据多种第二特征映射图和多种高维特征向量，得到行人属性的定位结果。所述方法能够克服视频监控中的不利因素，对行人属性进行更好的识别与定位。

Description

行人属性识别与定位方法以及卷积神经网络系统

技术领域

本申请涉及图像监控技术领域，尤其涉及行人属性识别与定位方法以及卷积神经网络系统。

背景技术

随着硬件技术的不断进步，计算机的运算能力实现了一次又一次地突破，人工智能、计算机视觉、机器学习等领域也随之突飞猛进。然而计算机视觉面临的主要难题的根源在于人类与计算机处理视觉信息的方式，人类处理这些信息主要在语义空间中进行，而计算机则必须在数据空间中进行。所以，如何跨越从图像空间到语义空间的语义鸿沟，一直以来是计算机视觉研究者们致力于解决的问题。由于视觉属性包含了可用于描述视觉目标的一些基本语义信息，具有良好的普适性。同时，受人类视觉感知系统的启发，基于属性的语义表达是一种相对直观且自然的对可视物体进行描述的方法。在视频监控系统中，对行人的诸如“性别”、“戴眼镜”、“着装类型”等行人属性的识别，有着非常大的应用潜力。针对不同的研究背景和应用目标，已经有很多视觉属性识别工作出现，比如：基于低层属性识别的一般物体分类、基于脸部属性识别的人脸验证和从顾客图片中识别行人属性。但是，在监控场景下解析行人属性的识别与定位依然处于初级阶段。在视频监控场景下，由于存在图像分辨率较低、拍摄距离远、不同拍摄视角容易导致的行人姿态上的变化、环境物或行人附属物容易对行人属性本身的遮挡等等不利因素,难以对行人属性进行良好的识别与定位。

发明内容

本发明实施例公开了行人属性识别与定位方法以及卷积神经网络系统，能够克服视频监控场景下的不利因素，实现对行人属性进行更好的识别与定位。

第一方面，本发明实施例提供了一种行人属性识别与定位方法，该方法应用于卷积神经网络系统，该方法包括：卷积神经网络系统获取待检测图像；对所述待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图，这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)；对所述多种第一特征映射图进行卷积，得到多种第二特征映射图，这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)；将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到多种高维特征向量；其中，所述多个互有重叠的bin均匀地完全覆盖所述每种第二特征映射图；将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果；根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果；基于所述定位结果，在所述待检测图像中标记所述行人属性。

本发明实施例中，对图像进行特征提取是在特征引擎中进行的，特征引擎对待检测图像(例如视频监控中的图像帧)进行抽象，提取与行人属性相关的特征。特征引擎中包括多个串联或并联的层，每个层包含一种或多种卷积层和池化层的组合，不同的层具有不同的深度，不同的层对图像的抽象程度不同，也就是说，较浅的层对图像抽象程度低，图像的中的细粒度特征得以保留；较深的层抽象程度高，图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取，可得到不同抽象程度、不同尺度的特征映射图。

发明实施例中，通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取，可以保证细粒度属性特征在较早的阶段就得以保留，有利于避免了卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。

本发明实施例中，对第一特征映射图进行卷积是在卷积层中进行的，每个卷积层包括多组卷积核。

本发明实施例中，对第二特征映射图进行池化是在灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP)进行的。具体的，FSPP被设计为包含多个层级的金字塔结构，不同的层级对输入的特征映射图不同方式的划分为若干个区域bin，每个层级中的这些bin之间互相重叠，特征映射图中的某些像素点可以同时位于不同的bin中，这些bin大小相同，通过它们的重叠，能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理，可以得到一个小向量(即特征向量)，该特征向量反映了该bin对该特征映射图的响应值。

举例来说，FSPP为两个层级的金字塔，在金字塔的第1层上包含1个bin，所述1个bin覆盖整个中层特征图，对该bin做最大池化操作，得到一个特征向量；在第2层上，属性的中层特征图被3×3个bin覆盖，这9个bin大小相同，每一个bin的高为对应的中层特征图的高的40％，每一个bin的宽为对应的中层特征图的宽的40％，这9个bin在空间上互有重叠，均匀分布，覆盖整个中层特征图。对9个bin分别进行最大池化操作，得到9个特征向量。所以，每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。

可以看出，本发明实施例能够通过灵活的bin大小以及bin组合，调整属性特征相关的特征向量的输出，强化了不同bin对不同中层特征的敏感度，更加明确了属性与不同bin之间的关联程度。而且FSPP在经过弱监督训练后，能够调整行人属性与不同bin的关联程度，使得行人属性的中层特征具有特定的局部空间分布倾向，让行人属性的中层特征更好地关联到空间位置上。另外，由于bin之间互相重叠，所以处于重叠区域的中层特征可以同时隶属多个bin，使得该中层特征可以和多个bin产生关联，扩大的定位的响应区域，能够有利于实现更加精确的定位。

本发明实施例中，将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果，包括：将N支路的高维特征向量进行整合，然后将整合后的高维向量进行回归，得到与所需的属性分类数目相同的低维向量，通过sigmoid函数，将低维向量归一化处理到[0,1]区间内，得到行人属性的识别结果。

本发明实施例中，对行人属性进行定位包括：通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息，并基于空间位置信息在待检测图像中直接标识出该行人属性。

结合第一方面，在具体的实施例中，本方法所应用的卷积神经网络系统采用弱监督的方法进行训练，所述弱监督训练为基于多个样本图片进行的训练，所述多个样本图片包括正样本图片与负样本图片；在需要进行训练时，对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签，而不需要对行人属性在图片中进行边框标注，就可以实现对卷积神经网络系统的训练。对于任意行人属性，在样本图片中存在，即真值标签为1，在样本图片中不存在，则真值标签为0。卷积神经网络系统通过大量样本图片的弱监督训练，能够不断自动调整一些参数设定，从而使得对行人属性的识别结果和定位结果不断地趋向准确，这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵，属性的中层特征与bin的关联程度值RS，中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。

举例来说，确定行人属性a的中层特征与bin之间的关联程度，也就是说，需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值，其过程如下所示：

某个bin在正样本图片上的平均响应值PAve为：

某个bin在负样本图片上的平均响应值NAve为：

所以，正样本图片上的平均响应值与在负样本图片上的平均响应值的比值为：

d∈[1，M]；k∈[1，NB_d]。

RS代表了关联程度数组，确定了行人属性a的中层特征与某个bin之间的关联程度。其中，上述公式中，d表示某个行人属性的中层特征图，k表示某个bin，N代表训练中输入的样本图片的总数；M等于行人属性的中层特征图的总数，也代表灵活空间金字塔池化层的金字塔总数；NB代表金字塔中容器的总数；Score代表在样本图片上，bin的输出值(即特征向量)；Label代表样本图片中行人属性a的标注向量，正样本图片的Label为1，负样本图片的Label为0。

可以看出，本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高，能够降低人力物力成本。基于弱监督训练的卷积神经网络可适用于视频监控场景下行人的细粒度属性特征进行准确的识别与定位，可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景。

结合第一方面，预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值之后，根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果，包括：

根据所述关联程度值和所述多种高维特征向量，得到所述每种第二特征映射图在所述每个bin中的权重值；

将多种的分别经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；

获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，基于所述激活集群得到所述行人属性的定位结果。

结合第一方面，在可能的实施例中，在激活集群的数量为多个的情况下，所述基于所述激活集群得到所述行人属性的定位结果，包括：

首先，根据所确定的中层特征与bin的关联程度RS关联程度值和所述全部的高维特征向量，得到所述每个第二特征映射图在所述每个bin中的权重值；

其中，正则化分数norm_score为:

norm_score[d][k]＝score[d][k]/(pred_a[d][k]？PAve[d][k]：NAve[d][k])；

其中，pred表示属性a的识别值。

当属性a的识别值为1，则norm_score[d][k]＝score[d][k]/PAve[d][k]；

当属性a的识别值为0，则norm_score[d][k]＝score[d][k]/NAve[d][k]。

然后，将N个支路的分别经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图D；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；

D＝D+w[d][k]×Resize(A[d]×mask，(H_img，W_img))；d∈[1，M]；k∈[1，NB_d]。

其中，W，H代表中层特征图的尺寸；Resize表示对所得图像的尺寸进行调整，A代表行人属性的中层特征图。

然后，获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到一个或多个激活集群，进而确定激活集群的中心点，选择所述中心点作为行人属性位置的指示点。

结合第一方面，在可能的实施例中，在激活集群的数量为多个的情况下，所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果，包括：确定在所述待检测图像中所述行人属性的数量；确定每个激活集群的平均响应值；基于所述平均响应值对所述数量为多个的激活集群进行排序；基于排序的结果获得与所述行人属性的数量相同的激活集群，得到所述行人属性的定位结果。

例如，对于行人属性“手套”而言，预先定义每个行人的手套为两个，所以在需要对行人属性“戴手套”进行属性定位的相关计算中，如果确定得到的激活集群有多个，则计算每个激活集群的平均响应值并从大到小排序，保留序列中平均响应值最大的前两个激活集群，那么，该两个激活集群的中心点就是行人属性“戴手套”的位置指示点。

结合第一方面，在可能的实施例中，可在待检测图像中的所述位置指示点标记所述行人属性，以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的，例如，可以在位置指示点设置十字线、高亮框等等图案来标记行人属性。

第二方面，本发明实施例提供了一种用于行人属性识别与定位的卷积神经网络系统，所述系统包括：特征提取模块、多尺度感知模块、属性识别模块、属性定位模块，所述多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP)，一个所述卷积层连接一个所述灵活空间金字塔池化层；所述特征提取模块与所述N个并行的卷积层通过N个支路进行连接；所述属性识别模块与N个并行的灵活空间金字塔池化层通过N个支路进行连接；所述属性定位模块与所述多尺度感知模块通过N个支路进行连接；其中：

(1)特征提取模块用于，对待检测图像进行N种不同抽象程度的特征提取，获得行人属性的N种第一特征映射图，这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)；并将所述N种第一特征映射图通过所述N个支路分别发送至所述N个并行的卷积层。

其中，特征提取模块作为卷积神经网络的特征引擎，用于对待检测图像(例如视频监控中的图像帧)进行抽象，提取与行人属性相关的特征。特征提取模块可分为多个串联或并联的层，每个层包含一种或多种卷积层和池化层的组合，不同的层具有不同的深度，不同的层对图像的抽象程度不同，也就是说，较浅的层对图像抽象程度低，图像的中的细粒度特征得以保留；较深的层抽象程度高，图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取，可得到不同抽象程度、不同尺度的特征映射图。

(2)多尺度感知模块用于，由所述N个支路中的第一支路对应的所述卷积层，对该卷积层所接收的所述第一特征映射图进行卷积，得到第二特征映射图，所述第一支路为所述N个支路中的任意支路，这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)；由所述第一支路对应的FSPP，将该FSPP所接收的所述第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到高维特征向量；其中，所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。

具体的，本发明实施例中，FSPP被设计为包含多个层级的金字塔结构，不同的层级对输入的特征映射图按不同方式的划分为若干个区域bin，每个层级中的这些bin之间互相重叠，特征映射图中的某些像素点可以同时位于不同的bin中，这些bin大小相同，通过它们的重叠，能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理，可以得到一个小向量(即特征向量)，该特征向量反映了该bin对该特征映射图的响应值。

可以看出，本发明实施例提供的FSPP，能够通过灵活的bin大小以及bin组合，调整属性特征相关的特征向量的输出，强化了不同bin对不同中层特征的敏感度，更加明确了属性与不同bin之间的关联程度。而且FSPP在经过弱监督训练后，能够调整行人属性与不同bin的关联程度，使得行人属性的中层特征具有特定的局部空间分布倾向，让行人属性的中层特征更好地关联到空间位置上。另外，由于bin之间互相重叠，所以处于重叠区域的中层特征可以同时隶属多个bin，使得该中层特征可以和多个bin产生关联，扩大的定位的响应区域，能够有利于后续属性定位模块实现更加精确的定位。

(3)属性识别模块用于，将由所述N个支路得到的全部的高维特征向量进行整合和回归，得到低维向量，根据所述低维向量得到所述行人属性的识别结果。

其中，属性识别模块包括全连接层以及最后预测结果的输出层，属性识别模块作为属性特征的分类器，对输入的特征进行分类，然后输出所需的属性分类数目。具体的，属性识别模块将N支路的高维特征向量进行整合，然后将整合后的高维向量进行回归，得到与所需的属性分类数目相同的低维向量，通过sigmoid函数，将低维向量归一化处理到[0,1]区间内，得到行人属性的识别结果。

(4)属性定位模块用于，通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息，并基于空间位置信息在待检测图像中直接标识出该行人属性。具体的，根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量，得到所述行人属性的定位结果。

其中，本发明实施例中所述行人属性包括行人的特征信息，例如行人属性可以是行人的性别、头发长短、衣服颜色、衣服款式、鞋子款式、帽子款式、或者戴项链、戴眼镜、戴手套、戴围巾、戴帽子、背包等等。

结合第二方面，在可能的实施例中，特征提取模块采用的GoogLeNet模型的Inception架构作为特征引擎，在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征输入到多尺度感知模块的三个卷积层。

结合第二方面，在可能的实施例中，每个卷积层包括多组卷积核；所述灵活空间金字塔池化层包括多个层级，每个层级包括数量不等的多个bin，所述每个层级中的多个bin互有重叠，均匀地完全覆盖所述第二特征映射图；所述多尺度感知模块用于，由所述第一支路对应的所述卷积层，对该卷积层所接收的所述第一特征映射图进行卷积，得到第二特征映射图，包括：由所述每个卷积层的每组卷积核，对所接收的所述第一特征映射图进行卷积，得到第二特征映射图；所述FSPP将由所述每组卷积核得到的所述第二特征映射图映射为所述数量不等的多个bin，分别对每个bin进行最大池化，得到所述每组卷积核对应的特征向量；将由所述多组卷积核得到的全部的所述特征向量整合为高维特征向量。

结合第二方面，在可能的实施例中，多尺度感知模块具有三个卷积层，这三个卷积层分别具有512、512、1024组卷积核，也就是说，分别对应的512、512、1024个通道，每组卷积核都用于将行人属性的一般特征转化为行人属性的中层特征，通过对应通道输入到对应的FSPP中。

结合第二方面，在可能的实施例中，FSPP的金字塔被限定为2层级，包括1X1个bin的层级和3X1或3X3个互有重叠的bin的层级。每个通道的中层特征图在相应的FSPP中被处理为一个维度与FSPP中bin总数相等的小向量(特征向量)，最终形成三个分支的高维特征向量。

举例来说，FSPP被设计为两个层级的金字塔，在金字塔的第1层上包含1个bin，所述1个bin覆盖整个中层特征图，对该bin做最大池化操作，也就是说，对输入的中层特征图进行全局最大池化操作，得到一个特征向量；在第2层上，属性的中层特征图被3×3个bin覆盖，这9个bin大小相同，每一个bin的高为对应的中层特征图的高的40％，每一个bin的宽为对应的中层特征图的宽的40％，这9个bin在空间上互有重叠，均匀分布，覆盖整个中层特征图。对9个bin分别进行最大池化操作，也就是说，对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作，得到9个特征向量。所以，每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。

结合第二方面，在具体的实施例中，卷积神经网络系统采用弱监督的方法进行训练，所述弱监督训练为基于多个样本图片进行的训练，所述多个样本图片包括正样本图片与负样本图片；在需要进行训练时，对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签，而不需要对行人属性在图片中进行边框标注，就可以实现对卷积神经网络系统的训练。对于任意行人属性，在样本图片中存在，即真值标签为1，在样本图片中不存在，则真值标签为0。卷积神经网络系统通过大量样本图片的弱监督训练，能够不断自动调整一些参数设定，从而使得对行人属性的识别结果和定位结果不断地趋向准确，这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵，属性的中层特征与bin的关联程度值RS，中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。

结合第二方面，在可能的实施例中，卷积神经网络系统能够自动学习到哪些中层特征与哪些行人属性的关联性更大，还能自动学习到对于一个行人属性的中层特征而言哪些bin的权重较大。在初始阶段，卷积神经网络系统并不知道这些关联程度或bin权重，在每个训练周期，基于样本图片的真值标签，卷积神经网络系统通过反向传递函数从属性的预测层通过FC层向后传递梯度到多尺度感知模块和特征提取模块，这些梯度与中层特征的存在标签直接相关。FC层预先编码了中层特征与属性的正相关或负相关，所以能够确定属性正相关的中层特征。当样本图片中行人属性被标记为存在时，与对应中层特征相关的梯度被传递到输出该特征的相关bin，强化了相关bin对该中层特征的响应程度；梯度被传递到多尺度感知模块的卷积层，并调整各卷积层的卷积矩阵，鼓励相关卷积层对该中层特征的提取；梯度被传递到特征提取模块，还可以调整特征提取模块的各层的卷积矩阵和池化矩阵，鼓励特征提取模块提取与属性正相关的一般特征。同时，上述过程中，与属性负相关的特征响应会被抑制。可以理解的，当样本图片中行人属性被标记为不存在时，属性的中层特征的存在将被抑制。

结合第二方面，在可能的实施例中，所述属性定位模块的定位过程包括：

根据所确定的中层特征与bin的关联程度RS关联程度值和所述全部的高维特征向量，得到所述每个第二特征映射图在所述每个bin中的权重值；

最后，获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到一个或多个激活集群，进而确定激活集群的中心点，选择所述中心点作为行人属性位置的指示点。

结合第二方面，在可能的实施例中，在激活集群的数量为多个的情况下，所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果，包括：确定在所述待检测图像中所述行人属性的数量；确定每个激活集群的平均响应值；基于所述平均响应值对所述数量为多个的激活集群进行排序；基于排序的结果获得与所述行人属性的数量相同的激活集群，得到所述行人属性的定位结果。

结合第二方面，在可能的实施例中，可在待检测图像中的所述位置指示点标记所述行人属性，以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的，例如，可以在位置指示点设置十字线、高亮框等等图案来标记行人属性。

第三方面，本发明实施例提供了一种用于行人属性识别与定位的硬件设备。该硬件设备包括处理器和存储器，所述处理器与存储器相连接(如通过总线相互连接)。存储器用于存储相关程序代码及数据(例如卷积神经网络系统的相关数据)，该处理器用于读取所述存储器中存储的程序代码，以用于执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储第一方面所述方法的实现代码。

第五方面，本发明实施例提供了一种计算机软件产品，当其在计算机中运行时，可用于实现第一方面所述的方法。

可以看出，实施本发明实施例，通过提取不同抽象程度的行人属性一般特征，使得细粒度的属性特征得以保留，将一般特征转化为中层特征后，可基于中层特征的相关特征向量进行行人属性识别，在视频监控场景下对于细粒度的属性特征(如戴眼镜等)也能实现较好的识别，在行人属性识别方面鲁棒性更高，效果更好；还可基于中层特征图和中层特征的相关特征向量进行行人属性定位，可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景，弥补了现有技术中监控场景下属性定位方法的缺失。另外，本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高，能够有效降低人力物力成本。

附图说明

图1是现有技术中的一种卷积神经网络系统的结构示意图；

图2是本发明实施例提供的一种卷积神经网络系统的结构示意图；

图3是本发明实施例提供的一种特征映射图映射到bin中的场景示例图；

图4是本发明实施例提供的又一种特征映射图映射到bin中的场景示例图；

图5是本发明实施例提供的一种行人属性定位的场景示例图；

图6是本发明实施例提供的多种行人属性识别与定位的场景示例图；

图7是本发明实施例提供的又一种卷积神经网络系统的结构示意图；

图8是本发明实施例提供的一种行人属性识别与定位方法的流程示意图；

图9是本发明实施例提供的又一种行人属性识别与定位方法的流程示意图；

图10是本发明实施例提供的一种用于行人属性识别与定位的设备结构图。

具体实施方式

为了便于理解，下面首先介绍现有技术中的卷积神经网络(Convolutional Neural Network，CNN)系统。参见图1，通常的CNN系统包括卷积层、池化层、全连接层，将待检测图像输入到CNN系统后，第一个卷积层(如图中卷积层1)的卷积核对图像进行过滤，通过卷积处理，提取某个或某些属性的特征，卷积后输出特征映射图。第一个池化层(如图中池化层1)对该特征映射图进行池化，进一步减少参数的数量，得到特征向量。在输出最终预测结果前，图像通常会经历多个卷积层和池化层(如图中还包括卷积层2和池化层2)的处理。通常来说，由于卷积和池化过程会不断地丢失一些非显著的信息，以减少特征映射图的参数和空间尺寸，越深的卷积神经网络会提取越具体明显的特征，越浅的网络提取越浅显的特征。经卷积和池化处理得到的数据输入到全连接层(如图中包括全连接层1和全连接层2)，对数据进行整合和降维，从而得到与属性分类总数相同的归一化的预测结果。最后将预测结果输出，从而实现待检测图像中属性的识别。CNN系统在实际应用之前，通常会基于大量的图片进行自动深度学习，采用相关训练算法和反向传播算法进行大量训练，从而不断地调整CNN系统中的参数设定，提高属性识别的性能。

基于CNN系统在图像识别所展现的强大功能，CNN系统在人脸识别、商品推荐、物体分类、目标跟踪、视频监控等等应用场景中具有极大的商业价值。尤其是在视频监控系统中，应用CNN系统进行行人属性的识别与定位，能够有助于构建智能的安全监控网络，具有极大的应用潜力。但是，现有技术的CNN系统应用到视频监控系统会存在一些缺陷。首先，考虑到存储的需求和拍摄距离通常较远的原因，视频监控中行人图像的分辨率通常不高，对于一些像素较低的行人属性，输入到CNN系统后，在卷积与池化操作的多次交替过程中，会小尺度、低层次的属性特征容易被遗失或被忽略，导致无法识别像“戴眼镜”之类的细粒度属性。其次，在远距离的视频监控中，不但从监控视频中截取的行人图像分辨率较低，而且视频中环境障碍物或行人附属物会对行人属性造成遮挡，导致最终的行人属性难以被识别。而且，不同拍摄视角会导致的视频监控中行人姿态上的变化，对行人的所有属性直接进行同时识别比较困难。再次，视频监控中CNN系统通常采用全监督训练的方式进行深度学习，在全监督训练中，通常需要在样本图片中手动标注行人属性的边界标定框，然后再输入到模型中进行训练。然而，对一个大型数据库中成千上万的多类属性的样本图片都进行手动注释对象边界框的话是非常耗时耗力，成本非常高。而且，一些行人属性本身存在较模糊的边界定义，比如“戴眼镜”这种行人属性就不同于单纯的“眼镜”这种物体属性，不能简单界定其边界。最后，目前视频监控系统中行人属性的定位依然是一种挑战，而基于全监督训练的CNN系统并不适合于行人属性定位的任务。

为了克服现有技术中的缺陷，本发明实施例提供了一种适用于视频监控中的行人属性识别与定位方法以及基于弱监督训练的卷积神经网络系统，实现对行人属性进行更好的识别与定位。

下面描述本发明实施例提供的卷积神经网络系统，本发明实施例提供的卷积神经网络系统可用于进行行人属性的识别以及行人属性的定位，所述行人属性包括行人的特征信息，例如行人属性可以是行人的性别、头发长短、衣服颜色、衣服款式、鞋子款式、帽子款式、或者戴项链、戴眼镜、戴手套、戴围巾、戴帽子、背包等等，可以理解的，行人属性的识别为对图像中特定的行人属性进行识别，行人属性的定位为在图像中对该行人属性的具体位置进行定位。

参见图2，本发明实施例提供的卷积神经网络系统包括：特征提取模块、多尺度感知模块、属性识别模块和属性定位模块；特征提取模块可通过N个支路与多尺度感知模块进行连接；属性识别模块通过N个支路与多尺度感知模块进行连接；属性定位模块通过至少N个支路与所述多尺度感知模块进行连接，各模块详细描述如下：

(1)特征提取模块：本发明实施例中，特征提取模块作为卷积神经网络的特征引擎，用于对待检测图像(例如视频监控中的图像帧)进行抽象，提取与行人属性相关的特征。特征提取模块可分为多个串联或并联的层，每个层包含一种或多种卷积层和池化层的组合，不同的层具有不同的深度，不同的层对图像的抽象程度不同(如图2中所示的抽象程度1、抽象程度2等等)，也就是说，较浅的层对图像抽象程度低，图像的中的细粒度特征得以保留；较深的层抽象程度高，图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取，可得到不同抽象程度、不同尺度的特征映射图，这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。本发明实施例中，N种行人属性的一般特征从不同的层级输出后，可通过N个支路分别输入到多尺度感知模块的N个并行的卷积层。

例如，具体实现中，特征提取模块可以采用GoogLeNet模型中Inception结构，进行特征提取，在Inception结构的不同层进行特征提取，从其中的“inception4a/output”层，“inception4d/output”层和“inception5b/output”层分别输出三种尺度和抽象程度的属性的一般特征，作为后续的多尺度感知模块的输入。

可以看出，本发明实施例中，通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取，可以保证细粒度属性特征在较早的阶段就得以保留，有利于避免了卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。

(2)多尺度感知模块：多尺度感知模块用于实现属性特征的多尺度感知，为属性识别模块和属性定位模块提供输入。

如图2所示，多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP)，一个所述卷积层连接一个FSPP。特征提取模块输出的N支路的特征映射图(即行人属性的一般特征)分别输入到不同的卷积层中，卷积层中可包括M组并行的卷积核；通过在每个支路对应的卷积层的每组卷积核，对所输入的行人属性的一般特征进行卷积，得到新的特征映射图，这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。也就是说，多尺度感知模块中的卷积层负责将不同尺度、抽象程度的一般特征转化成与属性相关的中层特征。

在多尺度感知模块的一个支路中，通过卷积层得到属性的中层特征后，灵活空间金字塔池化层用于对这些中层特征进行池化处理。本发明实施例中，FSPP被设计为包含多个层级的金字塔结构，不同的层级对输入的特征映射图按不同方式的划分为若干个区域bin，每个层级中的这些bin之间互相重叠，特征映射图中的某些像素点可以同时位于不同的bin中，这些bin大小相同，通过它们的重叠，能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理，可以得到一个小向量(即特征向量)，该特征向量反映了该bin对该特征映射图的响应值。对于任意一个支路，如果卷积层包括M组卷积核，对应的FSPP中的bin个数为K，那么该支路可以得到至少M*K个小向量，这些M*K个小向量可整合成M*K维的高维特征向量。

举例来说，在具体应用场景中，参见图3，FSPP被设计为两个层级的金字塔，在金字塔的第1层上包含1个bin(即图中bin1)，bin1覆盖整个中层特征图，对该bin1做最大池化操作，也就是说，对输入的中层特征图进行全局最大池化操作，得到一个特征向量；在第2层上，属性的特征图被3×1个bin覆盖(即图中bin1、bin2和bin3)，这3个bin大小相同，每一个bin的高与为对应的中层特征图的高相同，每一个bin的宽为对应的中层特征图的宽的40％(这个比例值的大小可根据需要进行设定)，这3个bin在空间上互为重叠(如图中bin1和bin2重叠，bin2和bin3重叠)，均匀分布，覆盖对应的中层特征图。对3个bin分别进行最大池化操作，也就是说，对输入的中层特征图中与这三个bin一一对应的区域分别进行最大池化操作，得到三个特征向量。所以，每一个中层特征图在这如上过程后被处理为一个4维度的特征向量组。

又举例来说，在具体应用场景中，参见图4，FSPP被设计为两个层级的金字塔，在金字塔的第1层上包含1个bin(即图4中1X1区域)，所述1个bin覆盖整个中层特征图，对该bin做最大池化操作，也就是说，对输入的中层特征图进行全局最大池化操作，得到一个特征向量；在第2层上，属性的中层特征图被3×3个bin(即图4的3X3区域中，3X3个不同的阴影区域)覆盖，这9个bin大小相同，每一个bin的高为对应的中层特征图的高的40％，每一个bin的宽为对应的中层特征图的宽的40％(比例值的大小可根据需要进行设定)，这9个bin在空间上互有重叠，均匀分布，覆盖整个中层特征图。对9个bin分别进行最大池化操作，也就是说，对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作，得到9个特征向量。所以，每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。

也就是说，每一个支路的每一个特征映射图在经过对应的FSPP后，被处理为一个维度与该FSPP中的bin总数相等的小向量，并最终被整合成高维向量组。不同支路的高维向量将作为后续模块的输入。

(3)属性识别模块：属性识别模块包括全连接层以及最后预测结果的输出层，属性识别模块作为属性特征的分类器，对输入的特征进行分类，然后输出所需的属性分类数目。具体的，属性识别模块接收到多尺度感知模块发送的N支路的高维特征向量后，将N支路的高维特征向量进行整合，然后将整合后的高维向量进行回归，得到与所需的属性分类数目相同的低维向量，通过sigmoid函数，将低维向量归一化处理到[0,1]区间内，这个区间中数值较大的预测结果即为行人属性的识别结果。

(4)属性定位模块：属性定位模块用于通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息，并基于空间位置信息在待检测图像中直接标识出该行人属性。

具体的，多尺度感知模块在得到N支路的新的特征映射图(即行人属性的中层特征)、N支路的高维特征向量后，将N支路的新的特征映射图和所述N支路的高维特征向量发送给属性定位模块，属性定位模块基于行人属性的中层特征和中层特征对应的高维特征向量得到行人属性的定位结果。

下面详细描述本发明实施例中属性定位模块进行行人属性定位的过程。

在本发明实施例中，要先定位一个行人属性a，首先要预先确定行人属性a的中层特征与bin之间的关联程度，而确定关联程度的过程是在弱监督训练中实现的。在利用大量图片进行弱监督训练过程中，输入到卷积神经网络系统的图片包括大量的正样本图片和负样本图片，正样本图片是指与行人属性a具有较大关联程度的图片(比如图片中存在行人属性a)，负样本图片是指与行人属性a具有较小关联程度的图片(比如图片中不存在行人属性a)。确定行人属性a的中层特征与bin之间的关联程度，也就是说，需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值，其过程如下所示：

某个bin在正样本图片上的平均响应值PAve为：

某个bin在负样本图片上的平均响应值NAve为：

d∈[1，M]；k∈[1，NB_d]。

RS代表了关联程度数组，确定了行人属性a的中层特征与某个bin之间的关联程度。其中，上述公式中，d表示某个行人属性的中层特征图，k表示某个bin，N代表训练中输入的样本图片的总数；M等于行人属性的中层特征图的总数，也代表灵活空间金字塔池化层的金字塔总数；NB代表金字塔中容器的总数；Score代表在样本图片上，bin的输出值(即特征向量)；Label代表样本图片中行人属性a的标注向量，正样本图片的Label为1，负样本图片的Label为0；

在确定了行人属性的中层特征与某个bin之间的关联程度后，在需要定位待检测图像的属性a时，可进行如下处理：

首先，需要对关联程度进行归一化，基于所接收到的高维特征向量(与score直接相关)，获得行人属性的某个中层特征图对于某个bin的权重值w：

其中，正则化分数norm_score为:

norm_score[d][k]＝score[d][k]/(pred_a[d][k]？PAve[d][k]：NAve[d][k])；

其中，pred表示属性a的识别值。

当属性a的识别值为1，则norm_score[d][k]＝score[d][k]/PAve[d][k]；

当属性a的识别值为0，则norm_score[d][k]＝score[d][k]/NAve[d][k]。

其次，基于所接收到的行人属性a的中层特征图，通过叠加由高斯滤波器模糊化后的利用权重值加权的中层特征图，获得属性可能性分布图D：

其中，W，H代表中层特征图的尺寸；Resize表示对所得图像的尺寸进行调整，A代表行人属性的中层特征图；用于进行模糊化处理的高斯掩膜mask函数为：

mask＝Gauss((W_fmap[d]，H_fmap[d])，(X[d][k]，Y[d][k])，var)；

其中，mask函数定义为：

i∈[1，H_fmap[d]]，j∈[1，W_fmap[d]]；

其中，X，Y代表检测到的中层特征图的最大值点坐标；其中var具体为：

上述过程得到的属性可能性分布图D表示了行人属性在所述待检测图像中的响应值的分布，所以，在属性可能性分布图D上,响应值高于阈值(阈值可根据需要进行预设)的激活区域范围表示了行人属性的大致轮廓。

然后，为了进一步对行人属性进行精确定位，需要对这些激活区域范围进行了聚类处理，得到一个或多个激活集群，进而确定激活集群的中心点，选择所述中心点作为行人属性位置的指示点。

在具体实施例中，可以经验性地预先确定行人的行人属性的数量，从而可以利用对应激活集群的平均响应值大小进行排序，最后保留行人属性的数量相同的激活集群，例如，对于行人属性“戴帽子”而言，预先定义每个行人的帽子数量最多为一个，所以在需要对行人属性“戴帽子”进行属性定位的相关计算中，如果确定得到的激活集群有多个，则计算每个激活集群的平均响应值，确定具有最大的平均响应值的激活集群，那么，该激活集群的中心点就是行人属性“戴帽子”的位置指示点。又例如，对于行人属性“手套”而言，预先定义每个行人的手套为两个，所以在需要对行人属性“戴手套”进行属性定位的相关计算中，如果确定得到的激活集群有多个，则计算每个激活集群的平均响应值并从大到小排序，保留序列中平均响应值最大的前两个激活集群，那么，该两个激活集群的中心点就是行人属性“戴手套”的位置指示点。

需要说明的是，激活集群个数的设定也可能是根据其他因素而不是行人属性的数目进行设定，例如行人属性“衬衫”到“裤子”等，实践中发现激活集群序列中前两个激活集群的平均响应值通常远高于那些其余的激活集群。因此，我们还可将这些属性的集群中心数设置为两个。

最后，在待检测图像中的所述位置指示点标记所述行人属性，以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的，例如，可以在位置指示点设置十字线、高亮框等等图案来标记行人属性，本发明在这里不做限定。

参见图5，在一具体应用场景中，需要进行定位的行人属性为“鞋子”，通过属性定位模块的相关计算，获得属性可能性分布图，进而得属性可能性分布图，保留响应值高于阈值的部分，经过聚类处理，得到了激活集群1、激活集群2、激活集群3，由于激活集群1的响应值>激活集群2的响应值>激活集群3的响应值,保留激活集群1、激活集群2，在激活集群1和激活集群2的中心点处标记高亮的十字线图案，结合上述处理过后的属性可能性分布图和待检测图像，就可以实现在行人属性“鞋子”在图像中的定位，输出相关图像。

参见图6，图6给出了本发明实施例在多种监控场景中的所得到的行人属性的识别与定位结果的示例。其中，示例中给出的行人属性的识别结果包括对鞋子类型、戴眼镜、戴帽子、穿马甲、穿牛仔裤、穿短袖等行人属性的识别，识别结果比较准确。同时，针对鞋子类型、戴眼镜、戴帽子、穿马甲、穿牛仔裤、穿短袖等行人属性分别在图像中进行定位，定位结果用高亮的十字线图案进行标记，可以看到，对这些行人属性的定位结果也比较准确。

可以看出，本发明实施例中，为了更好地适应同时进行行人属性识别和定位的任务，处于卷积神经网络系统中间环节的多尺度感知模块更关注于发现行人属性的中级特征而不是属性本身，属性识别模块基于中层特征的相关特征向量进行行人属性识别，并且在视频监控场景下对于“戴眼镜”等等细粒度的属性特征也能实现较好的识别；属性定位模块可基于中层特征图和中层特征的相关特征向量进行行人属性定位，并且能够在视频监控场景下实现了较为准确的识别与定位，弥补了现有技术中监控场景下属性定位方法的缺失。

下面举例来说本发明实施例所提供的卷积神经网络系统的一种具体实现方式。参见图7，在该实现方式中，基于弱监督训练的卷积神经网络系统的特征提取模块采用的GoogLeNet模型的Inception架构作为特征引擎，在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征输入到多尺度感知模块的CONV1_E、CONV2_E、CONV3_E三个卷积层，这三个卷积层分别具有512、512、1024组卷积核，也就是说，分别对应的512、512、1024个通道，每组卷积核都用于将行人属性的一般特征转化为行人属性的中层特征，通过对应通道输入到对应的FSPP中，为减少计算量，金字塔被限定为2层级。其中，CONV1_E对应的FSPP包括1X1个bin的层级和3X3个互有重叠的bin的层级，CONV2_E对应的FSPP包括1X1个bin的层级和3X3个互有重叠的bin的层级，CONV3_E对应的FSPP包括1X1个bin的层级和3X1互有重叠的个bin的层级。每个通道的中层特征图在相应的FSPP中被处理为一个维度与FSPP中bin总数相等的小向量(特征向量)，最终形成三个分支的维度分别为5120维、5120维和4096维的高维特征向量，输入到属性识别模块的全连接(fully connected，FC)层，并最终根据预设的分类处理方式将这些高维特征向量被整合成2048维的高维向量。2048维的高维向量进一步分类处理降低维度，回归为51维的低维向量，也就是说，预设有51种类型的行人属性。通过sigmoid函数，低维向量被归一化到[0,1]区间内，输出的预测结果即为行人属性的识别结果。另外，本发明实施例中，多尺度感知模块将行人属性的中层特征图以及三个分支的高维特征向量发送至属性定位模块(图中未示出)，以获得和输出行人属性的定位结果，可参考上文中属性定位模块的相关描述。

可以看到，在本发明实施例中，并不限定输入端的待检测图像的大小和长宽比，任意大小的特征映射都将会在FSPP层操作后变成可被FC层所接受的固定大小的高维特征向量。所以，本发明实施例可以处理任意尺寸、任意分辨率的输入图片，而不需要对图片进行扭曲或者变形，这有利于保存行人身体和附属物的原始形状特征，有益于视频监控系统中的实际应用。

下面描述本发明实施例中所涉及的弱监督训练。本发明实施例中，卷积神经网络系统采用弱监督的方法进行训练，在需要进行训练时，对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签，而不需要对行人属性在图片中进行边框标注(或定位标注)，就可以实现对卷积神经网络系统的训练。例如，预先将行人属性的种类划分为ABCDE五类，对于任意行人属性，在样本图片中存在，即真值标签为1，在样本图片中不存在，则真值标签为0。比如，对于属性A，某个正样本图片可能的标注向量为“11010”，某个负样本图片可能的标注向量为“01010”。

本发明实施例中，卷积神经网络系统通过大量样本图片的弱监督训练，能够不断自动调整一些参数设定，从而使得对行人属性的识别结果和定位结果不断地趋向准确，这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵，属性的中层特征与bin的关联程度值RS，中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。

举例来说，卷积神经网络系统能够自动学习到哪些中层特征与哪些行人属性的关联性更大，还能自动学习到对于一个行人属性的中层特征而言哪些bin的权重较大。在初始阶段，卷积神经网络系统并不知道这些关联程度或bin权重，在每个训练周期，基于样本图片的真值标签，卷积神经网络系统通过反向传递函数从属性的预测层通过FC层向后传递梯度到多尺度感知模块和特征提取模块，这些梯度与中层特征的存在标签直接相关。FC层预先编码了中层特征与属性的正相关或负相关，所以能够确定属性正相关的中层特征。当样本图片中行人属性被标记为存在时，与对应中层特征相关的梯度被传递到输出该特征的相关bin，强化了相关bin对该中层特征的响应程度；梯度被传递到多尺度感知模块的卷积层，并调整各卷积层的卷积矩阵，鼓励相关卷积层对该中层特征的提取；梯度被传递到特征提取模块，还可以调整特征提取模块的各层的卷积矩阵和池化矩阵，鼓励特征提取模块提取与属性正相关的一般特征。同时，上述过程中，与属性负相关的特征响应会被抑制。可以理解的，当样本图片中行人属性被标记为不存在时，属性的中层特征的存在将被抑制。

比如，对于一些样本图片，行人戴了帽子，那么对于行人属性“戴帽子”来说，当某个中层特征被确定为与“戴帽子”属性正相关，那么，位于FSPP某层级(如第二层级)的上方部分的bin的权重通常被增加，中层特征相关的特征提取也会被强化。

又比如，对于一些样本图片，行人穿了鞋子，那么对于行人属性“穿鞋子”来说，当某个中层特征被确定为与“穿鞋子”属性正相关，那么，位于FSPP某层级的下方部分的bin的权重通常被增加，中层特征相关的特征提取也会被强化。

又比如，对于一些训练样本，存在有可能会出现在图片中任意部分的中层特征，FSPP的第一层级(1X1个bin)由于可以进行全局最大池化操作，所以对于该中层特征，该bin的权重会被强化。

又比如，对于一些训练样本，帽子不在行人头上，但帽子出现在图像的其他内容中(例如放在架子上)，那么，与行人图像对应的bin的权重不变化，但是包含该特征的高响应的位置的bin(即架子位置相关的bin)的权重将被削弱，相关的bin与属性的相关性被抑制。

又举例来说，卷积神经网络系统能够自动学习到一种中层特征可能会被多种行人属性共用，即一个中层特征关联多个行人属性，不同的关联程度RS之间也是具有相关性的，那么，卷积神经网络系统会在训练中同时提升相关的响应，使得最后的识别与定位结果符合行人属性。比如，某个中性特征可同时关联到“穿裙子”和“女性”这两种行人属性，那么系统在进行对行人属性“穿裙子”的图像识别与定位过程中，会把女性特征相关的弱监督训练所得参数提升，使得输出结果更倾向于女性的特征。又比如，对于视频监控中一些属性特征被障碍物遮挡时，卷积神经网络系统根据学习到的中层特征与多个行人属性的关联性，也可以进行相应的行人属性的识别与定位。

可以看出，本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高，能够降低人力物力成本。基于弱监督训练的卷积神经网络可适用于视频监控场景下行人的细粒度属性特征进行准确的识别与定位，可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景，在行人属性识别方面鲁棒性更高，效果更好，填补了监控场景下行人属性定位方法的空白。

基于本发明实施例提供的上述卷积神经网络系统，下面说明本发明实施例提供的行人属性识别与定位方法，参见图8，所述方法包括但不限于以下步骤：

步骤S801：获取待检测图像。

本发明实施例中，所述待检测图像可以是视频监控中的图像帧，所述的图像帧可以是任意大小、长宽比的图片。

步骤S802：对所述待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图。

本发明实施例中，可通过不同的卷积层和池化层的组合实现对待检测图像不同程度的抽象，也就是说，一些层次较浅的组合对图像抽象程度低，图像的中的细粒度特征得以保留；一些层次较深的组合抽象程度高，图像的中的粗粒度特征得以保留。通过多种不同抽象程度的特征提取，可得到不同抽象程度、不同尺度的第一特征映射图，这些第一特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。

可以看出，本发明实施例中，通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取，可以保证细粒度属性特征在较早的阶段就得以保留，有利于避免了在特征提取阶段由于卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中特征提取模块的相关描述。

步骤S803：对所述多种第一特征映射图进行卷积，得到多种第二特征映射图。

本发明实施例中，为了实现更好的行人属性识别与定位，方案实现过程更关注于行人属性的中级特征而不是属性本身。所以，在得到不同尺度、抽象程度的第一特征映射图后，通过对不同尺度、抽象程度的第一特征映射图再进行卷积，得到第二特征映射图，这种第二特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。行人属性的中层特征不仅可以被用在后述的行人属性识别过程中，还能被用在后述的行人属性定位过程中，达成行人属性识别和行人属性定位同时进行的效果。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的卷积层的相关描述，这里不再赘述。

步骤S804：将所述多种第二特征映射图分别映射为多个互有重叠的区域bin，对各个bin进行最大池化，得到多种高维特征向量。其中，所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。

具体的，可通过不同的层级对输入的特征映射图不同方式的划分为若干个区域bin，每个层级中的这些bin之间互相重叠，特征映射图中的某些像素点可以同时位于不同的bin中，这些bin大小相同，通过它们的重叠，能够刚好覆盖整个特征映射图。对每一个bin进行最大池化处理，可以得到一个小向量(即特征向量)，该特征向量反映了该bin对该特征映射图的响应值，通过整合所有得到的特征向量，可得到多种高维特征向量。

可以看出，本发明实施例通过灵活的bin大小以及bin组合，调整属性特征相关的特征向量的输出，强化了不同bin对不同中层特征的敏感度，更加明确了属性与不同bin之间的关联程度。另外，由于bin之间互相重叠，所以处于重叠区域的中层特征可以同时隶属多个bin，使得该中层特征可以和多个bin产生关联，扩大的定位的响应区域，能够有利于后续步骤实现更加精确的定位。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的灵活空间金字塔池化层FSPP的相关描述，这里不再赘述。

步骤S805：将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果。

具体的，通过对多种高维特征向量进行整合以及回归处理，得到与所需的属性分类数目相同的低维向量，将低维向量归一化处理到[0,1]区间内，这个区间中数值较大的预测结果即为行人属性的识别结果。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中属性识别模块的相关描述，这里不再赘述。

步骤S806：根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果。

具体的，可预先通过弱监督训练确定行人属性与所述每个bin的关联程度，根据所述关联程度和所述多种高维特征向量，得到每个第二特征映射图在每个bin中的权重值；将多种的经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，基于所述激活集群得到所述行人属性的定位结果。

在获得定位结果后，还包括：基于所述定位结果，在所述待检测图像中标记所述行人属性。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中属性定位模块的相关描述，这里不再赘述。

下面描述本发明实施例提供的又一种基于上述卷积神经网络系统的行人属性的识别与定位方法，参见图9，该方法包括但不限于以下步骤：

步骤S901：基于多个样本图片进行弱监督训练，确定弱监督训练习得参数。

在本发明实施例中，卷积神经网络系统采用弱监督的方法进行训练，在需要进行训练时，对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签，而不需要对行人属性在图片中进行边框标注，就可以实现对卷积神经网络系统的训练。

通过大量样本图片的弱监督训练，能够不断自动调整一些参数设定，从而使得对行人属性的识别结果和定位结果不断地趋向准确，这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的卷积矩阵、池化层的池化矩阵，属性的中层特征与bin的关联程度RS，中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。在确定了弱监督训练所得参数之后，在实际应用中，本方法继续执行后续步骤。

需要说明的是，本发明实施例的具体实现方式可参考上文中关于卷积神经网络系统的弱监督训练的具体描述，这里不再赘述。

步骤S902：获取待检测图像。本发明实施例中，所述待检测图像可以是视频监控中的图像帧，所述的图像帧可以是任意大小、长宽比的RGB图片。

步骤S903：对所述待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图。

通过多种不同抽象程度的特征提取，可得到不同抽象程度、不同尺度的第一特征映射图，这些第一特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。例如，可利用GoogLeNet模型的Inception架构作为特征引擎，在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征。

需要说明的是，本发明实施例的具体实现方式可参考图2实施例中特征提取模块的相关描述，这里不再赘述。

步骤S904：对所述多种第一特征映射图进行卷积，得到多种第二特征映射图。第二特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。行人属性的中层特征不仅可以被用在后述的行人属性识别过程中，还能被用在后述的行人属性定位过程中，达成行人属性识别和行人属性定位同时进行的效果。

步骤S905：将所述多种第二特征映射图分别映射为多个互有重叠的区域bin，对各个bin进行最大池化，得到多种高维特征向量。其中，所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。

例如，在具体应用场景中，设计两个层级的金字塔，在金字塔的第1层上包含1个bin，所述1个bin覆盖整个中层特征图，对该bin做最大池化操作，也就是说，对输入的中层特征图进行全局最大池化操作，得到一个特征向量；在第2层上，属性的中层特征图被3X1个或者3×3个bin覆盖，在空间上互有重叠，均匀分布，覆盖整个中层特征图。对这些bin分别进行最大池化操作，也就是说，对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作，得到多个特征向量。所以，将上述所有的特征向量整合，得到高维的特征向量组。

步骤S906：将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果。需要说明的是，本发明实施例的具体实现方式可参考图2实施例中属性识别模块的相关描述，这里不再赘述。

步骤S907：根据所述关联程度和所述多种高维特征向量，得到每个第二特征映射图在每个bin中的权重值。

具体的，在利用大量图片进行弱监督训练过程中，输入到卷积神经网络系统的图片包括大量的正样本图片和负样本图片，正样本图片是指与行人属性具有较大关联程度的图片，负样本图片是指与行人属性a具有较小关联程度的图片。确定行人属性的中层特征与bin之间的关联程度，也就是说，需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值。

步骤S908：将多种的经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图。

具体的，可基于所接收到的行人属性的中层特征图，通过叠加由高斯滤波器模糊化后的利用权重值加权的中层特征图，获得属性可能性分布图，属性可能性分布图表示了行人属性在所述待检测图像中的响应值的分布。

步骤S909：获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，得到所述行人属性的定位结果。

具体的，在激活集群的数量为多个的情况下，所述基于所述激活集群得到所述行人属性的定位结果，包括：预先确定在所述待检测图像中所述行人属性的数量；确定每个激活集群的平均响应值；基于所述平均响应值对所述数量为多个的激活集群进行排序；基于排序的结果获得与所述行人属性的数量相同的激活集群，进而确定激活集群的中心点，选择所述中心点作为行人属性位置的指示点，行人属性位置的指示点就是所述行人属性的定位结果。最后，可以在待检测图像中的所述位置指示点标记所述行人属性，以便于用户直观地发现行人属性存在于在待检测图像中精确位置。

需要说明的是，步骤S907、S908、S909的详细计算过程可参考图2实施例中属性定位模块的相关描述，这里不再赘述。

可以看出，实施本发明实施例，可以处理任意尺寸、任意分辨率的输入图片，而不需要对图片进行扭曲或者变形，这有利于保存行人身体和附属物的原始形状特征，有益于视频监控系统中的实际应用。通过提取不同抽象程度的行人属性一般特征，使得细粒度的属性特征得以保留，将一般特征转化为中层特征后，可基于中层特征的相关特征向量进行行人属性识别，在视频监控场景下对于细粒度的属性特征(如戴眼镜等)也能实现较好的识别，在行人属性识别方面鲁棒性更高，效果更好；还可基于中层特征图和中层特征的相关特征向量进行行人属性定位，可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景，弥补了现有技术中监控场景下属性定位方法的缺失。另外，本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高，能够有效降低人力物力成本。

上文描述了本发明实施例提供的卷积神经网络系统和相关方法，下面描述本发明实施例提供的相关设备。

参见图10，本发明实施例提供了一种用于进行行人属性识别与定位的硬件设备1000，该硬件设备1000包括处理器1001、存储器1002，所述处理器1001与存储器1002相连接(如通过总线相互连接)。

处理器1001可以是一个或多个中央处理器(Central Processing Unit，CPU)，在处理器1001是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器1002包括但不限于是随机存储记忆体(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、或便携式只读存储器(Compact Disc Read-Only Memory，CD-ROM)，该存储器1002用于存储相关程序代码及数据(例如卷积神经网络系统的相关数据)。

该处理器1001用于读取所述存储器1002中存储的程序代码，以用于获取待检测图像；对所述待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图；对所述多种第一特征映射图进行卷积，得到多种第二特征映射图；将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到多种高维特征向量；其中，所述多个互有重叠的bin均匀地完全覆盖所述每种第二特征映射图；将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果；根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果；基于所述定位结果，在所述待检测图像中标记所述行人属性。

在具体实施例中，处理器1001预先进行弱监督训练，所述弱监督训练为基于多个样本图片进行的训练；所述多个样本图片包括正样本图片与负样本图片，在所述正样本图片中所述行人属性被标注为存在，在所述负样本图片中所述行人属性被标注为不存在。

在具体实施例中，在获取待检测图像之前，处理器1001预先通过弱监督训练确定多组卷积核；处理器1001对所述多种第一特征映射图进行卷积，得到多种第二特征映射图，包括：处理器1001基于所述多组卷积核分别对所述多种第一特征映射图进行卷积，得到多种第二特征映射图。

在具体实施例中，处理器1001还预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值；

处理器1001根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果，包括：处理器1001根据所述关联程度值和所述多种高维特征向量，得到所述每种第二特征映射图在所述每个bin中的权重值；将多种的分别经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，基于所述激活集群得到所述行人属性的定位结果。

在具体实施例中，在激活集群的数量为多个的情况下，处理器1001基于所述激活集群得到所述行人属性的定位结果，包括：处理器1001确定在所述待检测图像中所述行人属性的数量；确定每个激活集群的平均响应值；基于所述平均响应值对所述数量为多个的激活集群进行排序；基于排序的结果获得与所述行人属性的数量相同的激活集群，得到所述行人属性的定位结果。

需要说明的，处理器1001、存储器1002的相关技术特征可参照图2、图8以及图9实施例中的相关内容，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时，可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种行人属性识别与定位方法，其特征在于，包括：

获取待检测图像；

对所述待检测图像进行多种不同抽象程度的特征提取，获得行人属性的多种第一特征映射图；

对所述多种第一特征映射图分别进行卷积，得到多种第二特征映射图；

将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到多种高维特征向量；其中，所述多个互有重叠的bin均匀地完全覆盖所述每种第二特征映射图；

将所述多种高维特征向量整合和回归为低维向量，得到所述行人属性的识别结果。
根据权利要求1所述的方法，其特征在于，在得到所述多种高维特征向量后，所述方法还包括：

根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果；

根据所述定位结果，在所述待检测图像中标记所述行人属性。
根据权利要求1或2所述的方法，其特征在于，在获取待检测图像之前，包括：

预先通过弱监督训练确定多组卷积核；

对所述多种第一特征映射图进行卷积，得到多种第二特征映射图，包括：

根据所述多组卷积核分别对所述多种第一特征映射图进行卷积，得到多种第二特征映射图。
根据权利要求3所述的方法，其特征在于，还预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值；

根据所述多种第二特征映射图和所述多种高维特征向量，得到所述行人属性的定位结果，包括：

根据所述关联程度值和所述多种高维特征向量，得到所述每种第二特征映射图在所述每个bin中的权重值；

将多种的分别经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；

获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，基于所述激活集群得到所述行人属性的定位结果。
根据权利要求4所述的系统，其特征在于，在激活集群的数量为多个的情况下，所述基于所述激活集群得到所述行人属性的定位结果，包括：

确定在所述待检测图像中所述行人属性的数量；

确定每个激活集群的平均响应值；

根据所述平均响应值对所述数量为多个的激活集群进行排序；

根据排序的结果获得与所述行人属性的数量相同的激活集群，得到所述行人属性的定位结果。
根据权利要求3至5任一项所述的系统，其特征在于，所述弱监督训练为基于多个样本图片进行的训练；所述多个样本图片包括正样本图片与负样本图片，在所述正样本图片中所述行人属性被标注为存在，在所述负样本图片中所述行人属性被标注为不存在。
一种用于行人属性识别与定位的卷积神经网络系统，其特征在于，所述系统包括：特征提取模块、多尺度感知模块、属性识别模块，所述多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层，一个所述卷积层连接一个所述灵活空间金字塔池化层；所述特征提取模块与所述N个并行的卷积层通过N个支路进行连接；所述属性识别模块与N个并行的灵活空间金字塔池化层通过N个支路进行连接；其中：

所述特征提取模块用于，对待检测图像进行N种不同抽象程度的特征提取，获得行人属性的N种第一特征映射图；并将所述N种第一特征映射图通过所述N个支路分别发送至所述N个并行的卷积层；

所述多尺度感知模块用于，由所述N个支路中的每个支路对应的所述卷积层，对该卷积层所接收的所述第一特征映射图进行卷积，得到第二特征映射图；

所述多尺度感知模块还用于，由所述每个支路对应的所述灵活空间金字塔池化层，将该灵活空间金字塔池化层所接收的所述第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到高维特征向量；其中，所述互有重叠的bin均匀地完全覆盖所述第二特征映射图；

所述属性识别模块用于，将由所述N个支路得到的全部的高维特征向量进行整合和回归，得到低维向量，根据所述低维向量得到所述行人属性的识别结果。
根据权利要求7所述的系统，其特征在于，所述系统还包括属性定位模块，所述属性定位模块与所述多尺度感知模块通过N个支路进行连接；

所述属性定位模块用于，根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量，得到所述行人属性的定位结果。
根据权利要求7或8所述的系统，其特征在于，每个卷积层包括多组卷积核；所述灵活空间金字塔池化层包括多个层级，每个层级包括数量不等的多个bin，所述每个层级中的多个bin互有重叠，均匀地完全覆盖所述第二特征映射图；

所述多尺度感知模块用于，由每个支路对应的所述卷积层，对该卷积层所接收的所述第一特征映射图进行卷积，得到第二特征映射图，包括：所述多尺度感知模块用于，由所述每个卷积层的每组卷积核，对所接收的所述第一特征映射图进行卷积，得到第二特征映射图；

将该灵活空间金字塔池化层所接收的所述第二特征映射图映射为多个互有重叠的区域bin，分别对每个bin进行最大池化，得到高维特征向量，包括：将由所述每组卷积核得到的所述第二特征映射图映射为所述数量不等的多个bin，分别对每个bin进行最大池化，得到所述每组卷积核对应的特征向量；将由所述多组卷积核得到的全部的所述特征向量整合为高维特征向量。
根据权利要求9所述的系统，其特征在于，所述卷积神经网络系统预先通过弱监督训练确定所述每组卷积核。
根据权利要求10所述的系统，其特征在于，所述卷积神经网络系统还预先通过所述弱监督训练确定每个第二特征映射图与所述每个bin的关联程度值；

所述属性定位模块用于，根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量，得到所述行人属性的定位结果，包括：

所述属性定位模块用于，根据所述关联程度值和所述全部的高维特征向量，得到所述每个第二特征映射图在所述每个bin中的权重值；

将N个支路的分别经所述权重值加权的第二特征映射图进行叠加，得到属性可能性分布图；所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布；

获取所述属性可能性分布图中所述响应值大于阈值的区域范围，对所述区域范围进行聚类处理，得到激活集群，基于所述激活集群得到所述行人属性的定位结果。
根据权利要求11所述的系统，其特征在于，在激活集群的数量为多个的情况下，所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果，包括：

所述属性定位模块用于，确定在所述待检测图像中所述行人属性的数量；

确定每个激活集群的平均响应值；

根据所述平均响应值对所述数量为多个的激活集群进行排序；

根据排序的结果获得与所述行人属性的数量相同的激活集群，得到所述行人属性的定位结果。
根据权利要求10至12任一项所述的系统，其特征在于，所述弱监督训练为基于多个样本图片进行的训练；所述多个样本图片包括正样本图片与负样本图片，在所述正样本图片中所述行人属性被标注为存在，在所述负样本图片中所述行人属性被标注为不存在。
一种存储计算机指令的可读非易失性存储介质，其特征在于，包括计算机指令，所述计算机指令被执行以实现权利要求1至6任一项描述的方法。
一种计算机程序产品，其特征在于，当计算机程序产品运行于计算机时，被执行以实现权利要求1至6任一项描述的方法。