WO2019041360A1 - 行人属性识别与定位方法以及卷积神经网络系统 - Google Patents

行人属性识别与定位方法以及卷积神经网络系统 Download PDF

Info

Publication number
WO2019041360A1
WO2019041360A1 PCT/CN2017/100430 CN2017100430W WO2019041360A1 WO 2019041360 A1 WO2019041360 A1 WO 2019041360A1 CN 2017100430 W CN2017100430 W CN 2017100430W WO 2019041360 A1 WO2019041360 A1 WO 2019041360A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
feature
pedestrian
bin
pedestrian attribute
Prior art date
Application number
PCT/CN2017/100430
Other languages
English (en)
French (fr)
Inventor
冯柏岚
姚春凤
黄凯奇
张彰
周阳
Original Assignee
华为技术有限公司
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司, 中国科学院自动化研究所 filed Critical 华为技术有限公司
Priority to CN201780094559.7A priority Critical patent/CN111052126B/zh
Priority to PCT/CN2017/100430 priority patent/WO2019041360A1/zh
Publication of WO2019041360A1 publication Critical patent/WO2019041360A1/zh
Priority to US16/809,270 priority patent/US11574187B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/545Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/005Traffic control systems for road vehicles including pedestrian guidance indicator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Definitions

  • FSPP is a two-level pyramid, and one bin is included on the first layer of the pyramid.
  • the one bin covers the entire middle layer feature map, and the maximum pooling operation is performed on the bin to obtain a feature vector;
  • the middle feature map of the attribute is covered by 3 ⁇ 3 bins.
  • the size of each of the nine bins is the same, and the height of each bin is 40% of the height of the corresponding middle layer feature map, and the width of each bin is corresponding.
  • the width of the middle feature map is 40%, and the nine bins overlap in space and are evenly distributed, covering the entire middle layer feature map.
  • the maximum pooling operation is performed on each of the nine bins to obtain nine feature vectors. Therefore, each middle-level feature map is processed as a 10-dimensional feature vector group after this process.
  • RS represents an array of degrees of association, determining the degree of association between the middle-level features of the pedestrian attribute a and a bin.
  • d represents a middle-level feature map of a pedestrian attribute
  • k represents a bin
  • N represents the total number of sample pictures input during training
  • M is equal to the total number of middle-level feature maps of the pedestrian attribute, and also represents a flexible space pyramid.
  • the total number of pyramids in the pooling layer represents the total number of containers in the pyramid
  • Score represents the output value of bin (ie, feature vector) on the sample image
  • Label represents the label vector of the pedestrian attribute a in the sample image, and the Label of the positive sample image is 1.
  • the Label of the negative sample picture is 0.
  • the weight value of each of the second feature maps in each bin is obtained according to the determined association degree of the intermediate layer feature and the bin, and the all-dimensional high-dimensional feature vector;
  • the attribute positioning module is configured to obtain a positioning result of the pedestrian attribute based on the activated cluster, including: determining Determining the number of the pedestrian attributes in the detected image; determining an average response value of each activated cluster; sorting the activated clusters of the plurality based on the average response value; obtaining the pedestrians based on the sorted result
  • the cluster is activated in the same number of attributes, and the positioning result of the pedestrian attribute is obtained.
  • the pedestrian attribute "glove” there are two gloves for each pedestrian pre-defined, so in the related calculations that need to perform attribute positioning on the pedestrian attribute "wearing gloves”, if it is determined that there are multiple active clusters, Then calculate the average response value of each activated cluster and sort from large to small, and retain the first two active clusters with the largest average response value in the sequence. Then, the center point of the two activated clusters is the position of the pedestrian attribute "wearing gloves". Pointing point.
  • the feature extraction module is configured to perform feature extraction of N different degrees of abstraction on the image to be detected, and obtain N kinds of first feature maps of pedestrian attributes, and these feature maps may be called general features of pedestrian attributes (or A general feature map of the pedestrian attribute); and transmitting the N first feature maps to the N parallel convolution layers through the N branches, respectively.
  • the pedestrian attribute includes the feature information of the pedestrian in the embodiment of the present invention.
  • the pedestrian attribute may be the gender of the pedestrian, the length of the hair, the color of the clothes, the style of the clothes, the style of the shoes, the style of the hat, or wearing a necklace, wearing glasses, and wearing gloves. Wearing a scarf, wearing a hat, a backpack, etc.
  • the multi-scale sensing module has three convolution layers, each of which has 512, 512, and 1024 sets of convolution kernels, that is, corresponding to 512, respectively.
  • 512, 1024 channels each set of convolution kernels are used to transform the general characteristics of the pedestrian attributes into the middle layer features of the pedestrian attributes, and input to the corresponding FSPP through the corresponding channels.
  • the convolutional neural network system can automatically learn which middle-level features are more relevant to which pedestrian attributes, and automatically learn which bins for a middle-level feature of a pedestrian attribute The weight is greater.
  • the convolutional neural network system does not know the degree of association or bin weight.
  • the convolutional neural network system passes the FC from the prediction layer of the attribute through the inverse transfer function. The layer passes the gradient back to the multi-scale perception module and the feature extraction module, and these gradients are directly related to the presence label of the middle layer feature.
  • an embodiment of the present invention provides a computer readable storage medium for storing an implementation code of the method of the first aspect.
  • FIG. 10 is a structural diagram of an apparatus for pedestrian attribute recognition and positioning according to an embodiment of the present invention.
  • RS represents an array of degrees of association, determining the degree of association between the middle-level features of the pedestrian attribute a and a bin.
  • d represents a middle-level feature map of a pedestrian attribute
  • k represents a bin
  • N represents the total number of sample pictures input during training
  • M is equal to the total number of middle-level feature maps of the pedestrian attribute, and also represents a flexible space pyramid.
  • the total number of pyramids in the pooling layer represents the total number of containers in the pyramid
  • Score represents the output value of bin (ie, feature vector) on the sample image
  • Label represents the label vector of the pedestrian attribute a in the sample image, and the Label of the positive sample image is 1, the negative sample picture has a Label of 0;
  • norm_score[d][k] score[d][k]/NAve[d][k].
  • the convolutional neural network system can automatically learn which middle-level features are more relevant to which pedestrian attributes, and automatically learn which bins have larger weights for the middle-level features of a pedestrian attribute.
  • the convolutional neural network system does not know the degree of association or bin weight.
  • the convolutional neural network system passes the FC from the prediction layer of the attribute through the inverse transfer function.
  • the layer passes the gradient back to the multi-scale perception module and the feature extraction module, and these gradients are directly related to the presence label of the middle layer feature.
  • the FC layer pre-codes the positive or negative correlation between the middle-level features and the attributes, so it is possible to determine the middle-level features of the positive correlation of the attributes.
  • different degrees of abstraction of the image to be detected can be realized by different combinations of the convolution layer and the pooling layer, that is, some shallower combinations have low degree of abstraction on the image, and fine granularity in the image. Features are preserved; some deeper combinations are more abstract, and coarse-grained features in the image are preserved.
  • the first feature maps with different degrees of abstraction and different scales can be obtained. These first feature maps can be called general features of pedestrian attributes (or general feature maps of pedestrian attributes). .
  • the method further includes: marking the pedestrian attribute in the image to be detected based on the positioning result.
  • Step S901 Perform weak supervision training based on a plurality of sample pictures to determine a weak supervision training acquisition parameter.
  • Step S905 Mapping the plurality of second feature maps into a plurality of mutually overlapping regions bin, and performing maximum pooling on each bin to obtain a plurality of high-dimensional feature vectors.
  • the bins that overlap each other uniformly cover the second feature map uniformly.
  • the picture input to the convolutional neural network system includes a large number of positive sample pictures and negative sample pictures
  • the positive sample picture refers to pictures having a greater degree of association with the pedestrian attributes.
  • a negative sample picture refers to a picture that has a small degree of association with the pedestrian attribute a. Determine the degree of association between the mid-level features of the pedestrian attribute and the bin, that is, the ratio of the average response of a bin on the positive sample picture to the average response value on the negative sample picture.
  • the processor 1001 obtains the positioning result of the pedestrian attribute according to the multiple second feature maps and the plurality of high-dimensional feature vectors, including: the processor 1001 according to the association degree value and the plurality of high-dimensional a feature vector, a weight value of each of the second feature maps in each bin is obtained; and a plurality of second feature maps respectively weighted by the weight values are superimposed to obtain an attribute likelihood distribution map
  • the attribute likelihood distribution map represents a distribution of response values of the pedestrian attribute in the image to be detected; and obtaining an area range in which the response value is greater than a threshold in the attribute possibility distribution map, and the range of the area Performing clustering processing to obtain an activated cluster, and obtaining a positioning result of the pedestrian attribute based on the activated cluster.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种行人属性识别与定位方法以及卷积神经网络系统,该方法包括:对待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多种第一特征映射图;对多种第一特征映射图进行卷积,得到多种第二特征映射图,并将每种第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到多种高维特征向量;其中,多个互有重叠的bin均匀地覆盖每种第二特征映射图;将多种高维特征向量处理为低维向量,得到所述行人属性的识别结果;进一步可根据多种第二特征映射图和多种高维特征向量,得到行人属性的定位结果。所述方法能够克服视频监控中的不利因素,对行人属性进行更好的识别与定位。

Description

行人属性识别与定位方法以及卷积神经网络系统 技术领域
本申请涉及图像监控技术领域,尤其涉及行人属性识别与定位方法以及卷积神经网络系统。
背景技术
随着硬件技术的不断进步,计算机的运算能力实现了一次又一次地突破,人工智能、计算机视觉、机器学习等领域也随之突飞猛进。然而计算机视觉面临的主要难题的根源在于人类与计算机处理视觉信息的方式,人类处理这些信息主要在语义空间中进行,而计算机则必须在数据空间中进行。所以,如何跨越从图像空间到语义空间的语义鸿沟,一直以来是计算机视觉研究者们致力于解决的问题。由于视觉属性包含了可用于描述视觉目标的一些基本语义信息,具有良好的普适性。同时,受人类视觉感知系统的启发,基于属性的语义表达是一种相对直观且自然的对可视物体进行描述的方法。在视频监控系统中,对行人的诸如“性别”、“戴眼镜”、“着装类型”等行人属性的识别,有着非常大的应用潜力。针对不同的研究背景和应用目标,已经有很多视觉属性识别工作出现,比如:基于低层属性识别的一般物体分类、基于脸部属性识别的人脸验证和从顾客图片中识别行人属性。但是,在监控场景下解析行人属性的识别与定位依然处于初级阶段。在视频监控场景下,由于存在图像分辨率较低、拍摄距离远、不同拍摄视角容易导致的行人姿态上的变化、环境物或行人附属物容易对行人属性本身的遮挡等等不利因素,难以对行人属性进行良好的识别与定位。
发明内容
本发明实施例公开了行人属性识别与定位方法以及卷积神经网络系统,能够克服视频监控场景下的不利因素,实现对行人属性进行更好的识别与定位。
第一方面,本发明实施例提供了一种行人属性识别与定位方法,该方法应用于卷积神经网络系统,该方法包括:卷积神经网络系统获取待检测图像;对所述待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多种第一特征映射图,这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图);对所述多种第一特征映射图进行卷积,得到多种第二特征映射图,这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图);将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到多种高维特征向量;其中,所述多个互有重叠的bin均匀地完全覆盖所述每种第二特征映射图;将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果;根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果;基于所述定位结果,在所述待检测图像中标记所述行人属性。
本发明实施例中,对图像进行特征提取是在特征引擎中进行的,特征引擎对待检测图像(例如视频监控中的图像帧)进行抽象,提取与行人属性相关的特征。特征引擎中包括多个串联或并联的层,每个层包含一种或多种卷积层和池化层的组合,不同的层具有不同的 深度,不同的层对图像的抽象程度不同,也就是说,较浅的层对图像抽象程度低,图像的中的细粒度特征得以保留;较深的层抽象程度高,图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取,可得到不同抽象程度、不同尺度的特征映射图。
发明实施例中,通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取,可以保证细粒度属性特征在较早的阶段就得以保留,有利于避免了卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。
本发明实施例中,对第一特征映射图进行卷积是在卷积层中进行的,每个卷积层包括多组卷积核。
本发明实施例中,对第二特征映射图进行池化是在灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP)进行的。具体的,FSPP被设计为包含多个层级的金字塔结构,不同的层级对输入的特征映射图不同方式的划分为若干个区域bin,每个层级中的这些bin之间互相重叠,特征映射图中的某些像素点可以同时位于不同的bin中,这些bin大小相同,通过它们的重叠,能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理,可以得到一个小向量(即特征向量),该特征向量反映了该bin对该特征映射图的响应值。
举例来说,FSPP为两个层级的金字塔,在金字塔的第1层上包含1个bin,所述1个bin覆盖整个中层特征图,对该bin做最大池化操作,得到一个特征向量;在第2层上,属性的中层特征图被3×3个bin覆盖,这9个bin大小相同,每一个bin的高为对应的中层特征图的高的40%,每一个bin的宽为对应的中层特征图的宽的40%,这9个bin在空间上互有重叠,均匀分布,覆盖整个中层特征图。对9个bin分别进行最大池化操作,得到9个特征向量。所以,每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。
可以看出,本发明实施例能够通过灵活的bin大小以及bin组合,调整属性特征相关的特征向量的输出,强化了不同bin对不同中层特征的敏感度,更加明确了属性与不同bin之间的关联程度。而且FSPP在经过弱监督训练后,能够调整行人属性与不同bin的关联程度,使得行人属性的中层特征具有特定的局部空间分布倾向,让行人属性的中层特征更好地关联到空间位置上。另外,由于bin之间互相重叠,所以处于重叠区域的中层特征可以同时隶属多个bin,使得该中层特征可以和多个bin产生关联,扩大的定位的响应区域,能够有利于实现更加精确的定位。
本发明实施例中,将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果,包括:将N支路的高维特征向量进行整合,然后将整合后的高维向量进行回归,得到与所需的属性分类数目相同的低维向量,通过sigmoid函数,将低维向量归一化处理到[0,1]区间内,得到行人属性的识别结果。
本发明实施例中,对行人属性进行定位包括:通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息,并基于空间位置信息在待检测图像中直接标识出该行人属性。
结合第一方面,在具体的实施例中,本方法所应用的卷积神经网络系统采用弱监督的方法进行训练,所述弱监督训练为基于多个样本图片进行的训练,所述多个样本图片包括 正样本图片与负样本图片;在需要进行训练时,对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签,而不需要对行人属性在图片中进行边框标注,就可以实现对卷积神经网络系统的训练。对于任意行人属性,在样本图片中存在,即真值标签为1,在样本图片中不存在,则真值标签为0。卷积神经网络系统通过大量样本图片的弱监督训练,能够不断自动调整一些参数设定,从而使得对行人属性的识别结果和定位结果不断地趋向准确,这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵,属性的中层特征与bin的关联程度值RS,中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。
举例来说,确定行人属性a的中层特征与bin之间的关联程度,也就是说,需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值,其过程如下所示:
某个bin在正样本图片上的平均响应值PAve为:
Figure PCTCN2017100430-appb-000001
某个bin在负样本图片上的平均响应值NAve为:
Figure PCTCN2017100430-appb-000002
所以,正样本图片上的平均响应值与在负样本图片上的平均响应值的比值为:
Figure PCTCN2017100430-appb-000003
d∈[1,M];k∈[1,NBd]。
RS代表了关联程度数组,确定了行人属性a的中层特征与某个bin之间的关联程度。其中,上述公式中,d表示某个行人属性的中层特征图,k表示某个bin,N代表训练中输入的样本图片的总数;M等于行人属性的中层特征图的总数,也代表灵活空间金字塔池化层的金字塔总数;NB代表金字塔中容器的总数;Score代表在样本图片上,bin的输出值(即特征向量);Label代表样本图片中行人属性a的标注向量,正样本图片的Label为1,负样本图片的Label为0。
可以看出,本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高,能够降低人力物力成本。基于弱监督训练的卷积神经网络可适用于视频监控场景下行人的细粒度属性特征进行准确的识别与定位,可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景。
结合第一方面,预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值之后,根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果,包括:
根据所述关联程度值和所述多种高维特征向量,得到所述每种第二特征映射图在所述每个bin中的权重值;
将多种的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;
获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,基于所述激活集群得到所述行人属性的定位结果。
结合第一方面,在可能的实施例中,在激活集群的数量为多个的情况下,所述基于所述激活集群得到所述行人属性的定位结果,包括:
首先,根据所确定的中层特征与bin的关联程度RS关联程度值和所述全部的高维特征向量,得到所述每个第二特征映射图在所述每个bin中的权重值;
Figure PCTCN2017100430-appb-000004
其中,正则化分数norm_score为:
norm_score[d][k]=score[d][k]/(preda[d][k]?PAve[d][k]:NAve[d][k]);
其中,pred表示属性a的识别值。
当属性a的识别值为1,则norm_score[d][k]=score[d][k]/PAve[d][k];
当属性a的识别值为0,则norm_score[d][k]=score[d][k]/NAve[d][k]。
然后,将N个支路的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图D;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;
D=D+w[d][k]×Resize(A[d]×mask,(Himg,Wimg));d∈[1,M];k∈[1,NBd]。
其中,W,H代表中层特征图的尺寸;Resize表示对所得图像的尺寸进行调整,A代表行人属性的中层特征图。
然后,获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到一个或多个激活集群,进而确定激活集群的中心点,选择所述中心点作为行人属性位置的指示点。
结合第一方面,在可能的实施例中,在激活集群的数量为多个的情况下,所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果,包括:确定在所述待检测图像中所述行人属性的数量;确定每个激活集群的平均响应值;基于所述平均响应值对所述数量为多个的激活集群进行排序;基于排序的结果获得与所述行人属性的数量相同的激活集群,得到所述行人属性的定位结果。
例如,对于行人属性“手套”而言,预先定义每个行人的手套为两个,所以在需要对行人属性“戴手套”进行属性定位的相关计算中,如果确定得到的激活集群有多个,则计算每个激活集群的平均响应值并从大到小排序,保留序列中平均响应值最大的前两个激活集群,那么,该两个激活集群的中心点就是行人属性“戴手套”的位置指示点。
结合第一方面,在可能的实施例中,可在待检测图像中的所述位置指示点标记所述行人属性,以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的,例如,可以在位置指示点设置十字线、高亮框等等图案来标记行人属性。
第二方面,本发明实施例提供了一种用于行人属性识别与定位的卷积神经网络系统,所述系统包括:特征提取模块、多尺度感知模块、属性识别模块、属性定位模块,所述多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP),一个所述卷积层连接一个所述灵活空间金字塔池化层;所述特征提取模块与所述N个并行的卷积层通过N个支路进行连接;所述属性识别模块与N个并行的灵活空间金字塔池化层通过N个支路进行连接;所述属性定位模块与所述多尺度感知模块通过N个支路进行连接;其中:
(1)特征提取模块用于,对待检测图像进行N种不同抽象程度的特征提取,获得行人属性的N种第一特征映射图,这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图);并将所述N种第一特征映射图通过所述N个支路分别发送至所述N个并行的卷积层。
其中,特征提取模块作为卷积神经网络的特征引擎,用于对待检测图像(例如视频监控中的图像帧)进行抽象,提取与行人属性相关的特征。特征提取模块可分为多个串联或并联的层,每个层包含一种或多种卷积层和池化层的组合,不同的层具有不同的深度,不同的层对图像的抽象程度不同,也就是说,较浅的层对图像抽象程度低,图像的中的细粒度特征得以保留;较深的层抽象程度高,图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取,可得到不同抽象程度、不同尺度的特征映射图。
发明实施例中,通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取,可以保证细粒度属性特征在较早的阶段就得以保留,有利于避免了卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。
(2)多尺度感知模块用于,由所述N个支路中的第一支路对应的所述卷积层,对该卷积层所接收的所述第一特征映射图进行卷积,得到第二特征映射图,所述第一支路为所述N个支路中的任意支路,这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图);由所述第一支路对应的FSPP,将该FSPP所接收的所述第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到高维特征向量;其中,所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。
具体的,本发明实施例中,FSPP被设计为包含多个层级的金字塔结构,不同的层级对输入的特征映射图按不同方式的划分为若干个区域bin,每个层级中的这些bin之间互相重叠,特征映射图中的某些像素点可以同时位于不同的bin中,这些bin大小相同,通过它们的重叠,能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理,可以得到一个小向量(即特征向量),该特征向量反映了该bin对该特征映射图的响应值。
可以看出,本发明实施例提供的FSPP,能够通过灵活的bin大小以及bin组合,调整属性特征相关的特征向量的输出,强化了不同bin对不同中层特征的敏感度,更加明确了 属性与不同bin之间的关联程度。而且FSPP在经过弱监督训练后,能够调整行人属性与不同bin的关联程度,使得行人属性的中层特征具有特定的局部空间分布倾向,让行人属性的中层特征更好地关联到空间位置上。另外,由于bin之间互相重叠,所以处于重叠区域的中层特征可以同时隶属多个bin,使得该中层特征可以和多个bin产生关联,扩大的定位的响应区域,能够有利于后续属性定位模块实现更加精确的定位。
(3)属性识别模块用于,将由所述N个支路得到的全部的高维特征向量进行整合和回归,得到低维向量,根据所述低维向量得到所述行人属性的识别结果。
其中,属性识别模块包括全连接层以及最后预测结果的输出层,属性识别模块作为属性特征的分类器,对输入的特征进行分类,然后输出所需的属性分类数目。具体的,属性识别模块将N支路的高维特征向量进行整合,然后将整合后的高维向量进行回归,得到与所需的属性分类数目相同的低维向量,通过sigmoid函数,将低维向量归一化处理到[0,1]区间内,得到行人属性的识别结果。
(4)属性定位模块用于,通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息,并基于空间位置信息在待检测图像中直接标识出该行人属性。具体的,根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量,得到所述行人属性的定位结果。
其中,本发明实施例中所述行人属性包括行人的特征信息,例如行人属性可以是行人的性别、头发长短、衣服颜色、衣服款式、鞋子款式、帽子款式、或者戴项链、戴眼镜、戴手套、戴围巾、戴帽子、背包等等。
结合第二方面,在可能的实施例中,特征提取模块采用的GoogLeNet模型的Inception架构作为特征引擎,在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征输入到多尺度感知模块的三个卷积层。
结合第二方面,在可能的实施例中,每个卷积层包括多组卷积核;所述灵活空间金字塔池化层包括多个层级,每个层级包括数量不等的多个bin,所述每个层级中的多个bin互有重叠,均匀地完全覆盖所述第二特征映射图;所述多尺度感知模块用于,由所述第一支路对应的所述卷积层,对该卷积层所接收的所述第一特征映射图进行卷积,得到第二特征映射图,包括:由所述每个卷积层的每组卷积核,对所接收的所述第一特征映射图进行卷积,得到第二特征映射图;所述FSPP将由所述每组卷积核得到的所述第二特征映射图映射为所述数量不等的多个bin,分别对每个bin进行最大池化,得到所述每组卷积核对应的特征向量;将由所述多组卷积核得到的全部的所述特征向量整合为高维特征向量。
结合第二方面,在可能的实施例中,多尺度感知模块具有三个卷积层,这三个卷积层分别具有512、512、1024组卷积核,也就是说,分别对应的512、512、1024个通道,每组卷积核都用于将行人属性的一般特征转化为行人属性的中层特征,通过对应通道输入到对应的FSPP中。
结合第二方面,在可能的实施例中,FSPP的金字塔被限定为2层级,包括1X1个bin的层级和3X1或3X3个互有重叠的bin的层级。每个通道的中层特征图在相应的FSPP中被处理为一个维度与FSPP中bin总数相等的小向量(特征向量),最终形成三个分支的高维特征向量。
举例来说,FSPP被设计为两个层级的金字塔,在金字塔的第1层上包含1个bin,所述1个bin覆盖整个中层特征图,对该bin做最大池化操作,也就是说,对输入的中层特征图进行全局最大池化操作,得到一个特征向量;在第2层上,属性的中层特征图被3×3个bin覆盖,这9个bin大小相同,每一个bin的高为对应的中层特征图的高的40%,每一个bin的宽为对应的中层特征图的宽的40%,这9个bin在空间上互有重叠,均匀分布,覆盖整个中层特征图。对9个bin分别进行最大池化操作,也就是说,对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作,得到9个特征向量。所以,每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。
结合第二方面,在具体的实施例中,卷积神经网络系统采用弱监督的方法进行训练,所述弱监督训练为基于多个样本图片进行的训练,所述多个样本图片包括正样本图片与负样本图片;在需要进行训练时,对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签,而不需要对行人属性在图片中进行边框标注,就可以实现对卷积神经网络系统的训练。对于任意行人属性,在样本图片中存在,即真值标签为1,在样本图片中不存在,则真值标签为0。卷积神经网络系统通过大量样本图片的弱监督训练,能够不断自动调整一些参数设定,从而使得对行人属性的识别结果和定位结果不断地趋向准确,这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵,属性的中层特征与bin的关联程度值RS,中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。
结合第二方面,在可能的实施例中,卷积神经网络系统能够自动学习到哪些中层特征与哪些行人属性的关联性更大,还能自动学习到对于一个行人属性的中层特征而言哪些bin的权重较大。在初始阶段,卷积神经网络系统并不知道这些关联程度或bin权重,在每个训练周期,基于样本图片的真值标签,卷积神经网络系统通过反向传递函数从属性的预测层通过FC层向后传递梯度到多尺度感知模块和特征提取模块,这些梯度与中层特征的存在标签直接相关。FC层预先编码了中层特征与属性的正相关或负相关,所以能够确定属性正相关的中层特征。当样本图片中行人属性被标记为存在时,与对应中层特征相关的梯度被传递到输出该特征的相关bin,强化了相关bin对该中层特征的响应程度;梯度被传递到多尺度感知模块的卷积层,并调整各卷积层的卷积矩阵,鼓励相关卷积层对该中层特征的提取;梯度被传递到特征提取模块,还可以调整特征提取模块的各层的卷积矩阵和池化矩阵,鼓励特征提取模块提取与属性正相关的一般特征。同时,上述过程中,与属性负相关的特征响应会被抑制。可以理解的,当样本图片中行人属性被标记为不存在时,属性的中层特征的存在将被抑制。
结合第二方面,在可能的实施例中,所述属性定位模块的定位过程包括:
根据所确定的中层特征与bin的关联程度RS关联程度值和所述全部的高维特征向量,得到所述每个第二特征映射图在所述每个bin中的权重值;
然后,将N个支路的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图D;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;
最后,获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到一个或多个激活集群,进而确定激活集群的中心点,选择所述中心点作为行人属性位置的指示点。
结合第二方面,在可能的实施例中,在激活集群的数量为多个的情况下,所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果,包括:确定在所述待检测图像中所述行人属性的数量;确定每个激活集群的平均响应值;基于所述平均响应值对所述数量为多个的激活集群进行排序;基于排序的结果获得与所述行人属性的数量相同的激活集群,得到所述行人属性的定位结果。
结合第二方面,在可能的实施例中,可在待检测图像中的所述位置指示点标记所述行人属性,以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的,例如,可以在位置指示点设置十字线、高亮框等等图案来标记行人属性。
第三方面,本发明实施例提供了一种用于行人属性识别与定位的硬件设备。该硬件设备包括处理器和存储器,所述处理器与存储器相连接(如通过总线相互连接)。存储器用于存储相关程序代码及数据(例如卷积神经网络系统的相关数据),该处理器用于读取所述存储器中存储的程序代码,以用于执行第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储第一方面所述方法的实现代码。
第五方面,本发明实施例提供了一种计算机软件产品,当其在计算机中运行时,可用于实现第一方面所述的方法。
可以看出,实施本发明实施例,通过提取不同抽象程度的行人属性一般特征,使得细粒度的属性特征得以保留,将一般特征转化为中层特征后,可基于中层特征的相关特征向量进行行人属性识别,在视频监控场景下对于细粒度的属性特征(如戴眼镜等)也能实现较好的识别,在行人属性识别方面鲁棒性更高,效果更好;还可基于中层特征图和中层特征的相关特征向量进行行人属性定位,可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景,弥补了现有技术中监控场景下属性定位方法的缺失。另外,本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高,能够有效降低人力物力成本。
附图说明
图1是现有技术中的一种卷积神经网络系统的结构示意图;
图2是本发明实施例提供的一种卷积神经网络系统的结构示意图;
图3是本发明实施例提供的一种特征映射图映射到bin中的场景示例图;
图4是本发明实施例提供的又一种特征映射图映射到bin中的场景示例图;
图5是本发明实施例提供的一种行人属性定位的场景示例图;
图6是本发明实施例提供的多种行人属性识别与定位的场景示例图;
图7是本发明实施例提供的又一种卷积神经网络系统的结构示意图;
图8是本发明实施例提供的一种行人属性识别与定位方法的流程示意图;
图9是本发明实施例提供的又一种行人属性识别与定位方法的流程示意图;
图10是本发明实施例提供的一种用于行人属性识别与定位的设备结构图。
具体实施方式
为了便于理解,下面首先介绍现有技术中的卷积神经网络(Convolutional Neural Network,CNN)系统。参见图1,通常的CNN系统包括卷积层、池化层、全连接层,将待检测图像输入到CNN系统后,第一个卷积层(如图中卷积层1)的卷积核对图像进行过滤,通过卷积处理,提取某个或某些属性的特征,卷积后输出特征映射图。第一个池化层(如图中池化层1)对该特征映射图进行池化,进一步减少参数的数量,得到特征向量。在输出最终预测结果前,图像通常会经历多个卷积层和池化层(如图中还包括卷积层2和池化层2)的处理。通常来说,由于卷积和池化过程会不断地丢失一些非显著的信息,以减少特征映射图的参数和空间尺寸,越深的卷积神经网络会提取越具体明显的特征,越浅的网络提取越浅显的特征。经卷积和池化处理得到的数据输入到全连接层(如图中包括全连接层1和全连接层2),对数据进行整合和降维,从而得到与属性分类总数相同的归一化的预测结果。最后将预测结果输出,从而实现待检测图像中属性的识别。CNN系统在实际应用之前,通常会基于大量的图片进行自动深度学习,采用相关训练算法和反向传播算法进行大量训练,从而不断地调整CNN系统中的参数设定,提高属性识别的性能。
基于CNN系统在图像识别所展现的强大功能,CNN系统在人脸识别、商品推荐、物体分类、目标跟踪、视频监控等等应用场景中具有极大的商业价值。尤其是在视频监控系统中,应用CNN系统进行行人属性的识别与定位,能够有助于构建智能的安全监控网络,具有极大的应用潜力。但是,现有技术的CNN系统应用到视频监控系统会存在一些缺陷。首先,考虑到存储的需求和拍摄距离通常较远的原因,视频监控中行人图像的分辨率通常不高,对于一些像素较低的行人属性,输入到CNN系统后,在卷积与池化操作的多次交替过程中,会小尺度、低层次的属性特征容易被遗失或被忽略,导致无法识别像“戴眼镜”之类的细粒度属性。其次,在远距离的视频监控中,不但从监控视频中截取的行人图像分辨率较低,而且视频中环境障碍物或行人附属物会对行人属性造成遮挡,导致最终的行人属性难以被识别。而且,不同拍摄视角会导致的视频监控中行人姿态上的变化,对行人的所有属性直接进行同时识别比较困难。再次,视频监控中CNN系统通常采用全监督训练的方式进行深度学习,在全监督训练中,通常需要在样本图片中手动标注行人属性的边界标定框,然后再输入到模型中进行训练。然而,对一个大型数据库中成千上万的多类属性的样本图片都进行手动注释对象边界框的话是非常耗时耗力,成本非常高。而且,一些行人属性本身存在较模糊的边界定义,比如“戴眼镜”这种行人属性就不同于单纯的“眼镜”这种物体属性,不能简单界定其边界。最后,目前视频监控系统中行人属性的定位依然是一种挑战,而基于全监督训练的CNN系统并不适合于行人属性定位的任务。
为了克服现有技术中的缺陷,本发明实施例提供了一种适用于视频监控中的行人属性识别与定位方法以及基于弱监督训练的卷积神经网络系统,实现对行人属性进行更好的识别与定位。
下面描述本发明实施例提供的卷积神经网络系统,本发明实施例提供的卷积神经网络系统可用于进行行人属性的识别以及行人属性的定位,所述行人属性包括行人的特征信息,例如行人属性可以是行人的性别、头发长短、衣服颜色、衣服款式、鞋子款式、帽子款式、或者戴项链、戴眼镜、戴手套、戴围巾、戴帽子、背包等等,可以理解的,行人属性的识别为对图像中特定的行人属性进行识别,行人属性的定位为在图像中对该行人属性的具体位置进行定位。
参见图2,本发明实施例提供的卷积神经网络系统包括:特征提取模块、多尺度感知模块、属性识别模块和属性定位模块;特征提取模块可通过N个支路与多尺度感知模块进行连接;属性识别模块通过N个支路与多尺度感知模块进行连接;属性定位模块通过至少N个支路与所述多尺度感知模块进行连接,各模块详细描述如下:
(1)特征提取模块:本发明实施例中,特征提取模块作为卷积神经网络的特征引擎,用于对待检测图像(例如视频监控中的图像帧)进行抽象,提取与行人属性相关的特征。特征提取模块可分为多个串联或并联的层,每个层包含一种或多种卷积层和池化层的组合,不同的层具有不同的深度,不同的层对图像的抽象程度不同(如图2中所示的抽象程度1、抽象程度2等等),也就是说,较浅的层对图像抽象程度低,图像的中的细粒度特征得以保留;较深的层抽象程度高,图像的中的粗粒度特征得以保留。通过待检测图像进行不同层的特征提取,可得到不同抽象程度、不同尺度的特征映射图,这些特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。本发明实施例中,N种行人属性的一般特征从不同的层级输出后,可通过N个支路分别输入到多尺度感知模块的N个并行的卷积层。
例如,具体实现中,特征提取模块可以采用GoogLeNet模型中Inception结构,进行特征提取,在Inception结构的不同层进行特征提取,从其中的“inception4a/output”层,“inception4d/output”层和“inception5b/output”层分别输出三种尺度和抽象程度的属性的一般特征,作为后续的多尺度感知模块的输入。
可以看出,本发明实施例中,通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取,可以保证细粒度属性特征在较早的阶段就得以保留,有利于避免了卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。
(2)多尺度感知模块:多尺度感知模块用于实现属性特征的多尺度感知,为属性识别模块和属性定位模块提供输入。
如图2所示,多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层(Flexible Spatial Pyramid Pooling,FSPP),一个所述卷积层连接一个FSPP。特征提取模块输出的N支路的特征映射图(即行人属性的一般特征)分别输入到不同的卷积层中,卷积层中可包括M组并行的卷积核;通过在每个支路对应的卷积层的每组卷积核,对所输入的行人属性的一般特征进行卷积,得到新的特征映射图,这种新的特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。也就是说,多尺度感知模块中的卷积层负责将不同尺度、抽象程度的一般特征转化成与属性相关的中层特征。
在多尺度感知模块的一个支路中,通过卷积层得到属性的中层特征后,灵活空间金字塔池化层用于对这些中层特征进行池化处理。本发明实施例中,FSPP被设计为包含多个层 级的金字塔结构,不同的层级对输入的特征映射图按不同方式的划分为若干个区域bin,每个层级中的这些bin之间互相重叠,特征映射图中的某些像素点可以同时位于不同的bin中,这些bin大小相同,通过它们的重叠,能够刚好覆盖整个特征映射图。对每一个bin进行最大池化(max pooling)处理,可以得到一个小向量(即特征向量),该特征向量反映了该bin对该特征映射图的响应值。对于任意一个支路,如果卷积层包括M组卷积核,对应的FSPP中的bin个数为K,那么该支路可以得到至少M*K个小向量,这些M*K个小向量可整合成M*K维的高维特征向量。
举例来说,在具体应用场景中,参见图3,FSPP被设计为两个层级的金字塔,在金字塔的第1层上包含1个bin(即图中bin1),bin1覆盖整个中层特征图,对该bin1做最大池化操作,也就是说,对输入的中层特征图进行全局最大池化操作,得到一个特征向量;在第2层上,属性的特征图被3×1个bin覆盖(即图中bin1、bin2和bin3),这3个bin大小相同,每一个bin的高与为对应的中层特征图的高相同,每一个bin的宽为对应的中层特征图的宽的40%(这个比例值的大小可根据需要进行设定),这3个bin在空间上互为重叠(如图中bin1和bin2重叠,bin2和bin3重叠),均匀分布,覆盖对应的中层特征图。对3个bin分别进行最大池化操作,也就是说,对输入的中层特征图中与这三个bin一一对应的区域分别进行最大池化操作,得到三个特征向量。所以,每一个中层特征图在这如上过程后被处理为一个4维度的特征向量组。
又举例来说,在具体应用场景中,参见图4,FSPP被设计为两个层级的金字塔,在金字塔的第1层上包含1个bin(即图4中1X1区域),所述1个bin覆盖整个中层特征图,对该bin做最大池化操作,也就是说,对输入的中层特征图进行全局最大池化操作,得到一个特征向量;在第2层上,属性的中层特征图被3×3个bin(即图4的3X3区域中,3X3个不同的阴影区域)覆盖,这9个bin大小相同,每一个bin的高为对应的中层特征图的高的40%,每一个bin的宽为对应的中层特征图的宽的40%(比例值的大小可根据需要进行设定),这9个bin在空间上互有重叠,均匀分布,覆盖整个中层特征图。对9个bin分别进行最大池化操作,也就是说,对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作,得到9个特征向量。所以,每一个中层特征图在这如上过程后被处理为一个10维度的特征向量组。
也就是说,每一个支路的每一个特征映射图在经过对应的FSPP后,被处理为一个维度与该FSPP中的bin总数相等的小向量,并最终被整合成高维向量组。不同支路的高维向量将作为后续模块的输入。
可以看出,本发明实施例提供的FSPP,能够通过灵活的bin大小以及bin组合,调整属性特征相关的特征向量的输出,强化了不同bin对不同中层特征的敏感度,更加明确了属性与不同bin之间的关联程度。而且FSPP在经过弱监督训练后,能够调整行人属性与不同bin的关联程度,使得行人属性的中层特征具有特定的局部空间分布倾向,让行人属性的中层特征更好地关联到空间位置上。另外,由于bin之间互相重叠,所以处于重叠区域的中层特征可以同时隶属多个bin,使得该中层特征可以和多个bin产生关联,扩大的定位的响应区域,能够有利于后续属性定位模块实现更加精确的定位。
(3)属性识别模块:属性识别模块包括全连接层以及最后预测结果的输出层,属性识 别模块作为属性特征的分类器,对输入的特征进行分类,然后输出所需的属性分类数目。具体的,属性识别模块接收到多尺度感知模块发送的N支路的高维特征向量后,将N支路的高维特征向量进行整合,然后将整合后的高维向量进行回归,得到与所需的属性分类数目相同的低维向量,通过sigmoid函数,将低维向量归一化处理到[0,1]区间内,这个区间中数值较大的预测结果即为行人属性的识别结果。
(4)属性定位模块:属性定位模块用于通过对所输入的特征图上的响应点进行聚类获得行人属性的空间位置信息,并基于空间位置信息在待检测图像中直接标识出该行人属性。
具体的,多尺度感知模块在得到N支路的新的特征映射图(即行人属性的中层特征)、N支路的高维特征向量后,将N支路的新的特征映射图和所述N支路的高维特征向量发送给属性定位模块,属性定位模块基于行人属性的中层特征和中层特征对应的高维特征向量得到行人属性的定位结果。
下面详细描述本发明实施例中属性定位模块进行行人属性定位的过程。
在本发明实施例中,要先定位一个行人属性a,首先要预先确定行人属性a的中层特征与bin之间的关联程度,而确定关联程度的过程是在弱监督训练中实现的。在利用大量图片进行弱监督训练过程中,输入到卷积神经网络系统的图片包括大量的正样本图片和负样本图片,正样本图片是指与行人属性a具有较大关联程度的图片(比如图片中存在行人属性a),负样本图片是指与行人属性a具有较小关联程度的图片(比如图片中不存在行人属性a)。确定行人属性a的中层特征与bin之间的关联程度,也就是说,需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值,其过程如下所示:
某个bin在正样本图片上的平均响应值PAve为:
Figure PCTCN2017100430-appb-000005
某个bin在负样本图片上的平均响应值NAve为:
Figure PCTCN2017100430-appb-000006
所以,正样本图片上的平均响应值与在负样本图片上的平均响应值的比值为:
Figure PCTCN2017100430-appb-000007
d∈[1,M];k∈[1,NBd]。
RS代表了关联程度数组,确定了行人属性a的中层特征与某个bin之间的关联程度。其中,上述公式中,d表示某个行人属性的中层特征图,k表示某个bin,N代表训练中输入的样本图片的总数;M等于行人属性的中层特征图的总数,也代表灵活空间金字塔池化层的金字塔总数;NB代表金字塔中容器的总数;Score代表在样本图片上,bin的输出值(即特征向量);Label代表样本图片中行人属性a的标注向量,正样本图片的Label为1,负样本图片的Label为0;
在确定了行人属性的中层特征与某个bin之间的关联程度后,在需要定位待检测图像的属性a时,可进行如下处理:
首先,需要对关联程度进行归一化,基于所接收到的高维特征向量(与score直接相关),获得行人属性的某个中层特征图对于某个bin的权重值w:
Figure PCTCN2017100430-appb-000008
其中,正则化分数norm_score为:
norm_score[d][k]=score[d][k]/(preda[d][k]?PAve[d][k]:NAve[d][k]);
其中,pred表示属性a的识别值。
当属性a的识别值为1,则norm_score[d][k]=score[d][k]/PAve[d][k];
当属性a的识别值为0,则norm_score[d][k]=score[d][k]/NAve[d][k]。
其次,基于所接收到的行人属性a的中层特征图,通过叠加由高斯滤波器模糊化后的利用权重值加权的中层特征图,获得属性可能性分布图D:
D=D+w[d][k]×Resize(A[d]×mask,(Himg,Wimg));d∈[1,M];k∈[1,NBd]。
其中,W,H代表中层特征图的尺寸;Resize表示对所得图像的尺寸进行调整,A代表行人属性的中层特征图;用于进行模糊化处理的高斯掩膜mask函数为:
mask=Gauss((Wfmap[d],Hfmap[d]),(X[d][k],Y[d][k]),var);
其中,mask函数定义为:
Figure PCTCN2017100430-appb-000009
i∈[1,Hfmap[d]],j∈[1,Wfmap[d]];
其中,X,Y代表检测到的中层特征图的最大值点坐标;其中var具体为:
Figure PCTCN2017100430-appb-000010
上述过程得到的属性可能性分布图D表示了行人属性在所述待检测图像中的响应值的分布,所以,在属性可能性分布图D上,响应值高于阈值(阈值可根据需要进行预设)的激活区域范围表示了行人属性的大致轮廓。
然后,为了进一步对行人属性进行精确定位,需要对这些激活区域范围进行了聚类处理,得到一个或多个激活集群,进而确定激活集群的中心点,选择所述中心点作为行人属性位置的指示点。
在具体实施例中,可以经验性地预先确定行人的行人属性的数量,从而可以利用对应激活集群的平均响应值大小进行排序,最后保留行人属性的数量相同的激活集群,例如,对于行人属性“戴帽子”而言,预先定义每个行人的帽子数量最多为一个,所以在需要对行人属性“戴帽子”进行属性定位的相关计算中,如果确定得到的激活集群有多个,则计 算每个激活集群的平均响应值,确定具有最大的平均响应值的激活集群,那么,该激活集群的中心点就是行人属性“戴帽子”的位置指示点。又例如,对于行人属性“手套”而言,预先定义每个行人的手套为两个,所以在需要对行人属性“戴手套”进行属性定位的相关计算中,如果确定得到的激活集群有多个,则计算每个激活集群的平均响应值并从大到小排序,保留序列中平均响应值最大的前两个激活集群,那么,该两个激活集群的中心点就是行人属性“戴手套”的位置指示点。
需要说明的是,激活集群个数的设定也可能是根据其他因素而不是行人属性的数目进行设定,例如行人属性“衬衫”到“裤子”等,实践中发现激活集群序列中前两个激活集群的平均响应值通常远高于那些其余的激活集群。因此,我们还可将这些属性的集群中心数设置为两个。
最后,在待检测图像中的所述位置指示点标记所述行人属性,以便于用户直观地发现行人属性存在于在待检测图像中精确位置。标记所述行人属性的方式可以是多种多样的,例如,可以在位置指示点设置十字线、高亮框等等图案来标记行人属性,本发明在这里不做限定。
参见图5,在一具体应用场景中,需要进行定位的行人属性为“鞋子”,通过属性定位模块的相关计算,获得属性可能性分布图,进而得属性可能性分布图,保留响应值高于阈值的部分,经过聚类处理,得到了激活集群1、激活集群2、激活集群3,由于激活集群1的响应值>激活集群2的响应值>激活集群3的响应值,保留激活集群1、激活集群2,在激活集群1和激活集群2的中心点处标记高亮的十字线图案,结合上述处理过后的属性可能性分布图和待检测图像,就可以实现在行人属性“鞋子”在图像中的定位,输出相关图像。
参见图6,图6给出了本发明实施例在多种监控场景中的所得到的行人属性的识别与定位结果的示例。其中,示例中给出的行人属性的识别结果包括对鞋子类型、戴眼镜、戴帽子、穿马甲、穿牛仔裤、穿短袖等行人属性的识别,识别结果比较准确。同时,针对鞋子类型、戴眼镜、戴帽子、穿马甲、穿牛仔裤、穿短袖等行人属性分别在图像中进行定位,定位结果用高亮的十字线图案进行标记,可以看到,对这些行人属性的定位结果也比较准确。
可以看出,本发明实施例中,为了更好地适应同时进行行人属性识别和定位的任务,处于卷积神经网络系统中间环节的多尺度感知模块更关注于发现行人属性的中级特征而不是属性本身,属性识别模块基于中层特征的相关特征向量进行行人属性识别,并且在视频监控场景下对于“戴眼镜”等等细粒度的属性特征也能实现较好的识别;属性定位模块可基于中层特征图和中层特征的相关特征向量进行行人属性定位,并且能够在视频监控场景下实现了较为准确的识别与定位,弥补了现有技术中监控场景下属性定位方法的缺失。
下面举例来说本发明实施例所提供的卷积神经网络系统的一种具体实现方式。参见图7,在该实现方式中,基于弱监督训练的卷积神经网络系统的特征提取模块采用的GoogLeNet模型的Inception架构作为特征引擎,在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征输入到多尺度感知模块的CONV1_E、CONV2_E、CONV3_E三个卷积层,这三个卷积层分别具有512、512、1024组卷积 核,也就是说,分别对应的512、512、1024个通道,每组卷积核都用于将行人属性的一般特征转化为行人属性的中层特征,通过对应通道输入到对应的FSPP中,为减少计算量,金字塔被限定为2层级。其中,CONV1_E对应的FSPP包括1X1个bin的层级和3X3个互有重叠的bin的层级,CONV2_E对应的FSPP包括1X1个bin的层级和3X3个互有重叠的bin的层级,CONV3_E对应的FSPP包括1X1个bin的层级和3X1互有重叠的个bin的层级。每个通道的中层特征图在相应的FSPP中被处理为一个维度与FSPP中bin总数相等的小向量(特征向量),最终形成三个分支的维度分别为5120维、5120维和4096维的高维特征向量,输入到属性识别模块的全连接(fully connected,FC)层,并最终根据预设的分类处理方式将这些高维特征向量被整合成2048维的高维向量。2048维的高维向量进一步分类处理降低维度,回归为51维的低维向量,也就是说,预设有51种类型的行人属性。通过sigmoid函数,低维向量被归一化到[0,1]区间内,输出的预测结果即为行人属性的识别结果。另外,本发明实施例中,多尺度感知模块将行人属性的中层特征图以及三个分支的高维特征向量发送至属性定位模块(图中未示出),以获得和输出行人属性的定位结果,可参考上文中属性定位模块的相关描述。
可以看到,在本发明实施例中,并不限定输入端的待检测图像的大小和长宽比,任意大小的特征映射都将会在FSPP层操作后变成可被FC层所接受的固定大小的高维特征向量。所以,本发明实施例可以处理任意尺寸、任意分辨率的输入图片,而不需要对图片进行扭曲或者变形,这有利于保存行人身体和附属物的原始形状特征,有益于视频监控系统中的实际应用。
下面描述本发明实施例中所涉及的弱监督训练。本发明实施例中,卷积神经网络系统采用弱监督的方法进行训练,在需要进行训练时,对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签,而不需要对行人属性在图片中进行边框标注(或定位标注),就可以实现对卷积神经网络系统的训练。例如,预先将行人属性的种类划分为ABCDE五类,对于任意行人属性,在样本图片中存在,即真值标签为1,在样本图片中不存在,则真值标签为0。比如,对于属性A,某个正样本图片可能的标注向量为“11010”,某个负样本图片可能的标注向量为“01010”。
本发明实施例中,卷积神经网络系统通过大量样本图片的弱监督训练,能够不断自动调整一些参数设定,从而使得对行人属性的识别结果和定位结果不断地趋向准确,这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的每组卷积核(卷积矩阵)、池化层的池化矩阵,属性的中层特征与bin的关联程度值RS,中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。
举例来说,卷积神经网络系统能够自动学习到哪些中层特征与哪些行人属性的关联性更大,还能自动学习到对于一个行人属性的中层特征而言哪些bin的权重较大。在初始阶段,卷积神经网络系统并不知道这些关联程度或bin权重,在每个训练周期,基于样本图片的真值标签,卷积神经网络系统通过反向传递函数从属性的预测层通过FC层向后传递梯度到多尺度感知模块和特征提取模块,这些梯度与中层特征的存在标签直接相关。FC层预先编码了中层特征与属性的正相关或负相关,所以能够确定属性正相关的中层特征。当样 本图片中行人属性被标记为存在时,与对应中层特征相关的梯度被传递到输出该特征的相关bin,强化了相关bin对该中层特征的响应程度;梯度被传递到多尺度感知模块的卷积层,并调整各卷积层的卷积矩阵,鼓励相关卷积层对该中层特征的提取;梯度被传递到特征提取模块,还可以调整特征提取模块的各层的卷积矩阵和池化矩阵,鼓励特征提取模块提取与属性正相关的一般特征。同时,上述过程中,与属性负相关的特征响应会被抑制。可以理解的,当样本图片中行人属性被标记为不存在时,属性的中层特征的存在将被抑制。
比如,对于一些样本图片,行人戴了帽子,那么对于行人属性“戴帽子”来说,当某个中层特征被确定为与“戴帽子”属性正相关,那么,位于FSPP某层级(如第二层级)的上方部分的bin的权重通常被增加,中层特征相关的特征提取也会被强化。
又比如,对于一些样本图片,行人穿了鞋子,那么对于行人属性“穿鞋子”来说,当某个中层特征被确定为与“穿鞋子”属性正相关,那么,位于FSPP某层级的下方部分的bin的权重通常被增加,中层特征相关的特征提取也会被强化。
又比如,对于一些训练样本,存在有可能会出现在图片中任意部分的中层特征,FSPP的第一层级(1X1个bin)由于可以进行全局最大池化操作,所以对于该中层特征,该bin的权重会被强化。
又比如,对于一些训练样本,帽子不在行人头上,但帽子出现在图像的其他内容中(例如放在架子上),那么,与行人图像对应的bin的权重不变化,但是包含该特征的高响应的位置的bin(即架子位置相关的bin)的权重将被削弱,相关的bin与属性的相关性被抑制。
又举例来说,卷积神经网络系统能够自动学习到一种中层特征可能会被多种行人属性共用,即一个中层特征关联多个行人属性,不同的关联程度RS之间也是具有相关性的,那么,卷积神经网络系统会在训练中同时提升相关的响应,使得最后的识别与定位结果符合行人属性。比如,某个中性特征可同时关联到“穿裙子”和“女性”这两种行人属性,那么系统在进行对行人属性“穿裙子”的图像识别与定位过程中,会把女性特征相关的弱监督训练所得参数提升,使得输出结果更倾向于女性的特征。又比如,对于视频监控中一些属性特征被障碍物遮挡时,卷积神经网络系统根据学习到的中层特征与多个行人属性的关联性,也可以进行相应的行人属性的识别与定位。
可以看出,本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高,能够降低人力物力成本。基于弱监督训练的卷积神经网络可适用于视频监控场景下行人的细粒度属性特征进行准确的识别与定位,可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景,在行人属性识别方面鲁棒性更高,效果更好,填补了监控场景下行人属性定位方法的空白。
基于本发明实施例提供的上述卷积神经网络系统,下面说明本发明实施例提供的行人属性识别与定位方法,参见图8,所述方法包括但不限于以下步骤:
步骤S801:获取待检测图像。
本发明实施例中,所述待检测图像可以是视频监控中的图像帧,所述的图像帧可以是任意大小、长宽比的图片。
步骤S802:对所述待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多 种第一特征映射图。
本发明实施例中,可通过不同的卷积层和池化层的组合实现对待检测图像不同程度的抽象,也就是说,一些层次较浅的组合对图像抽象程度低,图像的中的细粒度特征得以保留;一些层次较深的组合抽象程度高,图像的中的粗粒度特征得以保留。通过多种不同抽象程度的特征提取,可得到不同抽象程度、不同尺度的第一特征映射图,这些第一特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。
可以看出,本发明实施例中,通过在不同层级上对属性特征进行不同的尺度和抽象程度的提取,可以保证细粒度属性特征在较早的阶段就得以保留,有利于避免了在特征提取阶段由于卷积与池化运算的多次交替操作带来的对小尺度、低层特征被遗失或被消除的问题。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中特征提取模块的相关描述。
步骤S803:对所述多种第一特征映射图进行卷积,得到多种第二特征映射图。
本发明实施例中,为了实现更好的行人属性识别与定位,方案实现过程更关注于行人属性的中级特征而不是属性本身。所以,在得到不同尺度、抽象程度的第一特征映射图后,通过对不同尺度、抽象程度的第一特征映射图再进行卷积,得到第二特征映射图,这种第二特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。行人属性的中层特征不仅可以被用在后述的行人属性识别过程中,还能被用在后述的行人属性定位过程中,达成行人属性识别和行人属性定位同时进行的效果。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的卷积层的相关描述,这里不再赘述。
步骤S804:将所述多种第二特征映射图分别映射为多个互有重叠的区域bin,对各个bin进行最大池化,得到多种高维特征向量。其中,所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。
具体的,可通过不同的层级对输入的特征映射图不同方式的划分为若干个区域bin,每个层级中的这些bin之间互相重叠,特征映射图中的某些像素点可以同时位于不同的bin中,这些bin大小相同,通过它们的重叠,能够刚好覆盖整个特征映射图。对每一个bin进行最大池化处理,可以得到一个小向量(即特征向量),该特征向量反映了该bin对该特征映射图的响应值,通过整合所有得到的特征向量,可得到多种高维特征向量。
可以看出,本发明实施例通过灵活的bin大小以及bin组合,调整属性特征相关的特征向量的输出,强化了不同bin对不同中层特征的敏感度,更加明确了属性与不同bin之间的关联程度。另外,由于bin之间互相重叠,所以处于重叠区域的中层特征可以同时隶属多个bin,使得该中层特征可以和多个bin产生关联,扩大的定位的响应区域,能够有利于后续步骤实现更加精确的定位。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的灵活空间金字塔池化层FSPP的相关描述,这里不再赘述。
步骤S805:将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果。
具体的,通过对多种高维特征向量进行整合以及回归处理,得到与所需的属性分类数目相同的低维向量,将低维向量归一化处理到[0,1]区间内,这个区间中数值较大的预测结果即为行人属性的识别结果。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中属性识别模块的相关描述,这里不再赘述。
步骤S806:根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果。
具体的,可预先通过弱监督训练确定行人属性与所述每个bin的关联程度,根据所述关联程度和所述多种高维特征向量,得到每个第二特征映射图在每个bin中的权重值;将多种的经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,基于所述激活集群得到所述行人属性的定位结果。
在获得定位结果后,还包括:基于所述定位结果,在所述待检测图像中标记所述行人属性。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中属性定位模块的相关描述,这里不再赘述。
下面描述本发明实施例提供的又一种基于上述卷积神经网络系统的行人属性的识别与定位方法,参见图9,该方法包括但不限于以下步骤:
步骤S901:基于多个样本图片进行弱监督训练,确定弱监督训练习得参数。
在本发明实施例中,卷积神经网络系统采用弱监督的方法进行训练,在需要进行训练时,对数据库输入的样本图片(包括正样本图片和负样本图片)只需包含行人属性存在与否的真值标签,而不需要对行人属性在图片中进行边框标注,就可以实现对卷积神经网络系统的训练。
通过大量样本图片的弱监督训练,能够不断自动调整一些参数设定,从而使得对行人属性的识别结果和定位结果不断地趋向准确,这些可以自动调整的参数设定又可称为弱监督训练所得参数。弱监督训练所得参数例如包括卷积层的卷积矩阵、池化层的池化矩阵,属性的中层特征与bin的关联程度RS,中层特征与属性的关联程度等等。这些都是通过大量自动学习确定和修正的。在确定了弱监督训练所得参数之后,在实际应用中,本方法继续执行后续步骤。
需要说明的是,本发明实施例的具体实现方式可参考上文中关于卷积神经网络系统的弱监督训练的具体描述,这里不再赘述。
步骤S902:获取待检测图像。本发明实施例中,所述待检测图像可以是视频监控中的图像帧,所述的图像帧可以是任意大小、长宽比的RGB图片。
步骤S903:对所述待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多种第一特征映射图。
通过多种不同抽象程度的特征提取,可得到不同抽象程度、不同尺度的第一特征映射 图,这些第一特征映射图都可称为行人属性的一般特征(或称行人属性的一般特征图)。例如,可利用GoogLeNet模型的Inception架构作为特征引擎,在Inception4a/output、Inception4d/output、Inception5b/output处提取待检测图像的行人属性的一般特征。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中特征提取模块的相关描述,这里不再赘述。
步骤S904:对所述多种第一特征映射图进行卷积,得到多种第二特征映射图。第二特征映射图可称为行人属性的中层特征(或称行人属性的中层特征图)。行人属性的中层特征不仅可以被用在后述的行人属性识别过程中,还能被用在后述的行人属性定位过程中,达成行人属性识别和行人属性定位同时进行的效果。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的卷积层的相关描述,这里不再赘述。
步骤S905:将所述多种第二特征映射图分别映射为多个互有重叠的区域bin,对各个bin进行最大池化,得到多种高维特征向量。其中,所述互有重叠的bin均匀地完全覆盖所述第二特征映射图。
例如,在具体应用场景中,设计两个层级的金字塔,在金字塔的第1层上包含1个bin,所述1个bin覆盖整个中层特征图,对该bin做最大池化操作,也就是说,对输入的中层特征图进行全局最大池化操作,得到一个特征向量;在第2层上,属性的中层特征图被3X1个或者3×3个bin覆盖,在空间上互有重叠,均匀分布,覆盖整个中层特征图。对这些bin分别进行最大池化操作,也就是说,对输入的中层特征图中与这9个bin一一对应的区域分别进行最大池化操作,得到多个特征向量。所以,将上述所有的特征向量整合,得到高维的特征向量组。
需要说明的是,本发明实施例的具体实现方式可参考图2实施例中多尺度感知模块的灵活空间金字塔池化层FSPP的相关描述,这里不再赘述。
步骤S906:将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果。需要说明的是,本发明实施例的具体实现方式可参考图2实施例中属性识别模块的相关描述,这里不再赘述。
步骤S907:根据所述关联程度和所述多种高维特征向量,得到每个第二特征映射图在每个bin中的权重值。
具体的,在利用大量图片进行弱监督训练过程中,输入到卷积神经网络系统的图片包括大量的正样本图片和负样本图片,正样本图片是指与行人属性具有较大关联程度的图片,负样本图片是指与行人属性a具有较小关联程度的图片。确定行人属性的中层特征与bin之间的关联程度,也就是说,需要确定一个bin在正样本图片上的平均响应值与在负样本图片上的平均响应值的比值。
步骤S908:将多种的经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图。
具体的,可基于所接收到的行人属性的中层特征图,通过叠加由高斯滤波器模糊化后的利用权重值加权的中层特征图,获得属性可能性分布图,属性可能性分布图表示了行人属性在所述待检测图像中的响应值的分布。
步骤S909:获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,得到所述行人属性的定位结果。
具体的,在激活集群的数量为多个的情况下,所述基于所述激活集群得到所述行人属性的定位结果,包括:预先确定在所述待检测图像中所述行人属性的数量;确定每个激活集群的平均响应值;基于所述平均响应值对所述数量为多个的激活集群进行排序;基于排序的结果获得与所述行人属性的数量相同的激活集群,进而确定激活集群的中心点,选择所述中心点作为行人属性位置的指示点,行人属性位置的指示点就是所述行人属性的定位结果。最后,可以在待检测图像中的所述位置指示点标记所述行人属性,以便于用户直观地发现行人属性存在于在待检测图像中精确位置。
需要说明的是,步骤S907、S908、S909的详细计算过程可参考图2实施例中属性定位模块的相关描述,这里不再赘述。
可以看出,实施本发明实施例,可以处理任意尺寸、任意分辨率的输入图片,而不需要对图片进行扭曲或者变形,这有利于保存行人身体和附属物的原始形状特征,有益于视频监控系统中的实际应用。通过提取不同抽象程度的行人属性一般特征,使得细粒度的属性特征得以保留,将一般特征转化为中层特征后,可基于中层特征的相关特征向量进行行人属性识别,在视频监控场景下对于细粒度的属性特征(如戴眼镜等)也能实现较好的识别,在行人属性识别方面鲁棒性更高,效果更好;还可基于中层特征图和中层特征的相关特征向量进行行人属性定位,可适应视频监控中带来的低分辨率、视角差异大、环境遮挡等多种应用场景,弥补了现有技术中监控场景下属性定位方法的缺失。另外,本发明实施例采用的基于真值标签的弱监督训练方法在样本图片加工的过程中效率比较高,能够有效降低人力物力成本。
上文描述了本发明实施例提供的卷积神经网络系统和相关方法,下面描述本发明实施例提供的相关设备。
参见图10,本发明实施例提供了一种用于进行行人属性识别与定位的硬件设备1000,该硬件设备1000包括处理器1001、存储器1002,所述处理器1001与存储器1002相连接(如通过总线相互连接)。
处理器1001可以是一个或多个中央处理器(Central Processing Unit,CPU),在处理器1001是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1002包括但不限于是随机存储记忆体(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、或便携式只读存储器(Compact Disc Read-Only Memory,CD-ROM),该存储器1002用于存储相关程序代码及数据(例如卷积神经网络系统的相关数据)。
该处理器1001用于读取所述存储器1002中存储的程序代码,以用于获取待检测图像;对所述待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多种第一特征映射图;对所述多种第一特征映射图进行卷积,得到多种第二特征映射图;将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到多种高维特征向量;其中,所述多个互有重叠的bin均匀地完全覆盖所述 每种第二特征映射图;将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果;根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果;基于所述定位结果,在所述待检测图像中标记所述行人属性。
在具体实施例中,处理器1001预先进行弱监督训练,所述弱监督训练为基于多个样本图片进行的训练;所述多个样本图片包括正样本图片与负样本图片,在所述正样本图片中所述行人属性被标注为存在,在所述负样本图片中所述行人属性被标注为不存在。
在具体实施例中,在获取待检测图像之前,处理器1001预先通过弱监督训练确定多组卷积核;处理器1001对所述多种第一特征映射图进行卷积,得到多种第二特征映射图,包括:处理器1001基于所述多组卷积核分别对所述多种第一特征映射图进行卷积,得到多种第二特征映射图。
在具体实施例中,处理器1001还预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值;
处理器1001根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果,包括:处理器1001根据所述关联程度值和所述多种高维特征向量,得到所述每种第二特征映射图在所述每个bin中的权重值;将多种的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,基于所述激活集群得到所述行人属性的定位结果。
在具体实施例中,在激活集群的数量为多个的情况下,处理器1001基于所述激活集群得到所述行人属性的定位结果,包括:处理器1001确定在所述待检测图像中所述行人属性的数量;确定每个激活集群的平均响应值;基于所述平均响应值对所述数量为多个的激活集群进行排序;基于排序的结果获得与所述行人属性的数量相同的激活集群,得到所述行人属性的定位结果。
需要说明的,处理器1001、存储器1002的相关技术特征可参照图2、图8以及图9实施例中的相关内容,这里不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时,可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质,也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是 磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。
在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

  1. 一种行人属性识别与定位方法,其特征在于,包括:
    获取待检测图像;
    对所述待检测图像进行多种不同抽象程度的特征提取,获得行人属性的多种第一特征映射图;
    对所述多种第一特征映射图分别进行卷积,得到多种第二特征映射图;
    将所述多种第二特征映射图中的每种第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到多种高维特征向量;其中,所述多个互有重叠的bin均匀地完全覆盖所述每种第二特征映射图;
    将所述多种高维特征向量整合和回归为低维向量,得到所述行人属性的识别结果。
  2. 根据权利要求1所述的方法,其特征在于,在得到所述多种高维特征向量后,所述方法还包括:
    根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果;
    根据所述定位结果,在所述待检测图像中标记所述行人属性。
  3. 根据权利要求1或2所述的方法,其特征在于,在获取待检测图像之前,包括:
    预先通过弱监督训练确定多组卷积核;
    对所述多种第一特征映射图进行卷积,得到多种第二特征映射图,包括:
    根据所述多组卷积核分别对所述多种第一特征映射图进行卷积,得到多种第二特征映射图。
  4. 根据权利要求3所述的方法,其特征在于,还预先通过所述弱监督训练确定所述每种第二特征映射图与所述每个bin的关联程度值;
    根据所述多种第二特征映射图和所述多种高维特征向量,得到所述行人属性的定位结果,包括:
    根据所述关联程度值和所述多种高维特征向量,得到所述每种第二特征映射图在所述每个bin中的权重值;
    将多种的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;
    获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,基于所述激活集群得到所述行人属性的定位结果。
  5. 根据权利要求4所述的系统,其特征在于,在激活集群的数量为多个的情况下,所述基于所述激活集群得到所述行人属性的定位结果,包括:
    确定在所述待检测图像中所述行人属性的数量;
    确定每个激活集群的平均响应值;
    根据所述平均响应值对所述数量为多个的激活集群进行排序;
    根据排序的结果获得与所述行人属性的数量相同的激活集群,得到所述行人属性的定位结果。
  6. 根据权利要求3至5任一项所述的系统,其特征在于,所述弱监督训练为基于多个样本图片进行的训练;所述多个样本图片包括正样本图片与负样本图片,在所述正样本图片中所述行人属性被标注为存在,在所述负样本图片中所述行人属性被标注为不存在。
  7. 一种用于行人属性识别与定位的卷积神经网络系统,其特征在于,所述系统包括:特征提取模块、多尺度感知模块、属性识别模块,所述多尺度感知模块包括N个并行的卷积层和N个并行的灵活空间金字塔池化层,一个所述卷积层连接一个所述灵活空间金字塔池化层;所述特征提取模块与所述N个并行的卷积层通过N个支路进行连接;所述属性识别模块与N个并行的灵活空间金字塔池化层通过N个支路进行连接;其中:
    所述特征提取模块用于,对待检测图像进行N种不同抽象程度的特征提取,获得行人属性的N种第一特征映射图;并将所述N种第一特征映射图通过所述N个支路分别发送至所述N个并行的卷积层;
    所述多尺度感知模块用于,由所述N个支路中的每个支路对应的所述卷积层,对该卷积层所接收的所述第一特征映射图进行卷积,得到第二特征映射图;
    所述多尺度感知模块还用于,由所述每个支路对应的所述灵活空间金字塔池化层,将该灵活空间金字塔池化层所接收的所述第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到高维特征向量;其中,所述互有重叠的bin均匀地完全覆盖所述第二特征映射图;
    所述属性识别模块用于,将由所述N个支路得到的全部的高维特征向量进行整合和回归,得到低维向量,根据所述低维向量得到所述行人属性的识别结果。
  8. 根据权利要求7所述的系统,其特征在于,所述系统还包括属性定位模块,所述属性定位模块与所述多尺度感知模块通过N个支路进行连接;
    所述属性定位模块用于,根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量,得到所述行人属性的定位结果。
  9. 根据权利要求7或8所述的系统,其特征在于,每个卷积层包括多组卷积核;所述灵活空间金字塔池化层包括多个层级,每个层级包括数量不等的多个bin,所述每个层级中的多个bin互有重叠,均匀地完全覆盖所述第二特征映射图;
    所述多尺度感知模块用于,由每个支路对应的所述卷积层,对该卷积层所接收的所述第一特征映射图进行卷积,得到第二特征映射图,包括:所述多尺度感知模块用于,由所述每个卷积层的每组卷积核,对所接收的所述第一特征映射图进行卷积,得到第二特征映射图;
    将该灵活空间金字塔池化层所接收的所述第二特征映射图映射为多个互有重叠的区域bin,分别对每个bin进行最大池化,得到高维特征向量,包括:将由所述每组卷积核得到的所述第二特征映射图映射为所述数量不等的多个bin,分别对每个bin进行最大池化,得到所述每组卷积核对应的特征向量;将由所述多组卷积核得到的全部的所述特征向量整合为高维特征向量。
  10. 根据权利要求9所述的系统,其特征在于,所述卷积神经网络系统预先通过弱监督训练确定所述每组卷积核。
  11. 根据权利要求10所述的系统,其特征在于,所述卷积神经网络系统还预先通过所述弱监督训练确定每个第二特征映射图与所述每个bin的关联程度值;
    所述属性定位模块用于,根据由所述N个支路得到的全部的第二特征映射图和所述全部的高维特征向量,得到所述行人属性的定位结果,包括:
    所述属性定位模块用于,根据所述关联程度值和所述全部的高维特征向量,得到所述每个第二特征映射图在所述每个bin中的权重值;
    将N个支路的分别经所述权重值加权的第二特征映射图进行叠加,得到属性可能性分布图;所述属性可能性分布图表示所述行人属性在所述待检测图像中的响应值的分布;
    获取所述属性可能性分布图中所述响应值大于阈值的区域范围,对所述区域范围进行聚类处理,得到激活集群,基于所述激活集群得到所述行人属性的定位结果。
  12. 根据权利要求11所述的系统,其特征在于,在激活集群的数量为多个的情况下,所述属性定位模块用于基于所述激活集群得到所述行人属性的定位结果,包括:
    所述属性定位模块用于,确定在所述待检测图像中所述行人属性的数量;
    确定每个激活集群的平均响应值;
    根据所述平均响应值对所述数量为多个的激活集群进行排序;
    根据排序的结果获得与所述行人属性的数量相同的激活集群,得到所述行人属性的定位结果。
  13. 根据权利要求10至12任一项所述的系统,其特征在于,所述弱监督训练为基于多个样本图片进行的训练;所述多个样本图片包括正样本图片与负样本图片,在所述正样本图片中所述行人属性被标注为存在,在所述负样本图片中所述行人属性被标注为不存在。
  14. 一种存储计算机指令的可读非易失性存储介质,其特征在于,包括计算机指令,所述计算机指令被执行以实现权利要求1至6任一项描述的方法。
  15. 一种计算机程序产品,其特征在于,当计算机程序产品运行于计算机时,被执行以实现权利要求1至6任一项描述的方法。
PCT/CN2017/100430 2017-09-04 2017-09-04 行人属性识别与定位方法以及卷积神经网络系统 WO2019041360A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201780094559.7A CN111052126B (zh) 2017-09-04 2017-09-04 行人属性识别与定位方法以及卷积神经网络系统
PCT/CN2017/100430 WO2019041360A1 (zh) 2017-09-04 2017-09-04 行人属性识别与定位方法以及卷积神经网络系统
US16/809,270 US11574187B2 (en) 2017-09-04 2020-03-04 Pedestrian attribute identification and positioning method and convolutional neural network system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/100430 WO2019041360A1 (zh) 2017-09-04 2017-09-04 行人属性识别与定位方法以及卷积神经网络系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/809,270 Continuation US11574187B2 (en) 2017-09-04 2020-03-04 Pedestrian attribute identification and positioning method and convolutional neural network system

Publications (1)

Publication Number Publication Date
WO2019041360A1 true WO2019041360A1 (zh) 2019-03-07

Family

ID=65524759

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/100430 WO2019041360A1 (zh) 2017-09-04 2017-09-04 行人属性识别与定位方法以及卷积神经网络系统

Country Status (3)

Country Link
US (1) US11574187B2 (zh)
CN (1) CN111052126B (zh)
WO (1) WO2019041360A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046550A (zh) * 2019-03-14 2019-07-23 中山大学 基于多层特征学习的行人属性识别系统及方法
CN111178128A (zh) * 2019-11-22 2020-05-19 北京迈格威科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN111523403A (zh) * 2020-04-03 2020-08-11 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111783619A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人体属性的识别方法、装置、设备及存储介质
CN112258561A (zh) * 2019-07-22 2021-01-22 复旦大学 针对图像拼接的匹配点获取方法
WO2022227772A1 (zh) * 2021-04-27 2022-11-03 北京百度网讯科技有限公司 人体属性检测模型的训练方法、装置、电子设备及介质

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592742B1 (en) * 2015-09-28 2020-03-17 Amazon Technologies, Inc. Agent re-identification
EP3566177A1 (en) * 2017-02-03 2019-11-13 Siemens Aktiengesellschaft A method and apparatus for detecting objects of interest in images
WO2019076467A1 (en) * 2017-10-20 2019-04-25 Toyota Motor Europe METHOD AND SYSTEM FOR PROCESSING IMAGE AND DETERMINING POINTS OF VIEW OF OBJECTS
CN109344840B (zh) * 2018-08-07 2022-04-01 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、存储介质、程序产品
EP3896647A4 (en) * 2018-12-14 2022-01-26 FUJIFILM Corporation MINI-BATCH LEARNING DEVICE, OPERATING PROGRAM FOR MINI-BATCH LEARNING DEVICE, OPERATING METHOD FOR MINI-BATCH LEARNING DEVICE, AND IMAGE PROCESSING DEVICE
US10956778B2 (en) * 2019-03-05 2021-03-23 International Business Machines Corporation Multi-level deep feature and multi-matcher fusion for improved image recognition
US11113838B2 (en) * 2019-03-26 2021-09-07 Nec Corporation Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
CN110647826B (zh) * 2019-09-05 2022-04-29 北京百度网讯科技有限公司 商品训练图片的获取方法、装置、计算机设备和存储介质
US11783587B2 (en) * 2020-03-04 2023-10-10 Nec Corporation Deep learning tattoo match system based
CN111723872B (zh) * 2020-06-24 2023-04-07 浙江大华技术股份有限公司 行人属性识别方法及装置、存储介质、电子装置
US10885387B1 (en) * 2020-08-04 2021-01-05 SUPERB Al CO., LTD. Methods for training auto-labeling device and performing auto-labeling by using hybrid classification and devices using the same
US10902291B1 (en) * 2020-08-04 2021-01-26 Superb Ai Co., Ltd. Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same
CN112016490B (zh) * 2020-08-28 2022-08-02 中国科学院重庆绿色智能技术研究院 基于生成对抗学习的行人属性识别方法
CN112446340B (zh) * 2020-12-07 2024-06-28 深圳市信义科技有限公司 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质
CN112749678A (zh) * 2021-01-22 2021-05-04 北京百度网讯科技有限公司 模型训练、矿产预测方法、装置、设备以及存储介质
CN112926427A (zh) * 2021-02-18 2021-06-08 浙江智慧视频安防创新中心有限公司 一种目标用户着装属性识别方法及装置
CN115147860A (zh) * 2021-03-30 2022-10-04 中国移动通信有限公司研究院 一种行人属性识别方法及装置
CN113159144B (zh) * 2021-04-06 2023-06-16 新疆爱华盈通信息技术有限公司 行人属性分类方法、装置、电子设备及存储介质
CN113065568A (zh) * 2021-04-09 2021-07-02 神思电子技术股份有限公司 目标检测、属性识别与跟踪方法及系统
CN113239820B (zh) * 2021-05-18 2023-06-27 中国科学院自动化研究所 基于属性定位与关联的行人属性识别方法及系统
CN113326754A (zh) * 2021-05-21 2021-08-31 深圳市安软慧视科技有限公司 基于卷积神经网络的吸烟行为检测方法、系统及相关设备
CN113420149A (zh) * 2021-06-30 2021-09-21 北京百度网讯科技有限公司 数据的标注方法和装置
CN113673328B (zh) * 2021-07-14 2023-08-18 南京邮电大学 一种基于特征聚合网络的人群区域监控方法
WO2023082196A1 (zh) * 2021-11-12 2023-05-19 京东方科技集团股份有限公司 行人属性识别系统及其训练方法、行人属性识别方法
CN114360009B (zh) * 2021-12-23 2023-07-18 电子科技大学长三角研究院(湖州) 一种复杂场景下的多尺度特征人脸属性识别系统及其方法
CN114239754B (zh) * 2022-02-24 2022-05-03 中国科学院自动化研究所 基于属性特征学习解耦的行人属性识别方法及系统
CN115331262A (zh) * 2022-09-06 2022-11-11 通号通信信息集团有限公司 图像识别方法和装置
CN116844026A (zh) * 2023-07-04 2023-10-03 广州广电运通金融电子股份有限公司 行人图像质量评价模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130301911A1 (en) * 2012-05-08 2013-11-14 Samsung Electronics Co., Ltd Apparatus and method for detecting body parts
CN105956560A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种基于池化多尺度深度卷积特征的车型识别方法
CN106845415A (zh) * 2017-01-23 2017-06-13 中国石油大学(华东) 一种基于深度学习的行人精细化识别方法及装置
CN106960243A (zh) * 2017-03-06 2017-07-18 中南大学 一种改进卷积神经网络结构的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
JP5742873B2 (ja) * 2013-05-08 2015-07-01 株式会社デンソー 物体識別装置
JP6325405B2 (ja) * 2014-09-22 2018-05-16 株式会社東芝 特徴点検出装置、方法及びプログラム
CN107003834B (zh) * 2014-12-15 2018-07-06 北京市商汤科技开发有限公司 行人检测设备和方法
PL411602A1 (pl) * 2015-03-17 2016-09-26 Politechnika Poznańska System do estymacji ruchu na obrazie wideo i sposób estymacji ruchu na obrazie wideo
CN104992142B (zh) * 2015-06-03 2018-04-17 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
CN105975931B (zh) * 2016-05-04 2019-06-14 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法
JP6617651B2 (ja) * 2016-07-07 2019-12-11 株式会社デンソー 歩行者検出装置、歩行者検出方法
US10467459B2 (en) * 2016-09-09 2019-11-05 Microsoft Technology Licensing, Llc Object detection based on joint feature extraction
US10296794B2 (en) * 2016-12-20 2019-05-21 Jayant Rtti On-demand artificial intelligence and roadway stewardship system
CN106951872B (zh) * 2017-03-24 2020-11-06 江苏大学 一种基于无监督深度模型与层次属性的行人再识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130301911A1 (en) * 2012-05-08 2013-11-14 Samsung Electronics Co., Ltd Apparatus and method for detecting body parts
CN105956560A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种基于池化多尺度深度卷积特征的车型识别方法
CN106845415A (zh) * 2017-01-23 2017-06-13 中国石油大学(华东) 一种基于深度学习的行人精细化识别方法及装置
CN106960243A (zh) * 2017-03-06 2017-07-18 中南大学 一种改进卷积神经网络结构的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046550A (zh) * 2019-03-14 2019-07-23 中山大学 基于多层特征学习的行人属性识别系统及方法
CN110046550B (zh) * 2019-03-14 2021-07-13 中山大学 基于多层特征学习的行人属性识别系统及方法
CN112258561A (zh) * 2019-07-22 2021-01-22 复旦大学 针对图像拼接的匹配点获取方法
CN112258561B (zh) * 2019-07-22 2023-08-25 复旦大学 针对图像拼接的匹配点获取方法
CN111178128A (zh) * 2019-11-22 2020-05-19 北京迈格威科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN111523403A (zh) * 2020-04-03 2020-08-11 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111523403B (zh) * 2020-04-03 2023-10-20 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111783619A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人体属性的识别方法、装置、设备及存储介质
CN111783619B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 人体属性的识别方法、装置、设备及存储介质
WO2022227772A1 (zh) * 2021-04-27 2022-11-03 北京百度网讯科技有限公司 人体属性检测模型的训练方法、装置、电子设备及介质

Also Published As

Publication number Publication date
US11574187B2 (en) 2023-02-07
CN111052126B (zh) 2024-06-04
CN111052126A (zh) 2020-04-21
US20200272902A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
WO2019041360A1 (zh) 行人属性识别与定位方法以及卷积神经网络系统
CN110298262B (zh) 物体识别方法及装置
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
Chen et al. Detecting citrus in orchard environment by using improved YOLOv4
US9460518B2 (en) Visual clothing retrieval
Ahmad et al. Endoscopic image classification and retrieval using clustered convolutional features
US20120275701A1 (en) Identifying high saliency regions in digital images
CN108596195B (zh) 一种基于稀疏编码特征提取的场景识别方法
Zou et al. A segmentation network for smart weed management in wheat fields
Albattah et al. Custom CornerNet: a drone-based improved deep learning technique for large-scale multiclass pest localization and classification
Liu et al. Study of human action recognition based on improved spatio-temporal features
Vayssade et al. Pixelwise instance segmentation of leaves in dense foliage
Hayıt et al. The classification of wheat yellow rust disease based on a combination of textural and deep features
Ahmed et al. Symmetric image contents analysis and retrieval using decimation, pattern analysis, orientation, and features fusion
Shuai et al. An improved YOLOv5-based method for multi-species tea shoot detection and picking point location in complex backgrounds
Conrady et al. Automated detection and classification of southern African Roman seabream using mask R-CNN
Kumar et al. Drone-based apple detection: Finding the depth of apples using YOLOv7 architecture with multi-head attention mechanism
Chicchon et al. Semantic segmentation of fish and underwater environments using deep convolutional neural networks and learned active contours
SANJU et al. An automated detection and classification of plant diseases from the leaves using image processing and machine learning techniques: A state-of-the-art review
Chirgaiya et al. Tiny object detection model based on competitive multi-layer neural network (TOD-CMLNN)
CN113449550A (zh) 人体重识别数据处理的方法、人体重识别的方法和装置
Hu et al. Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard
Jian et al. Robust seed selection of foreground and background priors based on directional blocks for saliency-detection system
CN116129150A (zh) 集成全局跟踪器和局部跟踪器的无人机目标跟踪方法
CN114037737B (zh) 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17923713

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17923713

Country of ref document: EP

Kind code of ref document: A1