WO2018076130A1 - 物体识别模型的建立方法及物体识别方法 - Google Patents

物体识别模型的建立方法及物体识别方法 Download PDF

Info

Publication number
WO2018076130A1
WO2018076130A1 PCT/CN2016/103019 CN2016103019W WO2018076130A1 WO 2018076130 A1 WO2018076130 A1 WO 2018076130A1 CN 2016103019 W CN2016103019 W CN 2016103019W WO 2018076130 A1 WO2018076130 A1 WO 2018076130A1
Authority
WO
WIPO (PCT)
Prior art keywords
component
input image
structural
gradient
object recognition
Prior art date
Application number
PCT/CN2016/103019
Other languages
English (en)
French (fr)
Inventor
黄凯奇
刘康伟
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Priority to PCT/CN2016/103019 priority Critical patent/WO2018076130A1/zh
Publication of WO2018076130A1 publication Critical patent/WO2018076130A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • Embodiments of the present invention relate to the field of pattern recognition, machine learning, and computer vision technologies, and in particular, to a method for establishing an object recognition model and an object recognition method.
  • Object recognition is a classic problem in computer vision tasks, and it is also the core problem to solve many high-level visual tasks.
  • the research of object recognition lays the foundation for the solution of high-level visual tasks (such as behavior recognition, scene understanding, etc.). It has a wide range of applications in people's daily life and industrial production, such as: intelligent video surveillance, car-assisted driving, unmanned driving, biometric identity authentication, intelligent transportation, Internet image retrieval, virtual reality and human-computer interaction. .
  • a method for establishing an object recognition model and an object recognition method based on the establishment method are provided in order to solve the technical problem of complex elastic deformation, posture change and visual change of an object in a visual task.
  • a method for establishing an object recognition model comprising:
  • the gradient back propagation algorithm is used to learn the structural parameters, the gradient is solved, and the random gradient descent algorithm is used for learning and training to obtain the object recognition model.
  • the extracting the depth feature of the input image may specifically include:
  • the depth features of the input image are extracted using a convolutional layer and a pooled layer of a convolutional neural network model.
  • the structural modeling of the object in the input image based on the random field structure model, and obtaining the structured expression of the object may specifically include:
  • the average field algorithm is used to infer the random field structure model to obtain the structured expression of the object.
  • performing a component convolution operation on the depth feature of the input image, and obtaining an apparent representation of each component of the object in the input image may specifically include:
  • a component filter of each component of the object is convolved within the component filter deformation region according to the following formula to obtain the apparent representation of each component of the object in the input image:
  • i denotes the number of parts of the object
  • H represents the network layer input features
  • W i represents the weight of the i th filter weight member
  • p i denotes the i-th member of the filter the initial position of the device
  • said D i represents the i-th filter deformation member
  • said ⁇ (H, p i, d i) represents the response p i + D i at the input
  • said Z i (d i ) represents the fraction of the component in response position.
  • the structural pooling operation is performed on the apparent representation of each component of the object, and determining the optimal position of each component of the object may specifically include:
  • the deformation structure loss between the components of the object is determined according to the following formula:
  • the u(d i , d j ) represents a connection weight between the i-th and j-th components;
  • the f i represents a feature vector of the i-th component; and the f j represents the j-th a feature vector of the components;
  • the k (m) ( ⁇ ) represents a Gaussian function acting on the feature space;
  • the M represents the number of the Gaussian functions;
  • the w (m) represents the mth Gaussian function Weight, in which the Gaussian kernel is
  • the ⁇ represents a coefficient that controls the strength of the connection relationship; Denoting a deformation structure loss between the i-th and the j-th member;
  • E(d) represents the energy function
  • the based on the optimal position of each component of the object, using the average field algorithm to infer the random field structure model, and obtaining the structured expression of the object may specifically include:
  • a structured representation of the object is obtained according to the following formula:
  • the gradient back propagation algorithm is used to learn the structural parameters, the gradient is solved, and the random gradient descent algorithm is used for learning and training, and the object recognition model may specifically include:
  • the L represents a final loss of the object recognition model
  • the y i represents a structural network layer output of the i-th component
  • the gradient of the structural network layer with respect to w (m) is determined according to the following formula:
  • the structure of the network layer based on the gradient and gradient structure of the network layer W i with respect to w (m), the use of stochastic gradient descent learning algorithm and training end, to give the object recognition model.
  • An object recognition method based on the above establishment method comprising:
  • the object recognition model established by the above establishment method identifies the image to be tested to predict a category of the object in the image to be tested.
  • Embodiments of the present invention provide a method for establishing an object recognition model and an object recognition method.
  • the method for establishing the object recognition model comprises: acquiring an input image; extracting a depth feature of the input image; performing structural modeling on the object in the input image based on the random field structure model to obtain a structured expression of the object; and the structure based on the object
  • the expression is extended by the gradient back propagation algorithm, the gradient is solved, and the stochastic gradient descent algorithm is used to learn and train to obtain the object recognition model. It can be seen that the embodiment of the present invention combines at the same time
  • the respective advantages of deep learning and structural model improve the structural expression ability of the deep network model, and solve the technical problems of complex elastic deformation, attitude change and visual change of objects in visual tasks.
  • Embodiments of the present invention can be applied to numerous fields involving object recognition such as object classification, object detection, face recognition, and the like.
  • FIG. 1 is a schematic flow chart of a method for establishing an object recognition model according to an embodiment of the present invention
  • FIG. 2 is a schematic flow chart of an object recognition method according to an embodiment of the present invention.
  • FIG. 3 is a schematic flow chart of an object recognition method according to another embodiment of the present invention.
  • the core idea of the embodiment of the present invention is to propose a new structural network layer in the deep learning algorithm, and use the average field algorithm to perform rapid structural reasoning, and use a structural network layer to model the internal structural attributes of the object, thereby expressing Different apparent changes of the object, and end-to-end training of the deep structure model by using the deep learning algorithm, thereby learning effective structural parameters, and finally obtaining the structural expression of the object.
  • Embodiments of the present invention provide a method for establishing an object recognition model.
  • the method can include:
  • the input image may be an entire image, or may be an area of interest (image area) in which an object may exist in the entire image.
  • image area image area
  • the entire image is the input image.
  • object detection task the input image is an area of interest in the image where a target may exist.
  • this step extracts the depth features of the input image by using the convolutional layer and the pooling layer of the convolutional neural network model.
  • Embodiments of the invention use depth features as an apparent representation of the input image.
  • S120 Perform structural modeling on the object in the input image based on the random field structure model to obtain a structured expression of the object.
  • the network layer of the object recognition model is structurally modeled to establish a structural network layer.
  • the fabric network layer includes component convolution operations and structure pooling operations. Among them, the component convolution operation and the structure pooling operation can be regarded as the apparent feature expression layer of the object and the visual structure expression layer of the object, respectively.
  • this step may include:
  • S121 Perform a component convolution operation on the depth feature of the input image to obtain an apparent representation of each component of the object in the input image.
  • the component convolution operation utilizes different component filters to model the different local regions of the object. Specifically, the object is described using a plurality of component filters, and the convolution response of the component filter in its deformed region is treated as an apparent feature representation of the object.
  • the component filter convolves the object in a certain deformation region, and takes the convolution response as the apparent feature (ie, appearance expression) of the object in the image to be tested.
  • the convolution response of the component filter in the deformed region is the representation of the component model within its region.
  • the depth feature of the image is input into the structural network layer, and the structural network layer is used to model the intrinsic structural properties of the object, and the different apparent changes of the object are expressed, and then the component filter is used to convolve in the deformed region, and the convolution is performed. Respond to the apparent representation of the various components of the object.
  • this step can convolve the component filters representing different parts of the object in the deformation region of the component filter according to the following formula, thereby obtaining an apparent expression of each component of the object in the input image:
  • i denotes the number of object parts
  • H denotes the input characteristics of the structural network layer
  • W i denotes the weight of the i-th component filter
  • p i denotes the initial position of the i-th component filter
  • d i denotes the i-th component
  • the amount of deformation of the filter ⁇ (H, p i , d i ) represents the input response at p i + d i
  • z i (d i ) represents the fraction of the component at the response position.
  • S122 Perform a structure pooling operation on the apparent representation of each component of the object to determine an optimal position of each component of the object.
  • the embodiment of the invention takes a structural pooling operation.
  • the apparent expression of each component obtained by the component convolution operation is input into the structure pooling layer, and the object is structurally expressed.
  • the structure pooling operation models the structural relationship between the object parts and infers the optimal position of each part of the object.
  • a fully connected second-order random field model models the relationship between object parts.
  • the potential energy loss between adjacent components is a Gaussian loss function.
  • this step can be implemented in the following manner:
  • z i (d i ) represents the fraction of the component filter at the response position; Indicates the deformation structure loss between the i-th and j-th parts; E(d) represents the energy function.
  • the mean field algorithm converts the fully connected Gaussian conditional random field inference problem into a Gaussian kernel convolution process.
  • the step of the average field algorithm may include, for example, applying a softmax function to the first-order potential energy term of all nodes; performing message delivery, convolving the Gaussian kernel on the probability distribution of the random field model; performing Gaussian filter weighted output Considering the deformation information between the nodes, perform second-order term conversion; increase the first-order term of each node; perform normalization operation, and perform softmax operation on each node.
  • this step can obtain a structured expression of the object according to the following formula:
  • the structural information of the object is modeled, and the obtained structural expression takes into consideration the apparent characteristics of the object component, and at the same time considers the structural relationship between the components, thereby obtaining the final structural output of the network layer.
  • this step can be realized in the following ways:
  • the network layer determines the gradient structure on W i according to the following formula:
  • i denotes the number of object parts
  • H denotes the input characteristic of the structural network layer
  • p i denotes the initial position of the i-th component filter
  • d i denotes the deformation amount of the i-th component filter
  • L denotes the object recognition model
  • Final loss Representing the final loss L and the partial derivative of the structural network layer output y i to W i respectively
  • W i represents the weight of the i-th component filter
  • y i represents the structural output of the i-th component
  • ⁇ (H, p i , d i ) represents the input response at p i +d i .
  • w (m) represents the weight of the mth Gaussian function
  • y i represents the structural output of the i-th component
  • u(d i , d j ) represents the connection weight between the i-th and j-th components
  • f i represents the feature vector of the i-th component
  • f j represents the feature vector of the j-th component
  • k (m) ( ⁇ ) represents the feature Gaussian function on space.
  • the embodiment of the present invention may replace the last layer of the convolutional neural network layer and the pooling layer with the structural network layer obtained through steps S131 to S133, and perform training by using a random gradient descent algorithm to obtain an object recognition model.
  • the embodiment of the invention combines the respective advantages of the deep learning and the structural model, and uses the structural network layer to model the intrinsic structural properties of the object, thereby expressing different apparent changes of the object, and using the deep learning algorithm to end the deep structural model. End-to-end training to learn effective structural parameters while improving the structural expression capabilities of deep network models.
  • the object recognition model obtained by the embodiment of the invention has stronger object expression ability than the traditional convolutional neural network model, and can obtain better classification results in the object classification task.
  • an embodiment of the present invention further provides an object recognition method based on the foregoing establishment method. As shown in FIG. 2, the method may include:
  • S210 Identify an image to be measured by using the object recognition model established by the method for establishing an object recognition model to predict a category of an object in the image to be tested.
  • the embodiment of the present invention solves the technical problem of complex elastic deformation, posture change and visual change of an object in a visual task by adopting the above technical solution.
  • Step S301 Acquire an input image.
  • the input image may be an entire image, or may be an area of interest (image area) in which an object may exist in the entire image.
  • image area image area
  • the entire image is the input image.
  • object detection task the input image is an area of interest in the image where a target may exist.
  • the annotation data of the object is known, for example: The category of the object contained in the image in the class task, the type of the object in the task, and the location of the object.
  • Step S302 Preprocessing the input image.
  • This step normalizes the input image (ie the entire image or image area) to a uniform size, such as 256 x 256, minus the mean image, and then enters it into the deep structure network to be trained.
  • the mean image refers to the result obtained by averaging the RGB values of each image normalized to a uniform size on each pixel.
  • Step S303 Extracting the depth feature of the preprocessed image.
  • the convolutional layer and the pooling layer of the convolutional neural network model are used to extract the pre-processed image as an apparent representation of the image.
  • Step S304 Perform a component convolution operation on the extracted depth features to obtain an apparent representation of each component of the object.
  • the depth feature of the image is input into the structural network layer, and then the component filter is used to convolve in the deformed region, and the convolution response is expressed as an apparent representation of each component of the object.
  • Step S305 Perform a structure pooling operation on the apparent representation of each component of the object.
  • the apparent expression of each component obtained by the component convolution operation is input into the structure pooling layer, and the structure is expressed by using the modeled structural model, and the average position model is used to quickly infer the optimal position of each component of the object. Finally, the output of the structural network layer is obtained.
  • Step S306 Based on the parameter training of the deep learning, the deep structure network model is obtained.
  • This step uses the chain rule to solve the parameter gradient of the structural network layer, and uses the stochastic gradient descent algorithm to train the parameters in the deep structure network model.
  • Step S307 Identify the objects in the test image by using the deep structure network model.
  • Embodiments of the present invention can be applied to numerous fields involving object recognition such as object classification, object detection, face recognition, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。通过本发明实施例,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题,提高了深度网络模型的结构表达能力。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。

Description

物体识别模型的建立方法及物体识别方法 技术领域
本发明实施例涉及模式识别、机器学习及计算机视觉技术领域,具体涉及一种物体识别模型的建立方法及物体识别方法。
背景技术
进入二十一世纪以来,随着互联网技术的快速发展,以及手机、相机、个人电脑的普及,图像数据呈现出爆炸式增长。Google+推出100天就上传了34亿张图片,而著名的社交网站Facebook的图片数据更是超过了100亿。另一方面,随着建设平安城市的需要,监控摄像头的数量越来越多,据不完全统计,仅北京市的监控摄像头数量就超过了40万个,而全国的监控摄像头数量更是达到2000多万,并仍以每年20%的数量增长。如此大规模的数据远远超出了人类的分析处理能力。因此,智能地处理这些图像和视频数据成为迫切需要。在这种背景下,如何利用计算机视觉技术自动、智能地分析理解图像数据受到人们的广泛关注。
物体识别是计算机视觉任务中的经典问题,同时也是解决很多高层视觉任务的核心问题,物体识别的研究为高层视觉任务(例如:行为识别、场景理解等)的解决奠定了基础。它在人们的日常生活中以及工业生产中有着广泛的应用,如:智能视频监控、汽车辅助驾驶、无人车驾驶、生物信息身份认证、智能交通、互联网图像检索、虚拟现实以及人机交互等。
近几十年来,随着大量统计机器学习算法在人工智能和计算机视觉领域的成功应用,计算机视觉技术有了突飞猛进的进步。尤其是近年来,大数据时代的到来为视觉任务提供了更加丰富的海量图像数据,高性能计算设备的发展给大数据计算提供了硬件支持,大量成功的计算机视觉算法不断地涌现出来。尽管如此,计算机视觉技术与人的视觉认知能力仍存在很大的差距,尤其是在物体识别任务中仍存在很大量的挑战和难题。这主要是由于真实图像中的物体往往存在复杂的弹性变形、姿态变化、以及拍摄视角变化等问题。这使得物体的表观差异非常大,因此,传统的机器学习算法很难处理这些含有复杂形变的图像样本。
有鉴于此,特提出本发明。
发明内容
为了解决现有技术中的上述问题,即为了解决视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题而提供一种物体识别模型的建立方法及基于该建立方法的物体识别方法。
为了实现上述目的,提供以下技术方案:
一种物体识别模型的建立方法,其特征在于,所述方法包括:
获取输入图像;
提取所述输入图像的深度特征;
基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;
基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。
进一步地,所述提取所述输入图像的深度特征具体可以包括:
利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。
进一步地,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达具体可以包括:
对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;
对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;
基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。
进一步地,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达具体可以包括:
根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:
zi(di)=Wi·φ(H,pi,di);
其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。
进一步地,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置具体可以包括:
根据以下公式确定所述物体各部件之间的变形结构损失:
Figure PCTCN2016103019-appb-000001
其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所述高斯函数的个数;所述w(m)表示第m个高斯函数的权重,其中高斯核为
Figure PCTCN2016103019-appb-000002
所述σ表示控制连接关系强弱的系数;所述
Figure PCTCN2016103019-appb-000003
表示所述第i和所述第j个部件之间的变形结构损失;
最小化以下能量函数,从而确定所述物体各部件的最优位置:
Figure PCTCN2016103019-appb-000004
其中,E(d)表示能量函数。
进一步地,所述基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达具体可以包括:
根据以下公式获得所述物体的结构化表达:
Figure PCTCN2016103019-appb-000005
其中,所述
Figure PCTCN2016103019-appb-000006
表示推理得到的所述第i个部件的最优位置;所述
Figure PCTCN2016103019-appb-000007
表示推理得到的所述第j个部件的最优位置;所述yi表示所述第i个部件的结构网络层的输出;
Figure PCTCN2016103019-appb-000008
表示第i个部件的节点的集合。
进一步地,所述基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型具体可以包括:
根据以下公式确定结构网络层关于Wi的梯度:
Figure PCTCN2016103019-appb-000009
其中,所述L表示所述物体识别模型的最终损失;所述yi表示所述第i个部件的结构网络层输出;所述
Figure PCTCN2016103019-appb-000010
所述
Figure PCTCN2016103019-appb-000011
分别表示所述最终损失L和所述结构网络层输出yi对Wi的偏导;
根据以下公式确定所述结构网络层关于w(m)的梯度:
Figure PCTCN2016103019-appb-000012
其中,所述
Figure PCTCN2016103019-appb-000013
所述
Figure PCTCN2016103019-appb-000014
分别表示所述最终损失L和所述结构网络层输出yi对w(m)的偏导;所述w(m)表示第m个高斯函数的权重;
基于所述结构网络层关于Wi的梯度和所述结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到所述物体识别模型。
为了实现上述目的,还提供以下技术方案:
一种基于上述建立方法的物体识别方法,所述物体识别方法包括:
获取待测图像;
利用上述建立方法建立的物体识别模型对所述待测图像进行识别,以预测所述待测图像中物体的类别。
本发明实施例提供一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。从中可见,本发明实施例同时结合了 深度学习和结构模型的各自优势,提高了深度网络模型的结构表达能力,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。
附图说明
图1为根据本发明实施例的物体识别模型的建立方法的流程示意图;
图2为根据本发明实施例的物体识别方法的流程示意图;
图3为根据本发明另一实施例的物体识别方法的流程示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明实施例的核心思想是在深度学习算法中提出一个新的结构网络层,并利用平均场算法对其进行快速结构推理,利用一种结构网络层来建模物体的内在结构属性,从而表达物体的不同表观变化,并利用深度学习算法对该深度结构模型进行端到端的训练,从而学习到有效的结构参数,最后获得物体的结构表达。
本发明实施例提供一种物体识别模型的建立方法。该方法可以包括:
S100:获取输入图像。
其中,该输入图像就可以是整幅图像,也可以是整幅图像中可能存在目标的感兴趣区域(图像区域)。例如:在图像分类任务中,整幅图像即为输入图像。在物体检测任务中,输入图像为图像中可能存在目标的感兴趣区域。
S110:提取输入图像的深度特征。
具体地,本步骤利用卷积神经网络模型的卷积层和池化层,提取输入图像的深度特征。
本发明实施例将深度特征作为输入图像的表观表达。
S120:基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达。
本步骤对物体识别模型的网络层进行结构化建模,建立一种结构网络层。该结构网络层包括部件卷积操作和结构池化操作。其中,部件卷积操作和结构池化操作可以分别看成是物体的表观特征表达层与物体的视觉结构表达层。
具体地,本步骤可以包括:
S121:对输入图像的深度特征进行部件卷积操作,得到输入图像中物体各个部件的表观表达。
部件卷积操作利用不同的部件滤波器来对物体不同的局部区域进行表观建模。具体地,利用多个部件滤波器对物体进行描述,并将部件滤波器在其变形区域内的卷积响应当作是物体的表观特征表达。
例如:假设物体的部件在一定的区域附近变形,部件滤波器在一定的变形区域内对物体做卷积,并将卷积响应作为待测图像中物体的表观特征(也即外观表达)。部件滤波器在变形区域内的卷积响应就是该部件模型在其区域内的表达。
本步骤将图像的深度特征输入结构网络层,利用结构网络层来建模物体的内在结构属性,表达物体的不同表观变化,然后利用部件滤波器在其变形区域内卷积,并将卷积响应作为物体各个部件的表观表达。
在实际应用中,本步骤可以根据以下公式将代表物体不同部件的部件滤波器在部件滤波器变形区域内进行卷积,从而得到输入图像中物体各个部件的表观表达:
zi(di)=Wi·φ(H,pi,di);
其中,i表示物体部件个数;H表示结构网络层的输入特征;Wi表示第i个部件滤波器的权重;pi表示第i个部件滤波器的初始位置;di表示第i个部件滤波器的变形量;φ(H,pi,di)表示在pi+di处的输入响应;zi(di)表示部件在响应位置的分数。
S122:对物体各个部件的表观表达进行结构池化操作,确定物体各部件的最优位置。
为了推理出物体各个部件的最优位置,本发明实施例采取结构池化操作。本步骤将部件卷积操作得到的各个部件的表观表达输入结构池化层,对物体进行结构表达。
其中,结构池化操作对物体部件之间的结构关系进行建模,并推理物体各部件的最优位置。例如:全连接的二阶随机场模型对物体部件之间的关系之间建模。相邻部件之间的损失势能是一个高斯损失函数。
在一些可选的实施方式中,本步骤可以通过以下方式来实现:
S1221:根据以下公式确定物体各部件之间的变形结构损失:
Figure PCTCN2016103019-appb-000015
其中,i和j表示物体部件个数;di表示第i个部件滤波器的变形量;dj表示第j个部件滤波器的变形量;u(di,dj)表示第i和第j个部件之间的连接权重;fi表示第i个部件的特征矢量;fj表示第j个部件的特征矢量;k(m)(·)表示作用在特征空间上的高斯函数;w(m)表示第m个高斯函数的权重,高斯核为
Figure PCTCN2016103019-appb-000016
σ表示控制连接关系强弱的系数;M表示高斯函数的个数。
部件i和部件j的参考位置距离越近,则两个部件之间的联系越强,反之越弱。
S1222:最小化以下能量函数,从而确定物体各部件的最优位置:
Figure PCTCN2016103019-appb-000017
其中,zi(di)表示部件滤波器在响应位置的分数;
Figure PCTCN2016103019-appb-000018
表示第i和第j个部件之间的变形结构损失;E(d)表示能量函数。
在实际应用中,在随机场模型中,最小化E(d)的求解可以等价于最小化吉布斯能量函数。
S123:基于物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得物体的结构化表达。
在本步骤中,平均场算法将全连接的高斯条件随机场的推理问题转化为高斯核卷积过程。其中,平均场算法的步骤例如可以包括:将softmax函数作用在所有节点的一阶势能项上;进行消息传递,用高斯核在随机场模型的概率分布上进行卷积;进行高斯滤波器加权输出;考虑节点之间的变形信息,进行二阶项转换;增加各自节点的一阶项;进行归一化操作,对每个节点进行软最大化(softmax)操作。
具体地,本步骤可以根据以下公式获得物体的结构化表达:
Figure PCTCN2016103019-appb-000019
其中,
Figure PCTCN2016103019-appb-000020
表示推理得到的第i个部件的最优位置;
Figure PCTCN2016103019-appb-000021
表示推理得到的第j个部件的最优位置;yi表示第i个部件的结构网络层的输出;
Figure PCTCN2016103019-appb-000022
表示第i个部件的节点的集合。
本步骤对物体的结构信息进行建模,得到的结构表达同时考虑了物体部件的表观特征,同时又考虑了部件之间的结构关系,从而得到网络层的最终结构输出。
S130:基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。
其中,本步骤可以通过以下方式来现实:
S131:根据以下公式确定结构网络层关于Wi的梯度:
Figure PCTCN2016103019-appb-000023
其中,i表示物体部件个数;H表示结构网络层的输入特征;pi表示第i个部件滤波器的初始位置;di表示第i个部件滤波器的变形量;L表示物体识别模型的最终损失;
Figure PCTCN2016103019-appb-000024
分别表示最终损失L和结构网络层输出yi对Wi的偏导;Wi表示第i个部件滤波器的权重;yi表示第i个部件的结构输出;φ(H,pi,di)表示在pi+di处的输入响应。
S132:根据以下公式确定结构网络层关于w(m)的梯度:
Figure PCTCN2016103019-appb-000025
其中,
Figure PCTCN2016103019-appb-000026
分别表示最终损失L和结构网络层输出yi对w(m)的偏导;w(m)表示第m个高斯函数的权重;yi表示第i个部件的结构输出;u(di,dj)表示第i和第j个部件之间的连接权重;fi表示第i个部件的特征矢量;fj表示第j个部件的特征矢量;k(m)(·)表示作用在特征空间上的高斯函数。
S133:基于结构网络层关于Wi的梯度和结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到物体识别模型。
作为示例,本发明实施例可以将最后一层卷积神经网络层和池化层用经过步骤S131至步骤S133得到的结构网络层代换,并用随机梯度下降算法进行训练,从而得到物体识别模型。
本发明实施例同时结合了深度学习和结构模型的各自优势,利用结构网络层来建模物体的内在结构属性,从而表达物体的不同表观变化,并利用深度学习算法对该深度结构模型进行端到端的训练,从而学习到有效的结构参数,同时提高了深度网络模型的结构表达能力。本发明实施例得到的物体识别模型比传统的卷积神经网络模型具有更强的物体表达能力,在物体分类任务中能取得更好的分类结果。
此外,本发明实施例还提供一种基于上述建立方法的物体识别方法。如图2所示,该方法可以包括:
S200:获取待测图像。
S210:利用上述物体识别模型的建立方法所建立的物体识别模型对待测图像进行识别,以预测待测图像中物体的类别。
本发明实施例通过采用上述技术方案,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题。
如图3所示,下面以一优选的实施例来更好地说明本发明。
步骤S301:获取输入图像。
其中,该输入图像就可以是整幅图像,也可以是整幅图像中可能存在目标的感兴趣区域(图像区域)。例如:在图像分类任务中,整幅图像即为输入图像。在物体检测任务中,输入图像为图像中可能存在目标的感兴趣区域。在训练过程中,物体的标注数据已知,例如:分 类任务中图像中所包含物体的类别,检测任务中物体的类别以及所在的位置。
步骤S302:对输入图像进行预处理。
本步骤将输入图像(即整幅图像或图像区域)归一化到统一大小,比如256×256,并减去均值图像,然后将其输入要训练的深度结构网络。其中,均值图像指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均所得到的结果。
步骤S303:提取预处理后图像的深度特征。
本步骤利用卷积神经网络模型的卷积层和池化层对预处理后的图像进行提取特征,作为图像的表观表达。
步骤S304:对提取的深度特征进行部件卷积操作,得到物体各个部件的表观表达。
本步骤将图像的深度特征输入结构网络层,然后利用部件滤波器在其变形区域内卷积,并将卷积响应作为物体各个部件的表观表达。
步骤S305:对物体各个部件的表观表达进行结构池化操作。
本步骤将部件卷积操作得到的各个部件的表观表达输入结构池化层,利用建模好的结构模型对物体进行结构表达,并利用平均场模型对物体各个部件的最优位置进行快速推理,最终获得结构网络层的输出。
步骤S306:基于深度学习的参数训练,得到深度结构网络模型。
本步骤利用链式法则求解结构网络层的参数梯度,并利用随机梯度下降算法对深度结构网络模型中的参数进行训练。
步骤S307:利用深度结构网络模型对待测试图像中的物体进行识别。
本步骤将结构网络层的响应输入到全连接层,并最终得到物体类别的预测,从而得到物体识别结果。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。
需要说明的是,对一个实施例的说明可以应用于另一个实施例,在此不再赘述。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果, 不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围并不局限于此。在不偏离本发明的原理的前提下,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

  1. 一种物体识别模型的建立方法,其特征在于,所述方法包括:
    获取输入图像;
    提取所述输入图像的深度特征;
    基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;
    基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到所述物体识别模型。
  2. 根据权利要求1所述的方法,其特征在于,所述提取所述输入图像的深度特征具体包括:
    利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。
  3. 根据权利要求1所述的方法,其特征在于,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达,具体包括:
    对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;
    对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;
    基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。
  4. 根据权利要求3所述的方法,其特征在于,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达,具体包括:
    根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:
    zi(di)=Wi·φ(H,pi,di)
    其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入 特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。
  5. 根据权利要求4所述的方法,其特征在于,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置,具体包括:
    根据以下公式确定所述物体各部件之间的变形结构损失:
    Figure PCTCN2016103019-appb-100001
    其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所述高斯函数的个数;所述w(m)表示第m个高斯函数的权重,其中高斯核为
    Figure PCTCN2016103019-appb-100002
    所述σ表示控制连接关系强弱的系数;所述
    Figure PCTCN2016103019-appb-100003
    表示所述第i和所述第j个部件之间的变形结构损失;
    最小化以下能量函数,从而确定所述物体各部件的最优位置:
    Figure PCTCN2016103019-appb-100004
    其中,E(d)表示能量函数。
  6. 根据权利要求5所述的方法,其特征在于,所述基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达,具体包括:
    根据以下公式获得所述物体的结构化表达:
    Figure PCTCN2016103019-appb-100005
    其中,所述
    Figure PCTCN2016103019-appb-100006
    表示推理得到的所述第i个部件的最优位置;所述
    Figure PCTCN2016103019-appb-100007
    表示推理得到的所述第j个部件的最优位置;所述yi表示所述第i个部件的结构网络层的输出;
    Figure PCTCN2016103019-appb-100008
    表示所述第i个部件的节点的集合。
  7. 根据权利要求6所述的方法,其特征在于,所述基于所述物体的 所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型,具体包括:
    根据以下公式确定结构网络层关于Wi的梯度:
    Figure PCTCN2016103019-appb-100009
    其中,所述L表示所述物体识别模型的最终损失;所述
    Figure PCTCN2016103019-appb-100010
    所述
    Figure PCTCN2016103019-appb-100011
    分别表示所述最终损失L和所述结构网络层输出yi对Wi的偏导;
    根据以下公式确定所述结构网络层关于w(m)的梯度:
    Figure PCTCN2016103019-appb-100012
    其中,所述
    Figure PCTCN2016103019-appb-100013
    所述
    Figure PCTCN2016103019-appb-100014
    分别表示所述最终损失L和所述结构网络层输出yi对w(m)的偏导;所述w(m)表示第m个高斯函数的权重;
    基于所述结构网络层关于Wi的梯度和所述结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到所述物体识别模型。
  8. 一种基于上述权利要求1-7中任一所述建立方法的物体识别方法,其特征在于,所述物体识别方法包括:
    获取待测图像;
    利用上述权利要求1-7中任一所述建立方法建立的物体识别模型对所述待测图像进行识别,以预测所述待测图像中物体的类别。
PCT/CN2016/103019 2016-10-24 2016-10-24 物体识别模型的建立方法及物体识别方法 WO2018076130A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/103019 WO2018076130A1 (zh) 2016-10-24 2016-10-24 物体识别模型的建立方法及物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/103019 WO2018076130A1 (zh) 2016-10-24 2016-10-24 物体识别模型的建立方法及物体识别方法

Publications (1)

Publication Number Publication Date
WO2018076130A1 true WO2018076130A1 (zh) 2018-05-03

Family

ID=62022953

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/103019 WO2018076130A1 (zh) 2016-10-24 2016-10-24 物体识别模型的建立方法及物体识别方法

Country Status (1)

Country Link
WO (1) WO2018076130A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276391A (zh) * 2019-06-18 2019-09-24 浙江工业大学 基于深度时空条件随机场的多人头部朝向估计方法
CN111460958A (zh) * 2020-03-26 2020-07-28 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030002731A1 (en) * 2001-05-28 2003-01-02 Heiko Wersing Pattern recognition with hierarchical networks
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
US20150117760A1 (en) * 2013-10-30 2015-04-30 Nec Laboratories America, Inc. Regionlets with Shift Invariant Neural Patterns for Object Detection
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN104915643A (zh) * 2015-05-26 2015-09-16 中山大学 一种基于深度学习的行人再标识方法
CN105046272A (zh) * 2015-06-29 2015-11-11 电子科技大学 一种基于简洁非监督式卷积网络的图像分类方法
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
CN105574215A (zh) * 2016-03-04 2016-05-11 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
CN105809201A (zh) * 2016-03-11 2016-07-27 中国科学院自动化研究所 一种生物启发式自主提取图像语义概念的识别方法及装置
CN106570522A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030002731A1 (en) * 2001-05-28 2003-01-02 Heiko Wersing Pattern recognition with hierarchical networks
US20150117760A1 (en) * 2013-10-30 2015-04-30 Nec Laboratories America, Inc. Regionlets with Shift Invariant Neural Patterns for Object Detection
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN104915643A (zh) * 2015-05-26 2015-09-16 中山大学 一种基于深度学习的行人再标识方法
CN105046272A (zh) * 2015-06-29 2015-11-11 电子科技大学 一种基于简洁非监督式卷积网络的图像分类方法
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
CN105574215A (zh) * 2016-03-04 2016-05-11 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
CN105809201A (zh) * 2016-03-11 2016-07-27 中国科学院自动化研究所 一种生物启发式自主提取图像语义概念的识别方法及装置
CN106570522A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276391A (zh) * 2019-06-18 2019-09-24 浙江工业大学 基于深度时空条件随机场的多人头部朝向估计方法
CN110276391B (zh) * 2019-06-18 2021-08-03 浙江工业大学 基于深度时空条件随机场的多人头部朝向估计方法
CN111460958A (zh) * 2020-03-26 2020-07-28 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统

Similar Documents

Publication Publication Date Title
CN106570522B (zh) 物体识别模型的建立方法及物体识别方法
Kumar et al. Multimodal gait recognition with inertial sensor data and video using evolutionary algorithm
WO2021143101A1 (zh) 人脸识别方法和人脸识别装置
KR102308871B1 (ko) 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
EP3287943A1 (en) Liveness test method and liveness test computing apparatus
WO2020107847A1 (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN106548159A (zh) 基于全卷积神经网络的网纹人脸图像识别方法与装置
CN109101865A (zh) 一种基于深度学习的行人重识别方法
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
WO2021218238A1 (zh) 图像处理方法和图像处理装置
CN109145717A (zh) 一种在线学习的人脸识别方法
TWI753588B (zh) 人臉屬性識別方法、電子設備和電腦可讀儲存介質
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN104850857B (zh) 基于视觉空间显著性约束的跨摄像机行人目标匹配方法
WO2023226186A1 (zh) 神经网络训练方法、人体运动识别方法及设备、存储介质
CN110197116A (zh) 一种人体行为识别方法、装置和计算机可读存储介质
He et al. Finger vein image deblurring using neighbors-based binary-gan (nb-gan)
WO2018076130A1 (zh) 物体识别模型的建立方法及物体识别方法
Bussey et al. Convolutional neural network transfer learning for robust face recognition in NAO humanoid robot
US20210174138A1 (en) Device and method with sensor-specific image recognition
Tunc et al. Age group and gender classification using convolutional neural networks with a fuzzy logic-based filter method for noise reduction
CN112633224B (zh) 一种社交关系识别方法、装置、电子设备及存储介质
Zhang et al. Research On Face Image Clustering Based On Integrating Som And Spectral Clustering Algorithm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16920345

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16920345

Country of ref document: EP

Kind code of ref document: A1