WO2018137358A1 - 基于深度度量学习的目标精确检索方法 - Google Patents

基于深度度量学习的目标精确检索方法 Download PDF

Info

Publication number
WO2018137358A1
WO2018137358A1 PCT/CN2017/104397 CN2017104397W WO2018137358A1 WO 2018137358 A1 WO2018137358 A1 WO 2018137358A1 CN 2017104397 W CN2017104397 W CN 2017104397W WO 2018137358 A1 WO2018137358 A1 WO 2018137358A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
mean
intra
loss
samples
Prior art date
Application number
PCT/CN2017/104397
Other languages
English (en)
French (fr)
Inventor
段凌宇
白燕
楼燚航
高峰
Original Assignee
北京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学 filed Critical 北京大学
Publication of WO2018137358A1 publication Critical patent/WO2018137358A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Definitions

  • the invention relates to computer vision technology, in particular to a target accurate retrieval method based on depth metric learning.
  • Accurate target retrieval has always been a critical issue in the computer field, and it is also the basis for application analysis such as object tracking and behavior analysis.
  • Accurate retrieval (also known as fine-grained recognition) aims to finely distinguish between different visually similar object categories. For example, fine-grained vehicle identification can identify specific car models within the picture, such as the "Audi A62015 model.”
  • fine-grained vehicle identification can identify specific car models within the picture, such as the "Audi A62015 model.”
  • the purpose of accurate target retrieval is to identify a particular query target from a set of reference object datasets with similar appearances.
  • the process of recognition is a process of similarity comparison, sorted from high to low according to the similarity score with the query image.
  • the process of generating a similarity score usually involves three steps: extracting features, making corresponding transforms, and similarity measures.
  • common extraction features are color, texture, and scale-invariant features. These features are transformed or fused by some mathematical model, and then the appropriate distance metrics are selected to generate similarity scores between features. And sort.
  • the difficulty of fine-grained image recognition lies in the similarity between classes and the diversity within the class.
  • different fine-grained category objects belong to a certain large category (eg, Audi A6 and Audi A8 belong to Audi), which have similarity between classes, so that the extracted features Also very similar makes it difficult to distinguish.
  • objects of the same fine-grained category will exhibit great differences due to different perspectives, poses, and lighting conditions, called intra-class diversity.
  • local component-based methods are used to capture subtle local features, distinguish different types of objects, and reduce Differences in features caused by changes in perspective and posture. For example, in fine-grained bird recognition, a local feature model of the bird's head and body is learned, and geometric constraints are added between the local components.
  • metric learning aims to maximize the distance between classes and minimize the distance within the class to reduce the similarity between classes and the impact of intra-class diversity.
  • the target retrieval algorithms used in the metric learning method mostly rely on hand-designed features such as HOG, LBP, SIFT, etc., and then mainly study the distance measurement method between the two images.
  • the present invention proposes an object-accurate retrieval method based on depth metric learning that overcomes the above problems or at least partially solves the above problems.
  • the present invention provides an accurate target retrieval method based on depth metric learning, comprising:
  • the feature distance of the target object of the same category is reduced, and the feature distance of the target objects of different classes is increased, and belongs to
  • the feature distances between individuals within a class with similar attributes are reduced, and the feature distances between individuals within different classes having different attributes are greater than a preset distance to obtain a deep neural network structure after training.
  • the trained deep neural network structure is used to extract the respective features of the query picture and the preset reference picture, and obtain the Euclidean distance between the query picture and the reference picture, and sort the distance from small to large to obtain an accurate search. The goal.
  • the deep neural network structure is a network structure capable of distinguishing different object categories according to attribute information of the selected object;
  • the deep neural network structure before iterative training is a general deep convolutional neural network structure.
  • the loss is also used to perform the forward propagation calculation, and the weight value in the deep neural network structure is adjusted by the back propagation algorithm, so that the loss in the deep neural network structure after training is converged.
  • the output of the last layer of the full convolutional neural network has two branches, one branch connecting the Softmax normalized exponential loss function, and the other branch joining the intra-class diversity mean triple loss. function;
  • the loss of performing forward propagation calculation in iterative training is: the loss determined by the Softmax loss function and the mean triplet loss function according to their respective weight values.
  • the loss of the mean triplet loss function incorporating the intra-class diversity is determined as follows:
  • the KmeansK mean clustering algorithm is used to cluster all the feature points in the class to obtain several groups within the class.
  • the intra-group mean is calculated in one class as the intra-group mean point; according to the category labels of all samples and the group identifiers in each class, all positive samples and negative samples are obtained respectively.
  • the loss of performing the forward propagation calculation in the iterative training is: the Softmax loss function and the mean triplet loss function integrated into the intra-class diversity according to the respective weight values.
  • Definite losses including:
  • L GS-TRS ⁇ L softmax + (1- ⁇ ) L ICV-triplet ;
  • L softmax is the loss of the Softmax loss function
  • L ICV-triplet is the loss of the mean triplet loss function
  • the Kmeans clustering algorithm is used to cluster all the feature points in the class to obtain several groups within the class, including:
  • G is the number of groups, representing the number of cluster families
  • N p,g is the number of samples in the group S c,g
  • ⁇ g is the cluster center.
  • the average of all samples in a category is used as the mean within the class, including:
  • the average value of the group is calculated within a class according to the plurality of groups in the class obtained by the cluster, and is used as the mean point in the group, including:
  • the category labels of all the samples and the group identifiers in each category obtain the distances from all the positive samples and the negative samples to the intra-class mean points and the intra-group mean points in the respective groups, and calculate the integration into the class.
  • the mean triplet loss function for diversity including:
  • c p represents the mean center of all samples in category c
  • c p,g represents the mean center of all samples in group g of category c
  • each category c has a class center c p and G group centers c p,g ,
  • ⁇ 1 is the interval between the center of the class and the distance of the different types of samples
  • ⁇ 2 is the interval between the center of the group and the distance of the different groups of samples
  • the target accurate retrieval method based on the depth metric learning of the present invention can realize that the distances of the individuals in the class have similar properties are closer, and the accuracy of the retrieval is obtained compared with the traditional training model of the triad loss function.
  • the improvement is greatly improved; the model generated by the joint optimization of multiple loss functions is more robust, and the retrieval performance is higher than that of the single loss function optimization model.
  • FIG. 1 is a corresponding sample in the model optimization process according to an embodiment of the present invention. Schematic diagram of the characteristic distribution
  • FIG. 2 is a schematic diagram of intra-class grouping of vehicle images generated based on a clustering method in the prior art
  • FIG. 3 is a schematic diagram of a training phase with a VGGM as a basic network structure according to an embodiment of the present invention.
  • an accurate target retrieval method based on depth metric learning includes:
  • Step A01 In the iterative training of the deep neural network structure, during the processing of the extracted features of the plurality of pictures of the same target object, the feature distance of the target object of the same category is reduced, and the feature distance of the target object of the different categories is increased. In the feature distribution of individuals belonging to the same category, the feature distance between individuals within the class having similar attributes is reduced, and the feature distance between individuals within the class having different attributes is greater than the preset distance (as in FIG. 1 ( a), (b)) to obtain a deep neural network structure after training.
  • the deep neural network structure after training can make the target objects of the same category close to each other, and the target objects of different categories are distant from each other;
  • the feature distances between individuals within the class having similar attributes are close to each other, and the feature distances between individuals within the class having different attributes are greater than the preset distance.
  • Step A02 using the trained deep neural network structure to extract the respective features of the query picture and the preset reference picture, and obtain the Euclidean distance between the query picture and the reference picture, and sort the distance from small to large. Get the target of accurate search.
  • the above-mentioned deep neural network structure may be a genus according to the selected object sexual information can distinguish the network structure of different object categories.
  • the deep neural network structure before the iterative training is preferably a general deep convolutional neural network structure.
  • the target accurate retrieval method of the above embodiment belongs to the field of computer vision, and is applicable to intelligent traffic and intelligent monitoring technologies based on video processing.
  • the problem of accurate retrieval in the vertical domain can be solved, that is, given a query picture, it is necessary to find the same object object or category in a large vertical domain database (eg, a vehicle data set).
  • the iterative training of the deep neural network structure is also used to perform the forward propagation calculation loss, and the corresponding loss is calculated by the back propagation algorithm, and then the depth is updated according to the gradient descent algorithm.
  • the weight values in the neural network structure cause the loss in the deep neural network structure after training to converge.
  • the output of the last layer of the full convolutional neural network has two branches, one branch connecting the Softmax normalized exponential loss function, and the other branch connecting the mean triplet loss function of the intra-class diversity;
  • the loss L GS-TRS for performing forward propagation calculation in iterative training is: the loss determined by the Softmax loss function and the mean triplet loss function according to the respective weight values.
  • L softmax is the loss of the Softmax loss function
  • L ICV-triplet is the loss of the mean triplet loss function
  • the ternary loss network uses the similarity distance learning instead of the hyperplane.
  • the ability of the network to discriminate features can significantly improve performance by adding classification loss (Softmax loss) to the learning target.
  • Softmax loss classification loss
  • the above method jointly optimizes the mean triplet loss and Softmax loss of intra-class diversity by means of multi-task learning. Calculating the loss in the forward propagation of the network In the process, a linear weighted approach is used to achieve a combination of these two losses. In the embodiment of the present invention, optimizing the multi-loss function can achieve powerful fine-grained classification performance and extracting resolving fine-grained retrieval features.
  • the method of accurate target retrieval in the above embodiment incorporates the expression of intra-class diversity in the innovation of the distance measurement optimization process.
  • the image feature expression extracted by the model trained by this method can better preserve the diversity within the fine-grained category class, and the images with the same or similar intra-class properties in the accurate retrieval can be higher in the search results.
  • the similarity of the images of different objects is expressed as the Euclidean distance between the features generated by the two images, and the closer the distance is, the more similar. As shown in Figure 1, the corresponding feature distribution of the same sample in the model optimization process.
  • Fig. 1(a) shows a conventional conventional triad loss diagram
  • Fig. 1(b) shows a characteristic distribution diagram of the mean intra-group diversity (ICV) mean triplet loss of the present invention.
  • ICV mean intra-group diversity
  • the input is a set of positive and negative samples
  • the positive sample set contains the same object or category but multiple images taken from different cameras
  • the negative sample set contains multiple pictures of different objects or categories, the number of pictures
  • Each object has group information within a category in addition to its own category information.
  • the former is a different category label defined according to the category definition, and the latter is a group divided within a fine-grained category. The basis of the division is obtained by clustering by Kmeans algorithm.
  • All input images are mapped to a high-dimensional European space through the same deep neural network. The optimization goal is that the objects of the same category in the European space are as close as possible, the objects of different categories are as far as possible, and the distribution of features within the class. On the same, the objects of the same group with similar attributes are as close as possible, and the objects of different groups maintain a certain distance interval.
  • G is the number of groups, representing the number of cluster families
  • N p,g is the number of samples in the group S c,g
  • ⁇ g is the cluster center.
  • each sample and the group identifier in each category obtain the distances from all the positive samples and the negative samples to the intra-class mean points and the intra-group mean points after the respective groups, and calculate the diversity within the intra-class.
  • the mean triplet loss function obtains from all the positive samples and the negative samples to the intra-class mean points and the intra-group mean points after the respective groups, and calculate the diversity within the intra-class.
  • c p represents the mean center of all samples in category c
  • c p,g represents the mean center of all samples in group g of category c
  • each category c has a class center c p and G group centers c p,g ,
  • ⁇ 1 is the interval between the center of the class and the distance of the different types of samples
  • ⁇ 2 is the interval between the center of the group and the distance of the different groups of samples
  • the input is a set of positive and negative samples.
  • the positive sample set contains the same object or category but multiple images taken from different cameras.
  • the negative sample set contains multiple images of different objects or categories. The number of pictures is not special. limit.
  • Each object has group information within a category in addition to its own category information.
  • the present invention uses an unsupervised method to group objects in each category.
  • VGG_CNN_M_1024 (VGGM) deep neural network with 1000 class classification tasks on the ImageNet data set is used as the feature extractor;
  • f(x) is the feature of the extracted image
  • G is the number of groups, representing the number of cluster families
  • N p,g is the number of samples in the group S c,g
  • ⁇ g is the cluster center.
  • Each picture instance has a group label after clustering, and object members divided into one group often have similar properties such as color, shooting angle, background, and the like.
  • the reference points of the triples are usually randomly selected.
  • the reference point is selected by calculating the average of all positive samples, and the mean triplet loss is established.
  • the mean reference point can be expressed as:
  • the mean triplet loss of the following in-class diversity is further optimized based on the above-mentioned triple loss.
  • This embodiment may select the above 1 and 2 implementations, and may also select 1 and 3 implementations. The invention is not limited thereto.
  • the present invention adds intra-class diversity to the proposed mean triplet loss.
  • c p represent the mean center of all samples in category c
  • c p,g represents the mean center of all samples in group g of category c.
  • Each category c has a class center c p and G group centers c p,g .
  • ⁇ 1 is the interval between the center of the class and the distance of the samples of different classes
  • ⁇ 2 is the interval of the distance between the center of the group and the sample of the different groups. Therefore, the mean triplet loss added to the intra-class diversity can be expressed as:
  • the following is an example of accurate vehicle retrieval in a monitoring scenario.
  • This embodiment focuses on how to apply the present invention to the precise retrieval problem of a vehicle. It should be noted that the problem addressed by this embodiment is that the scene of the license plate recognition failure, such as an unlicensed card, a deck, an occlusion license, etc., utilizes the detailed characteristics of the vehicle itself to accurately search the bayonet vehicle. Details of the vehicle itself include inkjet on the vehicle, annual checklist, tissue box, decorative patterns, spray paint, and the like.
  • FIG. 2 is a schematic diagram of an intra-class grouping of a vehicle image generated by a conventional clustering method.
  • FIG. 3 is a schematic diagram of a training phase with VGGM as a basic network structure according to the embodiment.
  • the loss function of the network structure consists of two parts, the Softmax loss function and the mean triplet loss function that is integrated into the class diversity.
  • the deep neural network structure diagram of this embodiment is shown in FIG. 3, and the VGG_M neural network is taken as an example here.
  • the training process of the network is a multi-loss function optimization process including the Softmax loss function and the mean triplet loss function incorporated into the intra-class diversity proposed in the present invention. Both loss functions are connected to the last layer of the network, the fully connected layer FC7 After that, in the VGG_M network, the network output of the FC7 layer is 1024 dimensions.
  • the L2 normalization layer is required before the feature enters the mean triplet loss of the in-class diversity.
  • each training sample is labeled with a category label and a group ID.
  • a category tag is required, and the mean triplet loss function for the in-class diversity needs to provide the category tag and the group ID within the class.
  • the loss function layer in the trained network can be removed, the test picture is sent to the network for forward propagation and the output vector of the FC7 layer is extracted as the feature representation of the picture.
  • the similarity between pictures only needs to calculate the Euclidean distance between the feature vectors.
  • the Euclidean distance between the query image and the reference image in the database is compared in turn, and the target object most like the query image is searched in order from small to large.
  • the mean triplet loss function incorporated in the intra-class diversity proposed in the present invention can realize that the distances of individuals within the class have similar properties are closer, and the retrieval is accurate compared with the traditional triad loss function training model.
  • the rate is greatly improved; the model produced by the joint optimization model with multiple loss functions is more robust, and the retrieval performance is higher than that of the single loss function optimization model.
  • DSP digital signal processor
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.

Abstract

一种基于深度度量学习的目标精确检索方法,方法包括:深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象相互靠近,不同类别的目标对象相互远离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间距离相互靠近,具有不同属性的类内个体之间大于预设距离,以获得训练后的深度神经网络结构;采用训练后的深度神经网络结构对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。所述方法解决了垂直领域的精确检索问题。

Description

基于深度度量学习的目标精确检索方法 技术领域
本发明涉及计算机视觉技术,具体涉及一种基于深度度量学习的目标精确检索方法。
背景技术
目标精确检索一直是计算机领域中的至关重要的问题,同时也是对象跟踪、行为分析等应用分析的基础。精确检索(同时也称细粒度识别),旨在精细地区分不同种视觉上相似的物体类别。例如,细粒度车辆识别可以识别出图片内特定的汽车模型,比如“奥迪A62015款”。近年来,随着计算机大规模并行计算能力的突飞猛进以及深度卷积神经网络的成功应用,人们在大量细粒度图像分类的垂直领域投入了更多研究,比如识别不同品种的动物、植物、车辆、衣服、行人的身份等。
目标精确检索的目的在于将某个特定查询目标从一系列具有相似外表的参考对象数据集中识别出来。识别的过程是一个相似度比对的过程,依据与查询图像的相似度得分从高到低排序。相似度得分的产生过程通常包含三个步骤:提取特征、做相应变换、相似度度量。
对于查询目标和参考对象,常见的提取特征有颜色、纹理、以及尺度不变特征等,这些特征再经过某种数学模型进行变换或融合,再选取适当的距离度量生成特征之间的相似度得分并排序。
细粒度图像识别的难点在于类间的相似性和类内的多样性。一方面,不同的细粒度类别对象本身属于某一个大类别(如:奥迪A6和奥迪A8都属于奥迪车),其具有类间相似性,使得提取出的特征 也非常相似导致难以区分。另一方面,同一细粒度类别的对象由于不同的视角,姿态和光照条件会呈现出极大的差异性,称为类内多样性。
为了减轻在细粒度物体识别过程中类间相似性和类内差异性带来的负作用,为此,通过基于局部部件的方法被用来捕捉细微的局部特征,区分不同类别物体,减小由于视角和姿势变化导致的特征上的差异。例如,细粒度鸟类识别中学习鸟头和身体的局部特征模型,在局部部件之间加入几何约束。
但是,基于局部部件的方法依赖于精确的部件定位,当缺少大量视角变化时性能低下。
最近业内人士提出了基于度量学习的方法,这种方法旨在最大化类间距离同时最小化类内距离,以降低类间相似性和类内多样性的影响。基于度量学习方法中使用的目标检索算法大多依赖手工设计的特征,如:HOG、LBP、SIFT等,然后主要研究两幅图像之间的距离度量方法。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的一种基于深度度量学习的目标精确检索方法。
为此目的,第一方面,本发明提出一种基于深度度量学习的目标精确检索方法,包括:
深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络结构;
采用训练后的深度神经网络结构对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。
可选地,所述深度神经网络结构为根据选择对象的属性信息能够区分不同对象类别的网络结构;
和/或,
迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构。
可选地,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法调整深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。
可选地,所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
迭代训练中执行前向传播计算的损失为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失。
可选地,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:
采用KmeansK均值聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
将一个类别中所有样本均值作为该类内均值点;以及
根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。
可选地,迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确 定的损失,包括:
根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为均值三元组损失函数的损失。
可选地,采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组,包括:
使用
Figure PCTCN2017104397-appb-000001
对类内的所有特征点进行聚类,得到类内的若干分组;
其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
可选地,将一个类别中所有样本均值作为该类内均值点,包括:
若一个包含Np个类内样本集Xp
Figure PCTCN2017104397-appb-000002
Figure PCTCN2017104397-appb-000003
则该类内样本集的类内均值参考点cp为:
Figure PCTCN2017104397-appb-000004
可选地,根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点,包括:
若一个包含Np个组内样本集Xp
Figure PCTCN2017104397-appb-000005
Figure PCTCN2017104397-appb-000006
则组内均值参考点cp为:
Figure PCTCN2017104397-appb-000007
可选地,根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数,包括:
根据公式一获取融入类内多样性的三元组损失函数的损失值;
Figure PCTCN2017104397-appb-000008
Figure PCTCN2017104397-appb-000009
其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g
Figure PCTCN2017104397-appb-000010
代表两个取自不同组的同类样本。对于类间关系,
Figure PCTCN2017104397-appb-000011
是正样本,
Figure PCTCN2017104397-appb-000012
是负样本;
α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;
反向传播的偏导数:
正样本
Figure PCTCN2017104397-appb-000013
对损失的偏导数为:
Figure PCTCN2017104397-appb-000014
负样本
Figure PCTCN2017104397-appb-000015
对损失的的偏导数为:
Figure PCTCN2017104397-appb-000016
由上述技术方案可知,本发明的基于深度度量学习的目标精确检索方法,能实现类内个体具有相似属性的距离更接近,相比传统的三元组损失函数训练的模型,检索的准确率得到了极大的提高;通过多损失函数联合优化的模型产生的特征更加鲁棒,检索性能比单一损失函数优化的模型更高。
附图说明
图1为本发明一实施例提供的同类样本在模型优化过程中相应 的特征分布的示意图;
图2为现有技术中基于聚类方法产生的车辆图像的类内分组示意图;
图3为本发明一实施例提供的以VGGM为基本网络结构的训练阶段示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
结合图1所示,本发明实施例的基于深度度量学习的目标精确检索方法,包括:
步骤A01、深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离(如图1中的(a)、(b)所示),以获得训练后的深度神经网络结构。
应说明的是,结合图1中的(a)、(b),该步骤中,训练后的深度神经网络结构可使得相同类别的目标对象相互靠近,不同类别的目标对象相互远离;相应地,属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离相互靠近,具有不同属性的类内个体之间的特征距离大于预设距离。
步骤A02、采用训练后的深度神经网络结构对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。
在具体应用中,上述的深度神经网络结构可为根据选择对象的属 性信息能够区分不同对象类别的网络结构。
在本实施例中,迭代训练之前的深度神经网络结构优选为通用的深度卷积神经网络结构。
上述实施例的目标精确检索方法属于计算机视觉领域,可,适用于基于视频处理的智能交通和智能监控技术。由此,可解决垂直领域的精确检索问题,即给定一个查询图片,需要在一个大型的垂直领域的数据库(如:车辆的数据集)中查找相同的对象目标或类别。
需要说明的是,本实施例中,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法计算到各个层对应的损失,再根据梯度下降算法更新深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。
也就是说,深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
迭代训练中执行前向传播计算的损失LGS-TRS为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失。
例如,可根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为均值三元组损失函数的损失。
也就是说,三元组损失网络使用相似度距离学习而不是选择超平面,这种网络对特征的判别能力可以通过在学习目标中加入分类损失(Softmax损失)来显著提升性能。
因此,上述方法通过多任务学习的方法联合优化融入类内多样性的均值三元组损失和Softmax损失。在网络的前向传播计算损失的过 程中,使用线性加权的方法实现这两种损失的结合。本发明实施例中,优化这个多损失函数可以实现有力的细粒度分类性能和提取有分辨性的细粒度检索特征。
上述实施例中目标精确检索的方法,在距离度量的优化过程创新性的中融入了类内多样性的表达。利用该方法训练的模型提取出的图片特征表达,可以较好的保留细粒度类别类内的多样性,在精确检索时拥有相同或相似的类内属性的图片可以在检索结果中得到较高的排名。不同对象图片的相似度时表现为两幅图像生成的特征之间的欧式距离,距离越近越相似。如图1所示,为同类样本在模型优化过程中相应的特征分布。
图1(a)示出的是现有传统的三元组损失示意图,图1(b)示出的是本发明的加入类内多样性(ICV)的均值三元组损失的特征分布示意图。在图1(a)和图1(b)中可以看出,本发明的损失函数在模型优化过程中,同类对象会聚集在一起,同时同类对象内部具有相似属性的对象会在类内聚集成更小的团。
另外,在深度网络训练阶段,输入是正负样本集合,正样本集合包含同一个对象或类别但是拍摄自不同摄像头的多张图片,负样本集合包含不同对象或类别的多张图片,图片的数目没有特殊限制。每一个对象除了本身的类别信息,还拥有一个类别内的组别信息。前者是根据类别定义界定的不同类别标签,后者是在一个细粒度类别内进行划分的组别,划分的依据是通过Kmeans算法聚类得到。所有的输入图片经过相同的深度神经网络被映射到一个高维欧式空间,优化目标是在欧式空间中相同类别的的对象尽可能靠近,不同类别的对象尽可能远离,同时在类内的特征分布上,拥有相似属性的同一个组别的对象尽可能接近,不同组别的对象保持一定的距离间隔。
为此,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下步骤B01至步骤B04:
B01、采用Kmeans K均值聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
举例来说,使用
Figure PCTCN2017104397-appb-000017
对类内的所有特征点进行聚类,得到类内的若干分组;
其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
B02、将一个类别中所有样本均值作为该类内均值点。
可理解的是,如果一个包含Np个类内样本集Xp
Figure PCTCN2017104397-appb-000018
Figure PCTCN2017104397-appb-000019
则该类内样本集的类内均值参考点cp为:
Figure PCTCN2017104397-appb-000020
B03、根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;
若一个包含Np个组内样本集Xp
Figure PCTCN2017104397-appb-000021
Figure PCTCN2017104397-appb-000022
则组内均值参考点cp为:
Figure PCTCN2017104397-appb-000023
B04、根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。
即根据公式一获取融入类内多样性的三元组损失函数的损失值;
Figure PCTCN2017104397-appb-000024
其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g 中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g
Figure PCTCN2017104397-appb-000025
代表两个取自不同组的同类样本。对于类间关系,
Figure PCTCN2017104397-appb-000026
是正样本,
Figure PCTCN2017104397-appb-000027
是负样本;
α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;
反向传播的偏导数:
正样本
Figure PCTCN2017104397-appb-000028
对损失的偏导数为:
Figure PCTCN2017104397-appb-000029
负样本
Figure PCTCN2017104397-appb-000030
对损失的的偏导数为:
Figure PCTCN2017104397-appb-000031
下面将对具体对用于目标精确检索的方法进行详细描述:
在深度网络训练阶段,输入是正负样本集合,正样本集合包含同一个对象或类别但是拍摄自不同摄像头的多张图片,负样本集合包含不同对象或类别的多张图片,图片的数目没有特殊限制。每一个对象除了本身的类别信息,还拥有一个类别内的组别信息。
1.类内组别划分
为了表现类内多样性,需要将相同类别的样本进行分组。不同于类别标签,类内数据的内在属性特征非常抽象难以精确表述。
为此,本发明中使用无监督的方法给每个类别中的对象进行分组。
首先,用一个在ImageNet数据集上做过1000类分类任务的VGG_CNN_M_1024(VGGM)深度神经网络作为特征提取器;
接着,对所有的训练图像提取网络最后的全相连层的输出作为特 征,并用主成员分析(PCA)进行特征降维;
最后,使用K-means方法聚类:
Figure PCTCN2017104397-appb-000032
这里f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg为聚类中心。每个图片实例在聚类后都有一个组标签,并且划分在一个组内的对象成员往往有相似的性质如颜色、拍摄视角,背景等。
2.均值三元组损失
当前现有技术在正样本中,三元组的参考点通常是随机选取的。为了降低不恰当参考点选择带来的负影响,本发明实施例中使用通过计算所有正样本平均值的方法选择参考点,并建立均值三元组损失。
例如,给定一个包含Np个样本的正样本集
Figure PCTCN2017104397-appb-000033
和包含Nn个从其他类选取的样本的负样本集
Figure PCTCN2017104397-appb-000034
这样,均值参考点可以被表述为:
Figure PCTCN2017104397-appb-000035
其中1≤i≤Np,1≤j≤Nn。区别于使用随机选取的参考点,均值三元组损失表述为:
Figure PCTCN2017104397-appb-000036
这里
Figure PCTCN2017104397-appb-000037
是最接近均值参考点cp的样本。虽然损失函数只用到了作为正样本均值的参考点,但在反向传播过程中涉及到所有正样本。
如果用所有正样本计算得到的均值参考点不满足约束
Figure PCTCN2017104397-appb-000038
所有的正样本都需要反向传播,正样本
Figure PCTCN2017104397-appb-000039
对损失的偏导数为:
Figure PCTCN2017104397-appb-000040
关于正样本
Figure PCTCN2017104397-appb-000041
对损失的偏导数为:
Figure PCTCN2017104397-appb-000042
关于负样本
Figure PCTCN2017104397-appb-000043
对损失的的偏导数为:
Figure PCTCN2017104397-appb-000044
可理解的是,下面的融入类内多样性的均值三元组损失是在上述三元组损失的基础上进一步优化的。本实施例可以选择上述1和2实现,也可以选择1和3实现。本发明不对其进行限定。
3.融入类内多样性的均值三元组损失
为了保存与类内属性相似的样本相对距离更近,本发明在提出的均值三元组损失中加入了类内多样性。
令cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心。每一个类别c有一个类中心cp和G个组中心cp,g
对于类内多样性,令
Figure PCTCN2017104397-appb-000045
代表两个取自不同组的同类样本。
对于类间关系,
Figure PCTCN2017104397-appb-000046
是正样本,
Figure PCTCN2017104397-appb-000047
是负样本。
将类内方差加入三元组中,约束为:
Figure PCTCN2017104397-appb-000048
Figure PCTCN2017104397-appb-000049
这里α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔。因此,加入类内多样性的均值三元组损失可表示为:
Figure PCTCN2017104397-appb-000050
以下以监控场景下的车辆精确检索为例进行说明。
本实施例着重介绍如何将本发明应用在车辆的精确检索问题上。需要注意的是,本实施例针对的问题是针对车牌识别失效的场景如无牌、套牌、遮挡牌照等情况,利用车辆本身的细节特性进行卡口车辆精确检索。车辆本身的细节包括车辆上的喷绘,年检表、纸巾盒,装饰性图案、喷漆等。
现有技术中在模型训练阶段,对训练图像进行聚类获得类内的组别信息,如图2所示,现有技术中的针对同一款捷豹车的聚类效果图。图2为现有基于聚类方法产生的车辆图像的类内分组示意图。对车辆数据集进行组内划分,同一分组下的图像体现了相似的属性,如:角度,颜色等,其中聚类中心K=5。
图3为本实施例的以VGGM为基本网络结构的训练阶段示意图。该网络结构的损失函数由两部分组成,分别是Softmax损失函数和融入类内多样性的均值三元组损失函数。
本实施例的深度神经网络结构图如图3所示,此处以VGG_M神经网络为例。网络的训练过程是一个多损失函数的优化过程包括Softmax损失函数与本发明中提出的融入类内多样性的均值三元组损失函数。两个损失函数均连接在网络的最后一层全连接层FC7之 后,在VGG_M网络中,FC7层的网络输出是1024维。在特征进入融入类内多样性的均值三元组损失之前需经过L2归一化层。
关于标签,每个训练样本均标注一个类别标签和组别ID。对于Softmax损失函数,需要提供类别标签,对于融入类内多样性的均值三元组损失函数需要提供类别标签与类内的组别ID。
在实际的测试阶段,可以将训练的网络中的损失函数层都除去,测试图片送入网络前向传播并提取FC7层的输出向量作为图片的特征表达。图片之间的相似度只需计算特征向量之间的欧式距离。在检索过程中,依次比较查询图片与数据库中的参考图片之间的特征之间的欧氏距离,按从小到大排序寻找与查询图像最像的目标对象。
由此,本发明中提出的融入类内多样性的均值三元组损失函数,能实现类内个体具有相似属性的距离更接近,相比传统的三元组损失函数训练的模型,检索的准确率得到了极大的提高;通过多损失函数联合优化的模型产生的特征更加鲁棒,检索性能比单一损失函数优化的模型更高。
本领域技术人员可以理解,实施例中的各步骤可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型, 这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

  1. 一种基于深度度量学习的目标精确检索方法,其特征在于,包括:
    深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络结构;
    采用训练后的深度神经网络结构对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。
  2. 根据权利要求1所述的方法,其特征在于,所述深度神经网络结构为根据选择对象的属性信息能够区分不同对象类别的网络结构;
    和/或,
    迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构。
  3. 根据权利要求2所述的方法,其特征在于,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法调整深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。
  4. 根据权利要求3所述的方法,其特征在于,所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
    迭代训练中执行前向传播计算的损失为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失。
  5. 根据权利要求4所述的方法,其特征在于,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:
    采用KmeansK均值聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
    将一个类别中所有样本均值作为该类内均值点;以及
    根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。
  6. 根据权利要求5所述的方法,其特征在于,迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失,包括:
    根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
    其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为均值三元组损失函数的损失。
  7. 根据权利要求5所述的方法,其特征在于,采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组,包括:
    使用
    Figure PCTCN2017104397-appb-100001
    对类内的所有特征点进行聚类,得到类内的若干分组;
    其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
  8. 根据权利要求5所述的方法,其特征在于,将一个类别中所 有样本均值作为该类内均值点,包括:
    若一个包含Np个类内样本集Xp
    Figure PCTCN2017104397-appb-100002
    1≤i≤Np,则该类内样本集的类内均值参考点cp为:
    Figure PCTCN2017104397-appb-100003
  9. 根据权利要求5所述的方法,其特征在于,根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点,包括:
    若一个包含Np个组内样本集Xp
    Figure PCTCN2017104397-appb-100004
    1≤i≤Np,则组内均值参考点cp为:
    Figure PCTCN2017104397-appb-100005
  10. 根据权利要求5所述的方法,其特征在于,根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数,包括:
    根据公式一获取融入类内多样性的三元组损失函数的损失值;
    Figure PCTCN2017104397-appb-100006
    其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g
    Figure PCTCN2017104397-appb-100007
    代表两个取自不同组的同类样本。对于类间关系,
    Figure PCTCN2017104397-appb-100008
    是正样本,
    Figure PCTCN2017104397-appb-100009
    是负样本;
    α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同 组别样本距离的间隔;
    反向传播的偏导数:
    正样本
    Figure PCTCN2017104397-appb-100010
    对损失的偏导数为:
    Figure PCTCN2017104397-appb-100011
    负样本
    Figure PCTCN2017104397-appb-100012
    对损失的的偏导数为:
    Figure PCTCN2017104397-appb-100013
PCT/CN2017/104397 2017-01-24 2017-09-29 基于深度度量学习的目标精确检索方法 WO2018137358A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710060334.1A CN106897390B (zh) 2017-01-24 2017-01-24 基于深度度量学习的目标精确检索方法
CN201710060334.1 2017-01-24

Publications (1)

Publication Number Publication Date
WO2018137358A1 true WO2018137358A1 (zh) 2018-08-02

Family

ID=59199235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/104397 WO2018137358A1 (zh) 2017-01-24 2017-09-29 基于深度度量学习的目标精确检索方法

Country Status (2)

Country Link
CN (1) CN106897390B (zh)
WO (1) WO2018137358A1 (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558898A (zh) * 2018-11-09 2019-04-02 复旦大学 一种基于深度神经网络的高置信度的多选择学习方法
CN110147732A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 指静脉识别方法、装置、计算机设备及存储介质
CN110647914A (zh) * 2019-08-14 2020-01-03 深圳壹账通智能科技有限公司 智能服务水平训练方法、装置及计算机可读存储介质
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
CN111008224A (zh) * 2019-11-13 2020-04-14 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111062430A (zh) * 2019-12-12 2020-04-24 易诚高科(大连)科技有限公司 一种基于概率密度函数的行人重识别评价方法
CN111062440A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 一种样本选择方法、装置、设备及存储介质
CN111144566A (zh) * 2019-12-30 2020-05-12 深圳云天励飞技术有限公司 神经网络权重参数的训练方法、特征分类方法及对应装置
CN111274422A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 模型训练方法、图像特征提取方法、装置及电子设备
CN111325223A (zh) * 2018-12-13 2020-06-23 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111339886A (zh) * 2020-02-19 2020-06-26 中山大学 一种基于相似性损失的行为识别方法
CN111382602A (zh) * 2018-12-28 2020-07-07 深圳光启空间技术有限公司 一种跨域人脸识别算法、存储介质及处理器
CN111401519A (zh) * 2020-03-06 2020-07-10 北京工业大学 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN111460096A (zh) * 2020-03-26 2020-07-28 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111507289A (zh) * 2020-04-22 2020-08-07 上海眼控科技股份有限公司 视频匹配方法、计算机设备和存储介质
CN111651433A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN111667001A (zh) * 2020-06-05 2020-09-15 平安科技(深圳)有限公司 目标重识别方法、装置、计算机设备和存储介质
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112101114A (zh) * 2020-08-14 2020-12-18 中国科学院深圳先进技术研究院 一种视频目标检测方法、装置、设备以及存储介质
CN112818162A (zh) * 2021-03-04 2021-05-18 泰康保险集团股份有限公司 图像检索方法、装置、存储介质和电子设备
CN112949528A (zh) * 2021-03-12 2021-06-11 长安大学 一种基于时空重要性的隧道内车辆再识别方法
TWI731542B (zh) * 2019-11-15 2021-06-21 財團法人資訊工業策進會 分類模型生成裝置及其分類模型生成方法
CN113360700A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113743251A (zh) * 2021-08-17 2021-12-03 华中科技大学 一种基于弱监督场景的目标搜索方法及装置
CN113936301A (zh) * 2021-07-02 2022-01-14 西北工业大学 基于中心点预测损失函数的目标重识别方法
CN115115868A (zh) * 2022-04-13 2022-09-27 之江实验室 一种基于三元组的多模态协同场景识别方法
CN115146718A (zh) * 2022-06-27 2022-10-04 北京华能新锐控制技术有限公司 基于深度表示的风电机组异常检测方法
CN115909403A (zh) * 2022-11-25 2023-04-04 天津大学四川创新研究院 基于深度学习的低成本高精度猪脸识别方法
CN116050508A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 神经网络训练方法以及装置
CN116844646A (zh) * 2023-09-04 2023-10-03 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117708199A (zh) * 2023-12-14 2024-03-15 北京智乐享科技有限公司 基于标签用户模型的信息检索方法
CN115115868B (zh) * 2022-04-13 2024-05-07 之江实验室 一种基于三元组的多模态协同场景识别方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897390B (zh) * 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法
EP3642764A1 (en) * 2017-07-17 2020-04-29 Google LLC Learning unified embedding
CN107688823B (zh) * 2017-07-20 2018-12-04 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION
CN107392158A (zh) * 2017-07-27 2017-11-24 济南浪潮高新科技投资发展有限公司 一种图像识别的方法及装置
CN108229532B (zh) * 2017-10-30 2021-02-12 北京市商汤科技开发有限公司 图像识别方法、装置和电子设备
CN107886073B (zh) * 2017-11-10 2021-07-27 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108090499B (zh) * 2017-11-13 2020-08-11 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN107944366B (zh) * 2017-11-16 2020-04-17 山东财经大学 一种基于属性学习的手指静脉识别方法及装置
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统
CN108010060B (zh) * 2017-12-06 2021-07-27 北京小米移动软件有限公司 目标检测方法及装置
CN108197538B (zh) * 2017-12-21 2020-10-16 浙江银江研究院有限公司 一种基于局部特征和深度学习的卡口车辆检索系统及方法
CN108427740B (zh) * 2018-03-02 2022-02-18 南开大学 一种基于深度度量学习的图像情感分类与检索算法
CN110569836B (zh) * 2018-06-06 2022-07-12 赛灵思电子科技(北京)有限公司 一种可变长字符串识别方法与装置
CN108830209B (zh) * 2018-06-08 2021-12-17 西安电子科技大学 基于生成对抗网络的遥感图像道路提取方法
CN108986168B (zh) * 2018-06-13 2022-08-23 深圳市感动智能科技有限公司 一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置
CN110633722B (zh) * 2018-06-22 2023-07-14 赛灵思电子科技(北京)有限公司 人工神经网络调整方法和装置
CN110717359B (zh) * 2018-07-12 2023-07-25 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN109086811B (zh) * 2018-07-19 2021-06-22 南京旷云科技有限公司 多标签图像分类方法、装置及电子设备
CN110766152B (zh) * 2018-07-27 2023-08-04 富士通株式会社 用于训练深度神经网络的方法和装置
CN109101602B (zh) * 2018-08-01 2023-09-12 腾讯科技(深圳)有限公司 图像检索模型训练方法、图像检索方法、设备及存储介质
CN109147446A (zh) * 2018-08-20 2019-01-04 国政通科技有限公司 电子考试系统
CN109271462A (zh) * 2018-11-23 2019-01-25 河北航天信息技术有限公司 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
CN109934281B (zh) * 2019-03-08 2021-01-26 电子科技大学 一种二分类网络的非监督训练方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110070120B (zh) * 2019-04-11 2021-08-27 清华大学 基于判别采样策略的深度度量学习方法及系统
CN110032973B (zh) * 2019-04-12 2021-01-19 哈尔滨工业大学(深圳) 一种基于人工智能的无监督寄生虫分类方法及系统
CN110263644B (zh) * 2019-05-21 2021-08-10 华南师范大学 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
CN110414550B (zh) * 2019-06-14 2022-07-29 北京迈格威科技有限公司 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110674692A (zh) * 2019-08-23 2020-01-10 北京大学 一种基于难样本生成的目标精确检索方法及系统
CN110704666B (zh) * 2019-08-30 2022-06-03 北京大学 一种提升跨视角车辆精确检索的方法及系统
CN110688976A (zh) * 2019-10-09 2020-01-14 创新奇智(北京)科技有限公司 基于图像识别的门店比对方法
CN110866134B (zh) * 2019-11-08 2022-08-05 吉林大学 一种面向图像检索的分布一致性保持度量学习方法
CN110851645B (zh) * 2019-11-08 2022-09-13 吉林大学 一种基于深度度量学习下相似性保持的图像检索方法
CN111126470B (zh) * 2019-12-18 2023-05-02 创新奇智(青岛)科技有限公司 基于深度度量学习的图片数据迭代聚类分析方法
CN111242951A (zh) * 2020-01-08 2020-06-05 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和存储介质
CN111291887B (zh) * 2020-03-06 2023-11-10 北京迈格威科技有限公司 神经网络的训练方法、图像识别方法、装置及电子设备
CN111397870B (zh) * 2020-03-08 2021-05-14 中国地质大学(武汉) 一种基于多样化集成卷积神经网络的机械故障预测方法
CN111626212B (zh) * 2020-05-27 2023-09-26 腾讯科技(深圳)有限公司 图片中对象的识别方法和装置、存储介质及电子装置
CN113239223A (zh) * 2021-04-14 2021-08-10 浙江大学 一种基于输入梯度正则化的图像检索方法
CN113821670B (zh) * 2021-07-23 2024-04-16 腾讯科技(深圳)有限公司 图像检索方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070297675A1 (en) * 2006-06-26 2007-12-27 Shih-Jong J. Lee Method of directed feature development for image pattern recognition
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN105808732A (zh) * 2016-03-10 2016-07-27 北京大学 一种基于深度度量学习的一体化目标属性识别与精确检索方法
CN106022226A (zh) * 2016-05-11 2016-10-12 同济大学 一种基于多方向多通道条形结构的行人再辨识方法
CN106203242A (zh) * 2015-05-07 2016-12-07 阿里巴巴集团控股有限公司 一种相似图像识别方法及设备
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
CN105069173B (zh) * 2015-09-10 2019-04-19 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070297675A1 (en) * 2006-06-26 2007-12-27 Shih-Jong J. Lee Method of directed feature development for image pattern recognition
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN106203242A (zh) * 2015-05-07 2016-12-07 阿里巴巴集团控股有限公司 一种相似图像识别方法及设备
CN105808732A (zh) * 2016-03-10 2016-07-27 北京大学 一种基于深度度量学习的一体化目标属性识别与精确检索方法
CN106022226A (zh) * 2016-05-11 2016-10-12 同济大学 一种基于多方向多通道条形结构的行人再辨识方法
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
CN109558898B (zh) * 2018-11-09 2023-09-05 复旦大学 一种基于深度神经网络的高置信度的多选择学习方法
CN109558898A (zh) * 2018-11-09 2019-04-02 复旦大学 一种基于深度神经网络的高置信度的多选择学习方法
CN111274422A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 模型训练方法、图像特征提取方法、装置及电子设备
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111325223A (zh) * 2018-12-13 2020-06-23 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111382602A (zh) * 2018-12-28 2020-07-07 深圳光启空间技术有限公司 一种跨域人脸识别算法、存储介质及处理器
CN111651433B (zh) * 2019-03-27 2023-05-12 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN111651433A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN110147732A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 指静脉识别方法、装置、计算机设备及存储介质
CN110647914A (zh) * 2019-08-14 2020-01-03 深圳壹账通智能科技有限公司 智能服务水平训练方法、装置及计算机可读存储介质
CN111008224A (zh) * 2019-11-13 2020-04-14 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111008224B (zh) * 2019-11-13 2023-10-27 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法
TWI731542B (zh) * 2019-11-15 2021-06-21 財團法人資訊工業策進會 分類模型生成裝置及其分類模型生成方法
CN111062430A (zh) * 2019-12-12 2020-04-24 易诚高科(大连)科技有限公司 一种基于概率密度函数的行人重识别评价方法
CN111062430B (zh) * 2019-12-12 2023-05-09 易诚高科(大连)科技有限公司 一种基于概率密度函数的行人重识别评价方法
CN111062440B (zh) * 2019-12-18 2024-02-02 腾讯科技(深圳)有限公司 一种样本选择方法、装置、设备及存储介质
CN111062440A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 一种样本选择方法、装置、设备及存储介质
CN111144566B (zh) * 2019-12-30 2024-03-22 深圳云天励飞技术有限公司 神经网络权重参数的训练方法、特征分类方法及对应装置
CN111144566A (zh) * 2019-12-30 2020-05-12 深圳云天励飞技术有限公司 神经网络权重参数的训练方法、特征分类方法及对应装置
CN111339886B (zh) * 2020-02-19 2024-01-09 中山大学 一种基于相似性损失的行为识别方法
CN111339886A (zh) * 2020-02-19 2020-06-26 中山大学 一种基于相似性损失的行为识别方法
CN111401519B (zh) * 2020-03-06 2023-07-04 北京工业大学 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN111401519A (zh) * 2020-03-06 2020-07-10 北京工业大学 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN111460096B (zh) * 2020-03-26 2023-12-22 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111460096A (zh) * 2020-03-26 2020-07-28 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111507289A (zh) * 2020-04-22 2020-08-07 上海眼控科技股份有限公司 视频匹配方法、计算机设备和存储介质
CN111667001A (zh) * 2020-06-05 2020-09-15 平安科技(深圳)有限公司 目标重识别方法、装置、计算机设备和存储介质
CN111667001B (zh) * 2020-06-05 2023-08-04 平安科技(深圳)有限公司 目标重识别方法、装置、计算机设备和存储介质
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN111931807B (zh) * 2020-06-24 2024-02-23 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN112101114A (zh) * 2020-08-14 2020-12-18 中国科学院深圳先进技术研究院 一种视频目标检测方法、装置、设备以及存储介质
CN112036511B (zh) * 2020-09-30 2024-04-30 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112818162B (zh) * 2021-03-04 2023-10-17 泰康保险集团股份有限公司 图像检索方法、装置、存储介质和电子设备
CN112818162A (zh) * 2021-03-04 2021-05-18 泰康保险集团股份有限公司 图像检索方法、装置、存储介质和电子设备
CN112949528B (zh) * 2021-03-12 2023-08-15 长安大学 一种基于时空重要性的隧道内车辆再识别方法
CN112949528A (zh) * 2021-03-12 2021-06-11 长安大学 一种基于时空重要性的隧道内车辆再识别方法
CN113360700A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113360700B (zh) * 2021-06-30 2023-09-29 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113936301B (zh) * 2021-07-02 2024-03-12 西北工业大学 基于中心点预测损失函数的目标重识别方法
CN113936301A (zh) * 2021-07-02 2022-01-14 西北工业大学 基于中心点预测损失函数的目标重识别方法
CN113743251B (zh) * 2021-08-17 2024-02-13 华中科技大学 一种基于弱监督场景的目标搜索方法及装置
CN113743251A (zh) * 2021-08-17 2021-12-03 华中科技大学 一种基于弱监督场景的目标搜索方法及装置
CN116050508A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 神经网络训练方法以及装置
CN115115868B (zh) * 2022-04-13 2024-05-07 之江实验室 一种基于三元组的多模态协同场景识别方法
CN115115868A (zh) * 2022-04-13 2022-09-27 之江实验室 一种基于三元组的多模态协同场景识别方法
CN115146718A (zh) * 2022-06-27 2022-10-04 北京华能新锐控制技术有限公司 基于深度表示的风电机组异常检测方法
CN115909403B (zh) * 2022-11-25 2023-08-22 天津大学四川创新研究院 基于深度学习的低成本高精度猪脸识别方法
CN115909403A (zh) * 2022-11-25 2023-04-04 天津大学四川创新研究院 基于深度学习的低成本高精度猪脸识别方法
CN116844646A (zh) * 2023-09-04 2023-10-03 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN116844646B (zh) * 2023-09-04 2023-11-24 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN117274578B (zh) * 2023-11-23 2024-02-02 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117708199A (zh) * 2023-12-14 2024-03-15 北京智乐享科技有限公司 基于标签用户模型的信息检索方法

Also Published As

Publication number Publication date
CN106897390A (zh) 2017-06-27
CN106897390B (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
WO2018137358A1 (zh) 基于深度度量学习的目标精确检索方法
Lin et al. A bottom-up clustering approach to unsupervised person re-identification
Zheng et al. Person re-identification meets image search
Zhu et al. Unsupervised object class discovery via saliency-guided multiple class learning
CN109583482B (zh) 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
Wang et al. View-based discriminative probabilistic modeling for 3D object retrieval and recognition
Bouguila Hybrid generative/discriminative approaches for proportional data modeling and classification
Zhang et al. RGB-D face recognition via deep complementary and common feature learning
Rao et al. Multi-pose facial expression recognition based on SURF boosting
US20200334486A1 (en) System and a method for semantic level image retrieval
CN104281572B (zh) 一种基于互信息的目标匹配方法及其系统
Xia et al. Face occlusion detection using deep convolutional neural networks
CN107330363B (zh) 一种快速的互联网广告牌检测方法
Amores et al. Fast spatial pattern discovery integrating boosting with constellations of contextual descriptors
Symeonidis et al. Neural attention-driven non-maximum suppression for person detection
Gao et al. SHREC’15 Track: 3D object retrieval with multimodal views
Cai et al. Beyond photo-domain object recognition: Benchmarks for the cross-depiction problem
Larochelle Few-shot learning
Epshtein et al. Identifying semantically equivalent object fragments
Rodriguez-Serrano et al. Data-driven detection of prominent objects
CN117036897A (zh) 一种基于Meta RCNN的少样本目标检测方法
Chen et al. DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification
Cao et al. Learning multi-scale features and batch-normalized global features for person re-identification
Chen et al. Semi-supervised distance metric learning for person re-identification
Boyraz12 et al. Action recognition by weakly-supervised discriminative region localization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17894581

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17894581

Country of ref document: EP

Kind code of ref document: A1