WO2023273290A1 - 基于多特征信息捕捉和相关性分析的物品图像重识别方法 - Google Patents

基于多特征信息捕捉和相关性分析的物品图像重识别方法 Download PDF

Info

Publication number
WO2023273290A1
WO2023273290A1 PCT/CN2022/070929 CN2022070929W WO2023273290A1 WO 2023273290 A1 WO2023273290 A1 WO 2023273290A1 CN 2022070929 W CN2022070929 W CN 2022070929W WO 2023273290 A1 WO2023273290 A1 WO 2023273290A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature
attention mechanism
item
features
Prior art date
Application number
PCT/CN2022/070929
Other languages
English (en)
French (fr)
Inventor
聂秀山
张雪
王春涛
陶鹏
李晓峰
Original Assignee
山东建筑大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 山东建筑大学 filed Critical 山东建筑大学
Priority to US17/876,585 priority Critical patent/US20220415027A1/en
Publication of WO2023273290A1 publication Critical patent/WO2023273290A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • the invention relates to the technical field of image retrieval, in particular to an item image re-identification method based on multi-feature information capture and correlation analysis.
  • item image re-identification is able to retrieve all images of the same item from multiple different cameras.
  • Item re-identification technology can not only improve people's shopping experience, but also save a certain amount of cost, improve productivity, and reduce the loss rate of items.
  • the item image re-identification system is also widely used, not only in small stores, supermarkets and other retail industries, but also in large-scale places such as logistics companies and warehouses.
  • image re-identification methods based on manually designed features
  • image re-identification methods based on deep learning uses the inherent attributes in the image to re-identify the image.
  • image categories that can be predicted are limited, the generalization ability is poor, and it is time-consuming.
  • Some image re-recognition methods based on deep learning focus on global information, fail to capture subtle differences between features, ignore the importance of local information, and some can only capture some of the more important information, not very Considering the overall information well, the accuracy of image re-identification is not high.
  • the present invention provides a method for improving the efficiency and accuracy of item re-identification.
  • An item image re-identification method based on multi-feature information capture and correlation analysis comprising:
  • step d) After manually marking the ID information of the collected item image, input step c) into the optimized item image re-identification model for training, obtain the trained item image re-identification model, and perform the trained item image re-identification model save;
  • step e Input the image of the item to be retrieved into the re-recognition model of the item image trained in step d), to obtain the features of the item to be retrieved;
  • step b) includes the following steps:
  • b-1) Set the network of the input image as two branch networks, respectively the first feature branch network and the second feature branch network;
  • the feature map f is obtained by processing the item image h through the convolutional layer, and the channel is used
  • the attention mechanism processes the feature map f, performs global average pooling and global maximum pooling operations on the feature map f once, and obtains two one-dimensional vectors respectively, and sequentially passes the two one-dimensional vectors through convolution, ReLU activation function, The 1*1 convolution and sigmoid function operations are normalized, and the feature map f is weighted, and the spatial attention mechanism is used to perform maximum pooling and summing on all channels of each position in the weighted feature map f.
  • Average pooling respectively obtain the feature map after the maximum pooling and the feature map after the average pooling for splicing, and perform 7*7 convolution on the spliced feature map and use the batch normalization layer and the sigmoid function for normalization Processing, multiplying the normalized spliced feature map and the feature map f to obtain new features;
  • the transformer encoder in step b-4) includes a multi-head attention mechanism and a feed-forward layer.
  • the multi-head attention mechanism is composed of multiple self-attention mechanisms.
  • V t [
  • the beneficial effect of the present invention is: by using the convolutional layer with the spatial attention mechanism and the channel attention mechanism, the input feature map is weighted, and the effective combination of channel and spatial information is considered, not only important features can be focused And suppress unnecessary features, and can also improve the representation of attention points, so as to obtain better features.
  • Using the transformer and the multi-head attention mechanism can better process the features after image segmentation, capture more abundant feature information, and take into account the correlation between features, so as to obtain good performance and improve the efficiency of item image retrieval.
  • Combining the convolution layer with channel attention mechanism and spatial attention mechanism and the transformer with multi-head attention mechanism it can pay attention to more important features from a global perspective, and can better capture fine-grained features, so that re-identification performance can be greatly improved.
  • FIG. 1 is a model diagram of an item image re-identification method based on multi-feature information capture and correlation analysis of the present invention.
  • An item image re-identification method based on multi-feature information capture and correlation analysis comprising:
  • a) Collect several item images to form an item image re-identification database, label the ID information of the item images in the database, and divide the database into a training set and a test set.
  • step d) After manually marking the ID information of the collected item image, input step c) into the optimized item image re-identification model for training, obtain the trained item image re-identification model, and perform the trained item image re-identification model save.
  • step e Input the image of the item to be retrieved into the image re-identification model of the item trained in step d), and obtain the features of the item to be retrieved.
  • the input feature map is weighted, considering the effective combination of channel and spatial information, not only can focus on important features and suppress unnecessary features, It can also improve the representation of attention points, so as to obtain better features.
  • Using the transformer and the multi-head attention mechanism can better process the features after image segmentation, capture more abundant feature information, and take into account the correlation between features, so as to obtain good performance and improve the efficiency of item image retrieval.
  • Combining the convolution layer with channel attention mechanism and spatial attention mechanism and the transformer with multi-head attention mechanism it can pay attention to more important features from a global perspective, and can better capture fine-grained features, so that re-identification performance can be greatly improved.
  • Step b) comprises the following steps:
  • the network of the input image is set as two branch networks, namely the first feature branch network and the second feature branch network.
  • the feature map f is obtained by processing the item image h through the convolutional layer, and the channel is used
  • the attention mechanism processes the feature map f, performs global average pooling and global maximum pooling operations on the feature map f once, and obtains two one-dimensional vectors respectively, and sequentially passes the two one-dimensional vectors through convolution, ReLU activation function, The 1*1 convolution and sigmoid function operations are normalized, and the feature map f is weighted, and the spatial attention mechanism is used to perform maximum pooling and summing on all channels of each position in the weighted feature map f.
  • Average pooling respectively obtain the feature map after the maximum pooling and the feature map after the average pooling for splicing, and perform 7*7 convolution on the spliced feature map and use the batch normalization layer and the sigmoid function for normalization
  • the normalized spliced feature map is multiplied by the feature map f to obtain a new feature.
  • the transformer encoder in step b-4) includes a multi-head attention mechanism and a feed-forward layer.
  • the multi-head attention mechanism is composed of multiple self-attention mechanisms.
  • y represents the output of the encoder.
  • the attention coefficient is learned through a multi-head attention mechanism composed of multiple self-attention mechanisms, which captures richer feature information and obtains the degree of attention to each feature.
  • residual design and layer normalization operations are added to prevent gradients. Disappear, speed up the convergence, and get new features on this branch through multiple encoders.
  • Step c) in step c) by formula Calculate the cross-entropy loss V ID , where g i is the indicator variable, n is the number of categories in the training data set, p i is the probability of image prediction of the i-th category, and the formula V t [
  • 2 + ⁇ ] + Calculate the triplet loss function V t , where ⁇ is the distance, v a is the sample of the class label learned by the transformer, and v p is the class marked by the transformer The positive sample of the learned class mark, v n is the negative sample of the class mark learned by the transformer, [d] + is max[d,0], d

Abstract

一种基于多特征信息捕捉和相关性分析的物品图像重识别方法,通过利用带有空间注意力机制和通道注意力机制的卷积层,对输入的特征图进行加权,考虑了通道和空间上信息的有效结合,不仅能够关注重要的特征并抑制不必要的特征,还能够提高关注点的表示,从而获得更优的特征。使用transformer,利用多头注意力机制能够更好的处理图像分块之后的特征,捕捉更加丰富的特征信息,能够考虑到特征间的相关性,从而能够获得良好的性能,提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer,能够从全局上关注比较重要的特征,也能够更好的捕捉细粒度特征,从而使得重识别的性能能够有很好的提升。

Description

基于多特征信息捕捉和相关性分析的物品图像重识别方法 技术领域
本发明涉及图像检索技术领域,具体涉及一种基于多特征信息捕捉和相关性分析的物品图像重识别方法。
背景技术
近年来,迅速发展的人工智能、计算机视觉等技术在各个领域都有着广泛的应用。随着信息时代的不断发展,将计算机视觉与物品销售、管理等方面的结合也成为目前关注的热点。给定一个查询的物品图像,物品图像重识别能够通过多个不同的摄像机检索到同一物品的所有图像。物品重识别技术不仅能够提升人们的购物体验,还能节约一定的成本,提高生产力,同时也能降低物品的丢失率。物品图像重识别系统的应用也很广泛,不仅可以应用在小卖店、超市等零售行业,还可以应用在物流公司、仓库等大型的地方。
现有技术中,可以分为基于手工设计特征的图像重识别方法和基于深度学习的图像重识别方法,基于手工设计特征的图像重识别方法利用了图像中固有的属性进行了图像的重识别,但是能够预测到的图像类别受到限制,泛化能力差,比较耗时。基于深度学习的图像重识别方法有的重在关注全局信息,没有很好地捕获细微的特征间的差异,忽略了局部信息的重要性,有的只能捕捉到部分比较重要的信息,不能很好地考虑到整体的信息,从而导致图像重识别的精确率不高。
发明内容
本发明为了克服以上技术的不足,提供了一种提高物品重识别的效率和精确性的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于多特征信息捕捉和相关性分析的物品图像重识别方法,包括:
a)采集若干张物品图像组成物品图像重识别数据库,标注数据库中物品图像的ID信息,将数据库划分为训练集和测试集;
b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型;
c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数;
d)将采集到的物品图像人工标记ID信息后,输入步骤c)优化后的物品图像重识别模型中进行训练,得到训练完成的物品图像重识别模型,将训练好的物品图像重识别模型进行保存;
e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型,得到待检索物品的特征;
f)将待检索物品的特征与测试集中物品图像特征进行比较,通过相似性度量对比较结果进行排序。
进一步的,步骤b)包括如下步骤:
b-1)将输入图像的网络设为两个分支网络,分别为第一特征分支网络和第二特征分支网络;
b-2)将训练集中物品图像h输入到第一特征分支网络中,
Figure PCTCN2022070929-appb-000001
为实数空间,e为物品图像h的水平像素数,w为物品图像h的垂直像素数,3为每个RGB图像的通道数,将物品图像h通过卷积层处理得到特征图f,使用通道注意力机制对特征图f进行处理,对特征图f一次进行全局平均池化及全局最大池化操作,分别得到两个一维向量,将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理,完成对特征图f进行加权,使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化,分别得到最大池化后的特征图和平均池化后的特征图进行拼接,将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化处理,将归一化后的拼接的特征图和特征图f相乘得到新的特征;
b-3)将训练集中物品图像h输入到第二特征分支网络中,
Figure PCTCN2022070929-appb-000002
将图像h进行分块处理,得到n个二维的块,通过一个线性变换层将二维的块嵌入表示为一维的向量
Figure PCTCN2022070929-appb-000003
p为图像块的分辨率,n=ew/p 2,通过公式
Figure PCTCN2022070929-appb-000004
计算所有块的均值嵌入h a,h i为通过高斯分布初始化得到的第i 个块的嵌入,i∈{1,...,n},通过公式a i=q Tσ(W 1h 0+W 2h i+W 3h a)计算得到第i个块的注意力系数a i,式中q T为权重,σ为sigmoid函数,h 0为类标记,W 1、W 2、W 3均为权重,通过公式
Figure PCTCN2022070929-appb-000005
计算每个块的新的嵌入h l,通过公式h 0′=W 4[h 0||h l]计算新的类标记h 0′,式中W 4为权重;
b-4)将新的类标记h 0′与输入大小为
Figure PCTCN2022070929-appb-000006
的序列作为新的图像的整体表示,d c=d*m,d为多头注意力机制中每个自注意力机制头部的维度大小,m为多头注意力机制的头数,在新的图像中添加位置信息后作为transformer encoder的输入,完成物品图像重识别模型的建立。
进一步的,步骤b-4)中的transformer encoder包括多头注意力机制和前馈层,多头注意力机制由多个自注意力机制组成,通过公式
Figure PCTCN2022070929-appb-000007
计算序列
Figure PCTCN2022070929-appb-000008
中的第i个值的加权Attention(h l,i),式中Q i为第i个查询的向量,T为倒置,K i为第i个被查询信息和其他信息相关性的向量,V i为第i个查询信息的向量,通过公式
Figure PCTCN2022070929-appb-000009
计算得到多头注意力机制新的输出嵌入SA(h l),通过公式h′=ωLN(h l+SA(h l))计算得到前馈层的输入h′,通过公式y=ωLN(h′+FFN(h′))计算得到encoder的输出y,式中Proj(·)为线性映射,Concat(·)为拼接操作,
Figure PCTCN2022070929-appb-000010
Figure PCTCN2022070929-appb-000011
为GELU激活函数,c 1与c 2均是可学习的偏置,ω为比率,LN为归一化操作,将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。
进一步的,步骤c)中通过公式
Figure PCTCN2022070929-appb-000012
计算交叉 熵损失V ID,式中g i为指示变量,n为训练数据集中的类别数,p i为第i类图像预测的概率,通过公式V t=[||v a-v p|| 2-||v a-v n|| 2+α] +计算得到三元组损失函数V t,式中α为间距,v a为经transformer学习后的类标记的样本,v p为经transformer学习后的类标记的正样本,v n为经transformer学习后的类标记的负样本,[d] +为max[d,0],d=||v a-v p|| 2-||v a-v n|| 2+α。
本发明的有益效果是:通过利用带有空间注意力机制和通道注意力机制的卷积层,对输入的特征图进行加权,考虑了通道和空间上信息的有效结合,不仅能够关注重要的特征并抑制不必要的特征,还能够提高关注点的表示,从而获得更优的特征。使用transformer,利用多头注意力机制能够更好的处理图像分块之后的特征,捕捉更加丰富的特征信息,能够考虑到特征间的相关性,从而能够获得良好的性能,提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer,能够从全局上关注比较重要的特征,也能够更好的捕捉细粒度特征,从而使得重识别的性能能够有很好的提升。
附图说明
图1为本发明的基于多特征信息捕捉和相关性分析的物品图像重识别方法的模型图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于多特征信息捕捉和相关性分析的物品图像重识别方法,包括:
a)采集若干张物品图像组成物品图像重识别数据库,标注数据库中物品图像的ID信息,将数据库划分为训练集和测试集。
b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型。
c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数。
d)将采集到的物品图像人工标记ID信息后,输入步骤c)优化后的物品图像重识别模型中进行训练,得到训练完成的物品图像重识别模型,将训练好的物品图像 重识别模型进行保存。
e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型,得到待检索物品的特征。
f)将待检索物品的特征与测试集中物品图像特征进行比较,通过相似性度量对比较结果进行排序。
通过利用带有空间注意力机制和通道注意力机制的卷积层,对输入的特征图进行加权,考虑了通道和空间上信息的有效结合,不仅能够关注重要的特征并抑制不必要的特征,还能够提高关注点的表示,从而获得更优的特征。使用transformer,利用多头注意力机制能够更好的处理图像分块之后的特征,捕捉更加丰富的特征信息,能够考虑到特征间的相关性,从而能够获得良好的性能,提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer,能够从全局上关注比较重要的特征,也能够更好的捕捉细粒度特征,从而使得重识别的性能能够有很好的提升。
步骤b)包括如下步骤:
b-1)将输入图像的网络设为两个分支网络,分别为第一特征分支网络和第二特征分支网络。
b-2)将训练集中物品图像h输入到第一特征分支网络中,
Figure PCTCN2022070929-appb-000013
为实数空间,e为物品图像h的水平像素数,w为物品图像h的垂直像素数,3为每个RGB图像的通道数,将物品图像h通过卷积层处理得到特征图f,使用通道注意力机制对特征图f进行处理,对特征图f一次进行全局平均池化及全局最大池化操作,分别得到两个一维向量,将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理,完成对特征图f进行加权,使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化,分别得到最大池化后的特征图和平均池化后的特征图进行拼接,将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化处理,将归一化后的拼接的特征图和特征图f相乘得到新的特征。
b-3)将训练集中物品图像h输入到第二特征分支网络中,
Figure PCTCN2022070929-appb-000014
将图像h进行分块处理,得到n个二维的块,通过一个线性变换层将二维的块嵌入表示为一维的向量
Figure PCTCN2022070929-appb-000015
p为图像块的分辨率,n=ew/p 2,为得到所有块数,同时也是transformer的有效输入序列长度,这些小块被展平并被映射成大小为d的嵌入,刚开始的分块处理可能导致会遗漏一些边角的重要信息,所以先使用注意力机制为每个块分配不同的注意力系数,然后在序列中加入一个额外的类标记h 0,通过公式
Figure PCTCN2022070929-appb-000016
计算所有块的均值嵌入h a,h i为通过高斯分布初始化得到的第i个块的嵌入,i∈{1,...,n},通过公式a i=q Tσ(W 1h 0+W 2h i+W 3h a)计算得到第i个块的注意力系数a i,式中q T为权重,σ为sigmoid函数,h 0为类标记,W 1、W 2、W 3均为权重,通过公式
Figure PCTCN2022070929-appb-000017
计算每个块的新的嵌入h l,通过公式h 0′=W 4[h 0||h l]计算新的类标记h 0′,式中W 4为权重。
b-4)将新的类标记h 0′与输入大小为
Figure PCTCN2022070929-appb-000018
的序列作为新的图像的整体表示,d c=d*m,d为多头注意力机制中每个自注意力机制头部的维度大小,m为多头注意力机制的头数,在新的图像中添加位置信息后作为transformer encoder的输入,完成物品图像重识别模型的建立。
步骤b-4)中的transformer encoder包括多头注意力机制和前馈层,多头注意力机制由多个自注意力机制组成,通过公式
Figure PCTCN2022070929-appb-000019
计算序列
Figure PCTCN2022070929-appb-000020
中的第i个值的加权Attention(h l,i),式中Q i为第i个查询的向量,T为倒置,K i为第i个被查询信息和其他信息相关性的向量,V i为第i个查询信息的向量,通过公式
Figure PCTCN2022070929-appb-000021
计算得到多头注意力机制新的输出嵌入SA(h l),通过公式h′=ωLN(h l+SA(h l))计算得到前馈层的输入h′,通过公式y=ωLN(h′+FFN(h′))计算得到encoder的输出y,式中Proj(·)为线性映射,Concat(·)为拼接操作,
Figure PCTCN2022070929-appb-000022
Figure PCTCN2022070929-appb-000023
为GELU激活函数,c 1与c 2均是可学习的偏置,ω为比率,LN为归一化操作,将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。通过使用一个更小的ω来重新缩放残差特征值,有助于增强残差连接,y表示encoder的输出。经过由多个自注意力机制组成的多头注意力机制学习注意力系数,捕捉到更加丰富的特征信息,得到对每个特征的关注程度,同时加入残差设计和层归一化操作,防止梯度消失,加快收敛,经过多个encoder,来得到这个分支上的新特征。
步骤c)步骤c)中通过公式
Figure PCTCN2022070929-appb-000024
计算交叉熵损失V ID,式中g i为指示变量,n为训练数据集中的类别数,p i为第i类图像预测的概率,通过公式V t=[||v a-v p|| 2-||v a-v n|| 2+α] +计算得到三元组损失函数V t,式中α为间距,v a为经transformer学习后的类标记的样本,v p为经transformer学习后的类标记的正样本,v n为经transformer学习后的类标记的负样本,[d] +为max[d,0],d=||v a-v p|| 2-||v a-v n|| 2+α。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

  1. 一种基于多特征信息捕捉和相关性分析的物品图像重识别方法,其特征在于,包括:
    a)采集若干张物品图像组成物品图像重识别数据库,标注数据库中物品图像的ID信息,将数据库划分为训练集和测试集;
    b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型;
    c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数;
    d)将采集到的物品图像人工标记ID信息后,输入步骤c)优化后的物品图像重识别模型中进行训练,得到训练完成的物品图像重识别模型,将训练好的物品图像重识别模型进行保存;
    e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型,得到待检索物品的特征;
    f)将待检索物品的特征与测试集中物品图像特征进行比较,通过相似性度量对比较结果进行排序。
  2. 根据权利要求1所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法,其特征在于,步骤b)包括如下步骤:
    b-1)将输入图像的网络设为两个分支网络,分别为第一特征分支网络和第二特征分支网络;
    b-2)将训练集中物品图像h输入到第一特征分支网络中,
    Figure PCTCN2022070929-appb-100001
    为实数空间,e为物品图像h的水平像素数,w为物品图像h的垂直像素数,3为每个RGB图像的通道数,将物品图像h通过卷积层处理得到特征图f,使用通道注意力机制对特征图f进行处理,对特征图f一次进行全局平均池化及全局最大池化操作,分别得到两个一维向量,将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理,完成对特征图f进行加权,使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化,分别得到最大池化后的特征图和平均池化后的特征图进行拼接,将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化 处理,将归一化后的拼接的特征图和特征图f相乘得到新的特征;
    b-3)将训练集中物品图像h输入到第二特征分支网络中,
    Figure PCTCN2022070929-appb-100002
    将图像h进行分块处理,得到n个二维的块,通过一个线性变换层将二维的块嵌入表示为一维的向量
    Figure PCTCN2022070929-appb-100003
    p为图像块的分辨率,n=ew/p 2,通过公式
    Figure PCTCN2022070929-appb-100004
    计算所有块的均值嵌入h a,h i为通过高斯分布初始化得到的第i个块的嵌入,i∈{1,...,n},通过公式a i=q Tσ(W 1h 0+W 2h i+W 3h a)计算得到第i个块的注意力系数a i,式中q T为权重,σ为sigmoid函数,h 0为类标记,W 1、W 2、W 3均为权重,通过公式
    Figure PCTCN2022070929-appb-100005
    计算每个块的新的嵌入h l,通过公式h 0′=W 4[h 0||h l]计算新的类标记h 0′,式中W 4为权重;
    b-4)将新的类标记h 0′与输入大小为
    Figure PCTCN2022070929-appb-100006
    的序列作为新的图像的整体表示,d c=d*m,d为多头注意力机制中每个自注意力机制头部的维度大小,m为多头注意力机制的头数,在新的图像中添加位置信息后作为transformer encoder的输入,完成物品图像重识别模型的建立。
  3. 根据权利要求2所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法,其特征在于:步骤b-4)中的transformer encoder包括多头注意力机制和前馈层,多头注意力机制由多个自注意力机制组成,通过公式
    Figure PCTCN2022070929-appb-100007
    计算序列
    Figure PCTCN2022070929-appb-100008
    中的第i个值的加权Attention(h l,i),式中Q i为第i个查询的向量,T为倒置,K i为第i个被查询信息和其他信息相关性的向量,V i为第i个查询信息的向量,通过公式
    Figure PCTCN2022070929-appb-100009
    计算得到多头注意力机制新的输出嵌入SA(h l),通过公式h′=ωLN(h l+SA(h l))计算得到前馈层的输入 h′,通过公式y=ωLN(h′+FFN(h′))计算得到encoder的输出y,式中Proj(·)为线性映射,Concat(·)为拼接操作,
    Figure PCTCN2022070929-appb-100010
    Figure PCTCN2022070929-appb-100011
    为GELU激活函数,c 1与c 2均是可学习的偏置,ω为比率,LN为归一化操作,将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。
  4. 根据权利要求2所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法,其特征在于:步骤c)中通过公式
    Figure PCTCN2022070929-appb-100012
    计算交叉熵损失V ID,式中g i为指示变量,n为训练数据集中的类别数,p i为第i类图像预测的概率,通过公式V t=[||v a-v p|| 2-||v a-v n|| 2+α] +计算得到三元组损失函数V t,式中α为间距,v a为经transformer学习后的类标记的样本,v p为经transformer学习后的类标记的正样本,v n为经transformer学习后的类标记的负样本,[d] +为max[d,0],d=||v a-v p|| 2-||v a-v n|| 2+α。
PCT/CN2022/070929 2021-06-29 2022-01-10 基于多特征信息捕捉和相关性分析的物品图像重识别方法 WO2023273290A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/876,585 US20220415027A1 (en) 2021-06-29 2022-07-29 Method for re-recognizing object image based on multi-feature information capture and correlation analysis

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110732494.2A CN113449131B (zh) 2021-06-29 2021-06-29 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN202110732494.2 2021-06-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/876,585 Continuation-In-Part US20220415027A1 (en) 2021-06-29 2022-07-29 Method for re-recognizing object image based on multi-feature information capture and correlation analysis

Publications (1)

Publication Number Publication Date
WO2023273290A1 true WO2023273290A1 (zh) 2023-01-05

Family

ID=77814253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/070929 WO2023273290A1 (zh) 2021-06-29 2022-01-10 基于多特征信息捕捉和相关性分析的物品图像重识别方法

Country Status (2)

Country Link
CN (1) CN113449131B (zh)
WO (1) WO2023273290A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880298A (zh) * 2023-03-02 2023-03-31 湖南大学 一种基于无监督预训练的玻璃表面缺陷检测方法及系统
CN116052218A (zh) * 2023-02-13 2023-05-02 中国矿业大学 一种行人重识别方法
CN116091786A (zh) * 2023-04-11 2023-05-09 厦门农芯数字科技有限公司 猪只估重的全息体尺自编码方法、系统、设备及存储介质
CN116188436A (zh) * 2023-03-03 2023-05-30 合肥工业大学 基于局部特征和全局特征融合的膀胱镜图像分类方法
CN116311105A (zh) * 2023-05-15 2023-06-23 山东交通学院 一种基于样本间上下文指导网络的车辆重识别方法
CN116363037A (zh) * 2023-06-01 2023-06-30 华东交通大学 一种多模态图像融合方法、装置及设备
CN116503914A (zh) * 2023-06-27 2023-07-28 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备
CN116682000A (zh) * 2023-07-28 2023-09-01 吉林大学 一种基于事件相机的水下蛙人目标检测方法
CN116704453A (zh) * 2023-08-08 2023-09-05 山东交通学院 用于车辆重识别的自适应划分和先验强化部位学习网络
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN117054891A (zh) * 2023-10-11 2023-11-14 中煤科工(上海)新能源有限公司 电池寿命的预测方法、预测装置
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117132978A (zh) * 2023-10-27 2023-11-28 深圳市敏视睿行智能科技有限公司 一种微生物图像识别系统及方法
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统
CN117274184A (zh) * 2023-09-19 2023-12-22 河北大学 一种针对肾癌PET-CT图像的预测ki-67表达方法
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449131B (zh) * 2021-06-29 2022-06-03 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN114543960A (zh) * 2022-02-24 2022-05-27 山东师范大学 一种基于图像识别的智能秤、系统及称重方法
CN116091486B (zh) * 2023-03-01 2024-02-06 合肥联宝信息技术有限公司 表面缺陷检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751018A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于混合注意力机制的群组行人重识别方法
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111553205A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 无车牌信息车辆重识别方法、系统、介质、视频监控系统
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN113449131A (zh) * 2021-06-29 2021-09-28 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807465B (zh) * 2019-11-05 2020-06-30 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN110751018A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于混合注意力机制的群组行人重识别方法
CN111553205A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 无车牌信息车辆重识别方法、系统、介质、视频监控系统
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN113449131A (zh) * 2021-06-29 2021-09-28 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052218A (zh) * 2023-02-13 2023-05-02 中国矿业大学 一种行人重识别方法
CN115880298A (zh) * 2023-03-02 2023-03-31 湖南大学 一种基于无监督预训练的玻璃表面缺陷检测方法及系统
CN116188436A (zh) * 2023-03-03 2023-05-30 合肥工业大学 基于局部特征和全局特征融合的膀胱镜图像分类方法
CN116188436B (zh) * 2023-03-03 2023-11-10 合肥工业大学 基于局部特征和全局特征融合的膀胱镜图像分类方法
CN116091786A (zh) * 2023-04-11 2023-05-09 厦门农芯数字科技有限公司 猪只估重的全息体尺自编码方法、系统、设备及存储介质
CN116091786B (zh) * 2023-04-11 2023-06-20 厦门农芯数字科技有限公司 猪只估重的全息体尺自编码方法、系统、设备及存储介质
CN116311105B (zh) * 2023-05-15 2023-09-19 山东交通学院 一种基于样本间上下文指导网络的车辆重识别方法
CN116311105A (zh) * 2023-05-15 2023-06-23 山东交通学院 一种基于样本间上下文指导网络的车辆重识别方法
CN116363037A (zh) * 2023-06-01 2023-06-30 华东交通大学 一种多模态图像融合方法、装置及设备
CN116363037B (zh) * 2023-06-01 2023-08-11 华东交通大学 一种多模态图像融合方法、装置及设备
CN116503914A (zh) * 2023-06-27 2023-07-28 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备
CN116503914B (zh) * 2023-06-27 2023-09-01 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备
CN116682000A (zh) * 2023-07-28 2023-09-01 吉林大学 一种基于事件相机的水下蛙人目标检测方法
CN116682000B (zh) * 2023-07-28 2023-10-13 吉林大学 一种基于事件相机的水下蛙人目标检测方法
CN116704453A (zh) * 2023-08-08 2023-09-05 山东交通学院 用于车辆重识别的自适应划分和先验强化部位学习网络
CN116704453B (zh) * 2023-08-08 2023-11-28 山东交通学院 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117115583B (zh) * 2023-08-09 2024-04-02 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN116824525B (zh) * 2023-08-29 2023-11-14 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN117274184A (zh) * 2023-09-19 2023-12-22 河北大学 一种针对肾癌PET-CT图像的预测ki-67表达方法
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117054891A (zh) * 2023-10-11 2023-11-14 中煤科工(上海)新能源有限公司 电池寿命的预测方法、预测装置
CN117132978B (zh) * 2023-10-27 2024-02-20 深圳市敏视睿行智能科技有限公司 一种微生物图像识别系统及方法
CN117132978A (zh) * 2023-10-27 2023-11-28 深圳市敏视睿行智能科技有限公司 一种微生物图像识别系统及方法
CN117274883B (zh) * 2023-11-20 2024-01-26 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统

Also Published As

Publication number Publication date
CN113449131B (zh) 2022-06-03
CN113449131A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
WO2023273290A1 (zh) 基于多特征信息捕捉和相关性分析的物品图像重识别方法
US20220415027A1 (en) Method for re-recognizing object image based on multi-feature information capture and correlation analysis
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
WO2023142602A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN115019103A (zh) 基于坐标注意力群组优化的小样本目标检测方法
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN107330363B (zh) 一种快速的互联网广告牌检测方法
CN115830637B (zh) 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN116129176A (zh) 一种基于强关联动态学习的少样本目标检测方法
CN107291813B (zh) 基于语义分割场景的示例搜索方法
CN116258938A (zh) 基于自主进化损失的图像检索与识别方法
CN114187569A (zh) 一种皮尔森系数矩阵与注意力融合的实时目标检测方法
CN113705731A (zh) 一种基于孪生网络的端到端图像模板匹配方法
CN113128608A (zh) 一种基于5g和图嵌入优化的tsvm模型自优化与预测方法、设备及存储介质
Xudong et al. Pedestrian detection and tracking with deep mutual learning
WO2020252746A1 (zh) 一种利用共基胶囊投影进行图像分类的方法
CN112001345A (zh) 基于特征变换度量网络的少样本人体行为识别方法及系统
CN114937289B (zh) 一种基于异构伪标签学习的跨域行人检索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22831127

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE