WO2023273290A1

WO2023273290A1 - 基于多特征信息捕捉和相关性分析的物品图像重识别方法

Info

Publication number: WO2023273290A1
Application number: PCT/CN2022/070929
Authority: WO
Inventors: 聂秀山; 张雪; 王春涛; 陶鹏; 李晓峰
Original assignee: 山东建筑大学
Priority date: 2021-06-29
Filing date: 2022-01-10
Publication date: 2023-01-05
Also published as: CN113449131B; CN113449131A

Abstract

一种基于多特征信息捕捉和相关性分析的物品图像重识别方法，通过利用带有空间注意力机制和通道注意力机制的卷积层，对输入的特征图进行加权，考虑了通道和空间上信息的有效结合，不仅能够关注重要的特征并抑制不必要的特征，还能够提高关注点的表示，从而获得更优的特征。使用transformer，利用多头注意力机制能够更好的处理图像分块之后的特征，捕捉更加丰富的特征信息，能够考虑到特征间的相关性，从而能够获得良好的性能，提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer，能够从全局上关注比较重要的特征，也能够更好的捕捉细粒度特征，从而使得重识别的性能能够有很好的提升。

Description

基于多特征信息捕捉和相关性分析的物品图像重识别方法

技术领域

本发明涉及图像检索技术领域，具体涉及一种基于多特征信息捕捉和相关性分析的物品图像重识别方法。

背景技术

近年来，迅速发展的人工智能、计算机视觉等技术在各个领域都有着广泛的应用。随着信息时代的不断发展，将计算机视觉与物品销售、管理等方面的结合也成为目前关注的热点。给定一个查询的物品图像，物品图像重识别能够通过多个不同的摄像机检索到同一物品的所有图像。物品重识别技术不仅能够提升人们的购物体验，还能节约一定的成本，提高生产力，同时也能降低物品的丢失率。物品图像重识别系统的应用也很广泛，不仅可以应用在小卖店、超市等零售行业，还可以应用在物流公司、仓库等大型的地方。

现有技术中，可以分为基于手工设计特征的图像重识别方法和基于深度学习的图像重识别方法，基于手工设计特征的图像重识别方法利用了图像中固有的属性进行了图像的重识别，但是能够预测到的图像类别受到限制，泛化能力差，比较耗时。基于深度学习的图像重识别方法有的重在关注全局信息，没有很好地捕获细微的特征间的差异，忽略了局部信息的重要性，有的只能捕捉到部分比较重要的信息，不能很好地考虑到整体的信息，从而导致图像重识别的精确率不高。

发明内容

本发明为了克服以上技术的不足，提供了一种提高物品重识别的效率和精确性的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于多特征信息捕捉和相关性分析的物品图像重识别方法，包括：

a)采集若干张物品图像组成物品图像重识别数据库，标注数据库中物品图像的ID信息，将数据库划分为训练集和测试集；

b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型；

c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数；

d)将采集到的物品图像人工标记ID信息后，输入步骤c)优化后的物品图像重识别模型中进行训练，得到训练完成的物品图像重识别模型，将训练好的物品图像重识别模型进行保存；

e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型，得到待检索物品的特征；

f)将待检索物品的特征与测试集中物品图像特征进行比较，通过相似性度量对比较结果进行排序。

进一步的，步骤b)包括如下步骤：

b-1)将输入图像的网络设为两个分支网络，分别为第一特征分支网络和第二特征分支网络；

b-2)将训练集中物品图像h输入到第一特征分支网络中，

为实数空间，e为物品图像h的水平像素数，w为物品图像h的垂直像素数，3为每个RGB图像的通道数，将物品图像h通过卷积层处理得到特征图f，使用通道注意力机制对特征图f进行处理，对特征图f一次进行全局平均池化及全局最大池化操作，分别得到两个一维向量，将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理，完成对特征图f进行加权，使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化，分别得到最大池化后的特征图和平均池化后的特征图进行拼接，将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化处理，将归一化后的拼接的特征图和特征图f相乘得到新的特征；

b-3)将训练集中物品图像h输入到第二特征分支网络中，

将图像h进行分块处理，得到n个二维的块，通过一个线性变换层将二维的块嵌入表示为一维的向量

p为图像块的分辨率，n＝ew/p ²，通过公式

计算所有块的均值嵌入h _a，h _i为通过高斯分布初始化得到的第i 个块的嵌入，i∈{1,...,n}，通过公式a _i＝q ^Tσ(W ₁h ₀+W ₂h _i+W ₃h _a)计算得到第i个块的注意力系数a _i，式中q ^T为权重，σ为sigmoid函数，h ₀为类标记，W ₁、W ₂、W ₃均为权重，通过公式

计算每个块的新的嵌入h _l，通过公式h ₀′＝W ₄[h ₀||h _l]计算新的类标记h ₀′，式中W ₄为权重；

b-4)将新的类标记h ₀′与输入大小为

的序列作为新的图像的整体表示，d _c＝d*m，d为多头注意力机制中每个自注意力机制头部的维度大小，m为多头注意力机制的头数，在新的图像中添加位置信息后作为transformer encoder的输入，完成物品图像重识别模型的建立。

进一步的，步骤b-4)中的transformer encoder包括多头注意力机制和前馈层，多头注意力机制由多个自注意力机制组成，通过公式

计算序列

中的第i个值的加权Attention(h _l,i)，式中Q _i为第i个查询的向量，T为倒置，K _i为第i个被查询信息和其他信息相关性的向量，V _i为第i个查询信息的向量，通过公式

计算得到多头注意力机制新的输出嵌入SA(h _l)，通过公式h′＝ωLN(h _l+SA(h _l))计算得到前馈层的输入h′，通过公式y＝ωLN(h′+FFN(h′))计算得到encoder的输出y，式中Proj(·)为线性映射，Concat(·)为拼接操作，

为GELU激活函数，c ₁与c ₂均是可学习的偏置，ω为比率，LN为归一化操作，将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。

进一步的，步骤c)中通过公式

计算交叉熵损失V _ID，式中g _i为指示变量，n为训练数据集中的类别数，p _i为第i类图像预测的概率，通过公式V _t＝[||v _a-v _p|| ²-||v _a-v _n|| ²+α] ₊计算得到三元组损失函数V _t，式中α为间距，v _a为经transformer学习后的类标记的样本，v _p为经transformer学习后的类标记的正样本，v _n为经transformer学习后的类标记的负样本，[d] ₊为max[d,0]，d＝||v _a-v _p|| ²-||v _a-v _n|| ²+α。

本发明的有益效果是：通过利用带有空间注意力机制和通道注意力机制的卷积层，对输入的特征图进行加权，考虑了通道和空间上信息的有效结合，不仅能够关注重要的特征并抑制不必要的特征，还能够提高关注点的表示，从而获得更优的特征。使用transformer，利用多头注意力机制能够更好的处理图像分块之后的特征，捕捉更加丰富的特征信息，能够考虑到特征间的相关性，从而能够获得良好的性能，提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer，能够从全局上关注比较重要的特征，也能够更好的捕捉细粒度特征，从而使得重识别的性能能够有很好的提升。

附图说明

图1为本发明的基于多特征信息捕捉和相关性分析的物品图像重识别方法的模型图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)采集若干张物品图像组成物品图像重识别数据库，标注数据库中物品图像的ID信息，将数据库划分为训练集和测试集。

b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型。

c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数。

d)将采集到的物品图像人工标记ID信息后，输入步骤c)优化后的物品图像重识别模型中进行训练，得到训练完成的物品图像重识别模型，将训练好的物品图像重识别模型进行保存。

e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型，得到待检索物品的特征。

通过利用带有空间注意力机制和通道注意力机制的卷积层，对输入的特征图进行加权，考虑了通道和空间上信息的有效结合，不仅能够关注重要的特征并抑制不必要的特征，还能够提高关注点的表示，从而获得更优的特征。使用transformer，利用多头注意力机制能够更好的处理图像分块之后的特征，捕捉更加丰富的特征信息，能够考虑到特征间的相关性，从而能够获得良好的性能，提高物品图像检索的效率。结合带有通道注意力机制和空间注意力机制的卷积层和带有多头注意力机制的transformer，能够从全局上关注比较重要的特征，也能够更好的捕捉细粒度特征，从而使得重识别的性能能够有很好的提升。

步骤b)包括如下步骤：

b-1)将输入图像的网络设为两个分支网络，分别为第一特征分支网络和第二特征分支网络。

b-2)将训练集中物品图像h输入到第一特征分支网络中，

为实数空间，e为物品图像h的水平像素数，w为物品图像h的垂直像素数，3为每个RGB图像的通道数，将物品图像h通过卷积层处理得到特征图f，使用通道注意力机制对特征图f进行处理，对特征图f一次进行全局平均池化及全局最大池化操作，分别得到两个一维向量，将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理，完成对特征图f进行加权，使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化，分别得到最大池化后的特征图和平均池化后的特征图进行拼接，将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化处理，将归一化后的拼接的特征图和特征图f相乘得到新的特征。

b-3)将训练集中物品图像h输入到第二特征分支网络中，

p为图像块的分辨率，n＝ew/p ²，为得到所有块数，同时也是transformer的有效输入序列长度，这些小块被展平并被映射成大小为d的嵌入，刚开始的分块处理可能导致会遗漏一些边角的重要信息，所以先使用注意力机制为每个块分配不同的注意力系数，然后在序列中加入一个额外的类标记h ₀，通过公式

计算所有块的均值嵌入h _a，h _i为通过高斯分布初始化得到的第i个块的嵌入，i∈{1,...,n}，通过公式a _i＝q ^Tσ(W ₁h ₀+W ₂h _i+W ₃h _a)计算得到第i个块的注意力系数a _i，式中q ^T为权重，σ为sigmoid函数，h ₀为类标记，W ₁、W ₂、W ₃均为权重，通过公式

计算每个块的新的嵌入h _l，通过公式h ₀′＝W ₄[h ₀||h _l]计算新的类标记h ₀′，式中W ₄为权重。

b-4)将新的类标记h ₀′与输入大小为

步骤b-4)中的transformer encoder包括多头注意力机制和前馈层，多头注意力机制由多个自注意力机制组成，通过公式

计算序列

为GELU激活函数，c ₁与c ₂均是可学习的偏置，ω为比率，LN为归一化操作，将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。通过使用一个更小的ω来重新缩放残差特征值，有助于增强残差连接，y表示encoder的输出。经过由多个自注意力机制组成的多头注意力机制学习注意力系数，捕捉到更加丰富的特征信息，得到对每个特征的关注程度，同时加入残差设计和层归一化操作，防止梯度消失，加快收敛，经过多个encoder，来得到这个分支上的新特征。

步骤c)步骤c)中通过公式

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于多特征信息捕捉和相关性分析的物品图像重识别方法，其特征在于，包括：

a)采集若干张物品图像组成物品图像重识别数据库，标注数据库中物品图像的ID信息，将数据库划分为训练集和测试集；

b)建立基于多特征信息捕捉和相关性分析的物品图像重识别模型；

c)使用交叉熵损失函数和三元组损失函数优化物品图像重识别模型的目标函数；

d)将采集到的物品图像人工标记ID信息后，输入步骤c)优化后的物品图像重识别模型中进行训练，得到训练完成的物品图像重识别模型，将训练好的物品图像重识别模型进行保存；

e)将待检索的物品图像输入步骤d)中训练好的物品图像重识别模型，得到待检索物品的特征；

f)将待检索物品的特征与测试集中物品图像特征进行比较，通过相似性度量对比较结果进行排序。
根据权利要求1所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法，其特征在于，步骤b)包括如下步骤：

b-1)将输入图像的网络设为两个分支网络，分别为第一特征分支网络和第二特征分支网络；

b-2)将训练集中物品图像h输入到第一特征分支网络中，
为实数空间，e为物品图像h的水平像素数，w为物品图像h的垂直像素数，3为每个RGB图像的通道数，将物品图像h通过卷积层处理得到特征图f，使用通道注意力机制对特征图f进行处理，对特征图f一次进行全局平均池化及全局最大池化操作，分别得到两个一维向量，将两个一维向量依次经过卷积、ReLU激活函数、1*1的卷积、sigmoid函数操作进行归一化处理，完成对特征图f进行加权，使用空间注意力机制对加权后的特征图f中的每个位置的所有通道上做最大池化和平均池化，分别得到最大池化后的特征图和平均池化后的特征图进行拼接，将拼接后的特征图进行7*7的卷积后使用批归一化层和sigmoid函数进行归一化处理，将归一化后的拼接的特征图和特征图f相乘得到新的特征；

b-3)将训练集中物品图像h输入到第二特征分支网络中，
将图像h进行分块处理，得到n个二维的块，通过一个线性变换层将二维的块嵌入表示为一维的向量
p为图像块的分辨率，n＝ew/p ²，通过公式
计算所有块的均值嵌入h _a，h _i为通过高斯分布初始化得到的第i个块的嵌入，i∈{1,...,n}，通过公式a _i＝q ^Tσ(W ₁h ₀+W ₂h _i+W ₃h _a)计算得到第i个块的注意力系数a _i，式中q ^T为权重，σ为sigmoid函数，h ₀为类标记，W ₁、W ₂、W ₃均为权重，通过公式
计算每个块的新的嵌入h _l，通过公式h ₀′＝W ₄[h ₀||h _l]计算新的类标记h ₀′，式中W ₄为权重；

b-4)将新的类标记h ₀′与输入大小为
的序列作为新的图像的整体表示，d _c＝d*m，d为多头注意力机制中每个自注意力机制头部的维度大小，m为多头注意力机制的头数，在新的图像中添加位置信息后作为transformer encoder的输入，完成物品图像重识别模型的建立。
根据权利要求2所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法，其特征在于：步骤b-4)中的transformer encoder包括多头注意力机制和前馈层，多头注意力机制由多个自注意力机制组成，通过公式
计算序列
中的第i个值的加权Attention(h _l,i)，式中Q _i为第i个查询的向量，T为倒置，K _i为第i个被查询信息和其他信息相关性的向量，V _i为第i个查询信息的向量，通过公式
计算得到多头注意力机制新的输出嵌入SA(h _l)，通过公式h′＝ωLN(h _l+SA(h _l))计算得到前馈层的输入 h′，通过公式y＝ωLN(h′+FFN(h′))计算得到encoder的输出y，式中Proj(·)为线性映射，Concat(·)为拼接操作，

为GELU激活函数，c ₁与c ₂均是可学习的偏置，ω为比率，LN为归一化操作，将第一特征分支网络输出的特征和第二特征分支网络输出的特征y拼接成物品图像的特征向量。
根据权利要求2所述的基于多特征信息捕捉和相关性分析的物品图像重识别方法，其特征在于：步骤c)中通过公式
计算交叉熵损失V _ID，式中g _i为指示变量，n为训练数据集中的类别数，p _i为第i类图像预测的概率，通过公式V _t＝[||v _a-v _p|| ²-||v _a-v _n|| ²+α] ₊计算得到三元组损失函数V _t，式中α为间距，v _a为经transformer学习后的类标记的样本，v _p为经transformer学习后的类标记的正样本，v _n为经transformer学习后的类标记的负样本，[d] ₊为max[d,0]，d＝||v _a-v _p|| ²-||v _a-v _n|| ²+α。