WO2023201932A1 - 一种行人重识别方法、装置、设备及存储介质 - Google Patents

一种行人重识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2023201932A1
WO2023201932A1 PCT/CN2022/111350 CN2022111350W WO2023201932A1 WO 2023201932 A1 WO2023201932 A1 WO 2023201932A1 CN 2022111350 W CN2022111350 W CN 2022111350W WO 2023201932 A1 WO2023201932 A1 WO 2023201932A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
pedestrian
negative sample
data set
training
Prior art date
Application number
PCT/CN2022/111350
Other languages
English (en)
French (fr)
Inventor
王立
范宝余
郭振华
李仁刚
Original Assignee
苏州浪潮智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州浪潮智能科技有限公司 filed Critical 苏州浪潮智能科技有限公司
Publication of WO2023201932A1 publication Critical patent/WO2023201932A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种行人重识别方法、装置、设备及存储介质,该方法包括:获取数据集,所述数据集中的数据为无标签的行人图像;对所述数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于所述识别网络进行行人重识别。

Description

一种行人重识别方法、装置、设备及存储介质
相关申请的交叉引用
本申请要求于2022年04月22日提交中国专利局,申请号为202210424667.9,申请名称为“一种行人重识别方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种行人重识别方法、装置、设备及存储介质。
背景技术
行人重识别(Person Re-identification,Re-ID)是一种重要的图像识别技术,广泛应用于公安系统、交通监管等领域;行人重识别通过对分布在不同位置的摄像头进行搜索来确定不同摄像头视野中的行人是否是同一个行人。发明人意识到,在行人重识别的某些场景下,行人众多,行人图像形成的海量数据需要一一标注,这会带来巨大的工作量,甚至不可实现;因此,如何减少行人重识别所需的工作量,是目前本领域技术人员亟待解决的问题。
发明内容
根据本申请公开的各种实施例,提供一种行人重识别方法、装置、设备及存储介质。
一种行人重识别方法,包括:
获取数据集,所述数据集中的数据为无标签的行人图像;
对所述数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;以及
基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于所述识别网络进行行人重识别。
一种行人重识别装置,包括:
获取模块,用于获取数据集,所述数据集中的数据为无标签的行人图像;
处理模块,用于对所述数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;以及
训练模块,用于基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于所述识别网络进行行人重识别。
一种行人重识别设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于执行所述计算机可读指令时实现如上任一项所述行人重识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上任一项所述行人重识别方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种行人重识别方法的流程图;
图2为本申请实施例提供的一种行人重识别方法中识别网络结构图;
图3为本申请实施例提供的一种行人重识别方法中行人重识别应用图;
图4为本申请实施例提供的一种行人重识别方法中分块示意图;
图5为本申请实施例提供的一种行人重识别方法中数据及相应乱序数据的示意图;
图6为本申请实施例提供的一种行人重识别方法中聚类结果示意图;
图7为本申请实施例提供的一种行人重识别方法中类别最远距离示意图;
图8为本申请实施例提供的一种行人重识别装置的结构示意图;
图9为本申请实施例提供的一种行人重识别设备的结构示意图;
图10为本申请实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请请参阅图1,其示出了本申请实施例提供的一种行人重识别方法的流程图,具体可以包括:
S11:获取数据集,数据集中的数据为无标签的行人图像。
无监督学习(Semi-Supervised Learning,SSL)使用大量的未标记数据来进行模式识别工作,因此将无监督学习应用到行人重识别中,既可以保证对行人的识别精度,又可以大大减少工作量。
本申请实施例获取无标签数据集记为N,N中的所有数据均为没有标签的行人图像,N i代表N中的某一个数据,i∈[1,T]表示N中第i个数据,且N中共T个数据。
S12:对数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据。
对于数据集中任意数据来说,将该任意数据进行分块,然后将分块后所得的各个部分进行随机排序,得到该任意数据的乱序数据。原始数据与对应的乱序数据组成一对正样本数据。进而对该任意数据及该任意数据的乱序数据进行进一步混合生成相应的负样本数据。由此,本申请实施例可以将数据集中的各数据及相应乱序数据作为正样本数据,以基于各正样本数据及相应的负样本数据实现无监督学习。
S13:基于数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于识别网络进行行人重识别。
本申请实施例中识别网络的结构图可以如图2(其中的样本即为数据,负样本队列即为对比样本队列)所示,在此不对使用的骨干网络进行具体限定。基于各正样本数据及相应负样本数据进行无监督学习,以得到识别网络;并且在无监督学习(即网络训练)完毕后,保存无监督学习得到的各项权重,进而在利用识别网络实现行人重识别时,加载保存的各项权重对行人图像进行最终的匹配。
以图3为例行人重识别应用进行说明,将输入图像1、2、3分别输入到识别网络中,其中,网络可以包括Conv层(卷积层)、Bottleneck层(瓶颈层)、fc层(全连接层)和embedding层(嵌入层),获取识别网络中embedding层(嵌入层)特征,图像1、2、3的embedding层特征构成行人重识别任务的查询数据集;将待查询图像也输入到重识别 网络中,获取待查询图像的embedding层特征;将待查询图像的embedding层特征与查询数据集中所有特征进行比对,比对方法就是求待查询图像的embedding层特征与查询数据集中所有特征的距离,即求特征向量距离;确定距离最小的查询数据集中的特征对应图像与待查询图像是同一个人。
本申请实施例在获取到包含有无标签行人图像的数据集后,对数据集中各数据分别进行分块处理及随机排序,得到分别与各数据对应的乱序数据,并基于数据集中各数据及相应乱序数据生成相应的负样本数据,从而基于数据集中各数据及相应乱序数据组成的正样本数据及相应负样本数据进行无监督学习,得到识别网络,以基于识别网络实现行人重识别。可见,本申请实施例能够基于无标签行人图像自动生成相应的乱序数据及负样本数据,进而基于无标签行人图像、乱序数据及负样本数据进行无监督学习得到识别网络,以利用识别网络实现行人重识别,无需对海量数据进行标注,从而能够保证行人重识别准确性的同时,有效降低行人重识别的工作量,提高行人重识别效率。
本申请实施例提供的一种行人重识别方法,对数据集中各数据分别进行分块处理,可以包括:对数据集中各数据分别按照行人身高维度按照预设比例进行分块,以使得相应数据中行人的头部、上部肢体及下部肢体分别位于不同的块中。
对数据集中各数据分别进行分块处理之前,还可以包括:对数据集中的各数据分别进行数据增强处理。
本申请实施例中在进行无监督学习的训练时,可以每次迭代均从数据集N中抽取一个batch(批次)的数据,基于抽取的数据进行相应乱序数据及负样本数据的生成,进而基于抽取的数据、相应乱序数据及相应负样本数据实现当前次迭代训练;其中,batch(批次)的具体数值可以根据实际需要设定,如抽取4个数据构成一个batch。在每次抽取到一个batch(批次)的数据后,对当前次抽取的数据进行数据增强处理,数据增强处理的方法包括但不限于加噪声、旋转、模糊、扣取。并且在当前次抽取的数据进行数据增强处理后,可以将增强后的数据按照Height(行人身高)的维度按比例分块,在本申请实施例中分块比例可以为2:3:5,共分成3块,使得单个数据分块后的各部分分别包含该数据中行人的头部、上部肢体及下步肢体,例如图4所示;进而对分块后的数据进行随机排序得到相应乱序数据,例如图5所示;最终得到数据及相应乱序数据构成一个正样本对,也即一个正样本数据。可见,本申请通过对数据的数据增强处理及分块排序等处理,使得后续学习到的数据特征更加全面准确,进而有助于提高行人重识别的精确性。
本申请实施例提供的一种行人重识别方法,基于各数据及相应乱序数据生成分别与 各数据对应的负样本数据,可以包括:
按照下列公式生成分别与各数据对应的负样本数据:
Figure PCTCN2022111350-appb-000001
Figure PCTCN2022111350-appb-000002
α+β+η=1;
η=cos(iter/sum_iter);
其中,i代表第i个数据,α、β、η为权重参数,f i p为第i个数据的数据特征,f i t为第i个数据的乱序数据的数据特征,f c为中心样本特征,f i为第i个数据的负样本数据,iter代表当前的迭代次数,sum_iter代表总的迭代次数,K为计算负样本数据所用的数据数量。
可见,在本申请实施例中,负样本数据特征是多融合的,其特征来源于原始数据的特征、乱序数据的特征及中心样本特征,而这些特征在加权后得到负样本数据。应当指出的是,在本申请实施例中,α、β、η属于模型权重,其数值并非固定,而是会随着模型训练的进行而改变。由于在训练初期,神经网络模型的权重值均会进行随机初始化,而这会导致正样本数据及负样本数据在特征空间中处于无序状态,即简单来讲,正样本对之间的特征距离不一定近,负样本对之间的特征距离不一定远。而这种无序状态将导致模型在训练之初难以收敛。也正是如此,本申请实施例在负样本数据中增加了中心样本特征及该特征对应的权重η,其中该特征由参与计算的K个负样本数据平均得到,而该权重在初次迭代时最大,并会随着迭代次数的提升而降低。这是由于在训练之初,为中心样本特征设置较大的权重,可确保中心样本特征在负样本数据中起到主导作用,进而可有效降低训练初期负样本数据在特征空间中的无序情况,并加速模型收敛;而随着训练迭代,网络模型对特征的获取越来越准确,此时为避免中心样本特征对网络模型准确度的影响,应当降低中心样本特征在负样本数据中的占比情况。换而言之,中心样本特征的权重应当随着迭代次数的增加而降低。换而言之,本申请实施例提供了一种中心样本退出机制,其中,中心特征权重下降公式为η=cos(iter/sum_iter),该机制可通过权重控制,确保负样本数据的值与训练迭代次数及中心样本相关,在训练前期负样本特征 计算主要来源于中心样本特征,而随着训练次数增加,在训练后期压入负样本队列中的特征主要来源于每个样本的负样本特征,进而可有效提升模型训练初期的迭代速率,并可抑制中心样本特征在训练后期对模型准确度的影响。当然,基于相同的思想,也可为正样本设置类似的退出机制,即正样本特征的权重随迭代次数增加而变小。权重变小可通过e指数减小的方式实现,也可通过余弦减小的方式实现,这里不再赘述。简单来说,本申请实施例中的负样本是多结构样本组成的(区别于现有方案),且多结构样本均可设置退出机制,其对应权重可随着迭代次数增加逐渐减少。
基于各数据及相应乱序数据生成分别与各数据对应的负样本数据之后,还包括:将最新生成的负样本数据加入至对比样本队列中;其中,对比样本队列为先进先出的、长度K的堆栈。
每次迭代均从数据集N中抽取一个batch(批次)的数据。
本申请实施例将数据集中各数据及相应乱序数据先后输入到识别网络中进行训练(如图2所示),以获取到各数据及相应乱序数据的embedding层特征作为相应数据或者乱序数据的数据特征;假设第i个数据和相应乱序数据分别经过网络后得到相应的两个数据特征f i p和f i t,这两个数据特征也可以称为相应的正样本对。训练开始后,可以建立对比样本队列,对比样本队列为先进先出的、长度为K的堆栈;然后对于当前次迭代训练从数据集中抽取出的一个batch的数据,将前K个数据经过如下公式的计算,得到相应的负样本数据:
Figure PCTCN2022111350-appb-000003
其中,α+β+η=1;
其中,i代表数据集中第i个数据,第i个数据的特征f i p、f i t和f c经过加权计算得到相应的负样本数据,也即为对比样本队列中的一个样本。经过对上述K个数据的K次计算得到K个负样本数据,并将这K个负样本数据输入到对比样本队列中。每次从当前次迭代训练的一个batch的数据中抽取一个数据,同时从对比样本队列中抽取该数据相应的负样本数据(从对比样本队列中抽取该数据相应的负样本数据后对比样本队列中不再存在该数据相应的负样本数据),然后将该数据、该数据的乱序数据及该数据的负样本数据输入至识别网络中训练,并且训练完成后再从当前次迭代训练的一个batch的数据中抽取下一个数据,直至将当前次迭代训练的一个batch的全部数据均输入至识别网络训练为止。另外,在实现上述训练的同时还会继续实现负样本数据的计算,也即在计算当前次迭代训练的一个batch的数据中前K个数据的负样本数据并输入至对比样本队列中后,还会继续计算当前次迭代训练的一个batch的数据中第K+1、第K+2...第K+n(K+n即为单个 batch的数据数量总值)个数据的负样本数据,并在每计算得到一个负样本数据后将该负样本数据输入至对比样本队列中(在对比样本队列中有位置的情况下,或者可以将最早计算并输入至对比样本队列中的负样本数据压出该对比样本队列以获得相应位置)。
本申请实施例是无监督学习,正样本数据和对比样本队列中所有的负样本数据求对比损失;由于识别网络开始是随机初始化的权重,因此正样本数据的特征不一定近,负样本数据的特征不一定远,处于无序状态,因此在计算负样本数据中加入f c项,可以将其称为中心样本特征。在训练前期,中心样本特征占有很大的权重,随着训练迭代,网络特征获取越来越准确,f c特征会逐渐减小,具体f c的计算公式如下:
Figure PCTCN2022111350-appb-000004
其中,η=cos(iter/sum_iter),iter代表当前的迭代次数,sum_iter代表总的迭代次数。并且,由于训练前期不存在K个负样本数据,也就无法按照上述公式计算f c,此时可以将预先设定的数值赋值给f c;从而通过f c的求解方法和衰减方法,有利于网络快速收敛。
本申请实施例提供的一种行人重识别方法,基于数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,可以包括:
在无监督学习过程中,按照下列公式计算损失函数loss:
Figure PCTCN2022111350-appb-000005
其中,Batchsize代表批,即每次从数据集中取出的单次迭代所用的数据数量,k为当前次迭代所用的数据的前K个数据中第k个数据,f k为当前次迭代所用的数据的前K个数据中第k个数据的负样本数据,τ为比例参数。
本申请实施例在构建对比样本队列完毕后,开始真正进行网络训练;其中计算损失函数的公式可以如下:
Figure PCTCN2022111350-appb-000006
本申请实施例通过以上loss函数对所有无标签数据进行学习,直到所有数据迭代完毕;并且每次计算完loss会通过loss反传,更新识别网络中的权重,从而使得识别网络的模型精度不断提高。
本申请实施例提供的一种行人重识别方法,得到相应的识别网络之后,还可以包括:
获取识别网络在最近预设数量的训练迭代中对应的损失值,并计算损失值的平均值;
当确定平均值小于预设阈值时,利用识别网络提取数据集中各数据的数据特征;
采用均值漂移聚类对数据集中各数据的数据特征进行聚类,并基于聚类的结果对数据集中的数据进行分类;
基于分类的结果确定数据集中各数据被抽取的概率,并基于被抽取的概率从数据集中抽取数据对识别网络继续进行训练。
基于分类的结果确定数据集中各数据被抽取的概率,可以包括:
按照下列公式计算数据集中各数据被抽取的概率:
Figure PCTCN2022111350-appb-000007
其中,c表示分类所得第c个类别,j表示第c个类别中的第j个数据,P j表示第c个类别中第j个数据被抽取的概率,D c表示第c个类别中距离类中心最远的数据与类中心之间的距离,
Figure PCTCN2022111350-appb-000008
表示第c个类别中第j个数据与类中心之间的距离。
对计算所得数据集中各数据被抽取的概率进行归一化处理。
可以理解的是,虽然无监督学习通常利用海量数据进行训练,但训练集中各数据的训练难度不同,且不同训练难度的数据在训练集中的分布情况也不同,容易导致模型难以对各训练难度数据均进行有效训练。在一般的训练集中,通常包含多数易于训练的普通数据及少数难以训练的困难数据。由于困难数据的数量较少,因此识别网络对这部分数据的训练效果较差,且在识别此类困难数据时也难以达到良好的效果。也正是如此,应当对训练集中的困难数据进行挑选,进而利用困难数据对识别网络进行针对性训练,以提升模型对困难数据的识别效果。基于此,本申请实施例提供了一种样本选择器,可 用于筛选困难数据。样本选择器可增加困难数据的训练机会,以使识别网络接触更多的困难数据,进而促进识别网络进一步收敛,以提高网络性能;并且,通过对数据的筛选,还可减少训练数据的总数量,进而可大大减少训练时间,在相同训练时间下可以取得更优的效果,这对于无监督的海量数据训练具有很大的优势。
当然,在介绍样本选择器之前,本申请实施例应当指出的是,该选择器应当在识别网络模型的训练后期使用。换而言之,本申请实施例可对识别网络进行多阶段训练。具体的,在第一阶段,本申请实施例将采用全量数据对识别网络进行训练,以确保该模型能够覆盖训练集中大部分易于识别的数据。而在该网络对训练集的识别效果较为准确时,便可进入第二阶段,即首先利用本申请实施例所提供的样本选择器选择困难样本,并利用困难样本进行再次训练。本申请实施例对识别网络的准确性检测是依照该网络在迭代训练过程中生成的损失值进行的,即本申请实施例会获取识别网络在最近预设数量的迭代生成的损失值,并计算这些损失值的平均值,最后可在确定平均值小于预设阈值时则判定识别网络的准确度满足要求。例如,识别网络在第一阶段总共训练了100次,而预设数量为10,则本申请实施例会取该网络在第91至100次迭代中生成的所有损失值进行平均值计算,以此确定识别网络的准确性。需要说明的是,本申请实施例并不限定预设数量及预设阈值的具体数值,可根据实际应用需求进行设定。
具体来说,样本选择器的数据筛选方法可以包括:
A)进行无监督学习得到的识别网络已经训练到较好的状态,利用无监督学习得到的识别网络提取数据集中所有数据的数据特征,记为f i t,i∈[1,T];
B)采用均值漂移聚类对数据集中所有数据的数据特征进行聚类,均值漂移聚类是基于滑动窗口的算法来找到数据点(数据特征)的密集区域,其是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来定位每个类的中心点,然后对这些候选窗口进行相似窗口进行去除,最终形成中心点集及相应的分组,从而只需要设定中心点的向量和聚类半径、不需要确定要聚成几类,算法即可自动归纳分类。本申请实施例中的聚类步骤可以包括:
1.确定滑动窗口半径r,以随机选取的中心点C、半径为r的圆形滑动窗口开始滑动;其中,均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛;
2.每一次滑动到新的区域,计算滑动窗口内的均值作为中心点,滑动窗口内的点的数量为窗口内的密度;并且,在每一次移动中窗口会向密度更高的区域移动;
3.移动窗口,计算窗口内的中心点以及窗口内数据点的密度,直到没有方向在窗口内 可以容纳更多的点,即一直移动到圆内密度不再增加为止;
4.步骤1到3会产生很多个滑动窗口,当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类,得到的结果可以如图6所示;
C)根据各聚类中心对所有数据类别进行分类,得到多个类别的数据;分类方法采用最近邻聚类,也即判断数据离哪个聚类中心近,该数据就属于哪一类。
在实现上述聚类后,可以求取每个数据在下次训练时被抽取的概率,具体的实现步骤可以包括:遍历所有类别的数据,得到每个类别的最远距离(如图7所示),也即对于任意类别的数据来说求取距离该任意类别的类中心最远的数据的距离作为该任意类别的最远距离,记为D c(即图7中的D),下标c代表第c个类别;按照求取被抽取概率的公式求取第c个类别中第j个数据被抽取的概率:
Figure PCTCN2022111350-appb-000009
其中,c表示分类所得第c个类别,j表示第c个类别中的第j个数据,P j表示第c个类别中第j个数据被抽取的概率,D c表示第c个类别中距离类中心最远的数据与类中心之间的距离,
Figure PCTCN2022111350-appb-000010
表示第c个类别中第j个数据与类中心之间的距离;最后将所有数据的P j值进行归一化。
值得指出的是,上述概率与数据和类中心之间的距离成正比,即距离越大则概率越大。这是由于该距离反映了识别网络提取各数据特征的能力大小,当距离越大时,则说明该网络对相应数据的特征提取能力越弱,即说明该数据对于该网络而言属于困难数据,更应当被网络训练;反之,则说明数据属于普通数据,应当减少被网络训练的机会。因此,对于距离较大的数据,应当设置较大的概率,以提升该数据被网络训练的几率。
在计算得到数据集中各数据被抽取的概率后,按照各数据的概率抽取数据集中各数据继续对识别网络进行训练。例如:第二轮训练的时候抽取所有数据的1/2,由于本算法的优势会使远离中心的数据以很大的概率被抽取到,而靠近中心的样本被抽中的概率很小。
本申请实施例能够使远离类中心的数据在本轮训练中占比更大,从而增加训练难度,进一步提高网络精度,减少训练所用数据量,减少总训练时间。
在一种具体实现方式中,本申请实施例提供的一种行人重识别方法具体可以包括以下步骤:
(1)获取无标签数据集记为N。
(2)从数据集N中抽取一个batch(批次)的数据,对抽取的数据进行数据增强处理,然后对进行数据增强处理后的各数据分别进行分块及随机排序,得到相应的乱序数据。
(3)将数据集中的各数据及相应乱序数据先后输入到识别网络中进行训练,获取各数据及各乱序数据的embedding层特征作为相应数据特征。
(4)训练开始,首先建立对比样本队列,计算当前抽取的数据中前K个数据的负样本数据,并将这K个负样本数据输入到对比样本队列中;该对比样本队列是先进先出的堆栈,后面在训练中每个数据都会输入到对比样本队列中,并将最早计算的负样本数据压出该对比样本队列。
(5)构建对比样本队列完毕后开始真正进行网络训练。计算损失函数,通过损失函数对所有无标签数据进行学习,直到所有数据迭代完毕;并且每次计算完损失函数后会通过损失函数反传,更新识别网络的权重,使网络精度不断提高。
(6)前面5步已经使识别网络训练到比较好的状态,本步骤中利用已经训练好的识别网络对数据集中的数据进行数据筛选,得到数据集中各数据被抽取的概率,进而基于该概率实现数据抽取及对识别网络的继续训练。
本申请先对无标签的数据进行处理,使用处理后的数据训练网络,同时还可以在训练过程中筛选更有效的数据,提升网络训练效率;从而通过将无监督学习应用到行人重识别中,既可以保证对行人的识别精度,又可以大大减少工作量。
本申请实施例还提供了一种行人重识别装置,如图8所示,可以包括:
获取模块11,用于获取数据集,数据集中的数据为无标签的行人图像;
处理模块12,用于对数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;以及
训练模块13,用于基于数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于识别网络进行行人重识别。
在一个或多个实施例中,训练模块13将所述数据集中各数据以及各数据的乱序数据作为正样本数据;根据所述正样本数据以及各数据的负样本数据进行无监督学习。
在一个或多个实施例中,训练模块13还用于保存所述无监督学习得到的各项权重;响应于利用所述识别网络进行行人重识别,加载保存的各项权重。
在一个或多个实施例中,处理模块12将各数据的特征、各数据相应乱序数据的特征 以及中心样本特征进行加权融合,得到各数据对应的负样本数据。
在一个或多个实施例中,处理模块12可以包括负样本获取模块,负样本获取模块用于按照下列公式生成分别与各数据对应的负样本数据:
Figure PCTCN2022111350-appb-000011
Figure PCTCN2022111350-appb-000012
α+β+η=1;
η=cos(iter/sum_iter);
其中,i代表第i个数据,α、β、η为权重参数,f i p为第i个数据的数据特征,f i t为第i个数据的乱序数据的数据特征,f c为中心样本特征,f i为第i个数据的负样本数据,iter代表当前的迭代次数,sum_iter代表总的迭代次数,K为计算负样本数据所用的数据数量。
在一个或多个实施例中,训练模块13可以包括损失函数计算模块,失函数计算模块用于在无监督学习过程中,按照下列公式计算损失函数loss:
Figure PCTCN2022111350-appb-000013
其中,Batchsize为每次从所述数据集中取出的单次迭代所用的数据数量,k为当前次迭代所用的数据的前K个数据中第k个数据,f k为当前次迭代所用的数据的前K个数据中第k个数据的负样本数据,τ为比例参数。
在一个或多个实施例中,训练模块13还用于响应于所述损失函数loss计算完毕,通过反传所述损失函数loss以更新所述识别网络中的权重。
在一个或多个实施例中,该装置还包括存储模块,存储模块用于基于各数据及相应乱序数据生成分别与各数据对应的负样本数据之后,将最新生成的负样本数据加入至对比样本队列中;其中,对比样本队列为先进先出的、长度K的堆栈。
在一个或多个实施例中,存储模块用于响应于从当前次迭代训练的一个批次数据中抽取一个数据,从所述对比样本队列中抽取对应的负样本数据,将抽取的负样本数据从 所述对比样本队列中删除。
在一个或多个实施例中,处理模块12可以包括分块模块,分块模块用于对数据集中各数据分别按照行人身高维度按照预设比例进行分块,以使得相应数据中行人的头部、上部肢体及下部肢体分别位于不同的块中。
在一个或多个实施例中,该行人重识别装置还可以包括数据增强模块,数据增强模块用于对数据集中各数据分别进行分块处理之前,对数据集中的各数据分别进行数据增强处理。
在一个或多个实施例中,该行人重识别装置还可以包括筛选模块,筛选模块用于得到相应的识别网络之后,获取识别网络在最近预设数量的训练迭代中对应的损失值,并计算损失值的平均值;当确定平均值小于预设阈值时,利用识别网络提取数据集中各数据的数据特征;采用均值漂移聚类对数据集中各数据的数据特征进行聚类,并基于聚类的结果对数据集中的数据进行分类;以及基于分类的结果确定数据集中各数据被抽取的概率,并基于被抽取的概率从数据集中抽取数据对识别网络继续进行训练。
在一个或多个实施例中,筛选模块用于确定滑动窗口半径并开始滑动;响应于滑动到新的区域,计算所述滑动窗口内的均值作为中心点,所述滑动窗口内的点的数量为所述滑动窗口内的密度;滑动所述滑动窗口直到所述滑动窗口内的密度不再增加;响应于多个所述滑动窗口重叠,保留包含最多数据特征的滑动窗口,根据所述数据特征所在的滑动窗口进行聚类。
在一个或多个实施例中,筛选模块可以包括概率计算模块,概率计算模块用于按照下列公式计算数据集中各数据被抽取的概率:
Figure PCTCN2022111350-appb-000014
其中,c表示分类所得第c个类别,j表示第c个类别中的第j个数据,P j表示第c个类别中第j个数据被抽取的概率,D c表示第c个类别中距离类中心最远的数据与类中心之间的距离,
Figure PCTCN2022111350-appb-000015
表示第c个类别中第j个数据与类中心之间的距离;
对计算所得数据集中各数据被抽取的概率进行归一化处理。
参考图9所示,本申请实施例还提供了一种行人重识别设备,可以包括存储器91以及一个或多个处理器92,其中:
存储器91,用于存储计算机可读指令93;
处理器92,用于执行计算机可读指令93时实现如上任一项行人重识别方法的步骤。
参考图10所示,本申请实施例还提供了一种计算机可读存储介质100,计算机可读存储介质上存储有计算机可读指令101,计算机可读指令被处理器执行时可以实现如上任一项行人重识别方法的步骤。
需要说明的是,本申请实施例提供的一种行人重识别装置、设备及存储介质中相关部分的说明请参见本申请实施例提供的一种行人重识别方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一个或多个非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (20)

  1. 一种行人重识别方法,其特征在于,包括:
    获取数据集,所述数据集中的数据为无标签的行人图像;
    对所述数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;以及
    基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于所述识别网络进行行人重识别。
  2. 根据权利要求1所述的方法,其特征在于,所述基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,包括:
    将所述数据集中各数据以及各数据的乱序数据作为正样本数据;
    根据所述正样本数据以及各数据的负样本数据进行无监督学习。
  3. 根据权利要求1或2所述的方法,其特征在于,所述得到相应的识别网络之后,还包括:
    保存所述无监督学习得到的各项权重;以及
    响应于利用所述识别网络进行行人重识别,加载保存的各项权重。
  4. 根据权利要求1至3任一项所述的方法,其特征在于,所述基于各数据及相应乱序数据生成分别与各数据对应的负样本数据,包括:
    将各数据的特征、各数据的乱序数据的特征以及中心样本特征进行加权融合,得到各数据对应的负样本数据。
  5. 根据权利要求1至3任一项所述的方法,其特征在于,所述基于各数据及相应乱序数据生成分别与各数据对应的负样本数据,包括:
    按照下列公式生成分别与各数据对应的负样本数据:
    Figure PCTCN2022111350-appb-100001
    Figure PCTCN2022111350-appb-100002
    α+β+η=1;
    η=cos(iter/sum_iter);
    其中,i代表第i个数据,α、β、η为权重参数,f i p为第i个数据的数据特征,f i t为第i个数据的乱序数据的数据特征,f c为中心样本特征,f i为第i个数据的负样本数据,iter代表当前的迭代次数,sum_iter代表总的迭代次数,K为计算负样本数据所用的数据数量。
  6. 根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,包括:
    在无监督学习过程中,按照下列公式计算损失函数loss:
    Figure PCTCN2022111350-appb-100003
    其中,Batchsize为每次从所述数据集中取出的单次迭代所用的数据数量,k为当前次迭代所用的数据的前K个数据中第k个数据,f k为当前次迭代所用的数据的前K个数据中第k个数据的负样本数据,τ为比例参数。
  7. 根据权利要求6所述的方法,其特征在于,所述方法还包括:
    响应于所述损失函数loss计算完毕,通过反传所述损失函数loss以更新所述识别网络中的权重。
  8. 根据权利要求1至7任一项所述的方法,其特征在于,所述基于各数据及相应乱序数据生成分别与各数据对应的负样本数据之后,还包括:
    将最新生成的负样本数据加入至对比样本队列中。
  9. 根据权利要求8所述的方法,其特征在于,所述对比样本队列为先进先出且长度为K的堆栈。
  10. 根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
    响应于从当前次迭代训练的一个批次数据中抽取一个数据,从所述对比样本队列中抽取对应的负样本数据,将抽取的负样本数据从所述对比样本队列中删除。
  11. 根据权利要求1至10任一项所述的方法,其特征在于,所述对所述数据集中各数据分别进行分块处理,包括:
    对所述数据集中各数据分别按照行人身高维度按照预设比例进行分块,以使得相应数据中行人的头部、上部肢体及下部肢体分别位于不同的块中。
  12. 根据权利要求1至11任一项所述的方法,其特征在于,所述对所述数据集中各 数据分别进行分块处理之前,还包括:
    对所述数据集中的各数据分别进行数据增强处理。
  13. 根据权利要求12所述的方法,其特征在于,所述数据增强处理包括噪声、旋转、模糊、扣取之中的至少一种处理。
  14. 根据权利要求1至13任一项所述的方法,其特征在于,所述得到相应的识别网络之后,还包括:
    获取所述识别网络在最近预设数量的训练迭代中对应的损失值,并计算所述损失值的平均值;
    响应于确定所述平均值小于预设阈值,利用所述识别网络提取所述数据集中各数据的数据特征;
    采用均值漂移聚类对所述数据集中各数据的数据特征进行聚类,并基于聚类的结果对所述数据集中的数据进行分类;以及
    基于分类的结果确定所述数据集中各数据被抽取的概率,并基于被抽取的概率从所述数据集中抽取数据对所述识别网络继续进行训练。
  15. 根据权利要求14所述的方法,其特征在于,所述采用均值漂移聚类对所述数据集中各数据的数据特征进行聚类,包括:
    确定滑动窗口半径并开始滑动;
    响应于滑动到新的区域,计算所述滑动窗口内的均值作为中心点,所述滑动窗口内的点的数量为所述滑动窗口内的密度;
    滑动所述滑动窗口直到所述滑动窗口内的密度不再增加;
    响应于多个所述滑动窗口重叠,保留包含最多数据特征的滑动窗口,根据数据特征所属的滑动窗口进行聚类。
  16. 根据权利要求14所述的方法,其特征在于,所述基于分类的结果确定所述数据集中各数据被抽取的概率,包括:
    按照下列公式计算所述数据集中各数据被抽取的概率:
    Figure PCTCN2022111350-appb-100004
    其中,c表示分类所得第c个类别,j表示第c个类别中的第j个数据,P j表示第c个类别中第j个数据被抽取的概率,D c表示第c个类别中距离类中心最远的数据与类中心 之间的距离,
    Figure PCTCN2022111350-appb-100005
    表示第c个类别中第j个数据与类中心之间的距离;
    对计算所得所述数据集中各数据被抽取的概率进行归一化处理。
  17. 根据权利要求14所述的方法,其特征在于,所述数据集中各数据被抽取的概率与各数据距离聚类的类中心之间的距离成正比。
  18. 一种行人重识别装置,其特征在于,包括:
    获取模块,用于获取数据集,所述数据集中的数据为无标签的行人图像;
    处理模块,用于对所述数据集中各数据分别进行分块处理,将各分块后的数据分别进行随机排序得到分别与各数据对应的乱序数据,并基于各数据及相应乱序数据生成分别与各数据对应的负样本数据;以及
    训练模块,用于基于所述数据集中各数据、各数据的乱序数据及各数据的负样本数据进行无监督学习,得到相应的识别网络,并基于所述识别网络进行行人重识别。
  19. 一种行人重识别设备,其特征在于,包括:
    存储器,用于存储计算机可读指令;以及
    处理器,用于执行所述计算机可读指令时实现如权利要求1至17任一项所述的行人重识别方法的步骤。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时实现如权利要求1至17任一项所述的行人重识别方法的步骤。
PCT/CN2022/111350 2022-04-22 2022-08-10 一种行人重识别方法、装置、设备及存储介质 WO2023201932A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210424667.9A CN114550221B (zh) 2022-04-22 2022-04-22 一种行人重识别方法、装置、设备及存储介质
CN202210424667.9 2022-04-22

Publications (1)

Publication Number Publication Date
WO2023201932A1 true WO2023201932A1 (zh) 2023-10-26

Family

ID=81666977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/111350 WO2023201932A1 (zh) 2022-04-22 2022-08-10 一种行人重识别方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114550221B (zh)
WO (1) WO2023201932A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550221B (zh) * 2022-04-22 2022-07-22 苏州浪潮智能科技有限公司 一种行人重识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN113065516A (zh) * 2021-04-22 2021-07-02 中国矿业大学 一种基于样本分离的无监督行人重识别系统及方法
CN114550221A (zh) * 2022-04-22 2022-05-27 苏州浪潮智能科技有限公司 一种行人重识别方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204076A1 (en) * 2017-01-13 2018-07-19 The Regents Of The University Of California Moving object detection and classification image analysis methods and systems
CN108898047B (zh) * 2018-04-27 2021-03-19 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及系统
CN113255573B (zh) * 2021-06-17 2021-10-01 成都东方天呈智能科技有限公司 基于混合簇中心标签学习的行人重识别方法和存储介质
CN113989835A (zh) * 2021-10-19 2022-01-28 京北方信息技术股份有限公司 一种人员重识别方法、装置、计算机设备以及存储介质
CN113822262B (zh) * 2021-11-25 2022-04-15 之江实验室 一种基于无监督学习的行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN113065516A (zh) * 2021-04-22 2021-07-02 中国矿业大学 一种基于样本分离的无监督行人重识别系统及方法
CN114550221A (zh) * 2022-04-22 2022-05-27 苏州浪潮智能科技有限公司 一种行人重识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONGXING DAI; YIFAN SUN; JUN LIU; ZEKUN TONG; YI YANG; LING-YU DUAN: "Bridging the Source-to-target Gap for Cross-domain Person Re-Identification with Intermediate Domains", ARXIV.ORG, 3 March 2022 (2022-03-03), XP091176304 *

Also Published As

Publication number Publication date
CN114550221A (zh) 2022-05-27
CN114550221B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
WO2020244261A1 (zh) 高分辨率遥感图像的场景识别系统及模型生成方法
CN109886141B (zh) 一种基于不确定性优化的行人再辨识方法
US10002290B2 (en) Learning device and learning method for object detection
EP3726426A1 (en) Classification training method, server and storage medium
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN107247956B (zh) 一种基于网格判断的快速目标检测方法
WO2018028255A1 (zh) 基于对抗网络的图像显著性检测方法
Xiao et al. A fast method for particle picking in cryo-electron micrographs based on fast R-CNN
US20100329517A1 (en) Boosted face verification
WO2018153201A1 (zh) 深度学习训练方法及装置
CN110414367B (zh) 一种基于gan和ssn的时序行为检测方法
WO2019232850A1 (zh) 手写汉字图像识别方法、装置、计算机设备及存储介质
CN111582345A (zh) 一种小样本下复杂环境的目标识别方法
WO2023201932A1 (zh) 一种行人重识别方法、装置、设备及存储介质
WO2022178775A1 (zh) 基于特征多样性学习的深度集成模型训练方法
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
Sun et al. A fast fabric defect detection framework for multi-layer convolutional neural network based on histogram back-projection
CN114937021A (zh) 一种基于Swin-Transformer的农作物病害细粒度分类方法
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN114821237A (zh) 一种基于多级对比学习的无监督船舶再识别方法及系统
Haliassos et al. Classification and detection of symbols in ancient papyri
Shin et al. Approach for video classification with multi-label on youtube-8m dataset
Ying et al. License plate detection and localization in complex scenes based on deep learning
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
CN116229512A (zh) 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22938157

Country of ref document: EP

Kind code of ref document: A1