WO2022213717A1

WO2022213717A1 - 模型训练方法、行人再识别方法、装置和电子设备

Info

Publication number: WO2022213717A1
Application number: PCT/CN2022/075112
Authority: WO
Inventors: 王之港; 王健; 孙昊; 丁二锐
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-04-07
Filing date: 2022-01-29
Publication date: 2022-10-13
Also published as: CN112861825A; CN112861825B

Abstract

本公开提供了模型训练方法、行人再识别方法、装置和电子设备，涉及人工智能领域，具体为计算机视觉和深度学习技术，可用于智慧城市场景下。具体实现方案为：利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到第一行人图像的图像特征和第二行人图像的图像特征；对第一行人图像的图像特征和第二行人图像的图像特征进行融合，得到融合特征；利用第一解码器对融合特征进行特征解码，得到第三行人图像；将第三行人图像确定为第一行人图像的负样本图像，并利用第一行人图像及负样本图像将第一预设模型训练至收敛，得到行人再识别模型。利用本公开实施例可以提升模型区分外表相似但身份不同的行人的效果。

Description

模型训练方法、行人再识别方法、装置和电子设备

本申请要求于2021年4月7日提交的、申请号为202110372249.5、发明名称为“模型训练方法、行人再识别方法、装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及人工智能领域，具体为计算机视觉和深度学习技术，可用于智慧城市场景下。

背景技术

行人再识别也被称为行人重识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。通常，可以利用大量样本图像对行人再识别模型进行有监督训练或无监督训练，利用训练至收敛的模型完成行人再识别任务。收敛的模型的性能依赖于样本图像的质量和难易程度。一般来说，模型能够对外表明显不同的行人进行区分，但难以区分外表相似但身份不同的行人。

发明内容

本公开提供了一种模型训练方法、行人再识别方法、装置和电子设备。

根据本公开的一方面，提供了一种模型训练方法，包括：

利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到第一行人图像的图像特征和第二行人图像的图像特征；

对第一行人图像的图像特征和第二行人图像的图像特征进行融合，得到融合特征；

利用第一解码器对融合特征进行特征解码，得到第三行人图像；

将第三行人图像确定为第一行人图像的负样本图像，并利用第一行人图像及负样本图像将第一预设模型训练至收敛，得到行人再识别模型。

根据本公开的另一方面，提供了一种行人再识别方法，包括：

利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到目标图像的行人特征以及候选行人图像的行人特征；其中，行人再识别模型是根据本公开任意实施例提供的模型训练方法得到的；

基于目标图像的行人特征以及候选行人图像的行人特征，确定目标图像与候选行人图像之间的相似度；

在相似度符合预设条件的情况下，将候选行人图像确定为目标图像的相关图像。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第一编码模块，用于利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到第一行人图像的图像特征和第二行人图像的图像特征；

融合模块，用于对第一行人图像的图像特征和第二行人图像的图像特征进行融合，得到融合特征；

第一解码模块，用于利用第一解码器对融合特征进行特征解码，得到第三行人图像；

第一训练模块，用于将第三行人图像确定为第一行人图像的负样本图像，并利用第一行人图像及所述负样本图像将第一预设模型训练至收敛，得到行人再识别模型。

根据本公开的另一方面，提供了一种行人再识别装置，包括：

第二提取模块，用于利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到目标图像的行人特征以及候选行人图像的行人特征；其中，行人再识别模型是根据本公开任意实施例提供的模型训练方法得到的；

第三相似度模块，用于基于目标图像的行人特征以及候选行人图像的行人特征，确定目标图像与候选行人图像之间的相似度；

第二确定模块，用于在相似度符合预设条件的情况下，将候选行人图像确定为目标图像的相关图像。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，由于第三行人图像是基于第一样本图像的图像特征和第二样本图像的图像特征进行融合得到的，因此第三行人图像既包含第一行人图像中的信息，也与第一行人图像具有一定的差异。利用第三行人图像作为第一行人图像的负样本，可以提升第一行人图像与其负样本之间的区分难度，从而基于区分困难的样本训练得到行人再识别模型，提升模型区分外表相似但身份不同的行人的效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开一个实施例提供的模型训练方法的示意图；

图2是本公开另一实施例提供的模型训练方法中第一阶段的示意图；

图3是本公开另一实施例提供的模型训练方法中第二阶段的示意图；

图4是本公开另一实施例提供的模型训练方法中第三阶段的示意图；

图5是本公开一个实施例提供的行人再识别方法的示意图；

图6是本公开一个实施例提供的模型训练装置的示意图；

图7是本公开另一实施例提供的模型训练装置的示意图；

图8是本公开又一实施例提供的模型训练装置的示意图；

图9是本公开一个实施例提供的行人再识别装置的示意图；

图10是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了本公开一个实施例提供的模型训练方法的示意图。如图1所示，模型训练方法包括：

步骤S11，利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到第一行人图像的图像特征和第二行人图像的图像特征；

步骤S12，对第一行人图像的图像特征和第二行人图像的图像特征进行融合，得到融合特征；

步骤S13，利用第一解码器对融合特征进行特征解码，得到第三行人图像；

步骤S14，将第三行人图像确定为第一行人图像的负样本图像，并利用第一行人图像及负样本图像将第一预设模型训练至收敛，得到行人再识别模型。

上述步骤S11中的第一编码器可用于基于行人图像提取图像特征，步骤S13中的第一解码器可用于基于图像特征解码得到新的图像。因此，第一编码器和第一解码器可以构成图像生成模型，用于基于输入的行人图像，重构新的行人图像。其中，第一编码器提取的图像特征可以采用第一向量表征。该向量可以包括对应的行人图像的多个维度的特征信息。

本公开实施例中，可以将样本数据集中不同的行人图像如第一行人图像和第二行人图像分别输入第一编码器，第一编码器输出对应的图像特征。通过对图像特征进行融合，得到融合特征。再将融合特征输入第一解码器，第一解码器基于融合特征重构并输出第三行人图像。

由于是基于第一行人图像和第二行人图像的融合特征重构出第三行人图像，因此第三行人图像既包含第一行人图像的信息也包含第二行人图像的信息。将第三行人图像作为第一行人图像的负样本图像，使得第一行人图像和其负样本图像之间的区分难度较高，从而基于区分困难的样本训练得到行人再识别模型，提升模型区分外表相似但身份不同的行人的效果。

示例性地，样本数据集可以包括至少两个行人图像。每个行人图像对应于一个行人。不同的行人图像可以对应于不同的行人，也可以对应于相同的行人。

实际应用中，可以从样本数据集中采样一个图像作为第一样本图像。并以第一样本图像作为基准，采样一个与第一行人图像差异较大的图像，例如与第一行人图像对应于不同行人的图像，作为第二样本图像。基于采样的图像重构出第三行人图像，将第一行人图像和第三行人图像分别输入第一预设模型，第一预设模型对第一行人图像和第三行人图像分别进行处理后，输出对应的处理结果例如图像中的行人特征或行人标识。根据第一预设模型的处理结果和第一预设模型所对应的损失函数，计算损失函数的函数值。并基于损失函数的函数值更新第一预设模型，直至第一预设模型达到收敛条件例如更新次数达到第一预设阈值、损失函数的函数值小于第二预设阈值或损失函数的函数值不再发生变化等，将收敛的第一预设模型确定为可用于完成行人再识别任务的行人再识别模型。

示例性地，第一预设模型所对应的损失函数可用于约束第一预设模型将第一行人图像的处理结果和负样本图像的处理结果推远，或者说用于使第一预设模型针对第一行人图像及负样本图像输出在特征空间中距离尽量远的处理结果。从而使得第一预设模型能够区分出不同的行人图像。

示例性地，可以每次采样生成一个第三行人图像，形成包含第一行人图像和第三行人图像的一组正负样本对后，利用该组正负样本对执行更新第一预设模型的相关操作；然后进行下一次采样。也可以先针对样本数据集的每个行人图像均获得对应的负样本图像，形成多个正负样本对之后，再利用多个正负样本对执行多次更新第一预设模型的相关操作。

示例性地，在通过更新第一预设模型实现对第一预设模型的训练的过程中，也可以对第一编码器和第一解码器进行更新。具体地，模型训练方法还可以包括：

基于第一行人图像与负样本图像，确定第一相似度；

基于样本图像集中除第一行人图像以外的至少一个行人图像，确定与至少一个行人图像分别对应的至少一个第二相似度；

基于第一相似度、至少一个第二相似度以及对抗损失函数，更新第一编码器以及第一解码器。

其中，对抗损失函数可以用于约束第一相似度大于至少一个第二相似度中的任一个。基于此，基于第一相似度、至少一个第二相似度以及对抗损失函数更新第一编码器和第一解码器，能够使第一编码器和第一解码器重构出的图像与第一行人图像更相似，增加第一行人图像与负样本图像之间的区分难度，从而进一步提升行人再识别模型的效果。

示例性地，可以基于第一相似度和第二相似度，计算对抗损失函数的函数值，基于对抗损失函数的函数值更新第一编码器和第一解码器。

在一些场景中，还可以结合重构损失函数和/或负样本图像的真实度更新第一编码器和第一解码器。其中，重构损失函数可用于约束第一编码器和第一解码器重构的图像与第一行人图像和/或第二行人图像之间的相似度高于预设阈值，也就是说，重构的图像要与输入的图像具有一定的相似性。真实度可以利用真实度判别器确定。作为示例，可以先计算对抗损失函数的函数值、重构损失函数的函数值，并确定真实度，再利用以上三者更新第一编码器和第二编码器。

由于在利用第一行人图像及其负样本图像训练第一预设模型以得到行人再识别模型的过程中，还利用第一行人图像及所述负样本图像训练第一编码器和第二解码器，因此，第一编码器和第一解码器也会逐步提升重构的负样本图像的质量，从而逐步提升第一预设模型的训练效果。

示例性地，第一编码器和第一解码器可以是基于行人图像预先训练得到的。具体地，获取第一编码器和第一解码器的方式包括：

利用第二编码器对样本数据集中的第i个行人图像进行特征提取，得到第i个行人图像的图像特征；其中，i为大于等于1的正整数；

利用第二解码器对第i个行人图像的图像特征进行特征解码，得到生成图像；

基于第i个行人图像与生成图像之间的相似度以及重构损失函数，更新第二编码器和第二解码器；

在第二编码器和第二解码器符合收敛条件的情况下，将第二编码器确定为第一编码器并将第二解码器确定为第一解码器。

其中，重构损失函数用于约束第i个行人图像和生成图像之间的相似度小于预设阈值。或者说重构损失函数约束解码出的图像和输入编码的图像相似。

基于上述过程，第二编码器和第二解码器会逐步提高重构出与输入图像相似的图像的能力。在符合收敛条件的情况下将第二编码器和第二解码器确定为第一编码器和第一解码器，从而第一编码器和第一解码器具备重构出相似图像的能力。因此，将第一编码器和第一解码器应用于生成负样本图像，可以提高生成效果，从而提高行人再识别模型的训练效果。

示例性地，基于第i个行人图像与生成图像之间的相似度以及重构损失函数，更新第二编码器和第二解码器，包括：

基于第i个行人图像和生成图像之间的相似度以及重构损失函数，计算重构损失函数的函数值；

利用真实度判别器确定生成图像的真实度；

根据重构损失函数的函数值以及生成图像的真实度，更新第二编码器和第二解码器。

也就是说，在训练过程中，不仅利用重构损失函数约束第二编码器和第二解码器生成的图像要与输入图像相似，还约束生成图像要尽量逼真。将对第二编码器和第二解码器进行训练得到的第一编码器和第一解码器应用于生成负样本图像，可以提高生成效果，从而提高行人再识别模型的训练效果。

示例性地，上述第一预设模型也可以经预先训练得到。具体地，获取第一预设模型的方式包括：

利用第二预设模型对样本数据集中的每个行人图像进行特征提取，得到每个行人图像的行人特征；

基于行人特征对样本数据集中的各个行人图像进行聚类，得到与至少两个类簇标签分别对应的至少两个类簇；其中，至少两个类簇中的每个类簇均包括至少一个行人图像；

基于样本数据集中的每个行人图像以及每个行人图像所对应的类簇标签，将第二预设模型训练至收敛，得到第一预设模型。

其中，行人特征可以采用第二向量表征。第二向量包括行人图像所对应的行人的多个维度上的特征。

需要说明的是，本公开实施例中的各编码器和第一预设模型、第二预设模型、行人再识别模型均可用于进行特征提取，各编码器或模型可以基于相同的方式或不同的方式提取不同维度的特征。例如，编码器可着重提取与图像画面效果相关的特征如色彩等，第一预设模型、第二预设模型、行人再识别模型可着重提取与行人相关的特征例如行人高度等。

示例性地，上述对行人图像进行聚类，可以基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)、K-means(K-means Clustering Algorithm，K均值聚类算法)等至少一种实现。

通过聚类，各行人图像被划分至不同的类簇中，每个类簇的类簇标签可作为类簇中各行人图像的伪标签。利用各行人图像及其类簇标签或者说伪标签训练第二预设模型，可以实现无监督训练，减少对各行人图像的标注成本。

实际应用中，在将第二预设模型训练至收敛，得到第一预设模型的过程中，可以利用第二预设模型所对应的损失函数，约束第二预设模型将针对不同类簇的行人图像的处理结果推远，将针对相同类簇的行人图像的处理结果拉近。从而使得第二预设模型逐步提高区分不同行人图像的能力。

示例性地，上述第一行人图像与第二行人图像可以是至少两个类簇中的不同类簇中的行人图像。

通过使用不同类簇的图像作为第一行人图像和第二行人图像，可以确保利用融合特征重构出的第三行人图像与第一行人图像具有差异性，从而确保行人再识别模型获得准确区分的能力。

下面以一具体的应用示例，说明本公开实施例的模型训练方法的可选的实现方式。在应用示例中，模型训练方法用于训练得到行人再识别模型。具体可分为三个阶段。

图2是第一阶段的示意图。如图2所示，第一阶段包括以下步骤：

特征提取步骤201：使用初始化的模型对无标签样本数据集200中的每一个行人图像进行特征提取。其中，初始化的模型记为第二预设模型，可利用带标签的多个行人图像训练得到初始化的模型。

聚类步骤202：使用DBSCAN、k-means等聚类算法中的一种或多种对步骤201提取的特征进行聚类，实现对无标签样本数据集200中的图像的聚类。这样，无标签样本数据集200中各图像在特征空间中被划分到各个不同的类簇中。

分配伪标签步骤203：根据各图像在特征空间中对应的类簇，为各图像分配伪标签。伪标签即相应的类簇索引。

无监督对比训练步骤204：根据各图像、步骤203分配的伪标签和损失函数，训练第二预设模型。其中，损失函数约束同一类簇内的图像在特征空间相互靠近，不同类簇的图像在特征空间相互远离。

经过步骤204中往复迭代的训练过程，第二预设模型收敛，得到第一预设模型205。

图3是第二阶段的示意图。第二阶段用于训练图像生成模型，图像生成模型包括编码器和解码器。第二阶段的目的是使图像生成模型具备从抽象特征重构自然图像的能力。第二阶段包括步骤：

特征编码步骤300：利用图像生成模型中的第二编码器对无标签样本数据集 200中的各图像进行特征提取，得到相应的图像特征301。

特征解码步骤302：利用图像生成模型中的第二解码器对图像特征301进行解码，得到生成图像。

真实度判别步骤303：利用真实度判别器确定生成图像的真实度。该步骤用于约束图像生成模型输出的生成图像尽量逼真。

重构损失函数计算步骤304：根据生成图像和无标签样本数据集200中输入图像生成模型的图像计算重构损失函数，重构损失函数用于约束第二解码器解码出的生成图像要和输入第二编码器的图像相似。

基于步骤303和步骤304的输出，可以更新图像生成模型。当符合预设收敛条件时，可将图像生成模型中的第二编码器确定为第一编码器，将图像生成模型中的第二解码器确定为第一解码器，以将第一编码器和第一解码器应用于第三阶段。

图4是第三阶段的示意图。如图4所示，第三阶段包括：

采样步骤400：依次采样无标签样本数据集200中的每个图像，作为基准图像，即第一行人图像。然后采样一个与第一行人图像不属于同一类簇的图像作为第二行人图像。

特征编码步骤401：利用图像生成模型中的第一编码器对第一行人图像和第二行人图像分别进行特征提取，得到相应的图像特征。

融合特征步骤402：将步骤401得到的图像进行加权融合，得到融合特征。

特征解码步骤403：利用图像生成模型中的第一解码器对融合特征进行解码，得到第三行人图像406。

真实度判别步骤404：利用真实度判别器确定第三行人图像406的真实度。

重构和对抗损失函数405：除了计算重构损失函数外，该步骤还计算对抗损失函数。对抗损失函数约束第三行人图像406与第一行人图像的相似度要大于第三行人图像406与无标签样本数据集200中其他图像的相似度。即生成的第三行人图像要在外表上与第一行人图像有一定相似性。

无监督训练步骤407：该步骤将第三行人图像作为第一行人图像的负样本，对第一预设模型进行无监督训练。除第一阶段中无监督训练步骤的损失函数的约束外，在本步骤中损失函数还约束要将第一行人图像及所述负样本图像在特征空间中尽量推远，以使模型能够具备区分困难样本的效果。最终输出行人再识别模型408。

根据本公开实施例的方法，由于第三行人图像是基于第一样本图像的图像特征和第二样本图像的图像特征进行融合得到的，因此第三行人图像既包含第一行人图像中的信息，也与第一行人图像具有一定的差异。利用第三行人图像作为第一行人图像的负样本，可以提升第一行人图像与其负样本之间的区分难度，从而基于区分困难的样本训练得到行人再识别模型，提升模型区分外表相似但身份不同的行人的效果。

本公开实施例还提供上述行人再识别模型的应用方法。图5示出了本公开一个实施例提供的行人再识别方法，包括：

步骤S51，利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到目标图像的行人特征以及候选行人图像的行人特征；其中，行人再识别模型是根据本公开任意实施例提供的模型训练方法得到的；

步骤S52，基于目标图像的行人特征以及候选行人图像的行人特征，确定目标图像与候选行人图像之间的相似度；

步骤S53，在相似度符合预设条件的情况下，将候选行人图像确定为目标图像的相关图像。

其中，预设条件例如是相似度小于预设阈值或相似度最小等。

由于本公开实施例提供的模型训练方法基于区分困难的样本训练得到行人再识别模型，因此，利用行人再识别模型可以准确提取各图像的行人特征，基于各图像的行人特征进行相似度计算，利用计算得到的相似度可以从候选行人图像中准确确定出目标图像的相关图像。

作为上述各方法的实现，本公开还提供了一种模型训练装置。如图6所示，该装置包括：

第一编码模块610，用于利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到第一行人图像的图像特征和第二行人图像的图像特征；

融合模块620，用于对第一行人图像的图像特征和第二行人图像的图像特征进行融合，得到融合特征；

第一解码模块630，用于利用第一解码器对融合特征进行特征解码，得到第三行人图像；

第一训练模块640，用于将第三行人图像确定为第一行人图像的负样本图像，并利用第一行人图像及负样本图像将第一预设模型训练至收敛，得到行人再识别模型。

示例性地，如图7所示，该装置还包括：

第一相似度模块710，用于基于第一行人图像与负样本图像，确定第一相似度；

第二相似度模块720，用于基于样本图像集中除第一行人图像以外的至少一个行人图像，确定与至少一个行人图像分别对应的至少一个第二相似度；

第一更新模块730，用于基于第一相似度、至少一个第二相似度以及对抗损失函数，更新第一编码器以及第一解码器。

示例性地，如图7所示，该装置还包括：

第二编码模块750，用于利用第二编码器对样本数据集中的第i个行人图像进行特征提取，得到第i个行人图像的图像特征；其中，i为大于等于1的正整数；

第二解码模块760，用于利用第二解码器对第i个行人图像的图像特征进行特征解码，得到生成图像；

第二更新模块770，用于基于第i个行人图像与生成图像之间的相似度以及重构损失函数，更新第二编码器和第二解码器；

第一确定模块780，用于在第二编码器和第二解码器符合收敛条件的情况下，将第二编码器确定为第一编码器并将第二解码器确定为第一解码器。

示例性地，第二更新模块770包括：

计算单元771，用于基于第i个行人图像和生成图像之间的相似度以及重构损失函数，计算重构损失函数的函数值；

确定单元772，用于利用真实度判别器确定生成图像的真实度；

更新单元773，用于根据重构损失函数的函数值以及生成图像的真实度，更新第二编码器和第二解码器。

示例性地，如图8所示，该装置还包括：

第一提取模块810，用于利用第二预设模型对样本数据集中的每个行人图像进行特征提取，得到每个行人图像的行人特征；

聚类模块820，用于基于行人特征对样本数据集中的各个行人图像进行聚类，得到与至少两个类簇标签分别对应的至少两个类簇；其中，至少两个类簇中的每个类簇均包括至少一个行人图像；

第二训练模块830，用于基于样本数据集中的每个行人图像以及每个行人图像所对应的类簇标签，将第二预设模型训练至收敛，得到第一预设模型。

示例性地，第一行人图像与第二行人图像为至少两个类簇中的不同类簇中的行人图像。

本公开实施例还提供一种行人再识别装置，如图9所示，该装置包括：

第二提取模块910，用于利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到目标图像的行人特征以及候选行人图像的行人特征；其中，行人再识别模型是根据上述模型训练方法得到的；

第三相似度模块920，用于基于目标图像的行人特征以及候选行人图像的行人特征，确定目标图像与候选行人图像之间的相似度；

第二确定模块930，用于在相似度符合预设条件的情况下，将候选行人图像确定为目标图像的相关图像。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如模型训练方法或行人再识别方法。例如，在一些实施例中，模型训练方法或行人再识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的模型训练方法或行人再识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法或行人再识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端- 服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种模型训练方法，包括：

利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到所述第一行人图像的图像特征和所述第二行人图像的图像特征；

对所述第一行人图像的图像特征和所述第二行人图像的图像特征进行融合，得到融合特征；

利用第一解码器对所述融合特征进行特征解码，得到第三行人图像；

将所述第三行人图像确定为所述第一行人图像的负样本图像，并利用所述第一行人图像及所述负样本图像将第一预设模型训练至收敛，得到行人再识别模型。
根据权利要求1所述的方法，还包括：

基于所述第一行人图像与所述负样本图像，确定第一相似度；

基于所述样本图像集中除所述第一行人图像以外的至少一个行人图像，确定与所述至少一个行人图像分别对应的至少一个第二相似度；

基于所述第一相似度、所述至少一个第二相似度以及对抗损失函数，更新所述第一编码器以及所述第一解码器。
根据权利要求1或2所述的方法，其中，获取所述第一编码器和所述第一解码器的方式包括：

利用第二编码器对所述样本数据集中的第i个行人图像进行特征提取，得到所述第i个行人图像的图像特征；其中，i为大于等于1的正整数；

利用第二解码器对所述第i个行人图像的图像特征进行特征解码，得到生成图像；

基于所述第i个行人图像与所述生成图像之间的相似度以及重构损失函数，更新所述第二编码器和所述第二解码器；

在所述第二编码器和所述第二解码器符合收敛条件的情况下，将所述第二编码器确定为所述第一编码器并将所述第二解码器确定为所述第一解码器。
根据权利要求3所述的方法，其中，所述基于所述第i个行人图像与所述生成图像之间的相似度以及重构损失函数，更新所述第二编码器和所述第二解码器，包括：

基于所述第i个行人图像和所述生成图像之间的相似度以及所述重构损失函数，计算所述重构损失函数的函数值；

利用真实度判别器确定所述生成图像的真实度；

根据所述重构损失函数的函数值以及所述生成图像的真实度，更新所述第二编码器和所述第二解码器。
根据权利要求1-4中任一项所述的方法，其中，获取所述第一预设模型的方式包括：

利用第二预设模型对样本数据集中的每个行人图像进行特征提取，得到所述每个行人图像的行人特征；

基于所述行人特征对所述样本数据集中的各个行人图像进行聚类，得到与至少两个类簇标签分别对应的至少两个类簇；其中，所述至少两个类簇中的每个类簇均包括至少一个行人图像；

基于所述样本数据集中的每个行人图像以及所述每个行人图像所对应的类簇标签，将所述第二预设模型训练至收敛，得到所述第一预设模型。
根据权利要求5所述的方法，其中，所述第一行人图像与所述第二行人图像为所述至少两个类簇中的不同类簇中的行人图像。
一种行人再识别方法，包括：

利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到所述目标图像的行人特征以及所述候选行人图像的行人特征；其中，所述行人再识别模型是根据权利要求1-6中任一项所述的模型训练方法得到的；

基于所述目标图像的行人特征以及所述候选行人图像的行人特征，确定所述目标图像与所述候选行人图像之间的相似度；

在所述相似度符合预设条件的情况下，将所述候选行人图像确定为所述目标图像的相关图像。
一种模型训练装置，包括：

第一编码模块，用于利用第一编码器对样本数据集中的第一行人图像和第二行人图像进行特征提取，得到所述第一行人图像的图像特征和所述第二行人图像的图像特征；

融合模块，用于对所述第一行人图像的图像特征和所述第二行人图像的图像特征进行融合，得到融合特征；

第一解码模块，用于利用第一解码器对所述融合特征进行特征解码，得到第三行人图像；

第一训练模块，用于将所述第三行人图像确定为所述第一行人图像的负样本图像，并利用所述第一行人图像及所述负样本图像将第一预设模型训练至收敛，得到行人再识别模型。
根据权利要求8所述的装置，还包括：

第一相似度模块，用于基于所述第一行人图像与所述负样本图像，确定第一相似度；

第二相似度模块，用于基于所述样本图像集中除所述第一行人图像以外的至少一个行人图像，确定与所述至少一个行人图像分别对应的至少一个第二相似度；

第一更新模块，用于基于所述第一相似度、所述至少一个第二相似度以及对抗损失函数，更新所述第一编码器以及所述第一解码器。
根据权利要求8或9所述的装置，还包括：

第二编码模块，用于利用第二编码器对所述样本数据集中的第i个行人图像进行特征提取，得到所述第i个行人图像的图像特征；其中，i为大于等于1的正整数；

第二解码模块，用于利用第二解码器对所述第i个行人图像的图像特征进行特征解码，得到生成图像；

第二更新模块，用于基于所述第i个行人图像与所述生成图像之间的相似度以及重构损失函数，更新所述第二编码器和所述第二解码器；

第一确定模块，用于在所述第二编码器和所述第二解码器符合收敛条件的情况下，将所述第二编码器确定为所述第一编码器并将所述第二解码器确定为所述第一解码器。
根据权利要求10所述的装置，其中，所述第二更新模块包括：

计算单元，用于基于所述第i个行人图像和所述生成图像之间的相似度以及所述重构损失函数，计算所述重构损失函数的函数值；

确定单元，用于利用真实度判别器确定所述生成图像的真实度；

更新单元，用于根据所述重构损失函数的函数值以及所述生成图像的真实度，更新所述第二编码器和所述第二解码器。
根据权利要求8-11中任一项所述的装置，还包括：

第一提取模块，用于利用第二预设模型对样本数据集中的每个行人图像进行特征提取，得到所述每个行人图像的行人特征；

聚类模块，用于基于所述行人特征对所述样本数据集中的各个行人图像进行聚类，得到与至少两个类簇标签分别对应的至少两个类簇；其中，所述至少两个类簇中的每个类簇均包括至少一个行人图像；

第二训练模块，用于基于所述样本数据集中的每个行人图像以及所述每个行人图像所对应的类簇标签，将所述第二预设模型训练至收敛，得到所述第一预设模型。
根据权利要求12所述的装置，其中，所述第一行人图像与所述第二行人图像为所述至少两个类簇中的不同类簇中的行人图像。
一种行人再识别装置，包括：

第二提取模块，用于利用行人再识别模型对目标图像以及候选行人图像分别进行特征提取，得到所述目标图像的行人特征以及所述候选行人图像的行人特征；其中，所述行人再识别模型是根据权利要求1-6中任一项所述的模型训练方法得到的；

第三相似度模块，用于基于所述目标图像的行人特征以及所述候选行人图像的行人特征，确定所述目标图像与所述候选行人图像之间的相似度；

第二确定模块，用于在所述相似度符合预设条件的情况下，将所述候选行人图像确定为所述目标图像的相关图像。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。