WO2024051350A1

WO2024051350A1 - 图像检索方法、装置、电子设备及存储介质

Info

Publication number: WO2024051350A1
Application number: PCT/CN2023/107962
Authority: WO
Inventors: 舒秀军; 文伟; 谯睿智
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-09-07
Filing date: 2023-07-18
Publication date: 2024-03-14
Also published as: CN116992069A; US20240168992A1

Abstract

一种图像检索方法、装置、电子设备及存储介质，图像检索方法获取候选图像集以及多种模态的待检索数据，其中，候选图像集包括多个候选图像；基于目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，基于目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征；根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，其中，检索数据组合包括至少一种模态的待检索数据；将多个结果图像集进行合并，得到图像检索结果。

Description

图像检索方法、装置、电子设备及存储介质

本申请基于申请号为：202211089620.8，申请日为2022年09月07日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像检索方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的快速发展，图像检索在多种场景中得到广泛的应用。相关技术中，一般基于输入的待检索数据进行图像检索，待检索数据一般也为图像，即这种图像检索方式实际上为图搜图，具体可以从图像数据库中检索出与输入的检索图像相似的图像。然而，这种图像检索方式不能泛化其他类型的待检索数据，图像检索的准确性有待提高。

发明内容

以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种图像检索方法、装置、电子设备及存储介质，能够提升图像检索的准确性。

一方面，本申请实施例提供了一种图像检索方法，包括：

电子设备获取候选图像集以及多种模态的待检索数据，其中，所述候选图像集包括多个候选图像；

电子设备基于目标模型对所述待检索数据进行特征提取，得到所述待检索数据的第一特征，基于所述目标模型对所述候选图像进行多次特征提取，得到所述候选图像向各种模态的所述待检索数据对齐后的第二特征；

电子设备根据所述第一特征和所述第二特征，确定所述候选图像与各种模态的所述待检索数据之间的第一相似度，电子设备根据所述第一相似度，从所述候选图像集中确定多个检索数据组合对应的结果图像集，其中，所述检索数据组合包括至少一种模态的所述待检索数据；

电子设备将多个所述结果图像集进行合并，得到图像检索结果。

另一方面，本申请实施例还提供了一种图像检索装置，包括：

数据获取模块，用于获取候选图像集以及多种模态的待检索数据，其中，所述候选图像集包括多个候选图像；

模型处理模块，用于基于目标模型对所述待检索数据进行特征提取，得到所述待检索数据的第一特征，基于所述目标模型对所述候选图像进行多次特征提取，得到所述候选图像向各种模态的所述待检索数据对齐后的第二特征；

检索模块，用于根据所述第一特征和所述第二特征，确定所述候选图像与各种模态的所述待检索数据之间的第一相似度，根据所述第一相似度，从所述候选图像集中确定多个检索数据组合对应的结果图像集，其中，所述检索数据组合包括至少一种模态的所述待检索数据；

合并模块，用于将多个所述结果图像集进行合并，得到图像检索结果。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的图像检索方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的图像检索方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像检索方法。

本申请实施例至少包括以下有益效果：电子设备通过目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，再通过同一个目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征，既能够利用多种模态的待检索数据来提升图像检索的准确性，也能够统一多种模态的待检索数据与候选图像的特征框架，提升第一特征与第二特征之间的特征空间一致性；并且，电子设备利用同一个目标模型来确定第一特征和第二特征可以减少目标模型的参数量，降低目标模型部署的内存开销；另外，在训练阶段也只需要训练同一个目标模型，提升模型训练效率；在此基础上，电子设备通过根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，电子设备根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，将多个结果图像集进行合并，得到图像检索结果，无须将待检索数据与候选图像进行一对一检索，有效地提升了图像检索的效率，并且图像检索结果基于多个检索数据组合对应的结果图像集得到，能够有效地提升图像检索的准确性。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种可选的实施环境的示意图；

图2为本申请实施例提供的图像检索方法的一种可选的流程示意图；

图3为本申请实施例提供的目标模型的一种可选的结构示意图；

图4为本申请实施例提供的基于多个检索数据组合得到图像检索结果的一种可选的流程示意图；

图5为本申请实施例提供的目标模型的另一种可选的结构示意图；

图6为本申请实施例提供的目标模型的一种可选的训练过程示意图；

图7为本申请实施例提供的对训练样本进行扩展的一种可选的流程示意图；

图8为本申请实施例提供的目标模型的一种可选的总体架构示意图；

图9为本申请实施例提供的目标模型的另一种可选的总体架构示意图；

图10为本申请实施例提供的目标模型的另一种可选的总体架构示意图；

图11为本申请实施例提供的目标模型的另一种可选的总体架构示意图；

图12为本申请实施例提供的利用搜索引擎来进行图像检索的流程示意图；

图13为本申请实施例提供的在照片应用中进行图像检索的流程示意图；

图14为本申请实施例提供的图像检索装置的一种可选的结构示意图；

图15为本申请实施例提供的终端的部分结构框图；

图16为本申请实施例提供的服务器的部分结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准其中，目标对象可以是用户。此外，当本申请实施例需要获取目标对象属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

相关技术中，一般基于输入的待检索数据进行图像检索，待检索数据一般也为图像，即这种图像检索方式实际上为图搜图，具体可以从图像数据库中检索出与输入的检索图像相似的图像。然而，这种图像检索方式不能泛化其他类型的待检索数据，图像检索的准确性有待提高。

基于此，本申请实施例提供了一种图像检索方法、装置、电子设备及存储介质，能够提升图像检索的准确性。

参照图1，图1为本申请实施例提供的一种可选的实施环境的示意图，该实施环境包括终端101和服务器102，其中，终端101和服务器102之间通过通信网络连接。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，服务器102还可以是区块链网络中的一个节点服务器。

终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

示例性地，终端101可以将多种模态的待检索数据发送至服务器102；服务器102接收待检索数据并获取预先存储的候选图像集，基于目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，基于目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征，根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，将多个结果图像集进行合并，得到图像检索结果，将图像检索结果发送至终端101；终端101对图像检索结果进行显示。服务器102通过目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，再通过同一个目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征，既能够利用多种模态的待检索数据来提升图像检索的准确性，也能够统一多种模态的待检索数据与候选图像的特征框架，提升第一特征与第二特征之间的特征空间一致性；并且，利用同一个目标模型来确定第一特征和第二特征可以减少目标模型的参数量，降低目标模型部署的内存开销；另外，在训练阶段也只需要训练同一个目标模型，提升模型训练效率；在此基础上，通过根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，将多个结果图像集进行合并，得到图像检索结果，无须将待检索数据与候选图像进行一对一检索，有效地提升了图像检索的效率，并且图像检索结果基于多个检索数据组合对应的结果图像集得到，能够有效地提升图像检索的准确性。

本申请实施例提供的方法可应用于各种技术领域，包括但不限于云技术、人工智能等技术领域。

参照图2，图2为本申请实施例提供的图像检索方法的一种可选的流程示意图，该图像检索方法可以由服务器执行，或者可以由终端执行，或者也可以由服务器和终端配合执行，该图像检索方法包括但不限于以下步骤201至步骤204。

步骤201：电子设备获取候选图像集以及多种模态的待检索数据。

其中，候选图像集包括多个候选图像，候选图像即检索数据库中的图像，图像检索结果基于候选图像集产生。待检索数据即进行图像检索时的查询数据，模态用于指示待检索数据的存在形式，模态可以是图像模态、文本模态、语音模态等，图像模态的待检索数据即待检索图像，文本模态的待检索数据即待检索文本，语音模态的待检索数据即待检索语音。

在一种可能的实现方式中，多种模态的待检索数据可以包括待检索图像和待检索文本，或者，多种模态的待检索数据也可以包括待检索图像和待检索语音，或者，多种模态的待检索数据也可以包括待检索文本和待检索语音，或者，多种模态的待检索数据也可以包括待检索图像、待检索文本和待检索语音。

其中，多种模态的待检索数据是相互独立的，不同模态的待检索数据之间可以是相关联的，也可以是不相关的。以多种模态的待检索数据包括待检索图像和待检索文本为例，待检索图像可以是包括三朵牡丹花的图像，待检索文本可以是“三朵牡丹花”，此时，待检索图像和待检索文本之间相关联；又或者，待检索图像可以是包括三朵牡丹花的图像，待检索文本可以是“三辆汽车”，此时，待检索图像和待检索文本之间不相关。

步骤202：电子设备基于目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，电子设备基于目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征。

在一种可能的实现方式中，特征提取可以是指将待检索数据映射至高维特征空间。基于目标模型对待检索数据进行特征提取，是基于目标模型对各种模态的待检索数据进行特征提取，相应地，目标模型可以设置有不同的特征提取单元来对各种模态的待检索数据进行特征提取。例如，当多种模态的待检索数据包括待检索图像和待检索文本时，目标模型设置有图像特征提取单元和文本特征提取单元，图像特征提取单元用于对待检索图像进行特征提取，文本特征提取单元用于对待检索文本进行特征提取；当多种模态的待检索数据包括待检索图像和待检索语音时，目标模型设置有图像特征提取单元和语音特征提取单元，语音特征提取单元用于对待检索语音进行特征提取；当多种模态的待检索数据包括待检索文本和待检索语音时，目标模型设置有文本特征提取单元和语音特征提取单元；当多种模态的待检索数据包括待检索图像、待检索文本和待检索语音时，目标模型设置有图像特征提取单元、文本特征提取单元和语音特征提取单元。

在一种可能的实现方式中，基于目标模型对待检索数据进行特征提取，得到待检索数据的第一特征时，具体可以将待检索数据转化为检索嵌入向量，将检索嵌入向量输入至目标模型中，基于目标模型对待检索数据进行特征映射，得到待检索数据的第一特征。其中，检索嵌入向量用于表征待检索数据的初始特征(经目标模型进行特征提取处理前的特征)，不同模态的待检索数据转化为向量格式相同的检索嵌入向量，从而便于在同一个模型框架内统一多种模态的待检索数据的表征。

具体地，检索嵌入向量可以包括相互拼接的信息嵌入向量和类型嵌入向量，信息嵌入向量用于表征待检索数据所包含的信息特征，例如，当待检索数据为待检索图像时，信息嵌入向量用于表征待检索图像的图像信息，当待检索数据为待检索文本时，信息嵌入向量用于表征待检索图像的文本信息，当待检索数据为待检索语音时，信息嵌入向量用于表征待检索图像的语音信息；类型嵌入向量用于表征待检索数据的模态类型特征，例如，当待检索数据为待检索图像时，类型嵌入向量用于表征该待检索数据为图像模态，当待检索数据为待检索文本时，类型嵌入向量用于表征该待检索数据为文本模态，当待检索数据为待检索语音时，类型嵌入向量用于表征该待检索数据为语音模态。基于此，检索嵌入向量可以表示为：
X＝f_inf+f_typ

其中，X表示检索嵌入向量，f_inf表示信息嵌入向量，f_typ表示类型嵌入向量。

由于检索嵌入向量包括相互拼接的信息嵌入向量和类型嵌入向量，可以基于信息嵌入向量来表征待检索图像的图像信息，基于类型嵌入向量来表征待检索数据的模态类型特征，后续基于目标模型对待检索数据进行特征提取时，可以便于目标模型根据类型嵌入向量确定当前的待检索数据的模态，进而调用对应的特征提取单元来对待检索数据进行特征提取，从而使得目标模型可以区分多种模态的待检索数据，便于在同一个模型框架内统一多种模态的待检索数据的表征。

在一种可能的实现方式中，候选图像向各种模态的待检索数据对齐，即候选图像与各种模态的待检索数据映射至相同的高维特征空间中，即第一特征与第二特征是相互对齐的。例如，若多种模态的待检索数据包括待检索图像和待检索文本，则将候选图像与待检索图像进行对齐，以及将候选图像与待检索文本进行对齐，相应地，得到的第二特征的数量与待检索数据的模态数量相等，即得到候选图像向待检索图像对齐后的第二特征，以及得到候选图像向待检索文本对齐后的第二特征。可以理解的是，若多种模态的待检索数据包括待检索图像、待检索文本和待检索语音，则也将候选图像与待检索语音进行对齐，得到候选图像向待检索语音对齐后的第二特征。

相应地，目标模型中可以设置有不同的模态对齐单元来对候选图像进行特征提取，以将候选图像向对应模态的待检索数据对齐。例如，当多种模态的待检索数据包括待检索图像和待检索文本时，目标模型设置有图像模态对齐单元和文本模态对齐单元，图像模态对齐单元用于将候选图像向待检索图像对齐，文本模态对齐单元用于将候选图像向待检索文本对齐；当多种模态的待检索数据包括待检索图像和待检索语音时，目标模型设置有图像模态对齐单元和语音模态对齐单元，语音模态对齐单元用于将候选图像向待检索语音对齐；当多种模态的待检索数据包括待检索文本和待检索语音时，目标模型设置有文本模态对齐单元和语音模态对齐单元；当多种模态的待检索数据包括待检索图像、待检索文本和待检索语音时，目标模型设置有图像模态对齐单元、文本模态对齐单元和语音模态对齐单元。

具体地，参照图3，图3为本申请实施例提供的目标模型的一种可选的结构示意图，其中，该目标模型设置有多个特征提取单元和多个模态对齐单元，各个特征提取单元分别用于对对应模态的待检索数据进行特征提取，各个模态对齐单元分别用于将候选图像进行特征提取，使得候选图像向对应模态的待检索数据对齐。各个特征提取单元之间的参数可以不相同，各个模态对齐单元之间的参数可以不相同。通过在目标模型中设置多个特征提取单元和多个模态对齐单元，通过目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，再通过同一个目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征，既能够利用多种模态的待检索数据来提升图像检索的准确性，也能够统一多种模态的待检索数据与候选图像的特征框架，提升第一特征与第二特征之间的特征空间一致性；并且，利用同一个目标模型来确定第一特征和第二特征可以减少目标模型的参数量，降低目标模型部署的内存开销；另外，在训练阶段也只需要训练同一个目标模型，提升模型训练效率。

在一种可能的实现方式中，由于候选图像本身属于图像模态的数据，因此可以将图像特征提取单元作为图像模态对齐单元，即当多种模态的待检索数据包括图像模态的待检索数据时，可以利用图像特征提取单元得到待检索图像的第一特征，同时，可以该图像特征提取单元得到候选图像的第二特征，从而达到图像特征提取单元的复用效果，简化目标模型的结构。

可以理解的是，也可以额外设置图像模态对齐单元来得到候选图像的第二特征，本申请实施例不做限定。

因此，当多种模态的待检索数据包括待检索文本和待检索图像，在基于目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征时，具体可以基于文本模态对齐单元对候选图像进行特征提取，得到候选图像向待检索文本对齐的第二特征；基于图像特征提取单元对候选图像进行特征提取，得到候选图像的图像特征，将图像特征作为候选图像向待检索图像对齐后的第二特征，达到图像特征提取单元的复用效果，简化目标模型的结构。

当多种模态的待检索数据包括待检索语音和待检索图像，或者当多种模态的待检索数据包括待检索文本、待检索语音和待检索图像时，同样可以采用上述图像特征提取单元的复用方式，在此不再赘述。

步骤203：电子设备根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，电子设备根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集。

其中，根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，即第一相似度的数量与待检索数据的模态数量相同。例如，当多种模态的待检索数据包括待检索图像和待检索文本时，根据待检索图像的第一特征和候选图像向待检索图像对齐的第二特征，确定待检索图像与候选图像之间的第一相似度，根据待检索文本的第一特征和候选图像向待检索文本对齐的第二特征，确定待检索文本与候选图像之间的第一相似度；当多种模态的待检索数据包括待检索文本、待检索图像和待检索语音时，根据待检索图像的第一特征和候选图像向待检索图像对齐的第二特征，确定待检索图像与候选图像之间的第一相似度，根据待检索文本的第一特征和候选图像向待检索文本对齐的第二特征，确定待检索文本与候选图像之间的第一相似度，根据待检索语音的第一特征和候选图像向待检索语音对齐的第二特征，确定待检索语音与候选图像之间的第一相似度。

其中，检索数据组合包括至少一种模态的待检索数据，即检索数据组合可以包括一种模态的待检索数据(即第一数据组合)，也可以包括多种模态的待检索数据(即第二数据组合)，例如，第一数据组合可以包括待检索图像，或者也可以包括待检索文本，或者也可以包括待检索语音；当第二数据组合可以包括待检索图像和待检索文本，或者也可以包括待检索图像和待检索语音，或者也可以包括待检索文本和待检索语音，或者也可以包括待检索图像、待检索文本和待检索语音，等等。

在一种可能的实现方式中，第一相似度可以为欧氏距离的距离矩阵，或者余弦相似度的相似度矩阵，或者切比雪夫距离的距离矩阵等等，本申请实施例不做限定。

其中，由于不同的检索数据组合对应有一个第一相似度或者多个不同的第一相似度，因此，可以根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集。

例如，当多种模态的待检索数据包括待检索图像和待检索文本时，多个检索数据组合可以为待检索图像和待检索文本，相应地，多个检索数据组合对应的结果图像集即待检索图像对应的结果图像集，以及待检索文本对应的结果图像集，这种情况下检索数据组合均为第一数据组合。因此，后续可以结合多种模态的待检索数据筛选出来的结果图像集得到图像检索结果，从而能够提升图像检索的准确性。

除此以外，当多种模态的待检索数据包括待检索图像和待检索文本时，也可以采用第一数据组合和第二数据组合结合的方式，即不同的检索数据组合可以为待检索图像、待检索文本、待检索图像结合待检索文本，相应地，不同检索数据组合对应的结果图像集即待检索图像对应的结果图像集，以及待检索文本对应的结果图像集，以及待检索图像结合待检索文本对应的结果图像集，从而在利用各种模态的待检索数据来得到图像检索结果的基础上，进一步引入多种模态的待检索数据结合来扩充图像检索结果，从而进一步提升图像检索的准确性。

在一种可能的实现方式中，若采用第一数据组合和第二数据组合结合的方式来确定图像检索结果，则根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集时，具体可以根据一种模态的待检索数据对应的第一相似度，从候选图像集中确定第一数据组合对应的结果图像集；将多种模态的待检索数据对应的第一相似度进行融合，得到目标相似度，根据目标相似度从候选图像集中确定第二数据组合对应的结果图像集。

具体地，第一数据组合对应的结果图像集即各种模态的待检索数据各自对应的结果图像集，第二数据组合对应的结果图像集即多种模态的待检索数据结合后对应的结果图像集，例如，当多种模态的待检索数据包括待检索图像和待检索文本时，第一数据组合对应的结果图像集即待检索图像对应的结果图像集，以及待检索文本对应的结果图像集；在此基础上，可以将待检索图像对应的第一相似度与待检索文本对应的第一相似度进行融合，进而得到目标相似度，从而实现待检索图像和待检索文本结合来进行图像检索。其中，融合的方式可以是进行加权处理，或者也可以是多个相似度相乘。

在一种可能的实现方式中，结果图像集可以直接包括候选图像集中与各个检索数据组合匹配的目标图像，另外，还可以对结果图像集中的目标图像的数量进行预设，当目标图像的数量为多个时，还可以进一步对从候选图像集中确定的目标图像进行排序，例如可以基于第一相似度由大到小进行排序，使得结果图像集更加清晰明了。

步骤204：电子设备将多个结果图像集进行合并，得到图像检索结果。

其中，由于不同检索数据组合对应有各自的结果图像集，因此可以将多个结果图像集进行合并，得到最终的图像检索结果，具体可以是对结果图像集进行去重后输出最终的图像检索结果，或者，也可以是将不同的结果图像集直接并列输出为最终的图像检索结果。

例如，参照图4，图4为本申请实施例提供的基于多个检索数据组合得到图像检索结果的一种可选的流程示意图，以多种模态的待检索数据包括待检索图像和待检索文本为例，待检索图像为背着包的女孩的图像，待检索文本为“长头发的女孩穿着黑色外套，黑色裤子，背着红色的包”，背着包的女孩的图像为一个检索数据组合，“长头发的女孩穿着黑色外套，黑色裤子，背着红色的包”为一个检索数据组合，背着包的女孩的图像结合“长头发的女孩穿着黑色外套，黑色裤子，背着红色的包”为一个检索数据组合，不同检索数据组合对应的结果图像集合并后得到图像检索结果。

在一种可能的实现方式中，可以将待检索数据与候选图像进行一对一检索来得到图像检索结果，一对一检索即将待检索数据与各个候选图像作为一个数据对输入至检索模型中，检索模型输出待检索数据与候选图像之间的匹配概率，由于候选图像有多个，因此一对一检索需要成对遍历检索，加大检索资源的消耗。而本申请实施例通过根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，将多个结果图像集进行合并，得到图像检索结果，无须将待检索数据与候选图像进行一对一检索，有效地提升了图像检索的效率，并且图像检索结果基于多个检索数据组合对应的结果图像集得到，能够有效地提升图像检索的准确性。

在一种可能的实现方式中，在将待检索数据转化为检索嵌入向量时，具体可对待检索数据进行切分处理，得到多个检索数据块，对多个检索数据块进行特征映射，得到第一嵌入向量；确定各个检索数据块在待检索数据中的位置信息，对多个位置信息进行特征映射，得到第二嵌入向量；对待检索数据对应的模态进行特征映射，得到第三嵌入向量；将第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，得到检索嵌入向量。

其中，第一嵌入向量和第二嵌入向量拼接后相当于前述的信息嵌入向量，通过对待检索数据进行切分处理后得到第一嵌入向量，并根据各个检索数据块在待检索数据中的位置信息得到第二嵌入向量，可以使得信息嵌入向量携带待检索数据更多的信息，从而提升信息嵌入向量的准确性；第三嵌入向量相当于前述的类型嵌入向量，用于供目标模型根据类型嵌入向量确定当前的待检索数据的模态。

对于待检索文本来说，对待检索数据进行切分处理，得到多个检索数据块，具体可以对待检索文本进行分词处理，得到多个文本词语，同时，添加待检索文本的开始标志和结束标志，然后利用文本编码器进行编码，具体可以表示为：
t＝{[cls],t₁,...t_M,[sep]}

其中，t表示经过文本编码器编码后得到的结果，[cls]表示开始标志，[sep]表示结束标志，t₁,...t_M分别代表各个文本词语，M为正整数。

接着，可以利用预训练的词嵌入将文本编码器编码后得到的结果映射至符号嵌入向量中，得到第一嵌入向量；然后，确定各个文本词语在待检索文本中的位置信息，对各个文本词语在待检索文本中的位置信息进行特征映射，得到第二嵌入向量；然后，对文本模态进行特征映射，得到第三嵌入向量，将待检索文本对应的第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，即可得到待检索文本对应的检索嵌入向量，具体可以表示为：

其中，X^t表示待检索文本对应的检索嵌入向量，表示待检索文本对应的第一嵌入向量，表示待检索文本对应的第二嵌入向量，表示待检索文本对应的第三嵌入向量。

对于待检索图像来说，对待检索数据进行切分处理，得到多个检索数据块，具体可以对待检索图像进行图像分割处理，得到多个图像块，同时，添加待检索图像的开始标志，然后利用图像编码器进行编码，具体可以表示为：
v＝{[cls],v₁,...v_N}

其中，v表示经过图像编码器编码后得到的结果，[cls]表示开始标志，v₁,...v_N分别代表各个图像块，N为正整数。

接着，可以采用与前述文本模态中类似的方式对图像编码器编码后得到的结果进行特征映射，得到第一嵌入向量；然后，确定各个图像块在待检索图像中的位置信息，对各个图像块在待检索图像中的位置信息进行特征映射，得到第二嵌入向量；然后，对图像模态进行特征映射，得到第三嵌入向量，将待检索图像对应的第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，即可得到待检索图像检索嵌入向量，具体可以表示为：

其中，X^v表示待检索图像对应的检索嵌入向量，表示待检索图像对应的第一嵌入向量，表示待检索图像对应的第二嵌入向量，表示待检索图像对应的第三嵌入向量。

对于待检索语音来说，对待检索数据进行切分处理，得到多个检索数据块，具体可以对待检索语音进行语音分割处理，得到多个语音帧，同时，添加待检索语音的开始标志和结束标志，然后利用语音编码器进行编码，具体可以表示为：
s＝{[cls],s₁,...s_K,[sep]}

其中，s表示经过语音编码器编码后得到的结果，[cls]表示开始标志，[sep]表示结束标志，s₁,...s_K分别代表各个语音帧，K为正整数。

接着，可以采用与前述文本模态中类似的方式对语音编码器编码后得到的结果进行特征映射，得到第一嵌入向量；然后，确定各个语音帧在待检索语音中的位置信息，对各个语音帧在待检索语音中的位置信息进行特征映射，得到第二嵌入向量；然后，对语音模态进行特征映射，得到第三嵌入向量，将待检索语音对应的第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，即可得到待检索语音检索嵌入向量，具体可以表示为：

其中，X^s表示待检索语音对应的检索嵌入向量，表示待检索语音对应的第一嵌入向量，表示待检索语音对应的第二嵌入向量，表示待检索语音对应的第三嵌入向量。

可见，上述不同模态的待检索数据的检索嵌入向量具备相同的向量格式，便于在同一个模型框架内统一多种模态的待检索数据的表征，使得目标模型可以对不同模态的待检索数据进行特征提取，为后续从多个候选图像中确定不同检索数据组合对应的目标图像提供了基础。

在一种可能的实现方式中，在对文本编码器编码后得到的结果、图像编码器编码后得到的结果以及语音编码器编码后得到的结果进行特征映射时，可以将不同编码器得到的结果映射至不同的高维特征空间，使得得到的第一嵌入向量能够更加匹配对应模态的特征表征需求，从而提升第一嵌入向量的准确性与合理性。

可以理解的是，由于候选图像属于图像模态的数据，在基于目标模型对候选图像进行特征提取时，可以参照前述的得到待检索图像对应的检索嵌入向量的方式，来对候选图像进行特征映射，得到候选图像对应的嵌入向量，再将候选图像对应的嵌入向量输入至目标模型对候选图像进行特征提取。

参照图5，图5为本申请实施例提供的目标模型的另一种可选的结构示意图，目标模型可以设置有第一归一化层、注意力层、第二归一化层、多个特征提取单元和多个模态对齐单元，基于图5所示的模型结构，基于目标模型对待检索数据进行特征映射，得到待检索数据的第一特征时，具体可以对检索嵌入向量进行归一化处理，得到第一归一化向量，对第一归一化向量进行注意力特征提取，得到注意力向量，基于目标模型对注意力向量进行特征映射，得到待检索数据的第一特征。

其中，可以通过第一归一化层对检索嵌入向量进行归一化处理(Layer Normalization)，从而达到对检索嵌入向量的数据标准化效果，提升目标模型对检索嵌入向量的处理效率；可以通过注意力层对第一归一化向量进行注意力特征提取，从而提取出第一归一化向量中的重要信息，使得后续基于目标模型对注意力向量进行特征映射后得到待检索数据的第一特征更加准确。

在一种可能的实现方式中，注意力层可以采用多头注意力(Multi-head Attention)机制来对第一归一化向量进行注意力特征提取。第一归一化层、注意力层、第二归一化层、多个特征提取单元和多个模态对齐单元可以构成一个整体的处理模块，目标模型中可以堆叠设置有多个上述处理模块，前一个处理模块的输出作为下一个处理模块的输出，最后一个处理模块输出的为最终的第一特征，从而提升第一特征的准确性。

在一种可能的实现方式中，在得到注意力向量以后，基于目标模型对注意力向量进行特征映射，得到待检索数据的第一特征时，具体可以将注意力向量与检索嵌入向量进行拼接，得到拼接向量；对拼接向量进行归一化处理，得到第二归一化向量；基于目标模型对第二归一化向量进行前向特征映射，得到映射向量；将映射向量与拼接向量进行拼接，得到待检索数据的第一特征。

其中，基于目标模型对第二归一化向量进行前向特征映射，得到映射向量，即基于对应的特征提取单元对第二归一化向量进行前向特征映射，得到映射向量，此时特征提取单元可以包括前向映射层(Feed Forward)。通过将注意力向量与检索嵌入向量进行拼接，得到拼接向量，可以使得拼接向量携带检索嵌入向量的原始信息，提升拼接向量的准确性。

其中，可以通过第二归一化层对拼接向量进行归一化处理，从而达到对拼接向量的数据标准化效果，提升目标模型对检索嵌入向量的处理效率。通过将映射向量与拼接向量进行拼接，得到待检索数据的第一特征，可以使得第一特征携带拼接向量的原始信息，提升第一特征的准确性。

可以理解的是，基于目标模型得到候选图像的第二特征，与基于目标模型得到待检索数据的第一特征相类似，同样可以将候选图像转化为图像嵌入向量，并且图像嵌入向量与检索嵌入向量的向量格式相同，对图像嵌入向量进行归一化处理，得到候选图像对应的第一归一化向量，对候选图像对应的第一归一化向量进行注意力特征提取，得到候选图像对应的注意力向量，将候选图像对应的注意力向量与图像嵌入向量进行拼接，得到候选图像对应的拼接向量，对候选图像对应的拼接向量进行归一化处理，得到候选图像对应的第二归一化向量，基于各个模态对齐单元对候选图像对应的第二归一化向量进行前向特征映射，得到候选图像对应的映射向量；将候选图像对应的映射向量与候选图像对应的拼接向量进行拼接，得到向各种模态的待检索数据对齐后候选图像的第二特征。

因此，基于目标模型得到待检索数据的第一特征以及基于目标模型得到候选图像的第二特征时，可以共用相同的第一归一化层、注意力层以及第二归一化层，再调用不同的特征提取单元进行特征提取或者模态对齐单元进行特征提取，从而可以简化目标模型的结构。

例如，以多种模态的待检索数据包括待检索图像和待检索文本为例，当目标模型中堆叠设置有多个上述处理模块时，拼接向量可以组合表示为：

其中，表示第i个处理模块中生成的待检索图像或者待检索文本或者候选图像对应的拼接向量，i为正整数，MSA表示多头注意力机制，LN表示归一化，表示输入至第i个处理模块的检索嵌入向量(第i-1个处理模块输出的待检索图像或者待检索文本对应的第一特征)，i为正整数，当i＝1时，表示待检索图像或者待检索文本初始的检索嵌入向量。

相应地，第一特征或者第二特征可以组合表示为：

其中，表示第i个处理模块中生成的待检索图像或者待检索文本的第一特征或者候选图像的第二特征，MLP表示前向映射。

在一种可能的实现方式中，在获取候选图像集以及多种模态的待检索数据之前，可以先对目标模型进行训练，具体可以获取样本图像以及除了图像模态以外至少一种模态的样本检索数据，获取样本图像与样本检索数据之间的相似度标签；基于目标模型对样本检索数据进行特征提取，得到样本检索数据的第三特征，基于目标模型对样本图像进行多次特征提取，得到样本图像向各种模态的样本检索数据对齐后的第四特征；根据第三特征和第四特征，确定样本图像与待检索数据之间的第二相似度，根据第二相似度和对应的相似度标签确定第一损失值；根据第一损失值调整目标模型的参数。

其中，样本检索数据和样本图像均用于对目标模型进行训练，由于样本检索数据与样本图像的模态不相同，因此样本检索数据可以是样本文本、样本语音等。样本图像与样本检索数据之间的相似度标签用于指示样本图像与样本检索数据之间是否匹配，相似度标签可以为“1”或者“0”，当相似度标签为“1”，即样本检索数据与对应的样本图像相匹配，例如，若样本检索数据为样本文本，样本文本为“背着书包的男孩”，则样本图像为背着书包的男孩的图像；当相似度标签为“0”，即样本检索数据与对应的样本图像不匹配，例如样本文本为“背着书包的男孩”，则样本图像为牡丹花的图像。

基于目标模型对样本检索数据进行特征提取得到样本检索数据的第三特征，与基于目标模型对待检索数据进行特征提取得到待检索数据的第一特征的原理相类似，在此不再赘述。同理，基于目标模型对样本图像进行多次特征提取，得到样本图像向各种模态的样本检索数据对齐后的第四特征，与基于目标模型对候选图像进行特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征的原理相类似，在此不再赘述。同理，第二相似度与第一相似度的计算方式相类似，在此不再赘述。确定样本图像与待检索数据之间的第二相似度以后，由于对应的样本图像与样本检索数据之间的相似度标签已知，因此可以根据第二相似度和对应的相似度标签确定第一损失值，具体可以表示为：

其中，L₁表示第一损失值，B表示样本检索数据和样本图像组成的样本对的数量，i表示第i个样本图像，j表示第j个样本检索数据，i、j均为正整数，p_i,j表示第二相似度进行归一化后的概率值，q_i,j表示相似度标签归一化后的概率值，∈表示一个很小的浮点数，作用是为了数值稳定(比如防止分母为0)。

具体地：

其中，表示第i个样本图像的第四特征的转置，f_j表示第j个样本检索数据的第三特征，f_k表示第k个样本检索数据的第三特征，y_i,j表示第i个样本图像与第j个样本检索数据之间的相似度标签，y_i,k表示第i个样本图像与第k个样本检索数据之间的相似度标签。

其中，由于第一损失值是基于第三特征和第四特征确定的，因此根据第一损失值调整目标模型的参数，可以是调整目标模型中模态对齐单元以及对应的特征提取单元的参数，从而达到模态对齐单元以及对应模态的特征提取单元之间的联合训练，能够有效提升模态对齐单元以及对应模态的特征提取单元提取的特征之间的对齐度，并且提升目标模型的训练效率。

在一种可能的实现方式中，当目标模型设置有图像特征提取单元且对图像特征提取单元进行复用时(即图像特征提取单元既用于对待检索图像进行特征提取，也用于对候选图像进行特征提取)，相应地，根据第一损失值调整目标模型的参数时，具体可以获取样本图像的类别标签；基于目标模型对样本图像进行特征提取，得到样本图像对应图像模态的第五特征；根据第五特征对样本图像进行分类，得到样本类别，根据样本类别和类别标签确定第二损失值；根据第一损失值和第二损失值调整目标模型的参数。

其中，样本图像的类别标签用指示样本图像的类别，例如样本图像如果为狗的图像，则样本图像的类别标签可以为“动物”，或者也可以为“狗”等等。基于目标模型对样本图像进行特征提取，可以是基于图像特征提取单元对样本图像进行特征提取，得到样本图像对应图像模态的第五特征，得到样本图像的第五特征后，可以输入至分类器对样本图像进行分类，得到样本类别，进而可以根据样本类别和类别标签确定第二损失值，第二损失值具体可以表示为：

其中，L₂表示第二损失值，p(x)表示类别标签对应的概率分布，q(x)表示样本类别对应的概率分布，x表示样本图像的类别的编号，m表示样本图像的类别的总数，x、m均为正整数。

在一种可能的实现方式中，根据第一损失值和第二损失值调整目标模型的参数，可以是根据第一损失值和第二损失值单独调整目标模型的参数，或者也可以将第一损失值和第二损失值进行加权得到总损失值，根据总损失值调整目标模型的参数。

通过引入类别标签，并根据第五特征对样本图像进行分类，进而得到第二损失值，可以引入图像分类来调整图像特征提取单元的参数，从而可以引入其他场景的训练方式来调整图像特征提取单元的参数，提升图像特征提取单元的泛化能力。

在一种可能的实现方式中，当目标模型设置有图像特征提取单元且对图像特征提取单元进行复用，根据第一损失值调整目标模型的参数时，具体也可以获取与样本图像类别相同的第一参考图像，以及与样本图像类别不同的第二参考图像；基于目标模型对样本图像、第一参考图像和第二参考图像进行特征提取，得到样本图像的对应图像模态的第五特征、第一参考图像的第六特征和第二参考图像的第七特征；确定第五特征与第六特征之间的第三相似度，以及第五特征与第七特征之间的第四相似度，根据第三相似度和第四相似度确定第三损失值；根据第一损失值和第三损失值调整目标模型的参数。

其中，样本图像的数量可以为多个，对于其中一个样本图像来说，第一参考图像和第二参考图像可以为多个样本图像中的图像，或者也可以为多个样本图像以外的图像，本申请实施例不做限定。基于目标模型对样本图像、第一参考图像和第二参考图像进行特征提取，即基于图像特征提取单元对样本图像、第一参考图像和第二参考图像进行特征提取。由于第一参考图像与样本图像类别相同，因此正常来说第三相似度应该较高，同理，由于第二参考图像与样本图像类别不相同，因此正常来说第四相似度应该较低，相应地，第三损失值具体可以表示为：
L₃＝d_AP-d_AN+α

其中，L₃表示第三损失值，d_AP表示第三相似度，d_AN表示第四相似度，α表示超参数。

在一种可能的实现方式中，根据第一损失值和第三损失值调整目标模型的参数，可以是根据第一损失值和第三损失值单独调整目标模型的参数，或者也可以将第一损失值和第三损失值进行加权得到总损失值，根据总损失值调整目标模型的参数。

通过引入第一参考图像和第二参考图像，分别确定第三相似度和第四相似度，进而得到第三损失值，可以使得同类的图像之间的距离变得更近，不同类的图像之间的距离变得更远，从而使得特征提取单元提取到的特征更加准确。

在一种可能的实现方式中，也可以将第一损失值、第二损失值和第三损失值进行加权得到总损失值，根据总损失值调整目标模型的参数，例如，当第一损失值、第二损失值和第三损失值的权值均为1时，总损失值具体可以表示为：
L_total＝L₁+L₂+L₃

其中，L_total表示总损失值。

当目标模型设置有图像特征提取单元且对图像特征提取单元进行复用时，通过同时引入第一损失值、第二损失值和第三损失值，可以针对图像特征提取单元和模态对齐单元进行针对性的训练，有利于提高训练效果。

下面以目标模型基于待检索文本和待检索图像进行图像检索为例说明目标模型的训练过程。

参照图6，图6为本申请实施例提供的目标模型的一种可选的训练过程示意图，具体地，可以获取样本图像集和样本文本集，将样本图像集和样本文本集输入至目标模型中，通过目标模型的文本特征提取单元对样本文本集中的样本文本进行特征提取，得到样本文本的第三特征；通过目标模型的文本模态对齐单元对样本图像集中的样本图像进行特征提取，得到向样本文本对齐后样本图像的第四特征；通过目标模型的图像特征提取单元对样本图像集中的样本图像进行特征提取，得到样本图像的第五特征；通过第三特征和第四特征计算第一损失值；对第五特征进行归一化处理，将归一化处理后的第五特征输入至分类器，得到样本图像的图像类别，根据样本图像的图像类别和样本图像的类别标签计算第二损失值；从样本图像集中确定各个样本图像的第一参考图像和第二参考图像，根据样本图像与第一参考图像之间的相似度以及样本图像与第二参考图像之间的相似度，计算第三损失值；最后，根据第一损失值、第二损失值和第三损失值之和得到总损失值，根据总损失值调整目标模型的参数。

在一种可能的实现方式中，在对目标模型进行训练时，在样本检索数据包括样本文本的情况下，可以对目标模型的训练样本进行扩展，以提高训练效果，在获取样本图像以及除了图像模态以外至少一种模态的样本检索数据时，具体可以获取初始图像和初始文本；对初始图像进行增强处理，得到增强图像；删除初始文本中的任意长度的文本成分，得到增强文本，或者利用参考文本中的文本成分调整初始文本中的文本成分，得到增强文本；将初始图像和增强图像作为样本图像，将初始文本和增强文本作为样本文本。

具体地，参照图7，图7为本申请实施例提供的对训练样本进行扩展的一种可选的流程示意图，在训练数据集中，初始图像和初始文本可以是成对存在的，初始图像和初始文本所构成的数据对的数量可以是多个，并且初始图像和初始文本所构成的数据对可以标注有类别标签。

对于初始图像来说，可以通过对初始图像进行增强处理，得到增强图像，增强处理包括但不限于放大、缩小、裁剪、翻转、色域变换、色彩抖动等一种或多种处理的组合。

对于初始文本来说，可以删除初始文本中的任意长度的文本成分，得到增强文本，文本成分可以是词语、句子或者段落。例如，若初始文本为“这个男人穿着一件黑灰色的羽绒服和一条浅色裤子，他有一个深绿色的背包”，则增强文本可以为“这个男人穿着一件黑灰色的羽绒服，他有一个深绿色的背包”，或者，增强文本也可以为“这个男人穿着一件黑灰色的羽绒服和一条浅色裤子”等等。除此以外，也可以利用参考文本中的文本成分调整初始文本中的文本成分，得到增强文本，其中，参考文本与初始文本的类别相同，可以利用类别标签从训练数据集的其余初始文本中确定当前初始文本的参考文本，利用参考文本中的文本成分调整初始文本中的文本成分，可以是利用参考文本中的文本成分替换初始文本中的文本成分，或者在初始文本的文本成分的基础上添加参考文本中的文本成分。例如，若初始文本为“这个男人穿着一件黑灰色的羽绒服和一条浅色裤子，他有一个深绿色的背包”，参考文本为“一个男人有黑色的头发，他穿着灰色衬衫、灰色裤子和灰色帆布鞋，提着一个包”，则增强文本可以为“这个人穿着一件黑灰色的羽绒服，灰色的裤子和灰色的帆布鞋，他有一个深绿色的背包”，或者，增强文本也可以为“这个男人穿着一件黑灰色的羽绒服和一条浅色裤子，他有黑色的头发，他有一个深绿色的背包”等等。

经过上述处理得到增强图像和增强文本，后续可以利用增强图像和增强文本对目标模型进行训练，初始图像和增强文本、增强图像和初始文本、增强图像和增强文本均可以构成新的数据对，从而使得目标模型的训练数据更加多样化，特别是在调整模态对齐单元的参数时，能够显著提升模态对齐单元的性能。

类似地，对于初始语音来说，同样可以采用加速、减速、语音帧替换、语音帧删除、噪声添加等方式来得到增强语音，利用初始语音和增强语音对目标模型进行训练。

在完成对目标模型的训练后，在利用目标模型进行图像检索时，还可以进一步验证目标模型的性能。具体地，对于包括一种模态的待检索数据的检索数据组合来说，可以根据各种模态下的第一相似度计算累计匹配特性(CMC，Cumulative Matching Characteristic)和平均精度(mAP，mean Average Precision)，对于包括多种模态的待检索数据的检索数据组合来说，可以根据多种模态下的目标相似度计算累计匹配特性和平均精度，进而从不同的维度验证目标模型的性能，当累计匹配特性和平均精度未达到预设阈值时，可以再次对目标模型的参数进行调整。

下面以CUHK-PEDES和RSTP数据集为例子说明本申请实施例提供的图像检索方法中目标模型的性能。

参照表1和表2，表1为本申请实施例提供的在CUHK-PEDES数据集上不同的图像检索方法的评价效果数据，表2为本申请实施例提供的在RSTP数据集上不同的图像检索方法的评价效果数据。其中，Rank-1、Rank-5和Rank-10为CMC的评价指标，由表1和表2可见，本申请提供的图像检索方法，准确率比相关技术中的其他图像检索方法更高，并且上述数据中本申请提供的图像检索方法只使用了全局特征。

表1 CUHK-PEDES数据集上不同的图像检索方法的评价效果数据

表2 RSTP数据集上不同的图像检索方法的评价效果数据

参照表3和表4，表3为本申请实施例提供的不同的图像检索方法利用文本进行图像检索的评价效果数据，表4为本申请实施例提供的不同的图像检索方法利用图像进行图像检索的评价效果数据。其中，R1为Rank-1的缩写、R5为Rank-5的缩写、R10为Rank-10的缩写，由表3和表4可见，本申请提供的图像检索方法，在单独评价利用文本进行图像检索以及利用图像进行图像检索时，准确率也比相关技术中的其他图像检索方法更高。

表3不同的图像检索方法利用文本进行图像检索的评价效果数据

表4不同的图像检索方法利用图像进行图像检索的评价效果数据

另外，参照表5，表5为本申请实施例提供的图像检索方法中利用文本进行图像检索、利用图像进行图像检索以及利用文本结合图像进行图像检索的评价效果数据。其中，利用文本结合图像进行图像检索准确率更高，因此，本申请将不同模态的待检索数据对应的相似度进行融合，从而实现利用不同模态的待检索数据的结合来进行图像检索，能够显著提升图像检索的准确性。

表5本申请实施例提供的图像检索方法的评价效果数据

下面以实际例子说明本申请实施例中目标模型的总体架构。

参照图8，图8为本申请实施例提供的目标模型的一种可选的总体架构示意图，其中，该目标模型设置有第一归一化层、注意力层、第二归一化层、图像特征提取单元、文本模态对齐单元和文本特征提取单元。

在目标模型的训练阶段：

输入为样本文本和样本图像组成的多个数据对，输入的其中一个数据对的样本文本可以为“这个人戴着一副眼镜，他穿着一件黑灰色的羽绒服和一条浅色裤子，他有一双轻便的鞋，他有一个深绿色的背包”，输入的样本图像为人物图像；接着进行类内的文本和图像扩增处理，对于样本图像来说，可以进行随机增强处理，即从放大、缩小、裁剪、翻转、色域变换、色彩抖动等处理方式中随机选取一种或者多种处理方式对样本图像进行处理，并对样本文本进行文本成分的调整，例如可以得到“这个男人穿着一件黑灰色的羽绒服和一条浅色裤子，他有一个深绿色的背包”、“一个男人有黑色的头发，他穿着灰色衬衫、灰色裤子和灰色帆布鞋，提着一个包”以及“这个人穿着一件黑灰色的羽绒服，灰色的裤子和灰色的帆布鞋，他有一个深绿色的背包”，然后增强处理得到的图像与调整文本成分后的文本可以组成新的数据对，从而扩充了目标模型的训练数据；接着将数据对进行编码，得到图像嵌入向量和文本嵌入向量，将图像嵌入向量和文本嵌入向量输入至目标模型，经过第一归一化层的归一化处理、注意力层的注意力特征提取处理以及第二归一化层的归一化处理，得到图像归一化向量和文本归一化向量，再根据对应的输入类型，通过图像特征提取单元对图像归一化向量进行前向映射，得到样本图像自身的图像特征，通过文本特征提取单元对文本归一化向量进行前向映射，得到样本文本的文本特征，通过文本模态对齐单元对图像归一化向量进行前向映射，得到向样本文本对齐后样本图像的图像特征；接着，基于样本文本的文本特征和向样本文本对齐后样本图像的图像特征计算第一损失值，基于样本图像自身的图像特征计算第二损失值和第三损失值，根据第一损失值、第二损失值和第三损失值调整目标模型的参数。

在目标模型的推理阶段：

输入为待检索图像和待检索文本组成的数据对<v_q,t_q>，以及候选图像数据集中的候选图像<v_g>，通过目标模型的图像特征提取单元提取待检索图像v_q的特征以及候选图像v_g的特征通过目标模型的文本特征提取单元提取待检索文本t_q的特征通过文本模态对齐单元提取候选图像v_g向待检索文本t_q对齐的特征

计算待检索文本t_q与候选图像v_g之间的欧氏距离矩阵根据欧氏距离矩阵D_t2i从候选图像数据集中确定待检索文本t_q对应的结果图像集，并根据欧氏距离矩阵D_t2i计算对应的CMC_t2i和mAP_t2i；

计算待检索图像v_q与候选图像v_g之间的欧氏距离矩阵根据欧氏距离矩阵D_i2i从候选图像数据集中确定待检索图像v_q对应的结果图像集，并根据欧氏距离矩阵D_i2i计算对应的CMC_i2i和mAP_i2i；

计算待检索图像和待检索文本组成的数据对<v_q,t_q>与候选图像v_g之间的融合欧氏距离矩阵D_ti2i＝λ·D_i2i+(1-λ)·D_t2i，根据欧氏距离矩阵D_ti2i从候选图像数据集中确定数据对<v_q,t_q>对应的结果图像集，并根据融合欧氏距离矩阵D_ti2i计算对应的CMC_ti2i和mAP_ti2i。

最后，将待检索文本t_q对应的结果图像集、待检索图像v_q对应的结果图像集以及数据对<v_q,t_q>对应的结果图像集进行合并，得到图像检索结果。

另外，参照图9，图9为本申请实施例提供的目标模型的另一种可选的总体架构示意图，其中，该目标模型设置有第一归一化层、注意力层、第二归一化层、图像特征提取单元、语音模态对齐单元和语音特征提取单元。

在目标模型的训练阶段：

输入为样本语音和样本图像组成的多个数据对，输入的样本图像为人物图像，输入的样本语音为对样本图像里的人物进行描述的语音；接着进行类内的语音和图像扩增处理，对于样本图像来说，可以进行随机增强处理，即从放大、缩小、裁剪、翻转、色域变换、色彩抖动等处理方式中随机选取一种或者多种处理方式对样本图像进行处理，对于样本语音来说，也可以进行随机增强处理，即从加速、减速、语音帧替换、语音帧删除、噪声添加等处理方式中随机选取一种或者多种处理方式对样本语音进行处理，然后增强处理得到的图像与语音可以组成新的数据对，从而扩充了目标模型的训练数据；接着将数据对进行编码，得到图像嵌入向量和语音嵌入向量，将图像嵌入向量和语音嵌入向量输入至目标模型，经过第一归一化层的归一化处理、注意力层的注意力特征提取处理以及第二归一化层的归一化处理，得到图像归一化向量和语音归一化向量，再根据对应的输入类型，通过图像特征提取单元对图像归一化向量进行前向映射，得到样本图像自身的图像特征，通过语音特征提取单元对语音归一化向量进行前向映射，得到样本语音的语音特征，通过语音模态对齐单元对图像归一化向量进行前向映射，得到向样本语音对齐后样本图像的图像特征；接着，基于样本语音的语音特征和向样本语音对齐后样本图像的图像特征计算第一损失值，基于样本图像自身的图像特征计算第二损失值和第三损失值，根据第一损失值、第二损失值和第三损失值调整目标模型的参数。

在目标模型的推理阶段：

输入为待检索图像和待检索语音组成的数据对<v_q,s_q>，以及候选图像数据集中的候选图像<v_g>，通过目标模型的图像特征提取单元提取待检索图像v_q的特征以及候选图像v_g的特征通过目标模型的语音特征提取单元提取待检索语音s_q的特征通过语音模态对齐单元提取候选图像v_g向待检索语音s_q对齐的特征

计算待检索语音s_q与候选图像v_g之间的欧氏距离矩阵根据欧氏距离矩阵D_s2i从候选图像数据集中确定待检索语音s_q对应的结果图像集，并根据欧氏距离矩阵D_s2i计算对应的CMC_s2i和mAP_s2i；

计算待检索图像和待检索语音组成的数据对<v_q,s_q>与候选图像v_g之间的融合欧氏距离矩阵D_si2i＝λ·D_i2i+(1-λ)·D_s2i，根据欧氏距离矩阵D_si2i从候选图像数据集中确定数据对<v_q,s_q>对应的结果图像集，并根据融合欧氏距离矩阵D_si2i计算对应的CMC_si2i和mAP_si2i。

最后，将待检索语音s_q对应的结果图像集、待检索图像v_q对应的结果图像集以及数据对<v_q,s_q>对应的结果图像集进行合并，得到图像检索结果。

另外，参照图10，图10为本申请实施例提供的目标模型的另一种可选的总体架构示意图，其中，该目标模型设置有第一归一化层、注意力层、第二归一化层、文本特征提取单元、文本模态对齐单元、语音模态对齐单元和语音特征提取单元。

在目标模型的训练阶段：

输入为样本语音和样本文本组成的多个数据对以及样本图像，输入的样本文本可以参照图7所示的例子中的描述，在此不再赘述，输入的样本语音为对样本文本里的人物进行描述的语音；接着进行类内的语音、文本和图像扩增处理，具体可以参照前述例子中的描述，在此不再赘述；接着将数据对以及样本图像进行编码，得到文本嵌入向量、语音嵌入向量和图像嵌入向量，将文本嵌入向量、语音嵌入向量和图像嵌入向量输入至目标模型，经过第一归一化层的归一化处理、注意力层的注意力特征提取处理以及第二归一化层的归一化处理，得到文本归一化向量、语音归一化向量和图像归一化向量，再根据对应的输入类型，通过文本特征提取单元对文本归一化向量进行前向映射，得到样本文本的图像特征，通过语音特征提取单元对语音归一化向量进行前向映射，得到样本语音的语音特征，通过语音模态对齐单元对图像归一化向量进行前向映射，得到向样本语音对齐后样本图像的图像特征，通过文本模态对齐单元对图像归一化向量进行前向映射，得到向样本文本对齐后样本图像的图像特征；接着，基于样本语音的语音特征和向样本语音对齐后样本图像的图像特征、样本文本的文本特征和向样本文本对齐后样本文本的图像特征计算第一损失值，根据第一损失值调整目标模型的参数。

在目标模型的推理阶段：

输入为待检索文本和待检索语音组成的数据对<t_q,s_q>，以及候选图像数据集中的候选图像<v_g>，通过目标模型的文本特征提取单元提取待检索文本v_q的特征通过目标模型的语音特征提取单元提取待检索语音s_q的特征通过语音模态对齐单元提取候选图像v_g向待检索语音s_q对齐的特征通过文本模态对齐单元提取候选图像v_g向待检索文本t_q对齐的特征

计算待检索文本和待检索语音组成的数据对<t_q,s_q>与候选图像v_g之间的融合欧氏距离矩阵D_st2i＝λ·D_s2i+(1-λ)·D_t2i，根据欧氏距离矩阵D_st2i从候选图像数据集中确定数据对<t_q,s_q>对应的结果图像集，并根据融合欧氏距离矩阵D_st2i计算对应的CMC_st2i和mAP_st2i。

最后，将待检索语音s_q对应的结果图像集、待检索文本t_q对应的结果图像集以及数据对<t_q,s_q>对应的结果图像集进行合并，得到图像检索结果。

另外，参照图11，图11为本申请实施例提供的目标模型的另一种可选的总体架构示意图，其中，该目标模型设置有第一归一化层、注意力层、第二归一化层、图像特征提取单元、文本特征提取单元、文本模态对齐单元、语音模态对齐单元和语音特征提取单元。

在目标模型的训练阶段：

输入为样本语音、样本图像和样本文本组成的多个数据对，输入的样本文本可以参照图7所示的例子中的描述，在此不再赘述，输入的样本图像为人物图像，输入的样本语音为对样本文本里的人物进行描述的语音；接着进行类内的图像、语音、文本和图像扩增处理，具体可以参照前述例子中的描述，在此不再赘述；接着将数据对进行编码，得到文本嵌入向量、语音嵌入向量和图像嵌入向量，将文本嵌入向量、语音嵌入向量和图像嵌入向量输入至目标模型，经过第一归一化层的归一化处理、注意力层的注意力特征提取处理以及第二归一化层的归一化处理，得到文本归一化向量、语音归一化向量和图像归一化向量，再根据对应的输入类型，通过图像特征提取单元对图像归一化向量进行前向映射，得到样本图像自身的图像特征，通过文本特征提取单元对文本归一化向量进行前向映射，得到样本文本的图像特征，通过语音特征提取单元对语音归一化向量进行前向映射，得到样本语音的语音特征，通过语音模态对齐单元对图像归一化向量进行前向映射，得到向样本语音对齐后样本图像的图像特征，通过文本模态对齐单元对图像归一化向量进行前向映射，得到向样本文本对齐后样本图像的图像特征；接着，基于样本语音的语音特征和向样本语音对齐后样本图像的图像特征、样本文本的文本特征和向样本文本对齐后样本文本的图像特征计算第一损失值，基于样本图像自身的图像特征计算第二损失值和第三损失值，根据第一损失值、第二损失值和第三损失值调整目标模型的参数。

在目标模型的推理阶段：

输入为待检索图像、待检索文本和待检索语音组成的数据对<v_q,t_q,s_q>，以及候选图像数据集中的候选图像<v_g>，通过目标模型的图像特征提取单元提取待检索图像v_q的特征以及候选图像v_g的特征通过目标模型的文本特征提取单元提取待检索文本v_q的特征通过目标模型的语音特征提取单元提取待检索语音s_q的特征通过语音模态对齐单元提取候选图像v_g向待检索语音s_q对齐的特征通过文本模态对齐单元提取候选图像v_g向待检索文本t_q对齐的特征

计算待检索图像、待检索文本和待检索语音组成的数据对<v_q,t_q,s_q>与候选图像v_g之间的融合欧氏距离矩阵D_sti2i＝λ₁·D_i2i+λ₂·D_t2i+(1-λ₁-λ₂)·D_s2i，根据欧氏距离矩阵D_sti2i从候选图像数据集中确定数据对<v_q,t_q,s_q>对应的结果图像集，并根据融合欧氏距离矩阵D_sti2i计算对应的CMC_sti2i和mAP_sti2i。

最后，将待检索图像v_q对应的结果图像集、待检索语音s_q对应的结果图像集、待检索文本t_q对应的结果图像集、数据对<v_q,t_q>对应的结果图像集、数据对<v_q,s_q>对应的结果图像集、数据对<t_q,s_q>对应的结果图像集以及数据对<v_q,t_q,s_q>对应的结果图像集进行合并，得到图像检索结果。

其中，前述的λ、λ₁和λ₂表示权重值。

下面以两个实际例子说明本申请实施例提供的图像检索方法的应用场景。

场景一

本申请实施例提供的图像检索方法可以应用于搜索引擎中，例如，参照图12，图12为本申请实施例提供的利用搜索引擎来进行图像检索的流程示意图，终端显示搜索引擎搜索界面1201，搜索引擎搜索界面1201显示有用于输入待检索文本的第一文本输入框1202，以及用于输入待检索图像的第一图像输入控件1203，终端将从第一文本输入框1202输入的待检索文本和从第一图像输入控件1203输入的待检索图像发送至服务器，服务器基于待检索文本和待检索图像，利用前述的图像检索方法从预设的图像数据库中确定图像检索结果并发送至终端，在终端的搜索引擎搜索界面1201进行显示。

场景二

本申请实施例提供的图像检索方法可以应用于照片应用中，例如，参照图13，图13为本申请实施例提供的在照片应用中进行图像检索的流程示意图，终端显示照片应用的照片搜索界面1301，照片搜索界面1301显示有用于输入待检索文本的第二文本输入框1302，以及用于输入待检索图像的第二图像输入控件1303，终端获取从第二文本输入框1302输入的待检索文本和从第二图像输入控件1303输入的待检索图像，基于待检索文本和待检索图像，利用前述的图像检索方法从终端自身的照片数据库中确定图像检索结果，在照片搜索界面1301进行显示。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图14，图14为本申请实施例提供的图像检索装置的一种可选的结构示意图。

在一些实施例中，该图像检索装置1400可适用于前述电子设备。

在一些实施例中，该图像检索装置1400包括：

数据获取模块1401，用于获取候选图像集以及多种模态的待检索数据，其中，候选图像集包括多个候选图像；

模型处理模块1402，用于基于目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，基于目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征；

检索模块1403，用于根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，其中，检索数据组合包括至少一种模态的待检索数据；

合并模块1404，用于将多个结果图像集进行合并，得到图像检索结果。。

进一步，上述模型处理模块1402具体用于：

将待检索数据转化为检索嵌入向量，其中，不同模态的待检索数据转化为向量格式相同的检索嵌入向量；

将检索嵌入向量输入至目标模型中，基于目标模型对待检索数据进行特征映射，得到待检索数据的第一特征。

进一步，上述模型处理模块1402具体用于：

对待检索数据进行切分处理，得到多个检索数据块，对多个检索数据块进行特征映射，得到第一嵌入向量；

确定各个检索数据块在待检索数据中的位置信息，对多个位置信息进行特征映射，得到第二嵌入向量；

对待检索数据对应的模态进行特征映射，得到第三嵌入向量；

将第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，得到检索嵌入向量。

进一步，上述模型处理模块1402具体用于：

对检索嵌入向量进行归一化处理，得到第一归一化向量；

对第一归一化向量进行注意力特征提取，得到注意力向量；

基于目标模型对注意力向量进行特征映射，得到待检索数据的第一特征。

进一步，上述模型处理模块1402具体用于：

将注意力向量与检索嵌入向量进行拼接，得到拼接向量；

对拼接向量进行归一化处理，得到第二归一化向量；

基于目标模型对第二归一化向量进行前向特征映射，得到映射向量；

将映射向量与拼接向量进行拼接，得到待检索数据的第一特征。

进一步，多种模态的待检索数据包括待检索文本和待检索图像，目标模型包括用于将候选图像向待检索文本对齐的文本模态对齐单元，以及用于对待检索图像进行特征提取的图像特征提取单元，上述模型处理模块1402具体用于：

基于文本模态对齐单元对候选图像进行特征提取，得到候选图像向待检索文本对齐的第二特征；

基于图像特征提取单元对候选图像进行特征提取，得到候选图像的图像特征，将图像特征作为候选图像向待检索图像对齐后的第二特征。

进一步，多个检索数据组合包括第一数据组合和第二数据组合，第一数据组合包括一种模态的待检索数据，第二数据组合包括多种模态的待检索数据，上述检索模块1403具体用于：

根据一种模态的待检索数据对应的第一相似度，从候选图像集中确定第一数据组合对应的结果图像集；

将多种模态的待检索数据对应的第一相似度进行融合，得到目标相似度，根据目标相似度从候选图像集中确定第二数据组合对应的结果图像集。

进一步，上述图像检索装置还包括训练模块1405，上述训练模块1405用于：

获取样本图像以及除了图像模态以外至少一种模态的样本检索数据，获取样本图像与样本检索数据之间的相似度标签；

基于目标模型对样本检索数据进行特征提取，得到样本检索数据的第三特征，基于目标模型对样本图像进行多次特征提取，得到样本图像向各种模态的样本检索数据对齐后的第四特征；

根据第三特征和第四特征，确定样本图像与待检索数据之间的第二相似度，根据第二相似度和对应的相似度标签确定第一损失值；

根据第一损失值调整目标模型的参数。

进一步，上述训练模块1405具体用于：

获取样本图像的类别标签；

基于目标模型对样本图像进行特征提取，得到样本图像对应图像模态的第五特征；

根据第五特征对样本图像进行分类，得到样本类别，根据样本类别和类别标签确定第二损失值；

根据第一损失值和第二损失值调整目标模型的参数。

进一步，上述训练模块1405具体用于：

获取与样本图像类别相同的第一参考图像，以及与样本图像类别不同的第二参考图像；

基于目标模型对样本图像、第一参考图像和第二参考图像进行特征提取，得到样本图像对应图像模态的第五特征、第一参考图像的第六特征和第二参考图像的第七特征；

确定第五特征与第六特征之间的第三相似度，以及第五特征与第七特征之间的第四相似度，根据第三相似度和第四相似度确定第三损失值；

根据第一损失值和第三损失值调整目标模型的参数。

进一步，上述训练模块1405具体用于：

获取初始图像和初始文本；

对初始图像进行增强处理，得到增强图像；

删除初始文本中的任意长度的文本成分，得到增强文本，或者利用参考文本中的文本成分调整初始文本中的文本成分，得到增强文本，其中，参考文本与初始文本的类别相同；

将初始图像和增强图像作为样本图像，将初始文本和增强文本作为样本文本。

上述图像检索装置1400与前述的图像检索方法基于相同的发明构思，因此上述图像检索装置1400通过目标模型对待检索数据进行特征提取，得到待检索数据的第一特征，再通过同一个目标模型对候选图像进行多次特征提取，得到候选图像向各种模态的待检索数据对齐后的第二特征，既能够利用多种模态的待检索数据来提升图像检索的准确性，也能够统一多种模态的待检索数据与候选图像的特征框架，提升第一特征与第二特征之间的特征空间一致性；并且，利用同一个目标模型来确定第一特征和第二特征可以减少目标模型的参数量，降低目标模型部署的内存开销；另外，在训练阶段也只需要训练同一个目标模型，提升模型训练效率；在此基础上，通过根据第一特征和第二特征，确定候选图像与各种模态的待检索数据之间的第一相似度，根据第一相似度，从候选图像集中确定多个检索数据组合对应的结果图像集，将多个结果图像集进行合并，得到图像检索结果，无须将待检索数据与候选图像进行一对一检索，有效地提升了图像检索的效率，并且图像检索结果基于多个检索数据组合对应的结果图像集得到，能够有效地提升图像检索的准确性。

本申请实施例提供的用于执行上述图像检索方法的电子设备可以是终端，参照图15，图15为本申请实施例提供的终端的部分结构框图，该终端包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图15中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。

输入单元1530可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触摸面板1531以及其他输入装置1532。

显示单元1540可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1540可包括显示面板1541。

音频电路1560、扬声器1561，传声器1562可提供音频接口。

在本实施例中，该终端所包括的处理器1580可以执行前面实施例的图像检索方法。

本申请实施例提供的用于执行上述图像检索方法的电子设备也可以是服务器，参照图16，图16为本申请实施例提供的服务器的部分结构框图，服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1622(例如，一个或一个以上处理器)和存储器1632，一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储装置)。其中，存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器1600中的一系列指令操作。更进一步地，中央处理器1622可以设置为与存储介质1630通信，在服务器1600上执行存储介质1630中的一系列指令操作。

服务器1600还可以包括一个或一个以上电源1626，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1658，和/或，一个或一个以上操作系统1641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器1600中的处理器可以用于执行图像检索方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的图像检索方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像检索方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本申请实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本申请实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

一种图像检索方法，其特征在于，包括：

电子设备获取候选图像集以及多种模态的待检索数据，其中，所述候选图像集包括多个候选图像；

所述电子设备基于目标模型对所述待检索数据进行特征提取，得到所述待检索数据的第一特征，所述电子设备基于所述目标模型对所述候选图像进行多次特征提取，得到所述候选图像向各种模态的所述待检索数据对齐后的第二特征；

所述电子设备根据所述第一特征和所述第二特征，确定所述候选图像与各种模态的所述待检索数据之间的第一相似度，所述电子设备根据所述第一相似度，从所述候选图像集中确定多个检索数据组合对应的结果图像集，其中，所述检索数据组合包括至少一种模态的所述待检索数据；

所述电子设备将多个所述结果图像集进行合并，得到图像检索结果。
根据权利要求1所述的图像检索方法，其特征在于，所述电子设备基于目标模型对所述待检索数据进行特征提取，得到所述待检索数据的第一特征，包括：

所述电子设备将所述待检索数据转化为检索嵌入向量，其中，不同模态的所述待检索数据转化为向量格式相同的所述检索嵌入向量；

所述电子设备将所述检索嵌入向量输入至所述目标模型中，基于所述目标模型对所述待检索数据进行特征映射，得到所述待检索数据的第一特征。
根据权利要求1所述的图像检索方法，其特征在于，所述多种模态的待检索数据包括待检索文本和待检索图像,所述目标模型包括用于将所述候选图像向所述待检索文本对齐的文本模态对齐单元，以及用于对所述待检索图像进行特征提取的图像特征提取单元，所述电子设备基于所述目标模型对所述候选图像进行多次特征提取，得到所述候选图像向各种模态的所述待检索数据对齐后的第二特征，包括：

所述电子设备基于所述文本模态对齐单元对所述候选图像进行特征提取，得到所述候选图像向所述待检索文本对齐的第二特征；

所述电子设备基于所述图像特征提取单元对所述候选图像进行特征提取，得到所述候选图像的图像特征，所述电子设备将所述图像特征作为所述候选图像向所述待检索图像对齐后的第二特征。
根据权利要求1所述的图像检索方法，其特征在于，多个所述检索数据组合包括第一数据组合和第二数据组合，所述第一数据组合包括一种模态的所述待检索数据，所述第二数据组合包括多种模态的所述待检索数据，所述电子设备根据所述第一相似度，从所述候选图像集中确定多个检索数据组合对应的结果图像集，包括：

所述电子设备根据所述一种模态的所述待检索数据对应的所述第一相似度，从所述候选图像集中确定所述第一数据组合对应的结果图像集；

所述电子设备将所述多种模态的所述待检索数据对应的所述第一相似度进行融合，得到目标相似度，根据所述目标相似度从所述候选图像集中确定所述第二数据组合对应的结果图像集。
根据权利要求2所述的图像检索方法，其特征在于，所述电子设备将所述待检索数据转化为检索嵌入向量，包括：

所述电子设备对所述待检索数据进行切分处理，得到多个检索数据块，所述电子设备对多个所述检索数据块进行特征映射，得到第一嵌入向量；

所述电子设备确定各个所述检索数据块在所述待检索数据中的位置信息，对多个所述位置信息进行特征映射，得到第二嵌入向量；

所述电子设备对所述待检索数据对应的模态进行特征映射，得到第三嵌入向量；

所述电子设备将所述第一嵌入向量、所述第二嵌入向量和所述第三嵌入向量进行拼接，得到所述检索嵌入向量。
根据权利要求2所述的图像检索方法，其特征在于，所述电子设备基于所述目标模型对所述待检索数据进行特征映射，得到所述待检索数据的第一特征，包括：

所述电子设备对所述检索嵌入向量进行归一化处理，得到第一归一化向量；

所述电子设备对所述第一归一化向量进行注意力特征提取，得到注意力向量；

所述电子设备基于所述目标模型对所述注意力向量进行特征映射，得到所述待检索数据的第一特征。
根据权利要求6所述的图像检索方法，其特征在于，所述电子设备基于所述目标模型对所述注意力向量进行特征映射，得到所述待检索数据的第一特征，包括：

所述电子设备将所述注意力向量与所述检索嵌入向量进行拼接，得到拼接向量；

所述电子设备对所述拼接向量进行归一化处理，得到第二归一化向量；

所述电子设备基于所述目标模型对所述第二归一化向量进行前向特征映射，得到映射向量；

所述电子设备将所述映射向量与所述拼接向量进行拼接，得到所述待检索数据的第一特征。
根据权利要求1至7任意一项所述的图像检索方法，其特征在于，所述电子设备获取候选图像集以及多种模态的待检索数据之前，所述图像检索方法还包括：

所述电子设备获取样本图像以及除了图像模态以外至少一种模态的样本检索数据，获取所述样本图像与所述样本检索数据之间的相似度标签；

所述电子设备基于所述目标模型对所述样本检索数据进行特征提取，得到所述样本检索数据的第三特征，基于所述目标模型对所述样本图像进行多次特征提取，得到所述样本图像向各种模态的所述样本检索数据对齐后的第四特征；

所述电子设备根据所述第三特征和所述第四特征，确定所述样本图像与所述待检索数据之间的第二相似度，根据所述第二相似度和对应的所述相似度标签确定第一损失值；

所述电子设备根据所述第一损失值调整所述目标模型的参数。
根据权利要求8所述的图像检索方法，其特征在于，所述电子设备根据所述第一损失值调整所述目标模型的参数，包括：

所述电子设备获取所述样本图像的类别标签；

所述电子设备基于所述目标模型对所述样本图像进行特征提取，得到所述样本图像对应图像模态的第五特征；

所述电子设备根据所述第五特征对所述样本图像进行分类，得到样本类别，所述电子设备根据所述样本类别和所述类别标签确定第二损失值；

所述电子设备根据所述第一损失值和所述第二损失值调整所述目标模型的参数。
根据权利要求8所述的图像检索方法，其特征在于，所述电子设备根据所述第一损失值调整所述目标模型的参数，包括：

所述电子设备获取与所述样本图像类别相同的第一参考图像，以及与所述样本图像类别不同的第二参考图像；

所述电子设备基于所述目标模型对所述样本图像、所述第一参考图像和所述第二参考图像进行特征提取，得到所述样本图像对应图像模态的第五特征、所述第一参考图像的第六特征和所述第二参考图像的第七特征；

所述电子设备确定所述第五特征与所述第六特征之间的第三相似度，以及所述第五特征与所述第七特征之间的第四相似度，所述电子设备根据所述第三相似度和所述第四相似度确定第三损失值；

所述电子设备根据所述第一损失值和所述第三损失值调整所述目标模型的参数。
根据权利要求8所述的图像检索方法，其特征在于，所述样本检索数据包括样本文本，所述电子设备获取样本图像以及除了图像模态以外至少一种模态的样本检索数据，包括：

所述电子设备获取初始图像和初始文本；

所述电子设备对所述初始图像进行增强处理，得到增强图像；

所述电子设备删除所述初始文本中的任意长度的文本成分，得到增强文本，或者利用参考文本中的文本成分调整所述初始文本中的文本成分，得到增强文本，其中，所述参考文本与所述初始文本的类别相同；

所述电子设备将所述初始图像和所述增强图像作为样本图像，将所述初始文本和所述增强文本作为样本文本。
一种图像检索装置，其特征在于，包括：

数据获取模块，用于获取候选图像集以及多种模态的待检索数据，其中，所述候选图像集包括多个候选图像；

模型处理模块，用于基于目标模型对所述待检索数据进行特征提取，得到所述待检索数据的第一特征，基于所述目标模型对所述候选图像进行多次特征提取，得到所述候选图像向各种模态的所述待检索数据对齐后的第二特征；

检索模块，用于根据所述第一特征和所述第二特征，确定所述候选图像与各种模态的所述待检索数据之间的第一相似度，根据所述第一相似度，从所述候选图像集中确定多个检索数据组合对应的结果图像集，其中，所述检索数据组合包括至少一种模态的所述待检索数据；

合并模块，用于将多个所述结果图像集进行合并，得到图像检索结果。
一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的图像检索方法。
一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的图像检索方法。
一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的图像检索方法。