WO2022068195A1

WO2022068195A1 - 跨模态的数据处理方法、装置、存储介质以及电子装置

Info

Publication number: WO2022068195A1
Application number: PCT/CN2021/091214
Authority: WO
Inventors: 董西伟; 严军荣; 张小龙
Original assignee: 三维通信股份有限公司
Priority date: 2020-09-30
Filing date: 2021-04-29
Publication date: 2022-04-07
Also published as: CN112199462A

Abstract

一种跨模态的数据处理方法、装置、存储介质以及电子装置，跨模态的数据处理方法包括：采用获取第一模态的查询数据，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用类别标记数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

Description

跨模态的数据处理方法、装置、存储介质以及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种跨模态的数据处理方法、装置、存储介质以及电子装置。

背景技术

在实际应用中，对象可以用来自不同模态的特征进行描述，例如，在微信之类的社交平台，人们经常使用图片和相应的文字记录所发生的某个事件。跨模态检索旨在使用一个模态中的实例去检索另一个模态中与其语义相似的实例，例如，用图像检索与之相关的文档。随着多媒体技术的发展，多模态数据的数量也迅速增长。在大规模多模态数据集上，如何在不同模态之间完成信息检索是非常具有挑战性的问题。对于这个问题，哈希方法的低存储代价和高检索速度特点使其在跨模态检索领域受到广泛关注。

不同模态的数据分布和数据表示的不一致性，使得在不同模态之间直接进行相似性度量是非常困难的。这种困难亦可称为“模态鸿沟”，它是影响跨模态哈希检索性能的主要障碍。由于“模态鸿沟”的原因，现有跨模态哈希方法的检索性能还远不能满足人们的需求。并且，对于现有的基于浅层结构的跨模态哈希检索方法来说，因为它们大部分都使用手工特征，并且这些特征对不同的跨模态检索任务不具有通用性，因此，它们学习得到的哈希编码的鉴别能力是有限的，进而，这些浅层跨模态哈希检索方法的检索性能不能达到最优。

因此，目前的相关技术中，在进行跨模态的数据处理的过程中，数据处理的效率较低，性能远不能满足用户需求。

针对相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置，以至少解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题。

根据本发明的一个实施例，提供了一种跨模态的数据处理方法，包括：获取第一模态的查询数据；分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

可选地，在获取第一模态的查询数据之前，所述方法还包括：重复执行以下步骤，直到为所述鉴别器所配置的目标函数的取值最小：获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据；将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果；基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型。

可选地，将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果，包括：将所述第一训练数据输入第一编码器，得到第一目标数据，将所述第二训练数据输入第二编码器，得到第二目标数据；将所述类别标记数据输入标记编码器，得到标签数据；将所述第一目标数据和所述标签数据输入第一鉴别器，得到第一鉴别结果，将所述第二目标数据和所述标签数据输入第二鉴别器，得到第二鉴别结果；将所述第一鉴别结果确定为所述第一训练结果，并将所述第二鉴别结果确定为所述第二训练结果。

可选地，基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型，包括以下至少之一：基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数；基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。

可选地，所述方法还包括：基于所述第一训练数据以及第二训练数据生成三元组集，其中，所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据；通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离；通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离；得到约束后的所述第一训练数据和约束后的所述第二训练数据。

可选地，在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：使用符号函数处理所述第一训练数据，得到第一组哈希编码；将所述第一组哈希编码输入第三鉴别器，得到第三鉴别结果；将所述第三鉴别结果确定为第三训练结果；基于所述第三训练结果训练所述第三鉴别器和第一编码器，其中，所述第一初始神经网络模型包括所述第一编码器；使用所述符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和所述第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

可选地，在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：使用符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

根据本发明的另一个实施例，提供了一种跨模态的数据处理装置，包括：获取模块，设置为获取第一模态的查询数据；处理模块，设置为分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；确定模块，设置为根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

可选地，所述装置还设置为：在获取第一模态的查询数据之前，重复执行以下步骤，直到为所述鉴别器所配置的目标函数的取值最小：获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据；将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果；基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型。

可选地，所述装置还设置为通过如下方式将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果：将所述第一训练数据输入第一编码器，得到第一目标数据，将所述第二训练数据输入第二编码器，得到第二目标数据；将所述类别标记数据输入标记编码器，得到标签数据；将所述第一目标数据和所述标签数据输入第一鉴别器，得到第一鉴别结果，将所述第二目标数据和所述标签数据输入第二鉴别器，得到第二鉴别结果；将所述第一鉴别结果确定为所述第一训练结果，并将所述第二鉴别结果确定为所述第二训练结果。

可选地，所述装置还设置为通过如下至少之一的方式基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型：基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数；基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。

可选地，所述装置还设置为：基于所述第一训练数据以及第二训练数据生成三元组集，其中，所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据；通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离；通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离；得到约束后的所述第一训练数据和约束后的所述第二训练数据。

可选地，所述装置还设置为：在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，使用符号函数处理所述第一训练数据，得到第一组哈希编码；将所述第一组哈希编码输入第三鉴别器，得到第三鉴别结果；将所述第三鉴别结果确定为第三训练结果；基于所述第三训练结果训练所述第三鉴别器和第一编码器，其中，所述第一初始神经网络模型包括所述第一编码器；使用所述符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和所述第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

可选地，所述装置还设置为：在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，使用符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。

通过本发明，采用获取第一模态的查询数据，分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用类别标记数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的跨模态的数据处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图；

图3是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图；

图4是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种跨模态的数据处理方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和设置为存储数据的存储器104，其中，上述移动终端还可以包括设置为通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可设置为存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的跨模态的数据处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106设置为经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其设置为通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的跨模态的数据处理方法，图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图，如图2所示，该流程包括如下步骤：

根据本发明的一个实施例，提供了一种跨模态的数据处理方法，包括：

S202，获取第一模态的查询数据；

S204，分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；

S206，根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

可选地，在本实施例中，上述第一模态可以包括但不限于图像、文字、语音、视频、动作捕捉等。上述第二模态可以包括但不限于图像、文字、语音、视频、动作捕捉等，上述第一模态和第二模态为不同的模态，例如，上述第一模态为图像，上述第二模态为文字，或者，上述第一模态为拍摄的图像，上述第二模态为动作捕捉后，模拟生成的图像等。

可选地，在本实施例中，上述第一模态的查询数据可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量，还可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量所生成的哈希编码。

可选地，在本实施例中，上述第二模态的检索数据可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量，还可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量所生成的哈希编码，上述第二模态的检索数据集合是由多个预先确定的第二模态的检索数据所组成的集合。

可选地，在本实施例中，上述目标参数可以包括但不限于上述第一模态的查询数据所对应的哈希编码与上述第二模态的检索数据所对应的哈希编码之间的汉明距离，上述相似性可以包括但不限于通过比较汉明距离的大小来进行表示，上述汉明距离与上述相似性呈负相关，也即，在汉明距离越小的情况下，上述第一模态的查询数据和第二模态的检索数据越相似。

可选地，在本实施例中，上述目标神经网络模型可以包括但不限于一个或多个生成式对抗网络模型、一个或多个卷积神经网络模型、一个或多个多尺度融合模型，可以包括但不限于上述的一种或者多种的组合。

可选地，在本实施例中，上述类别标记编码器可以包括但不限于对已标注的数据进行特征提取，将对应的标记信息作为特征向量进行编解码，上述类别标记可以包括但不限于进行分类过程中对应的类别标记。

可选地，在本实施例中，以第一模态为图像模态、第二模态为文本模态为例，上述一组样本对可以包括如下内容：

假设(V,T)表示n个对象在图像模态和文本模态的图像-文本数据对(对应于前述的一组样本对)，其中，

为n个对象的像素特征向量集，v _i表示第i个对象在图像模态的像素特征向量，

为这n个对象的词袋向量集，其中，t _i表示第i个对象的词袋向量。假设n个对象的类别标记向量为

l _i＝[l _i1,l _i2,...,l _ic] ^T(i＝1,2,...,n)表示第i个对象的标签，其中，c表示对象类别的数量，(·) ^T表示转置运算。对于向量l _i来说，如果第i个对象属于第k类，则l _ik＝1，否则，l _ik＝0。使用语义相似矩阵

来表示两个对象之间的相似程度，如果第i个对象与第j个对象在语义上相似，则s _ij＝1，否则，s _ij＝0，以实现训练得到目标神经网络模型，以及获得上述第二模态的检索数据集合。

通过本实施例，采用获取第一模态的查询数据，分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用类别标记数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

在一个可选的实施例中，在获取第一模态的查询数据之前，所述方法还包括：重复执行以下步骤，直到为所述鉴别器所配置的目标函数的取值最小：获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据；将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果；基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型。

可选地，在本实施例中，上述目标函数可以包括但不限于第一初始神经网络模型的第一目标函数，第一目标函数中包含有一个或多个第一预设参数，第二初始神经网络模型的第二目标函数，第二目标函数中包含有一个或多个第二预设参数，换言之，对于第一神经网络模型的训练，在第一预设参数的情况下，第一目标函数取值最小时表示训练完成，对于第二神经网络模型的训练，在第二预设参数的情况下，第二目标函数取值最小时表示训练完成。

可选地，在本实施例中，以第一模态为图像模态、第二模态为文本模态为例，上述第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据输入第一初始神经网络模型以及第二初始神经网络模型可以包括如下内容：

例如，神经网络LabNet，它是输入数据为类别标记数据的深度神经网络。LabNet由一个自编码器构成，为了方便起见，这里将该自编码器记为LabNet _Auto，并将LabNet _Auto的编码层的输出特征记为F ^(l)＝f ^(l)(L；θ ^(l))，其中，θ ^(l)为深度神经网络LabNet的参数。F ^(l)可以看作由LabNet _Auto学习得到的语义特征。利用LabNet _Auto的编码层的输出特征F ^(l)作为监督信息，引导ImgNet和TxtNet更好地进行训练，从而实现缩小图像模态和文本模态之间的语义鸿沟，并使图像模态和文本模态更好地从语义上关联起来。为了达到上述目的，LabNet _Auto需要经过良好的训练，为此，可以包括但不限于采用如下所示的目标函数训练LabNet _Auto：

其中，

为与标记向量l _i相对应的LabNet _Auto的编码层的输出向量，α ^(l)为超参数，B ^(l)为哈希编码。公式(1)中的

为负对数似然函数，且似然函数的定义如下：

其中，

用于保持F ^(l)中不同特征向量间的相似性。

为用于控制哈希编码B ^(l)的量化误差的目标函数项。

为了将LabNet _Auto学习得到的语义特征F ^(l)用于监督图像模态和文本模态的特征学习过程，通过如下目标函数实现：

其中，

α ^(v)和α ^(t)为超参数，B ^(v)和B ^(t)分别为图像模态和文本模态的哈希编码。最小化公式(3)和公式(4)中的两个负对数似然函数

和

等价于最大化它们相应的似然函数。当s _ij＝1时，最小化

可以使得

和

之间的相似度变大，与此相反，当s _ij＝0时，最小化

可以使得

和

之间的相似度变小。对

进行最小化优化也可以实现类似的目标。

因此，对

和

进行最小化，可以实现以语义特征F ^(l)为桥梁将图像模态和文本模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟。本发明将衡量成对数据之间关系的损失函数

和

分别称为成对损失。

在一个可选的实施例中，将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果，包括：将所述第一训练数据输入第一编码器，得到第一目标数据，将所述第二训练数据输入第二编码器，得到第二目标数据；将所述类别标记数据输入标记编码器，得到标签数据；将所述第一目标数据和所述标签数据输入第一鉴别器，得到第一鉴别结果，将所述第二目标数据和所述标签数据输入第二鉴别器，得到第二鉴别结果；将所述第一鉴别结果确定为所述第一训练结果，并将所述第二鉴别结果确定为所述第二训练结果。

可选地，在本实施例中，以第一模态为图像模态为例，上述第一编码器可以包括但不限于在图像模态首先使用卷积神经网络进行高层语义特征学习，为了方便起见，这里将所使用的卷积神经网络记为ImgNet _CNN并将ImgNet _CNN的输出特征记为G ^(v)＝g ^(v)(V；θ ^(v))。进一步，用

表示G ^(v)中的第i个向量，且该向量对应于v _i。本发明中的图像模态的深度神经网络还包含一个图像自编码器(Image Autoencoder)，用于进一步挖掘图像模态数据中所蕴含的高层语义信息。为了描述方便，这里将这个图像自编码器表示为ImgNet _Auto，并将ImgNet _Auto的编码层的输出特征和ImgNet _Auto的输出特征分别记为F ^(v)＝f ^(v)(V；θ ^(v))和Q ^(v)＝q ^(v)(V；θ ^(v))，其中，θ ^(v)表示图像模态的深度神经网络ImgNet的参数。进一步，将F ^(v)和Q ^(v)中的第i个向量分别表示为

和

可选地，在本实施例中，以第二模态为文本模态为例，对于文本模态，为了缓解词袋向量的稀疏性对高层语义信息的挖掘带来的不利影响，在本发明中，首先使用由多个均值池化层和1×1的卷积层构成的多尺度融合模型对词袋向量进行处理。为了方便起见，将这个多尺度融合模型记为TxtNet _MSF。这个多尺度融合模型TxtNet _MSF有利于发现不同词之间的关系，进而有利于挖掘文本模态数据中所蕴含的高层语义信息。为了更好地挖掘文本模态数据中的高层语义信息，在文本模态的深度神经网络TxtNet中还包含一个文本自编码器(Text Autoencoder)，这里将这个文本自编码器记为TxtNet _Auto，并将TxtNet _Auto的编码层的输出特征和TxtNet _Auto的输出特征分别记为F ^(t)＝f ^(t)(T；θ ^(t))和Q ^(t)＝q ^(t)(T；θ ^(t))，其中，θ ^(t)表示文本模态的深度神经网络TxtNet的参数。进一步，分别将F ^(t)和Q ^(t)中的第i个向量表示为

和

可选地，在本实施例中，以第一模态为图像模态、第二模态为文本模态为例，为了进一步缩小图像模态与文本模态之间的语义鸿沟，本发明将对抗学习策略应用于特征F ^(l)、F ^(v)和F ^(t)的学习过程。为此，本发明设计两个“模态间鉴别器”来完成对抗学习策略在不同模态之间的鉴别任务，这两个鉴别器分别是：标记-图像鉴别器D _L-I(对应于前述的第一鉴别器)和标记-文本鉴别器D _L-T(对应于前述的第二鉴别器)。

对于标记-图像鉴别器D _L-I来说，它的输入数据为LabNet _Auto的输出特征F ^(l)和ImgNet _Auto的输出特征F ^(v)。假设

表示指定给特征向量

的标签，

表示指定给特征向量

的标签，其中，i＝1,2,...,n。鉴别器D _L-I旨在尽可能地将“真实数据”

与“虚假数据”

区分开来。

因此，可以用“0”和“1”分别表示鉴别器D _L-I的两种可能的输出，具体来说，用“1”表示鉴别器D _L-I进行了正确的区分，用“0”表示鉴别器D _L-I进行了错误的区分。

综合以上分析，针对鉴别器D _L-I可以设计如下的目标函数：

其中，

表示鉴别器D _L-I的参数，D _L-I(·)表示鉴别器D _L-I的输出。

鉴别器D _L-T的作用是尽可能地将“真实数据”

与“虚假数据”

区分开来，其中，i＝1,2,...,n。类似于鉴别器D _L-I。

因此，设计如下的目标函数实现鉴别器D _L-T所要达到的目标：

其中，

表示鉴别器D _L-T的参数，D _L-T(·)鉴别器D _L-T的输出，

表示指定给特征向量

的标签。

通过本实施例，对

和

进行最小化，可以实现以语义特征F ^(l)为桥梁将图像模态和文本模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

在一个可选的实施例中，所述方法还包括：基于所述第一训练数据以及第二训练数据生成三元组集，其中，所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据；通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离；通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离；得到约束后的所述第一训练数据和约束后的所述第二训练数据。

可选地，在本实施例中，以上述第一模态为图像模态，第二模态为文本模态为例，可以包括如下内容：

例如，在缩小不同模态中语义上相同的对象的差异时，增大每个模态中语义上不同的对象的距离，有利于保持模态内对象之间的语义关系并增强模态间的语义关联。为此，本发明将三元组约束应用到图像模态和文本模态的特征学习过程。具体做法为：首先构建形式为

的三元组集，其中，v _i是被选为锚点的图像特征向量，

为来自于文本模态且与v _i具有相同标记的文本向量，

为来自于文本模态且与v _i具有不同标记的文本向量。将由v _i与

联合起来构成的图像-文本对

称为正图像-文本对，类似地，将由v _i与

联合起来构成的图像-文本对

称为负图像-文本对。当将t _i作为锚点时，可以构造形如

的三元组集。进一步，可以构造正文本-图像对

和负文本-图像对

对于以图像模态的样本为锚点一个三元组来说，三元组约束旨在通过三元组损失函数最小化锚点和正文本样本之间距离并同时最大化锚点与负文本样本之间的距离。也就是说，对于三元组

三元组损失函数定义为：

其中，

为

和

之间的欧氏距离，

为

和

之间的欧氏距离。因此，图像模态所有三元组的三元组损失函数为：

类似地，文本模态所有三元组的三元组损失函数为：

因此，基于三元组损失函数的目标函数设计为：

根据上述内容可以看出，通过使用三元组约束可以使图像模态数据和文本模态数据的语义分布相互适应，进而不同模态之间的语义鸿沟可以得到消减。此外，通过使用三元组约束还可以使图像模态特有的信息和文本模态特有的信息得以保持。

在一个可选的实施例中，在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：使用符号函数处理所述第一训练数据，得到第一组哈希编码；将所述第一组哈希编码输入第三鉴别器，得到第三鉴别结果；将所述第三鉴别结果确定为第三训练结果；基于所述第三训练结果训练所述第三鉴别器和第一编码器，其中，所述第一初始神经网络模型包括所述第一编码器；使用所述符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和所述第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

可选地，在本实施例中，通过公式(3)和公式(4)可知，在图像模态和文本模态生成哈希编码，需要将ImgNet _Auto和TxtNet _Auto的编码层特征F ^(v)和F ^(t)分别使用符号函数进行处理，进而得到哈希编码。为了使生成的哈希编码中保留尽可能多的鉴别信息，亦即使学习得到的编码层特征F ^(v)和F ^(t)中保留尽可能多的鉴别信息，可以通过设法保证ImgNet _Auto和TxtNet _Auto得到有效训练来实现。为此，本发明将对抗学习策略引入到图像模态和文本模态的深度神经网络训练过程中。本发明设计两个“模态内鉴别器”分别完成对抗学习策略在每个模态内部的鉴别任务，这两个鉴别器分别是：图像模态鉴别器D _I(对应于前述的第三鉴别器)和文本模态鉴别器D _T(对应于前述的第四鉴别器)。

对于鉴别器D _I来说，它的输入数据为ImgNet _CNN的输出特征G ^(v)和ImgNet _Auto的输出特征Q ^(v)。假设

表示指定给特征向量

的标签，

表示指定给特征向量

的标签，其中，i＝1,2,...,n。鉴别器D _I的作用是尽可能地将“真实数据”

与它相应的重构数据

区分开来。因此，可以用“0”和“1”分别表示鉴别器D _I的两种可能的输出，具体来说，用“1”表示鉴别器D _I进行了正确的区分，用“0”表示鉴别器D _I进行了错误的区分。综合以上分析，针对鉴别器D _I可以设计如下的目标函数：

其中，

表示鉴别器D _I的参数，D _I(·)表示鉴别器D _I的输出。

鉴别器D _T的作用是尽可能地将“真实数据”

与它相应的重构数据

区分开来，其中，i＝1,2,...,n。类似于鉴别器D _I，设计如下的目标函数实现鉴别器D _T所要达到的目标：

其中，

表示鉴别器D _T的参数，D _T(·)鉴别器D _T的输出，

表示指定给特征向量

的标签，

表示指定给特征向量

的标签。

在一个可选的实施例中，在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：使用符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

可选地，在本实施例中，假设图像模态的一个查询样本的特征向量为

文本模态的一个查询样本的特征向量为

图像模态检索样本集中样本的特征向量集为

文本模态检索样本集中样本的特征向量集为

其中，

表示检索样本集中样本的数量。图像模态和文本模态查询样本和检索样本集中样本的哈希编码分别为：

和

其中，θ ^(v)和θ ^(t)分别为求解得到的图像模态和文本模态的深度神经网络参数，

sign(·)为符号函数。

在一个可选的实施例中，基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型，包括以下至少之一：基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数；基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。

可选地，在本实施例中，在为图像模态和文本模态学习深度特征表示时，目标函数公式中包含的未知变量有

θ＝(θ ^(l),θ ^(v),θ ^(t))和B＝(B ^(l),B ^(v),B ^(t))。这些未知变量可以通过联合优化公式(12)和公式(13)所示的生成损失函数和对抗损失函数来得到解。

因为公式(12)和公式(13)的优化目标是相反的，本发明采用“极大极小博弈(Minimax Game)”方案对公式(14)进行优化来求解未知变量。

因为B ^(l)，B ^(v)和B ^(t)都是离散变量，并且“极大极小”损失函数容易引起梯度消失问题，因此，公式(14)的优化问题是非常棘手的优化问题。为了解决这个问题，本发明采用迭代优化方案来优化公式(14)。首先通过优化

来求解θ ^(l)和B ^(l)，然后固定θ ^(l)和B ^(l)通过优化

来求解θ ^(v)和B ^(v)，类似地，固定θ ^(l)和B ^(l)通过优化

来求解θ ^(t)和B ^(t)。不难看出，在上述求解θ＝(θ ^(l),θ ^(v),θ ^(t))和B＝(B ^(l),B ^(v),B ^(t))的过程中，图像模态和文本模态的特征表示可以在标签信息的监督下学习得到。将求解得到的θ＝(θ ^(l),θ ^(v),θ ^(t))和B＝(B ^(l),B ^(v),B ^(t))固定，通过分别优化

和

可以求解得到

和

本发明采用后向传播算法以及随机梯度下降完成网络参数的学习。

下面结合具体的示例，对本申请进行进一步地说明：

图3是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图，如图3所示，具体实施过程主要包括以下步骤：假设(V,T)表示n个对象在图像模态和文本模态的图像-文本数据对，其中，

,来表示两个对象之间的相似程度，如果第i个对象与第j个对象在语义上相似，则s _ij＝1，否则，s _ij＝0。

(1)基于卷积神经网络和自编码器构建多模态混合深度神经网络

利用图像模态和文本模态的特征数据，以及对象的类别标记信息学习图像模态和文本模态的哈希函数，并利用学习得到的哈希函数生成用于完成跨模态哈希检索的哈希编码。对于本发明的跨模态检索方案，在图像模态首先使用卷积神经网络进行高层语义特征学习，为了方便起见，这里将所使用的卷积神经网络记为ImgNet _CNN302并将ImgNet _CNN的输出特征记为G ^(v)＝g ^(v)(V；θ ^(v))。进一步，用

表示G ^(v)中的第i个向量，且该向量对应于v _i。本发明中的图像模态的深度神经网络还包含一个图像自编码器(Image Autoencoder)304，用于进一步挖掘图像模态数据中所蕴含的高层语义信息。为了描述方便，这里将这个图像自编码器表示为ImgNet _Auto，并将ImgNet _Auto的编码层的输出特征和ImgNet _Auto的输出特征分别记为F ^(v)＝f ^(v)(V；θ ^(v))和Q ^(v)＝q ^(v)(V；θ ^(v))，其中，θ ^(v)表示图像模态的深度神经网络ImgNet306的参数。进一步，将F ^(v)和Q ^(v)中的第i个向量分别表示为

和

对于文本模态，为了缓解词袋向量的稀疏性对高层语义信息的挖掘带来的不利影响，在本发明中，首先使用由多个均值池化层和1×1的卷积层构成的多尺度融合模型308对词袋向量进行处理。为了方便起见，将这个多尺度融合模型记为TxtNet _MSF。这个多尺度融合模型TxtNet _MSF有利于发现不同词之间的关系，进而有利于挖掘文本模态数据中所蕴含的高层语义信息。为了更好地挖掘文本模态数据中的高层语义信息，在文本模态的深度神经网络TxtNet 310中还包含一个文本自编码器(Text Autoencoder)312，这里将这个文本自编码器记为TxtNet _Auto，并将

的编码层的输出特征和TxtNet _Auto的输出特征分别记为F ^(t)＝f ^(t)(T；θ ^(t))和Q ^(t)＝q ^(t)(T；θ ^(t))，其中，θ ^(t)表示文本模态的深度神经网络TxtNet的参数。进一步，分别将F ^(t)和Q ^(t)中的第i个向量表示为

和

(2)基于模态间对抗学习和三元组约束构建提升深度学习特征鉴别性能的模型

本发明方法还包含一个神经网络LabNet 314，它是输入数据为类别标记数据的深度神经网络。LabNet由一个自编码器构成，为了方便起见，这里将该自编码器记为LabNet _Auto316，并将LabNet _Auto的编码层的输出特征记为F ^(l)＝f ^(l)(L；θ ^(l))，其中，θ ^(l)为深度神经网络LabNet的参数。F ^(l)可以看作由LabNet _Auto学习得到的语义特征。本发明利用LabNet _Auto的编码层的输出特征F ^(l)作为监督信息，引导ImgNet和TxtNet更好地进行训练，从而实现缩小图像模态和文本模态之间的语义鸿沟，并使图像模态和文本模态更好地从语义上关联起来。为了达到上述目的，LabNet _Auto需要经过良好的训练，为此，本发明采用如下所示的目标函数训练LabNet _Auto：

其中，

为负对数似然函数，且似然函数的定义如下：

其中，

用于保持F ^(l)中不同特征向量间的相似性。

为用于控制哈希编码B ^(l)的量化误差的目标函数项。

为了将LabNet _Auto学习得到的语义特征F ^(l)用于监督图像模态和文本模态的特征学习过程，本发明设计如下的目标：

其中，

和

等价于最大化它们相应的似然函数。当s _ij＝1时，最小化

可以使得

和

之间的相似度变大，与此相反，当s _ij＝0时，最小化

可以使得

和

之间的相似度变小。对

进行最小化优化也可以实现类似的目标。因此，对

和

分别称为成对损失。

为了进一步缩小图像模态与文本模态之间的语义鸿沟，本发明将对抗学习策略应用于特征F ^(l)、F ^(v)和F ^(t)的学习过程。为此，本发明设计两个“模态间鉴别器”来完成对抗学习策略在不同模态之间的鉴别任务，这两个鉴别器分别是：标记-图像鉴别器D _L-I318和标记-文本鉴别器D _L-T320。

表示指定给特征向量

的标签，

表示指定给特征向量

与“虚假数据”

区分开来。因此，可以用“0”和“1”分别表示鉴别器D _L-I的两种可能的输出，具体来说，用“1”表示鉴别器D _L-I进行了正确的区分，用“0”表示鉴别器D _L-I进行了错误的区分。综合以上分析，针对鉴别器D _L-I可以设计如下的目标函数：

其中，

表示鉴别器D _L-I的参数，D _L-I(·)表示鉴别器D _L-I的输出。

鉴别器D _L-T的作用是尽可能地将“真实数据”

与“虚假数据”

区分开来，其中，i＝1,2,...,n。类似于鉴别器D _L-I，设计如下的目标函数实现鉴别器D _L-T所要达到的目标：

其中，

表示鉴别器D _L-T的参数，D _L-T(·)鉴别器D _L-T的输出，

表示指定给特征向量

的标签。

在缩小不同模态中语义上相同的对象的差异时，增大每个模态中语义上不同的对象的距离，有利于保持模态内对象之间的语义关系并增强模态间的语义关联。为此，本发明将三元组约束应用到图像模态和文本模态的特征学习过程。具体做法为：首先构建形式为

的三元组集，其中，v _i是被选为锚点的图像特征向量，

为来自于文本模态且与v _i具有相同标记的文本向量，

联合起来构成的图像-文本对

称为正图像-文本对，类似地，将由v _i与

联合起来构成的图像-文本对

称为负图像-文本对。当将t _i作为锚点时，可以构造形如

的三元组集。进一步，可以构造正文本-图像对

和负文本-图像对

对于以图像模态的样本为锚点一个三元组来说，三元组约束322旨在通过三元组损失函数最小化锚点和正文本样本之间距离并同时最大化锚点与负文本样本之间的距离。也就是说，对于三元组

三元组损失函数定义为：

其中，

为

和

之间的欧氏距离，

为

和

类似地，文本模态所有三元组的三元组损失函数为：

因此，基于三元组损失函数的目标函数设计为：

(3)基于模态内对抗学习构建提升哈希编码鉴别性能的模型

观察公式(3)和公式(4)可以发现，为了在图像模态和文本模态生成哈希编码，需要将ImgNet _Auto和TxtNet _Auto的编码层特征F ^(v)和F ^(t)分别使用符号函数进行处理，进而得到哈希编码。为了使生成的哈希编码中保留尽可能多的鉴别信息，亦即使学习得到的编码层特征F ^(v)和F ^(t)中保留尽可能多的鉴别信息，可以通过设法保证ImgNet _Auto和TxtNet _Auto得到有效训练来实现。为此，本发明将对抗学习策略引入到图像模态和文本模态的深度神经网络训练过程中。本发明设计两个“模态内鉴别器”分别完成对抗学习策略在每个模态内部的鉴别任务，这两个鉴别器分别是：图像模态鉴别器D _I324和文本模态鉴别器D _T326。

表示指定给特征向量

的标签，

表示指定给特征向量

与它相应的重构数据

其中，

表示鉴别器D _I的参数，D _I(·)表示鉴别器D _I的输出。

鉴别器D _T的作用是尽可能地将“真实数据”

与它相应的重构数据

区分开来，其中， i＝1,2,...,n。类似于鉴别器D _I，设计如下的目标函数实现鉴别器D _T所要达到的目标：

其中，

表示鉴别器D _T的参数，D _T(·)鉴别器D _T的输出，

表示指定给特征向量

的标签，

表示指定给特征向量

的标签。

(4)所构建模型中未知变量的求解

在为图像模态和文本模态学习深度特征表示时，目标函数公式中包含的未知变量有

来求解θ ^(l)和B ^(l)，然后固定θ ^(l)和B ^(l)通过优化

来求解θ ^(v)和B ^(v)，类似地，固定θ ^(l)和B ^(l)通过优化

和

可以求解得到

和

(5)查询样本和检索样本集中样本的哈希编码的生成

假设图像模态的一个查询样本的特征向量为

文本模态的一个查询样本的特征向量为

图像模态检索样本集中样本的特征向量集为

文本模态检索样本集中样本的特征向量集为

其中，

和

sign(·)为符号函数。

(6)计算汉明距离与完成跨模态检索

在计算查询样本到检索样本集中各个样本的汉明距离时，对于图像模态的查询样本

使用距离计算公式

计算图像模态的查询样本

到文本模态检索样本集中样本

的汉明距离。对于文本模态的查询样本

使用距离计算公式

计算文本模态的查询样本

到图像模态检索样本集中样本

的汉明距离。对于用图像去检索文本的跨模态检索任务，首先对计算得到的

个汉明距离

按照从小到大的顺序进行排序，然后，在文本检索样本集中取前K个最小距离对应的样本作为检索结果。类似地，对于用文本去检索图像的跨模态检索任务，首先对计算得到的

个汉明距离

按照从小到大的顺序进行排序，然后，在图像检索样本集中取前K个最小距离对应的样本作为检索结果。

以下结合具体实验对本发明的有益效果进行说明。

本发明在Pascal VOC 2007数据集上进行实验说明其有益效果。Pascal VOC 2007数据集包含来自于20个类别的9963张图像，每幅图像均被标注了标签。数据集被划分成包含5011个图像-标签对的训练集和包含4952个图像-标签对的测试集。图像模态使用原始像素特征作为输入特征。文本模态使用399维的词频特征作为输入特征。实验主要完成用图像检索文本和用文本检索图像这两种跨模态检索任务，为了方便起见，这里将这两种跨模态检索任务分别用Img2Txt和Txt2Img表示。实验在评价跨模态哈希检索方法的性能时使用MAP(Mean Average Precision)这一评价指标。MAP值越大说明跨模态检索的性能越好。实验采用5折交叉验证来确定本发明方法中超参数的值。对比方法中的参数按照各个方法推荐的参数设置原则进行参数设置。报告的结果为进行10次随机实验所得结果的平均值。

与本发明方法进行对比的方法分别为：(1)文献“Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval”(作者E.Yang,C.Deng,W.Liu,X.Liu,D.Tao,and X.Gao)中的PRDH方法；(2)文献“MHTN:Modal-adversarial Hybrid Transfer Network for Cross-modal Retrieval”(作者X.Huang,Y.Peng,and M.Yuan)中的MHTN方法；(3)文献“Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval”(作者C.Li,C.Deng,N.Li,W.Liu,X.Gao,and D.Tao)中的SSAH方法。表1列出了本发明方法和对比方法在Pascal VOC 2007数据集上进行跨模态哈希检索时的MAP。从表1可以看出，对于两种检索任务Img2Txt和Txt2Img，本发明方法的跨模态检索性能均优于PRDH、MHTN和SSAH方法。这说明本发明方法是有效的深度跨模态哈希检索方法。这同时也说明本发明基于对抗学习、三元组约束等技术设计的提升特征鉴别力的方案是有效的。

表1 各方法在Pascal VOC 2007数据集上的MAP

方法	Img2Txt	Txt2Img	平均
PRDH	0.5371	0.5434	0.5425
MHTN	0.5557	0.5582	0.5570
SSAH	0.5790	0.5885	0.5838
本发明	0.6034	0.6168	0.6101

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种跨模态的数据处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图，如图4所示，该装置包括：

获取模块402，设置为获取第一模态的查询数据；

处理模块404，设置为分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的预设参数，以得到多个预设参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述预设参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；

确定模块406，设置为根据所述多个预设参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

在一个可选的实施例中，所述装置还设置为：在获取第一模态的查询数据之前，重复执行以下步骤，直到为所述鉴别器所配置的目标函数的取值最小：获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据；将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果；基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型。

在一个可选的实施例中，所述装置还设置为通过如下方式将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果：将所述第一训练数据输入第一编码器，得到第一目标数据，将所述第二训练数据输入第二编码器，得到第二目标数据；将所述类别标记数据输入标记编码器，得到标签数据；将所述第一目标数据和所述标签数据输入第一鉴别器，得到第一鉴别结果，将所述第二目标数据和所述标签数据输入第二鉴别器，得到第二鉴别结果；将所述第一鉴别结果确定为所述第一训练结果，并将所述第二鉴别结果确定为所述第二训练结果。

在一个可选的实施例中，所述装置还设置为通过如下至少之一的方式：基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型：基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数；基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。

在一个可选的实施例中，所述装置还设置为：基于所述第一训练数据以及第二训练数据生成三元组集，其中，所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据；通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离；通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离；得到约束后的所述第一训练数据和约束后的所述第二训练数据。

在一个可选的实施例中，所述装置还设置为：在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，使用符号函数处理所述第一训练数据，得到第一组哈希编码；将所述第一组哈希编码输入第三鉴别器，得到第三鉴别结果；将所述第三鉴别结果确定为第三训练结果；基于所述第三训练结果训练所述第三鉴别器和第一编码器，其中，所述第一初始神经网络模型包括所述第一编码器。

在一个可选的实施例中，所述装置还设置为：在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，使用符号函数处理所述第二训练数据，得到第二组哈希编码；将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；将所述第四鉴别结果确定为第四训练结果；基于所述第四训练结果训练所述第四鉴别器和第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：S1，获取第一模态的查询数据；S2，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，第二模态的检索数据集合中包含多个第二模态的检索数据，第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性，目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，目标神经网络模型包括编码器和鉴别器，编码器包括样本编码器和类别标记编码器，每个样本对包括样本数据以及类别标记数据，使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开；S3，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。

计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：S1，获取第一模态的查询数据；S2，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，第二模态的检索数据集合中包含多个第二模态的检索数据，第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性，目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，目标神经网络模型包括编码器和鉴别器，编码器包括样本编码器和类别标记编码器，每个样本对包括样本数据以及类别标记数据，使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开；S3，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：S1，获取第一模态的查询数据；S2，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，第二模态的检索数据集合中包含多个第二模态的检索数据，第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性，目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，目标神经网络模型包括编码器和鉴别器，编码器包括样本编码器和类别标记编码器，每个样本对包括样本数据以及类别标记数据，使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开；S3，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种跨模态的数据处理方法，包括：

获取第一模态的查询数据；

分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；

根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
根据权利要求1所述的方法，其中，在获取第一模态的查询数据之前，所述方法还包括：

重复执行以下步骤，直到为所述鉴别器所配置的目标函数的取值最小：

获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据；

将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果；

基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型。
根据权利要求2所述的方法，其中，将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果，包括：

将所述第一训练数据输入第一编码器，得到第一目标数据，将所述第二训练数据输入第二编码器，得到第二目标数据；

将所述类别标记数据输入标记编码器，得到标签数据；

将所述第一目标数据和所述标签数据输入第一鉴别器，得到第一鉴别结果，将所述第二目标数据和所述标签数据输入第二鉴别器，得到第二鉴别结果；

将所述第一鉴别结果确定为所述第一训练结果，并将所述第二鉴别结果确定为所述第二训练结果。
根据权利要求2所述的方法，其中，所述方法还包括：

基于所述第一训练数据以及第二训练数据生成三元组集，其中，所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据；

通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离；

通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离；

得到约束后的所述第一训练数据和约束后的所述第二训练数据。
根据权利要求2所述的方法，其中，在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：

使用符号函数处理所述第二训练数据，得到第二组哈希编码；

将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；

将所述第四鉴别结果确定为第四训练结果；

基于所述第四训练结果训练所述第四鉴别器和第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。
根据权利要求2所述的方法，其中，在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型，得到第一训练结果，并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型，得到第二训练结果之前，所述方法还包括：

使用符号函数处理所述第一训练数据，得到第一组哈希编码；

将所述第一组哈希编码输入第三鉴别器，得到第三鉴别结果；

将所述第三鉴别结果确定为第三训练结果；

基于所述第三训练结果训练所述第三鉴别器和所述第一编码器，其中，所述第一初始神经网络模型包括所述第一编码器；

使用所述符号函数处理所述第二训练数据，得到第二组哈希编码；

将所述第二组哈希编码输入第四鉴别器，得到第四鉴别结果；

将所述第四鉴别结果确定为第四训练结果；

基于所述第四训练结果训练所述第四鉴别器和所述第二编码器，其中，所述第二初始神经网络模型包括所述第二编码器。
根据权利要求2所述的方法，其中，基于所述第一训练结果以及所述第二训练结果，调整所述目标神经网络模型的预设参数，以得到所述目标神经网络模型，包括以下至少之一：

基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数；

基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
一种跨模态的数据处理装置，包括：

获取模块，设置为获取第一模态的查询数据；

处理模块，设置为分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括编码器和鉴别器，所述编码器包括样本编码器和类别标记编码器，每个所述样本对包括样本数据以及类别标记数据，使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开；

确定模块，设置为根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。