WO2024011814A1

WO2024011814A1 - 一种图文互检方法、系统、设备及非易失性可读存储介质

Info

Publication number: WO2024011814A1
Application number: PCT/CN2022/134091
Authority: WO
Inventors: 李仁刚; 王立; 范宝余; 郭振华
Original assignee: 苏州元脑智能科技有限公司
Priority date: 2022-07-12
Filing date: 2022-11-24
Publication date: 2024-01-18
Also published as: CN114896429A; CN114896429B

Abstract

提供了一种图文互检方法、系统、设备及非易失性可读存储介质，获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息（S101）；确定目标文本对应的目标文本输入信息（S102）；基于图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习（S103）;基于图文互检神经网络模型中的图像处理模型对目标图像进行处理得到目标图像处理结果（S104）；基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果和/或确定目标图像在目标文本中的文本检索结果（S105）。

Description

一种图文互检方法、系统、设备及非易失性可读存储介质

相关申请的交叉引用

本申请要求于2022年07月12日提交中国专利局，申请号为202210812205.4，申请名称为“一种图文互检方法、系统、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，更具体地说，涉及一种图文互检方法、系统、设备及非易失性可读存储介质。

背景技术

近年来，经济全球化进程不断推进，科学技术得到空前的发展，尤其是计算机信息技术的广泛推广和应用，使数字化处理取得长足进步。在信息时代，影像数据兼具多媒体数据优势的同时也跟相应领域的相关内容紧密关联，实现影像图文互检有利于提高数据的快速传播和交流，提高数据处理的效率和质量，不难理解，图文互检的准确性越好的话，相应数据处理的效率和质量越好。综上所述，如何提高图文互检的准确性是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种图文互检方法，其能在一定程度上解决如何提高图文互检的准确性的技术问题。本申请还提供了一种图文互检系统、设备及非易失性可读存储介质。为了实现上述目的，本申请提供如下技术方案：

一种图文互检方法，包括：

获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息；

确定目标文本对应的目标文本输入信息；

基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习；

基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果；

基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。

在一些实施例中，确定目标文本对应的目标文本输入信息，包括：

确定目标文本中的各类子信息；

确定各个子信息对应的位置信息；

确定各个子信息对应的第一类型信息；

对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息；

基于第一向量信息确定目标文本输入信息。

在一些实施例中，基于第一向量信息确定所述目标文本输入信息，包括：

确定目标文本的第二类型信息；

将第二类型信息转换为对应的第二向量信息；

将第二向量信息和第一向量信息作为目标文本输入信息。

在一些实施例中，自监督学习的对应权重值的确定过程包括：

对于文本处理模型中的任意两个所述子信息，均在其中的一个所述子信息中确定出目标样本，在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本，确定目标样本与所述第一类样本间的第一距离值，确定目标样本与第二类样本间的第二距离值；

基于所有的第一距离值和第二距离值确定自监督学习的损失值；

基于损失值确定自监督学习的所述权重值。

在一些实施例中，基于所有的第一距离值和第二距离值确定自监督学习的损失值，包括：

通过自监督学习的损失函数，基于所有的所述第一距离值和第二距离值确定自监督学习的损失值；

其中，自监督学习的损失函数包括：

其中，

表示自监督学习中第i个子信息相对于第j个子信息的损失函数值，i＝1，2…n，j＝1，2…n，i≠j，n表示子信息的总数量；b表示自监督学习的批次；N表示成对的样本的数量；d表示距离值；

表示在第i个子信息中被选中的第a个目标样本；

表示在第j个子信息中选中的与

成对的第一类样本；

表示在第j个子信息中选中的与

未成对的样本；

表示预设的超参数；min表示求最小值；其中，所有的损失函数值的和值为自监督学习的损失值。

在一些实施例中，文本处理模型包括基于transformer模型及自监督学习搭建的神经网络模型。

在一些实施例中，文本处理模型包括输入层；与输入层连接的多头注意力机制层；与输入层及多头注意力机制层连接的第一标准化层；与标准化层连接的正向传输层；与正向传输层及第一标准化层连接的第二标准化层；与第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层；与第二标准化层连接的与子信息一一对应的目标全连接层；与第二标准化层连接的第四全连接层；与第二标准化层连接的第五全连接层；与第一全连接层、所有的目标全连接层连接的拼接层；与拼接层连接的第三全连接层。

在一些实施例中，图像处理模型基于注意力机制搭建。

在一些实施例中，图像处理模型包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层；图像处理分支包括输入层，与输入层连接的骨干网络，与骨干网络连接的第五全连接层，与第五全连接层连接的注意力机制层，与注意力机制层连接的第一归一化层，与第一归一化层连接的乘法器，与乘法器及第五全连接层连接的加法器，与加法器连接的Linear层，与Linear层连接的BiLSTM层；

其中，各个图像处理分支中的第一归一化层为同一个；且各个图像处理分支中的BiLSTM层间互相连通。

在一些实施例中，注意力机制层包括：与第五全连接层连接的第六全连接层，与第六全连接层连接的第二激励层，与第二激励层连接的第七全连接层，与第七全连接层连接的第二归一化层，且第二归一化层与第一归一化层相连接。

在一些实施例中，图文互检神经网络模型中的损失函数包括：

其中，

表示批次b中文本与图像间相对的损失函数值；M表示成对的样本的数量；Δ ₂表示预设的超参数；

表示在目标图像的目标图像处理结果中选中的第a个样本；

表示在目标文本对应的目标文本处理结果中选中的与

成对的样本；min表示求最小值；s _np表示在目标文本特征处理结果中选中的与

未成对的样本。

在一些实施例中，骨干网络包括ResNet网络。

一种图文互检系统，包括：

第一获取模块，用于获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息；

第一确定模块，用于确定目标文本对应的目标文本输入信息；

第一处理模块，用于基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习；

第二处理模块，用于基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果；

第二确定模块，用于基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。

一种图文互检设备，包括：

存储器，用于存储计算机程序；处理器，用于执行计算机程序时实现如上任一图文互检方法的步骤。

一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一图文互检方法的步骤。

本申请提供的一种图文互检方法，获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息；确定目标文本对应的目标文本输入信息；基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习；基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果；基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。本申请中，在获取待检索的目标文本及目标图像之后，基于文本处理模型对目标文本输入信息进行处理，因为文本处理模型基于自监督学习搭建，且自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习，所以本申请相当于借助子信息间的关联信息来得到目标文本处理结果，因为子信息间的关联信息能够反映目标文本中各类信息间的相关性，所以文本处理模型能够保证目标文本的处理准确性，进而保证图文互检的准确性。本申请提供的一种图文互检系统、设备及非易失性可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种图文互检方法的第一流程图；

图2为本申请实施例提供的一种图文互检方法的第二流程图；

图3为本申请中图文互检神经网络模型的结构示意图；

图4为注意力机制层的结构示意图；

图5为本申请对图像及文本特征的遍历示意图；

图6为本申请实施例提供的一种图文互检系统的结构示意图；

图7为本申请实施例提供的一种图文互检设备的结构示意图；

图8为本申请实施例提供的一种图文互检设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例提供的一种图文互检方法的第一流程图。本申请实施例提供的一种图文互检方法，可以包括以下步骤：

步骤S101：获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息。

实际应用中，可以先获取待检索的一组目标文本及一组目标图像，以便后续在一组目标图像中确定与目标文本对应的图像。需要说明的是，获取的一组目标文本及一组目标图像的数量及目标文本、目标图像的类型等均可以根据实际需要确定，比如目标文本及目标图像可以为医学文本及医学图像，可以为服务器维修文本及服务器维修图像，也可以为饭菜制作文本及制作图像等，本申请在此不做具体限定。还需说明的是，本申请中的目标文本中包括目标信息的各类子信息，且子信息用于在某一层面反映目标信息的相应信息，以目标信息的类型为饭菜制作教程为例，目标文本中包含的子信息可以为食材类型、制作流程、注意事项等，本申请在此不做具体限定。

步骤S102：确定目标文本对应的目标文本输入信息。

实际应用中，在获取待检索的一组目标文本及一组目标图像之后，便可以确定目标文本对应的目标文本输入信息，以便后续借助目标文本输入信息来进行图文互检。

步骤S103：基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习。

实际应用中，在确定目标文本对应的目标文本输入信息之后，便可以基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其本申请中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习，也即本申请中，相当于基于目标文本中子信息间的关联信息来对目标文本进行处理，得到对应的目标文本处理结果。需要说明的是，图文互检神经网络模型的结构可以根据实际需要确定，本申请在此不做具体限定。此外，神经网络的训练过程分为两个阶段，第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段；另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。所以图文互检神经网络的训练过程可以为：将所有网络层权值进行初始化，一般采用随机初始化；输入图像和文本数据经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值；求出网络的输出值，求取网络的输出值的损失函数值；将误差反向传回网络中，依次求得网络各层：图神经网络层，全连接层，卷积层等各层的反向传播误差；网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新；重新随机选取新的batch(批次)的图像文本数据，然后进入到第二步，获得网络前向传播得到输出值；无限往复迭代，当求出网络的输出值与目标值(标签)之间的误差小于某个阈值，或者迭代次数超过某个阈值时，结束训练；保存训练好的所有层的网络参数。

步骤S104：基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果。

实际应用中，在基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果之后，便可以基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果，以便后续基于目标文本处理结果及目标图像处理结果确定相应的图文互检结果。

步骤S105：基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。

实际应用中，在基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果之后，便可以基于目标文本处理结果及目标图像处理结果确定相应的图文互检结果，具体的，可以确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果等，本申请在此不做具体限定。需要说明的是，图文互检神经网络模型对文本和图像的处理过程可以根据实际需要确定，本申请在此不做具体限定。比如图文互检神经网络模型可以对文本或图像进行特征提取，并将提取的特征存入待检索数据集中；接收用户给定的任意文本数据或图像数据作为query(查询)数据；提取query数据的文本数据或图像数据的特征；将query数据的特征与待检索数据集中所有样本特征进行距离匹配，即求向量距离，比如求取欧式距离，例如若query数据是文本数据就去取待检索数据集中所有的图特征进行求距离，同理query数据是图像数据，则与待检索数据集中所有的文本特征求欧式距离，距离最小的样本即为推荐样本，进行输出等。

本申请提供的一种图文互检方法，获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息；确定目标文本对应的目标文本输入信息；基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习；基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果；基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。本申请中，在获取待检索的目标文本及目标图像之后，基于文本处理模型对目标文本输入信息进行处理，因为文本处理模型基于自监督学习搭建，且自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习，所以本申请相当于借助子信息间的关联信息来得到目标文本处理结果，因为子信息间的关联信息能够反映目标文本中各类信息间的相关性，所以文本处理模型能够保证目标文本的处理准确性，进而保证图文互检的准确性。

请参阅图2，图2为本申请实施例提供的一种图文互检方法的第二流程图。

本申请实施例提供的一种图文互检方法，可以包括以下步骤：

步骤S201：获取待检索的一组目标文本及一组目标图像，目标文本包括表征目标信息的各类子信息。

步骤S202：确定目标文本中的各类子信息。

实际应用中，在确定目标文本对应的目标文本输入信息的过程中，为了使得目标文本输入信息更好的反映目标文本中的信息特征，可以确定目标文本中的各类子信息，以借助子信息对目标文本中的信息进行信息分类，后续再基于目标文本中的子信息来确定相应的目标文本输入信息。需要说明的是，子信息的类型及数量等可以根据实际需要确定，本申请在此不做具体限定。

步骤S203：确定各个子信息对应的位置信息。

步骤S204：确定各个子信息对应的第一类型信息。

步骤S205：对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息。

步骤S206：基于第一向量信息确定目标文本输入信息。

实际应用中，在确定目标文本中的各类子信息之后，便可以确定各个子信息对应的位置信息，比如将子信息在目标文本中的位置作为其对应的位置信息等，或者将子信息在目标文本中的出现先后顺序作为其对应的位置信息等；确定各个子信息对应的第一类型信息，以借助第一类型信息表征子信息的类型；对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息，比如基于word2vec工具将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，再将所有的初始向量信息的和值作为子信息的第一向量信息等；最后基于第一向量信息确定目标文本输入信息。

具体应用场景中，在基于第一向量信息确定目标文本输入信息的过程中，可以确定目标文本的第二类型信息，以借助第二类型信息表征目标文本的类型；将第二类型信息转换为对应的第二向量信息；将第二向量信息和第一向量信息作为目标文本输入信息。

具体应用场景中，自监督学习的对应权重值的确定过程可以包括：对于文本处理模型中的任意两个子信息，均在其中的一个子信息中确定出目标样本，在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本，确定目标样本与第一类样本间的第一距离值，确定目标样本与第二类样本间的第二距离值；基于所有的第一距离值和第二距离值确定自监督学习的损失值；基于所损失值确定自监督学习的权重值。

具体应用场景中，在基于所有的第一距离值和第二距离值确定自监督学习的损失值的过程中，可以通过自监督学习的损失函数，基于所有的第一距离值和第二距离值确定自监督学习的损失值；其中，自监督学习的损失函数可以包括：

其中，

表示在第i个子信息中被选中的第a个目标样本；

表示在第j个子信息中选中的与

成对的第一类样本；

表示在第j个子信息中选中的与

未成对的样本；

表示预设的超参数；min表示求最小值；其中，所有的损失函数值的和值为自监督学习的损失值。为便于理解，假设子信息的数量为3，则i＝1，2，3，j＝1，2，3，自监督学习的损失函数值便包括

具体应用场景中，在应用损失函数值进行自监督学习训练时，可以将所有的损失函数值的和值作为自监督学习的最终函数损失值来进行训练等，本申请在此不做具体限定。需要说明的是，因为自监督学习是指用于机器学习的标注(ground truth)源于数据本身，而非来自人工标注，而在本申请中，各类子信息的特征间互为标签，比如第一文本特征的编码与第二文本特征编码互为标签，相互进行学习，没有人工参与，所以称之为自监督学习。

具体应用场景中，文本处理模型可以包括基于transformer模型及自监督学习搭建的神经网络模型。

具体应用场景中，请参阅图3，文本处理模型可以包括输入层；与输入层连接的多头注意力机制层(Masked Multihead Attention)；与输入层及多头注意力机制层连接的第一标准化层(Add+Normalization)；与标准化层连接的正向传输层(Feed Forward)；与正向传输层及第一标准化层连接的第二标准化层；与第二标准化层顺次连接的第一全连接层(FC)、第一激励层(ReLU)、第二全连接层、自监督分类输出层；与第二标准化层连接的第三全连接层；与第二标准化层连接的第四全连接层；与第二标准化层连接的与子信息一一对应的目标全连接层；与第一全连接层及所有的目标全连接层连接的拼接层；与拼接层连接的第三全连接层。需要说明的是，图3中第一文本信息、第二文本信息及第三文本信息也即目标文本中的相应子信息，此外，第三全连接层输出的便是文本处理模型对目标文本的处理结果。

具体应用场景中，可以在transformer的CLS对应的输出位置，其中，CLS也即目标文本的第二类信息，提取其输出特征，用来进行主动学习分类；比如在训练开始前，以目标文本为诊断数据为例，可以读取所有第一文本信息的数据，生成诊断结果列表。对于诊断结果列表，进行同类合并操作，即相同诊断结果的数据合并成为1个数据，并统计合并的数量。再提取transformer的CLS对应的输出特征，该特征首先经过一个全连接层FC，随后通过ReLU进行非线性映射，最后再通过一个全连接层FC，该特征命名为cla,cla会进行诊断结果分类损失的计算。计算方法如下：

提取医学文本的CLS的特征；将cla特征与其对应的label(标签)求用于多目标分类的BCELoss(二分类交叉熵损失)，其公式如下：

其中，loss _cla表示transformer对应的损失函数值；K表示cla及label的维度；sigmoid、ln表示运算函数；label _k表示label中第k个位置的元素，cla _k表示cla中第k个位置的元素。

步骤S207：基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理，得到目标文本处理结果；其中，文本处理模型基于自监督学习搭建，自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习。

步骤S208：基于图文互检神经网络模型中的图像处理模型对目标图像进行处理，得到目标图像处理结果。

步骤S209：基于目标文本处理结果及目标图像处理结果，确定目标文本在目标图像中的图像检索结果，和/或确定目标图像在目标文本中的文本检索结果。

实际应用中，请参阅图3，图文互检神经网络模型可以包括基于注意力机制搭建的图像处理模型，图像处理模型用于对目标图像进行处理。

具体应用场景中，图像处理模型可以包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层；图像处理分支包括输入层，与输入层连接的骨干网络(backbore)，与骨干网络连接的第五全连接层，与第五全连接层连接的注意力机制层，与注意力机制层连接的第一归一化层，与第一归一化层连接的乘法器，与乘法器及第五全连接层连接的加法器，与加法器连接的Linear(线性)层，与Linear层连接的BiLSTM层；其中，各个图像处理分支中的第一归一化层为同一个；且各个图像处理分支中的BiLSTM层间互相连通。需要说明的是，骨干网络的类型可以根据实际需要确定，比如骨干网络可以为ResNet骨干网络等。此外，图文互检神经网络模型中，文本处理模型与图像处理模型间可以通过输出层、损失层等进行连接，比如在图3中，文本处理模型与图像处理模型间通过Generalized Pairwise Hinge-loss(广义成对合页损失函数交叉熵)层连接等，本申请在此不做具体限定。

在图像处理模型中，将图像特征输入到BiLSTM网络，获取整体图像组的总体特征。公式如下：

如上所记载的内容，图像也包含逆序和顺序两种，都隐含着时序语义信息，用如上公式对其进行编码。其中，BiLSTM代表BiLSTM网络的每一个单元，→表示顺序，←表示逆序；

代表第i个BiLSTM单元的输出；

代表图像输入特征，i代表第i张图像，φ ^att()代表本申请的骨干网络；取BiLSTM单元的特征编码输出平均值做为整个医学图的特的输出。如下所示：

其中，e _csi代表图像组特征的输出，用来进行下一步的检索。

具体应用场景中，请参阅图4，本申请中的注意力机制层包括：与第五全连接层连接的第六全连接层，与第六全连接层连接的第二激励层，与第二激励层连接的第七全连接层，与第七全连接层连接的第二归一化层，且第二归一化层与第一归一化层相连接。

在本申请中，图像特征经过骨干网络backbone后获得嵌入式特征，嵌入式特征经过一个全连接层以后获得每张图像的最终的嵌入特征e。最终的嵌入特征e会通过经过attention(注意)结构，计算每个特征的权重，该权重是一个数，经过sigmoid(S形)层进行归一化。所有图的特征的权重会统一进入softmax(归一化指数)层，来判别哪一个图是重要的。最终，经过softmax层后的图的特征权重会与对应的每张图像的最终的嵌入特征e相乘。同时，引入了残差网络的思想，对于每个医学图而言，其注意力结构的输出如下公式所示：

最后，

的图像特征会通过Liner的全连接层FC，得到最终的图特征

具体应用场景中，图文互检神经网络模型中表征图文互检准确性的损失函数可以包括：

其中，

表示在目标图像的目标图像处理结果中选中的第a个样本；

表示在目标文本对应的目标文本处理结果中选中的与

未成对的样本。

需要说明的是，如图5所示，本申请中的数据是成对出现的。一个文本特征的编码对应一个图像组特征编码，即一个图对应一个文本。在loss函数设计中，对于这种成对的数据，可以遍历每一个图像组特征编码和文本特征编码求取损失函数的平均值，如上公式所示。共遍历M次，M代表在本batch(批次)中，共有M个成对的样本。首先对图像组特征

进行遍历(共M个)，遍历选中的那个就称为

a代表anchor(锚点样本)。与锚点样本成对的文本特征编码记为

p代表positive(积极)。同理，在本batch中与

不配对的其余所有样本记为s _np。Δ ₂是超参数，在训练时固定，可以设置为0.4等。同理，对于文本特征也做相同的遍历操作，

代表遍历中被选中的那个样本，与其对应的正图像组特征样本记为

不对应的记为s _np。用以上loss函数在训练中，进行梯度反传，对级联transformer，BiLSTM，ResNet网络参数进行更新。此外，图文互检神经网络模型的总损失函数可以为所有损失函数的和值等，本申请在此不做具体限定。

请参阅图6，图6为本申请实施例提供的一种图文互检系统的结构示意图。

本申请实施例提供的一种图文互检系统，可以包括：

本申请实施例提供的一种图文互检系统，第一确定模块可以包括：

第一确定单元，用于确定目标文本中的各类子信息；

第二确定单元，用于确定各个子信息对应的位置信息；

第三确定单元，用于确定各个子信息对应的第一类型信息；

第一转换单元，用于对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息；

第四确定单元，用于基于第一向量信息确定目标文本输入信息。

本申请实施例提供的一种图文互检系统，第四确定单元可以具体用于：确定目标文本的第二类型信息；将第二类型信息转换为对应的第二向量信息；将第二向量信息和第一向量信息作为目标文本输入信息。

本申请实施例提供的一种图文互检系统，自监督学习的对应权重值的确定过程包括：对于文本处理模型中的任意两个子信息，均在其中的一个子信息中确定出目标样本，在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本，确定目标样本与第一类样本间的第一距离值，确定目标样本与第二类样本间的第二距离值；基于所有的第一距离值和第二距离值确定自监督学习的损失值；基于损失值确定自监督学习的权重值。

本申请实施例提供的一种图文互检系统，基于所有的第一距离值和第二距离值确定自监督学习的损失值，包括：

通过自监督学习的损失函数，基于所有的第一距离值和第二距离值确定自监督学习的损失值；其中，自监督学习的损失函数包括：

其中，

表示在第i个子信息中被选中的第a个目标样本；

表示在第j个子信息中选中的与

成对的第一类样本；

表示在第j个子信息中选中的与

未成对的样本；

本申请实施例提供的一种图文互检系统，文本处理模型包括基于transformer模型及自监督学习搭建的神经网络模型。

本申请实施例提供的一种图文互检系统，文本处理模型包括输入层；与输入层连接的多头注意力机制层；与输入层及多头注意力机制层连接的第一标准化层；与标准化层连接的正向传输层；与正向传输层及第一标准化层连接的第二标准化层；与第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层；与第二标准化层连接的与子信息一一对应的目标全连接层；与第二标准化层连接的第四全连接层；与第二标准化层连接的第五全连接层；与第一全连接层、所有的目标全连接层连接的拼接层；与拼接层连接的第三全连接层。

本申请实施例提供的一种图文互检系统，图像处理模型基于注意力机制搭建。

本申请实施例提供的一种图文互检系统，图像处理模型包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层；图像处理分支包括输入层，与输入层连接的骨干网络，与骨干网络连接的第五全连接层，与第五全连接层连接的注意力机制层，与注意力机制层连接的第一归一化层，与第一归一化层连接的乘法器，与乘法器及第五全连接层连接的加法器，与加法器连接的Linear层，与Linear层连接的BiLSTM层；

本申请实施例提供的一种图文互检系统，注意力机制层包括：与第五全连接层连接的第六全连接层，与第六全连接层连接的第二激励层，与第二激励层连接的第七全连接层，与第七全连接层连接的第二归一化层，且第二归一化层与第一归一化层相连接。

本申请实施例提供的一种图文互检系统，图文互检神经网络模型中的损失函数包括：

其中，

表示在目标图像的目标图像处理结果中选中的第a个样本；

表示在目标文本对应的目标文本处理结果中选中的与

未成对的样本。

本申请实施例提供的一种图文互检系统，骨干网络包括ResNet网络。

本申请还提供了一种图文互检设备及非易失性可读存储介质，其均具有本申请实施例提供的一种图文互检方法具有的对应效果。请参阅图7，图7为本申请实施例提供的一种图文互检设备的结构示意图。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：

确定目标文本对应的目标文本输入信息；

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：确定目标文本中的各类子信息；确定各个子信息对应的位置信息；确定各个子信息对应的第一类型信息；对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息；基于第一向量信息确定目标文本输入信息。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：确定目标文本的第二类型信息；将第二类型信息转换为对应的第二向量信息；将第二向量信息和第一向量信息作为目标文本输入信息。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：自监督学习的对应权重值的确定过程包括：对于文本处理模型中的任意两个子信息，均在其中的一个子信息中确定出目标样本，在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本，确定目标样本与第一类样本间的第一距离值，确定目标样本与第二类样本间的第二距离值；基于所有的第一距离值和第二距离值确定自监督学习的损失值；基于损失值确定自监督学习的权重值。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：通过所述自监督学习的损失函数，基于所有的第一距离值和第二距离值确定自监督学习的损失值；其中，自监督学习的损失函数包括：

其中，

表示自监督学习中第i个子信息相对于第j个子信息的损失函数值，i＝1，2…n，j＝1，2…n，i≠j，n表示子信息的总数量；b表示自监督学习的批次； N表示成对的样本的数量；d表示距离值；

表示在第i个子信息中被选中的第a个目标样本；

表示在第j个子信息中选中的与

成对的第一类样本；

表示在第j个子信息中选中的与

未成对的样本；

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：文本处理模型包括基于transformer模型及自监督学习搭建的神经网络模型。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：文本处理模型包括输入层；与输入层连接的多头注意力机制层；与输入层及多头注意力机制层连接的第一标准化层；与标准化层连接的正向传输层；与正向传输层及第一标准化层连接的第二标准化层；与第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层；与第二标准化层连接的与子信息一一对应的目标全连接层；与第二标准化层连接的第四全连接层；与第二标准化层连接的第五全连接层；与第一全连接层、所有的目标全连接层连接的拼接层；与拼接层连接的第三全连接层。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：图像处理模型基于注意力机制搭建。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：图像处理模型包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层；图像处理分支包括输入层，与输入层连接的骨干网络，与骨干网络连接的第五全连接层，与第五全连接层连接的注意力机制层，与注意力机制层连接的第一归一化层，与所述第一归一化层连接的乘法器，与乘法器及第五全连接层连接的加法器，与加法器连接的Linear层，与Linear层连接的BiLSTM层；其中，各个图像处理分支中的第一归一化层为同一个；且各个图像处理分支中的BiLSTM层间互相连通。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：注意力机制层包括：与第五全连接层连接的第六全连接层，与第六全连接层连接的第二激励层，与第二激励层连接的第七全连接层，与第七全连接层连接的第二归一化层，且第二归一化层与第一归一化层相连接。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：图文互检神经网络模型中的损失函数包括：

其中，

表示在目标图像的目标图像处理结果中选中的第a个样本；

表示在目标文本对应的目标文本处理结果中选中的与

未成对的样本。

本申请实施例提供的一种图文互检设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：骨干网络包括ResNet网络。

请参阅图8，本申请实施例提供的另一种图文互检设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现图文互检设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接：无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：

确定目标文本对应的目标文本输入信息；

本申请实施例提供的一种计算机非易失性可读存储介质，计算机非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：确定目标文本中的各类子信息；确定各个子信息对应的位置信息；确定各个子信息对应的第一类型信息；对于每个子信息，将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息，并将所有的初始向量信息的和值作为子信息的第一向量信息；基于第一向量信息确定目标文本输入信息。

本申请实施例提供的一种计算机非易失性可读存储介质，计算机非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：确定目标文本的第二类型信息；将第二类型信息转换为对应的第二向量信息；将第二向量信息和第一向量信息作为目标文本输入信息。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：自监督学习的对应权重值的确定过程包括：对于文本处理模型中的任意两个子信息，均在其中的一个子信息中确定出目标样本，在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本，确定目标样本与第一类样本间的第一距离值，确定目标样本与第二类样本间的第二距离值；基于所有的第一距离值和第二距离值确定自监督学习的损失值；基于损失值确定自监督学习的权重值。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：通过自监督学习的损失函数，基于所有的第一距离值和第二距离值确定自监督学习的损失值；

其中，自监督学习的损失函数包括：

其中，

表示在第i个子信息中被选中的第a个目标样本；

表示在第j个子信息中选中的与

成对的第一类样本；

表示在第j个子信息中选中的与

未成对的样本；

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：文本处理模型包括基于transformer模型及自监督学习搭建的神经网络模型。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：文本处理模型包括输入层；与输入层连接的多头注意力机制层；与输入层及多头注意力机制层连接的第一标准化层；与标准化层连接的正向传输层；与正向传输层及第一标准化层连接的第二标准化层；与第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层；与第二标准化层连接的与子信息一一对应的目标全连接层；与第二标准化层连接的第四全连接层；与第二标准化层连接的第五全连接层；与第一全连接层、所有的目标全连接层连接的拼接层；与拼接层连接的第三全连接层。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：图像处理模型基于注意力机制搭建。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：图像处理模型包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层；图像处理分支包括输入层，与输入层连接的骨干网络，与骨干网络连接的第五全连接层，与第五全连接层连接的注意力机制层，与注意力机制层连接的第一归一化层，与第一归一化层连接的乘法器，与乘法器及第五全连接层连接的加法器，与加法器连接的Linear层，与Linear层连接的BiLSTM层；其中，各个图像处理分支中的第一归一化层为同一个；且各个图像处理分支中的BiLSTM层间互相连通。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：注意力机制层包括：与第五全连接层连接的第六全连接层，与第六全连接层连接的第二激励层，与第二激励层连接的第七全连接层，与第七全连接层连接的第二归一化层，且第二归一化层与第一归一化层相连接。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：图文互检神经网络模型中的损失函数包括：

其中，

表示在目标图像的目标图像处理结果中选中的第a个样本；

表示在目标文本对应的目标文本处理结果中选中的与

未成对的样本。

本申请实施例提供的一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：骨干网络包括ResNet网络。

本申请所涉及的非易失性可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本申请实施例提供的图文互检系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的图文互检方法中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种图文互检方法，其特征在于，包括：

获取待检索的一组目标文本及一组目标图像，所述目标文本包括表征目标信息的各类子信息；

确定所述目标文本对应的目标文本输入信息；

基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理，得到目标文本处理结果；其中，所述文本处理模型基于自监督学习搭建，所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习；

基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理，得到目标图像处理结果；

基于所述目标文本处理结果及所述目标图像处理结果，确定所述目标文本在所述目标图像中的图像检索结果，和/或确定所述目标图像在所述目标文本中的文本检索结果。
根据权利要求1所述的方法，其特征在于，所述图像处理模型对所述目标文本输入信息以及所述目标图像处理的步骤包括：

提取样本数据的样本特征，将所述样本特征存入待检索数据集中；所述样本数据包括文本样本数据或图像样本数据；

接收查询数据；所述查询数据为用户输入的所述目标文本或所述目标图像；

提取所述查询数据的查询特征；

将所述查询特征与所述待检索数据集中的样本特征进行匹配，求向量距离；

将所述向量距离最小的样本特征对应的样本数据作为处理结果，进行输出。
根据权利要求1所述的方法，其特征在于，所述确定所述目标文本对应的目标文本输入信息，包括：

确定所述目标文本中的各类所述子信息；

确定各个所述子信息对应的位置信息；

确定各个所述子信息对应的第一类型信息；

对于每个所述子信息，将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息，并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息；

基于所述第一向量信息确定所述目标文本输入信息。
根据权利要求3所述的方法，其特征在于，所述基于所述第一向量信息确定所述目标文本输入信息，包括：

确定所述目标文本的第二类型信息；

将所述第二类型信息转换为对应的第二向量信息；

将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息。
根据权利要求4所述的方法，其特征在于，所述自监督学习的对应权重值的确定过程包括：

对于所述文本处理模型中的任意两个所述子信息，均在其中的一个所述子信息中确定出目标样本，在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本，确定所述目标样本与所述第一类样本间的第一距离值，确定所述目标样本与所述第二类样本间的第二距离值；

基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值；

基于所述损失值确定所述自监督学习的所述权重值。
根据权利要求5所述的方法，其特征在于，所述基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值，包括：

通过所述自监督学习的损失函数，基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值；

其中，所述自监督学习的损失函数包括：

其中，
表示所述自监督学习中第i个所述子信息相对于第j个所述子信息的损失函数值，i＝1，2…n，j＝1，2…n，i≠j，n表示所述子信息的总数量；b表示所述自监督学习的批次；N表示成对的样本的数量；d表示距离值；
表示在第i个所述子信息中被选中的第a个所述目标样本；
表示在第j个所述子信息中选中的与
成对的所述第一类样本；
表示在第j个所述子信息中选中的与
未成对的样本；
表示预设的超参数；min表示求最小值；其中，所有的所述损失函数值的和值为所述自监督学习的损失值。
根据权利要求4所述的方法，其特征在于，所述文本处理模型包括基于transformer模型及所述自监督学习搭建的神经网络模型。
根据权利要求7所述的方法，其特征在于，所述文本处理模型包括输入层；与所述输入层连接的多头注意力机制层；与所述输入层及所述多头注意力机制层连接的第一标准化层；与所述标准化层连接的正向传输层；与所述正向传输层及所述第一标准化层连接的第二标准化层；与所述第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层；与所述第二标准化层连接的与所述子信息一一对应的目标全连接层；与所述第二标准化层连接的第四全连接层；与所述第二标准化层连接的第五全连接层；与所述第一全连接层、所有的所述目标全连接层连接的拼接层；与所述拼接层连接的第三全连接层。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

通过所述第三全连接层输出所述文本处理模型对所述目标文本的处理结果。
根据权利要求1至9任一项所述的方法，其特征在于，所述图像处理模型基于注意力机制搭建。
根据权利要求10所述的方法，其特征在于，所述图像处理模型包括目标数量个图像处理分支、及与所述图像处理分支连接的第四全连接层；所述图像处理分支包括输入层，与所述输入层连接的骨干网络，与所述骨干网络连接的第五全连接层，与所述第五全连接层连接的注意力机制层，与所述注意力机制层连接的第一归一化层，与所述第一归一化层连接的乘法器，与所述乘法器及所述第五全连接层连接的加法器，与所述加法器连接的Linear层，与所述Linear层连接的BiLSTM层；

其中，各个所述图像处理分支中的所述第一归一化层为同一个；且各个所述图像处理分支中的所述BiLSTM层间互相连通。
根据权利要求11所述的方法，其特征在于，所述注意力机制层包括：与所述第五全连接层连接的第六全连接层，与所述第六全连接层连接的第二激励层，与所述第二激励层连接的第七全连接层，与所述第七全连接层连接的第二归一化层，且所述第二归一化层与所述第一归一化层相连接。
根据权利要求12所述的方法，其特征在于，所述图文互检神经网络模型中的损失函数包括：

其中，
表示批次b中文本与图像间相对的损失函数值；M表示成对的样本的数量；Δ ₂表示预设的超参数；
表示在所述目标图像的所述目标图像处理结果中选中的第a个样本；
表示在所述目标文本对应的所述目标文本处理结果中选中的与
成对的样本；min表示求最小值；s _np表示在所述目标文本特征处理结果中选中的与
未成对的样本。
根据权利要求11所述的方法，其特征在于，所述骨干网络包括ResNet网络。
根据权利要求1所述的方法，其特征在于，所述图文互检神经网络模型训练的步骤包括：

将样本数据进行由低层次向高层次的前向传播，得到所述图文互检神经网络模型的输出值；

基于所述图文互检神经网络模型的输出值与所述样本数据计算输出误差；

将所述输出误差进行由从高层次向低层次的反向传播，计算反向传播误差；

当不满足预设条件时，选取新的样本数据，返回将所述样本数据进行由低层次向高层次的前向传播，得到所述图文互检神经网络模型的输出值的步骤；所述预设条件为所述输出误差小于第一预设阈值，或迭代次数超过第二预设阈值。
根据权利要求15所述的方法，其特征在于，所述将所述样本数据进行由低层次向高层次的前向传播，得到所述图文互检神经网络模型的输出值的步骤包括：

对所述图文互检神经网络模型中各个网络层的权重值进行初始化；所述网络层包括：图神经层、卷积层、下采样层、全连接层；

输入所述样本数据，所述样本数据包括图像样本数据以及文本数据样本；

计算所述样本数据经过图神经层、卷积层、下采样层、全连接层的前向传播输出值；

基于所述前向传播输出值计算所述图文互检神经网络模型的输出值，以及所述图文互检神经网络模型的输出值的损失函数值。
根据权利要求16所述的方法，其特征在于，所述将所述输出误差进行由从高层次向低层次的反向传播，计算反向传播误差的步骤包括：

将所述输出误差反向传回至所述图文互检神经网络模型的各个网络层；

计算所述各个网络层的反向传播误差；

依据所述反向传播误差调整所述权重值。
一种图文互检系统，其特征在于，包括：

第一获取模块，用于获取待检索的一组目标文本及一组目标图像，所述目标文本包括表征目标信息的各类子信息；

第一确定模块，用于确定所述目标文本对应的目标文本输入信息；

第一处理模块，用于基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理，得到目标文本处理结果；其中，所述文本处理模型基于自监督学习搭建，所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习；

第二处理模块，用于基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理，得到目标图像处理结果；

第二确定模块，用于基于所述目标文本处理结果及所述目标图像处理结果，确定所述目标文本在所述目标图像中的图像检索结果，和/或确定所述目标图像在所述目标文本中的文本检索结果。
一种图文互检设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至17任一项所述图文互检方法的步骤。
一种非易失性可读存储介质，其特征在于，所述非易失性可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述图文互检方法的步骤。