WO2024011815A1

WO2024011815A1 - 图文互检模型训练方法及装置、图文互检方法、设备

Info

Publication number: WO2024011815A1
Application number: PCT/CN2022/134092
Authority: WO
Inventors: 李仁刚; 王立; 郭振华; 范宝余
Original assignee: 苏州元脑智能科技有限公司
Priority date: 2022-07-15
Filing date: 2022-11-24
Publication date: 2024-01-18
Also published as: CN114896373A; CN114896373B

Abstract

本申请公开了图文互检模型训练方法及装置、图文互检方法、设备，应用于检索技术领域，包括：获取训练数据对（S11）；将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征（S12）；基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节（S13）；若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型（S14）。

Description

图文互检模型训练方法及装置、图文互检方法、设备

相关申请的交叉引用

本申请要求于2022年07月15日提交中国专利局，申请号为202210829134.9，申请名称为“图文互检模型训练方法及装置、图文互检方法、设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及检索技术领域，特别涉及图文互检模型训练方法及装置、图文互检方法、设备。

背景技术

随着信息时代的到来，检索面对的数据是海量的，并且，在海量的数据中，多模态的数据间也往往存在关联，比如文本数据和图像数据，而在一些场景中也存在基于文本数据检索图像数据，或基于图像数据检索文本数据的需求。

发明内容

有鉴于此，本申请的目的在于提供图文互检模型训练方法及装置、图文互检方法、设备，能够提升图文互检模型性能，进而提升图文互检的准确度。其具体方案如下：

第一方面，本申请公开了一种图文互检模型训练方法，包括：

获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语；

将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征；

基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节；

若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。

可选的，第一LSTM网络层包括多个BiLSTM网络，每个BiLSTM网络包括多个BiLSTM单元；不同BiLSTM单元用于提取不同字的特征，不同BiLSTM网络输出不同目标文本的特征；

第二LSTM网络层包括多个BiLSTM单元，BiLSTM单元的输入为第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征。

可选的，文本训练数据包括多个长文本数据，相应的，文本编码模块包括多个多层LSTM网络，每个多层LSTM网络用于获取一个长文本数据的特征。

可选的，文本训练数据还包括短文本数据，短文本数据为包含一个目标文本的文本数据；相应的，文本编码模块还包括短文本特征提取模块，用于提取短文本数据的特征。

可选的，利用初始模型中的文本编码模块提取文本训练数据的文本编码特征，包括：

对多个长文本数据的特征以及短文本数据的特征进行拼接，得到文本训练数据的文本编码特征。

可选的，获取训练数据对，包括:

提取同一论文中的文本数据和图像数据。

基于语义对文本数据分类，得到各类型的文本数据；

基于目标文本的数量将各类型的文本数据确定为长文本数据或短文本数据；

将各类型的文本数据确定为训练数据对中的文本训练数据，以及将图像数据确定为训练数据对中的图像训练数据。

可选的，图像训练数据为图像序列；图像编码模块包括骨干网络和BiLSTM网络，相应的，利用图像编码模块提取图像训练数据的图像编码特征，包括：

利用骨干网络提取图像序列中每张图像的特征，得到图像特征；

将各图像特征输入BiLSTM网络，得到图像编码特征。

可选的，图像编码模块还包括注意力结构，相应的，将图像特征输入BiLSTM网络，得到图像编码特征，包括：

将各图像特征输入注意力结构，得到每个图像特征的注意力权重；

基于注意力权重确定各图像特征的最终特征，并将最终特征输入BiLSTM网络，得到图像编码特征。

可选的，基于文本编码特征和图像编码特征计算训练损失，包括：

针对一个批次N个训练数据对的N个编码特征对，确定锚点样本对应的正样本和负样本；其中，编码特征对为训练数据对的文本编码特征和图像编码特征组成的编码对，锚点样本为N个编码特征对中的任一文本编码特征或图像编码特征，正样本为与锚点样本成对的另一编码特征，负样本为N个编码特征对中除另一编码特征外的所有编码特征；

基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失。

可选的，将训练数据对输入初始模型之前，还包括：

基于预设概率确定是否对目标长文本数据进行打乱处理；其中，目标长文本数据为文本训练数据中句子间具有时序关系的长文本数据；

若确定对目标长文本数据进行打乱处理，则对目标长文本数据进行打乱处理，否则不对目标长文本数据进行打乱处理；

为目标长文本数据添加标签，标签表征目标长文本数据是否经过打乱处理。

可选的，还包括：

基于目标长文本数据的特征以及目标长文本数据的标签计算时序约束损失。

可选的，基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失，包括：

基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失计算目标三元组损失；

利用目标三元组损失和时序约束损失计算训练损失。

第二方面，本申请公开了一种图文互检方法，包括：

获取目标数据；其中，目标数据为图像数据或文本数据；

将目标数据输入图文互检模型，以便图文互检模型提取出目标数据的目标编码特征；其中，图文互检模型基于前述的图文互检模型训练方法得到；

在待检索数据集的所有数据编码特征进行匹配，得到检索结果；

其中，若目标数据为图像数据，则所有数据编码特征均为文本编码特征，若目标数据为文本数据，则所有数据编码特征均为图像编码特征。

第三方面，本申请公开了一种图文互检模型训练装置，包括：

训练数据获取模块，用于获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语；

特征提取模块，用于将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征；

损失计算模块，用于基于文本编码特征和图像编码特征计算训练损失；

参数调节模块，用于基于训练损失对初始模型进行参数调节；

图文互检模型确定模块，用于若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。

第四方面，本申请公开了一种电子设备，包括存储器和处理器，其中：

存储器，用于保存计算机程序；

处理器，用于执行计算机程序，以实现前述的图文互检模型训练方法，和/或，前述的图文互检方法。

第五方面，本申请公开了一种非易失性可读存储介质，用于保存计算机程序，其中，计算机程序被处理器执行时实现前述的图文互检模型训练方法，和/或，前述的图文互检方法。

可见，本申请获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语；然后将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征，之后基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节，若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。也即，本申请中利用多层LSTM网络提取文本训练数据的特征，并且先利用第一LSTM网络层基于每个目标文本中每个字的特征获取每个句子或短语的特征，然后利用第二LSTM网络层基于每个句子或短语的特征获取长文本数据的特征，这样，解决了长文本数据中距离较远的字、句子或短语之间的信息遗忘问题，得到更丰富的文本信息，能够提升图文互检模型性能，进而提升图文互检的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种图文互检模型训练方法流程图；

图2为本申请公开的一种文本编码模块示意图；

图3为本申请公开的一种具体的图像编码模块示意图；

图4为本申请公开的一种注意力模块示意图；

图5为本申请公开的一种具体的正负样本示意图；

图6为本申请公开的一种具体的图文互检模型训练方法流程图；

图7为本申请公开的一种具体的图文互检模型训练示意图；

图8为本申请公开的一种图文互方法流程图；

图9为本申请公开的一种图文互检模型训练装置结构示意图；

图10为本申请公开的一种电子设备结构图；

图11为本申请公开的一种非易失性可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着信息时代的到来，检索面对的数据是海量的，并且，在海量的数据中，多模态的数据间也往往存在关联，比如文本数据和图像数据，而在一些场景中也存在基于文本数据检索图像数据，或基于图像数据检索文本数据的需求，因此，如何准确的进行图文互检是目前需要解决的问题。为此，本申请提供了一种图文互检模型训练、图文互检方案，能够提升图文互检模型性能，进而提升图文互检的准确度。

参见图1所示，一种图文互检模型训练方法，包括：

步骤S11：获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语。

步骤S12：将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征。

在一些实施方式中，第一LSTM网络层包括多个BiLSTM(即Bi-directional Long-Short Term Memory，双向长短时记忆)网络，每个BiLSTM网络包括多个BiLSTM单元；不同BiLSTM单元用于提取不同字的特征，不同BiLSTM网络输出不同目标文本的特征；第二 LSTM网络层包括多个BiLSTM单元，BiLSTM单元的输入为第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征。

并且，文本编码模块还包括字编码层，用于将文本训练数据中的每个字编码，长文本数据中不同目标文本的每个字的编码输入第一LSTM网络层中不同BiLSTM网络中的BiLSTM单元。其中，字编码层可以为transformer层或word 2 vector(即词转化为向量)层。也即，不同目标文本的字的编码输入不同BiLSTM网络。

在另一些实施方式中，若长文本数据为包括多段文本的文本数据，则第二LSTM网络层可以包括两个子网络层，第一子网络层包括多个BiLSTM网络，每个BiLSTM网络包括多个BiLSTM单元，BiLSTM单元的输入为第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征，不同BiLSTM网络输出不同段文本的特征。第二子网络层包括多个BiLSTM单元，BiLSTM单元的输入为第一子网络层中相应BiLSTM网络输出的成段文本的特征，第二子网络层的输出为长文本数据的特征。

并且，文本训练数据可以包括多个长文本数据，相应的，文本编码模块包括多个多层LSTM网络，每个多层LSTM网络用于获取一个长文本数据的特征。

进一步的，文本训练数据还可以包括短文本数据，短文本数据为包含一个目标文本的文本数据；相应的，文本编码模块还包括短文本特征提取模块，用于提取短文本数据的特征。当然，在一些实施例中，一个字的文本也可以作为短文本。

相应的，本申请实施例对多个长文本数据的特征以及短文本数据的特征进行拼接，得到文本训练数据的文本编码特征。

并且，在一些实施方式中，可以提取同一论文中的文本数据和图像数据。基于语义对文本数据分类，得到各类型的文本数据；基于目标文本的数量将各类型的文本数据确定为长文本数据或短文本数据；将各类型的文本数据确定为训练数据对中的文本训练数据，以及将图像数据确定为训练数据对中的图像训练数据。

比如，对提取医学论文中的文本数据和图像数据，基于语义对文本数据分类，得到各类型的文本数据，包括：摘要、关键词和题目，将摘要包括多个句子，关键词包括多个短语，均确定为长文本数据，题目为一个句子，确定为短文本数据。可以理解的是医学报告包含众多种类，例如医学论文等等。医学论文包括论文题目、论文摘要、论文关键字和论文主体。可以选取医学论文的论文题目、论文摘要、论文关键字作为文字数据主要组成部分，病历图像或者论文中的图像作为图像数据。

例如，参见图2所示，图2为本申请实施例提供的一种文本编码模块示意图。医学论文的摘要、关键词和题目分别为第一文本信息、第二文本信息、第三文本信息。由于第一文本信息是由多句话组成的一段话，第二文本信息由多句短语组成，为实现对第一文本信息、第二文本信息的编码，本申请提出一种级联LSTM结构，也即多层LSTM网络。模型的输入文本数据包括第一文本信息、第二文本信息和第三文本信息，对于所有的字，均通过transformer层进行编码，transformer可以将每个字编码成为一个特征向量，成为该字的表示。不同的文本信息可以对应不同的transformer层。第一文本信息通过transformer层进行编码，之后对于第一文本信息的每一句话，将其输入到不同的BiLSTM网络中，不同字的编码输入BiLSTM网络中的不同BiLSTM单元，第一个BiLSTM网络层中的BiLSTM网络用于抽取第一文本信息的每一句话的特征表示，可以选取每句话的第一个字的特征或最后一个字的特征作为整句话的特征表示，当然也有其它的特征表示方法，例如，取BiLSTM网络中所有BiLSTM单元输出的字的特征的均值作为整句话的特征，这样获取每句话的特征表示，将其组合成一个新的序列，每句话的特征分别输入第二个LSTM网络层中的BiLSTM单元，最终获取到第一文本信息总的特征表达。图2中一行BiLSTM单元组成一个BiLSTM网络。对于第二文本信息，采用与第一文本信息相同的策略。将第二文本信息送入其transformer layer,获取每个第二文本信息的embedding特征。依次送到第二文本信息对应的多层LSTM网络来获取第二文本信息的特征。对于第三文本信息，使用基本的transformer模型直接获取特征。这样获取了3种不同类型的文本特征，对所有文本信息的特征进行特征拼接，如图2所示，对不同的特征向量进行首尾连接，拼接成一个更长的向量。最后，拼接后的向量通过一个全连接层，进行特征映射，映射到合适的维度，也即字的编码的维度，得到文本编码特征，用于与图像数据的图像编码特征进行损失计算，来对模型进行训练。公式如下：

e _rec＝[e _ttl，e _ins，e _ing]

其中，e _ttl，e _ins，e _ing分别表示第三文本信息、第一文本信息、第二文本信息的特征。[]代表特征拼接，即特征首尾相连。e _rec表示拼接后特征，拼接后特征经过一个全连接层进行特征映射，得到与字的维度相同的向量，字的维度即字的编码(向量)的长度，得到文本训练数据的文本编码特征，后续用于和图像编码特征进行匹配。公式如下：

e′ _rec＝fc(e _rec)

其中，e′ _rec表示文本训练数据的文本编码特征，fc表示全连接层处理。

进一步的，图像训练数据为图像序列；图像编码模块包括骨干网络和BiLSTM网络，本申请实施例可以利用骨干网络提取图像序列中每张图像的特征，得到图像特征；将各图像特征输入BiLSTM网络，得到图像编码特征。

并且，在一些实施方式中，图像编码模块还包括注意力结构，本申请实施例可以将各图像特征输入注意力结构，得到每个图像特征的注意力权重；基于注意力权重确定各图像特征的最终特征，并将最终特征输入BiLSTM网络，得到图像编码特征。

例如，参见图3所示，图3为本申请实施例公开的一种具体的图像编码模块示意图。在具体的实施方式中，可以采用ResNet(即Residual Network，残差网络)骨干网络(backbone)提取每一张图像的图像特征，获取ResNet网络在分类层前一层的特征做为每一张图像的图像特征。将图像特征输入到BiLSTM网络，每张图像输入BiLSTM网络中的一个BiLSTM单元，获取图像序列的总体特征即图像编码特征。公式如下：

同上，图像序列也包含逆序和顺序两种。都隐含着时序语义信息。本申请实施例用如上公式对其进行编码。

其中，BiLSTM代表BiLSTM网络的每一个BiLSTM单元。

为第i个BiLSTM单元的输出。

表示图像特征，i表示第i张图像，→表示顺序，←表示逆序，I表示中BiLSTM网络包括I张图像，φ ^att()表示注意力结构，fc表示全连接层。在一些实施方式中，可以取BiLSTM单元的特征编码输出平均值作为BiLSTM网络的输出。公式如下：

其中，e _csi表示图像特征编码。

进一步的，在实际应用中，图像数据很多都是序列图像，比如医学图像，序列图像中图像的重要性不同，本发明设计注意力结构，对图像序列进行筛选，从而使BiLSTM能更集中于有用的信息。本申请设计的attention(注意力)模块包括全连接层、注意力模块、softmax层、乘法模块、加法模块，注意力模块如图4所示，包含两个全连接层FC和一个ReLU(即Linear rectification function，线性整流函数)层。在申请中，图像经过骨干网络backbone后获得嵌入式特征，嵌入式特征经过一个全连接层以后获得每张图像的最终的嵌入特征e。最终的嵌入特征e会通过经过attention(注意力)模块，计算每个特征的权重，该权重是一个数，经过sigmoid层进行归一化。所有图像的特征的权重会统一进入softmax层，来判别哪一个图像是重要的。最终，经过softmax层后的图像的特征权重会与对应的每张图像的最终的嵌入特征e相乘。也即，本申请实施例中，本申请实施例可以利用骨干网络提取图像序列中每张图像的特征，得到图像特征，将图像特征输入一个全连接层，得到嵌入特征，将各嵌入特征输入注意力模块，得到每个图像特征的注意力权重，然后经过softmax层处理，基于softmax层处理后的注意力权重确定各图像特征的最终特征，并将最终特征输入BiLSTM网络，得到图像编码特征。本申请实施例引入了残差网络的思想，对于每个图像而言，其注意力结构的输出如下公式所示：

然后通过fc(即全连接层)，即有：

然后输入BiLSTM网络，得到图像编码特征。

步骤S13：基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节。

在一些实施方式中，可以针对一个批次N个训练数据对的N个编码特征对，确定锚点样本对应的正样本和负样本；其中，编码特征对为训练数据对的文本编码特征和图像编码特征组成的编码对，锚点样本为N个编码特征对中的任一文本编码特征或图像编码特征，正样本为与锚点样本成对的另一编码特征，负样本为N个编码特征对中除另一编码特征外的所有编码特征；基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失。采用公式如下：

本申请中的训练数据是成对出现的。一个文本编码特征的对应一个图像编码特征。在loss函数设计中，对于这种成对的数据，本申请会遍历每一个图像编码特征和文本编码特征求取损失的平均值。如上公式所示。共遍历N次，N代表在本batch(批次)中，共有N个成对的样本。首先对图像特征编码

进行遍历(共N个)，遍历选中的图像特征编码称为

a代表anchor(锚点样本)。与锚点样本成对的文本特征编码记为

p代表positive。同理，在本batch中与

不配对的其余所有样本记为s _np。Δ是超参数，在训练时固定，本申请可以设置为0.4。同理，对于文本特征编码也做相同的遍历操作，

代表遍历中被选中的那个样本，与其对应的正图像特征编码样本记为

不对应的记为s _np。参见图5所示，图5为本申请实施例公开的一种具体的正负样本示意图。min表示求最小值运算，

为目标三元组损失，|| ||表示求距离，在一些实施方式，目标三元组损失即为训练损失，可以用以上loss函数在训练中，进行梯度反传，对级联Transformer、BiLSTM、ResNet网络参数进行更新。

步骤S14：若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。

在一些实施方式中，可以判断训练损失是否小于预设阈值，若训练损失小于预设阈值，则判定训练损失满足收敛条件；若训练损失大于预设阈值，则判定训练损失没有满足收敛条件。

可见，本申请实施例获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语；然后将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征，之后基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节，若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。也即，本申请实施例中利用多层LSTM网络提取文本训练数据的特征，并且先利用第一LSTM网络层基于每个目标文本中每个字的特征获取每个句子或短语的特征，然后利用第二LSTM网络层基于每个句子或短语的特征获取长文本数据的特征，这样，解决了长文本数据中距离较远的字、句子或短语之间的信息遗忘问题，得到更丰富的文本信息，能够提升图文互检模型性能，进而提升图文互检的准确度。

参见图6所示，本申请实施例公开了一种具体的图文互检模型训练方法，包括：

步骤S21：获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语。

步骤S22：基于预设概率确定是否对目标长文本数据进行打乱处理；其中，目标长文本数据为文本训练数据中句子间具有时序关系的长文本数据。

步骤S23：若确定对目标长文本数据进行打乱处理，则对目标长文本数据进行打乱处理，否则不对目标长文本数据进行打乱处理。

在一些实施方式中，可以选择预设比例的句子，对选择的句子进行位置调换，实现打乱处理。

需要指出的是，对于前述实施例中的第一文本信息也即摘要，通常是有上下文或者时间先后关系的。如果打乱句子，可能无法知道摘要的具体内容是什么。在一些实施方式中，对于第一文本信息，以50％的概率随机选择该文本信息被打乱或者不打乱。若第一文本信息被选择为打乱，在对第一文本信息的句子，随机抽取30％的句子。第一文本信息中被抽中的句子相互调换位置，未被抽中的句子在原位置不动。通过上面的调换步骤可以获得新的第一文本信息。也即打乱处理后的第一文本信息。

步骤S24：为目标长文本数据添加标签，标签表征目标长文本数据是否经过打乱处理。

步骤S25：将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征。

步骤S26：基于文本编码特征和图像编码特征计算训练损失，并基于训练损失对初始模型进行参数调节。

在一些实施方式中，训练损失计算具体包括以下步骤：

步骤260：基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失计算目标三元组损失。

关于上述步骤260的具体计算过程可以参考前述实施例公开的内容，在此不再进行赘述。

步骤261：基于目标长文本数据的特征以及目标长文本数据的标签计算时序约束损失。

在一些实施方式中，采用的公式如下：

其中，其中B代表batchsize(批处理尺寸),yi∈{0，1}代表目标长文本数据是否被打乱的真值标签。pi代表用目标长文本数据的特征来判断目标长文本数据是否被打乱的概率值。

表示时序约束损失。

步骤262：利用目标三元组损失和时序约束损失计算训练损失。

在一些实施方式中，训练损失的公式如下：

其中，L代表总的训练损失。

步骤S27：若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。

例如，参见图7所示，图7为本申请实施例公开的一种具体的图文互检模型训练示意图。构建基于级联LSTM的图像文本检索网络，包括文本编码模块和图像特征编码模块。建立泛三元组损失也即目标三元组损失。建立时序约束损失函数。根据如上损失函数对网络进行训练，使其收敛。网络训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。训练过程具体为：所有网络层权值进行初始化，一般采用随机初始化；输入图像和文本数据经过神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值；求出网络的输出值，求取网络的输出值的损失。将损失反向传回网络中，依次求得网络各层的反向传播误差。网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。重新随机选取新的batch的图像文本数据，获得网络前向传播得到输出值。无限往复迭代，当求出网络的输出值对应的损失小于某个阈值，或者迭代次数超过某个阈值时，结束训练。保存训练好的所有层的网络参数。

可以理解的是，通过本申请提供的时序约束损失函数，能够进一步捕捉句子之间的上下文关系和时序依赖，能够更抽象的抽取句子之间的逻辑关系，得到更丰富的文本信息，从而进一步提升图文互检模型性能，提升图文互检的准确度。

参见图8所示，本申请实施例公开了一种图文互检方法，包括：

步骤S31：获取目标数据；其中，目标数据为图像数据或文本数据；

步骤S32：将目标数据输入图文互检模型，以便图文互检模型提取出目标数据的目标编码特征；其中，图文互检模型基于前述实施例的图文互检模型训练方法得到。

步骤S33：在待检索数据集的所有数据编码特征进行匹配，得到检索结果。

在一些实施例中，可以计算目标编码特征与所有数据编码特征之间的向量距离，比如欧氏距离，将距离最小的数据编码特征确定为检索结果。

例如，对利用图文互检模型对医学文本或医学图像进行特征提取，存入待检索数据集中。用户给定任意医学文本数据或医学图像数据，称为query数据。利用图文互检模型提取query数据的特征。将query数据的特征与待检索数据集中所有样本特征进行距离匹配，即求向量距离。比如求欧式距离。若query数据是医学文本数据就去取待检索数据集中所有的医学图像特征进行求距离。同理query数据是医学图像数据，与待检索数据集中所有的医学文本特征求欧式距离，距离最小的样本即为推荐样本，进行输出。

需要指出的是，医学图像图文数据库及图文报告系统对于信息检索、人才培养、数据挖掘和保护具有重要的价值。随着信息时代的到来、数字化、标准化、网络化作业已经进入医学影像界，全新的数字化影像技术陆续应用于临床，如CT(即Computed Tomography，电子计算机断层扫描)、MR(即Magnetic Resonance，MR)、DSA(Digital subtraction angiography，数字减影血管造影)、PET(即Positron Emission Computed Tomography，正电子发射型计算机断层显像)、CR(即computed radiography，计算机X射线)、DR(即digital radiography，数字X线摄影术)等，医学影像诊断设备的网络化，影像诊断报告计算机化、标准化、规范化，已逐步成为医学影像检查科室的必然发展趋势。实现基于海量医学报告的一些简洁易用的医学影像报告和数据管理系统，让更多的医学影像医师体验高新技术和现代化设备带来的方便快捷。使其方便的查阅和找寻病历，学习众多的疑难影像学知识具有重要的价值。医学数据来源渠道存在多样化的特点，通过本申请提供的方案，构建大型的医疗多模态数据库，优化了医学领域的资料查询模式。医生利用数据库查询资料时，只需简单描述就能筛查到想要的资料，这就使得查询方法更为便捷，节省人力成本和时间成本。并且，本申请实施例除了医学论文检索领域外。还可以适应于任何多文本类型的检索任务中，如说明书检索。

参见图9所示，本申请实施例公开了一种图文互检模型训练装置，包括：

训练数据获取模块11，用于获取训练数据对；训练数据对包括文本训练数据和图像训练数据，文本训练数据包括长文本数据，长文本数据为包含多个目标文本的文本数据，目标文本为句子或短语；

特征提取模块12，用于将训练数据对输入初始模型，分别利用初始模型中的文本编码模块和图像编码模块提取文本训练数据的文本编码特征以及图像训练数据的图像编码特征；其中，文本编码模块包括多层LSTM网络，多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，第一LSTM网络层用于基于每个目标文本中每个字的特征获取每个目标文本的特征；第二LSTM网络层用于基于每个目标文本的特征获取长文本数据的特征；

损失计算模块13，用于基于文本编码特征和图像编码特征计算训练损失；

参数调节模块14，用于基于训练损失对初始模型进行参数调节；

图文互检模型确定模块15，用于若训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。

其中，第一LSTM网络层包括多个BiLSTM网络，每个BiLSTM网络包括多个BiLSTM单元；不同BiLSTM单元用于提取不同字的特征，不同BiLSTM网络输出不同目标文本的特征；第二LSTM网络层包括多个BiLSTM单元，BiLSTM单元的输入为第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征。

其中，文本训练数据包括多个长文本数据，相应的，文本编码模块包括多个多层LSTM网络，每个多层LSTM网络用于获取一个长文本数据的特征。

并且，文本训练数据还包括短文本数据，短文本数据为包含一个目标文本的文本数据；相应的，文本编码模块还包括短文本特征提取模块，用于提取短文本数据的特征。

进一步的，特征提取模块12，具体用于对多个长文本数据的特征以及短文本数据的特征进行拼接，得到文本训练数据的文本编码特征。

在一些实施方式中，训练数据获取模块11，具体用于提取同一论文中的文本数据和图像数据。基于语义对文本数据分类，得到各类型的文本数据；基于目标文本的数量将各类型的文本数据确定为长文本数据或短文本数据；将各类型的文本数据确定为训练数据对中的文本训练数据，以及将图像数据确定为训练数据对中的图像训练数据。

在一些实施方式中，图像训练数据为图像序列；图像编码模块包括骨干网络和BiLSTM网络，相应的，特征提取模块12，具体用于利用骨干网络提取图像序列中每张图像的特征，得到图像特征；将各图像特征输入BiLSTM网络，得到图像编码特征。

在一些实施方式中，图像编码模块还包括注意力结构，相应的，特征提取模块12，具体用于将各图像特征输入注意力结构，得到每个图像特征的注意力权重；基于注意力权重确定各图像特征的最终特征，并将最终特征输入BiLSTM网络，得到图像编码特征。

在一些实施方式中，损失计算模块13，具体用于针对一个批次N个训练数据对的N个编码特征对，确定锚点样本对应的正样本和负样本；其中，编码特征对为训练数据对的文本编码特征和图像编码特征组成的编码对，锚点样本为N个编码特征对中的任一文本编码特征或图像编码特征，正样本为与锚点样本成对的另一编码特征，负样本为N个编码特征对中除另一编码特征外的所有编码特征；基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失。

在另外一些实施方式中，所示装置还包括：

打乱处理模块，用于基于预设概率确定是否对目标长文本数据进行打乱处理；其中，目标长文本数据为文本训练数据中句子间具有时序关系的长文本数据；若确定对目标长文本数据进行打乱处理，则对目标长文本数据进行打乱处理，否则不对目标长文本数据进行打乱处理；为目标长文本数据添加标签，标签表征目标长文本数据是否经过打乱处理。

相应的，损失计算模块13，具体用于基于目标长文本数据的特征以及目标长文本数据的标签计算时序约束损失。基于锚点样本，以及锚点样本对应的正样本和负样本计算训练损失计算目标三元组损失；利用目标三元组损失和时序约束损失计算训练损失。

参见图10所示，本申请实施例公开了一种电子设备20，包括处理器21和存储器22；其中，存储器22，用于保存计算机程序；处理器21，用于执行计算机程序，前述实施例公开的图文互检模型训练方法，和/或，前述的图文互检方法。

关于上述图文互检模型训练方法，和/或，前述的图文互检方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

并且，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，参见图11所示，本申请实施例还公开了一种非易失性可读存储介质30，用于保存计算机程序31，其中，计算机程序31被处理器执行时实现前述实施例公开的图文互检模型训练方法，和/或，前述的图文互检方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的图文互检模型训练方法及装置、图文互检方法、设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种图文互检模型训练方法，其特征在于，包括：

获取训练数据对；所述训练数据对包括文本训练数据和图像训练数据，所述文本训练数据包括长文本数据，所述长文本数据为包含多个目标文本的文本数据，所述目标文本为句子或短语；

将所述训练数据对输入初始模型，分别利用所述初始模型中的文本编码模块和图像编码模块提取所述文本训练数据的文本编码特征以及所述图像训练数据的图像编码特征；其中，所述文本编码模块包括多层LSTM网络，所述多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，所述第一LSTM网络层用于基于每个所述目标文本中每个字的特征获取每个所述目标文本的特征；所述第二LSTM网络层用于基于每个所述目标文本的特征获取所述长文本数据的特征；

基于所述文本编码特征和所述图像编码特征计算训练损失，并基于所述训练损失对所述初始模型进行参数调节；

若所述训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。
根据权利要求1所述的图文互检模型训练方法，其特征在于，所述第一LSTM网络层包括多个BiLSTM网络，每个BiLSTM网络包括多个BiLSTM单元；不同所述BiLSTM单元用于提取不同字的特征，不同BiLSTM网络输出不同目标文本的特征；

所述第二LSTM网络层包括多个BiLSTM单元，BiLSTM单元的输入为所述第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征。
根据权利要求2所述的图文互检模型训练方法，其特征在于，所述文本编码模块还包括字编码层，用于将所述长文本数据中不同目标文本的每个字的编码输入所述第一LSTM网络层中不同BiLSTM网络中的BiLSTM单元。
根据权利要求2所述的图文互检模型训练方法，其特征在于，所述长文本数据为包括多段文本的文本数据，所述第二LSTM网络层包括两个子网络层，第一子网络层包括多个BiLSTM网络，每个所述第一子网络层中相应BiLSTM网络包括多个BiLSTM单元，所述第一子网络层中相应BiLSTM单元的输入为所述第一LSTM网络层中相应BiLSTM网络输出的目标文本的特征，不同所述第一子网络层中相应BiLSTM网络输出不同段文本的特征；第二子网络层包括多个BiLSTM单元，所述第二子网络层中相应BiLSTM单元的输入为所述第一子网络层中相应BiLSTM网络输出的成段文本的特征，所述第二子网络层的输出为所述长文本数据的特征。
根据权利要求1所述的图文互检模型训练方法，其特征在于，所述文本训练数据包括多个所述长文本数据，相应的，所述文本编码模块包括多个多层LSTM网络，每个所述多层LSTM网络用于获取一个所述长文本数据的特征。
根据权利要求5所述的图文互检模型训练方法，其特征在于，所述文本训练数据还包括短文本数据，所述短文本数据为包含一个所述目标文本的文本数据；相应的，所述文本编码模块还包括短文本特征提取模块，用于提取所述短文本数据的特征。
根据权利要求6所述的图文互检模型训练方法，其特征在于，利用所述初始模型中的文本编码模块提取所述文本训练数据的文本编码特征，包括：

对多个所述长文本数据的特征以及所述短文本数据的特征进行拼接，得到所述文本训练数据的文本编码特征。
根据权利要求6所述的图文互检模型训练方法，其特征在于，所述获取训练数据对，包括:

提取同一论文中的文本数据和图像数据；

基于语义对所述文本数据分类，得到各类型的文本数据；

基于所述目标文本的数量将所述各类型的文本数据确定为长文本数据或短文本数据；

将所述各类型的文本数据确定为所述训练数据对中的文本训练数据，以及将所述图像数据确定为所述训练数据对中的图像训练数据。
根据权利要求1所述的图文互检模型训练方法，其特征在于，所述图像训练数据为图像序列；所述图像编码模块包括骨干网络和BiLSTM网络，相应的，利用图像编码模块提取所述图像训练数据的图像编码特征，包括：

利用骨干网络提取所述图像序列中每张图像的特征，得到图像特征；

将各所述图像特征输入所述BiLSTM网络，得到图像编码特征。
根据权利要求9所述的图文互检模型训练方法，其特征在于，所述图像编码模块还包括注意力结构，相应的，所述将所述图像特征输入所述BiLSTM网络，得到图像编码特征，包括：

将各所述图像特征输入所述注意力结构，得到每个所述图像特征的注意力权重；

基于所述注意力权重确定各所述图像特征的最终特征，并将所述最终特征输入所述BiLSTM网络，得到图像编码特征。
根据权利要求1所述的图文互检模型训练方法，其特征在于，所述基于所述文本编码特征和所述图像编码特征计算训练损失，包括：

针对一个批次N个训练数据对的N个编码特征对，确定锚点样本对应的正样本和负样本；其中，所述编码特征对为所述训练数据对的文本编码特征和图像编码特征组成的编码对，所述锚点样本为所述N个编码特征对中的任一文本编码特征或图像编码特征，所述正样本为与所述锚点样本成对的另一编码特征，所述负样本为所述N个编码特征对中除所述另一编码特征外的所有编码特征；

基于所述锚点样本，以及所述锚点样本对应的正样本和负样本计算训练损失。
根据权利要求11所述的图文互检模型训练方法，其特征在于，所述将所述训练数据对输入初始模型之前，还包括：

基于预设概率确定是否对目标长文本数据进行打乱处理；其中，所述目标长文本数据为所述文本训练数据中句子间具有时序关系的长文本数据；

若确定对所述目标长文本数据进行打乱处理，则对所述目标长文本数据进行打乱处理，否则不对所述目标长文本数据进行打乱处理；

为所述目标长文本数据添加标签，所述标签表征所述目标长文本数据是否经过打乱处理。
根据权利要求12所述的图文互检模型训练方法，其特征在于，还包括：

基于所述目标长文本数据的特征以及所述目标长文本数据的所述标签计算时序约束损失。
根据权利要求13所述的图文互检模型训练方法，其特征在于，所述基于所述锚点样本，以及所述锚点样本对应的正样本和负样本计算训练损失，包括：

基于所述锚点样本，以及所述锚点样本对应的正样本和负样本计算训练损失计算目标三元组损失；

利用所述目标三元组损失和所述时序约束损失计算训练损失。
根据权利要求12所述的图文互检模型训练方法，其特征在于，所述对所述目标长文本数据进行打乱处理包括：

选择预设比例的句子，对选择的句子进行位置调换，实现打乱处理。
根据权利要求1所述的图文互检模型训练方法，其特征在于，所述若所述训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型之前，还包括：

判断所述训练损失是否小于预设阈值，若所述训练损失小于所述预设阈值，则判定所述训练损失满足收敛条件；若所述训练损失大于所述预设阈值，则判定所述训练损失没有满足收敛条件。
一种图文互检方法，其特征在于，包括：

获取目标数据；其中，所述目标数据为图像数据或文本数据；

将所述目标数据输入图文互检模型，以便所述图文互检模型提取出所述目标数据的目标编码特征；其中，所述图文互检模型基于如权利要求1至16任一项所述的图文互检模型训练方法得到；

在待检索数据集的所有数据编码特征进行匹配，得到检索结果；

其中，若所述目标数据为图像数据，则所述所有数据编码特征均为文本编码特征，若所述目标数据为文本数据，则所述所有数据编码特征均为图像编码特征。
一种图文互检模型训练装置，其特征在于，包括：

训练数据获取模块，用于获取训练数据对；所述训练数据对包括文本训练数据和图像训练数据，所述文本训练数据包括长文本数据，所述长文本数据为包含多个目标文本的文本数据，所述目标文本为句子或短语；

特征提取模块，用于将所述训练数据对输入初始模型，分别利用所述初始模型中的文本编码模块和图像编码模块提取所述文本训练数据的文本编码特征以及所述图像训练数据的图像编码特征；其中，所述文本编码模块包括多层LSTM网络，所述多层LSTM网络包括第一LSTM网络层和第二LSTM网络层，所述第一LSTM网络层用于基于每个所述目标文本中每个字的特征获取每个所述目标文本的特征；所述第二LSTM网络层用于基于每个所述目标文本的特征获取所述长文本数据的特征；

损失计算模块，用于基于所述文本编码特征和所述图像编码特征计算训练损失；

参数调节模块，用于基于所述训练损失对所述初始模型进行参数调节；

图文互检模型确定模块，用于若所述训练损失满足收敛条件，则将参数调节后的初始模型确定为图文互检模型。
一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至16任一项所述的图文互检模型训练方法，和/或，如权利要求17所述的图文互检方法。
一种非易失性可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至16任一项所述的图文互检模型训练方法，和/或，如权利要求17所述的图文互检方法。