WO2024065645A1

WO2024065645A1 - 图像文本匹配模型的训练方法、装置、设备及存储介质

Info

Publication number: WO2024065645A1
Application number: PCT/CN2022/123188
Authority: WO
Inventors: 冀潮; 欧歌; 钟楚千; 张鹏飞; 姜博然; 魏书琪
Original assignee: 北京京东方技术开发有限公司; 京东方科技集团股份有限公司
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-04
Also published as: CN118119935A

Abstract

本发明公开了图像文本匹配模型的训练方法、装置、设备及存储介质。所述方法包括：获取正样本和负样本；所述正样本包括文本和图像，所包括的文本，用于描述所包括图像中的内容；所述负样本包括文本和图像，所包括的文本描述内容，与所包括图像中的内容不符；利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；所述图像文本匹配模型用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。

Description

图像文本匹配模型的训练方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像文本匹配模型的训练方法、装置、设备及存储介质。

背景技术

目前在多模态学习中，通常存在图像和文本匹配的需求，可以针对图像和文本，判断文本是否与图像内容的描述相近，从而实现图像和文本的关联。

但是，在训练图像文本匹配模型时，往往难以收集训练样本。通常需要人工针对图像进行文本描述，得到对应的匹配文本，因此，训练样本的数量较少，导致图像文本匹配模型的训练效果较差。

发明内容

本发明提供一种图像文本匹配模型的训练方法、装置、设备及存储介质，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种图像文本匹配模型的训练方法，包括：

获取正样本和负样本；所述正样本包括文本和图像，所包括的文本，用于描述所包括图像中的内容；所述负样本包括文本和图像，所包括的文本描述内容，与所包括图像中的内容不符；

利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；

所述图像文本匹配模型用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。

可选地，所述图像文本匹配模型包括：文本表征层和图像表征层；

所述图像文本匹配模型用于：针对输入的文本和图像，利用所述文本表征层得到输入文本的文本特征，利用所述图像表征层得到输入图像的图像特征，再基于所得到的文本特征和图像特征，预测输入文本是否用于描述输入图像中的内容。

可选地，所述获取正样本和负样本，包括：

获取文本和图像的对应关系集合；在任意一组文本和图像的对应关系中，文本用于描述对应图像中的内容；

根据所述对应关系集合生成正样本和负样本；所述正样本包括：属于同一对应关系的文本和图像；所述负样本包括：属于不同对应关系的文本和图像；所述负样本中的文本描述内容，与同一负样本中的图像内容不符。

可选地，所述根据所述对应关系集合生成正样本和负样本，包括：

从所述对应关系集合中确定多组对应关系，所确定的多组对应关系中，任意两组对应关系之间的图像和文本不同；

针对所述多组对应关系中的任一对应关系，基于所述任一对应关系中的文本和图像，生成一个正样本；

基于所述任一对应关系中的文本，与所述多组对应关系中任一其他对应关系中的图像，生成一个负样本。

从所述对应关系集合中确定N组对应关系，所确定的N组对应关系中，任意两组对应关系之间的图像和文本不同；

针对所述N组对应关系中的每组对应关系，基于所述每组对应关系中的文本和图像，生成一个正样本；基于所述每组对应关系中的文本，与所述N组对应关系中其他N-1组对应关系中的图像，生成N-1个负样本。

可选地，所述正样本所包括的文本，用于描述所包括图像中的实体类别和/或实体属性；所述负样本所包括的文本中的实体类别和/或实体属性，与所包括图像中的实体不符。

可选地，在任意一组文本和图像的对应关系中，文本用于描述对应图像中的实体类别和实体属性；

所述根据所述对应关系集合生成正样本和负样本，包括：

将所述对应关系集合中，实体类别相同且实体属性不同的对应关系确定为第一子集；根据所述第一子集生成第一正负样本集合；

将所述对应关系集合中，实体类别不同且实体属性相同的对应关系确定为第二子集；根据所述第二子集生成第二正负样本集合；

将所述对应关系集合中，实体类别不同且实体属性不同的对应关系确定为第三子集；根据所述第三子集生成第三正负样本集合。

可选地，第一损失权重小于第二损失权重，第二损失权重小于第三损失权重；所述第一损失权重为利用所述第一正负样本集合训练图像文本匹配模型时的损失函数权重；所述第二损失权重为利用所述第二正负样本集合训练图像文本匹配模型时的损失函数权重；所述第三损失权重为利用所述第三正负样本集合训练图像文本匹配模型时的损失函数权重。

可选地，所述文本表征层用于，提取输入文本中的实体特征信息。

可选地，所述文本表征层用于，针对输入文本进行文本编码，再针对文本编码结果提取实体特征信息。

可选地，在训练图像文本匹配模型之前，所述方法还包括：

预先根据用于描述待训练图像内容的第一文本中包含的实体信息，确定至少一个实体在所述待训练图像中的位置；

针对所述待训练图像中的至少一个实体进行遮罩，得到至少一个待恢复图像；

以待恢复图像为样本特征，以所述待训练图像为样本标签，预先训练图像表征层。

可选地，在训练图像文本匹配模型之前，所述方法还包括：

针对任一待恢复图像中被遮罩的实体，在所述第一文本中，对所针对实体的信息进行遮罩，得到待恢复文本；

以所得到的待恢复文本为样本特征，以所述第一文本为样本标签，预先训练文本表征层。

根据本发明实施例的第二方面，提供一种图像文本匹配模型的训练装置，包括：

样本单元，用于获取正样本和负样本；所述正样本包括文本和图像，所包括的文本，用于描述所包括图像中的内容；所述负样本包括文本和图像，所包括的文本描述内容，与所包括图像中的内容不符；

训练单元，用于利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；

可选地，样本单元用于：

样本单元用于：

可选地，所述装置还包括图像预训练单元，用于：在训练图像文本匹配模型之前，预先根据用于描述待训练图像内容的第一文本中包含的实体信息，确定至少一个实体在所述待训练图像中的位置；

可选地，所述装置还包括文本预训练单元，用于：在训练图像文本匹配模型之前，针对任一待恢复图像中被遮罩的实体，在所述第一文本中，对所针对实体的信息进行遮罩，得到待恢复文本；

根据上述实施例可知，通过利用正负样本和对比学习的方式，训练图像文本匹配模型，从而通过引入负样本提高样本数量，提高图像文本匹配模型的训练效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明实施例示出的一种投篮识别方法的流程示意图；

图2是根据本发明实施例示出的一种投篮分类网络的结构示意图；

图3是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在多模态学习中，通常存在图像和文本匹配的需求，可以针对图像和文本，判断文本是否与图像内容的描述相近，从而实现图像和文本的关联。

本发明实施例公开了一种图像文本匹配模型的训练方法。

在该方法中，可以使用对比学习的方式训练图像文本匹配模型，从而需要获取正样本和负样本进行对比学习。

其中，正样本包括文本和图像，所包括的文本可以用于描述所包括图像中的内容，从而可以确定正样本中的文本和图像之间存在关联。

例如，在一个正样本中，可以包含内容为“狗和人共同玩耍”的图像，以及“人与狗玩耍”的文本。

而负样本包括文本和图像，所包括的文本与所包括图像中的内容不符，从而可以确定负样本中的文本和图像之间不存在关联。

例如，在一个负样本中，可以包含“狗和人玩耍”内容的图像，以及“商店进货”的文本。

其中，相比于正样本，负样本的获取较为简单。

例如，可以针对一个正样本，将其中包括的文本替换为多种不同的文本，就可以生成多个负样本。

因此，可以通过利用正负样本和对比学习的方式，训练图像文本匹配模型，从而可以方便提高负样本的数量，也就可以提高样本数量，提高图像文本匹配模型的训练效果。

下面针对本发明实施例提供的一种图像文本匹配模型的训练方法进行详细解释。

如图1所示，图1是根据本发明实施例示出的一种图像文本匹配模型的训练方法的流程示意图。

本发明实施例并不限定本方法流程的执行主体。可选地，执行主体可以是任一计算设备。例如，用于图像文本匹配的服务端。

该方法可以包括以下步骤。

S101：获取正样本和负样本。

其中，可选地，正样本包括文本和图像。正样本所包括的文本，可以用于描述所包括图像中的内容。

可选地，负样本包括文本和图像。负样本所包括的文本描述内容，可以与所包括图像中的内容不符。

S102：利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型。

可选地，图像文本匹配模型可以用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。

上述方法流程，可以通过利用正负样本和对比学习的方式，训练图像文本匹配模型，通过引入负样本提高样本数量，提高图像文本匹配模型的训练效果。

其中，由于负样本的获取难度较低，也可以方便提高负样本的数量，进一步提高样本数量，提高图像文本匹配模型的训练效果。

下面针对各个步骤进行详细的解释。

一、S101：获取正样本和负样本。

本方法流程并不限定所获取的正样本数量和负样本数量。可选地，可以获取至少一个正样本和至少一个负样本。

其中，可选地，任一正样本包括的文本，可以用于描述所包括图像中的内容。任一负样本包括的文本描述内容，可以与所包括图像中的内容不符。

可选地，每个正样本包括的文本，可以用于描述所包括图像中的内容。每个负样本包括的文本描述内容，可以与所包括图像中的内容不符。

本方法流程并不限定获取正样本和负样本的具体方式，只要正样本中包括的文本，可以用于描述所包括图像中的内容，负样本中包括的文本描述内容，可以与所包括图像中的内容不符即可。

可选地，正样本可以从网络中获取。具体可以是基于文本在网络中搜索相应的图像，作为正样本中包含的图像。

例如，针对文本“小狗游泳”，可以直接在网络上搜索该文本，从而获取到包含“小狗游泳”内容的图像，进而可以综合该文本和获取的图像生成正样本。

可选地，正样本也可以直接获取图像和文本匹配的数据集。数据集中的每条数据包括的文本，可以用于描述所包括图像中的内容。

可选地，也可以由人工针对图像，编辑生成用于描述该图像内容的文本，从而可以综合该图像和生成的文本得到正样本。

例如，针对包含“小猫吃饭”内容的图像，可以由人工编辑文本“小猫吃饭”。

可选地，负样本可以基于正样本生成。具体可以是针对正样本包括的文本，直接替换为内容完全不同的其他文本，从而可以得到负样本。

例如，针对文本“小狗游泳”和内容为“小狗游泳”的图像，可以直接获取文本“小猫吃饭”，与内容为“小狗游泳”的图像综合得到负样本。所获取的文本也可以是“鱼儿游泳”、“云朵”、“打开窗户”等等与“小狗游泳”完全无关的文本。

可选地，负样本也可以基于人工生成。具体可以是针对图像，由人工编辑生成与该图像内容不符的文本。

例如，针对包含“小猫吃饭”内容的图像，可以由人工编辑文本“鱼儿游泳”或者“小狗游泳”等，从而可以综合该图像和人工编辑的文本，得到负样本。

在一种可选的实施例中，可以先获取到文本和图像之间的关联关系，从而可以基于关联关系，生成正样本和负样本，提高样本生成的效率。

可选地，获取正样本和负样本，可以包括：获取文本和图像的对应关系集合；在任意一组文本和图像的对应关系中，文本用于描述对应图像中的内容。根据对应关系集合生成正样本和负样本。

其中，正样本可以包括：属于同一对应关系的文本和图像；负样本可以包括：属于不同对应关系的文本和图像；并且，负样本中的文本描述内容，与同一负样本中的图像内容不符。

例如，文本和图像之间的关联关系可以包括：文本“小狗游泳”和内容为“小狗游泳”的图像、文本“小猫吃饭”和内容为“小猫吃饭”的图像、文本“黄狗玩球”和内容为“黄狗玩球”的图像等。

可选地，根据对应关系集合生成正样本和负样本，可以包括：从对应关系集合中确定多组对应关系，所确定的多组对应关系中，任意两组对应关系之间的图像和文本不同；针对多组对应关系中的任一对应关系，基于该对应关系中的文本和图像，生成一个正样本；基于该对应关系中的文本，与多组对应关系中任一其他对应关系中的图像，生成一个负样本。

其中，由于文本和图像之间的对应关系，本身已经可以表征在任意一组文本和图像的对应关系中，文本用于描述对应图像中的内容。因此，可以直接将任一组对应关系中包含的文本和图像，综合为一个正样本。

而对于负样本的生成，为了提高效率，可以在所确定的多组对应关系之间图像文本都不同的情况下，直接采用分别属于不同对应关系的图像和文本，综合为一个负样本。

可选地，为了方便提高负样本的数量，可以直接针对所确定的多组对应关系中的同一组对应关系，多次生成相应的负样本。

可选地，根据对应关系集合生成正样本和负样本，可以包括：从对应关系集合中确定N组对应关系，所确定的N组对应关系中，任意两组对应关系之间的图像和文本不同；针对N组对应关系中的每组对应关系，基于每组对应关系中的文本和图像，生成一个正样本；基于每组对应关系中的文本，与N组对应关系中其他N-1组对应关系中的图像，生成N-1个负样本。

本实施例可以提高负样本的生成数量和生成效率，方便提高后续图像文本匹配模型的训练效果。

此外，在一种可选的实施例中，为了提高图像文本匹配模型的训练效果，文本所描述的图像内容，可以包括图像中的实体相关信息。

其中，由于图像中的实体特征方便提取，因此，可以将文本限定为用于描述对应图像中的实体相关信息，从而方便提高图像文本匹配模型的训练效果。

可选地，在任意一组文本和图像的对应关系中，文本可以用于描述对应图像中的实体类别和实体属性。

可选地，实体类别具体可以是实体的分类，例如，动物、植物、物品等；又例如猫、狗、鸟等。

可选地，实体属性具体可以是实体本身的属性，例如，实体的颜色、尺寸等。

可选地，正样本所包括的文本，可以用于描述所包括图像中的实体类别和/或实体属性；负样本所包括的文本中的实体类别和/或实体属性，可以与所包括图像中的实体不符。

可选地，任一正样本所包括的文本，可以用于描述所包括图像中的实体类别和/或实体属性；任一负样本所包括的文本中的实体类别和/或实体属性，可以与所包括图像中的实体不符。

可选地，每个正样本所包括的文本，可以用于描述所包括图像中的实体类别和/或实体属性；每个负样本所包括的文本中的实体类别和/或实体属性，可以与所包括图像中的实体不符。

具体可以是负样本所包括的文本中的实体类别，与所包括图像中的实体类别不同；或者负样本所包括的文本中的实体属性，与所包括图像中的实体属性不同；或者负样本所包括的文本中的实体类别和实体属性，与所包括图像中的实体类别和实体属性不同。

可选地，由于所获取的正负样本用于后续的对比学习，而对比学习的核心思想可以包括：把正样本之间的距离拉近，正样本与负样本之间的距离拉远。

而对于负样本而言，相比于与图像实体不同的实体属性，图像文本匹配模型更关注与图像实体不同的实体类别。

例如，针对包含“黄狗游泳”内容的图像和文本“黑狗游泳”的负样本，与包含“黄狗游泳”内容的图像和文本“黄狗游泳”正样本之间的距离，相比于包含“黄狗游泳”内容的图像和文本“小鱼游泳”的负样本可以更近。因为“黑狗游泳”与“黄狗游泳”两个文本之间的实体类别相同，但实体属性不同，而“小鱼游泳”和“黄狗游泳”两个文本之间的实体类别和实体属性都不同。

因此，可以针对负样本进行划分，利用不同的损失函数权重进行区分和模型训练，从而可以提高图像文本匹配模型对“实体类别”的关注程度和识别敏感程度，提高图像文本匹配模型的训练效果。

可选地，根据对应关系集合生成正样本和负样本，可以包括：将对应关系集合中，实体类别相同且实体属性不同的对应关系确定为第一子集；根据第一子集生成第一正负样本集合。

将对应关系集合中，实体类别不同且实体属性相同的对应关系确定为第二子集；根据第二子集生成第二正负样本集合。

将对应关系集合中，实体类别不同且实体属性不同的对应关系确定为第三子集；根据第三子集生成第三正负样本集合。

例如，可以从对应关系集合中，收集文本中实体类别都为“狗”的对应关系，但是相应的文本中“狗”的实体属性都不同，具体可以是“黄狗”“大狗”“黑狗”等。从而可以得到第一子集，进而可以根据第一子集，生成正样本和负样本。

也可以从对应关系集合中，收集文本中实体属性都为“黄色”的对应关系，但是相应的文本中“黄色”的实体类别都不同，具体可以是“黄狗”“黄猫”“黄鱼”等。从而可以得到第二子集，进而可以根据第二子集，生成正样本和负样本。

也可以从对应关系集合中，收集文本中实体类别和实体属性都不同的对应关系，具体可以是“黄狗”“黑鱼”“白猫”等。从而可以得到第三子集，进而可以根据第三子集，生成正样本和负样本。

在一种可选的实施例中，针对上述经过分类的正负样本集合，可以分别进行模型训练。可选地，可以是采用不同的损失函数分别对图像文本匹配模型进行训练。

可选地，第一损失权重小于第二损失权重，第二损失权重小于第三损失权重。

第一损失权重为利用第一正负样本集合训练图像文本匹配模型时的损失函数权重。

第二损失权重为利用第二正负样本集合训练图像文本匹配模型时的损失函数权重。

第三损失权重为利用第三正负样本集合训练图像文本匹配模型时的损失函数权重。

其中，根据第一子集、第二子集和第三子集生成正负样本集合的方式，本实施例并不限定。可选地，具体可以将第一子集、第二子集和第三子集看作是上述实施例中所确定的“多组对应关系”，从而生成正样本和负样本。

第一正负样本集合中的负样本，包括的文本中的实体类别与图像实体相同，但包括的文本中的实体属性与图像实体不同。

第二正负样本集合中的负样本，包括的文本中的实体类别与图像实体不同，但包括的文本中的实体属性与图像实体相同。

第三正负样本集合中的负样本，包括的文本中的实体类别与图像实体不同，并且包括的文本中的实体属性与图像实体不同。

本实施例可以通过区分不同的负样本种类，并利用不同的损失函数权重训练图像文本匹配模型，从而可以提高图像文本匹配模型对“实体类别”的关注程度和识别敏感程度，提高图像文本匹配模型的训练效果。

二、S102：利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型。

1、关于图像文本匹配模型。

本方法流程并不限定图像文本匹配模型的具体结构。

可选地，图像文本匹配模型可以是神经网络模型，也可以是其他类型的模型。

可选地，图像文本匹配模型为了实现图像和文本之间的匹配，模型的输入可以包括待匹配的图像和文本。因此，图像文本匹配模型可以针对图像和文本两种数据类型的输入，分别设置表征层提取特征。

可选地，图像文本匹配模型可以包括：文本表征层和图像表征层。

可选地，图像文本匹配模型可以用于：针对输入的文本和图像，利用文本表征层得到输入文本的文本特征，利用图像表征层得到输入图像的图像特征，再基于所得到的文本特征和图像特征，预测输入文本是否用于描述输入图像中的内容。

可选地，图像文本匹配模型还可以包括中间层和输出层。具体可以是将所得到的文本特征和图像特征输入到中间层进行处理，再将处理结果输入到输出层，由输出层输出预测结果。预测结果可以表征输入文本是否用于描述输入图像中的内容。

可选地，基于所得到的文本特征和图像特征，预测输入文本是否用于描述输入图像中的内容，具体可以是先综合所得到的文本特征和图像特征，再针对综合特征结果进行预测。

本实施例并不限定综合文本特征和图像特征的方式。可选地，可以将文本特征和图像特征进行拼接，也可以针对文本特征和图像特征计算乘积，也可以针对文本特征和图像特征求和等等。

可选地，图像文本匹配模型的中间层可以用于综合输入的文本特征和图像特征。

本实施例通过综合文本特征和图像特征，可以通过模型融合文本特征信息和图像特征信息，方便学习挖掘文本与图像之间的关联。

本方法流程并不限定图像文本匹配模型的输出，只要能够用于表征输入的文本是否用于描述输入图像中的内容即可。

可选地，具体可以是输出正负样本的分类结果，也可以输出正负样本的概率，也可以输出图像文本是否匹配的结果或概率，也可以输出“输入图像”与“输入文本”之间的匹配程度或者相似度等等。

本方法流程也并不限定图像文本匹配模型中的中间层和输出层结构。

可选地，中间层具体可以包括全连接层，输出层具体可以包括softmax层。

本方法流程并不限定图像文本匹配模型中的文本表征层和图像表征层。具体的解释可以参见后文。

此外，在一种可选的实施例中，为了提高图像文本匹配模型的训练效果和预测准确度，可以限定图像文本匹配模型重点识别输入文本中的实体相关信息，是否与输入图像中的实体相符合。

具体可以包括，输入文本中的实体类别和实体属性，是否与输入图像中的实体类别和实体属性相同。

相对应地，可选地，图像文本匹配模型的输出结果，还可以用于表征输入文本中的实体类别和实体属性，是否与输入图像中的实体类别和实体属性相同。

例如，图像文本匹配模型的输出结果，可以包括输入文本中的实体类别和实体属性，与输入图像中的实体类别和实体属性相同；输入文本中的实体类别与输入图像中的实体类别相同，但实体属性不同；输入文本中的实体属性与输入图像中的实体属性相同，但实体类别不同；输入文本中的实体类别和实体属性，与输入图像中的实体类别和实体属性不同。

在本实施例中，由于图像和文本中的实体相对方便提取出特征进行识别和匹配，因此，可以通过重点识别文本和图像中的实体信息是否相同，来判断输入文本是否用于描述输入图像中的内容，提高图像文本匹配模型的训练效果和预测准确度。

在一种具体的示例中，可以预先设置固定模板的文本，进而可以针对固定文本模板，填充实体相关信息。例如“图中有一只xx”。其中xx可以包括实体的相关信息，具体可以包括实体类别，也可以包括实体的类别和属性。

例如，“图中有一只猫”、“图中有一只猪”、“图中有一只狗”、“图中有一只黄猫”、“图中有一只黑狗”、“图中有一只大狗”、“图中有一只小猫”等等。

针对同一个待匹配图像，可以分别与上述包括不同实体相关信息的文本进行匹配，从而方便根据匹配结果，例如，图像与文本的相似度，确定出与待匹配图像相匹配的文本。进而方便确定出待匹配图像中实体的相关信息。

当然，可选地，也可以先在文本模板中填充实体类别，输入到图像文本匹配模型中，与待匹配图像进行匹配，确定是否存在相匹配的实体类别。在确定匹配的实体类别之后，可以在文本模板中再填充实体属性，继续输入到图像文本匹配模型中，与待匹配图像进行匹配，确定是否存在相匹配的实体属性。

本实施例可以通过分别匹配实体类别和实体属性，提高图像文本匹配模型的效率。

2、关于对比学习。

本方法流程并不限定对比学习的方式。

可选地，可以通过将正负样本分别聚类的方式，对图像文本匹配模型进行训练。相对应地，图像文本匹配模型的损失函数可以包括交叉熵函数，进而可以针对输入的图像文本，确定对应的正负样本分类。

可选地，可以是以减小不同正样本之间映射结果的距离，以及增大正样本和负样本之间映射结果的距离为目标，对图像文本匹配模型进行训练。

可选地，具体可以是针对输入的多个正样本，通过图像文本匹配模型映射到一个向量空间，设置损失函数的取值与正样本映射结果之间的距离正相关，从而可以通过降低损失函数的取值，减小正样本之间映射结果的距离。

可选地，还可以针对输入的多个正样本和多个负样本，通过图像文本匹配模型映射到一个向量空间，设置损失函数的取值与正样本映射结果之间的距离正相关，并且与正样本映射结果和负样本映射结果之间的距离负相关，从而可以通过降低损失函数的取值，减小正样本之间映射结果的距离，增大正样本与负样本之间映射结果的距离。

3、关于文本表征层和图像表征层。

本方法流程并不限定文本表征层和图像表征层的结构和训练方式。

可选地，图像表征层可以包括若干卷积层；文本表征层也可以包括若干卷积层，也可以包括自注意力机制层等。

可选地，图像表征层和文本表征层可以直接随着对图像文本匹配模型的训练开始训练，也可以预先通过样本进行训练，从而确定相对较好的初始参数，进而提高图像文本匹配模型的整体训练效果。

本方法流程并不限定图像表征层和文本表征层的预训练方式。

可选地，可以利用图像样本训练具有业务需求的图像模型，从而可以提取出其中的表征层，确定为图像表征层。

例如，可以利用已标注检测框的图像样本，训练图像目标检测模型，进而可以提取其中的表征层。也可以利用已标注实体内容标签的图像样本，训练图像识别模型，进而可以提取其中的表征层。

可选地，也可以利用文本样本，训练具有业务需求的文本模型，从而可以提取出其中的表征层，确定为文本表征层。

例如，可以利用已标注实体标签的文本样本，训练文本实体信息提取模型，进而可以提取其中的表征层。也可以利用已标注内容标签的文本样本，训练文本内容提取模型，进而可以提取其中的表征层。

可选地，文本表征层具体可以使用静态编码，如word2vec(小参数模型)，或者动态编码，如bert(大参数模型)。

在一种可选的实施例中，由于后续图像文本匹配模型可以更关注输入图像和输入文本中的实体相关信息，因此，文本表征层和图像表征层可以用于提取实体相关信息。

可选地，文本表征层可以用于，提取输入文本中的实体特征信息。

可选地，文本表征层可以用于，针对输入文本中的三元组信息(头实体，关系和尾实体)，提取出实体特征信息。具体可以包括头实体特征信息和尾实体特征信息。具体提取实体特征信息，可以包括，针对实体信息进行编码。实体特征信息可以包括实体信息编码结果。

可选地，文本表征层可以用于，针对输入文本中的三元组信息(头实体，关系和尾实体)进行编码，从而可以得到头实体编码结果和尾实体编码结果，进而可以将头实体编码结果和尾实体编码结果确定为实体特征信息。

可选地，文本表征层可以用于，针对输入文本中的实体信息进行编码。实体信息可以包括三元组信息(头实体，关系和尾实体)。

可选地，图像表征层可以用于，提取输入图像中的实体特征信息。

可选地，图像表征层可以用于，提取输入图像的特征。其中，所提取的图像特征中可以包括图像中的实体特征信息，或者所提取的图像特征中可以包括图像中的实体相关联。

本实施例并不限定文本表征层的具体结构。

可选地，文本表征层可以用于，针对输入文本进行文本编码，再针对文本编码结果提取实体特征信息。

可选地，文本表征层可以用于，针对输入文本进行文本编码，并且确定输入文本中的实体信息，再针对文本编码结果中实体信息对应的编码部分，提取实体特征信息。

本实施例并不限定文本编码的方式。具体可以是使用任一文本编码模型进行文本编码。可选地，可以使用静态编码，如word2vec(小参数模型)，或者动态编码，如bert(大参数模型)，也可以使用RNN、CNN、LSTM、自注意力模型等模型进行文本编码。

本实施例并不限定确定输入文本中实体信息的方式。可选地，可以采用知识图谱进行确定，可以由文本表征层自身确定。

其中，可以采用知识图谱确定出输入文本中的三元组(头实体、关系、尾实体)。

本实施例并不限定提取实体特征信息的方式。可选地，可以采用知识图谱嵌入模型(Translate算法)提取实体特征信息。

知识图谱嵌入模型(Translate算法)，可以包括TransE，TransH，TransR，TransD模型等。

可选地，提取实体特征信息，可以包括，针对输入文本中的实体信息进行编码。具体可以包括针对输入文本中的三元组(头实体、关系、尾实体)进行编码。

可选地，具体确定输入文本中的三元组，可以通过知识图谱进行确定。

在本实施例中，通过针对输入文本中的三元组进行编码，从而可以使得编码结果(也就是实体特征)中包含知识图谱的信息。知识图谱的信息可以包括三元组的信息，具体可以包括头实体和尾实体之间的关系信息。

在一种具体的示例中，可以根据文本抽取三元组，生成知识图谱。三元组的表示形式为(头实体、关系、尾实体)。针对例子“阿拉斯加雪橇犬玩球”，抽取结果可以为(狗、玩、球)。其中阿拉斯加雪橇犬是狗的属性。

文本表征层可以针对输入文本进行文本编码，再确定出三元组所对应的文本编码部分，之后可以使用预先训练的TransR模型，针对三元组所对应的文本编码部分，将头实体和尾实体通过投影矩阵投影到关系空间中，得到头实体映射结果和尾实体映射结果，作为文本表征层输入的实体特征信息。

其中，TransR模型的训练方式如下：对于每个三元组(h，r，t)，将头实体和尾实体通过投影矩阵投影到关系空间中，得到头实体映射结果和尾实体映射结果。

最终的评价函数为：

训练模型以使评价函数取得最小值。

在一种可选的实施例中，可以通过对图像表征层和文本表征层的预训练，使得实体特征表征更加准确。

可选地，可以采用对文本标注实体标签的方式，训练文本表征层。具体可以是通过知识图谱的方式，进行标注。

可选地，在训练图像文本匹配模型之前，上述方法流程还可以包括：预先确定待训练文本包含的实体信息；根据所确定的实体信息，确定对应的实体标签；利用待训练文本和对应的实体标签，预先训练文本表征层。

其中，具体预先训练文本表征层，可以是预先训练文本实体信息提取模型，进而从中提取出表征部分，确定为文本表征层。

本实施例并不限定实体信息的形式。可选地，可以包括实体类别和/或实体属性。

可选地，确定待训练文本包含的实体信息，根据所确定的实体信息，确定对应的实体标签，可以包括：确定待训练文本包含的头实体、关系和尾实体；利用预先训练的映射模型，将所确定的头实体和尾实体映射到关系空间中，得到头实体特征和尾实体特征；将得到的头实体特征和尾实体特征确定为对应的实体标签。

本实施例采用知识图谱得到文本中的头实体、关系和尾实体，确定出文本中的实体信息，进而通过特征映射，获取到实体特征作为标签。

在一种具体的示例中，可以根据文本抽取三元组，生成知识图谱。

三元组的表示形式为(头实体、关系、尾实体)。

针对例子“阿拉斯加雪橇犬玩球”，抽取结果可以为(狗、玩、球)。其中阿拉斯加雪橇犬是狗的属性。

之后可以使用TransR算法训练三元组embedding，具体的训练方式如下：对于每个三元组(h，r，t)，将头实体和尾实体通过投影矩阵投影到关系空间中，得到头实体映射结果和尾实体映射结果。

最终的评价函数为：

训练模型以使评价函数取得最小值。

之后可以利用训练完成的TransR模型，针对文本中的头实体和尾实体，输出将融合了知识图谱信息的实体嵌入表示，进而确定为实体信息标签，训练文本表征层。

可选地，也可以采用对图像标注实体标签的方式，训练图像表征层。

可选地，可以直接获取标注有实体信息的检测框的图像，训练图像表征层。具体可以是训练图像实体信息提取模型，进而提取出其中的表征部分，确定为图像表征层。

可选地，在训练图像文本匹配模型之前，上述方法流程还可以包括：预先根据用于描述待训练图像内容的第一文本中包含的实体信息，确定至少一个实体在待训练图像中的位置；针对待训练图像中的至少一个实体进行遮罩，得到至少一个待恢复图像；以待恢复图像为样本特征，以待训练图像为样本标签，预先训练图像表征层。图像表征层可以用于，提取输入图像中的实体特征信息。

可选地，预先训练图像表征层，可以包括预先训练图像恢复模型，从而可以提取出训练完成的图像恢复模型中的表征部分，确定为图像表征层。

可选地，图像表征层中的骨干网络可以选择resnet(小参数模型)或者Vit(大参数模型)，也可以是CNN模型，或者Transformer模型，或者自注意力模型。

可选地，对应于上述针对待训练图像的遮罩，也可以针对第一文本进行遮罩，训练文本表征层。

可选地，在训练图像文本匹配模型之前，可以针对任一待恢复图像中被遮罩的实体，在第一文本中，对所针对实体的信息进行遮罩，得到待恢复文本；以所得到的待恢复文本为样本特征，以第一文本为样本标签，预先训练文本表征层；文本表征层可以用于，提取输入文本中的实体特征信息。

可选地，预先训练文本表征层，可以包括预先训练文本恢复模型，从而可以提取出训练完成的文本恢复模型中的表征部分，确定为文本表征层。

本实施例可以通过针对关联的图像和文本，遮罩包含的同一实体进行训练，可以提高文本表征层和图像表征层所提取实体特征信息之间的关联性，从而可以提高图像表征结果和文本表征结果之间的关联性，提高模型训练效果和图像文本匹配模型的准确性。

上述实施例通过预训练图像表征层和文本表征层，可以得到相对较好的初始参数，进而可以相比于随机确定初始参数的情况下，提高图像文本匹配模型的整体训练效果。

在训练完成上述图像文本匹配模型的情况下，本发明实施例并不限定图像文本匹配模型的具体使用方法。

可选地，可以利用图像文本匹配模型，确定输入图像和输入文本是否匹配。也可以利用图像文本匹配模型，利用与输入图像相匹配的输入文本，得到用于描述输入图像内容的文本，从而将图像中的内容信息提取为文本。

在一种可选的实施例中，可以获取待匹配图像；获取包含预设内容信息的至少一个预设文本；不同预设文本中的预设内容信息不同。将待匹配图像和至少一个预设文本，输入到图像文本匹配模型中。

其中，可选地，图像文本匹配模型是基于上述方法实施例训练得到的。

之后可以根据图像文本匹配模型的输出结果，判断是否存在用于描述待匹配图像中内容的预设文本。

可选地，预设内容信息具体可以包括，实体信息。实体信息具体可以包括实体类别和/或实体属性。

可选地，预设文本可以包括，基于预设文本模板，填充实体信息后得到的文本。预设文本模板例如，“图像中包括一个xx”。

本实施例并不限定图像文本匹配模型的输出结果的形式。

可选地，模型输出结果可以包括，输入文本和输入图像的匹配程度，也可以包括表征输入文本和输入图像是否匹配的预测结果。

本实施例并不限定根据模型输出结果，判断是否存在用于描述待匹配图像中内容的预设文本的方式。

可选地，可以根据模型输出的匹配程度，确定出匹配程度高于预设匹配阈值，并且匹配程度最高的预设文本。进而可以根据所确定预设文本中的预设内容信息，确定待匹配图像中包括预设内容信息。

可选地，也可以根据模型输出的表征输入文本和输入图像是否匹配的预测结果，确定相匹配的预设文本。进而可以根据所确定预设文本中的预设内容信息，确定待匹配图像中包括预设内容信息。

对应于上述方法实施例，本发明实施例还提供了一种装置实施例。

如图2所示，图2是根据本发明实施例示出的一种图像文本匹配模型的训练装置的结构示意图。

该装置可以包括以下单元。

样本单元201，用于获取正样本和负样本；正样本包括文本和图像，所包括的文本，用于描述所包括图像中的内容；负样本包括文本和图像，所包括的文本描述内容，与所包括图像中的内容不符。

训练单元202，用于利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；

图像文本匹配模型用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。

可选地，图像文本匹配模型包括：文本表征层和图像表征层；

图像文本匹配模型用于：针对输入的文本和图像，利用文本表征层得到输入文本的文本特征，利用图像表征层得到输入图像的图像特征，再基于所得到的文本特征和图像特征，预测输入文本是否用于描述输入图像中的内容。

可选地，样本单元201用于：

根据对应关系集合生成正样本和负样本；正样本包括：属于同一对应关系的文本和图像；负样本包括：属于不同对应关系的文本和图像；负样本中的文本描述内容，与同一负样本中的图像内容不符。

可选地，样本单元201用于：

从对应关系集合中确定多组对应关系，所确定的多组对应关系中，任意两组对应关系之间的图像和文本不同；

针对多组对应关系中的任一对应关系，基于任一对应关系中的文本和图像，生成一个正样本；

基于任一对应关系中的文本，与多组对应关系中任一其他对应关系中的图像，生成一个负样本。

可选地，样本单元201用于：

从对应关系集合中确定N组对应关系，所确定的N组对应关系中，任意两组对应关系之间的图像和文本不同；

针对N组对应关系中的每组对应关系，基于每组对应关系中的文本和图像，生成一个正样本；基于每组对应关系中的文本，与N组对应关系中其他N-1组对应关系中的图像，生成N-1个负样本。

可选地，正样本所包括的文本，用于描述所包括图像中的实体类别和/或实体属性；负样本所包括的文本中的实体类别和/或实体属性，与所包括图像中的实体不符。

可选地，在任意一组文本和图像的对应关系中，文本用于描述对应图像中的实体类别和实体属性；样本单元201用于：

将对应关系集合中，实体类别相同且实体属性不同的对应关系确定为第一子集；根据第一子集生成第一正负样本集合；

将对应关系集合中，实体类别不同且实体属性相同的对应关系确定为第二子集；根据第二子集生成第二正负样本集合；

可选地，第一损失权重小于第二损失权重，第二损失权重小于第三损失权重；第一损失权重为利用第一正负样本集合训练图像文本匹配模型时的损失函数权重；第二损失权重为利用第二正负样本集合训练图像文本匹配模型时的损失函数权重；第三损失权重为利用第三正负样本集合训练图像文本匹配模型时的损失函数权重。

可选地，文本表征层用于，提取输入文本中的实体特征信息。

可选地，文本表征层用于，针对输入文本进行文本编码，再针对文本编码结果提取实体特征信息。

可选地，上述装置还包括文本预训练单元203，用于在训练图像文本匹配模型之前，预先确定待训练文本包含的实体信息；

根据所确定的实体信息，确定对应的实体标签；

利用待训练文本和对应的实体标签，预先训练文本表征层。

可选地，文本预训练单元203用于：

确定待训练文本包含的头实体、关系和尾实体；

利用预先训练的映射模型，将所确定的头实体和尾实体映射到关系空间中，得到头实体特征和尾实体特征；

将得到的头实体特征和尾实体特征确定为对应的实体标签。

可选地，上述装置还包括图像预训练单元204，用于：在训练图像文本匹配模型之前，预先根据用于描述待训练图像内容的第一文本中包含的实体信息，确定至少一个实体在所述待训练图像中的位置；

针对待训练图像中的至少一个实体进行遮罩，得到至少一个待恢复图像；

以待恢复图像为样本特征，以待训练图像为样本标签，预先训练图像表征层；

图像表征层用于，提取输入图像中的实体特征信息。

可选地，上述装置还包括文本预训练单元203，用于：在训练图像文本匹配模型之前，针对任一待恢复图像中被遮罩的实体，在第一文本中，对所针对实体的信息进行遮罩，得到待恢复文本；

以所得到的待恢复文本为样本特征，以第一文本为样本标签，预先训练文本表征层；

文本表征层用于，提取输入文本中的实体特征信息。

具体的解释可以参见上述方法实施例。

本发明实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现上述任一方法实施例。

本发明实施例还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一方法实施例。

图3是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一方法实施例。

本发明实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序在由处理器执行时实现上述任一方法实施例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案本质上或者说做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本发明实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护。

在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种图像文本匹配模型的训练方法，其特征在于，包括：

获取正样本和负样本；所述正样本包括文本和图像，所包括的文本，用于描述所包括图像中的内容；所述负样本包括文本和图像，所包括的文本描述内容，与所包括图像中的内容不符；

利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；

所述图像文本匹配模型用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。
根据权利要求1所述的方法，其特征在于，所述图像文本匹配模型包括：文本表征层和图像表征层；

所述图像文本匹配模型用于：针对输入的文本和图像，利用所述文本表征层得到输入文本的文本特征，利用所述图像表征层得到输入图像的图像特征，再基于所得到的文本特征和图像特征，预测输入文本是否用于描述输入图像中的内容。
根据权利要求1所述的方法，其特征在于，所述获取正样本和负样本，包括：

获取文本和图像的对应关系集合；在任意一组文本和图像的对应关系中，文本用于描述对应图像中的内容；

根据所述对应关系集合生成正样本和负样本；所述正样本包括：属于同一对应关系的文本和图像；所述负样本包括：属于不同对应关系的文本和图像；所述负样本中的文本描述内容，与同一负样本中的图像内容不符。
根据权利要求3所述的方法，其特征在于，所述根据所述对应关系集合生成正样本和负样本，包括：

从所述对应关系集合中确定多组对应关系，所确定的多组对应关系中，任意两组对应关系之间的图像和文本不同；

针对所述多组对应关系中的任一对应关系，基于所述任一对应关系中的文本和图像，生成一个正样本；

基于所述任一对应关系中的文本，与所述多组对应关系中任一其他对应关系中的图像，生成一个负样本。
根据权利要求3所述的方法，其特征在于，所述根据所述对应关系集合生成正样本和负样本，包括：

从所述对应关系集合中确定N组对应关系，所确定的N组对应关系中，任意两组对应关系之间的图像和文本不同；

针对所述N组对应关系中的每组对应关系，基于所述每组对应关系中的文本和图像，生成一个正样本；基于所述每组对应关系中的文本，与所述N组对应关系中其他N-1组对应关系中的图像，生成N-1个负样本。
根据权利要求1所述的方法，其特征在于，所述正样本所包括的文本，用于描述所包括图像中的实体类别和/或实体属性；所述负样本所包括的文本中的实体类别和/或实体属性，与所包括图像中的实体不符。
根据权利要求3所述的方法，其特征在于，在任意一组文本和图像的对应关系中，文本用于描述对应图像中的实体类别和实体属性；

所述根据所述对应关系集合生成正样本和负样本，包括：

将所述对应关系集合中，实体类别相同且实体属性不同的对应关系确定为第一子集；根据所述第一子集生成第一正负样本集合；

将所述对应关系集合中，实体类别不同且实体属性相同的对应关系确定为第二子集；根据所述第二子集生成第二正负样本集合；

将所述对应关系集合中，实体类别不同且实体属性不同的对应关系确定为第三子集；根据所述第三子集生成第三正负样本集合。
根据权利要求7所述的方法，其特征在于，第一损失权重小于第二损失权重，第二损失权重小于第三损失权重；

所述第一损失权重为利用所述第一正负样本集合训练图像文本匹配模型时的损失函数权重；所述第二损失权重为利用所述第二正负样本集合训练图像文本匹配模型时的损失函数权重；所述第三损失权重为利用所述第三正负样本集合训练图像文本匹配模型时的损失函数权重。
根据权利要求2所述的方法，其特征在于，所述文本表征层用于，提取输入文本中的实体特征信息。
根据权利要求9所述的方法，其特征在于，所述文本表征层用于，针对输入文本进行文本编码，再针对文本编码结果提取实体特征信息。
根据权利要求2所述的方法，其特征在于，在训练图像文本匹配模型之前，所述方法还包括：

预先根据用于描述待训练图像内容的第一文本中包含的实体信息，确定至少一个实体在所述待训练图像中的位置；

针对所述待训练图像中的至少一个实体进行遮罩，得到至少一个待恢复图像；

以待恢复图像为样本特征，以所述待训练图像为样本标签，预先训练图像表征层。
根据权利要求11所述的方法，其特征在于，在训练图像文本匹配模型之前，所述方法还包括：

针对任一待恢复图像中被遮罩的实体，在所述第一文本中，对所针对实体的信息进行遮罩，得到待恢复文本；

以所得到的待恢复文本为样本特征，以所述第一文本为样本标签，预先训练文本表征层。
一种图像文本匹配方法，其特征在于，包括：

获取待匹配图像；

获取包含预设内容信息的至少一个预设文本；不同预设文本中的预设内容信息不同；

将所述待匹配图像和所述至少一个预设文本，输入到图像文本匹配模型中，所述图像文本匹配模型是基于权利要求1至12中任一项所述的图像文本匹配模型的训练方法得到的；

根据所述图像文本匹配模型的输出结果，判断是否存在用于描述所述待匹配图像中内容的预设文本。
一种图像文本匹配模型的训练装置，其特征在于，包括：

样本单元，用于获取正样本和负样本；所述正样本包括的文本，用于描述所包括图像中的内容；所述负样本包括的文本描述内容，与所包括图像中的内容不符；

训练单元，用于利用所获取的正负样本，基于对比学习的方式训练图像文本匹配模型；

所述图像文本匹配模型用于：针对输入的文本和图像，预测输入文本是否用于描述输入图像中的内容。
一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至13中任一项所述方法。
一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序在由处理器执行时实现权利要求1至13中任一项所述方法。