WO2022156525A1

WO2022156525A1 - 对象匹配方法、装置及设备

Info

Publication number: WO2022156525A1
Application number: PCT/CN2022/070030
Authority: WO
Inventors: 赵成
Original assignee: 北京沃东天骏信息技术有限公司
Priority date: 2021-01-25
Filing date: 2022-01-04
Publication date: 2022-07-28
Also published as: CN113762309B; CN113762309A

Abstract

本申请实施例提供一种对象匹配方法、装置及设备，该方法包括：获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；针对每个对象，根据该对象的图像和文本描述信息获取该对象的图文特征，然后，根据各对象的图文特征，确定所述至少两个对象之间的匹配关系。

Description

对象匹配方法、装置及设备

本申请要求于2021年01月25日提交中国专利局、申请号为2021100964492、申请名称为“对象匹配方法、装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种对象匹配方法、装置及设备。

背景技术

一些场景中，需要确定对象之间的匹配关系。例如，以电商应用场景为例，可能需要对商品进行匹配，以确定两个商品是否为同款商品，或者是否为相似商品。

通常，一个对象具有标题信息，标题信息中包括多个用于描述对象的关键词。一些实现方式中，可以利用标题信息确定对象之间的匹配关系。具体的，针对对象A和对象B，计算对象A的标题信息与对象B的标题信息之间的相似度，若相似度大于或者等于预设阈值，则确定对象A和对象B相互匹配。

然而，在实现本申请的过程中发现，上述方式确定出的对象之间的匹配关系可能并不准确。

发明内容

本申请提供一种对象匹配方法、装置及设备，用以提高对象匹配结果的准确性。

第一方面，本申请实施例提供一种对象匹配方法，包括：

获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；

针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征；

根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。

一种可能的实现方式中，根据所述对象的图像和文本描述信息，获取所述对象的图文特征，包括：

对所述对象的图像进行目标检测，得到所述图像中的至少一个感兴趣区域，并分别获取每个所述感兴趣区域的特征；

获取所述对象的文本描述信息中的每个字符的特征；

对各所述感兴趣区域的特征以及各所述字符的特征进行融合，得到所述对象的图文特征。

一种可能的实现方式中，获取每个所述感兴趣区域的特征，包括：

对所述感兴趣区域进行特征提取，得到第一特征信息；

根据所述感兴趣区域在所述图像中的位置信息，得到第二特征信息；

根据所述第一特征信息和所述第二特征信息，获取所述感兴趣区域的特征。

一种可能的实现方式中，对各所述感兴趣区域的特征以及各所述字符的特征进行融合，得到所述对象的图文特征，包括：

按照至少一种嵌入方式，将各所述感兴趣区域的特征以及各所述字符的特征投影嵌入到同一特征向量的不同维度中，得到所述对象的图文特征；

其中，所述至少一种嵌入方式包括下述中的一种或者多种：语言嵌入、分段嵌入和序列嵌入。

一种可能的实现方式中，根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系，包括：

将第一对象的图文特征和第二对象的图文特征输入训练好的匹配模型中，以使所述匹配模型预测得到所述第一对象与所述第二对象之间的匹配度；

若所述匹配度大于或者等于预设阈值，则确定所述第一对象和所述第二对象匹配，若所述匹配度小于所述预设阈值，则确定所述第一对象和所述第二对象不匹配；

其中，所述第一对象和所述第二对象为所述至少两个对象中的任意两个对象。

一种可能的实现方式中，针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征之前，还包括：

针对每个所述对象，获取所述对象对应的类目；

确定所述至少两个对象对应的类目相同。

针对每个所述对象，根据所述对象的对象信息，获取所述对象对应的品牌属性；

确定所述至少两个对象对应的品牌属性相同。

一种可能的实现方式中，所述文本描述信息包括：对象标题信息和对象属性信息中的至少一种。

第二方面，本申请实施例提供一种对象匹配装置，包括：

第一获取模块，用于获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；

第二获取模块，用于针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征；

确定模块，用于根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。

一种可能的实现方式中，所述第二获取模块具体用于：

获取所述对象的文本描述信息中的每个字符的特征；

一种可能的实现方式中，所述第二获取模块具体用于：

对所述感兴趣区域进行特征提取，得到第一特征信息；

一种可能的实现方式中，所述第二获取模块具体用于：

一种可能的实现方式中，所述确定模块具体用于：

一种可能的实现方式中，所述确定模块还用于：

针对每个所述对象，获取所述对象对应的类目；

确定所述至少两个对象对应的类目相同。

一种可能的实现方式中，所述确定模块还用于：

确定所述至少两个对象对应的品牌属性相同。

第三方面，本申请实施例提供一种电子设备，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序实现如第一方面任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括：计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种可能的应用场景的示意图；

图2为本申请实施例提供的另一种可能的应用场景的示意图；

图3为本申请实施例提供的一种对象匹配方法的流程示意图；

图4为本申请实施例提供的一种对象信息的示意图；

图5为本申请实施例提供的一种获取对象的图文特征的方法的流程示意图；

图6为本申请实施例提供的一种目标检测过程的示意图；

图7为本申请实施例提供的图文特征提取模型的示意图；

图8为本申请实施例提供的对象匹配过程的示意图；

图9为本申请实施例提供的另一种对象匹配方法的流程示意图；

图10为本申请实施例提供的一种对象匹配装置的结构示意图；

图11为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

一些场景中，需要确定对象之间的匹配关系。其中，对象的匹配关系是指多个对象是否为同一对象(同款对象)，或者，是指多个对象是否为相似对象。本申请实施例中的“对象”是指客观世界及网络世界中存在的东西。对象可以是有形对象，还可以为无形对象，可以是真实对象，还可以是虚拟对象。

通常，一个对象具有标题信息，标题信息中包括多个用于描述对象的关键词。一些实现方式中，可以利用标题信息确定对象之间的匹配关系。具体的，针对对象A和对象B，计算对象A的标题信息与对象B的标题信息之间的相似度，若相似度大于或者等于预设阈值，则确定对象A和对象B相互匹配。然而，在实现本申请的过程中发现，采用上述方式确定出的对象之间的匹配关系可能并不准确。

为此，本申请实施例提供一种对象匹配方法、装置及设备，旨在解决上述技术问题。本申请实施例可用于对具有图像和文本描述信息的对象进行匹配。

本申请实施例中，获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；针对每个对象，根据该对象的图像和文本描述信息获取该对象的图文特征，然后，根据各对象的图文特征，确定所述至少两个对象之间的匹配关系。上述匹配过程中，由于是利用对象的多模态特征进行匹配，也就是说，既考虑了对象的文本描述信息，还考虑了对象的图像，因此，确定出的对象匹配关系更加准确。

需要说明的是，不同的应用场景中，对象的指代可以不同。一些场景中，对象可以指代用户。另一些场景中，对象可以指代产品。又一些场景中，对象可以指代商品。本实施例对此不作限定。

为了描述方便，本申请实施例后续举例时，均以电商应用场景为例，描述商品的匹配过程。应理解，当应用于其他场景时，具体的匹配原理和匹配过程是类似的，本申请实施例不作赘述。

下面结合图1和图2对本申请实施例可能的应用场景进行描述。

图1为本申请实施例提供的一种可能的应用场景的示意图。如图1所示，该应用场景包括：用户设备和电商服务器。用户设备和电商服务器之间通过网络连接。电商服务器中设置有商品数据库和商品匹配引擎。用户设备中安装有电商客户端，用户通过电商客户端可以访问电商服务器。用户设备需要搜索某个商品时，将搜索请求发送给电商服务器。电商服务器接收到搜索请求后，通过商品匹配引擎将搜索请求与商品数据库中的商品进行匹配处理，得到搜索结果，搜索结果中可以包括一个或者多个目标商品。电商服务器将搜索结果返回给用户设备。

该场景中，用户设备与电商服务器采用交互式设计，用户输入待搜索的商品，电商服务器通过商品匹配方法，从商品数据库中匹配得到符合用户需求的目标商品并推荐给用户，使得用户快速获取到自己需要的商品。

图2为本申请实施例提供的另一种可能的应用场景的示意图。如图2所示，该应用场景包括：第一电商服务器和第二电商服务器。第一电商服务器和第二电商服务器通过网络连接。第一电商服务器可以通过与第二电商服务器的交互，获取第二电商服务器所提供的商品。示例性的，第一电商服务器可以采用网页爬取技术，通过对第二电商服务器提供的网页进行网页内容抓取，得到第二电商服务器所提供的商品。进一步的，第一电商服务器可以通过商品匹配引擎，将从第二电商服务器获取的商品与自身商品数据库中的商品进行匹配处理，从而得到第一电商服务器所提供的商品与第二电商服务器所提供的商品之间的匹配关系。

该场景中，第一电商服务器通过商品匹配方法，可以确定出第一电商服务器中的哪些商品与第二商品服务器中的哪些商品是同款商品或者相似商品，从而建立出第一电商服务器中的商品与第二电商服务器中的商品之间的匹配关系。

上述场景中，电商服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。电商服务器还可以采用分布式架构。一些应用场景中，电商服务器还可以为云端服务器。

应理解，图1和图2所示的应用场景仅为两个可能的示意，还可以存在其他更多的应用场景，本申请实施例对此不作限定。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请实施例提供的一种对象匹配方法的流程示意图。如图3所示，本实施例的方法包括：

S301：获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息。

本申请实施例中，所述至少两个对象为待确定匹配关系的对象。实际应用中，可以针对两个对象确定匹配关系，还可以针对更多数量的对象确定匹配关系。

其中，对象信息是指用于描述对象的一些信息。本实施例的对象具有图像和文本描述信息。因此，一个对象的对象信息包括该对象的图像和文本描述信息。其中，文本描述信息中可以包括一个或者多个句子，或者，一个或者多个关键词。每个对象所具有的图像的数量可以为一个或者多个。

图4为本申请实施例提供的一种对象信息的示意图。以电商应用场景为例，图4示例的对象为商品。如图4所示，该商品具有一个或者多个图像，该商品还具有文本描述信息。文本描述信息可以包括但不限于：商品标题、商品属性信息等。其中，商品属性信息包括但不限于：颜色属性、形状属性、尺码属性、材质属性等。可见，图4所示的商品的商品信息包括：商品图像、商品标题、商品属性信息等。

S302：针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征。

示例性的，可以通过对对象的图像和文本描述信息进行特征提取，得到对象的图文特征。例如，将对象的图像和文本描述信息输入特征提取模型中，得到对象的图文特征。

本实施例中，对象的图文特征中同时包括了从对象的图像中提取的特征，以及从对象的文本描述信息中提取的特征。也就是说，本实施例中提取了对象的多模态特征。

前述的实现方式中，通常是根据对象的标题信息之间的相似度确定对象之间的匹配关系。但是在一些场景中，例如对象为商品时，有些商品(比如服饰商品)的标题信息可能并无显著特征，导致无法判断是否匹配，或者匹配结果并不准确。本申请实施例中，通过引入对象的图像，在提取对象的特征时，不仅考虑对象的标题信息等文本描述信息，还考虑对象的图像，使得提取出的特征更加全面，因此，能够提升匹配结果的准确性，并能够提高匹配的召回率。

S303：根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。

具体的，可以根据对象的图文特征之间的匹配度，确定对象之间的匹配关系。本实施例中，两个对象之间的匹配关系可以指示该两个对象是否为同一对象(或者说同款对象)，或者，指示该两个对象是否为相似对象。

一种可能的实现方式中，针对所述至少两个对象中的任意两个对象，为了描述方便，将该任意两个对象分别称为第一对象和第二对象，可以采用如下方式确定第一对象和第二对象之间的匹配关系：

将第一对象的图文特征和第二对象的图文特征输入训练好的匹配模型中，以使所述匹配模型预测得到所述第一对象与所述第二对象之间的匹配度；若所述匹配度大于或者等于预设阈值，则确定所述第一对象和所述第二对象匹配，若所述匹配度小于所述预设阈值，则确定所述第一对象和所述第二对象不匹配。

应理解，实际应用中，匹配模型也可以直接输出用于指示第一对象和第二对象是否匹配的二值结果。例如，匹配模型输出1表示第一对象和第二对象匹配，输出0表示第一对象和第二对象不匹配。

本实施例提供的对象匹配方法，包括：获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；针对每个对象，根据该对象的图像和文本描述信息获取该对象的图文特征，然后，根据各对象的图文特征，确定所述至少两个对象之间的匹配关系。上述匹配过程中，由于是利用对象的多模态特征进行匹配，也就是说，既考虑了对象的文本描述信息，还考虑了对象的图像，因此，能够提升匹配结果的准确性，并能够提高匹配的召回率。

在上述任意实施例的基础上，下面结合具体的实施例对S202的可能的实现方式进行更详细的描述。

图5为本申请实施例提供的一种获取对象的图文特征的方法的流程示意图。如图5所示，本实施例的方法包括：

S501：对对象的图像进行目标检测，得到所述图像中的至少一个感兴趣区域，并分别获取每个所述感兴趣区域的特征。

本实施例中，考虑到对象的图像中可能存在较多的干扰信息，例如，以商品为例，商品的图像中可能存在背景、促销文字等干扰信息。因此，本实施例中不是直接对图像整体进行特征提取，而是先对图像进行目标检测，得到至少一个感兴趣区域(Region of Interest，ROI)，然后分别获取每个感兴趣区域的特征，从而避免干扰信息对匹配结果的影响。

图6为本申请实施例提供的一种目标检测过程的示意图。如图6所示，可以将对象的图像输入目标检测模型，由目标检测模型对图像进行目标检测，得到至少一个感兴趣区域。参见图6，以X洗发水商品为例，目标检测模型采用矩形框在图像中标注出两个感兴趣区域，并且，还识别出每个感兴趣区域的类别(Box Label)。例如，一个感兴趣区域的类别为“洗发水”，另一个感兴趣区域的类别为“文字”。

应理解，目标检测模型可以是预先训练好的机器学习模型，可以采用Faster-RCNN(全称：Faster Region Convolutional Neural Network)、YOLO(全称：You Only Look Once)、Mask R-CNN(全称：Mask Region Convolutional Neural Network)等模型，本实施例对此不作限定。

一种可能的实现方式中，可以采用如下方式获取每个感兴趣区域的特征：

(1)对感兴趣区域进行特征提取，得到第一特征信息。

示例性的，可以采用如下线性映射的方式从感兴趣区域中提取特征，得到第一特征信息，第一特征信息也可以称为图像嵌入(Image Embedding)向量。

v _i＝W _vf _i+b _v

其中，f _i表示第i个感兴趣区域，v _i表示第i个感兴趣区域对应的第一特征信息，W _v为线性映射的斜率，b _v为线性映射的截距。

(2)根据感兴趣区域在图像中的位置信息，得到第二特征信息。

示例性的，可以根据感兴趣区域在图像的位置信息，编码得的五维向量作为第二特征信息。第二特征信息也可以称为位置嵌入(Position Embedding)向量。五维向量表示如下：

其中，c ⁱ表示第i个感兴趣区域的第二特征信息。(x _tl,y _tl)、(x _br,y _br)分别表示第i个感兴趣区域的矩形框的左上角和右下角坐标，W和H表示图像的宽度和高度，上述五维向量中的第5个分量表示感兴趣区域的面积相对于整个图像的面积之比。

(3)根据第一特征信息和第二特征信息，获取感兴趣区域的特征。

示例性的，可以将第二特征信息嵌入到第一特征信息中，得到感兴趣区域的特征。

本实施例中，每个感兴趣区域的特征中不仅考虑了感兴趣区域的图像嵌入向量，还考虑了感兴趣区域的位置嵌入向量，这样，感兴趣区域不仅可以为语言部分提供整个图像的视觉上下文(visual contexts)，还可以通过详细的位置信息与特定的术语相关联，使得感兴趣区域的特征更加全面。

S502：获取对象的文本描述信息中的每个字符的特征。

具体的，可以根据向量表(vocab)获取文本描述信息中的每个字符的特征。其中，向量表以文件形式存储，向量表中记录有不同的字符对应的字向量。通过查询向量表，可以获取文本描述信息中的每个字符对应的字向量。进而，可以根据该字向量得到字符的特征。

一种可能的实现方式中，将文本描述信息输入BERT(Bidirectional Encoder Representations from Transformers)模型中，BERT模型可以获取文本描述信息的字向量、文本向量以及位置向量。其中，字向量是通过查询向量表得到的，即，通过查询向量表将文本描述信息中的每个字符转换为其对应的字向量。文本向量是在模型训练过程中自动学习得到的，用于刻画文本的全局语义信息，并与单字符的语义信息相融合。由于文本描述信息中不同位置的字符所携带的语义信息存在差异，因此，BERT模型对不同位置的字符分别附加一个不同的位置向量以作区分。进一步的，BERT模型根据上述字向量、文本向量以及位置向量，输出文本描述信息中各字符融合全文语义信息后的向量表示。

S503：对各所述感兴趣区域的特征以及各所述字符的特征进行融合，得到所述对象的图文特征。

具体的，可以将各感兴趣区域的特征与各字符的特征投影到同一特征向量中，最终得到的特征向量即为对象的图文特征。

一种可能的实现方式中，可以采用如下方式进行融合处理：按照至少一种嵌入方式，将各所述感兴趣区域的特征以及各所述字符的特征投影嵌入到同一特征向量的不同维度中，得到所述对象的图文特征；其中，所述至少一种嵌入方式包括下述中的一种或者多种：语言嵌入、分段嵌入和序列嵌入。

图7为本申请实施例提供的图文特征提取模型的示意图。本实施例中，图文特征提取模型可以对各感兴趣区域的特征和各字符的特征进行融合处理，得到对象的图文特征。

如图7所示，图文特征提取模型包括图像嵌入层、位置嵌入层、语言嵌入层、分段嵌入层和序列嵌入层。图文特征提取模型的输入包括：对象的文本描述信息以及对象的图像(例如，图7中以对象“X洗发水”为例，图像1和图像2为X洗发水对应的两个图像，其中，图像2中的画面内容省略)。图文特征提取模型的输出为该对象的图文特征。

参见图7，语言嵌入层可以对文本描述信息进行处理，得到每个字符的特征。将对象的图像输入图像嵌入层，图像嵌入层对图像进行目标检测，得到多个感兴趣区域，并得到每个感兴趣区域对应的第一特征信息(图像嵌入向量)。然后，通过位置嵌入层得到每个感兴趣区域对应的第二特征信息(位置嵌入向量)。第一特征信息和第二特征信息通过语言嵌入层投影嵌入到同一维度。这样，感兴趣区域不仅可以为语言部分提供整个图像的视觉上下文(visual contexts)，还可以通过详细的位置信息与特定的术语相关联。

对于图像中的每个感兴趣区域，其对应的图像嵌入、分段嵌入、位置嵌入、序列嵌入被投影到一个向量中，如下所示。

其中，e ⁽ⁱ⁾表示第i个感兴趣区域最终得到的特征向量，v ⁽ⁱ⁾表示图像嵌入向量，s ⁽ⁱ⁾表示分段嵌入向量，

表示位置嵌入向量，

表示序列嵌入向量，LN()表示层标准化(Layer Normalization)处理。

继续参见图7，在分段嵌入层，每个图像和每个文本描述信息对应一个分段。例如，图7中示例的是图像对应分段A，文本描述信息对应分段B。该图像中的各感兴趣区域的特征被投影嵌入到分段A中，该文本描述信息中的各字符的特征被投影嵌入到分段B中。这样，分段嵌入层的信息体现了特征的来源，是来自于哪个图像或者哪个文本。

继续参见图7，在序列嵌入层，由于图像中的各感兴趣区域不存在先后顺序，因此，每个图像中的各感兴趣区域对应同一序号。而每个文本中的字符是有先后顺序的，因此，按照文本中字符的先后顺序，每个字符对应一个序号，不同字符对应的序号不同。这样，序列嵌入层的信息体现了特征的顺序。

应理解，图7中的图像2的处理过程与图像1是类似的，此处不作详述。应理解，图7中，输入序列的第一个符号为[CLS]，这里的CLS用于分隔不同对象的对象信息。不同文本之间采用分隔符(SEP)进行分隔。

本实施例的图文特征提取模型，在提取对象的特征时，既考虑了文本描述信息的特征，也考虑了图像的特征，即，考虑了对象的多模态特征，增强了模型表达能力，有助于提升对象匹配结果的准确性，并提升匹配的召回率。

在上述实施例的基础上，下面结合一个具体的示例描述对象匹配过程。

图8为本申请实施例提供的对象匹配过程的示意图。以对象A和对象B为例，如图8所示，将对象A的图像和文本描述信息输入图文特征提取模型中，得到对象A的图文特征，将对象B的图像和文本描述信息输入图文特征提取模型中，得到对象B的图文特征。其中，图文特征提取模型可以采用如图7所示的模型。将对象A图文特征和对象B的图文特征输入匹配模型中，得到对象A和对象B之间的匹配度。若匹配度大于或者等于预设阈值，则确定对象A和对象B匹配，若匹配度小于预设阈值，则确定对象A和对象B不匹配。

可选的，匹配模型中可以包括：一个或者多个Transformer层、一个或者多个全连接层、激活函数层、批标准化层和损失函数层。其中，损失函数层可以采用交叉熵损失或三元组损失。

图9为本申请实施例提供的另一种对象匹配方法的流程示意图。本实施例中以第一对象和第二对象的匹配过程为例进行描述。如图9所示，本实施例的方法包括：

S901：获取第一对象的对象信息，并获取第二对象的对象信息，其中，每个对象的对象信息包括该对象的图像和文本描述信息。

S902：获取第一对象的类目，并获取第二对象的类目。

其中，类目是指对象的所属的类别。对象的类目可以包括一个或者多个层级。当对象的类目包括多个层级时，S902中可以获取对象的末级类目。以商品为例，电商平台为了便于对商品的管理，划分了多个层级的类目。例如：母婴为一级类目，该类别下包括奶粉、纸尿裤、奶瓶等多个二级类目。奶粉二级类目下又包括：婴儿奶粉、孕妇奶粉等多个三级类目。

S903：判断第一对象的类目和第二对象的类目是否相同。

若相同，则继续执行后续流程。如不同，则执行S910，确定第一对象和第二对象不匹配。

应理解，当对象的类别包括多个层级时，本实施例中可以获取对象的末级类目，判断两个对象的末级类目是否相同，从而尽可能缩小匹配范围。

本实施例中，若两个对象的类目不同，则直接确定两个对象不匹配。只有当两个对象的类目相同时，才继续后续的匹配流程，这样可以缩小匹配范围，减少计算量，提高匹配效率。

需要说明的是，当本实施例应用于跨电商平台的商品匹配时，由于不同电商平台中商品类目的划分方式不同，因此，本实施例中所述的类目相同应做广义理解，即，类目相同是指类目相当，而不是指严格一致。例如，电商平台A的婴儿奶粉类目与电商平台B的配方奶粉类目应理解为相同类目，电商平台A的手机类目与电商平台B的数码通信类目也应理解为相同类目。

具体的，假设第一对象来自于电商平台A，第二对象来自于电商平台B，可以先将第二对象在电商平台B中的类目映射为电商平台A中的类目。然后，确定第一对象在电商平台A中的类目与第二对象映射到电商平台A中的类目是否相同。

其中，将第二对象在电商平台B中的类目映射为电商平台A中的类目，可以采用如下两种可能的实现方式：

一种可能的实现方式中，获取多组样本，每组样本包括：一个来自于电商平台A的商品和一个来自于电商平台B的商品。并且，两个商品在各自所属电商平台中的类目已知。对每组样本中的两个商品人工标注匹配关系。这样，根据样本中两个商品之间的匹配关系，可以推断出两个商品所属类目之间的匹配关系，进而得到电商平台A和电商平台B之间的类目映射关系。其中，在推断过程中可以采用选举方式。进一步的，确定出电商平台A和电商平台B之间的类目映射关系之后，可以根据类目映射关系，将第二对象在电商平台B中的类目映射为电商平台A中的类目。

另一种可能的实现方式中，可以基于上述样本，从每组样本来自于电商平台B的商品的文本描述信息中提取特征，并将该组样本来自于电商平台A的商品的类目作为该特征对应的标签，对类目判别模型进行训练。进一步的，训练得到类目判别模型之后，将第二对象的文本描述信息输入类目判别模型中，由类目判别模型输出第二对象在电商平台A中的类目。

S904：根据第一对象的对象信息，获取第一对象的品牌属性，并根据第二对象的对象信息，获取第二对象的品牌属性。

以电商应用场景为例，每个商品的属性信息中通常包括品牌属性，因此，可以根据商品的属性信息获取品牌属性。

S905：判断第一对象的品牌属性与第二对象的品牌属性是否相同。

若相同，则继续执行后续流程，若不同，则执行S910，确定第一对象和第二对象不匹配。

本实施例中，若两个对象的品牌属性不同，则直接确定两个对象不匹配。只有当两个对象的品牌属性相同时，才继续后续的匹配流程，这样可以缩小匹配范围，减少计算量，提高匹配效率。

需要说明的是，实际应用中，本实施例中根据类目进行过滤的过程(S902-S903)以及根据品牌属性进行过滤的过程(S904-S905)可以择一执行，也可以都执行，本实施例对此不作限定。

S906：根据第一对象的图像和文本描述信息，获取第一对象的图文特征，并根据第二对象的图像和文本描述信息，获取第二对象的图文特征。

S907：将第一对象的图文特征和第二图像的图文特征输入匹配模型中，获取所述第一对象和所述第二对象之间的匹配度。

应理解，S906和S907的具体实现方式与上述实施例类似，此处不作赘述。

S908：判断所述匹配度是否大于或者等于预设阈值。

若是，则执行S909。若否，则执行S910。

S909：确定第一对象和第二对象匹配。

S910：确定第一对象和第二对象不匹配。

本实施例中，通过利用对象的类目和/或品牌属性进行过滤，在两个对象的类目和/或品牌属性不同的情况下确定该两个对象不匹配，从而减少匹配计算量，提升匹配效率。

图10为本申请实施例提供的一种对象匹配装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图10所示，本实施例提供的对象匹配装置1000，可以包括：第一获取模块1001、第二获取模块1002和确定模块1003。

其中，第一获取模块1001，用于获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；

第二获取模块1002，用于针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征；

确定模块1003，用于根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。

一种可能的实现方式中，所述第二获取模块1002具体用于：

获取所述对象的文本描述信息中的每个字符的特征；

一种可能的实现方式中，所述第二获取模块1002具体用于：

对所述感兴趣区域进行特征提取，得到第一特征信息；

一种可能的实现方式中，所述第二获取模块1002具体用于：

一种可能的实现方式中，所述确定模块1003具体用于：

一种可能的实现方式中，所述确定模块1003还用于：

针对每个所述对象，获取所述对象对应的类目；

确定所述至少两个对象对应的类目相同。

一种可能的实现方式中，所述确定模块1003还用于：

确定所述至少两个对象对应的品牌属性相同。

本实施例提供的对象匹配装置，可用于执行上述任一方法实施例中的对象匹配方法，其实现原理和技术效果类似，此处不作赘述。

图11为本申请实施例提供的一种电子设备的结构示意图。如图11所示，本实施例的电子设备1100，包括：处理器1101以及存储器1102。

其中，存储器1102，用于存储计算机程序；处理器1101，用于执行存储器中存储的计算机程序，以实现上述实施例中的对象匹配方法。具体可以参见前述方法实施例中的相关描述，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，存储器1102既可以是独立的，也可以跟处理器1101集成在一起。

可选的，所述电子设备1100还可以包括通信部件1103，用于与其他设备通信。

当所述存储器1102是独立于处理器1101之外的器件时，所述电子设备1100还可以包括：总线1104，用于连接所述存储器1102和处理器1101。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的对象匹配方法，其实现原理和技术效果类似，此处不作赘述。

本申请实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的对象匹配方法，其实现原理和技术效果类似，此处不作赘述。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例中的对象匹配方法，其实现原理和技术效果类似，此处不作赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种对象匹配方法，其特征在于，包括：

获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；

针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征；

根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。
根据权利要求1所述的方法，其特征在于，根据所述对象的图像和文本描述信息，获取所述对象的图文特征，包括：

对所述对象的图像进行目标检测，得到所述图像中的至少一个感兴趣区域，并分别获取每个所述感兴趣区域的特征；

获取所述对象的文本描述信息中的每个字符的特征；

对各所述感兴趣区域的特征以及各所述字符的特征进行融合，得到所述对象的图文特征。
根据权利要求2所述的方法，其特征在于，获取每个所述感兴趣区域的特征，包括：

对所述感兴趣区域进行特征提取，得到第一特征信息；

根据所述感兴趣区域在所述图像中的位置信息，得到第二特征信息；

根据所述第一特征信息和所述第二特征信息，获取所述感兴趣区域的特征。
根据权利要求2或3所述的方法，其特征在于，对各所述感兴趣区域的特征以及各所述字符的特征进行融合，得到所述对象的图文特征，包括：

按照至少一种嵌入方式，将各所述感兴趣区域的特征以及各所述字符的特征投影嵌入到同一特征向量的不同维度中，得到所述对象的图文特征；

其中，所述至少一种嵌入方式包括下述中的一种或者多种：语言嵌入、分段嵌入和序列嵌入。
根据权利要求1至4任一项所述的方法，其特征在于，根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系，包括：

将第一对象的图文特征和第二对象的图文特征输入训练好的匹配模型中，以使所述匹配模型预测得到所述第一对象与所述第二对象之间的匹配度；

若所述匹配度大于或者等于预设阈值，则确定所述第一对象和所述第二对象匹配，若所述匹配度小于所述预设阈值，则确定所述第一对象和所述第二对象不匹配；

其中，所述第一对象和所述第二对象为所述至少两个对象中的任意两个对象。
根据权利要求1至5任一项所述的方法，其特征在于，针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征之前，还包括：

针对每个所述对象，获取所述对象对应的类目；

确定所述至少两个对象对应的类目相同。
根据权利要求1至6任一项所述的方法，其特征在于，针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征之前，还包括：

针对每个所述对象，根据所述对象的对象信息，获取所述对象对应的品牌属性；

确定所述至少两个对象对应的品牌属性相同。
根据权利要求1至7任一项所述的方法，其特征在于，所述文本描述信息包括：对象标题信息和对象属性信息中的至少一种。
一种对象匹配装置，其特征在于，包括：

第一获取模块，用于获取至少两个对象的对象信息，其中，一个对象的对象信息包括该对象的图像和文本描述信息；

第二获取模块，用于针对每个所述对象，根据所述对象的图像和文本描述信息，获取所述对象的图文特征；

确定模块，用于根据所述至少两个对象的图文特征，确定所述至少两个对象之间的匹配关系。
一种电子设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序实现如权利要求1至8任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括：计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
一种计算机程序产品，其特征在于，包括：计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。