WO2021104274A1

WO2021104274A1 - 图文联合表征的搜索方法、系统、服务器和存储介质

Info

Publication number: WO2021104274A1
Application number: PCT/CN2020/131223
Authority: WO
Inventors: 杜嘉; 马库斯·汉斯
Original assignee: 智慧芽信息科技(苏州)有限公司
Priority date: 2019-11-29
Filing date: 2020-11-24
Publication date: 2021-06-03
Also published as: CN112883218A

Abstract

本文公开了一种图文联合表征的搜索方法、系统、设备和存储介质。该图文联合表征的搜索方法包括：接收搜索对象的第一描述信息，其中所述第一描述信息为第一图像信息和第一文本信息中的至少之一；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；根据计算出的多个第三距离显示搜索结果。

Description

图文联合表征的搜索方法、系统、服务器和存储介质

本申请要求在2019年11月29日提交中国专利局、申请号为201911198749.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开涉及搜索技术领域，例如涉及一种图文联合表征的搜索方法、系统、服务器和存储介质。

背景技术

随着互联网技术的高速发展和多媒体设备的日益更新和应用，搜索越来越成为一种生活中必不可少的获取信息的途径。

如果想要对一个事物有一个完整的认知，就需要了解到这一事物的文字信息和图像信息。但面向大众的搜索方式中，只能通过文字搜索到文字或者通过图像搜索到图像，图像信息和文本信息是分开的，用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息，无法产生对一个事物的完整认知。

此外，当使用图像信息搜索时，不同概念下的事物可能看起来彼此相似，如冰箱和盒子，而同一概念下的事物可能会出现很大差异，如有叶片风扇和无叶片风扇，这导致用户通常会获得大量视觉上相似但概念上无关的结果。

发明内容

本公开提供了一种图文联合表征的搜索方法、系统、服务器和存储介质，以实现提高搜索的准确性和多样性。

提供了一种图文联合表征的搜索方法，该图文联合表征的搜索方法包括：

接收搜索对象的第一描述信息，其中，所述第一描述信息为第一图像信息和/或第一文本信息；

在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；根据计算出的多个第一距离显示搜索结果；

在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；根据计算出的多个第二距离显示搜索结果；

在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；通过执行以下之一计算第三距离，并根据计算出的多个第三距离显示搜索结果：

根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；

计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；

计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。

还提供了一种图文联合表征的搜索系统，该图文联合表征的搜索系统包括：

信息接收模块，设置为接收搜索对象的第一描述信息，其中，所述第一描述信息为第一图像信息和/或第一文本信息；

特征提取模块，设置为在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

距离计算模块，设置为在所述第一描述信息为所述第一图像信息的情况下，计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；在所述第一描述信息为所述第一文本信息的情况下，计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，第三距离的计算方式为以下三种方式之一：根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离；

结果显示模块，设置为在所述第一描述信息为所述第一图像信息的情况下，根据计算出的多个第一距离显示搜索结果；在所述第一描述信息为所述第一文本信息的情况下，根据计算出的多个第二距离显示搜索结果；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，根据计算出的第三距离显示搜索结果。

还提供了一种图文联合表征库的生成方法，该图文联合表征库的生成方法包括：

获取多个目标文档的第一图像信息和第一文本信息；

利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征；

根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。

还提供了一种图文联合表征库的生成系统，该图文联合表征库的生成系统包括：

信息获取模块，设置为获取多个目标文档的第一图像信息和第一文本信息；

特征提取模块，设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

特征生成模块，设置为根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征；

表征库建立模块，设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。

还提供了一种图文联合表征的分类推荐方法，该图文联合表征的分类推荐方法包括：

接收至少一个推荐对象的第一描述信息，其中，所述第一描述信息为第一图像信息和/或第一文本信息；

在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；计算所述第一图像嵌入特征和多个预先存储的目标文档的二概念嵌入特征之间的多个第一距离；根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果；

在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果；

在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；通过执行以下之一计算第三距离，并根据计算出的第三距离显示所述至少一个推荐对象的推荐结果：

还提供了一种图文联合表征的分类推荐系统，该图文联合表征的分类推荐系统包括：

信息接收模块，设置为接收至少一个推荐对象的第一描述信息，其中，所述第一描述信息为第一图像信息和/或第一文本信息；

结果显示模块，设置为在所述第一描述信息为所述第一图像信息的情况下，根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果；在所述第一描述信息为所述第一文本信息的情况下，根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，根据计算出的第三距离显示所述至少一个推荐对象的推荐结果。

还提供了一种服务器，该服务器包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

附图说明

图1是本发明实施例一提供的一种图文联合表征的搜索方法的方法流程图；

图2是本发明实施例一提供的一种图文联合表征的搜索界面的示意图；

图3是本发明实施例一提供的一种图文联合表征的公共空间的示意图；

图4是本发明实施例一提供的一种图文联合表征的代表图矩阵的示意图；

图5是本发明实施例一提供的一种图文联合表征的坐标图的示意图；

图6是本发明实施例一提供的另一种图文联合表征的坐标图的示意图；

图7是本发明实施例二提供的一种图文联合表征的搜索方法的方法流程图；

图8是本发明实施例三提供的一种图文联合表征的搜索系统的结构示意图；

图9是本发明实施例四提供的一种图文联合表征库的生成方法的方法流程图；

图10是本发明实施例五提供的一种图文联合表征库的生成系统的结构示意图；

图11是本发明实施例六提供的一种图文联合表征的分类推荐方法的方法流程图；

图12是本发明实施例七提供的一种图文联合表征的分类推荐方法的方法流程图；

图13是本发明实施例八提供的一种图文联合表征的分类推荐系统的结构示意图；

图14为本发明实施例九提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本公开进行说明。

在讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一概念嵌入特征称为第二概念嵌入特征，且类似地，可将第二概念嵌入特征称为第一概念嵌入特征。第一概念嵌入特征和第二概念嵌入特征两者都是概念嵌入特征，但其不是同一概念嵌入特征。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确限定。

实施例一

如图1所示，本发明实施例一提供了一种图文联合表征的搜索方法，该搜索方法包括：

S110、接收搜索对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息。

本实施例中，搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种，这些搜索对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息，示例性的，若搜索对象是专利文档，那么专利文档中应当包括有文字和附图，即第一图像信息和第一文本信息。

如图2所示，当用户需要进行搜索时，可以在第一边框201中输入搜索对象的第一描述信息的第一文本信息，点击第二边框202以上传搜索对象的第一描述信息的第一图像信息，上传后的第一图像信息将显示在第一显示区207，用户可以通过点击第三边框203开始图文联合表征的搜索，也可以通过点击第四边框204，只通过第一图像信息进行搜索。其中，用户输入的第一文本信息和上传的第一图像信息都可以为多个。此外，用户可以通过点击第五边框205清除输入的所有第一描述信息，通过点击第六边框206选择自己搜索的侧重点，例如选择概念、文字或图像等。

S120、所述第一描述信息为第一图像信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；所述第一描述信息为第一文本信息时，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；所述第一描述信息为第一图像信息和第一文本信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。

本实施例中，所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。其中，图像神经网络可以使用如在图像网(ImageNet)或谷歌开放图像(Google Open Image)上预先训练的残差网络(Residual Network，ResNet)或移动网络(MobileNet)，文本神经网络可以使用词到向量(Word to Vector，word2vec)模型、词表示的全局向量(Global Vectors for Word Representation，GloVe)模型、或基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型等，经过图像神经网络和文本神经网络的嵌入，可以将图像和文本嵌入在两个不同的向量空间中，还需要通过多层感知器或图卷积网络，即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中，以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。

若用户输入的搜索对象的第一描述信息中只包括了第一图像信息，则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量，并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为第一图像嵌入特征，即公共空间中的一个坐标点；若用户输入的搜索对象的第一描述信息中只包括了第一文本信息，则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量，并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为第一文本嵌入特征，即公共空间中的一个坐标点；若用户输入的搜索对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息，则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量，同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量，并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，得到第一图像嵌入特征和第一文本嵌入特征，即公共空间中的两个坐标点。经过上述操作之后，第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来，根据预先训练的神经网络模型，就可以找出第一图像信息和第一文本信息之间的关系。

如图3所示，在公共空间中，第一图像信息经过第一模型的训练就得到了第一图像嵌入特征，即第一坐标点301，第一文本信息经过第二模型的训练就得到了第一文本嵌入特征，即第二坐标点302，即在同一个公共空间中可以将第一图像信息和第一文本信息表示出来并得到它们之间的关系。此外，因为语义的不同，用户在输入多种国家的语言时，得到的第一文本嵌入特征，如第三坐标点303、第四坐标点304和第五坐标点305与第一坐标点301的距离都会有所不同。

S130、所述第一描述信息为第一图像信息时，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离；所述第一描述信息为第一文本信息时，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离；所述第一描述信息为第一图像信息和第一文本信息时，第三距离的计算方式为以下三种方式之一：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。

本实施例中，在用户搜索之前，可以预先建立好图文联合表征库，示例性的，若用户需要搜索专利文档，那么在用户搜索之前可以预先建立好目标文档库，即全部已公开专利文档的图文联合表征库，在该库中的所有专利文档都已转换为第二概念嵌入特征，即公共空间中的坐标点。

若用户输入的搜索对象的第一描述信息中只包括了第一图像信息，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离，即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第一距离；若用户输入的搜索对象的第一描述信息中只包括了第一文本信息，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离，即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离；若用户输入的搜索对象的第一描述信息中既包括了第一图像信息又包括了第一文本信息，则可以通过以下方式之一计算第三距离：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离，即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离，即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离，其中，第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离，即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离，其中，第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。

第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是，利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。

一实施例中，在第三模型训练过程中使用相对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征，将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征，即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。

在一具体实施方式中，可以采用2万个外观专利的数据生成目标文档库，并采用随机选择的1040个外观专利数据作为训练测试集，使用第三模型进行训练，实验结果表明，采用相对铰链损失函数和绝对铰链损失函数的加权相比于其他损失函数的计算方式而言，得到的搜索结果更接近用户输入的搜索对象。

S140、根据所述第一距离、第二距离或第三距离显示搜索结果。

本实施例中，搜索结果的显示方式可以为：将小于预设值的第一距离、第二距离或第三距离对应的目标文档作为搜索结果在显示界面中予以显示。其中，显示的方式可以为只显示目标文档的文字信息，或者只显示目标文档的图像信息，或者同时显示目标文档的文字信息和图像信息。

所述搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息，所述局部信息可以是关键词、图档、语句、段落和分类号中的一种，所述局部组合信息包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时，所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序，例如为距离越小，则对应的专利文档越靠前显示。

如图2所示，搜索结果在第二显示区211显示，按上述顺序显示每一个专利，示例性的，在第一区域208显示对应专利的图档，在第一区域208上方的第二区域209显示对应专利的关键字，其中，在第二区域209中还可以显示相似度，相似度可以根据第一距离、第二距离或第三距离得到。

此外，用户可以从搜索结果中选择一个目标专利，从而根据用户选择目标专利推荐更多与该目标专利概念相似的搜索结果，示例性的，用户在搜索结果中点击一个目标专利的第一区域208下方的第三区域210，则根据该选择的目标专利及其概念相似性进行另一查询，并以类似概念显示更多结果。

一实施例中，所述搜索结果为多个专利文档的代表图矩阵，所述代表图矩阵中的多个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。如图4所示，搜索结果可以为多个专利文档中的摘要附图或代表图按顺序排列的代表图矩阵，第一距离、第二距离或第三距离越小，则在代表图矩阵中该专利文档对应的摘要附图或代表图越靠前显示。

一实施例中，所述搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图，所述相关度通过所述第二概念嵌入特征的坐标位置进行确定，即所述相关度通过所述第二概念嵌入特征在公共空间中的坐标进行确定。如图5所示，搜索结果可以为坐标图，用户输入的搜索对象转换为第一概念嵌入特征对应的坐标点代表该坐标图的原点，搜索结果中的每一个专利文档的第二概念嵌入特征的坐标点在该坐标图中显示，由此可以十分清晰的判断一个或多个专利文档和搜索对象之间的相关度。此外，该展示图支持用户交互，例如用户可以通过将鼠标停留在每一个坐标点，或者通过其他方式查看该专利文档的简略信息，例如浮现出该坐标点对应的专利文档的标题信息、图像信息或分类信息，用户还可以通过点击坐标图501中的每一个坐标点，在坐标图501的第一区域502显示该专利文档的详细信息，不限定第一区域502位于坐标图501的右侧，还可以是其他便于显示的位置。图5中可以使用不同的填充效果(例如不同颜色填充或不同图案填充)区分不同文本信息，例如以倾斜网格线填充的坐标点表示扬声器(Speaker)。

用户可以将该坐标图501进行放大，放大后该坐标图将会变为显示如图6中的第二区域601和第三区域602所示的放大图。当接收到用户选择展示图中的一区域或多个区域时，还可以将选择区域范围内的展示图进行放大显示，得到如图6所示的展示图，该放大后的散点图能够清晰地展示在原散点图中较密集的散点区域。该放大显示的展示图中同样支持上述的用户交互。

S150、根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息，所述分类信息可以为专利分类号。

本实施例中，在搜索结果的界面上还可以显示第一描述信息的推荐分类信息。示例性的，可以取小于预设值的第一距离、第二距离或第三距离对应的目标文档作为参考对象，获取这些参考对象的分类信息，比如专利分类号，选择参考对象共同专利分类号出现频次排名靠前一个或多个专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中，若每个专利分类号都只存在一个或出现频次相同，选择第一距离、第二距离或第三距离的距离最小的目标文档对应的专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中。

一实施例中，用户可以输入不相关联的第一描述信息，示例性的，用户输入的第一描述信息包括第一图像信息和第一文本信息，其中，第一图像信息为“飞机”的图像，第一文本信息为“汽车”，将第一图像信息和第一文本信息转换为第一概念嵌入特征后计算与预先存储的第二概念嵌入特征的第三距离，就可以得到与第一图像信息为“飞机”的图像且第一文本信息为“汽车”最相关的目标文档，这对于有一些模糊的创新想法的用户是十分有帮助的。

本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；根据所述第三距离显示搜索结果，解决了用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息，以及不能确定事物的概念之间存在的内在相似性的问题，实现了提高搜索的准确性和多样性的效果。

实施例二

如图7所示，本发明实施例二提供了一种图文联合表征的搜索方法，本发明实施例二是在本发明实施例一的基础上进行说明，其中，所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括：

S210、获取预先存储的多个目标文档的第二图像信息和/或第二文本信息。

S220、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征。

S230、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征。

S240、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。

本实施例中，获取第二概念嵌入特征的方式和本发明实施例一中获取第一概念嵌入特征的方式相同，可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量；利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中，变换为第二图像嵌入特征；利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量；利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中，变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中，在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。

实施例三

如图8所示，本发明实施例三提供了一种图文联合表征的搜索系统100，本发明实施例三所提供的图文联合表征的搜索系统100可执行本发明任意实施例所提供的图文联合表征的搜索方法，具备执行方法相应的功能模块和效果。该搜索系统100包括信息接收模块110、特征提取模块120、距离计算模块130和结果显示模块140。

信息接收模块110设置为接收搜索对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息；特征提取模块120设置为所述第一描述信息为第一图像信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；所述第一描述信息为第一文本信息时，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；所述第一描述信息为第一图像信息和第一文本信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；距离计算模块130设置为所述第一描述信息为第一图像信息时，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离；所述第一描述信息为第一文本信息时，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离；所述第一描述信息为第一图像信息和第一文本信息时，第三距离的计算方式为以下三种方式之一：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；结果显示模块140设置为根据所述第一距离、第二距离或第三距离显示搜索结果。

本实施例中，特征提取模块120还设置为获取预先存储的多个目标文档的第二图像信息和/或第二文本信息；利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征；利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征；根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。

距离计算模块130是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征，利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。

本实施例中，搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息，所述局部信息可以是关键词、图档、语句、段落和分类号中的一种，所述局部组合信息包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时，所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序。

所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块120是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为第一图像嵌入特征；利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为第一文本嵌入特征。

可选的，搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图，所述相关度通过所述第二概念嵌入特征的坐标位置进行确定。可选的，搜索结果为多个专利文档的代表图矩阵，所述代表图矩阵中的多个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。

该图文联合表征的搜索系统100还包括分类生成模块150，该分类生成模块150设置为根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息，所述分类信息可以为专利分类号。

实施例四

如图9所示，本发明实施例四提供了一种图文联合表征库的生成方法，该生成方法包括：

S310、获取多个目标文档的第一图像信息和第一文本信息。

本实施例中，所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种，这些目标文档中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息，示例性的，若目标文档是专利文档，那么专利文档中应当包括文字和附图，即第一图像信息和第一文本信息。

S320、利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。

本实施例中，所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。其中，图像神经网络可以使用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet，文本神经网络可以使用word2vec模型、GloVe模型、或BERT模型等，经过图像神经网络和文本神经网络的嵌入，可以将图像和文本嵌入在两个不同的向量空间中，还需要通过多层感知器或图卷积网络，即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中，以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。

首先利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量，同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量，并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，得到第一图像嵌入特征和第一文本嵌入特征，即公共空间中的两个坐标点。经过上述操作之后，第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来，根据预先训练的神经网络模型，就可以找出第一图像信息和第一文本信息之间的关系。

S330、根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征。

本实施例中，可以利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征。其中，用户可以选择只通过第一图像嵌入特征来生成第一概念嵌入特征，那么第一图像嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点；用户也可以选择只通过第一文本嵌入特征来生成第一概念嵌入特征，那么第一文本嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点；用户还可以选择通过第一图像嵌入特征和第一文本嵌入特征来生成第一概念嵌入特征，则通过预先训练的第三模型将第一图像嵌入特征和第一文本嵌入特征在公共空间生成新的坐标点，该坐标点即为第一概念嵌入特征在公共空间代表的坐标点。

所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数，一实施例中，在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征，即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。

本发明实施例步骤S310-步骤S330的实现方法可参考本发明实施例一。

S340、根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。

本实施例中，当将多个目标文档全部转换为第一概念嵌入特征后，即公共空间中包括多个目标文档对应的坐标点，相当于多个目标文档的图文联合表征库已完成建立，此时用户可以通过本发明实施例一的方法，在该图文联合表征库中进行搜索，因目标文档已经转换为第一概念嵌入特征，此时通过同样的方法将用户输入的信息转换为对应的概念嵌入特征，在公共空间中就可以计算与用户输入的信息对应的概念嵌入特征距离小于预设值的第一概念嵌入特征，与之对应的目标文档即为用户可能需要搜索的目标文档。

本发明实施例通过获取多个目标文档的第一图像信息和第一文本信息；利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征；根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库，解决了用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息，以及不能确定事物的概念之间存在的内在相似性的问题，实现了提高搜索的准确性和多样性的效果。

实施例五

如图10所示，本发明实施例五提供了一种图文联合表征库的生成系统200，本发明实施例五所提供的图文联合表征库的生成系统200可执行本发明任意实施例所提供的图文联合表征库的生成方法，具备执行方法相应的功能模块和效果。该生成系统包括信息获取模块210、特征提取模块220、特征生成模块230和表征库建立模块240。

信息获取模块210设置为获取多个目标文档的第一图像信息和第一文本信息；特征提取模块220设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；特征生成模块230设置为根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征；表征库建立模块240设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。

本实施例中，目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。

特征生成模块230是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。

所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块220是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为第一图像嵌入特征；利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为第一文本嵌入特征。

实施例六

如图11所示，本发明实施例六提供了一种图文联合表征的分类推荐方法，该分类推荐方法包括：

S410、接收一个或多个推荐对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息。

本实施例中，推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种，这些推荐对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息，示例性的，若推荐对象是专利文档，那么专利文档中必然包括法律规定应当有的文字和附图，即第一图像信息和第一文本信息。

S420、所述第一描述信息为第一图像信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；所述第一描述信息为第一文本信息时，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；所述第一描述信息为第一图像信息和第一文本信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。

若用户输入的推荐对象的第一描述信息中只包括了第一图像信息，则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量，并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为第一图像嵌入特征，即公共空间中的一个坐标点；若用户输入的推荐对象的第一描述信息中只包括了第一文本信息，则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量，并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为第一文本嵌入特征，即公共空间中的一个坐标点；若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息，则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量，同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量，并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，得到第一图像嵌入特征和第一文本嵌入特征，即公共空间中的两个坐标点。经过上述操作之后，第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来，根据预先训练的神经网络模型，就可以找出第一图像信息和第一文本信息之间的关系。

S430、所述第一描述信息为第一图像信息时，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离；所述第一描述信息为第一文本信息时，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离；所述第一描述信息为第一图像信息和第一文本信息时，第三距离的计算方式为以下三种方式之一：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。

本实施例中，在用户推荐之前，可以预先建立好图文联合表征库，示例性的，若用户需要推荐专利文档，那么在用户推荐之前可以预先建立好目标文档，即全部已公开专利文档的图文联合表征库，在该库中的所有专利文档都已转换为第二概念嵌入特征，即公共空间中的坐标点。

若用户输入的推荐对象的第一描述信息中只包括了第一图像信息，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离，即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第一距离；若用户输入的推荐对象的第一描述信息中只包括了第一文本信息，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离，即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离；若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息，则可以通过以下方式之一计算第三距离：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离，即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离，即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离，其中，第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离，即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离，其中，第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。

第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中，在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征，将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征，即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。

本发明实施例步骤S410-步骤S430的实现方法可参考本发明实施例一。

S440、根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。

本实施例中，推荐结果的显示方式可以为：第一距离、第二距离或第三距离的距离越小，则第一距离、第二距离或第三距离对应的目标文档在推荐结果的界面中越靠前显示，距离最小的目标文档在第一个显示。其中，显示的方式可以为只显示目标文档的文字信息，或者只显示目标文档的图像信息，或者同时显示目标文档的文字信息和图像信息。

推荐结果可以为一个或多个推荐对象的分类号，一实施例中，用户可以将专利文档作为推荐对象输入，取小于一预设阈值的第一距离、第二距离或第三距离对应的目标文档的专利分类号，选择相同专利分类号最多的专利分类号显示在推荐结果的界面中，若每个专利分类号都只存在一个，选择距离最小的第一距离、第二距离或第三距离对应的目标文档对应的专利分类号显示在推荐结果的界面中。

本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；根据所述第三距离显示所述一个或多个推荐对象的推荐结果，解决了用户无法通过自己仅了解到的文字信息或者图像信息获得对应的相似图像信息或者文字信息，以及不能确定事物的概念之间存在的内在相似性的问题，实现了提高用户获取信息的用户体验的效果。

实施例七

如图12所示，本发明实施例七提供了一种图文联合表征的分类推荐方法，本发明实施例七是在本发明实施例六的基础上进行说明，其中，所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括：

S510、获取预先存储的第二图像信息和第二文本信息。

S520、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征。

S530、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征。

S540、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。

本实施例中，获取第二概念嵌入特征的方式和本发明实施例六中获取第一概念嵌入特征的方式相同，可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量；利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中，变换为第二图像嵌入特征；利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量；利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中，变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中，在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。

实施例八

如图13所示，本发明实施例八提供了一种图文联合表征的分类推荐系统300，本发明实施例八所提供的图文联合表征的分类推荐系统300可执行本发明任意实施例所提供的图文联合表征的分类推荐方法，具备执行方法相应的功能模块和效果。该分类推荐系统300包括信息接收模块310、特征提取模块320、距离计算模块330和结果显示模块340。

信息接收模块310设置为接收一个或多个推荐对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息；特征提取模块320设置为所述第一描述信息为第一图像信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；所述第一描述信息为第一文本信息时，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；所述第一描述信息为第一图像信息和第一文本信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；距离计算模块330设置为所述第一描述信息为第一图像信息时，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离；所述第一描述信息为第一文本信息时，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离；所述第一描述信息为第一图像信息和第一文本信息时，第三距离的计算方式为以下三种方式之一：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；结果显示模块340设置为根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。

本实施例中，特征提取模块320还设置为获取预先存储的第二图像信息和第二文本信息；利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征；利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征；根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。

距离计算模块330是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述第一概念嵌入特征，利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征，所述第三模型训练过程中，使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。

本实施例中，所述一个或多个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。所述推荐结果为一个或多个推荐对象的分类号。

所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块320是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为第一图像嵌入特征；利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为第一文本嵌入特征。

实施例九

图14为本发明实施例九提供的一种服务器的结构示意图。图14示出了适于用来实现本发明实施方式的示例性服务器12的框图。图14显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线，微通道体系结构(MicroChannel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器12包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。服务器12可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以设置为读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供设置为对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字多功能盘只读存储器(Digital Versatile Disc-ROM，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个信息介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序信息，这些示例中的每一个或一种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及信息备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行多种功能应用以及信息处理，例如实现本发明实施例所提供的图文联合表征的搜索方法：

接收搜索对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息。

所述第一描述信息为第一图像信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；所述第一描述信息为第一文本信息时，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；所述第一描述信息为第一图像信息和第一文本信息时，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。

所述第一描述信息为第一图像信息时，计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离；所述第一描述信息为第一文本信息时，计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离；所述第一描述信息为第一图像信息和第一文本信息时，第三距离的计算方式为以下三种方式之一：1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征，计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离；2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离；3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。

根据所述第一距离、第二距离或第三距离显示搜索结果。

或图文联合表征库的生成方法：

获取多个目标文档的第一图像信息和第一文本信息；利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征；根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。

或一种图文联合表征的分类推荐方法：

接收一个或多个推荐对象的第一描述信息，所述第一描述信息为第一图像信息和/或第一文本信息。

根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。

实施例十

本发明实施例十还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所提供的图文联合表征的搜索方法：

根据所述第一距离、第二距离或第三距离显示搜索结果。

或图文联合表征库的生成方法：

或一种图文联合表征的分类推荐方法：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包括或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的信息信号，其中承载了计算机可读的程序代码。这种传播的信息信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包括的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种图文联合表征的搜索方法，包括：

接收搜索对象的第一描述信息，其中，所述第一描述信息为第一图像信息和第一文本信息中的至少之一；

在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；根据计算出的多个第一距离显示搜索结果；

在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；根据计算出的多个第二距离显示搜索结果；

在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；通过执行以下之一计算第三距离，并根据计算出的第三距离显示搜索结果：

根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；

计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；

计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
根据权利要求1所述的搜索方法，其中，所述多个预先存储的目标文档的概念嵌入特征的获取方式包括：

获取多个预先存储的目标文档的以下信息的至少之一：第二图像信息、第二文本信息；

在获取的信息为第二图像信息的情况下，利用所述预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征；根据所述第二图像嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征；

在获取的信息为第二文本信息的情况下，利用所述预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征；根据所述第二文本嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征；

在获取的信息为第二图像信息和第二文本信息的情况下，利用所述预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征，并利用所述预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征；根据所述第二图像嵌入特征和所述第二文本嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征。
根据权利要求2所述的搜索方法，其中，所述根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，以及所述根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征包括：

利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述概念嵌入特征，利用所述预先训练的第三模型根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征，其中，所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
根据权利要求1所述的搜索方法，其中，所述搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的至少一种。
根据权利要求1所述的搜索方法，其中，所述搜索结果为至少一个专利文档的全部信息、局部信息或局部组合信息，所述局部信息是关键词、图档、语句、段落和分类号中的一种，所述局部组合信息包括图档和关键词。
根据权利要求5所述的搜索方法，其中，在所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息的情况下，所述多个专利文档的全部信息、局部信息或局部组合信息的显示按计算出的多个第一距离、计算出的多个第二距离或计算出的多个第三距离的大小进行排序。
根据权利要求1所述的搜索方法，其中，所述根据计算出的多个第一距离、计算出的多个第二距离或计算出的第三距离显示搜索结果之后包括：

根据计算出的多个第一距离、计算出的多个第二距离或计算出的第三距离生成所述第一描述信息的分类信息，其中，所述分类信息为专利分类号。
根据权利要求1所述的搜索方法，其中，所述搜索结果为至少一个专利文档和搜索对象之间的相关度的展示图，其中，所述相关度通过所述预先存储的目标文档的概念嵌入特征的坐标位置进行确定。
根据权利要求1所述的搜索方法，其中，所述搜索结果为多个专利文档的代表图矩阵，其中，所述代表图矩阵中的多个代表图按计算出的多个第一距离、计算出的多个第二距离或计算出的多个第三距离的大小进行位置排列。
根据权利要求2所述的搜索方法，其中，所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。
根据权利要求10所述的搜索方法，其中，所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征，包括：

利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；

利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为所述第一图像嵌入特征；

利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；

利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为所述第一文本嵌入特征。
一种图文联合表征的搜索系统，包括：

信息接收模块，设置为接收搜索对象的第一描述信息，其中，所述第一描述信息为第一图像信息和第一文本信息中的至少之一；

特征提取模块，设置为在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

距离计算模块，设置为在所述第一描述信息为所述第一图像信息的情况下，计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；在所述第一描述信息为所述第一文本信息的情况下，计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，第三距离的计算方式为以下三种方式之一：根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离；

结果显示模块，设置为在所述第一描述信息为所述第一图像信息的情况下，根据计算出的多个第一距离显示搜索结果；在所述第一描述信息为所述第一文本信息的情况下，根据计算出的多个第二距离显示搜索结果；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，根据计算出的第三距离显示搜索结果。
一种图文联合表征库的生成方法，包括：

获取多个目标文档的第一图像信息和第一文本信息；

利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征；

根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
根据权利要求13所述的生成方法，其中，所述根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征包括：

利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成所述第一概念嵌入特征，其中，所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
根据权利要求13所述的生成方法，其中，所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的至少一种。
根据权利要求13所述的生成方法，其中，所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。
根据权利要求16所述的生成方法，其中，所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征，包括：

利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；

利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为所述第一图像嵌入特征；

利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；

利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为所述第一文本嵌入特征。
一种图文联合表征库的生成系统，包括：

信息获取模块，设置为获取多个目标文档的第一图像信息和第一文本信息；

特征提取模块，设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

特征生成模块，设置为根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征；

表征库建立模块，设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
一种图文联合表征的分类推荐方法，包括：

接收至少一个推荐对象的第一描述信息，其中，所述第一描述信息为第一图像信息和第一文本信息中的至少之一；

在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果；

在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果；

在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；通过执行以下之一计算第三距离，并根据计算出的第三距离显示所述至少一个推荐对象的推荐结果：

根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；

计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；

计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
根据权利要求19所述的分类推荐方法，其中，所述多个预先存储的目标文档的概念嵌入特征的获取方式包括：

获取多个预先存储的目标文档的第二图像信息和第二文本信息；

利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征；

利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征；

根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征。
根据权利要求20所述的分类推荐方法，其中，所述根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，以及根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征包括：

利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述概念嵌入特征，利用所述预先训练的第三模型根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征，其中，所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
根据权利要求19所述的分类推荐方法，其中，所述至少一个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
根据权利要求19所述的分类推荐方法，其中，所述推荐结果为至少一个推荐对象的分类号。
根据权利要求19所述的分类推荐方法，其中，所述第一模型包括图像神经网络和图像映射神经网络，所述第二模型包括文本神经网络和文本映射神经网络。
根据权利要求24所述的分类推荐方法，其中，所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征，包括：

利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量；

利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中，变换为所述第一图像嵌入特征；

利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量；

利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中，变换为所述第一文本嵌入特征。
一种图文联合表征的分类推荐系统，包括：

信息接收模块，设置为接收至少一个推荐对象的第一描述信息，其中，所述第一描述信息为第一图像信息和第一文本信息中的至少之一；

特征提取模块，设置为在所述第一描述信息为所述第一图像信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征；在所述第一描述信息为所述第一文本信息的情况下，利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征，并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征；

距离计算模块，设置为在所述第一描述信息为所述第一图像信息的情况下，计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离；在所述第一描述信息为所述第一文本信息的情况下，计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，第三距离的计算方式为以下三种方式之一：根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征，计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离；计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离，计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离；计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离，计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离；

结果显示模块，设置为在所述第一描述信息为所述第一图像信息的情况下，根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果；在所述第一描述信息为所述第一文本信息的情况下，根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果；在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下，根据计算出的第三距离显示所述至少一个推荐对象的推荐结果。
一种服务器，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-11，13-17，19-25中任一项所述的方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-11，13-17，19-25中任一项所述的方法。