WO2023225919A1

WO2023225919A1 - 一种视觉搜索方法及装置

Info

Publication number: WO2023225919A1
Application number: PCT/CN2022/095061
Authority: WO
Inventors: 蒋昊; 蒋杰; 杨光
Original assignee: 华为技术有限公司
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-11-30

Abstract

提供一种视觉搜索，包括获取待搜索图像（601）；基于待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，第一轮次搜索结果包括多个达标的第一级别的对象；其中，查询推荐库中包括N个级别的对象，每个第N-1级别的对象对应多个第N级别的对象，N为大于1的整数，对象包括文本内容和/或图像内容和/或视频内容和/或音频内容（602）；将待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，第一目标对象为用户从所述多个达标的第一级别的对象中选中的对象（603）；基于第一累积搜索意图特征，得到第二轮次搜索结果，第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象（604）。

Description

一种视觉搜索方法及装置

技术领域

本申请涉及搜索技术领域，尤其涉及一种视觉搜索方法及装置。

背景技术

视觉搜索是互联网领域的关键技术之一，典型应用如“以图搜图”、“以图搜文”。通过视觉搜索，为用户提供互联网上搜索相关图形图像资料检索服务的专业搜索的引擎系统，是搜索引擎的一种细分，如微软公司的“必应”搜索引擎，通过图片帮助用户更方便地完成特定搜索任务。在当前消费者注意范围、时间锐减的数字时代，有效的通过视觉搜索来捕捉用户切实需求，提升用户消费体验越来越成为各大电商平台的发展共识。另一方面，Data Bridge调查显示，视觉搜索的市场估值将从60亿美元增长至300亿美元，快速增长的市场不断推动相关视觉搜索技术的迭代发展。

但是现有技术中的视觉搜索存在着灵活性差，只能被动响应用户Querry，无法帮助用户识别或完善尚不明确的搜索意图，进而导致搜索结果准确度不高，用户体验差的问题。

发明内容

本申请的实施例提供一种视觉搜索方法及装置，通过多轮交互，帮助用户高效、清晰、完整的描述搜索意图，引导和完善用户的搜索意图，主动挖掘用户潜在兴趣点，提高搜索的有效性和灵活性。

第一方面，本申请提供了一种视觉搜索方法，包括，获取待搜索图像；基于待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，第一轮次搜索结果包括多个达标的第一级别的对象；其中，查询推荐库中包括N个级别的对象，每个第N-1级别的对象对应多个第N级别的对象，N为大于1的整数，对象包括文本内容和/或图像内容和/或视频内容和/或音频内容；将待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，第一目标对象为用户从多个达标的第一级别的对象中选中的对象；基于第一累积搜索意图特征，得到第二轮次搜索结果，第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。

在该可能的实现中，通过多轮交互，帮助用户高效、清晰、完整的描述搜索意图，引导和完善用户的搜索意图，主动挖掘用户潜在兴趣点，提高搜索的有效性和灵活性。

在一个可能的实现中，将与待搜索图像的相似度大于预设阈值的第一级别的对象确定为达标的第一级别的对象。

在另一个可能的实现中，第一轮次搜索结果中多个达标的第一级别的对象按照与待搜索图像的相似度由高到低进行排序。

在另一个可能的实现中，将与第一累积搜索意图特征的相似度大于预设阈值的第二级别的对象确定为达标的第二级别的对象。

在另一个可能的实现中，第二轮次搜索结果中多个达标的第二级别的对象按照与第一累积搜索意图特征的相似度由高到低进行排序。

在另一个可能的实现中，将第M累积意图特征与第L目标对象的特征进行晚交互融合，得到最终搜索意图，其中，第L目标对象为用户从多个达标的第L级别的对象中选中的对象，M为大于或等于1的正整数，L为大于M的正整数；基于最终搜索意图，得到最终搜索结果，最终搜索结果包括第L目标对象对应的达标的第L+1级别的对象。

在一个示例中，最终搜索意图还与第一文本特征相关，第一文本特征为用户输入的查询文本的特征。

在另一个可能的实现中，最终搜索结果包括卡片搜索结果和/或扩展搜索结果。

在另一个可能的实现中，查询推荐库中包括多种模态的信息，多种模态的信息为树状结构，树状结构的节点表征所述对象，树状结构的不同层级的节点表征不同级别的对象。

第二方面，本申请提供了一种视觉搜索装置，包括：

获取模块，用于获取待搜索图像；

累计搜索意图确定模块，用于基于所述待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，所述第一轮次搜索结果包括多个达标的第一级别的对象；

其中，所述查询推荐库中包括N个级别的对象，所述每个第N-1级别的对象对应多个第N级别的对象，所述N为大于1的整数，所述对象包括文本内容和/或图像内容和/或视频内容和/或音频内容；

将所述待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，所述第一目标对象为用户从所述多个达标的第一级别的对象中选中的对象；

搜索结果确定模块，用于基于所述第一累积搜索意图特征，得到第二轮次搜索结果，所述第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。

在一个可能的实现中，将与所述待搜索图像的相似度大于预设阈值的第一级别的对象确定为达标的第一级别的对象。

在另一个可能的实现中，所述第一轮次搜索结果中多个达标的第一级别的对象按照与所述待搜索图像的相似度由高到低进行排序。

在另一个可能的实现中，将与所述第一累积搜索意图特征的相似度大于预设阈值的第二级别的对象确定为达标的第二级别的对象。

在另一个可能的实现中，所述第二轮次搜索结果中多个达标的第二级别的对象按照与所述第一累积搜索意图特征的相似度由高到低进行排序。

在另一个可能的实现中，搜索结果确定模块，还用于将所述第M累积意图特征与所述第L目标对象的特征进行晚交互融合，得到最终搜索意图，其中，所述第L目标对象为用户从所述多个达标的第L级别的对象中选中的对象，所述M为大于或等于1的正整数，所述L为大于M的正整数；

基于最终搜索意图，得到最终搜索结果，所述最终搜索结果包括第L目标对象对应的达标的第L+1级别的对象。

在另一个可能的实现中，所述最终搜索意图还与第一文本特征相关，所述第一文本特征为所述用户输入的查询文本的特征。

在另一个可能的实现中，所述最终搜索结果包括卡片搜索结果和/或扩展搜索结果。

在另一个可能的实现中，所述查询推荐库中包括多种模态的信息，所述多种模态的信息为树状结构，所述树状结构的节点表征所述对象，所述树状结构的不同层级的节点表征不同级别的对象。

第三方面，本申请提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现第一方面所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本申请第一方面所述的方法。

第五方面，本申请提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括指令，当所述指令被执行时，实现本申请第一方面所述的方法。

附图说明

图1示出了一种视觉搜索的流程示意图；

图2为本申请实施例提供的一种视觉搜索系统的架构图；

图3为查询推荐库的构建过程示意图；

图4为搜索过程中查询推荐库的查询推荐示意图；

图5a为卡片搜索结果示意图；

图5b为扩展搜索结果示意图；

图6为本申请实施例提供的一种视觉搜索方法的流程图；

图7为本申请实施例提供的一种视觉搜索装置的结构示意图；

图8为本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

为了更好的理解本申请实施例提供的技术方案，下面对其中的一些术语进行简单介绍。

query：用户在搜索框输入的内容。

语义空间：即语言意义的世界，每一种符号体系在广义上都是传达意义的语言，它们所表达的意义构成了特定的语义空间。

语义特征：将内容含义的基本概念、含义用特征数值向量进行表示。

模态：每一种信息的来源或者形式，都可以称为一种模态。

跨模态检索：信息检索的需求往往不只是同一事件单一模态的数据，也可能需要其他模态的数据来丰富我们对同一事物或事件的认知，此时就需要跨模态检索来实现不同模态数据之间的检索。

多源融合：将各种不同的数据信息进行综合，吸取不同数据源的特点，然后从中提取出统一的，比单一数据更好、更丰富的信息。

向量检索：在一个给定向量数据集中，按照某种度量方式，检索出与查询向量相近的K个向量。

图谱：表示一些事物、对象、实体与另一些事物、对象、实体之间相互连接的结构。

图1示出了一种视觉搜索的流程示意图。如图1所示，为了完成视觉搜索的技术实现，视觉搜索包括如下几个步骤：

1)离线构建数据底库，通过数据挖掘技术，从各结构化(如商品库)或非结构化(如网页)数据源获取并过滤关键信息，以此实现离线建库操作；

2)在线对用户实际query内容，文本使用BERT进行语义特征计算，图片使用SWIN TRANSFORMER等进行语义特征计算，并将结果特征投影到和离线建库语料相同语义空间内；

3)以实际query内容特征为依据，从离线底库中进行基于特征相似度的匹配检索和粗召回；

4)进一步的结合粗召回的推荐结果进行精排，并返回最终推荐结果。

然而，面对实际场景中多模信息及推荐的有效性，该视觉搜索方法的推荐越发捉襟见肘。

为了解决上述问题，本申请实施例提出几种视觉搜索方案。

第一方案视觉搜索方案包括：内容底库构造：对商品图、网页图等清洗后构建图片底库，通过数据挖掘技术，从各结构化(如商品库)或非结构化(如网页)数据源中提取标签，去重、清洗后构建文本标签底库；

内容语义特征计算：通过多模态语义模型的文本塔、图片塔，分别计算底库中各个标签、各图片的内容特征向量；

查询语义特征计算：通过多模态语义模型的图片塔，计算用户Query图片的语义特征向量；

内容搜索(以图搜图、以图搜文)：对查询特征和内容底库中文本、图片的特征进行相似度计算，返回相似度较高的搜索内容给用户，最终实现视觉搜索的效果。

第一种视觉搜索方案，基于多模语义匹配，通过计算图文模态特征，在一定程度上能够准确的判断query图片和底库内容间的通用相关性，进而实现视觉搜索的目标。然而，仍然存在搜索的灵活性差，被动响应等缺点。

搜索灵活性差：仅支持单轮图片查询，以致用户无法完整描述复杂搜索意图，例如“(图片中)这种情况如何修理”。输入意图信息有限，系统只能通过计算通用语义相关性，完成找相似、识物等简单搜索请求。

被动响应：只能被动响应用户Query，无法帮助用户识别、完善尚不明确的搜索意图，同样无法主动激发用户搜索兴趣，制约搜索流量、时长。

第二种视觉搜索方案为：根据用户的搜索内容进行填充和拓展，并提供搜索引擎认为与主题相关的事情，进而帮助用户更快、更好的获取推荐信息。用于处理复杂的多模搜索。其中对视觉搜索的体验创新做出来进一步的特性阐释，从技术角度分析，其在基础视觉搜索的基础上允许用户额外输入文本Query，发起图文融合搜索，显著提升了搜索的灵活性，能够支持部分传统搜索技术无法完成的搜索意图。

第二种视觉搜索方案，存在着如下问题：

被动响应：只能被动响应用户Query，无法帮助用户识别尚不明确的搜索意图，同样地，该方案也无法主动激发用户搜索兴趣，且制约搜索流量、时长。

操作复杂：一方面，用户需要进行两次查询输入(上传图片+输入文本)才能完成复杂意图搜索，违背视觉搜索“一拍即得”的用户心智；另一方面，用户对搜索结果不满意时，每次都需要重新输入查询。

第三种视觉搜索方案包括：

(1)利用表示模型计算用户输入内容的特征向量表示；

(2)根据输入内容的特征向量在离线构建底库中做相似度检索，返回排序后的结果；

(3)结合用户输入内容及返回结果，给予用户进一步细化的搜索推荐项；

(4)在用户根据细化后的搜索推荐项进行交互后，再次计算内容的特征向量，并以此为锚点，在上轮返回推荐结果中进行二次检索；

(5)重复上述对话交互流程，直至引导用户完成搜索意图的有效推荐。

该技术方案通过用户不断的输入检索内容(文本，图片)，以输入内容做向量空间的表示，在图文融合的基础上不断的细化检索范围，以期实现交互式的复杂查询。该方案在一定程度上以对话递进式的提升处理复杂查询的能力。

第三种视觉搜索方法，基于多模态对话式的搜索在图文融合的基础上，加入多轮交互能力，提升复杂查询的效率，但仍存在以下缺点：

(1)被动响应：只能被动响应用户Query，无法帮助用户识别尚不明确的搜索意图；

(2)操作复杂：需要用户不断的细化查询需求，严重影响用户输入内容，降低用户体验；

(3)技术难度大：相关配套技术主要存在学术圈，距工业落地有很大距离，难以商用。

为了解决上述方案及现有技术存在的问题，本申请实施例提出一种视觉搜索方法，以多层次查询推荐库为基础，充分挖掘结构化、非结构化的多源数据，自动构建多层次树状查询推荐底库，以晚交互的多源内容融合策略，结合用户行为(输入图片，点击等)从广度和深度两个维度进行持续更新查询推荐，帮助用户高效、清晰、完整的描述搜索意图，引导和完善用户的搜索意图，主动挖掘用户潜在兴趣点，提高搜索的有效性和灵活性。

图2为本申请实施例提供的一种视觉搜索系统的架构图。该系统主要包括离线和在线两个模块组件。

离线模块组件包括：查询推荐库构造模块、多模态内容库、多层次查询推荐库、内容底库构造模块。

在线模块组件包括：人机交互模块、多模态信息理解模块、多元信息融合模块、语义向量检索模块。

其中，离线模块组件中的查询推荐库构造模块：用于利用图谱、多级标签等结构化数据构造树桩；挖掘网页/日志等高频词扩充根部节点数量。从深度和广度进行关系节点扩充，并且基于同义词典、语言模型等工具对节点去重，合并重复节点下挂载的各个子树或叶节点；

在线模块组件中的多模态信息理解模块：用于基于Query内容特征和查询推荐计算相似度进行推荐，结合用户在线行为累积完善用户查询意图，用于用户意图的调整推荐；

在线模块中多元信息融合模块：基于累积意图特征、下一层节点查询推荐文本特征进行晚交互融合建模，检索内容底库的各模态信息，返回Top-1作为节点的查询推荐详情内容；进一步拓展搜索，基于累积意图特征(并可进一步融合用户额外输入文本特征)进行扩展搜索，返回更多内容资讯。

该视觉搜索系统为多层次对话式查询推荐的视觉搜索系统，该系统的主要功能是基于用户输入的Query图片和交互式的点滑推荐结果，进行用户行为累积的交互，引导和完善用户的搜索意图，主动挖掘用户潜在兴趣点，提高搜索的有效性和灵活性，返回用户有效检索结果。离线模块组件的主要任务是从多源数据中提取查询推荐的上下位等结构信息，构建多层次(树状)的查询推荐库。在线模块组件的主要任务是通过会话式的跨模态查询推荐和多元融合内容进行用户搜索意图的引导和完善，持续交互直至搜索完成。

实现步骤如下：

S1、在特定硬件服务器上部署该系统，离线模块组件和在线模块组件可以部署在同一个硬件服务器上，也可以分别部署。

S2、离线阶段从多源数据中提取查询推荐的上下位等结构信息，构建多层次(树状)的查询推荐底库，完成多层次查询推荐库的离线构造。分别通过数据的多级类目标签等结构化计算逻辑数桩，在语义上的相似度在进行深度(基于带同义判断的包含关系扩充子节点)和广度(基于带同义判断的交叉关系、相同图片中的共现关系扩充兄弟节点，校验与父节点关系后加入)上扩充。同时，基于同义词典、语言模型等工具对节点去重，合并重复节点下挂载的各个子树或叶节点，具体实施如图3所示。

S3、在线推荐阶段，基于Query图片和多层次查询推荐库引导用户交互，持续完善累积意图特征，直至搜索完成(过程中支持回退)。首先，针对首层节点(即最靠近根节点的分支节点)，基于Query图片特征和查询推荐特征相似度，从全部节点中选择首层推荐并排序；针对后续层，返回用户选择节点的子节点作为下一层候选；接着基于Query图片特征、用户选中的查询推荐文本特征进行晚交互融合建模，完善累积意图特征。最后，基于当前累积意图特征和子节点查询推荐文本特征的相似度，对下一层节点进行在线剪枝和重排序(参加图4)。

S4、基于累积意图特征、下一层查询推荐特征、用户额外输入文本特征进行多元融合，以检索内容底库中的各模态资讯，最终提供卡片搜索(参加图5a)和/或扩展搜索结果(参加图5b)。

图6为本申请实施例提供的一种视觉搜索方法的流程图。该视觉搜索方法可以通过图2所示的视觉搜索系统实现，如图6所示，本申请实施例提供的一种视觉搜索方法包括步骤S601至步骤S604。

在步骤S601中，获取待搜索图像。

待搜索图像可以由搜索终端接收用户输入，并上传至服务器。搜索终端(例如智能手机)可以通过摄像装置(例如手机摄像头)进行拍摄得到待搜索图像，也可以从本地存储中直接调用图像作为待搜索图像，本申请对获取待搜索图像的具体方式不做限定。

在步骤S602中，基于待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，第一轮次搜索结果包括多个达标的第一级别的对象。

提取待搜索图像的语义特征，例如，通过SWIN TRANSFORMER模型提取得到待搜索图像的语义特征，将待搜索图像的语义特征映射至与查询推荐库相同的语义空间内，得到待搜索图像的语义特征向量；然后再将待搜索图像的语义特征向量与查询推荐库中的第一级别的对象的特征计算相似度，将相似度大于预设阈值(例如0.8)的第一级别的对象确定为达标的对象，将多个达标的第一级别的对象作为第一轮次的搜索结果。

其中，查询推荐库中包括N个级别的对象，每个第N-1级别的对象对应多个第N级别的对象，N为大于1的整数，对象包括文本内容和/或图像内容和/或视频内容和/或音频内容；也就是说，查询推荐库中的信息为多模态信息，包括文本内容信息、图像内容信息和音频内容信息等。

可选的，查询推荐库中的多种模态的信息为树状结构，树状结构的节点表征对象，树状结构的不同层级的节点表征不同级别的对象。查询推荐库的构建及树桩结构的具体结构可参加上文中对查询推荐库的描述，为了简洁，这里不再赘述。

通过查询推荐库的设置充分挖掘结构化、非结构化的多源数据，自动构造多层次树状查询推荐库，结构化梳理用户信息检索、信息探索的潜在路径，为本申请实施例提供的视觉搜索方法的实现提供有效、低成本、可扩展的数据支持。

在一个示例中，第一轮次搜索结果中多个达标的第一级别的对象按照与待搜索图像的相似度由高到低进行排序。例如，如图4所示，通过计算待搜索图像和各个第一级别的对象的相似度后，相似度达标的第一级别的对象依照相似度由高到低排序为自行车配件、螺钉…钢丝，也就是说，第一轮次的搜索结果，会按照与待搜索图片的相似度的高低进行排序，向用户进行展示搜索结果，相似度越高的，也就意味着与用户的初始搜索意图越接近，越可能是用户想要搜索的内容，排序越靠前，方便用户更快得找到自己想要搜索的内容。

在步骤S603中，将待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，第一目标对象为用户从多个达标的第一级别的对象中选中的对象。

得到待搜索图像的特征向量和第一目标对象的特征向量后，将待搜索图像的特征向量和第一目标对象的特征向量进行加权融合，得到第一累积搜索意图。待搜索图像的特征向量的权重和第一目标对象的特征向量的加权权重可以是多种方式确定，例如，系统默认或用户设置等方式。

第一目标对象为用户选中的第一级别的对象，例如，用户通过点击屏幕中第一轮次搜索结果中的某个第一级别的对象作为第一目标对象，例如图4中的自行车配件。

可以从待搜索图像的特征中得到用户可能并不完善的初始搜索意图，用户选中的第一目标对象的特征(可以是文本特征)体现出用户进一步的搜索意图，通过将待搜索图像的特征(及初始搜索意图)和第一目标对象的特征(及进一步的搜索意图)，得到更加完善的累计搜索意图。

在步骤S604中，基于第一累积搜索意图特征，得到第二轮次搜索结果，第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。

计算第一累计意图特征和第一目标对象对应的各个第二级别的对象特征的相似度，相似度大于预设阈值(例如0.8)的确定为达标的第二级别的对象，将达标的第二级别的对象作为第二轮次的搜索结果。

可选的，第二轮次搜索结果中多个达标的第二级别的对象按照与第一累计意图特征的相似度由高到低进行排序。例如，如图4所示，通过计算第一累计意图特征和各个第二级别的对象的相似度后，相似度达标的第一级别的对象依照相似度由高到低排序为变速器商品、变速器安装教程、变速器修理教程，也就是说，第二轮次的搜索结果，会按照与第一累计搜索意图的相似度的高低进行排序，向用户进行展示搜索结果，相似度越高的，也就意味着与用户的第一累计搜索意图越接近，越可能是用户想要搜索的内容，排序越靠前，方便用户更快得找到自己想要搜索的内容。

若第二轮搜索结果中存在用户想要搜索的内容，则用户可双击打开该内容，成功获取到用户想要搜索的内容，搜索结束，若用户对第二轮搜索结果仍不满意(不存在符合用户搜索意图的内容)则继续交互，进行下一轮次的搜索，继续完善用户的搜索意图，直至找到符合用户搜索意图的内容为止。

即将第M累积意图特征与第N目标对象的特征进行晚交互融合，得到最终搜索意图，其中，第N目标对象为用户从多个达标的第N级别的对象中选中的对象，M为大于或等于1的正整数，所述N为大于M的正整数；基于最终搜索意图，得到最终搜索结果，最终搜索结果包括第N目标对象对应的达标的第N+1级别的对象。

可选的，在各个搜索轮次中还可以支持回退，例如接收到用户的回退命令后，退回上一轮次搜索页面，以使用户重新选中目标对象，重新表达自己的搜索意图。

可选的，最终搜索结果包括卡片搜索结果(如图5a所示)和/或扩展搜索结果(如图5b所示)。

本申请实施例提供的视觉搜索方法，使用“点击”式的视觉信息的不断交互来替代原始的用户文本描述，一方面减少用户操作的复杂性，另一方面使用包含更多“信息”的视觉信息引导用户完善检索意图。同时，在多模态信息交互和积累过程中，不断调整、优化检索推荐结果，提高检索的有效性。

在另一个实现方式中，最终搜索意图还与第一文本特征相关，第一文本特征为用户输入的查询文本的特征。也就是说，在各个搜索轮次中，还支持用户输入查询文本的方式进一步表达自己的搜索意图，以缩短搜索轮次，更快或更准确的搜索到相应搜索内容。

例如，在第N搜索轮次的搜索结果中，用户输入查询文本，则提取该查询文本的特征，将该搜索轮次的累计搜索意图的特征、目标对象的特征和查询文本的特征进行晚交互融合，再根据融合后的特征在内容底库或查询推荐库中进行检索(计算与各个对象的相似度)，最终得到最终搜索结果，最终搜索结果推荐相似度(top1)最高的对象。

本申请实施例提供的视觉搜索方法，基于Query图片和多层次查询推荐库引导用户交互，持续完善累积意图特征，直至搜索完成(过程中支持回退)。首先基于Query图片特征和查询推荐特征相似度，从全部节点中选择首层推荐并排序；然后在后续层中，返回用户选择节点的子节点作为下一层候选。基于Query图片特征、用户选中的查询推荐文本特征进行晚交互融合建模，完善累积意图特征。基于当前累积意图特征和子节点查询推荐文本特征的相似度，对下一层节点进行在线剪枝和重排序。基于累积意图特征、下一层查询推荐特征、用户额外输入文本特征进行多元融合，以检索内容底库中的各模态资讯。基于累积意图特征、下一层节点查询推荐文本特征进行晚交互融合建模，检索内容底库的各模态信息，返回Top-1作为节点的查询推荐详情内容。基于累积意图特征(并可进一步融合用户额外输入文本特征)进行扩展搜索，返回更多内容资讯。

本申请实施例提供的视觉搜索方法，除应用于云端应用外，同样也可用应用于端侧服务，如手机相册图库搜索推荐，进一步可以连通端侧视频、图片、短信等多模态信息，实现端侧各模态信息的联合交互检索推荐。

与前述视觉搜索方法的实施例基于相同的构思，本申请实施例中还提供了一种视觉搜索装置700，该视觉搜索装置700包括用以实现图1-6所示的视觉搜索方法中的各个步骤的单元或模块。

图7为本申请实施例提供的一种视觉搜索装置的结构示意图。该装置应用于计算设备，如图7所示，该一种视觉搜索装置700至少包括：

获取模块701，用于获取待搜索图像；

累计搜索意图确定模块702，用于基于所述待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，所述第一轮次搜索结果包括多个达标的第一级别的对象；

搜索结果确定模块703，用于基于所述第一累积搜索意图特征，得到第二轮次搜索结果，所述第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。

在另一个可能的实现中，搜索结果确定模块704，还用于将所述第M累积意图特征与所述第L目标对象的特征进行晚交互融合，得到最终搜索意图，其中，所述第L目标对象为用户从所述多个达标的第L级别的对象中选中的对象，所述M为大于或等于1的正整数，所述L为大于M的正整数；

根据本申请实施例的视觉搜索装置700可对应于执行本申请实施例中描述的方法，并且一种视觉搜索装置700中的各个模块的上述和其它操作和/或功能分别为了实现图1-6中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供一种计算设备，包括至少一个处理器、存储器和通信接口，所述处理器用于执行图1-6所述的方法。

图8为本申请实施例提供的计算设备的结构示意图。

如图8所示，所述计算设备800包括至少一个处理器801、存储器802和通信接口803。其中，处理器801、存储器802和通信接口803通信连接，可以通过有线(例如总线)的方式实现通信连接，也可以通过无线的方式实现通信连接。该通信接口803用于接收其他设备发送的数据；存储器802存储有计算机指令，处理器801执行该计算机指令，执行前述方法实施例中的视觉搜索方法。

应理解，在本申请实施例中，该处理器801可以是中央处理单元CPU，该处理器801还可以是其他通用处理器、数字信号处理器(d igita l s igna l processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器802可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器802还可以包括非易失性随机存取存储器。

该存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。

应理解，根据本申请实施例的计算设备800可以执行实现本申请实施例中图1-6所示方法，该方法实现的详细描述参见上文，为了简洁，在此不再赘述。

本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机指令在被处理器执行时，使得上文提及的视觉搜索方法被实现。

本申请的实施例提供了一种芯片，该芯片包括至少一个处理器和接口，所述至少一个处理器通过所述接口确定程序指令或者数据；该至少一个处理器用于执行所述程序指令，以实现上文提及的视觉搜索方法。

本申请的实施例提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括指令，当该指令执行时，令计算机执行上文提及的视觉搜索方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视觉搜索方法，其特征在于，

获取待搜索图像；

基于所述待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，所述第一轮次搜索结果包括多个达标的第一级别的对象；

其中，所述查询推荐库中包括N个级别的对象，所述每个第N-1级别的对象对应多个第N级别的对象，所述N为大于1的整数，所述对象包括文本内容和/或图像内容和/或视频内容和/或音频内容；

将所述待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，所述第一目标对象为用户从所述多个达标的第一级别的对象中选中的对象；

基于所述第一累积搜索意图特征，得到第二轮次搜索结果，所述第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。
根据权利要求1所述的方法，其特征在于，将与所述待搜索图像的相似度大于预设阈值的第一级别的对象确定为达标的第一级别的对象。
根据权利要求1或2所述的方法，其特征在于，所述第一轮次搜索结果中多个达标的第一级别的对象按照与所述待搜索图像的相似度由高到低进行排序。
根据权利要求1-3任一项所述的方法，其特征在于，将与所述第一累积搜索意图特征的相似度大于预设阈值的第二级别的对象确定为达标的第二级别的对象。
根据权利要求1-4任一项所述的方法，其特征在于，所述第二轮次搜索结果中多个达标的第二级别的对象按照与所述第一累积搜索意图特征的相似度由高到低进行排序。
根据权利要求1-5任一项所述的方法，其特征在于，还包括，

将所述第M累积意图特征与所述第L目标对象的特征进行晚交互融合，得到最终搜索意图，其中，所述第L目标对象为用户从所述多个达标的第L级别的对象中选中的对象，所述M为大于或等于1的正整数，所述L为大于M的正整数；

基于最终搜索意图，得到最终搜索结果，所述最终搜索结果包括第L目标对象对应的达标的第L+1级别的对象。
根据权利要求6所述的方法，其特征在于，所述最终搜索意图还与第一文本特征相关，所述第一文本特征为所述用户输入的查询文本的特征。
根据权利要求6或7所述的方法，其特征在于，所述最终搜索结果包括卡片搜索结果和/或扩展搜索结果。
根据权利要求1-7任一项所述的方法，其特征在于，所述查询推荐库中包括多种模态的信息，所述多种模态的信息为树状结构，所述树状结构的节点表征所述对象，所述树状结构的不同层级的节点表征不同级别的对象。
一种视觉搜索装置，其特征在于，包括：

获取模块，用于获取待搜索图像；

累计搜索意图确定模块，用于基于所述待搜索图像的特征和查询推荐库中的第一级别的对象的特征，得到第一轮次搜索结果，所述第一轮次搜索结果包括多个达标的第一级别的对象；

其中，所述查询推荐库中包括N个级别的对象，所述每个第N-1级别的对象对应多个第N级别的对象，所述N为大于1的整数，所述对象包括文本内容和/或图像内容和/或视频内容和/或音频内容；

将所述待搜索图像的特征和第一目标对象的特征进行晚交互融合，得到第一累积搜索意图特征，所述第一目标对象为用户从所述多个达标的第一级别的对象中选中的对象；

搜索结果确定模块，用于基于所述第一累积搜索意图特征，得到第二轮次搜索结果，所述第二轮次搜索结果包括第一目标对象对应的多个达标的第二级别的对象。
根据权利要求10所述的装置，其特征在于，将与所述待搜索图像的相似度大于预设阈值的第一级别的对象确定为达标的第一级别的对象。
根据权利要求10或11所述的装置，其特征在于，所述第一轮次搜索结果中多个达标的第一级别的对象按照与所述待搜索图像的相似度由高到低进行排序。
根据权利要求10-12任一项所述的装置，其特征在于，将与所述第一累积搜索意图特征的相似度大于预设阈值的第二级别的对象确定为达标的第二级别的对象。
根据权利要求10-13任一项所述的装置，其特征在于，所述第二轮次搜索结果中多个达标的第二级别的对象按照与所述第一累积搜索意图特征的相似度由高到低进行排序。
根据权利要求10-14任一项所述的装置，其特征在于，搜索结果确定模块，还用于将所述第M累积意图特征与所述第L目标对象的特征进行晚交互融合，得到最终搜索意图，其中，所述第L目标对象为用户从所述多个达标的第L级别的对象中选中的对象，所述M为大于或等于1的正整数，所述L为大于M的正整数；

基于最终搜索意图，得到最终搜索结果，所述最终搜索结果包括第L目标对象对应的达标的第L+1级别的对象。
根据权利要求15所述的装置，其特征在于，所述最终搜索意图还与第一文本特征相关，所述第一文本特征为所述用户输入的查询文本的特征。
根据权利要求15或16所述的装置，其特征在于，所述最终搜索结果包括卡片搜索结果和/或扩展搜索结果。
根据权利要求10-17任一项所述的装置，其特征在于，所述查询推荐库中包括多种模态的信息，所述多种模态的信息为树状结构，所述树状结构的节点表征所述对象，所述树状结构的不同层级的节点表征不同级别的对象。
一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9任一项所述的方法。