WO2024051730A1

WO2024051730A1 - 跨模态检索方法、装置、设备、存储介质及计算机程序

Info

Publication number: WO2024051730A1
Application number: PCT/CN2023/117203
Authority: WO
Inventors: 邓旸旸; 黄泽毅; 徐昀; 童川
Original assignee: 华为技术有限公司
Priority date: 2022-09-07
Filing date: 2023-09-06
Publication date: 2024-03-14
Also published as: CN117668290A

Abstract

本申请公开了一种跨模态检索方法、装置、设备、存储介质及计算机程序，属于信息检索领域。所述方法包括：提取检索文本的文本标签和文本特征；基于文本标签和被检索视觉数据的视觉标签，确定被检索视觉数据中是否存在视觉标签与文本标签匹配的至少一个第一视觉数据，被检索视觉数据包括图像和/或视频；基于文本特征和被检索视觉数据的视觉特征，确定被检索视觉数据中是否存在视觉特征与文本特征匹配的至少一个第二视觉数据；如果被检索视觉数据中存在至少一个第一视觉数据和至少一个第二视觉数据，则基于至少一个第一视觉数据和至少一个第二视觉数据确定检索结果。本申请能够同时提升跨模态的检索精度和检索广度。

Description

跨模态检索方法、装置、设备、存储介质及计算机程序

本申请要求于2022年09月07日提交的申请号为202211091658.9、发明名称为“跨模态检索方法、装置、设备、存储介质及计算机程序”的中国专利申请的优先权，以及要求于2023年08月31日提交的申请号为202311130428.3、发明名称为“跨模态检索方法、装置、设备、存储介质及计算机程序”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息检索领域，特别涉及一种跨模态检索方法、装置、设备、存储介质及计算机程序。

背景技术

随着科学技术的发展，图像、文本、视频等多模态数据爆炸式增长，而且用户对于检索的需求不再停留在以文本检索文本的形式，所以跨模态检索随之产生。跨模态检索是以某一种模态的数据去检索另一种模态的数据的检索形式，比如，用户通过输入文本来检索图像或者视频。然而，由于不同模态的数据差异性较大，跨模态检索仍然面临很大挑战，如何不限定用户输入的内容,并反馈给用户想要的图像或者视频,从而实现开放内容的跨模态检索，满足用户的实际体验是目前非常重要的问题。因此，亟需一种跨模态的检索方法。

发明内容

本申请提供了一种跨模态检索方法、装置、设备、存储介质及计算机程序，能够实现多场景下的开放内容跨模态的检索。所述技术方案如下：

第一方面，提供了一种跨模态检索方法，所述方法包括：提取检索文本的文本标签和文本特征；基于所述文本标签和被检索视觉数据的视觉标签，确定所述被检索视觉数据中是否存在视觉标签与所述文本标签匹配的至少一个第一视觉数据，所述被检索视觉数据包括图像和/或视频；基于所述文本特征和所述被检索视觉数据的视觉特征，确定所述被检索视觉数据中是否存在视觉特征与所述文本特征匹配的至少一个第二视觉数据；基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。

可选地，如果所述被检索视觉数据中存在所述至少一个第一视觉数据和所述至少一个第二视觉数据，则基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。

由于被检索视觉数据的视觉标签的范围固定，所以，通过被检索视觉数据的视觉标签和检索文本的文本标签确定出的第一视觉数据比较精确，也即是，通过标签匹配能够精确地控制检索范围。并且，由于检索文本是具有语义开放性的自然语言的描述信息，所以，通过被检索视觉数据的视觉特征和检索文本的文本特征确定出的第二视觉数据没有语义上的限制，支持自然语义检索，检索比较灵活，检索范围也比较广，能够识别形容词等细粒度的检索文本。这样，在被检索视觉数据中同时存在第一视觉数据和第二视觉数据的情况下，将第一视觉数据和第二视觉数据进行融合，能够同时提升跨模态的检索精度和检索广度。

本申请提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景。检索文本根据应用场景的不同，获取的方式也不同。例如，在网络侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端将检索框中输入的检索文本发送给服务器，由服务器提取该检索文本的文本标签和文本特征。在端侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端直接提取检索框中输入的检索文本的文本标签和文本特征。

将检索文本的文本标签与被检索视觉数据的视觉标签进行匹配，以确定被检索视觉数据中是否存在视觉标签与文本标签相同或者属于同义词的视觉数据。如果被检索视觉数据中存在视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据，则确定被检索视觉数据中存在至少一个第一视觉数据，该至少一个第一视觉数据为被检索视觉数据中视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据；如果被检索视觉数据中不存在视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据，则确定被检索视觉数据中不存在至少一个第一视觉数据。

确定检索文本的文本特征与被检索视觉数据的视觉特征之间的相似度，如果被检索视觉数据中存在视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据，则确定被检索视觉数据中存在至少一个第二视觉数据，该至少一个第二视觉数据为被检索视觉数据中视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据；如果被检索视觉数据中不存在视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据，则确定被检索视觉数据中不存在至少一个第二视觉数据。

经上述步骤判断可得，被检索视觉数据中可能同时存在至少一个第一视觉数据和至少一个第二视觉数据，也可能只存在至少一个第一视觉数据或者只存在至少一个第二视觉数据。如果被检索视觉数据中同时存在至少一个第一视觉数据和至少一个第二视觉数据，可以按照融合策略对至少一个第一视觉数据和至少一个第二视觉数据进行融合，以得到检索结果。如果被检索视觉数据中存在至少一个第一视觉数据但不存在至少一个第二视觉数据，则将至少一个第一视觉数据作为检索结果。如果被检索视觉数据中存在至少一个第二视觉数据但不存在至少一个第一视觉数据，则将至少一个第二视觉数据作为检索结果。

其中，融合策略是预先设定好的，可以根据应用场景对于检索结果的数量和准确性的侧重程度，选择将至少一个第一视觉数据和至少一个第二视觉数据取并集或交集来作为检索结果。也即是，当应用场景更侧重于检索结果的数量时，将至少一个第一视觉数据和至少一个第二视觉数据取并集作为检索结果；当应用场景更侧重于检索结果的准确性时，将至少一个第一视觉数据和至少一个第二视觉数据取交集作为检索结果。

作为一种示例，如果所述至少一个第一视觉数据的视觉标签属于第一类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的交集作为所述检索结果，所述第一类标签是指表征视觉数据时具有不确定性的标签。

由于第一类标签是指表征视觉数据时具有不确定性的标签，所以，在至少一个第一视觉数据的视觉标签属于第一类标签的情况下，表明该至少一个第一视觉数据的视觉标签可能不一定能够准确地表达相应的视觉数据的内容，此时，为了保证检索结果的准确性，将至少一个第一视觉数据和至少一个第二视觉数据的交集作为检索结果。

作为一种示例，如果所述至少一个第一视觉数据的视觉标签属于第二类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的并集作为所述检索结果，所述第二类标签是指表征视觉数据时具有确定性的标签。

由于第二类标签是指表征视觉数据时具有确定性的标签，所以，在至少一个第一视觉数据的视觉标签属于第二类标签的情况下，表明该至少一个第一视觉数据的视觉标签能够准确地表达相应的视觉数据的内容，此时，为了保证检索结果的数量，将至少一个第一视觉数据和至少一个第二视觉数据的并集作为检索结果。

在被检索视觉数据中存在至少一个第二视觉数据的情况下，可以直接按照上述方法来确定检索结果。当然，还可以对至少一个第二视觉数据进行更精确地处理之后，再按照上述方法来确定检索结果。其中，对至少一个第二视觉数据进行更精确处理的方法包括多种，接下来对其中的一种方法进行介绍。

如果所述被检索视觉数据中存在所述至少一个第二视觉数据，将所述至少一个第二视觉数据的视觉特征和所述文本特征输入至神经网络模型中，以得到模型推理结果，所述模型推理结果包括相似性结果和/或成对判断结果，所述相似性结果指示所述至少一个第二视觉数据分别与所述检索文本之间的相似度，所述成对判断结果指示所述至少一个第二视觉数据分别与所述检索文本是否能够成对；基于所述模型推理结果对所述至少一个第二视觉数据进行处理。

模型推理结果可以只包括相似性结果，也可以只包括成对判断结果，还可以包括相似性结果和成对判断结果。在不同的情况下，基于模型推理结果对至少一个第二视觉数据进行处理的方式不同，接下来将分别进行介绍。

可选地，所述模型推理结果包括相似性结果；此时，基于所述相似性结果，从所述至少一个第二视觉数据中筛选出与所述检索文本之间的相似度大于第一相似度阈值的第二视觉数据。

由于相似性结果是神经网络模型将第二视觉数据的视觉特征和检索文本的文本特征结合后进行细粒度地分析得到的，所以，该相似性结果能够更精确地表征第二视觉数据与检索文本的相似度，通过该相似性结果，对至少一个第二视觉数据进行筛选，能够筛选掉与检索文本真正不太相似的视觉数据，保留与检索文本真正相似的视觉数据，从而提升最终确定的检索结果的准确性。

可选地，所述模型推理结果包括成对判断结果；此时，基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据。

由于成对判断结果是神经网络模型将第二视觉数据的视觉特征和检索文本的文本特征结合后进行细粒度地分析得到的，所以，该成对判断结果能够更精确地表征第二视觉数据与检索文本是否能够成对，通过该成对判断结果，对至少一个第二视觉数据进行筛选，能够筛选掉与检索文本不成对的视觉数据，保留与检索文本成对的视觉数据，从而过滤掉不合理的视觉数据，提升最终确定的检索结果的准确性。

可选地，所述模型推理结果包括相似性结果和成对判断结果；此时，基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据；基于所述相似性结果，按照筛选出的第二视觉数据与所述检索文本之间的相似度从大到小的顺序，对所述筛选出的第二视觉数据进行排序。

在模型推理结果既包括相似性结果，也包括成对判断结果的情况下，首先根据至少一个第二视觉数据中的每个第二视觉数据与检索文本是否能够成对，对至少一个第二视觉数据进行筛选，以保留与检索文本能够成对的第二视觉数据，删除与检索文本不能成对的第二视觉数据；然后，按照筛选后的第二视觉数据与检索文本之间的相似度从大到小的顺序，对筛选后的第二视觉数据进行排序，从而提升最终反馈给用户的检索结果的排序合理性。

第二方面，提供了一种跨模态检索方法，所述方法包括：

提取检索文本的文本标签和文本特征；

基于所述文本标签和被检索视觉数据的视觉标签，得到标签匹配结果，所述被检索视觉数据包括图像和/或视频；

基于所述文本特征和所述被检索视觉数据的视觉特征，得到特征匹配结果；

基于所述标签匹配结果和所述特征匹配结果，得到检索结果。

可选地，所述标签匹配结果包括至少一个第一视觉数据，且所述特征匹配结果包括至少一个第二视觉数据，所述基于所述标签匹配结果和所述特征匹配结果，得到检索结果包括：

将所述标签匹配结果包括的所述至少一个第一视觉数据和所述特征匹配结果包括的所述至少一个第二视觉数据的并集或交集作为所述检索结果。

可选地，所述标签匹配结果包括至少一个第一视觉数据，所述特征匹配结果指示不存在匹配数据，所述基于所述标签匹配结果和所述特征匹配结果，得到检索结果包括：

将所述标签匹配结果包括的所述至少一个第一视觉数据作为所述检索结果。

可选地，所述标签匹配结果指示不存在匹配数据，所述特征匹配结果包括至少一个第二视觉数据，所述基于所述标签匹配结果和所述特征匹配结果，得到检索结果包括：

将所述特征匹配结果包括的所述至少一个第二视觉数据作为所述检索结果。

可选地，所述标签匹配结果包括至少一个第一视觉数据，且所述至少一个第一视觉数据中的部分或全部视觉数据的视觉标签包括所述文本标签时，将所述至少一个第一视觉数据中的视觉标签包括所述文本标签的视觉数据作为所述检索结果。

可选地，当所述标签匹配结果指示不存在匹配数据，且所述特征匹配结果指示不存在匹配数据时，所述检索结果指示不存在匹配数据。

可选地，所述将所述标签匹配结果包括的所述至少一个第一视觉数据和所述特征匹配结果包括的所述至少一个第二视觉数据的并集或交集作为所述检索结果包括：

如果所述至少一个第一视觉数据的视觉标签属于预设的第一类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的交集作为所述检索结果；

如果所述至少一个第一视觉数据的视觉标签属于预设的第二类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的并集作为所述检索结果。

可选地，所述基于所述文本特征和所述被检索视觉数据的视觉特征，得到特征匹配结果包括：

将所述文本特征和所述被检索视觉数据的视觉特征进行特征匹配，以得到第一特征匹配结果，所述第一特征匹配结果包括至少一个第三视觉数据；

将所述文本特征和所述第一特征匹配结果输入预设模型，以得到所述特征匹配结果，所述特征匹配结果包括所述第一特征匹配结果中的部分或全部第三视觉数据，且所述特征匹配结果中包括的第三视觉数据按照与所述文本特征的相似度排序。

可选地，所述方法还包括：

接收用户输入的所述检索文本。

可选地，所述检索结果包括至少一个图像和/或视频，所述方法还包括：

显示所述检索结果。

第三方面，提供了一种跨模态检索装置，所述跨模态检索装置具有实现上述第一方面中跨模态检索方法行为的功能。所述跨模态检索装置包括至少一个模块，该至少一个模块用于实现上述第一方面或第二方面所提供的跨模态检索方法。

第四方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储执行上述第一方面或第二方面所提供的跨模态检索方法的计算机程序。所述处理器被配置为用于执行所述存储器中存储的计算机程序，以实现上述第一方面或第二方面所述的跨模态检索方法。

可选地，所述电子设备还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

第五方面，提供了一种计算机可读存储介质，所述存储介质内存储有指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的跨模态检索方法的步骤。

第六方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的跨模态检索方法的步骤。或者说，提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的跨模态检索方法的步骤。

第七方面，提供了一种芯片，所述芯片包括处理器和接口电路，所述接口电路用于接收指令并传输至所述处理器，所述处理器用于执行上述第一方面或第二方面所述的跨模态检索方法的步骤。

第八方面，提供了一种检索系统，所述检索系统包括上述第三方面所述的跨模态检索装置以及模型训练装置。

上述第二方面至第八方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是本申请实施例提供的一种跨模态检索方法的流程图；

图2是本申请实施例提供的另一种跨模态检索方法的流程图；

图3是本申请实施例提供的一种视觉数据的融合方法的流程图；

图4是本申请实施例提供的一种跨模态检索的示意图；

图5是本申请实施例提供的一种对第二视觉数据进行处理的方法的流程图；

图6是本申请实施例提供的一种对第二视觉数据进行处理的示意图；

图7是本申请实施例提供的一种跨模态检索的用户界面示意图；

图8是本申请实施例提供的另一种跨模态检索方法的流程图；

图9是本申请实施例提供的一种跨模态检索装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图；

图11是本申请实施例提供的一种用户终端的结构示意图；

图12是本申请实施例提供的另一种用户终端的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的跨模态检索方法进行详细地解释说明之前，先对本申请实施例涉及的应用场景进行介绍。

来自信息领域的数据形式多种多样，其每一种形式都可以看作是一种模态，例如文本、视频、图像以及语音等。跨模态检索通常指从多模态的数据中，以某一种模态的数据去检索另一种模态的数据，例如，以文本检索图像或者视频，以图像检索文本或者视频等。跨模态检索是不同模态的数据之间交互的桥梁，其重点在于自动理解、关联不同模态的数据之间的关键要素，并实现相对准确的交叉匹配。随着NLP(Natural language processing，自然语言处理)技术和CV(Computer Vision，计算机视觉)技术的发展壮大，网络和手机等设备上存储的图像和视频越来越多，用户的检索已不单单局限于检索文本，用户进行跨模态检索的需求与日俱增。

本申请实施例提供的跨模态检索方法可以应用于搜索引擎等网络侧场景，也可应用于端侧场景，例如手机端检索手机相册中的图像或者视频，当然并不仅限于手机相册，在其他类似的场景下也同样适用，例如在聊天软件的历史记录中输入文本来检索图像或者视频等。通过本申请实施例提供的跨模态检索方法，能够为用户提供更加开放和精准的检索结果，以满足用户的实际体验。此外，该方法不仅可以应用在搜索引擎等网络侧的检索场景中，还可以应用在内容推荐等网络侧场景中，例如新闻资讯推荐、商品购买推荐等，通过对用户检索新闻资讯或商品的历史记录进行统计来确定检索文本，进而推荐类似的内容。

由于本申请实施例提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景，所以本申请实施例的执行主体可以为服务器，也可以为用户终端。为了便于描述，将本申请实施例的执行主体统称为电子设备。

当该电子设备为服务器时，该电子设备可以是一台独立的服务器，也可以是由多台物理服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是一个云计算服务中心。

当该电子设备为用户终端时，该电子设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如个人计算机(personal computer，PC)、手机、智能手机、个人数字助手(personal digital assistant，PDA)、可穿戴设备、掌上电脑(pocket pc，PPC)、平板电脑、智能车机等。

本领域技术人员应能理解上述应用场景和电子设备仅为举例，其他现有的或今后可能出现的应用场景和电子设备如可适用于本申请实施例，也应包含在本申请实施例保护范围以内，并在此以引用方式包含于此。

接下来对本申请实施例提供的跨模态检索方法进行解释说明。

请参考图1，图1是本申请实施例提供的一种跨模态检索方法的流程图，该方法应用于电子设备中，该方法包括如下步骤。

步骤101：提取检索文本的文本标签和文本特征。

将检索文本输入第一文本模型，以得到检索文本的文本标签和文本特征。可选地，也可以将检索文本输入第二文本模型，以得到检索文本的文本特征，将检索文本输入第三文本模型，以得到检索文本的文本标签，或者，通过文本标签提取算法提取检索文本的文本标签。也即是，当采用第一文本模型提取文本标签和文本特征时，第一文本模型的输入为检索文本，第一文本模型的输出为检索文本的文本标签和文本特征。当采用第二文本模型提取文本特征时，第二文本模型的输入为检索文本，第二文本模型的输出为检索文本的文本特征。当采用第三文本模型提取文本标签时，第三文本模型的输入为检索文本，第三文本模型的输出为检索文本的文本标签。

其中，第一文本模型、第二文本模型和第三文本模型的结构可以不同，文本标签提取算法的实现过程根据不同的需求也可能不同，本申请实施例对此不做限定。文本标签指示通过检索文本进行检索的对象的分类结果，比如，检索文本为“吃竹子的大熊猫”，那么确定通过该检索文本需要检索大熊猫，这样，可以将“大熊猫”确定为检索文本的文本标签。文本特征指示检索文本的特征。

基于上文所述，本申请实施例提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景。检索文本根据应用场景的不同，获取的方式也不同。例如，在网络侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端将检索框中输入的检索文本发送给服务器，由服务器提取该检索文本的文本标签和文本特征。在端侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端直接提取检索框中输入的检索文本的文本标签和文本特征。

步骤102：基于检索文本的文本标签和被检索视觉数据的视觉标签，确定被检索视觉数据中是否存在视觉标签与文本标签匹配的至少一个第一视觉数据，被检索视觉数据包括图像和/或视频。

其中，属于同义词的标签是提前标注好的，比如标签“花朵”和“鲜花”均为标签“花”的同义词，本申请实施例对标注的方法不做限定。视觉标签指示视觉数据的分类结果，比如，视觉数据为一张鲜花的图片，那么该视觉数据的视觉标签可以为“鲜花”。

在执行步骤102和步骤103之前，还需要提取被检索视觉数据的视觉标签和视觉特征。而且被检索视觉数据的视觉标签和视觉特征可以在步骤102和步骤103之前提取，还可以在步骤101之前提取，当然还可以在电子设备空闲时提取，本申请实施例对被检索视觉数据的视觉标签和视觉特征的提取时机不做限定。

其中，可以将被检索视觉数据输入第一视觉模型，以得到被检索视觉数据的视觉标签和视觉特征。可选地，也可以将被检索视觉数据输入第二视觉模型，以得到被检索视觉数据的视觉特征，将被检索视觉数据输入第三视觉模型，以得到被检索视觉数据的视觉标签。也即是，当采用第一视觉模型提取被检索视觉数据的视觉标签和视觉特征时，第一视觉模型的输入为被检索视觉数据，第一视觉模型的输出为被检索视觉数据的视觉标签和视觉特征；当采用第二视觉模型提取被检索视觉数据的视觉特征时，第二视觉模型的输入为被检索视觉数据，第二视觉模型的输出为被检索视觉数据的视觉特征。当采用第三视觉模型提取被检索视觉数据的视觉标签时，第三视觉模型的输入为被检索视觉数据，第三视觉模型的输出为被检索视觉数据的视觉标签。

其中，第一视觉模型、第二视觉模型和第三视觉模型的结构可以不同，例如，第三视觉模型可以为OCR(Optical Character Recognition，光学字符识别)网络模型，通过对被检索视觉数据进行分析识别处理，以获取文本信息，进而提取文本信息的标签作为被检索视觉数据的视觉标签。

基于上文所述，本申请实施例提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景。被检索视觉数据根据应用场景的不同，存储的位置也不同。在网络侧场景中，被检索视觉数据存储在服务器；在端侧场景中，被检索视觉数据存储在用户终端。其中，被检索视觉数据可以只包括图像，也可以只包括视频，当然也可以两者都有。

步骤103：基于检索文本的文本特征和被检索视觉数据的视觉特征，确定被检索视觉数据中是否存在视觉特征与文本特征匹配的至少一个第二视觉数据。

其中，文本特征与视觉特征之间的相似度可以通过计算文本特征与视觉特征之间的余弦距离来得到，也可以通过其他方式计算得到，本申请实施例对此不做限定。并且，第二相似度阈值是预先设定的，比如0.8、0.85等。实际应用中，根据不同的需求可以取不同的值，本申请实施例对此也不做限定。视觉特征指示视觉数据的特征。比如，视觉数据为一张图像，该视觉特征为该图像的特征。

基于上文所述，可以采用同一个视觉模型来提取被检索视觉数据的视觉特征和视觉标签，也可以采用两个不同的视觉模型来分别提取被检索视觉数据的视觉特征和视觉标签，本申请实施例对此不做限定。

步骤104：如果被检索视觉数据中存在至少一个第一视觉数据和至少一个第二视觉数据，则基于至少一个第一视觉数据和至少一个第二视觉数据确定检索结果。

请参考图2，图2是本申请实施例提供的另一种跨模态检索方法的流程图。首先，提取用户输入的检索文本的文本标签和文本特征，确定被检索视觉数据的视觉标签和视觉特征。将检索文本的文本标签与被检索视觉数据的视觉标签进行匹配，以确定被检索视觉数据中是否存在视觉标签与检索文本的文本标签匹配的第一视觉数据；将检索文本的文本特征与被检索视觉数据的视觉特征进行匹配，以确定被检索视觉数据中是否存在视觉特征与检索文本的文本特征匹配的第二视觉数据。如果第一视觉数据和第二视觉数据同时存在，则采用预先配置好的的融合方案，对第一视觉数据和第二视觉数据进行融合，将融合后的视觉数据作为检索结果。如果第一视觉数据和第二视觉数据不同时存在，则判断第一视觉数据是否存在，如果第一视觉数据存在，则以第一视觉数据作为检索结果；如果第一视觉数据不存在，则以第二视觉数据作为检索结果。

请参考图3，图3是本申请实施例提供的一种视觉数据的融合方法的流程图。如果被检索视觉数据中同时存在至少一个第一视觉数据和至少一个第二视觉数据，则判断至少一个第一视觉数据的视觉标签属于第一类标签还是第二类标签，如果至少一个第一视觉数据的视觉标签属于第一类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的交集作为检索结果，第一类标签是指表征视觉数据时具有不确定性的标签；如果至少一个第一视觉数据的视觉标签属于第二类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的并集作为检索结果，第二类标签是指表征视觉数据时具有确定性的标签。

其中，第一类标签和第二类标签是事先进行设置的，并且，可以根据产品需求和应用场景需求的不同来设置不同的第一类标签和第二类标签，本申请实施例对第一类标签和第二类标签的设置方法不做限定。

比如，请参考图4，将检索文本的文本标签与被检索视觉数据的视觉标签进行匹配的过程称为标签召回，将检索文本的文本特征与被检索视觉数据的视觉特征进行匹配的过程称为开放语义召回，也可以称为向量召回。经过标签召回和开放语义召回之后可能存在三种情况，即，经过标签召回得到至少一个第一视觉数据但经过开放语义召回未得到结果，或者，经过开放语义召回得到至少一个第二视觉数据但经过标签召回未得到结果，或者，经过标签召回得到至少一个第一视觉数据且经过开放语义召回得到至少一个第二视觉数据。

假设，检索文本为“吃竹子的大熊猫”，该检索文本的文本标签为“大熊猫”，如果经过标签召回确定“大熊猫”命中被检索视觉数据的视觉标签，但是经过开放语义召回未得到结果，则将被检索视觉数据中视觉标签为“大熊猫”的视觉数据作为检索结果。

又假设，检索文本为“吃竹子的大熊猫”，该检索文本的文本标签为“大熊猫”，如果经过标签召回确定“大熊猫”命中被检索视觉数据的视觉标签，则将被检索视觉数据中视觉标签为“大熊猫”的视觉数据确定为至少一个第一视觉数据。而且，经过开放语义召回得到至少一个第二视觉数据，此时，可以将该至少一个第一视觉数据和该至少一个第二视觉数据取交集或者并集来得到检索结果。

再假设，检索文本为“黑色的光刻机”，该检索文本的文本标签为“光刻机”，如果经过标签召回确定“光刻机”未命中被检索视觉数据的视觉标签，但是，经过开放语义召回得到至少一个第二视觉数据，此时，将该至少一个第二视觉数据作为检索结果。

可选地，被检索视觉数据中还可能既不包括至少一个第一视觉数据，也不包括至少一个第二视觉数据，此时，确定检索结果为空。

如果被检索视觉数据中存在至少一个第二视觉数据，将至少一个第二视觉数据的视觉特征和检索文本的文本特征输入至神经网络模型中，以得到模型推理结果，模型推理结果包括相似性结果和/或成对判断结果，相似性结果指示至少一个第二视觉数据分别与检索文本之间的相似度，成对判断结果指示至少一个第二视觉数据分别与检索文本是否能够成对；基于模型推理结果对至少一个第二视觉数据进行处理。

请参考图5，图5是本申请实施例提供的一种对第二视觉数据进行处理的方法的流程图。为了便于理解，此处将结合首次确定至少一个第二视觉数据的过程进行介绍。即，在离线状态下通过视觉模型对被检索视觉数据进行视觉解析，以得到被检索视觉数据的视觉特征；基于用户在线输入的检索文本，通过文本模型对检索文本进行文本解析，以得到检索文本的文本特征，通过检索文本的文本特征与被检索视觉数据的视觉特征进行特征检索，以确定出至少一个第二视觉数据。然后，将检索文本的文本特征和该至少一个第二视觉数据的视觉特征同时输入神经网络模型，通过神经网络模型的分析对该至少一个第二视觉数据进一步处理，以得到最终的第二视觉数据。

情况1、如果模型推理结果包括相似性结果但不包括成对判断结果，则基于相似性结果，从至少一个第二视觉数据中筛选出与检索文本之间的相似度大于第一相似度阈值的第二视觉数据。

其中，第一相似度阈值是事先设置的，比如，0.85、0.9等。实际应用中，第一相似度阈值根据不同的需求可以取不同的值。而且，第一相似度阈值与第二相似度阈值的取值可以相同，也可以不同，本申请实施例对此不做限定。

可选地，从至少一个第二视觉数据中筛选出与检索文本之间的相似度大于第一相似度阈值的第二视觉数据之后，还可以按照相似度从大到小的顺序，对筛选出的第二视觉数据进行排序，从而提升最终反馈给用户的检索结果的排序合理性。

情况2、如果模型推理结果包括成对判断结果但不包括相似性结果，则基于成对判断结果，从至少一个第二视觉数据中筛选出与检索文本能够成对的第二视觉数据。

情况3、如果模型推理结果包括相似性结果和成对判断结果，则基于成对判断结果，从至少一个第二视觉数据中筛选出与检索文本能够成对的第二视觉数据；基于相似性结果，按照筛选出的第二视觉数据与检索文本之间的相似度从大到小的顺序，对筛选出的第二视觉数据进行排序。

例如，请参考图6，检索文本为“麻雀”，至少一个第二视觉数据包括四张图像，其中包括三张“麻雀”的图像和一张“鹦鹉”的图像(排序为2的图像)，由于“鹦鹉”并不符合“麻雀”的意思，但是由于“麻雀”和“鹦鹉”都属于小型鸟类，因此判别难度较高，仅以首次得到的至少一个第二视觉数据确定检索结果，容易出错。但是，基于成对判断结果进行筛选后，“鹦鹉”的图像从首次得到的至少一个第二视觉数据中被删除，有利于获得更准确的结果。此外，在筛选后的第二视觉数据中，可能存在视觉特征不够好的被检索视觉数据排在前面，而视觉特征更清楚的被检索视觉数据却排在后面的情况，比如第一张“麻雀”的图像的视觉特征不够好而被排在前面，第三张“麻雀”的图像的视觉特征比较好而被排在后面。所以，按照筛选后的第二视觉数据与检索文本之间的相似度从大到小的顺序，将视觉特征更清楚的被检索数据调整到前面，将视觉特征不够好的被检索视觉数据调整到后面，以获得更合理的排序结果。

经过上述步骤得到检索结果之后，可以将该检索结果反馈给用户。基于上文所述，本申请实施例提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景。对于网络侧场景来说，在服务器确定出检索结果之后，可以将该检索结果发送给用户终端，由用户终端来显示该检索结果。对于端侧场景来说，在用户终端确定出该检索结果之后，可以显示该检索结果。

比如，请参考图7，当用户需要搜索手机相册中的图像或者视频时，用户可以在搜索框中输入“麻雀”，此时，手机通过本申请实施例提供的方法对手机相册进行检索后，得到三张“麻雀”的图像，而且这三张图像中视觉特征更清楚的图像排到前面，视觉特征不够好的图像排到后面。

另外，将第一视觉数据和第二视觉数据进行融合时，通过确定第一视觉数据的视觉标签属于第一类标签还是第二类标签来采取不同的融合方案，实现了应用场景对于检索结果的数量和准确性的不同侧重。此外，本申请实施例还可以将第二视觉数据的视觉特征和检索文本的文本特征同时输入神经网络模型，神经网络模型通过将视觉特征和文本特征进行结合来实现细粒度地分析，从而对第二视觉数据进行筛选，以提高检索结果的准确性和合理性。

请参考图8，图8是本申请实施例提供的另一种跨模态检索方法的流程图。该方法包括如下步骤。

步骤801：提取检索文本的文本标签和文本特征。

可选地，该方法还包括：接收用户输入的检索文本。

步骤802：基于检索文本的文本标签和被检索视觉数据的视觉标签，得到标签匹配结果，被检索视觉数据包括图像和/或视频。

步骤803：基于检索文本的文本特征和被检索视觉数据的视觉特征，得到特征匹配结果。

可选地，基于文本特征和被检索视觉数据的视觉特征，得到特征匹配结果包括：将文本特征和被检索视觉数据的视觉特征进行特征匹配，以得到第一特征匹配结果，第一特征匹配结果包括至少一个第三视觉数据；将文本特征和第一特征匹配结果输入预设模型，以得到特征匹配结果，特征匹配结果包括第一特征匹配结果中的部分或全部第三视觉数据，且特征匹配结果中包括的第三视觉数据按照与文本特征的相似度排序。

其中，该预设模型可以为神经网络模型。

步骤804：基于标签匹配结果和特征匹配结果，得到检索结果。

其中，标签匹配结果中可能包括至少一个第一视觉数据，也可能不包括，特征匹配结果中可能包括至少一个第二视觉数据，也可能不同。对于不同的情况，确定检索结果的方式不同，接下来将分别进行介绍。

第一种情况，标签匹配结果包括至少一个第一视觉数据，且特征匹配结果包括至少一个第二视觉数据，此时，基于标签匹配结果和特征匹配结果得到检索结果的实现过程包括：将标签匹配结果包括的至少一个第一视觉数据和特征匹配结果包括的至少一个第二视觉数据的并集或交集作为检索结果。

可选地，将标签匹配结果包括的至少一个第一视觉数据和特征匹配结果包括的至少一个第二视觉数据的并集或交集作为检索结果包括：如果至少一个第一视觉数据的视觉标签属于预设的第一类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的交集作为检索结果；如果至少一个第一视觉数据的视觉标签属于预设的第二类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的并集作为检索结果。

第二种情况，标签匹配结果包括至少一个第一视觉数据，特征匹配结果指示不存在匹配数据，此时，基于标签匹配结果和特征匹配结果得到检索结果的实现过程包括：将标签匹配结果包括的至少一个第一视觉数据作为检索结果。

第三种情况，标签匹配结果指示不存在匹配数据，特征匹配结果包括至少一个第二视觉数据，此时，基于标签匹配结果和特征匹配结果得到检索结果的实现过程包括：将特征匹配结果包括的至少一个第二视觉数据作为检索结果。

第四种情况，标签匹配结果包括至少一个第一视觉数据，且至少一个第一视觉数据中的部分或全部视觉数据的视觉标签包括文本标签时，将至少一个第一视觉数据中的视觉标签包括文本标签的视觉数据作为检索结果。

第五种情况，当标签匹配结果指示不存在匹配数据，且特征匹配结果指示不存在匹配数据时，检索结果指示不存在匹配数据。

可选地，经过上述步骤确定的检索结果包括至少一个图像和/或视频，此时，还可以显示该检索结果。

需要说明的是：图8所示实施例的实现细节与上述图1所示实施例的实现细节类似，具体内容请参考上述图1所示实施例中的相关描述，这里不再赘述。

图9是本申请实施例提供的一种跨模态检索装置的结构示意图，该装置可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部。参见图9，该装置包括：提取模块901、第一确定模块902、第二确定模块903和第三确定模块904。

提取模块901，用于提取检索文本的文本标签和文本特征。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第一确定模块902，用于基于文本标签和被检索视觉数据的视觉标签，确定被检索视觉数据中是否存在视觉标签与文本标签匹配的至少一个第一视觉数据，被检索视觉数据包括图像和/或视频。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第二确定模块903，用于基于文本特征和被检索视觉数据的视觉特征，确定被检索视觉数据中是否存在视觉特征与文本特征匹配的至少一个第二视觉数据。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第三确定模块904，用于如果被检索视觉数据中存在至少一个第一视觉数据和至少一个第二视觉数据，则基于至少一个第一视觉数据和至少一个第二视觉数据确定检索结果。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

可选地，第三确定模块904具体用于：

如果至少一个第一视觉数据的视觉标签属于第一类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的交集作为检索结果，第一类标签是指表征视觉数据时具有不确定性的标签；

如果至少一个第一视觉数据的视觉标签属于第二类标签，则将至少一个第一视觉数据和至少一个第二视觉数据的并集作为检索结果，第二类标签是指表征视觉数据时具有确定性的标签。

可选地，该装置还包括：

第四确定模块，用于如果被检索视觉数据中存在至少一个第一视觉数据但不存在至少一个第二视觉数据，则将至少一个第一视觉数据作为检索结果。

可选地，该装置还包括：

第五确定模块，用于如果被检索视觉数据中存在至少一个第二视觉数据但不存在至少一个第一视觉数据，则将至少一个第二视觉数据作为检索结果。

可选地，被检索视觉数据中存在至少一个第二视觉数据；装置还包括：

模型推理模块，用于将至少一个第二视觉数据的视觉特征和文本特征输入至神经网络模型中，以得到模型推理结果，模型推理结果包括相似性结果和/或成对判断结果，相似性结果指示至少一个第二视觉数据分别与检索文本之间的相似度，成对判断结果指示至少一个第二视觉数据分别与检索文本是否能够成对；

处理模块，用于基于模型推理结果对至少一个第二视觉数据进行处理。

可选地，模型推理结果包括相似性结果；处理模块具体用于：

基于相似性结果，从至少一个第二视觉数据中筛选出与检索文本之间的相似度大于第一相似度阈值的第二视觉数据。

可选地，模型推理结果包括成对判断结果；处理模块具体用于：

基于成对判断结果，从至少一个第二视觉数据中筛选出与检索文本能够成对的第二视觉数据。

可选地，模型推理结果包括相似性结果和成对判断结果；处理模块具体用于：

基于成对判断结果，从至少一个第二视觉数据中筛选出与检索文本能够成对的第二视觉数据；

基于相似性结果，按照筛选出的第二视觉数据与检索文本之间的相似度从大到小的顺序，对筛选出的第二视觉数据进行排序。

由于被检索视觉数据的视觉标签的范围固定，所以，通过被检索视觉数据的视觉标签和检索文本的文本标签确定出的第一视觉数据比较精确，也即是，通过标签匹配能够精确地控制检索范围。并且，由于检索文本是具有语义开放性的自然语言的描述信息，所以，通过被检索视觉数据的视觉特征和检索文本的文本特征确定出的第二视觉数据没有语义上的限制，检索比较灵活，检索范围也比较广，能够识别形容词等细粒度的检索文本。这样，在被检索视觉数据中同时存在第一视觉数据和第二视觉数据的情况下，将第一视觉数据和第二视觉数据进行融合，能够同时提升跨模态的检索精度和检索广度。

需要说明的是：上述实施例提供的跨模态检索装置在进行跨模态检索时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的跨模态检索装置与跨模态检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，图10是根据本申请实施例示出的一种电子设备的结构示意图。该电子设备包括至少一个处理器1001、通信总线1002、存储器1003以及至少一个通信接口1004。

处理器1001可以是一个通用中央处理器(central processing unit，CPU)、网络处理器(network processor，NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信总线1002用于在上述组件之间传送信息。通信总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是只读存储器(read-only memory，ROM)，也可以是随机存取存储器(random access memory，RAM)，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only Memory，EEPROM)、光盘(包括只读光盘(compact disc read-only memory，CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器1003可以是独立存在，并通过通信总线1002与处理器1001相连接。存储器1003也可以和处理器1001集成在一起。

通信接口1004使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口1004包括有线通信接口，还可以包括无线通信接口。其中，有线通信接口例如可以为以太网接口。以太网接口可以是光接口、电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks，WLAN)接口、蜂窝网络通信接口或其组合等。

在具体实现中，作为一种实施例，处理器1001可以包括一个或多个CPU，如图10中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备可以包括多个处理器，如图10中所示的处理器1001和处理器1005。这些处理器中的每一个可以是一个单核处理器，也可以是一个多核处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备还可以包括输出设备1006和输入设备1009。输出设备1006和处理器1001通信，可以以多种方式来显示信息。例如，输出设备1006可以是液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备1009和处理器1001通信，可以以多种方式接收用户的输入。例如，输入设备1009可以是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器1003用于存储执行本申请方案的程序代码1010，处理器1001可以执行存储器1003中存储的程序代码1010。该程序代码1010中可以包括一个或多个软件模块，该电子设备可以通过处理器1001以及存储器1003中的程序代码1010，来实现上文实施例提供的跨模态检索方法。

请参考图11，图11是本申请实施例提供的一种用户终端的结构示意图。该用户终端包括传感器单元1110、计算单元1120、存储单元1140和交互单元1130。

传感器单元1110，通常包括视觉传感器(如相机)、深度传感器、IMU、激光传感器等；

计算单元1120，通常包括CPU、GPU、缓存、寄存器等，主要用于运行操作系统；

存储单元1140，主要包括内存和外部存储，主要用于用户本地和临时数据的读写等；

交互单元1130，主要包括显示屏、触摸板、扬声器、麦克风等，主要用于和用户进行交互，获取用于输入，并实施呈现算法效果等。

为便于理解，下面将对本申请实施例提供的一种用户终端100的结构进行示例说明。参见图12，图12是本申请实施例提供的一种用户终端的结构示意图。

如图12所示，用户终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对用户终端100的具体限定。在本申请另一些实施例中，用户终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110可以执行计算机程序，以实现本申请实施例中任一种方法。

其中，控制器可以是用户终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用，避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I1C)接口，集成电路内置音频(inter-integrated circuit sound，I1S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对用户终端100的结构限定。在本申请另一些实施例中，用户终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

用户终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

在一些可行的实施方式中，用户终端100可以使用无线通信功能和其他设备通信。例如，用户终端100可以和第二电子设备通信，用户终端100与第二电子设备建立投屏连接，用户终端100输出投屏数据至第二电子设备等。其中，用户终端100输出的投屏数据可以为音视频数据。

天线1和天线2用于发射和接收电磁波信号。用户终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在用户终端100上的包括1G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线2转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在用户终端100上的包括无线局域网(wireless local area networks，WLAN)，如无线保真(wireless fidelity，Wi-Fi)网络，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线1接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，用户终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得用户终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

用户终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，用户终端100可以包括1个或N个显示屏194，N为大于1的正整数。

在一些可行的实施方式中，显示屏194可用于显示用户终端100的系统输出的各个界面。

用户终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，用户终端100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。用户终端100可以支持一种或多种视频编解码器。这样，用户终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG1，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现用户终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展用户终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行用户终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如本申请实施例中的方法等)等。存储数据区可存储用户终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

用户终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。在一些可行的实施方式中，音频模块170可用于播放视频对应的声音。例如，显示屏194显示视频播放画面时，音频模块170输出视频播放的声音。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定用户终端100的运动姿态。气压传感器180C用于测量气压。

加速度传感器180E可检测用户终端100在各个方向上(包括三轴或六轴)加速度的大小。当用户终端100静止时可检测出重力的大小及方向。还可以用于识别用户终端姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。

环境光传感器180L用于感知环境光亮度。

指纹传感器180H用于采集指纹。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于用户终端100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。用户终端100可以接收按键输入，产生与用户终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质内存储有指令，当所述指令在计算机上运行时，使得计算机执行上述实施例所述的跨模态检索方法的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述实施例所述的跨模态检索方法的步骤。或者说，提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行上述实施例所述的跨模态检索方法的步骤。

本申请实施例还提供了一种芯片，所述芯片包括处理器和接口电路，所述接口电路用于接收指令并传输至所述处理器，所述处理器用于执行上述实施例所述的跨模态检索方法的步骤。

本申请实施例还提供了一种检索系统，所述检索系统包括上述实施例所述的跨模态检索装置以及模型训练装置。该模型训练装置用于对上述实施例中涉及的模型进行训练。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))或半导体介质(例如：固态硬盘(solid state disk，SSD))等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

本申请实施例主要有如下三个关键点：

1、提出一种开放语义与标签双路召回技术：在做图像和视频检索中，使用“分类打标技术”和“跨模态对比学习技术”分别获得标签召回和开放语义的双路召回。

2、基于关键点1的开放语义召回，提出一种多特征精排过滤模块：开放语义召回分为两个步骤，首次召回和精排过滤。基于首次召回获得的特征检索结果，将视觉特征和文本特征同时送入精排过滤模块，精排过滤模块基于多特征输入，做细粒度分析，从而修改首次召回的排序并做进一步过滤，从而提升召回效果。

3、基于关键点1的获得的标签召回和开放语义召回，提出一种开放语义与标签的双路融合技术：基于标签召回和开放语义召回双路召回结果，分为双路召回同时存在、仅存在标签召回、仅存在开放语义召回三种情况处理，在双路召回同时存在场景中，给予系统可配置的融合方案，从而适应不同准确率和召回率要求的场景。

本申请实施例应用在跨模态搜索场景，如：用户输入文字，搜索图像和视频。配合深度学习网络完成分类打标和跨模态特征提取，从而完成跨模态检索；包括计算机视觉、自然语言处理等领域。本申请实施例的系统架构如图2所示，主要包括：1、双路召回部件(即文本标签与视觉标签的匹配、文本特征与视觉特征的匹配)；2、双路融合部件(即至少一个第一视觉数据和至少一个第二视觉数据是否同时存在而确定检索结果)；3、基于1的精排过滤部件(对至少一个第二视觉数据进行精细化处理)。

通过本申请实施例提出的方法，能够为用户提供更加开放和精准的跨模态内容搜索。相比于已有方案，在端侧场景(如：手机相册)能够提供更加开放的搜索能力；在云侧场景(如：搜索引擎)提供更加精准的搜索效果。本申请实施例通过设计系统，融合了两项技术：分类打标和跨模态对比学习。分类方案具有极高的精度，有利于保障关键场景的召回效果；跨模态方案具有极广泛的识别能力，且能够识别形容词、组合词等细节描述能力；两者结合，相互取长补短，达到精度和广度检索效果的综合提升；精排过滤模块以多种跨模态特征作为输入，进一步提升结果。

本申请实施例的核心实现装置为计算机代码，如上图2实现，分为双路召回部件、双路融合部件以及双路召回部件中的精排过滤部件，其中双路召回部件以及精排过滤部件需要借助深度学习网络实现。

参考图2和图5，本申请实施例核心方法流程如下：

步骤一：用户提前存放好需要被检索的图片、视频，以供视觉模型作分析。

步骤二：开发人员提前配置好双路融合组件中的“融合策略”。

步骤三：视觉模型对用户数据做一一分析，获得视觉特征库和视觉标签库，其中视觉特征库用在后续步骤的开放语义召回中；视觉标签库用在后续步骤的标签召回中。

步骤四：用户输入文字描述(query)，触发跨模态检索。

步骤五：检索系统基于步骤四的query，提取其中的标签内容，使用标签检索步骤三生成的视觉标签库；获得标签召回。

步骤六：检索系统基于步骤四的query，送入文本模型，生成文本特征；使用文本特征检索步骤三生成的视觉特征库，获得首次召回。

步骤七：将步骤六首次召回的视觉特征和文本特征，同时送入精排过滤模块，对步骤六的首次召回最更加精细的排序和过滤，获得开放语义召回。

步骤八：将步骤五的标签召回和步骤七的开放语义召回同时送入双路融合组件中；根据双路召回是否同时存在，分为三种情况执行：

(A)双路召回同时存在：融合双路召回的结果，通过可配置的融合策略，返回融合结果；

(B)仅存在标签召回：返回标签召回结果；

(C)仅存在语义召回：返回语义召回结果。

参考图2和图4，对跨模态检索，用户不同输入的场景，会触发不同的融合效果，具体流程如下：

步骤1：用户输入检索内容(query)。

步骤2：系统根据用户输入，获得标签召回和开放语义召回。

步骤3：系统根据步骤2的召回情况，从如下三种融合情况：

步骤3.1(直接命中标签)：当用户输入和预设标签相同时，则直接返标签召回的结果，其中标签召回根据用户输入的标签直接返回搜索结果，例如返回的图片和视频。假设预置标签中包含“大熊猫”，且用户输入为“大熊猫”。该情况下用户输入直接命中标签，则返回标签(大熊猫)召回结果，不返回语义召回结果；其中预置标签的设置方法在此不做限定，例如可以通过产品需求和应用场景需求，人为设定。

另一种可实现方案中，当用户输入和预设标签相同时，则直接返标签召回的结果，不返回语义召回结果。

步骤3.2(用户输入不包含标签)：当用户输入检索语句中不包含预设标签，则直接返回开放语义召回结果，其中开放语义召回指返回符合用户输入的搜索结果，如返回的图片和视频。假设用户输入“光刻机”，且“光刻机”不在预置标签中。该情况下用户输入未命中标签，则返回开放语义召回结果，无标签结果返回。

另一种可实现方案中，当用户输入检索语句中不包含预设标签，则直接返回开放语义召回结果，且无标签结果返回。

步骤3.3(用户输入包含标签)：当用户输入检索语句中含有预设标签或者预设标签指代的语义(例如：预设标签的同义词)，需要返回标签召回和开放语义召回的结果。假设预置标签中包含“大熊猫”，且用户输入为“吃竹子的大熊猫”，经过系统识别发现用户的输入中包含的“大熊猫”正好命中了预设标签，因此需要返回标签召回和开放语义召回的结果；由于存在标签召回和开放语义召回的两路结果，因此需要做融合。根据标签可根据标签的敏感程度为系统预设融合方案。融合方案可以根据场景对于召回数量和准确性的侧重程度，选择并集或交集。例如：若命中非敏感标签(如：大熊猫)，则建议将标签命中的结果和语义命中结果取并集；若命中敏感标签，例如涉及攻击性，或容易在表达上擦边球的内容，建议取并集，从而最大限度保障无误召回发生。

采用本申请实施例的提出方案，能够对分类标签和跨模态对比学习两个技术方案取长补短。分类方案具有极高的精度，有利于保障关键场景的召回效果；跨模态方案具有极广泛的识别能力，且能够识别形容词、组合词等细节描述能力；两者结合，相互取长补短，达到精度和广度检索效果的综合提升。

区别于需借助上下文描述的方案，本申请实施例通过设计一种分类标签和跨模态对比学习技术融合的系统方案，在无需上下文的情况下，即可做到高精度的开放内容搜索，适用范围更广，可推广到端侧设备使用场景(如：手机相册)。

区别于分类标签技术和跨模态对比学习技术，本申请实施例通过两者结合，相互取长补短，达到精度和广度检索效果的综合提升。

图5所示的精排过滤技术方案可以用在开放语义召回的后处理过程中，也可以结合上述双路融合的方法来实现，在此不做限定。如果精排过滤模块用在开放语义召回流程中，可以提升开放语义召回质量，优化排序，删除难例错例。

本申请实施例的精排过滤模块需要借助首次召回的视觉特征，以及本次检索的文本特征，将视觉和文本特征同时送入精排过滤模块中，以达到召回效果提升。技术方案详见图5，步骤如下：

步骤1：将图像或视频送入视觉模型，获得视觉特征库。

步骤2：将用户输入送入文本模型，获得文本特征。

步骤3：使用文本特征检索视觉特征，取相似度大于阈值的结果作为首次召回的图片或视频，获得首次召回的视觉特征，每个特征对应一张图片或视频。

步骤4：将首次召回的视觉特征和文本特征同时输入精排过滤模块，精排过滤模块包括神经网络模型，还可能包括数据处理模块；神经网络模型输出每一对“视觉-文本”的相似性结果或是否成对的判断结果。

步骤5：获得精排过滤后的结果，效果展示详见图6。

如图6为精排过滤后的效果，精排过滤主要有两个功能：

功能一：过滤不合理结果，提升召回准确性。如图6所示，首次召回中的样例2(鹦鹉)不符合搜索词“麻雀”的意思，但由于“麻雀”和“鹦鹉”都属于小型鸟类，因此判别难度高，因此首次召回前的图片和文本分别使用“视觉模型”和“文本模型”进行分析，难以做到细粒度判别，故容易出错(详见图5首次召回)。在精排过滤阶段，由于将视觉和文本特征同时送入模型进行细粒度分析，因此能够更好地做判别，有利于获得更准确的结果(详见图5精排过滤)。因此图6中，鹦鹉在精排过滤后得以删除。

功能二：调整首次召回结果，提升召回体验。如图6所示，首次召回中的排序1的麻雀，外形特征不如3和4。在精排过滤阶段，由于将视觉和文本特征同时送入模型进行细粒度分析，因此能够更好地做判别，有利于获得更合理的排序结果。

区别于跨模态对比学习技术仅做首次召回的方案，本技术方案先进行视觉模型和文本模型解耦的首次召回，在保障推理效率的同时，达到广泛的识别能力，且能够识别形容词、组合词等细节描述能力的效果，并将精排过滤范围缩小到可控范围；进一步地，加入精排过滤模块，排除难例错例，调整召回顺序，提升召回质量。

本申请实施例的关键技术点概括：

1、一种开放语义与标签双路召回技术：基于分类算法和跨模态特征匹配算法，同时召回标签和开放语义的召回结果，作为首次召回。

2、保护具有精排过滤模块的检索系统，其中精排过滤模块的实现方式，基于技术点1的首次召回，基于首次召回结果，将文本和视觉特征同时输入精排过滤模块做精细化排序和过滤。

3、一种开放语义与标签双路融合技术：基于标签和语义的召回，分为三种情况：

双路召回：基于可配置的融合策略，获得双路融合后的结果。

仅标签召回：直接返回标签召回结果。

仅语义召回：直接返回语义召回结果。

本申请实施例的关键技术点对应的有益效果：

一种开放语义与标签双路召回技术：同时获得开放语义和标签召回结果，保障召回完整性，为下一步精排过滤提供优质起点。

一种多特征精排过滤模块：同时视觉和文本信息送入模型中做细粒度分析，获得更优质的排序结果，删除难例错例。

一种开放语义与标签双路融合技术：将开放语义和标签召回结果，进行可配置的融合，通过调整融合方式，做到敏感场景不触发舆论风险，非敏感场景提升用户召回满足度。

应当理解的是，本文提及的“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种跨模态检索方法，其特征在于，所述方法包括：

提取检索文本的文本标签和文本特征；基于所述文本标签和被检索视觉数据的视觉标签，确定所述被检索视觉数据中是否存在视觉标签与所述文本标签匹配的至少一个第一视觉数据，所述被检索视觉数据包括图像和/或视频；

基于所述文本特征和所述被检索视觉数据的视觉特征，确定所述被检索视觉数据中是否存在视觉特征与所述文本特征匹配的至少一个第二视觉数据；

基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。
如权利要求1所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

如果所述被检索视觉数据中存在所述至少一个第一视觉数据和所述至少一个第二视觉数据，则基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。
如权利要求1或2所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

如果所述至少一个第一视觉数据的视觉标签属于第一类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的交集作为所述检索结果，所述第一类标签是指表征视觉数据时具有不确定性的标签。
如权利要求1-3任一项所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

如果所述至少一个第一视觉数据的视觉标签属于第二类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的并集作为所述检索结果，所述第二类标签是指表征视觉数据时具有确定性的标签。
如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

如果所述被检索视觉数据中存在所述至少一个第一视觉数据但不存在所述至少一个第二视觉数据，则将所述至少一个第一视觉数据作为所述检索结果。
如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

如果所述被检索视觉数据中存在所述至少一个第二视觉数据但不存在所述至少一个第一视觉数据，则将所述至少一个第二视觉数据作为所述检索结果。
如权利要求1-6任一项所述的方法，其特征在于，所述被检索视觉数据中存在所述至少一个第二视觉数据；所述方法还包括：

将所述至少一个第二视觉数据的视觉特征和所述文本特征输入至神经网络模型中，以得到模型推理结果，所述模型推理结果包括相似性结果和/或成对判断结果，所述相似性结果指示所述至少一个第二视觉数据分别与所述检索文本之间的相似度，所述成对判断结果指示所述至少一个第二视觉数据分别与所述检索文本是否能够成对；

基于所述模型推理结果对所述至少一个第二视觉数据进行处理。
如权利要求7所述的方法，其特征在于，所述模型推理结果包括相似性结果；

所述基于所述模型推理结果对所述至少一个第二视觉数据进行处理，包括：

基于所述相似性结果，从所述至少一个第二视觉数据中筛选出与所述检索文本之间的相似度大于第一相似度阈值的第二视觉数据。
如权利要求7所述的方法，其特征在于，所述模型推理结果包括成对判断结果；

所述基于所述模型推理结果对所述至少一个第二视觉数据进行处理，包括：

基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据。
如权利要求7所述的方法，其特征在于，所述模型推理结果包括相似性结果和成对判断结果；

所述基于所述模型推理结果对所述至少一个第二视觉数据进行处理，包括：

基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据；

基于所述相似性结果，按照筛选出的第二视觉数据与所述检索文本之间的相似度从大到小的顺序，对所述筛选出的第二视觉数据进行排序。
一种跨模态检索装置，其特征在于，所述装置包括：

提取模块，用于提取检索文本的文本标签和文本特征；

第一确定模块，用于基于所述文本标签和被检索视觉数据的视觉标签，确定所述被检索视觉数据中是否存在视觉标签与所述文本标签匹配的至少一个第一视觉数据，所述被检索视觉数据包括图像和/或视频；

第二确定模块，用于基于所述文本特征和所述被检索视觉数据的视觉特征，确定所述被检索视觉数据中是否存在视觉特征与所述文本特征匹配的至少一个第二视觉数据；

第三确定模块，用于基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。
如权利要求11所述的装置，其特征在于，所述第三确定模块具体用于：

如果所述被检索视觉数据中存在所述至少一个第一视觉数据和所述至少一个第二视觉数据，则基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。
如权利要求11或12所述的装置，其特征在于，所述第三确定模块具体用于：

如果所述至少一个第一视觉数据的视觉标签属于第一类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的交集作为所述检索结果，所述第一类标签是指表征视觉数据时具有不确定性的标签。
如权利要求11-13任一项所述的装置，其特征在于，所述第三确定模块具体用于：

如果所述至少一个第一视觉数据的视觉标签属于第二类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的并集作为所述检索结果，所述第二类标签是指表征视觉数据时具有确定性的标签。
如权利要求11-14任一项所述的装置，其特征在于，所述装置还包括：

第四确定模块，用于如果所述被检索视觉数据中存在所述至少一个第一视觉数据但不存在所述至少一个第二视觉数据，则将所述至少一个第一视觉数据作为所述检索结果。
如权利要求11-15任一项所述的装置，其特征在于，所述装置还包括：

第五确定模块，用于如果所述被检索视觉数据中存在所述至少一个第二视觉数据但不存在所述至少一个第一视觉数据，则将所述至少一个第二视觉数据作为所述检索结果。
如权利要求11-16任一项所述的装置，其特征在于，所述被检索视觉数据中存在所述至少一个第二视觉数据；所述装置还包括：

模型推理模块，用于将所述至少一个第二视觉数据的视觉特征和所述文本特征输入至神经网络模型中，以得到模型推理结果，所述模型推理结果包括相似性结果和/或成对判断结果，所述相似性结果指示所述至少一个第二视觉数据分别与所述检索文本之间的相似度，所述成对判断结果指示所述至少一个第二视觉数据分别与所述检索文本是否能够成对；

处理模块，用于基于所述模型推理结果对所述至少一个第二视觉数据进行处理。
如权利要求17所述的装置，其特征在于，所述模型推理结果包括相似性结果；所述处理模块具体用于：

基于所述相似性结果，从所述至少一个第二视觉数据中筛选出与所述检索文本之间的相似度大于第一相似度阈值的第二视觉数据。
如权利要求17所述的装置，其特征在于，所述模型推理结果包括成对判断结果；所述处理模块具体用于：

基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据。
如权利要求17所述的装置，其特征在于，所述模型推理结果包括相似性结果和成对判断结果；所述处理模块具体用于：

基于所述成对判断结果，从所述至少一个第二视觉数据中筛选出与所述检索文本能够成对的第二视觉数据；

基于所述相似性结果，按照筛选出的第二视觉数据与所述检索文本之间的相似度从大到小的顺序，对所述筛选出的第二视觉数据进行排序。
一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器被配置为执行所述计算机程序，以实现权利要求1-10任一项所述的跨模态检索方法的步骤。
一种计算机可读存储介质，其特征在于，所述存储介质内存储有指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-10任一项所述的方法的步骤。
一种计算机程序，其特征在于，所述计算机程序包含指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-10任一项所述的跨模态检索方法的步骤。
一种芯片，其特征在于，所述芯片包括处理器和接口电路，所述接口电路用于接收指令并传输至所述处理器，所述处理器用于执行权利要求1-10任一项所述的跨模态检索方法的步骤。
一种检索系统，其特征在于，所述检索系统包括权利要求11-20任一项所述的跨模态检索装置以及模型训练装置。