WO2023168997A1

WO2023168997A1 - 一种跨模态搜索方法及相关设备

Info

Publication number: WO2023168997A1
Application number: PCT/CN2022/134918
Authority: WO
Inventors: 梅柯; 郑还; 李明
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-03-07
Filing date: 2022-11-29
Publication date: 2023-09-14
Also published as: KR20240052055A; US20230359651A1; CN116775980B; CN116775980A; JP2024541145A; WO2023168997A9

Abstract

本申请实施例公开了一种跨模态搜索方法及相关设备，该跨模态搜索方法包括：获取第一模态数据；基于第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，该第一集合中包括与第一模态数据的内容信息相匹配的至少一个第二模态数据；基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合，该第二集合中包括与第一模态数据的语义信息相匹配的至少一个第二模态数据；对第一集合和第二集合进行合并，得到第一模态数据对应的跨模态搜索结果。通过本申请实施例，可以提升跨模态搜索的效率，以及跨模态搜索结果的多样性和全面性。

Description

一种跨模态搜索方法及相关设备

本申请要求于2022年03月07日提交中国专利局、申请号为2022102220890、申请名称为“一种跨模态搜索方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及跨模态搜索技术。

背景技术

随着互联网技术的高速发展，借助计算机设备对数据进行搜索，是人们在生产生活以及工作学习中不可或缺的功能。实践发现，目前的搜索普遍存在不支持跨模态搜索、搜索维度单一、搜索效率低、搜索结果不全面等问题。

发明内容

本申请实施例提供了一种跨模态搜索方法及相关设备，可以提升跨模态搜索的效率、以及跨模态搜索结果的多样性和全面性。

本申请实施例一方面提供了一种跨模态搜索方法，由计算机设备执行，包括：

获取第一模态数据；

基于第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，第一集合中包括与第一模态数据的内容信息相匹配的至少一个第二模态数据；

基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合，第二集合中包括与第一模态数据的语义信息相匹配的至少一个第二模态数据；

对第一集合和第二集合进行合并，得到第一模态数据对应的跨模态搜索结果。

本申请实施例一方面提供了另一种跨模态搜索方法，由计算机设备执行，包括：

显示社交会话的会话界面；

响应于对所述社交会话的历史会话记录的查看，显示会话记录详情界面，所述会话记录详情界面中包括所述社交会话的历史会话记录中的第二模态数据；

响应于在所述会话记录详情界面中输入的第一模态数据，输出所述第一模态数据对应的跨模态搜索结果；所述跨模态搜索结果是采用本申请实施例的跨模态搜索方法得到的。

本申请实施例一方面提供了一种跨模态搜索装置，包括：

获取模块，用于获取第一模态数据；

搜索模块，用于基于第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，第一集合中包括与第一模态数据的内容信息相匹配的至少一个第二模态数据；

搜索模块，还用于基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合，第二集合中包括与第一模态数据的语义信息相匹配的至少一个第二模态数据；

合并模块，用于对第一集合和第二集合进行合并，得到第一模态数据对应的跨模态搜索结果。

本申请实施例一方面提供了另一种跨模态搜索装置，包括：

显示模块，用于显示社交会话的会话界面；

显示模块，还用于响应于对社交会话的历史会话记录的查看，显示会话记录详情界面，会话记录详情界面中包括社交会话的历史会话记录中的第二模态数据；

输出模块，用于响应于在会话记录详情界面中输入的第一模态数据，输出第一模态数据对应的跨模态搜索结果；跨模态搜索结果是采用本申请实施例的跨模态搜索方法得到的。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的跨模态搜索方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的跨模态搜索方法。

本申请实施例一方面提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现本申请实施例中一方面提供的跨模态搜索方法。

在本申请实施例中，基于第一模态数据的内容信息，可搜索到与该第一模态的内容信息相匹配的第二模态数据；基于第一模态数据的语义信息，可搜索到与该第一模态数据的语义信息相匹配的第二模态数据；可见，本申请实施例不仅支持跨模态搜索，而且还支持分别从内容和语义这两个维度进行综合搜索，这使得搜索覆盖的维度不再单一；另外，将两个维度搜索到的第二模态数据合并作为跨模态搜索结果，通过一次搜索过程可以获得多个维度的搜索结果，提升了跨模态搜索的搜索效率；另外，由于跨模态搜索结果由两个维度的搜索结果合并得到，这使得跨模态搜索结果更加多样化，更加全面。

附图说明

图1是本申请实施例提供的一种跨模态搜索系统的架构图；

图2是本申请实施例提供的一种跨模态搜索方法的流程示意图一；

图3是本申请实施例提供的一种跨模态搜索方法的流程示意图二；

图4a是本申请实施例提供的一种跨模态搜索模型中的第一模态处理网络的结构示意图；

图4b是本申请实施例提供的一种跨模态搜索模型中的第二模态处理网络的结构示意图；

图5是本申请实施例提供的一种跨模态搜索模型的训练示意图；

图6是本申请实施例提供的一种跨模态搜索的算法流程示意图；

图7是本申请实施例提供的一种跨模态搜索方法的流程示意图三；

图8a是本申请实施例提供的一种对历史会话记录的查看的操作示意图；

图8b是本申请实施例提供的一种跨模态搜索的操作示意图；

图8c是本申请实施例提供的一种输出跨模态搜索结果的效果示意图；

图9是本申请实施例提供的一种跨模态搜索装置的结构示意图；

图10是本申请实施例提供的另一种跨模态搜索装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

聊天照片墙：应用程序(Application，APP)中每个聊天内收发图片的全量展示页。

多模态学习：是指将两种不同模态的数据映射到同一个特征空间(例如语义空间)，使得两种不同模态的数据可以根据语义产生关联，具有相似语义的模态数据在该特征空间中具备相似的特征，上述两种不同模态的数据例如可以是图像和文本。

基于上述术语及概念，下面将结合附图，对本申请实施例提供的跨模态搜索系统的架构进行介绍。

请参见图1，图1是本申请实施例提供的一种跨模态搜索系统的架构示意图。如图1所示，该架构图可以包括数据库101以及跨模态搜索设备102。跨模态搜索设备102可以和数据库101通过有线或无线的方式建立通信连接，数据库101可以是跨模态搜索设备102的本地数据库，也可以是跨模态搜索设备102可以访问的云端数据库。跨模态搜索设备102具体可以是服务器或者终端等计算机设备。

本申请实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，在此不做限制。终端可以是智能手机、平板电脑、智能可穿戴设备、智能语音交互设备、智能家电、个人电脑、车载终端等设备，在此不做限制。

数据库101可以包括第二模态数据库、以及与该第二模态数据库关联的第二模态特征库，第二模态数据库用于存储第二模态数据以及第二模态数据的属性信息。此处，在一种实施方式中，第二模态数据的属性信息可以是第二模态数据本身所包含的信息，例如，第二模态数据为图像，属性信息可以是图像中的文字。在另一种实施方式中，第二模态数据的属性信息还可以是第二模态数据关联的信息，例如，第二模态数据为图像，属性信息可以是为图像标注的类别标签。第二模态特征库用于存储第二模态数据的语义特征，并且每个第二模态数据的语义特征均设置有特征索引，该特征索引可以辅助快速地从第二模态数据库中搜索到第二模态数据。

跨模态搜索设备102用于根据第一模态数据搜索第二模态数据，进而，生成跨模态搜索结果，具体过程如下：①获取第一模态数据。该第一模态数据可以是文本、语音、图像等中的任一种。②基于第一模态数据的内容信息和语义信息，分别从数据库101(具体是第二模态数据库)中搜索出与内容信息匹配的第二模态数据、以及与语义信息匹配的第二模态数据。这里的内容信息是指第一模态数据的本身包含的内容，语义信息是指第一模态数据所表达的抽象含义。举例来说，第一模态数据为文本，内容信息即该文本中的字符，语义信息则是该文本表达的含义。若第一模态数据为图像，则内容信息可以是图像中包含的内容，例如文字；语义信息则可以是从该图像中提取出来的语义特征。在一个实施例中，基于第一模态数据的内容信息，可以直接从第二模态数据库中查找到与该内容信息匹配的第二模态数据；而基于第一模态数据的语义信息，则需要借助第二模态特征库，在第二模态特征库中查找与第一模态数据的语义信息匹配的第二模态特征，进而根据第二模态特征在第二模态数据库中确定对应的第二模态数据，为与该语义信息匹配的第二模态数据。③将这些第二模态数据合并作为与第一模态数据相匹配的跨模态搜索结果。

跨模态搜索设备102还可以用于根据输入的第一模态数据，输出该第一模态数据对应的跨模态搜索结果。具体过程包括：①显示社交会话的会话界面；②响应于对社交会话的历史会话记录的查看操作，显示会话记录详情界面；会话记录详情界面中显示有第二模态数据，并且第二模态数据属于社交会话的历史会话记录；③响应于会话记录详情界面中输入的第一模态数据，输出第一模态数据对应的跨模态搜索结果。可选地，在会话记录详情界面可以提供搜索框，供会话对象手动输入第一模态数据，也可以推荐第一模态数据供会话对象选择，进而快捷触发搜索功能进行跨模态搜索。在一个实施例中，可以按照指定的搜索规则进行跨模态搜索，例如，输入的文本可以按照图像描述搜索，也可以按照图像中的文字搜索。这样，所展示的跨模态搜索结果可以与搜索维度相关，例如，可以输出跨模态搜索结果中与第一模态数据的内容信息匹配的第二模态数据，或者是输出跨模态搜索结果中与第一模态数据的语义信息匹配的第二模态数据。

由上述可知，跨模态搜索系统支持如下两种跨模态搜索方案：一种是技术层面的通用跨模态搜索，另一种是产品层面在历史会话记录中的跨模态搜索，后者将输出跨模态搜索结果，且跨模态搜索结果是通过实施技术层面的跨模态搜索方案得到的。承载这两种方案的跨模态搜索设备具体可以为同一个计算机设备，也可以为不同的计算机设备；当承载这两种方案的跨模态搜索设备为不同的计算机设备时，假设为计算机设备A和计算机设备B，由计算机设备B接收输入的第一模态数据，并将该第一模态数据发送给计算机设备A，计算机设备A基于获取到的第一模态数据从数据库中进行搜索，得到跨模态搜索结果，再将该跨模态搜索结果发送给计算机设备B，并在计算机设备B中输出该跨模态搜索结果；当承载这两种方案的跨模态搜索设备为同一个计算机设备时，假设为计算机设备A，可以由计算机设备A自动识别输入的第一模态数据，基于该第一模态数据从数据库中搜索相匹配的第二模态数据，得到跨模态检索结果并在计算机设备A中输出。

可见，本申请实施例提供的跨模态搜索系统，可以支持分别基于第一模态数据的内容信息和第一模态数据的语义信息，在第二模态数据库中搜索与第一模态数据匹配的第二模态数据；这是一种跨模态搜索方式，并且分别从内容和语义这两个维度进行综合搜索，使得搜索覆盖的维度不再单一，能够覆盖搜索与第一模态数据有关联的所有第二模态数据，进而可以更快更准确地得到搜索结果；此外，将两个维度搜索到的第二模态数据合并作为跨模态搜索结果，使得一次搜索过程获得多个维度的搜索结果，跨模态搜索的效率得到显著提升，并且能够得到十分丰富且全面的搜索结果。此外，跨模态搜索系统还可以提供基于社交会话的历史会话记录的搜索功能，该搜索功能是对历史会话记录中的第二模态数据进行搜索，并且可以展示全部的跨模态搜索结果，或者可以按照指定维度进行搜索以展示指定维度的跨模态搜索结果，由于上述跨模态搜索方案的技术支持，在启用搜索功能搜索历史会话记录中的第二模态数据时，第一模态数据输入的自由度、复杂度得到了有效提升。

为了更好地理解本申请实施例提供的跨模态搜索方法，下面对该跨模态搜索方法可以应用的场景进行说明。具体而言，本申请实施例的跨模态搜索方法可以应用在如下所示的场景1、场景2中，但并不限于这几种应用场景。下面分别对场景1、场景2进行介绍。

场景1：第一模态数据为文本数据，第二模态数据为图像数据，针对图像数据、文本数据进行搜索匹配。在社交会话的历史会话记录中，存在诸多形式的会话消息，例如图片、视频、文件、链接、音乐等等，搜索历史会话记录是一种更快捷地触达历史会话记录中包含的历史会话消息的方式。针对图片或者视频形式的历史会话记录进行搜索，可以将手动输入的文本或者被选中的推荐文本作为搜索文本，然后输出与之匹配的图像数据，包括图片或者视频。此外，针对智能终端的系统相册中图片或者视频进行搜索，也可以采用本申请实施例的跨模态搜索方法，也是同理，可以将文本作为查询输入，通过对相册中的图像特征、以及图像中包含的文本信息或者关联的文本描述信息进行匹配，从而输出对应的图像数据。

场景2：第一模态数据为音频数据，第二模态数据为图像数据，针对图像数据、语音数据进行搜索匹配。以智能手机为例，当前许多智能手机均配备有智能语音的功能，通过智能语音能够控制终端设备自动执行相应操作。面对智能手机中海量的图片或者视频，通过语音查询涉及跨模态搜索的问题，即对语音进行识别和理解，将语音和图像映射到相同的特征比对空间中，从而匹配到与之对应的图片，此外，还可以将语音转换为文本，通过将文本与图像的类别标签、文本描述信息等进行比对，从而匹配到对应的图片或视频。通过本申请实施例的跨模态搜索方法，可以将语音作为查询输入，通过对手机相册中的图像内容进行匹配，从而自动输出与语音匹配的图像。

下面结合附图，对本申请实施例提出的跨模态搜索方法的具体实现方式进行详细阐述。

请参见图2，是本申请实施例提供的一种跨模态搜索方法的流程示意图一，该跨模态搜索方法可以由计算机设备(例如图1所示的跨模态搜索设备102)执行。其中，该跨模态搜索方法包括但不限于以下步骤。

S201，获取第一模态数据。

模态可以是指一种信息的来源或者形式。举例来说，人有听觉、视觉、嗅觉、触觉，信息的媒介有语音、视频、文字、图片等，以上每一种都可以视为一种模态。在本申请实施例中，跨模态搜索主要涉及对信息媒介的处理，模态数据具体可以是图像、视频、音频等不同形式的数据。获取到的第一模态数据可以是用户通过计算机设备输入的模态数据，可选地，第一模态数据可以是通过例如物理键盘、虚拟键盘、光标选择等辅助方式输入的文本数据或者图像数据，或者可以是通过智能语音设备识别的音频数据，或者可以是从推荐第一模态数据(例如推荐文本)中选择的。

S202，基于第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合。

第一集合中包括与第一模态数据的内容信息相匹配的至少一个第二模态数据。第一模态数据的内容信息是用于描述第一模态数据所包含的本质内容的数据信息。例如，第一模态数据为文本，对应的内容信息可以为文本字符本身，或者是基于文本抽取出来的关键词；又例如，第一模态数据为图像，对应的内容信息可以是图像所包含的其他模态信息或者是基本特征，譬如图像包含的几何形状、纹理、颜色、对象类别标签、文本描述信息中的任一种或多种等等。基于第一模态数据的内容信息这一维度，可以在第二模态数据库中搜索所有与第一模态数据的内容信息相匹配的第二模态数据，并将相匹配的第二模态数据添加到第一集合中。

在一个实施例中，第二模态数据库中存储有N个第二模态数据、以及N个第二模态数据各自的属性信息，N为正整数。第二模态数据和第一模态数据是两种不同模态的数据，第二模态数据可以是文本、图像、音频、视频等模态数据中的任一种，第二模态数据库中存储的第二模态数据在不同的业务场景中会有所不同。例如，在社交会话的历史会话记录搜索中，第二模态数据可以是会话中发送或接收到的图像。第二模态数据的属性信息是描述第二模态数据属性的信息，可以是从第二模态数据中识别到的、或者是其他数据产生的关联信息，该属性信息和第一模态数据的内容信息可以是相同记录形式的数据，例如均为文本描述信息。第一模态数据的内容信息可以和第二模态数据的属性信息进行匹配，从而在第二模态数据库中搜索到匹配的第二模态数据，得到第一集合。

可选地，步骤S202的具体实现方式包括以下步骤S2021和S2022：S2021、针对N个第二模态数据中的每个第二模态数据，确定第一模态数据的内容信息与该第二模态数据的属性信息之间的匹配度，作为该第二模态数据对应的匹配度；S2022、将所对应的匹配度满足匹配条件的第二模态数据添加至第一集合中。

可以将第一模态数据的内容信息分别和第二模态数据库中N个第二模态数据中的每个第二模态数据的属性信息进行匹配，得到对应的匹配度。此处的匹配度可以表示第一模态数据的内容信息和第二模态数据的属性信息之间是否相似或者一致。第一模态数据的内容信息和第二模态数据的属性信息之间的匹配度，可以通过模态数据的相似度(例如文本相似度)，或者是抽象的语义相似度来衡量，也可以采用其他方式，在此不做限制。通过判断匹配度是否满足匹配条件，可以从第二模态数据库中搜索出与第一模态数据的内容信息相匹配的第二模态数据。此处的匹配条件可设定为匹配度大于或等于匹配度阈值，也可设定为匹配度排列在前y位，y为正整数。对匹配条件的具体设定内容不做限制。

可选地，属性信息包括第一模态描述信息和类别标签中的一种或两种，第一模态描述信息是指以第一模态的形式记录的描述信息，例如，第一模态数据为文本，那么第一模态描述信息则是文本描述信息，再例如，第一模态数据为图像，那么第一模态描述信息则是图像描述信息。第一模态描述信息作为第二模态数据的属性信息可以和第一模态数据的内容信息进行匹配，在第一模态数据的内容信息和第二模态的属性信息均以相同模态的形式记录时，是相同模态信息的匹配，这样可以通过第一模态数据的内容信息和第二模态数据的第一模态描述信息的比对，更加方便地筛选出与第一模态数据的内容信息相匹配的第二模态数据。类别标签是为第二模态数据划分类别所标注的信息，可以是人工为第二模态数据标注的，也可以是将第二模态数据输入分类模型中进行多标签分类得到的。第二模态数据的类别标签和第一模态数据的内容信息也可以进行匹配，来搜索到满足匹配条件的第二模态数据。

对于属性信息的不同，步骤S2021和S2022的详细实现步骤也有所不同。具体可以参见下述两种实施方式。为便于描述，将N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N。

在一种实施方式中，属性信息包括第一模态描述信息，步骤S2021和S2022分别对应的实现方式可以是：确定第一模态数据的内容信息与第i个第二模态数据的第一模态描述信息之间的语义相似度，作为该第i个第二模态数据对应的匹配度；若第一模态数据的内容信息与第i个第二模态数据的第一模态描述信息之间的语义相似度大于第一相似阈值，则将第i个第二模态数据添加至第一集合。

具体地，第一模态数据的内容信息与第二模态数据的属性信息之间的匹配度可以采用上述提及的语义相似度，针对语义相似度的获取方式，可以是：提取第一模态数据的内容信息对应的语义特征，以及第i个第二模态数据的第一模态描述信息对应的语义特征，然后确定第一模态数据的内容信息和第i个第二模态数据的第一模态描述信息各自对应的语义特征之间的相似度，并将其作为语义相似度。之后，可以通过判断语义相似度是否大于第一相似阈值，来确定第i个第二模态数据是否满足匹配条件：如果该语义相似度大于第一相似阈值，则表示第i个第二模态数据的属性信息与第一模态数据的内容信息之间的匹配度满足匹配条件，进一步表明第i个第二模态数据的属性信息与第一模态数据的内容信息相匹配，则可以将第i个第二模态数据添加至第一集合中，反之，第i个第二模态数据将不被添加至第一集合中。

通过计算第一模态数据的内容信息和第二模态数据的第一模态描述信息之间的语义相似度，可以获知第一模态数据的内容信息和第二模态数据的第一模态描述信息表达的语义的一致性，进而确定第二模态数据和第一模态数据是否匹配。

示例性地，第一模态数据为文本数据，第二模态数据为图像数据，第一模态数据的具体内容为“蓝天白云”，内容信息也即该文本内容，第二模态数据的第一模态描述信息是对于图像内容的文本描述信息，该文本描述信息与图像是关联的，可以是图像中包含的文字信息，也可以是与图像关联的文本描述信息。当与图像关联的文本描述内容为“今天的天空真好看”。那么可以将其中的关键词“天空”作为第一模态描述信息，然后确定“天空”与“蓝天白云”两个文本各自对应的语义相似度，确定两者是否匹配，从而确定对应的图像是否为与文本相匹配的图像。

在另一种实施方式中，属性信息包括类别标签，步骤S2021和S2022分别对应的实现方式可以是：确定第一模态数据的内容信息与第i个第二模态数据的类别标签之间的相似度，作为该第i个第二模态数据对应的匹配度；若第一模态数据的内容信息与第i个第二模态数据的类别标签之间的相似度大于第二相似阈值，则将第i个第二模态数据添加至第一集合。

在属性信息包括类别标签时，上述匹配度具体是指第一模态数据的内容信息和第i个第二模态数据的类别标签之间的相似度，例如可以是文本相似度，相似度可以代表第二模态数据的类别标签和第一模态数据的内容信息的一致程度，当第一模态数据的内容信息完全等同于第i个第二模态数据的类别标签时，第i个第二模态数据即为满足匹配条件的第二模态数据，或者，第一模态数据的内容信息与类别标签十分相似，同理也可以将第i个第二模态数据确定为满足匹配条件的第二模态数据。对于第i个第二模态数据是否满足匹配条件，具体可以通过第一模态数据的内容信息和第i个第二模态数据的类别标签之间的相似度是否大于第二相似度阈值确定：若相似度大于第二相似度阈值，则表明第一模态数据的内容信息和第i个第二模态数据的类别标签之间的匹配度满足匹配条件，进一步表明第i个第二模态数据的类别信息与第一模态数据的内容信息相匹配，则第i个第二模态数据可以被添加至第一集合，反之，第i个第二模态数据将不被添加至第一集合。

示例性地，第一模态数据为搜索文本，第二模态数据为图像，第i个第二模态数据为目标图像，且被分类模型划分为“人物”、“风景”两个类别标签，那么当搜索文本输入为“人物”或者是“风景”时，由于类别标签和搜索文本是完全等同的，因此可以匹配到该图片，这里所使用的相似度具体可以是文本相似度。

需要注意的是，如果仅使用类别标签来实现以文搜图，且搜索词需完全等同于类别标签才能匹配到相关图片，那么由于对搜索词的要求较高、支持的搜索词有限且维度单一，可能很容易出现搜索不到结果的情况。而综合其他维度的信息进行搜索，具体从语义和内容两个维度进行搜索，同时降低匹配条件，例如包含该类别标签也可以视为匹配，不仅可以提升搜索效率，可以降低搜索结果为空的概率。

需要说明的是，上述两种实施方式针对N个第二模态数据中的任一个第二模态数据均适用，这样在第二模态数据库存储的N个第二模态数据都与第一模态数据的内容信息按照上述方式匹配之后，最终得到的第一集合可以作为下述跨模态搜索结果的一部分。

S203，基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合。

第二集合中包括与第一模态数据的语义信息相匹配的至少一个第二模态数据。第一模态数据的语义信息作为另一种信息表现形式，具体可以是指第一模态数据所对应的现实世界中事物所代表的含义。语义信息可以用于表征对第一模态数据的浅层或深层的语义理解，语义信息可以是非常丰富的，例如第一模态数据为文本时，相同的语义可以有很多不同的文本表达，非常灵活。

通过第一模态数据的语义信息这一维度在第二模态数据库中进行搜索，具体可以将第二模态数据的语义信息和第一模态数据的语义信息进行匹配，进而，从第二模态数据库中搜索出所有与第一模态数据的语义信息相匹配的第二模态数据，得到第二集合。其中，语义信息可以通过语义特征来表示，具体可以是语义特征向量。以多模态学习为基础，可以通过分别提取第一模态数据的语义特征和第二模态数据的语义特征，将两个不同模态数据的语义特征映射到同一个语义特征空间进行相似度比对，进而，基于相似语义特征将具有相似语义的第二模态数据搜索到。此步骤的具体实现方式可以参见下述图3对应实施例的介绍，在此先不做详述。

在第一模态数据为文本，第二模态数据为图像的条件下，此步骤是基于跨模态特征的以文搜图方式，即通过分别提取搜索词的文本特征向量和图片的图像特征向量，将两种不同模态的特征向量在同一个语义特征空间比对相似度，从而通过文本描述直接跨模态检索到具有相似语义的图像，这样可以支持更多、更复杂的文本描述，实现输入自由多样的描述图像的文本来搜索目标图片。

S204，对第一集合和第二集合进行合并，得到第一模态数据对应的跨模态搜索结果。

按照上述步骤对第二模态数据库中存储的N个第二模态数据进行搜索，可以得到与第一模态数据的内容相匹配的第一集合、以及与第一模态数据的语义相匹配的第二集合。将第一集合和第二集合进行合并，可以得到所有与第一模态数据相匹配的第二模态数据，包括与第一模态数据的内容信息匹配的第二模态数据、以及与第一模态数据的语义信息匹配的第二模态数据，即是第一模态数据对应的跨模态搜索结果，由此得到的跨模态搜索结果包括多个维度的搜索结果，是多样化且全面的搜索结果。

本申请实施例提供的跨模态搜索方案，基于第一模态数据的内容信息，可在第二模态数据库中搜索到与第一模态数据的内容信息相匹配的第二模态数据，基于第一模态数据的语义信息，可在第二模态数据库中搜索到第一模态数据的语义信息相匹配的第二模态数据，这样的搜索方式并不局限于某个维度，而是从多个维度进行综合搜索，这使得搜索覆盖的维度不再单一，并且通过一次搜索可以获取多个维度的搜索结果，这样提高了跨模态搜索的效率；此外，通过将与第一模态数据的两个维度分别匹配的第二模态数据合并作为跨模态搜索结果，能够得到更加丰富多样的跨模态搜索结果，其中，基于第一模态数据的内容信息进行搜索，具体是以第一模态数据的内容信息与第二模态数据的属性信息(可以为第一模态描述信息或者类别标签)之间的匹配度作为依据，由于属性信息更多的是对第二模态数据所包含的内容描述，相应地，第一模态数据也可以不局限于固定的表达，而是支持更加多样和复杂的表达。

请参见图3，是本申请实施例提供的一种跨模态搜索方法的流程示意图二，该方法可以由计算机设备(例如图1所示的跨模态搜索设备102)执行。其中，本实施例的跨模态搜索方法是对图2对应的步骤S203：基于第一模态数据的语义信息在第二模态数据库中搜索，得到第二集合，对应实现方式的详细介绍。

第二模态数据库中存储有N个第二模态数据。第二模态数据关联有第二模态特征库，该第二模态特征库中存储有N个第二模态数据各自的语义特征。基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合的具体实现方式，包括以下步骤S301～S304。

S301，获取第一模态数据的语义特征。

在一个实施例中，第一模态数据的语义特征可以通过跨模态搜索模型处理得到，具体地，跨模态搜索模型包括第一模态处理网络，此步骤的具体实现方式可以为：通过跨模态搜索模型中的第一模态处理网络，对第一模态数据进行特征提取处理，得到第一模态数据的语义特征。第一模态处理网络是针对第一模态数据的处理网络，示例性地，当第一模态数据为文本时，第一模态处理网络可以是文本处理网络，该文本处理网络可以是BERT(Bidirectional Encoder Representation from Transformers，一种预训练的语言表征模型)模型或者是各类有关BERT的变种模型，也可以是其他自然语言处理(Natural Language Processing，NLP)模型。如图4a所示，为文本编码器处理的示意图，将文本作为输入，文本编码器(Text encoder)可以输出文本特征向量。

302，基于第一模态数据的语义特征，在第二模态特征库中查找与第一模态数据的语义特征相匹配的目标语义特征。

第一模态数据的语义特征和第二模态数据的语义特征是否匹配，可以通过判断两种模态数据的语义特征之间的相似度是否大于相似度阈值来确定。具体可以分别计算第二模态特征库中存储的N个第二模态数据的语义特征与第一模态数据的语义特征之间的特征相似度，将特征相似度大于相似度阈值的第二模态数据的语义特征，确定为与第一模态数据的语义特征相匹配的第二模态数据的语义特征，即目标语义特征。按照上述方式可以从第二模态特征库中查找到一个或多个目标语义特征。

示例性地，第一模态数据为文本，第二模态数据为图像，第一模态数据对应的语义特征为文本特征向量，第二模态数据对应的语义特征为图像特征向量，用文本特征向量从图像特征库中检索出相似的图像特征向量，具体的检索方式可以是使用文本特征向量和图像特征向量计算特征相似度，并将特征相似度高于阈值的图像特征向量作为与文本特征向量匹配的目标图像特征向量。

S303，根据目标语义特征，在第二模态数据库中确定与第一模态数据的语义信息相匹配的第二模态数据。

由于第二模态特征库和第二模态数据库相关联，利用在第二模态特征库中查找到的目标语义特征，可以从第二模态数据库中确定出该目标语义特征所对应的第二模态数据，进而将其作为与第一模态数据的语义信息相匹配的第二模态数据。

在一个实施例中，第二模态特征库和第二模态数据库通过特征索引关联，步骤S303的实现方式具体可以包括以下步骤：(1)确定目标语义特征对应的特征索引；(2)基于目标语义特征对应的特征索引，在第二模态数据库中确定与该目标语义特征对应的特征索引对应的第二模态数据。

第二模态特征库中每个第二模态数据的语义特征关联有特征索引，且每个特征索引具备唯一性，特征索引和第二模态数据库中的第二模态数据也存在关联关系，这样第二模态数据库中的第二模态数据与第二模态特征库中第二模态数据的语义特征可以通过特征索引一一关联，以此能够基于查找到的目标语义特征对应的特征索引，从第二模态数据库中选取出与该特征索引对应的第二模态数据，得到与第一模态数据的语义信息相匹配的第二模态数据。

S304，将与第一模态数据的语义信息相匹配的第二模态数据添加至第二集合。

从第二模态数据库中确定的与第一模态数据的语义信息相匹配的第二模态数据可以添加至第二集合中，对于第二模态数据库中存储的所有第二模态数据，均可以按照上述步骤处理，进而可以确定出所有与第一模态数据的语义信息相匹配的第二模态数据，并且将其一一添加至第二集合中，再将最终得到的第二集合作为跨模态搜索结果中的一部分。

本申请实施例提供的跨模态搜索方法，从第一模态数据的语义信息这一维度进行搜索，通过提取第一模态数据和第二模态数据这两种模态数据各自对应的语义特征，在相同语义空间中将第一模态数据的语义特征和第二模态数据的语义特征进行特征比对处理，从第二模态特征库中查找与第一模态数据的语义特征匹配的目标语义特征，进而基于查找到的目标语义特征从第二模态数据库中确定与第一模态数据的语义信息相匹配的第二模态数据，得到跨模态搜索结果。这种方式本质上是一种基于跨模态特征进行搜索的方式，通过语义层面的跨模态特征，可以更加快速准确地搜索到与第一模态数据匹配搜索结果，一定程度上也可以增加跨模态搜索结果的多样性。

由上可知，基于第一模态数据的语义信息在第二模态数据中进行搜索需要借助第二模态特征库，接下来对第二模态特征库中存储的第二模态数据的语义特征的获取方式进行详细介绍。

在一个实施例中，跨模态搜索模型包括第二模态处理网络，第二模态数据库中存储的N个第二模态数据的语义特征是通过跨模态搜索模型中的第二模态处理网络对N个第二模态数据分别进行特征提取得到的。第二模态处理网络是针对第二模态数据的处理网络，可以包括多种功能不同的网络。以第二模态数据为图像为例，第二模态处理网络具体可以是图像处理网络。

可选地，第二模态处理网络包括特征提取网络、池化处理网络和特征整合网络；为便于描述，N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N，即所有N个第二模态数据均按照下述步骤处理，得到对应的语义特征。基于此，通过跨模态搜索模型中的第二模态处理网络分别对N个第二模态数据进行特征提取处理，得到N个第二模态数据的语义特征的步骤具体可以包括：通过第二模态处理网络中的特征提取网络，提取第i个第二模态数据的初始特征；通过第二模态处理网络中的池化处理网络，对初始特征进行池化处理，得到第i个第二模态数据的池化特征；通过特征整合网络，对池化特征进行整合处理，得到第i个第二模态数据的语义特征。

其中，特征提取网络可以是用于图像处理的深度模型，例如常规的卷积神经网络(Convolutional Neural Network，CNN)模型或者是用于特征提取的VIT(Vision Transformer)模型，特征提取网络是第二模态处理网络中的主干网络(Backbone)，主要用于提取第二模态数据的初始特征，以供后面的网络使用。池化处理网络可以用于对特征提取网络输出的初始特征进行池化处理，具体可以是全局平均池化处理(Global Average Pooling，GAP)，此时池化处理网络也可以称为全局平均池化层，通过全局平均池化不仅可以降低参数量，防止过拟合，还可以整合全局空间信息，使得第二模态数据的特征更加鲁棒。之后，可以调用特征整合网络对池化处理网络输出的池化特征进行整合处理，得到第i个第二模态数据的语义特征。该特征整合网络具体可以是特征全连接层，由于全连接层要求输入的对象是一维的，因此池化特征输入特征整合网络处理之前，需要展平为一维的特征，然后再由特征整合网络处理该一维的特征，继而得到第二模态数据的语义特征。

需要说明的是，上述方式是针对N个第二模态数据中的任一个第二模态数据通过跨模态搜索模型进行处理的原理，也就是说，针对N个第二模态数据中的每一个第二模态数据，均可以采用相同的处理步骤来提取第二模态数据的语义特征，进而存储到第二模态特征库中。

在一个可能的实施例中，第二模态处理网络还包括分类网络，还可以：通过分类网络，基于池化特征进行分类预测处理，得到第i个第二模态数据的类别标签；以及，将第i个第二模态数据的类别标签添加至第二模态数据库中。该分类网络可以是分类全连接层，同特征全连接层类似，分类全连接层处理的池化特征也是展平之后的一维特征，分类全连接层的输出通过激活函数(例如Sigmoid函数)之后得到第i个第二模态数据属于各个类别的分数，从而得到对应的类别标签。对于第二模态数据库中的N个第二模态数据的类别标签均可以采用上述分类网络进行多分类处理来获取，且各个第二模态数据的类别标签均可以添加至第二模态数据库中，以便于处理第一模态数据时，根据各个第二模态数据的类别标签和第一模态数据的内容信息之间的相似度，搜索与第一模态数据匹配的第二模态数据。

基于上述对第二模态处理网络的描述可以得知第二模态处理网络的具体结构。假设第二模态数据为图像，第二模态处理网络具体为图像编码器，包括特征提取网络、池化网络、特征整合网络以及分类网络，具体分别为主干网络、全局平均池化层、特征全连接层以及分类全连接层，第二模态数据库具体为图像库，第二模态特征库具体为图像特征向量检索集，对于第二模态处理网络处理第二模态数据的处理流程，结合如图4b所示的跨模态搜索模型中图像编码器的结构进行如下示例性说明。

如图4b所示的跨模态搜索模型中图像编码器具体包括主干网络Backbone、全局平均池化层、分类全连接层以及特征全连接层。假设会话对象在会话中发送或接收到的图像为XI，图像XI被输入到图像编码器中，图像编码器可以输出图像的多标签分类结果C _I＝{c ₁,c ₂,…,c _n}和图像的特征向量f _I(或称之为图像特征向量)，具体处理过程如下：首先图像作为图像编码器的输入，通过图像编码器的主干网络(例如CNN或者VIT)来得到图像的特征图(即初始特征)，然后图像的特征图经过全局平均池化处理并展平为一维向量，之后将展平的一维向量输入到分类全连接层(Cls FC)输出长度为C的一维向量，并通过Sigmoid函数得到各类别的分数，从而得到对应的类别标签C _I＝{c ₁,c ₂,…,c _n}，同时，该一维向量还将输入特征全连接层(Feature FC)输出长度为d(假设为512)的向量，再通过L2归一化(L2 Normalization)后作为图像的特征向量f _I。图像的特征向量f _I将存储至图像特征向量检索集(对应为第二模态特征库)中，而图像对应的多标签分类的类别标签可以存储到第二模态数据库中，最后再根据图像特征向量f _I，可以新增对应的图像特征向量索引并加入到图像特征向量检索集G _I中，以便于辅助从图像库中快速搜索到目标图像。

结合上述图4a示出的跨模态搜索模型中的第一模态处理网络以及图4b示出的跨模态搜索模型中的第二模态处理网络，利用跨模态搜索模型进行搜索，对第一模态数据的具体处理过程如下。为便于描述，以第一模态数据为文本，第一模态处理网络对应为文本编码器为例进行说明，输出的文本特征向量和图像特征向量是映射到相同语义特征空间且维度相同的特征向量，对文本的处理具体包括：首先，从文本的内容信息在图像库中搜索，具体可以从图像库中查询含有和文本query完全匹配的标签的图像，召回匹配到的图像作为图像集A；同时，文本被输入到文本编码器，文本编码器输出长度为d的向量并经过L2归一化后得到文本特征向量f _T；然后，用文本特征向量f _T从图像特征向量检索集G _I(其中包括的图像特征向量由如图4b所示的图像编码器对图像进行处理得到)中检索出相似的图像特征向量，并召回对应的图像集B，具体的检索方式是使用文本特征向量f _T和检索集中的图像特征向量f _I计算特征相似度，即S＝f _T·f _I，检索到特征相似度S高于阈值θ的图像作为图像集B，最终合并图像集A和图像集B，得到跨模态搜索结果。

在一个实施例中，结合上述对跨模态搜索模型的结构以及功能的描述，跨模态搜索模型包括第一模态处理网络和第二模态处理网络，具体的训练过程可以如下：1)获取跨模态训练数据集，跨模态训练数据集包括多组跨模态样本数据，每组跨模态样本数据包括第二模态样本数据、第一模态样本数据、以及该第二模态样本数据与该第一模态样本数据之间的匹配结果；2)通过跨模态搜索模型中的第一模态处理网络，对跨模态样本数据中的第一模态样本数据进行特征提取处理，得到第一模态样本数据的语义特征；以及，通过跨模态搜索模型中的第二模态处理网络，对跨模态样本数据中的第二模态样本数据进行特征提取处理，得到第二模态样本数据的语义特征；3)根据第一模态样本数据的语义特征与第二模态样本数据的语义特征之间的跨模态对比损失，对跨模态搜索模型进行迭代训练，得到训练好的跨模态搜索模型。

在训练数据准备阶段，可以从相应场景产生的业务数据中获取跨模态训练数据集，跨模态训练数据集是两种不同模态样本数据的集合，对于跨模态搜索模型的训练，可以是以每组跨模态样本数据为单位输入跨模态搜索模型中进行处理的。举例来说，第一模态样本数据和第二模态样本数据分别是文本和图像，那么每组跨模态样本数据可以是图像-文本对，即图像和图像对应的文本描述可以构成图像-文本对，海量的图像-文本对可以组成跨模态训练数据集。

对于跨模态搜索模型的训练过程，具体是对第一模态处理网络和第二模态处理网络混合训练。可以同时输入K组跨模态样本数据，然后通过第一模态处理网络处理第i组跨模态样本数据中的第一模态样本数据，得到该第一模态样本数据的语义特征，以及，通过第二模态处理网络处理第i组跨模态样本数据中的第二模态样本数据，得到该第二模态样本数据的语义特征，进而，根据两种不同模态样本数据的语义特征来计算跨模态对比损失，基于该跨模态对比损失对跨模态搜索模型进行迭代训练，不断更新模型参数直至收敛，就可以得到训练好的模型。

在第二模态处理网络包括分类处理网络时，跨模态训练数据集中还可以包括第二模态样本数据对应的类别标签，具体地，训练过程还可以包括以下内容：通过跨模态搜索模型中的第二模态处理网络对跨模态样本数据中的第二模态样本数据进行分类预测处理，得到第二模态样本数据的类别预测信息；根据类别预测信息和类别标签确定第二模态样本数据的分类损失；根据分类损失和跨模态对比损失对跨模态搜索模型进行迭代训练，得到训练好的跨模态搜索模型。其中，类别预测信息可以包括第二模态样本数据属于各个类别的预测概率，分类损失可以使用交叉熵损失，后续可以联合分类损失和跨模态对比损失作为总损失，例如将分类损失和跨模态对比损失进行加权求和得到总损失，再使用优化器(例如随机梯度下降(Stochastic Gradient Descent，SGD)优化器)对跨模态搜索模型的模型参数进行更新，不断重复上述训练过程，直至模型参数收敛，得到训练好的跨模态搜索模型。如此，跨模态搜索模型不仅可以应用于第一模态数据和第二模态数据的语义特征提取处理，基于跨模态特征，检测第一模态数据与第二模态数据之间的匹配度；跨模态搜索模型还具备多标签分类功能，为第二模态数据生成类别标签并存储到第二模态数据库中。

为了更好地理解训练阶段的原理，下面以第一模态处理网络为文本编码器，第二模态处理网络为图像编码器为例，对跨模态搜索模型的训练过程进行如下举例说明。请参见图5，是本申请实施例提供的一种跨模态搜索模型训练示意图。假设跨模态训练数据集包括K组图像-文本对(或简称图文对)，在训练时，同时输入K组图像-文本对，分别通过图像编码器和文本编码器得到图像特征向量

和文本特征向量

并且图像编码器还输出类别预测概率PI对应图像C个类别的预测概率。之后可以使用InfoNCE loss来计算图像-文本对之间的跨模态对比损失，具体表达式如下：

其中，

表示第i个图像特征向量，

表示第i个文本特征向量。跨模态对比损失的主要思想是最大化相似性和最小化差异性的损失，具体来说，可以将图像-文本对划分为正样本对和负样本对，正样本对是指图像和文本描述匹配的图像-文本对，负样本对是指图像和文本描述不匹配的图像-文本对。在跨模态对比损失中，通过

表示正样本对之间的相似度，

表示负样本对之间的相似度，这样跨模态对比损失越小，第一模态样本数据和第二模态样本数据就越匹配。

对于图像的分类损失L _cls可以使用交叉熵损失(Cross Entropy Loss，CEL)来计算，联合L _cls和L _infoNCE作为总损失，使用SGD优化器来对模型参数进行更新，直至收敛。

基于上述实施例的介绍，以第一模态数据为文本，第二模态数据为图像为例，对跨模态搜索方案中采用的算法流程进行说明，具体可以参见如图6所示的算法流程图。图像被输入到图像编码器中进行多标签分类可以得到类别标签，当搜索文本(记为query)完全等同于类别标签时，可以匹配到相关图像。此外，图像编码器还可以输出图像特征向量，并且将图像特征向量和新增索引添加至图像特征向量检索集。对于搜索文本query，可以输入到文本编码器中，输出文本特征向量，然后基于文本特征向量从图像特征向量检索集中检索出相似的图像特征向量，并基于该相似的图像特征向量召回对应的图像集。这种基于跨模态特征搜索的方案，由于可以不依赖分类模型的固定类目标签体系，而通过不同模态数据的特征进行匹配，从而能够支持更加多样、更复杂的文本描述，从而能够提升搜索词输入的自由度，更快更准确且更全面地找到目标图片。

请参见图7，是本申请实施例提供的一种跨模态搜索方法的流程示意图三，该跨模态搜索方法可以由计算机设备(例如图1所示的跨模态搜索设备102，该跨模态搜索设备102具体可以是终端)执行。其中，该跨模态搜索方法包括但不限于以下步骤。

S701，显示社交会话的会话界面。

此处的社交会话可以是个人与个人之间的会话，或者是群组会话。在社交会话的会话界面中，会话对象可以发送或者接收会话消息，例如图像、文本、语音等等。当在会话界面中接收到的会话消息包括第二模态数据时，可以调用跨模态搜索模型中的第二模态处理网络来处理第二模态数据，输出多标签分类的类别标签和第二模态数据的语义特征，进而，将类别标签存入第二模态数据库中，将第二模态数据的语义特征(例如图像特征向量)存入第二模态特征库中。

社交会话的会话界面可以提供历史会话记录的查看功能。具体可以是从会话界面进入会话详情界面，在该会话详情界面中包括历史会话记录的查看入口，会话对象可以通过该查看入口发起查看操作，查看具体的历史会话记录并进行搜索，具体可以参见下述步骤S702～S703。

S702，响应于对社交会话的历史会话记录的查看，显示会话记录详情界面。

该会话记录详情界面中包括社交会话的历史会话记录中的第二模态数据。社交会话的历史会话记录中可以包括不同模态的数据，例如图像、视频、文本、音频等等，会话对象可以选择不同模态的数据进行查看，此处对历史会话记录的查看主要是对第二模态数据的查看，因此，会话记录详情界面中展示的是历史会话记录中产生的第二模态数据。

需要说明的是，若第二模态数据的数量较少，则第二模态数据可以在会话记录详情界面中全量显示，若第二模态数据的数量较多，则在当前会话记录详情界面中显示的是部分第二模态数据。示例性地，第二模态数据为图像，会话记录详情界面具体为聊天照片墙，其中显示的图像按照等同大小能够显示12张，若历史会话记录中的所有图像有10张，那么可以在会话记录详情界面全量展示，如果超过12张，则最多显示12张，查看其他图像时需要执行例如向下滑动的操作来展示，后续在会话记录详情界面可以支持以第一模态数据搜索第二模态数据，并输出与第一模态数据相匹配的第二模态数据，即跨模态搜索结果。

请参见图8a，是本申请实施例提供的一种对历史会话记录的查看的操作示意图。如图8a中的(1)的会话界面810中提供了查找历史会话记录的入口，即“查找聊天内容”，当触发该入口，可以进入如图8a中的(2)所示的历史会话记录搜索界面811，在此历史会话记录搜索界面中可以选择相应的搜索类型，并对该搜索类型的历史会话记录进行全量展示，例如当选择了图片及视频，则在会话记录详情界面812中展示聊天照片墙，且聊天照片墙是按照日期进行展示的所有图片以及视频，具体如图8a中的(3)，并且该会话记录详情界面812提供有搜索框8120以便于搜索图片或视频。

在一个实施例中，社交会话的历史会话记录中的第二模态数据存储在第二模态数据库中，且第二模态数据库中存储有第二模态数据的属性信息。通过将历史会话记录中的第二模态数据划分至第二模态数据库中存储，当发起对第二模态数据的搜索时，可以直接从该第二模态数据库中查找，而不是从全局的历史会话记录中查找，有利于提升搜索第二模态数据的效率，同时第二模态数据库中存储有第二模态数据的属性信息，属性信息的不同，可以进一步扩展搜索维度。

属性信息包括以下至少一种：类别标签、与第二模态数据关联的第一模态描述信息、从第二模态数据中识别到的第一模态描述信息。其中，类别标签可以是人工或者机器(例如分类模型)为第二模态数据进行分类产生的标注信息，第一模态描述信息是有关第二模态数据的描述信息，具体可以是从第二模态数据中识别到的，也可以是历史会话记录中产生的与之相关联的。示例性地，第二模态数据为图像，当历史会话记录中的图像是包含文本的图像时，可以通过对图像进行识别得到该图像中的文本，并将其作为第一模态描述信息；若社交会话中会话对象发送图像之后紧接着发送对该图像的文本描述信息，例如：你看A公园的变化真大，那么可以根据该文本描述信息生成有关该图像的描述，例如提取出关键词“A公园”作为图像的第一模态描述信息。

S703，响应于在会话记录详情界面中输入的第一模态数据，输出第一模态数据对应的跨模态搜索结果。

其中，跨模态搜索结果是采用前述实施例介绍的跨模态搜索方法得到的，输出的跨模态搜索结果包括与会话记录详情界面中输入的第一模态数据相匹配的所有第二模态数据。

在一个实施例中，第一模态数据为文本，第二模态数据为图像，会话记录详情界面中包括搜索框，第一模态数据是在搜索框中进行输入得到的；或者，会话记录详情界面中还包括至少一个推荐文本，第一模态数据是通过在至少一个推荐文本中选择得到的。也就是说，在会话记录详情界面中输入的第一模态数据可以是通过输入设备(例如物理/虚拟键盘、智能语音设备)等手动输入至搜索框中的，也可以是从会话记录详情界面中提供的推荐文本中选择的。可选地，被选择的推荐文本可以自动填充至搜索框中并且自动启动搜索功能。其中，会话记录详情界面中的推荐文本可以是随机生成的，也可以是根据第二模态数据的属性信息或者是第二模态数据的语义特征生成的。由上述跨模态搜索方法的技术支持，搜索框中输入的文本可以是符合直觉表达的图像描述。简单来说，以以文搜图为例，当会话对象在搜索框中搜索时，可以在第二模态数据库中查询和搜索文本匹配的类别标签的图像并召回，同时可以通过跨模态搜索模型中的文本编码器处理搜索文本，输出对应的文本特征向量，从图像特征向量检索集中检索出相似的图像特征向量，并召回对应的图像集合，最终合并所有召回的图像并展示给会话对象。

示例性地，请参见图8b，是本申请实施例提供的跨模态搜索的操作示意图，如图8b中的(1)所示，会话记录详情界面提供有搜索框8220，并且该搜索框8220中提示搜索支持输入图像描述或者图中文字，图像描述是对图像所包含内容的语义解释，图中文字属于图像的内容信息。此外，自动生成的推荐文本也展示在该会话记录详情界面，如图8b中的“票”、“截图”等，通过推荐文本可以提供更多的参考以及便捷的操作。当在搜索框8220中输入查询文本并触发搜索功能时，可以输出搜索结果界面，并在搜索结果界面展示与该查询文本匹配的图片，如图8b中的(2)所示，在搜索结果界面823中展示的是与输入的查询文本“食物”相匹配的3张图片，属于跨模态搜索结果。

在一个实施例中，还可以：响应于对第一搜索规则的选择，输出跨模态搜索结果中与第一模态数据的内容信息相匹配的第二模态数据；或者，响应于对第二搜索规则的选择，输出跨模态搜索结果中与第一模态数据的语义信息相匹配的第二模态数据。

第一搜索规则和第二搜索规则是从不同维度进行搜索的规则，可以按照不同维度搜索，并且可以将全部跨模态搜索结果按照不同的搜索维度划分显示。按照第一搜索规则进行搜索可以得到与第一模态数据的内容信息相匹配的第二模态数据并输出，按照第二搜索规则进行搜索可以得到与第一模态数据的语义信息相匹配的第二模态数据并输出。也就是说，可以指定单一的搜索维度，例如，在第一模态数据为文本，第二模态数据为图像时，可以按图像搜索和按文字搜索，按图像搜索具体是指按照图像描述搜索，也即通过匹配图像的语义信息这一维度进行搜索，按文字搜索具体是指按照图中文字搜索，也即通过匹配图像的内容信息这一维度进行搜索。

示例性地，请参见图8c，是本申请实施例提供的一种输出跨模态搜索结果的效果示意图。如图8c所示，是基于图8b中(2)提供的跨模态搜索结果展示的与查询文本匹配的全部图片，按照不同搜索维度搜索后得到的。当选择按图像搜索或者是按文字搜索，会呈现不同的跨模态搜索结果，分别如图8c中的(1)和图8c中的(2)所示，在该搜索结果界面可以展示文本的语义信息与图像的语义信息匹配、或者是文本的内容信息与图像的属性信息(例如图像的类别标签)匹配的图片。本方案可以应用于多种场景，除了本实施例介绍的基于社交会话的历史会话记录的跨模态搜索，也可以应用于其他支持多媒体数据搜索场景，例如短视频搜索场景，对此不做限制。

本申请实施例提供的跨模态搜索方案，可以支持社交会话的历史会话记录中的跨模态搜索场景，具体可以应用于图文跨模态搜索的场景中，即通过在搜索框中输入搜索词来搜索目标图片，由于跨模态搜索是从搜索词的多个维度来搜索的，搜索词不必与图片的类别标签完全匹配就能够找到相应的图片，因此，通过输入更加符合直觉表达、更多样以及更加复杂的图像描述来查找目标图片，不仅可以提升输入的自由度，还可以大大提升搜索到目标图片的概率，提高跨模态搜索结果的多样性；此外，通过提供推荐文本(例如推荐的搜索词)也能够在一定程度上提升搜索效率。

请参见图9，图9是本申请实施例提供的一种跨模态搜索装置的结构示意图。上述跨模态搜索装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该跨模态搜索装置为一个应用软件；该跨模态搜索装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该跨模态搜索装置900可以包括：获取模块901、搜索模块902、合并模块903。

获取模块901，用于获取第一模态数据；

搜索模块902，用于基于第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，第一集合中包括与第一模态数据的内容信息相匹配的至少一个第二模态数据；

搜索模块902，还用于基于第一模态数据的语义信息在第二模态数据库中进行搜索，得到第二集合，第二集合中包括与第一模态数据的语义信息相匹配的至少一个第二模态数据；

合并模块903，用于对第一集合和第二集合进行合并，得到第一模态数据对应的跨模态搜索结果。

在一个实施例中，第二模态数据库存储有N个第二模态数据、以及N个第二模态数据各自的属性信息，N为正整数；搜索模块902，具体用于：针对所述N个第二模态数据中的每个第二模态数据，确定第一模态数据的内容信息与该第二模态数据的属性信息之间的匹配度，作为所述第二模态数据对应的匹配度；将所对应的匹配度满足匹配条件的第二模态数据添加至第一集合中。

在一个实施例中，属性信息包括第一模态描述信息；N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；搜索模块902，具体用于：确定第一模态数据的内容信息与第i个第二模态数据的第一模态描述信息之间的语义相似度，作为所述第i个第二模态数据对应的匹配度；若第一模态数据的内容信息与第i个第二模态数据的第一模态描述信息之间的语义相似度大于第一相似阈值，则将第i个第二模态数据添加至第一集合。

在一个实施例中，属性信息包括类别标签；N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；搜索模块902，具体用于：确定第一模态数据的内容信息与第i个第二模态数据的类别标签之间的相似度，作为所述第i个第二模态数据对应的匹配度；若第一模态数据的内容信息与第i个第二模态数据的类别标签之间的相似度大于第二相似阈值，则将第i个第二模态数据添加至第一集合。

在一个实施例中，第二模态数据库存储有N个第二模态数据；第二模态数据库关联有第二模态特征库，第二模态特征库中存储有N个第二模态数据各自的语义特征；搜索模块902，具体还用于：获取第一模态数据的语义特征；基于第一模态数据的语义特征，在第二模态特征库中查找与第一模态数据的语义特征相匹配的目标语义特征；根据目标语义特征，在第二模态数据库中确定与第一模态数据的语义信息相匹配的第二模态数据；将与第一模态数据的语义信息相匹配的第二模态数据添加至第二集合。

在一个实施例中，第二模态特征库和第二模态数据库通过特征索引关联；搜索模块902，具体用于：确定目标语义特征的特征索引；基于目标语义特征的特征索引，在第二模态数据库中确定与目标语义特征的特征索引对应的第二模态数据。

在一个实施例中，第二模态特征库中存储的N个第二模态数据各自的语义特征，是通过跨模态搜索模型中的第二模态处理网络对N个第二模态数据分别进行特征提取处理得到的；跨模态搜索模型还包括第一模态处理网络；搜索模块902，具体用于：通过跨模态搜索模型中的第一模态处理网络，对第一模态数据进行特征提取处理，得到第一模态数据的语义特征。

在一个实施例中，第二模态处理网络包括特征提取网络、池化处理网络和特征整合网络；N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；搜索模块902，具体用于：通过第二模态处理网络中的特征提取网络，提取第i个第二模态数据的初始特征；通过第二模态处理网络中的池化处理网络，对初始特征进行池化处理，得到第i个第二模态数据的池化特征；通过特征整合网络，对池化特征进行整合处理，得到第i个第二模态数据的语义特征。

在一个实施例中，第二模态处理网络还包括分类网络；搜索模块902，具体还用于：通过分类网络，基于池化特征进行分类预测处理，得到第i个第二模态数据的类别标签；以及，将第i个第二模态数据的类别标签添加至第二模态数据库中。

在一个实施例中，该跨模态搜索装置还包括训练模块904，用于：获取跨模态训练数据集，跨模态训练数据集包括多组跨模态样本数据，每组跨模态样本数据包括第二模态样本数据、第一模态样本数据、以及第二模态样本数据与第一模态样本数据之间的匹配结果；通过跨模态搜索模型中的第一模态处理网络，对跨模态样本数据中的第一模态样本数据进行特征提取处理，得到第一模态样本数据的语义特征；以及，通过跨模态搜索模型中的第二模态处理网络，对跨模态样本数据中的第二模态样本数据进行特征提取处理，得到第二模态样本数据的语义特征；根据第一模态样本数据的语义特征与第二模态样本数据的语义特征之间的跨模态对比损失，对跨模态搜索模型进行迭代训练，得到训练好的跨模态搜索模型。

可以理解的是，本申请实施例所描述的跨模态搜索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图10，图10是本申请实施例提供的另一种跨模态搜索装置的结构示意图。上述跨模态搜索装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该跨模态搜索装置为一个应用软件；该跨模态搜索装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示，该跨模态搜索装置1000可以包括：显示模块1001和输出模块1002。

显示模块1001，用于显示社交会话的会话界面；

显示模块1001，还用于响应于对社交会话的历史会话记录的查看，显示会话记录详情界面，会话记录详情界面中包括社交会话的历史会话记录中的第二模态数据；

输出模块1002，用于响应于在会话记录详情界面中输入的第一模态数据，输出第一模态数据对应的跨模态搜索结果；跨模态搜索结果是采用本申请实施例描述的跨模态搜索方法得到的。

在一个实施例中，社交会话的历史会话记录中的第二模态数据存储在第二模态数据库中，且第二模态数据库存储有第二模态数据的属性信息，属性信息包括以下至少一种：类别标签、与第二模态数据关联的第一模态描述信息、从第二模态数据中识别到的第一模态描述信息。

在一个实施例中，第一模态数据为文本，第二模态数据为图像；会话记录详情界面中包括搜索框，第一模态数据是在搜索框中进行输入得到的；或者，会话记录详情界面中还包括至少一个推荐文本，第一模态数据是通过在至少一个推荐文本中选择得到的。

在一个实施例中，输出模块1002，具体用于：响应于对第一搜索规则的选择，输出跨模态搜索结果中与第一模态数据的内容信息相匹配的第二模态数据；或者，响应于对第二搜索规则的选择，输出跨模态搜索结果中与第一模态数据的语义信息相匹配的第二模态数据。

需要说明的是，图9的跨模态搜索装置和图10的跨模态搜索装置可以部署在相同计算机设备中的，也可以部署在不同计算机设备中的。当部署在相同计算机设备中时，计算机设备可以根据输入的第一模态数据自动从数据库中搜索到与第一模态数据相匹配的第二模态数据，得到跨模态搜索结果，进而在计算机设备中输出跨模态搜索结果；当部署在不同计算机设备中时，假设图9的跨模态搜索装置部署在计算机设备A中，图10的跨模态搜索装置部署在计算机设备B中，计算机设备B则负责接收输入的第一模态数据并将该第一模态数据发送给计算机设备A，再由计算机设备A基于第一模态数据在第二模态数据库中搜索与第一模态数据相匹配的第二模态数据，得到跨模态搜索结果，并将该跨模态搜索结果发送给计算机设备B，由计算机设备B对跨模态搜索结果进行展示。

请参见图11，图11是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1100可以包含独立设备(例如服务器、节点、终端等等中的一个或者多个)，也可以包含独立设备内部的部件(例如芯片、软件模块或者硬件模块等)。该计算机设备1100可以包括至少一个处理器1101和通信接口1102，进一步可选地，计算机设备1100还可以包括至少一个存储器1103和总线1104。其中，处理器1101、通信接口1102和存储器1103通过总线1104相连。

其中，处理器1101是进行算术运算和/或逻辑运算的模块，具体可以是中央处理器(central processing unit，CPU)、图片处理器(graphics processing unit，GPU)、微处理器(microprocessor unit，MPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、复杂可编程逻辑器件(Complex programmable logic device，CPLD)、协处理器(协助中央处理器完成相应处理和应用)、微控制单元(Microcontroller Unit，MCU)等处理模块中的一种或者多种的组合。

通信接口1102可以用于为至少一个处理器提供信息输入或者输出。和/或，通信接口1102可以用于接收外部发送的数据和/或向外部发送数据，可以为包括诸如以太网电缆等的有线链路接口，也可以是无线链路(Wi-Fi、蓝牙、通用无线传输、车载短距通信技术以及其他短距无线通信技术等)接口。

存储器1103用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器1103可以是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)等等中的一种或者多种的组合。

该计算机设备1100中的至少一个处理器1101用于调用至少一个存储器1103中存储的计算机程序，用于执行前述的跨模态搜索方法，例如前述图2、图3以及图7所示实施例所描述的跨模态搜索方法。

应当理解，本申请实施例中所描述的计算机设备1100可执行前文所对应实施例中对该跨模态搜索方法的描述，也可执行前文图9所对应实施例中对该跨模态搜索装置900或者图10所对应实施例中对该跨模态搜索装置1000的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，还应指出，本申请一个示例性实施例还提供了一种存储介质，该存储介质中存储了前述跨模态搜索方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对跨模态搜索方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

上述计算机可读存储介质可以是前述任一实施例提供的跨模态搜索装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

本申请的一个方面，提供了另一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的跨模态搜索方法的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种跨模态搜索方法，由计算机设备执行，包括：

获取第一模态数据；

基于所述第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，所述第一集合中包括与所述第一模态数据的内容信息相匹配的至少一个第二模态数据；

基于所述第一模态数据的语义信息在所述第二模态数据库中进行搜索，得到第二集合，所述第二集合中包括与所述第一模态数据的语义信息相匹配的至少一个第二模态数据；

对所述第一集合和所述第二集合进行合并，得到所述第一模态数据对应的跨模态搜索结果。
如权利要求1所述的方法，所述第二模态数据库存储有N个第二模态数据、以及所述N个第二模态数据各自的属性信息，N为正整数；所述基于所述第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，包括：

针对所述N个第二模态数据中的每个第二模态数据，确定所述第一模态数据的内容信息与所述第二模态数据的属性信息之间的匹配度，作为所述第二模态数据对应的匹配度；

将所对应的匹配度满足匹配条件的第二模态数据添加至所述第一集合中。
如权利要求2所述的方法，所述属性信息包括第一模态描述信息；所述N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；

所述针对所述N个第二模态数据中的每个第二模态数据，确定所述第一模态数据的内容信息与所述第二模态数据的属性信息之间的匹配度，作为所述第二模态数据对应的匹配度，包括：

确定所述第一模态数据的内容信息与所述第i个第二模态数据的第一模态描述信息之间的语义相似度，作为所述第i个第二模态数据对应的匹配度；

所述将所对应的匹配度满足匹配条件的第二模态数据添加至所述第一集合中，包括：

若所述第一模态数据的内容信息与所述第i个第二模态数据的第一模态描述信息之间的语义相似度大于第一相似阈值，则将所述第i个第二模态数据添加至所述第一集合。
如权利要求2所述的方法，所述属性信息包括类别标签；所述N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；

所述针对所述N个第二模态数据中的每个第二模态数据，确定所述第一模态数据的内容信息与所述第二模态数据的属性信息之间的匹配度，作为所述第二模态数据对应的匹配度，包括：

确定所述第一模态数据的内容信息与所述第i个第二模态数据的类别标签之间的相似度，作为所述第i个第二模态数据对应的匹配度；

所述将所对应的匹配度满足匹配条件的第二模态数据添加至所述第一集合中，包括：

若所述第一模态数据的内容信息与所述第i个第二模态数据的类别标签之间的相似度大于第二相似阈值，则将所述第i个第二模态数据添加至所述第一集合。
如权利要求1所述的方法，所述第二模态数据库存储有N个第二模态数据；所述第二模态数据库关联有第二模态特征库，所述第二模态特征库中存储有所述N个第二模态数据各自的语义特征；所述基于所述第一模态数据的语义信息在所述第二模态数据库中进行搜索，得到第二集合，包括：

获取所述第一模态数据的语义特征；

基于所述第一模态数据的语义特征，在所述第二模态特征库中查找与所述第一模态数据的语义特征相匹配的目标语义特征；

根据所述目标语义特征，在所述第二模态数据库中确定与所述第一模态数据的语义信息相匹配的第二模态数据；

将所述与所述第一模态数据的语义信息相匹配的第二模态数据添加至所述第二集合。
如权利要求5所述的方法，所述第二模态特征库和所述第二模态数据库通过特征索引关联；所述根据所述目标语义特征，在所述第二模态数据库中确定与所述第一模态数据的语义信息相匹配的第二模态数据，包括：

确定所述目标语义特征的特征索引；

基于所述目标语义特征的特征索引，在所述第二模态数据库中确定与所述目标语义特征的特征索引对应的第二模态数据。
如权利要求5所述的方法，所述第二模态特征库中存储的所述N个第二模态数据各自的语义特征，是通过跨模态搜索模型中的第二模态处理网络对所述N个第二模态数据分别进行特征提取处理得到的；所述跨模态搜索模型还包括第一模态处理网络；所述获取所述第一模态数据的语义特征，包括：

通过所述跨模态搜索模型中的所述第一模态处理网络，对所述第一模态数据进行特征提取处理，得到所述第一模态数据的语义特征。
如权利要求7所述的方法，所述第二模态处理网络包括特征提取网络、池化处理网络和特征整合网络；所述N个第二模态数据中的任一个表示为第i个第二模态数据，i为正整数，且i小于或等于N；

通过所述跨模态搜索模型中的第二模态处理网络对所述N个第二模态数据分别进行特征提取处理，得到所述N个第二模态数据各自的语义特征，包括：

通过所述第二模态处理网络中的所述特征提取网络，提取所述第i个第二模态数据的初始特征；

通过所述第二模态处理网络中的所述池化处理网络，对所述初始特征进行池化处理，得到所述第i个第二模态数据的池化特征；

通过所述特征整合网络，对所述池化特征进行整合处理，得到所述第i个第二模态数据的语义特征。
如权利要求8所述的方法，所述第二模态处理网络还包括分类网络；所述方法还包括：

通过所述分类网络，基于所述池化特征进行分类预测处理，得到所述第i个第二模态数据的类别标签；以及，

将所述第i个第二模态数据的类别标签添加至所述第二模态数据库中。
如权利要求7所述的方法，所述方法还包括：

获取跨模态训练数据集，所述跨模态训练数据集包括多组跨模态样本数据，每组所述跨模态样本数据包括第二模态样本数据、第一模态样本数据、以及所述第二模态样本数据与所述第一模态样本数据之间的匹配结果；

通过所述跨模态搜索模型中的第一模态处理网络，对所述跨模态样本数据中的第一模态样本数据进行特征提取处理，得到所述第一模态样本数据的语义特征；以及，通过所述跨模态搜索模型中的第二模态处理网络，对所述跨模态样本数据中的第二模态样本数据进行特征提取处理，得到所述第二模态样本数据的语义特征；

根据所述第一模态样本数据的语义特征与所述第二模态样本数据的语义特征之间的跨模态对比损失，对所述跨模态搜索模型进行迭代训练，得到训练好的跨模态搜索模型。
一种跨模态搜索方法，由计算机设备执行，包括：

显示社交会话的会话界面；

响应于对所述社交会话的历史会话记录的查看，显示会话记录详情界面，所述会话记录详情界面中包括所述社交会话的历史会话记录中的第二模态数据；

响应于在所述会话记录详情界面中输入的第一模态数据，输出所述第一模态数据对应的跨模态搜索结果；所述跨模态搜索结果是采用权利要求1-10任一项所述的跨模态搜索方法得到的。
如权利要求11所述的方法，所述社交会话的历史会话记录中的第二模态数据存储在第二模态数据库中，且所述第二模态数据库存储有所述第二模态数据的属性信息，所述属性信息包括以下至少一种：类别标签、与所述第二模态数据关联的第一模态描述信息、从所述第二模态数据中识别到的第一模态描述信息。
如权利要求11所述的方法，所述第一模态数据为文本，所述第二模态数据为图像；所述会话记录详情界面中包括搜索框，所述第一模态数据是在所述搜索框中进行输入得到的；或者，

所述会话记录详情界面中还包括至少一个推荐文本，所述第一模态数据是通过在所述至少一个推荐文本中选择得到的。
如权利要求11所述的方法，所述方法还包括：

响应于对第一搜索规则的选择，输出所述跨模态搜索结果中与所述第一模态数据的内容信息相匹配的第二模态数据；或者，

响应于对第二搜索规则的选择，输出所述跨模态搜索结果中与所述第一模态数据的语义信息相匹配的第二模态数据。
一种跨模态搜索装置，包括：

获取模块，用于获取第一模态数据；

搜索模块，用于基于所述第一模态数据的内容信息在第二模态数据库中进行搜索，得到第一集合，所述第一集合中包括与所述第一模态数据的内容信息相匹配的至少一个第二模态数据；

所述搜索模块，还用于基于所述第一模态数据的语义信息在所述第二模态数据库中进行搜索，得到第二集合，所述第二集合中包括与所述第一模态数据的语义信息相匹配的至少一个第二模态数据；

合并模块，用于对所述第一集合和所述第二集合进行合并，得到所述第一模态数据对应的跨模态搜索结果。
一种跨模态搜索装置，包括：

显示模块，用于显示社交会话的会话界面；

所述显示模块，还用于响应于对所述社交会话的历史会话记录的查看，显示会话记录详情界面，所述会话记录详情界面中包括所述社交会话的历史会话记录中的第二模态数据；

输出模块，用于响应于在所述会话记录详情界面中输入的第一模态数据，输出所述第一模态数据对应的跨模态搜索结果；所述跨模态搜索结果是采用权利要求1-10任一项所述的跨模态搜索方法得到的。
一种计算机设备，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1至14任一项所述的跨模态搜索方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1至14任一项所述的跨模态搜索方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1至14中任一项所述的跨模态搜索方法的步骤。