WO2018205736A1

WO2018205736A1 - 多媒体信息检索方法、装置及存储介质

Info

Publication number: WO2018205736A1
Application number: PCT/CN2018/078759
Authority: WO
Inventors: 江佳伟; 崔斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-05-10
Filing date: 2018-03-12
Publication date: 2018-11-15
Also published as: CN108287859B; CN108287859A

Abstract

本发明实施例公开了一种多媒体信息检索方法、装置及存储介质，所述方法包括：接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，以获取与所述样本多媒体信息相关联的多媒体信息。

Description

多媒体信息检索方法、装置及存储介质

相关申请的交叉引用

本申请基于申请号为201710326718.3、申请日为2017年05月10日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及电数字数据处理技术，尤其涉及多媒体信息检索方法、装置及存储介质。

背景技术

随着网络媒体技术的飞速发展，越来越多的信息通过视频、音频等多媒体形式展现在互联网中，使得多媒体数据呈现爆发式的增长。海量的多媒体视频丰富了人们生活的同时，对这些视频数据的管理存在巨大的技术问题。

在实际视频检索业务中，对视频检索的需求不同导致了视频检索业务的丰富性及复杂性，然而，相关技术并不存在视频检索方案能够实现多样性的视频检索业务。

发明内容

本发明实施例期望提供一种多媒体信息检索方法、装置及存储介质，能够实现多样性的多媒体信息检索业务。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种多媒体信息检索方法，所述方法包括：

接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；

基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

当所述匹配结果表征匹配成功时，获取与所述样本多媒体信息相关联的多媒体信息。

第二方面，本发明实施例提供了一种多媒体信息检索装置，所述装置包括：获取模块、处理模块及匹配模块；其中，

所述获取模块，配置为接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；

以及，基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

所述处理模块，配置为基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

所述匹配模块，配置为将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

第三方面，本发明实施例提供了一种多媒体信息检索装置，所述装置包括：

处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行上述的多媒体信息检索方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述的多媒体信息检索方法。

第五方面，本发明实施例提供了一种多媒体信息检索方法，所述方法由服务器执行，所述服务器包括有一个或多个处理器以及存储器，以及一个或一个以上的程序，其中，所述一个或一个以上的程序存储于存储器中，所述程序可以包括一个或一个以上的每一个对应于一组指令的单元，所述一个或多个处理器被配置为执行指令；所述方法包括：

本发明实施例提供的多媒体信息检索方法、装置及存储介质，由于样本多媒体信息的指纹信息包含了第一指纹信息和第二指纹信息，而第一指纹信息对应的文本特征的处理速度较快，适用于对时延敏感的多媒体信息检索业务，第二指纹信息对应的视觉特征对多媒体内容的代表程度较高，适用于对检索准确率要求较高的多媒体信息检索业务；在基于样本多媒体信息进行多媒体信息检索时，无论该多媒体信息检索业务是对时延敏感的多媒体信息检索业务，还是对检索准确率要求较高的多媒体信息检索业务，均可实现样本多媒体信息的指纹信息与指纹数据库中的指纹信息的匹配；因此，上述多媒体信息检索方案能够适应不同多媒体信息检索业务的检索需求，具有较强的通用性。

附图说明

图1为本发明实施例中进行信息交互的各方硬件实体的示意图；

图2为本发明实施例中多媒体信息检索方法的流程示意图一；

图3所示为Storm Topology的结构示意图；

图4为本发明实施例中组件之间基于预设的数据流传输协议进行数据处理的示意图；

图5为本发明实施例中多媒体信息检索方法的流程示意图二；

图6为本发明实施例中视频检索方法的应用场景示意图一；

图7为本发明实施例中对视频文件进行视频帧划分的示意图；

图8为本发明实施例中多媒体信息检索方法的流程示意图三；

图9为本发明实施例中视频检索方法的应用场景示意图二；

图10A至图10C为本发明实施例中视频检索方法的应用场景示意图三；

图11为本发明实施例中多媒体信息检索装置的组成结构示意图；

图12为本发明实施例中多媒体信息检索装置作为硬件实体的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

视频指纹是一种软件识别、提取、压缩视频的技术，可以使用处理过程中产生的唯一的“指纹”来代表一个视频文件。视频指纹分析可以基于任何视觉的视频特征，包括(但不限于)，视频流中的关键帧序列分析，色彩和运动的变化等特征。

图1为本发明实施例中进行信息交互的各方硬件实体的示意图，图1中包括：服务器11……1n、终端设备21-24，终端设备21-24通过有线网络或者无线网络与服务器进行信息交互，终端设备包括手机、台式机、PC机、一体机等类型。一个示例中，用户通过终端设备上传样本视频文件(即待检索视频文件，如电影片段、音乐视频)至某一视频网站，服务器基于用户上传的视频文件进行视频检索，并返回视频检索结果。

本发明实施例提供了一种多媒体信息检索方法，如图2所示，本发明实施例中多媒体信息检索方法包括：

步骤101：接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识。

这里，多媒体信息包括视频信息、音频信息等；多媒体信息检索请求用于请求进行多媒体信息检索，如进行视频检索；所述样本多媒体信息检索标识用于标识所述样本多媒体信息，如当所述样本多媒体信息为样本视频(或称为检索视频)信息时，该检索标识可以为视频标识(ID，Identification)，还可以为样本多媒体文件的标题等。

步骤102：基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息。

在实际应用中，进行多媒体信息检索需要基于用户提供的样本多媒体信息的属性信息，因此，需要根据用户提交的多媒体信息检索请求携带的样本多媒体信息检索标识，获取所述样本多媒体信息的属性信息，在一实施例中，可以基于样本多媒体信息检索标识查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息(包括样本多媒体信息的检索标识、标题、样本多媒体信息文本描述、样本多媒体文件等)，如所述样本多媒体信息的元数据；在实际应用中，所述预设的多媒体信息库中存储了至少一组样本多媒体信息检索标识与样本多媒体信息的属性信息的映射关系，可基于检索标识查找得到对应的属性信息；示例性地，根据样本视频的视频ID查询预设的视频数据库，得到所述样本视频的元数据(视频ID、视频标题、视频文本描述、视频文件等)。

在一实施例中，获取所述样本多媒体信息的属性信息之后，以数据流消息的形式呈现所述样本多媒体信息的属性信息，如以数据流共享消息(SSM，Stream Shared Message)的形式呈现所述样本多媒体信息的属性信息，也就是说，后续基于样本多媒体信息的属性信息的所有处理均为实时的流式处理(对数据流的处理)，示例性地，可以通过调用预编程的N个组件实现本实施例所述方法的各个操作步骤，N为不小于2的正整数；如此，一方面可以满足对时延敏感的多媒体信息检索业务对于端到端延时的实时需求，另一方面具有较大的可扩展性，以有能力处理越来大的多媒体数据量及日益复杂的用户检索需求。

在一实施例中，基于预设的数据流传输协议，以键-值数据对(如key-value数据对)的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的SSM。示例性地，基于预设的数据流传输协议，以key-value数据对的形式封装得到的样本视频的元数据，得到对应所述样本视频的元数据的SSM。

步骤103：基于样本多媒体信息的属性信息确定样本多媒体信息的指纹信息。本实施例中，所述样本多媒体信息的指纹信息包括：用于表征样本多媒体信息的文本特征的第一指纹信息，以及用于表征样本多媒体信息的视觉特征的第二指纹信息。

在一实施例中，由于样本多媒体信息的属性信息以SSM的形式呈现，因此，在执行本步骤操作时需要根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；然后，对得到的所述键-值数据对进行字符串转换，得到所述样本多媒体信息的属性信息。

在实际应用中，步骤103可以包括：对样本多媒体信息的属性信息进行特征提取，得到样本多媒体信息的特征信息，然后，基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息；其中，所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

示例性地，对样本视频的属性信息进行特征提取，得到样本视频的视频特征，然后，基于所述样本视频的视频特征生成所述样本视频的指纹；其中，所述样本视频的视频特征包括：所述样本视频的视频文本特征和所述样本视频的视频视觉特征。

在一实施例中，所述对样本视频的属性信息进行特征提取，得到样本视频的视频特征，可以采用这样的方式：将所述样本视频划分为多个视频帧，基于预定的特征提取算法从所述多个视频帧中提取若干表示所述多个视频帧特定特征信息(文本特征信息及视觉特征信息)的特征帧，以对提取的特征帧进行编码处理得到所述样本视频的视频指纹。

在一实施例中，生成所述样本多媒体信息的指纹信息之后，基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息(如 SSM)。

步骤104：将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，以获取与所述样本多媒体信息相关联的多媒体信息。

在一实施例中，在步骤104之前，还可以基于存储的多媒体信息建立与之对应的多媒体信息的指纹数据库；可通过对存储的多个多媒体文件进行特征提取、指纹生成后得到所述多个多媒体文件的指纹，然后将得到的所述多个多媒体文件的指纹存入指纹数据库。

在一实施方式中，将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，可通过比较指纹的相似度来执行，当相似度超过预设相似度阈值时，判定匹配成功，否则判定匹配失败；其中，所述相似度阈值可依据实际情况进行设定。

当匹配成功时，获取与所述样本多媒体信息的指纹信息匹配的指纹对应的多媒体信息，并将其作为与所述样本多媒体信息相关联的多媒体信息；而当匹配失败时，表明不存在与所述样本多媒体信息相关联的多媒体信息。

示例性地，将样本视频的视频指纹与预设的指纹数据库中的指纹进行匹配，当匹配成功时，与该样本视频的视频指纹匹配的一个或多个指纹对应的一个或多个视频文件即为与该样本视频相关联的视频文件(可以为与样本视频文件近似的一个或多个视频文件)。

在一实施例中，本发明实施例上述多媒体信息检索方法可在Storm平台(并不限于该平台，如Flink、Spark Streaming亦可)上通过调用预编程的组件实现，各组件之间传输SSM；Storm平台为开源分布式实时流式计算平台，Storm平台中的各个逻辑节点间实时进行数据流传输，如图3所示为Storm Topology的结构示意图，其中，Topology为Storm平台中任务的逻辑拓扑，可以在Storm平台中的引擎上执行；Spout为Storm Topology中产生数据流的逻辑节点，即数据流生产节点，如图3中标号1所示，Bolt 为Storm Topology中消费数据流的逻辑节点，即数据流消费节点，如图3中标号2所示。

对于某个特定的视频检索业务，用户在Java IDE中选用需要的可复用组件，并将它们连接成Storm Topology：

TopologyBuilder builder＝new TopologyBuilder()；

builder.setSpout(“getTask”，new GetTaskSpout())；

builder.setBolt(“textFea”，new TextFeaBolt())after(“getTask”)；

builder.setBolt(“textSig”，new TextSigBolt())after(“textFea”)；

builder.setBolt(“textSim”，new TextSimBolt())after(“textSig”)；

builder.setBolt(“visualFea”，new VisualFeaBolt())after(“textSim”)；

builder.setBolt(“visualSig”，new VisualSigBolt())after(“visualFea”)；

builder.setBolt(“visualSim”，new VisualSimBolt())after(“visualSig”)；

builder.setBolt(“output”，new OutputBolt())after(“visualSim”)；

StormSubmitter submitTopology(builder)；

其中，GetTaskSpout、TextFeaBolt、TextSigBolt等为预编程的组件，相互之间存在数据流的组件通过after()来连接在一起。完成Topology的定义之后，通过Storm的接口将此Topology提交到集群上运行。

作为示例，组件之间基于预设的数据流传输协议进行数据处理的过程如图4所示，首先，下游组件接收上游组件输入的SSM ₁，对接收的SSM ₁进行解封装，获得SSM ₁中的key-value数据对(字符串类型，以JSON格式存储)，然后对获得的key-value数据对进行字符串转换成真实的数据，并基于转换得到的数据产生新的数据(即对该数据进行相应处理，如特征提取、指纹生成等)，使用JSON工具将新的数据和已有的数据封装成SSM ₂，并将生成的SSM ₂输出给自身的下游组件。

示例性地，第一组件至第四组件均为Storm平台上预编程的组件，当第一组件生成对应所述样本多媒体信息的属性信息的SSM后，将其输出给第二组件，第二组件基于所述预设的数据流传输协议对接收的SSM进行解封装、字符串转换得到样本多媒体信息的属性信息，然后对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息，然后封装成对应所述样本多媒体信息的特征信息的SSM并输出给第三组件；第三组件基于预设的数据流传输协议对接收的SSM进行解封装、字符串转换，然后基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息，封装成对应所述样本多媒体信息的指纹信息的SSM并输出给第四组件，以使所述第四组件进行解封装、字符串转换后进行指纹信息匹配，进而得到与所述样本多媒体信息相关联的多媒体信息。

例如：当进行视频检索时，当第一组件得到对应所述样本视频的属性信息的SSM后，输出至第二组件，第二组件基于所述预设的数据流传输协议对所述样本视频的属性信息进行特征提取，得到所述样本视频的特征信息(视频低级特征，表示为高维向量)，并输出对应所述样本视频的特征信息的SSM给第三组件；第三组件基于所述样本视频的特征信息生成所述样本视频的指纹信息(用于唯一性辨识视频信号的特征信息，一般为向量)，并输出对应所述样本视频的指纹信息的SSM给第四组件，以使所述第四组件进行指纹信息匹配，进而得到与所述样本视频相关联的视频。

应用本发明实施例，由于用于匹配的样本多媒体信息的指纹信息包含了第一指纹信息和第二指纹信息，而第一指纹信息对应的文本特征的处理速度较快，适用于对时延敏感的多媒体信息检索业务，第二指纹信息对应的视觉特征对多媒体内容的代表程度较高，适用于对检索准确率要求较高的多媒体信息检索业务；因此，上述多媒体信息检索方案能够同时适应不同多媒体信息检索业务的检索需求。由于整个多媒体信息检索方案可基于Storm平台采用SSM的形式完成，实现了对多媒体信息检索实时、高效的处理；且由于可调用预编程的组件实现该方案，提升了多媒体信息检索业务的开发效率、节约了开发、部署和维护的成本。

本发明实施例提供了一种多媒体信息检索方法，例如为一种视频检索方法，所述方法应用于Storm平台，本实施例中的视频检索方法可调用预编程的通用组件基于不同的处理层来实现，如图5所示，包括：对应视频源层的第一组件，标号51所示，对应视频特征层的第二组件，标号52所示，对应视频指纹层的第三组件，标号53所示，对应指纹比较层的第四组件，标号54所示，以及对应输出层的第五组件，标号55所示；图6所示为本实施例视频检索方法的应用场景示意图，图6中服务器上设置有实现视频检索方法的图5中所示的第一组件、第二组件、第三组件、第四组件及第五组件，服务器61基于步骤1中客户端62发送的视频检索请求进行视频检索处理，然后执行步骤2，即将检索结果返回给客户端62，结合图5、图6所示，本发明实施例中视频检索方法包括：

步骤201：第一组件基于用户输入的视频检索请求从视频数据库中获取相应的视频元数据，输入视频元数据至第二组件。

在一实施例中，所述视频检索请求可携带样本视频(待检索视频)的视频ID，基于所述视频ID获取所述样本视频对应的视频元数据，包括：视频ID、视频标题、视频文本描述、视频文件等。

需要说明的是，本实施例中各个通用组件间传输的数据基于预设的数据流传输协议以SSM的形式传输，也即，第一组件获取样本视频对应的视频元数据后需要封装该视频元数据以SSM的形式呈现该视频元数据，然后输入至第二组件，第二组件对接收到的SSM解封装、字符串转换得到该视频元数据后再进行处理；如图4所示为本发明实施例中组件之间基于预设的数据流传输协议进行数据处理的过程示意图。

步骤202：第二组件对所述视频元数据进行视频特征提取，得到所述样本视频的视频文本特征和视频视觉特征。

在一实施例中，在进行上述视频特征提取时，可以将样本视频文件划分为多个视频帧(如图7所示为对视频文件进行视频帧划分的示意图，视频流可划分为多个场景，每一个场景又可划分为多个镜头，每一个镜头可划分为多个帧，等等)，基于预定的特征提取算法从所述多个视频帧中提取若干表示所述多个视频帧的文本特征信息及视觉特征信息的特征帧。

步骤203：第三组件基于所述样本视频的视频文本特征和视频视觉特征生成对应所述样本视频的视频文本指纹和视频视觉指纹。

在实际应用中，基于第三组件提取的文本特征信息及视觉特征信息的特征帧，对其进行编码处理，进而生成对应所述样本视频的视频文本指纹和视频视觉指纹，以唯一的标识所述样本视频。

步骤204：第四组件将所述样本视频的视频文本指纹和视频视觉指纹与预设的指纹数据库中的指纹进行匹配，得到匹配结果。

在一实施例中，第四组件将所述样本视频的指纹与指纹数据库中的指纹进行相似度匹配(视频文本指纹和视频视觉指纹分别进行匹配)，当相似度达到预设的相似度阈值(视频文本指纹和视频视觉指纹的相似度均达到预设相似度阈值)时，确定匹配成功；这里，与所述样本视频的指纹匹配成功的指纹可以有一个或多个，而通过所述匹配成功的指纹可得到一个或多个与所述样本视频近似的视频文件。

步骤205：基于所述匹配结果输出视频检索结果。

在一实施例中，输出的视频检索结果可包括一个或多个与所述样本视频相似的视频文件，当视频检索结果包括多个视频文件时，所述基于所述匹配结果输出视频检索结果，可以采用这样的方式：根据预设的排序策略(如视频文件大小、视频创建时间等)对检索到的多个视频文件进行排序，输出排序结果，以供用户依据实际需要进行选择。

本发明实施例提供了一种多媒体信息检索方法，例如为一种视频检索方法，所述方法应用于Storm平台，本实施例中的视频检索方法可调用预编程的通用组件基于不同的处理层来实现；图8所示为本实施例中视频检索方法流程示意图，图9所示为本实施例视频检索方法的应用场景示意图，结合图8、图9所示所示，本发明实施例中视频检索方法包括：

步骤301：用户通过终端上的视频应用(APP，Application)上传样本视频文件。

例如，用户上传的样本视频文件可以为用户自己录制的视频文件、用户截取的电影片段、用户接收的其它用户发送的视频文件等等。

步骤302：服务器调用视频检索装置对接收的样本视频文件进行视频检索，获得检索结果。

在一实施例中，所述视频检索装置对所述样本视频文件进行特征提取(视频文本特征及视频视觉特征)、指纹生成(视频文本指纹及视频视觉指纹)、指纹匹配处理，以确定所述视频应用对应的视频数据库中是否存在与所述样本视频相似的视频文件。

需要说明的是，所述视频检索装置基于所述样本视频进行的视频检索处理过程可以为基于预设的数据流传输协议的流式处理过程，如此可以满足视频检索业务的实时性需求。

步骤303：基于所述检索结果返回视频上传指示给所述终端。

所述视频上传指示用于指示是否允许所述用户上传所述样本视频文件。

例如，当检索结果表征所述视频应用对应的视频数据库中存在与所述样本视频相似的视频文件时，拒绝所述用户上传所述样本视频，当检索结果表征所述视频应用对应的视频数据库中不存在与所述样本视频相似的视频文件时，允许所述用户上传所述样本视频；其中，与所述样本视频相似的视频文件为视频指纹相似度超过预设相似度阈值(如80％，可依据实际需要进行设定)的视频文件。

应用本发明实施例，对用户上传视频网站的视频文件进行视频检索，以确定该视频网站对应的视频数据库中是否有类似视频，进而基于检索结果判定是否允许用户进行视频上传，如此，防止用户进行版权侵权。由于对用户上传的视频文件的处理为实时性流式处理，提高了视频检索效率，同时由于对用户上传的视频文件进行视频检索基于的是视频文件的视频文本指纹及视频视觉指纹，能够同时满足对视频检索业务的不同检索需求。

本发明实施例提供了一种多媒体信息检索方法，例如为一种视频检索方法，图10A至图10C所示为本实施例视频检索方法的应用场景示意图，如图10A至图10C所示所示，本发明实施例中视频检索方法中：用户A通过终端1上的即时通讯APP(如微信、QQ)接收用户B通过终端2上的即时通讯APP发送的视频文件X，如图10A所示。由于实际需要，用户A希望观看更多与视频文件X相关的视频文件，发送视频检索请求(携带所述即时通讯APP标识及所述视频文件X标识)给服务器，在实际应用中，实现可以为长按该视频文件X，点击视频检索，如图10B；服务器调用视频检索装置对所述视频文件X进行视频检索，以确定所述即时通讯APP对应的视频数据库是否存在与所述视频文件X相似的视频文件，然后返回视频检索结果至用户A和用户B的对话窗口，例如，如果未检索到与所述视频文件X相似的视频文件，返回“未检索到相关视频文件”等字样至用户A和用户B的对话窗口；如果检索到与所述视频文件X相似的视频文件，返回检索到的视频文件、或检索到的视频文件对应的网址、或检索到的视频文件对应的超级链接等至用户A和用户B的对话窗口，如图10C所示。

应用本发明实施例，当用户通过即时通讯APP与其她用户聊天过程中发现自身感兴趣的视频，想要进一步观看更多类似视频文件时，通过视频检索功能进行视频检索，进而获得更多感兴趣的相关视频文件，丰富了用户选择、提高了用户体验。

本发明实施例提供了一种多媒体信息检索装置，如图11所示，本发明实施例中所述多媒体信息检索装置包括：获取模块31、处理模块32及匹配模块33；其中，

所述获取模块31，配置为接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；以及，基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

所述处理模块32，配置为基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

所述匹配模块33，配置为将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，以获取与所述样本多媒体信息相关联的多媒体信息。

在一实施例中，所述获取模块31，还配置为基于所述多媒体信息检索请求携带的样本多媒体信息检索标识，查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息，并以数据流消息的形式呈现所述样本多媒体信息的属性信息。

在一实施例中，所述获取模块31，还配置为基于预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的数据流消息(如SSM)。

在一实施例中，所述处理模块32，还配置为根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；对得到的所述键- 值数据对进行字符串转换，得到所述样本多媒体信息的属性信息；根据所述样本多媒体信息的属性信息生成所述样本多媒体信息的指纹信息；基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息。

在一实施例中，所述处理模块32包括：

特征提取单元，配置为对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

指纹生成单元，配置为基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息。

在本发明实施例中，所述多媒体信息检索装置中的获取模块31、处理模块32及匹配模块33，均可由终端中的中央处理器(CPU，Central Processing Unit)或数字信号处理器(DSP，Digital Signal Processor)、或现场可编程门阵列(FPGA，Field Programmable Gate Array)、或集成电路(ASIC，Application Specific Integrated Circuit)实现。

本发明实施例提供了一种多媒体信息检索装置，所述装置包括：多媒体信息输入组件、特征处理组件及匹配组件；所述多媒体信息输入组件、所述特征处理组件以及所述匹配组件支持基于用户输入的指令被调用，且建立所述多媒体信息输入组件、所述特征处理组件以及所述匹配组件之间的逻辑连接关系；其中，

所述多媒体信息输入组件，配置为基于用户的输入接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

所述特征处理组件，配置为基于与所述多媒体信息输入组件之间的逻辑连接关系获得所述样本多媒体信息的属性信息，基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

所述匹配组件，配置为基于与所述特征处理组件之间的逻辑连接关系获得包括所述第一指纹信息和所述第二指纹信息的指纹信息，将所述指纹信息与预设的指纹数据库中的指纹信息进行匹配，以获取与所述样本多媒体信息相关联的多媒体信息。

在一实施例中，所述特征处理组件包括：特征提取组件及指纹生成组件；其中，

所述特征提取组件，配置为对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

所述指纹生成组件，配置为基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息。

在一实施例中，所述装置还包括输出组件，配置为输出与所述样本多媒体信息相关联的多媒体信息。

在一实施例中本实施例中所述多媒体信息输入组件、特征提取组件、指纹生成组件、匹配组件及输出组件分别对应图5中视频源层、视频特征层、视频指纹层、视频比较层，并在被调用时执行各个处理层相应的功能。

需要说明的是：上述实施例提供的多媒体信息检索装置在进行多媒体信息检索时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的多媒体信息检索装置中未披露的技术细节，可以参照图2的相关说明而理解。

本发明实施例还提供了一种多媒体信息检索装置，该多媒体信息检索装置包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器，配置为运行所述计算机程序时，执行：

将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，以获取与所述样本多媒体信息相关联的多媒体信息。

所述处理器，还配置为运行所述计算机程序时，执行：

基于所述多媒体信息检索请求携带的样本多媒体信息检索标识，查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息，并以数据流消息的形式呈现所述样本多媒体信息的属性信息。

所述处理器，还配置为运行所述计算机程序时，执行：

基于预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的数据流消息。

所述处理器，还配置为运行所述计算机程序时，执行：

根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；

对得到的所述键-值数据对进行字符串转换，得到所述样本多媒体信息的属性信息；

根据所述样本多媒体信息的属性信息生成所述样本多媒体信息的指纹信息；

基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息。

所述处理器，还配置为运行所述计算机程序时，执行：

对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息。

本发明实施例还提供了一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现以下步骤：

本发明实施例中，多媒体信息检索装置作为硬件实体的一个示例如图12所示。所述会话管理装置包括处理器71、存储介质72以及至少一个外部通信接口73；所述存储介质72中存储有可执行程序721；所述处理器71、存储介质72以及外部通信接口73均通过总线74连接。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种多媒体信息检索方法，包括：

接收到多媒体信息检索请求；

基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

基于所述样本多媒体信息的属性信息，确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息至少包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息；

将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

当所述匹配结果表征匹配成功时，获取与所述样本多媒体信息相关联的多媒体信息。
根据权利要求1所述的方法，其中，所述样本多媒体信息的指纹信息还包括用于表征所述样本多媒体信息的视觉特征的第二指纹信息，所述将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，包括：

将所述样本多媒体信息的第一指纹信息以及第二指纹信息至少其中之一者与预设的指纹数据库中的指纹信息进行匹配。
根据权利要求1所述的方法，其中，所述基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息，包括：

基于所述多媒体信息检索请求携带的样本多媒体信息检索标识，查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息；

以数据流消息的形式呈现所述样本多媒体信息的属性信息。
根据权利要求3所述的方法，其中，所述以数据流消息的形式呈现所述样本多媒体信息的属性信息，包括：

基于预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的数据流消息。
根据权利要求4所述的方法，其中，所述以数据流消息的形式呈现所述样本多媒体信息的属性信息，包括：

根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；

对得到的所述键-值数据对进行字符串转换，得到所述样本多媒体信息的属性信息。
根据权利要求4所述的方法，其中，所述基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息，包括：

基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息。
根据权利要求1或2所述的方法，其中，所述基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息，包括：

对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；其中，所述样本多媒体信息的特征信息至少包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

基于所述样本多媒体信息的特征信息，分别生成所述样本多媒体信息的第一指纹信息和第二指纹信息。
根据权利要求7所述的方法，其中，所述基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息，包括：

将所述样本多媒体信息划分为多个视频帧；

基于预定的特征提取算法从所述多个视频帧中提取表示所述多个视频帧的文本特征信息及视觉特征信息的特征帧；以及

对提取的特征帧进行编码处理，得到所述样本多媒体信息的视频指纹信息。
一种多媒体信息检索装置，所述装置包括：获取模块、处理模块及匹配模块；其中，

所述获取模块，配置为接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；

以及，基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

所述处理模块，配置为基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息至少包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

所述匹配模块，配置为将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

以及当所述匹配结果表征匹配成功时，获取与所述样本多媒体信息相关联的多媒体信息。
根据权利要求9所述的装置，其中，

所述获取模块，还配置为基于所述多媒体信息检索请求携带的样本多媒体信息检索标识，查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息，并以数据流消息的形式呈现所述样本多媒体信息的属性信息。
根据权利要求10所述的装置，其中，

所述获取模块，还配置为基于预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的数据流消息。
根据权利要求11所述的装置，其中，

所述处理模块，还配置为根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；

对得到的所述键-值数据对进行字符串转换，得到所述样本多媒体信息的属性信息；

根据所述样本多媒体信息的属性信息生成所述样本多媒体信息的指纹信息；

基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息。
根据权利要求9或10所述的装置，其中，所述处理模块包括：

特征提取单元，配置为对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

指纹生成单元，配置为基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的第一指纹信息和第二指纹信息。
一种多媒体信息检索装置，所述装置包括：多媒体信息输入组件、特征处理组件及匹配组件；所述多媒体信息输入组件、所述特征处理组件以及所述匹配组件支持基于用户输入的指令被调用，且建立所述多媒体信息输入组件、所述特征处理组件以及所述匹配组件之间的逻辑连接关系；其中，

所述多媒体信息输入组件，配置为基于用户的输入接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

所述特征处理组件，配置为基于与所述多媒体信息输入组件之间的逻辑连接关系获得所述样本多媒体信息的属性信息，基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息至少包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

所述匹配组件，配置为基于与所述特征处理组件之间的逻辑连接关系获得包括所述第一指纹信息和所述第二指纹信息的指纹信息，将所述指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

以及，当所述匹配结果表征匹配成功时，获取与所述样本多媒体信息相关联的多媒体信息。
根据权利要求14所述的装置，其中，所述特征处理组件包括：特征提取组件及指纹生成组件；其中，

所述特征提取组件，配置为对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

所述指纹生成组件，配置为基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息。
根据权利要求13或14所述的装置，其中，所述装置还包括输出组件，配置为输出与所述样本多媒体信息相关联的多媒体信息。
一种多媒体信息检索装置，所述装置包括：

处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述的多媒体信息检索方法。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至8任一项所述的多媒体信息检索方法。
一种多媒体信息检索方法，所述方法由服务器执行，所述服务器包括有一个或多个处理器以及存储器，以及一个或一个以上的程序，其中，所述一个或一个以上的程序存储于存储器中，所述程序可以包括一个或一个以上的每一个对应于一组指令的单元，所述一个或多个处理器被配置为执行指令；所述方法包括：

接收到多媒体信息检索请求；所述多媒体信息检索请求携带样本多媒体信息检索标识；

基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息；

基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息；所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息；

将所述样本多媒体信息的指纹信息与预设的指纹数据库中的指纹信息进行匹配，获得匹配结果；

当所述匹配结果表征匹配成功时，获取与所述样本多媒体信息相关联的多媒体信息。
根据权利要求19所述的方法，其中，所述基于所述多媒体信息检索请求，获取所述样本多媒体信息的属性信息，包括：

基于所述多媒体信息检索请求携带的样本多媒体信息检索标识，查询预设的多媒体信息库，得到所述样本多媒体信息的属性信息，并以数据流消息的形式呈现所述样本多媒体信息的属性信息。
根据权利要求20所述的方法，其中，所述以数据流消息的形式呈现所述样本多媒体信息的属性信息，包括：

基于预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的属性信息，得到对应所述样本多媒体信息的属性信息的数据流消息。
根据权利要求21所述的方法，其中，所述基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息，包括：

根据所述预设的数据流传输协议，解封装所述对应所述样本多媒体信息的属性信息的数据流消息，得到存储所述样本多媒体信息的属性信息的键-值数据对；

对得到的所述键-值数据对进行字符串转换，得到所述样本多媒体信息的属性信息；

根据所述样本多媒体信息的属性信息生成所述样本多媒体信息的指纹信息；

基于所述预设的数据流传输协议，以键-值数据对的形式封装所述样本多媒体信息的指纹信息，得到对应所述样本多媒体信息的指纹信息的数据流消息。
根据权利要求19或20所述的方法，其中，所述基于所述样本多媒体信息的属性信息确定所述样本多媒体信息的指纹信息，包括：

对所述样本多媒体信息的属性信息进行特征提取，得到所述样本多媒体信息的特征信息；所述样本多媒体信息的特征信息包括：所述样本多媒体信息的文本特征和所述样本多媒体信息的视觉特征；

基于所述样本多媒体信息的特征信息生成所述样本多媒体信息的指纹信息，其中，所述样本多媒体信息的指纹信息包括：用于表征所述样本多媒体信息的文本特征的第一指纹信息，以及用于表征所述样本多媒体信息的视觉特征的第二指纹信息。