WO2014029338A1

WO2014029338A1 - 多媒体信息检索方法及电子设备

Info

Publication number: WO2014029338A1
Application number: PCT/CN2013/081992
Authority: WO
Inventors: 胡鹏; 张腾
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-08-24
Filing date: 2013-08-21
Publication date: 2014-02-27
Also published as: CN103631802A; EP2889786A1; JP5948671B2; US9704485B2; US20150154958A1; EP2889786A4; CN103631802B; JP2015522892A

Abstract

本发明涉及一种多媒体信息检索方法及电子设备，该多媒体信息检索方法包括步骤：从待检索多媒体中提取所述待检索多媒体的语音；对待检索多媒体的语音进行语音识别，以得到识别文本；以及根据识别文本在多媒体数据库上进行检索，以得到待检索多媒体的多媒体信息。本发明还涉及一种电子设备。本发明的多媒体信息检索方法及电子设备可将用户想了解的多媒体信息自动、快速以及全面的呈现给用户，极大地提高了用户的检索效率及检索成功率。

Description

多媒体信息检索方法及电子设备

技术领域

本发明涉及信息检索领域，特别是涉及一种多媒体信息检索方法及电子设备。

背景技术

用户在听歌曲时，有时会产生想进一步了解该歌曲信息的需求。例如用户在电脑上听到一首比较喜欢的歌曲，就会想进一步了解该歌曲的歌名、演唱者或其他关于该歌曲的背景信息。为了得到上述歌曲的相关信息，用户通常是自己先记下歌词的片段，然后通过互联网对上述歌词的片段进行检索，这个过程需要用户对歌词进行快速识别记忆，并对检索结果具有一定的识别能力，因此整个检索的操作过程比较复杂，且容易出错。

技术问题

本发明的目的在于提供一种基于歌词内容识别的多媒体信息检索方法及电子设备，其可将用户想了解的多媒体信息自动、快速以及全面的呈现给用户，极大地提高了用户的检索效率及检索成功率。解决了现有的多媒体检索过程复杂且容易出错的技术问题。

技术解决方案

为解决上述问题，本发明提供的技术方案如下：

本发明提供一种多媒体信息检索方法，其包括步骤：

从待检索多媒体中提取所述待检索多媒体的语音；

对所述待检索多媒体的语音进行语音识别，以得到识别文本；以及

根据所述识别文本在多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。

本发明还提供一种电子设备，其包括：

一个或一个以上处理器；

存储器；以及

一个或一个以上程序，存储在所述存储器中，且经配置以由所述一个或一个以上处理器执行以提供一多媒体信息检索方法，所述一个或一个以上程序按照功能划分，包括：

语音提取模块，用于从待检索多媒体中提取所述待检索多媒体的语音；

语音识别模块，用于对所述待检索多媒体的语音进行语音识别，以得到识别文本；以及

检索模块，用于根据所述识别文本在多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。

本发明还提供一种电子设备，其包括：

一个或一个以上处理器；

存储器；以及

多媒体数据库，用于存储多媒体信息；

下载模块，用于通过待检索多媒体的下载链接下载所述待检索多媒体；

检索模块，用于根据所述识别文本在所述多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。

有益效果

相较于现有的多媒体信息检索方法，本发明的多媒体信息检索方法及电子设备可将用户想了解的多媒体信息自动、快速以及全面的呈现给用户，极大地提高了用户的检索效率及检索成功率。解决了现有的多媒体检索过程复杂且容易出错的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的电子设备的优选实施例的结构示意图；

图2为本发明的电子设备的优选实施例的结构示意图；

图3为本发明的多媒体信息检索方法的优选实施例的流程图；

图4为图1所示的多媒体信息检索方法中的步骤303的详细流程图；

图5为本发明的多媒体信息检索方法使用在服务器一端的使用示意图；

图6为本发明的多媒体信息检索方法使用在服务器一端的使用示意图；

图7为本发明的电子设备的工作环境结构示意图。

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行作业。所熟知适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)行动电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本发明提供一种电子设备，请参照图1，图1为本发明的电子设备的优选实施例的结构示意图。该电子设备包括语音提取模块11、语音识别模块12、检索模块13以及多媒体展示模块14。语音提取模块11用于从待检索多媒体中提取待检索多媒体的语音；语音识别模块12用于对待检索多媒体的语音进行语音识别，以得到识别文本；检索模块13用于根据识别文本在多媒体数据库上进行检索，以得到待检索多媒体的多媒体信息；多媒体展示模块14用于将多媒体信息展示给用户。

该检索模块13包括待定识别代码确定单元、识别代码确定单元以及检索单元。待定识别代码确定单元用于根据预设的词库对识别文本进行分词处理，以得到多个待定识别代码；识别代码确定单元用于根据待定识别代码在词库中的词频，确定多个识别代码；检索单元用于使用多个识别代码在多媒体数据库上进行检索，以得到待检索多媒体的多媒体信息。

本发明的电子设备使用时，听歌用户通过音乐播放器播放本地多媒体或下载网络多媒体到本地播放，如用户想了解该多媒体的多媒体信息，语音提取模块11就从该多媒体中提取人声语音，并将该人声语音发送给语音识别模块12；语音识别模块12对该人声语音进行语音识别，得到识别文本，并将该识别文本发送给检索模块13的待定识别代码确定单元；检索模块13的待定识别代码确定单元根据预设的词库对该识别文本进行分词处理，得到多个待定识别代码；然后检索模块13的识别代码确定单元根据待定识别代码确定单元确定的待定识别代码在词库中的词频，确定多个识别代码，并把确定的多个识别代码发送给检索模块13的检索单元；检索模块13的检索单元向多媒体数据库请求根据上述的多个识别代码进行检索，得到相应的多媒体信息；最后多媒体展示模块14将检索单元检索到的多媒体信息展示给用户（当然这里也可用其他的方式将多媒体信息反馈给用户）。

本发明的电子设备的具体工作原理与下面的多媒体信息检索方法的具体实施例相同或相似，可参见下面的多媒体信息检索方法的具体实施例。本发明的电子设备的各模块可相互一体化，或将某个模块拆分为多个独立功能的模块，各模块之间可直接连接也可间接连接。

本发明还提供一种电子设备，请参照图2，图2为本发明的电子设备的优选实施例的结构示意图。该电子设备包括多媒体数据库21、下载模块22、语音提取模块23、语音识别模块24、检索模块25、反馈模块26以及关联模块27。多媒体数据库21用于存储多媒体信息；下载模块22用于通过待检索多媒体的下载链接下载所述待检索多媒体；语音提取模块23用于从待检索多媒体中提取待检索多媒体的语音；语音识别模块24用于对待检索多媒体的语音进行语音识别，以得到识别文本；检索模块25用于根据识别文本在多媒体数据库21上进行检索，以得到待检索多媒体的多媒体信息；反馈模块26用于将多媒体信息反馈给用户；关联模块27用于将下载模块22获得的下载链接与相应的多媒体信息关联起来。

该检索模块25包括待定识别代码确定单元、识别代码确定单元以及检索单元。待定识别代码确定单元用于根据预设的词库对识别文本进行分词处理，以得到多个待定识别代码；识别代码确定单元用于根据待定识别代码在词库中的词频，确定多个识别代码；检索单元用于使用多个识别代码在多媒体数据库21上进行检索，以得到待检索多媒体的多媒体信息。

本发明的电子设备将多媒体信息检索设备（即图1所示的电子设备）以及服务器端的多媒体数据库21一体化，使得用户只需要将多媒体的下载链接发送给电子设备，电子设备就能将待检索多媒体的多媒体信息反馈给听歌用户，极大的方便了听歌用户的操作。

本发明的电子设备使用时，听歌用户通过浏览器访问音乐页面，如用听歌用户想了解页面上的多媒体的多媒体信息，电子设备的下载模块22就会根据多媒体的下载链接将该多媒体下载到电子设备上；语音提取模块23就从该多媒体中提取人声语音，并将该人声语音发送给语音识别模块24；语音识别模块24对该人声语音进行语音识别，得到识别文本，并将该识别文本发送给检索模块25的待定识别代码确定单元；检索模块25的待定识别代码确定单元根据预设的词库对该识别文本进行分词处理，得到多个待定识别代码；然后检索模块25的识别代码确定单元根据待定识别代码确定单元确定的待定识别代码在词库中的词频，确定多个识别代码，并把确定的多个识别代码发送给检索模块25的检索单元；检索模块25的检索单元向多媒体数据库21请求根据上述的多个识别代码进行检索，得到相应的多媒体信息；最后反馈模块26将检索单元检索到的多媒体信息反馈给用户。

进一步的，本发明的电子设备还包括关联模块27，该关联模块27将下载模块22获得的下载链接与相应的多媒体信息关联起来。这样从听歌用户获取的下载链接如与电子设备中保存的下载链接相同，可将关联模块27关联的相应的多媒体信息的检索结果直接反馈给用户，从而大大节约了进行识别、检索的资源。

本发明还提供一种多媒体信息检索方法，请参照图3，图3为本发明的多媒体信息检索方法的优选实施例的流程图。该多媒体信息检索方法包括：

步骤S301，从待检索多媒体中提取待检索多媒体的语音；

步骤S302，对待检索多媒体的语音进行语音识别，以得到识别文本；

步骤S303，根据识别文本在多媒体数据库上进行检索，以得到待检索多媒体的多媒体信息；

步骤S304，将多媒体信息展示给用户；

下面结合图3和图4详细说明本发明的多媒体信息检索方法的各步骤的详细流程。图4为图3所示的多媒体信息检索方法中的步骤303的详细流程图。

在步骤S301中，从待检索多媒体中提取待检索多媒体的语音。该步骤中，主要是将人声主唱的语音从多媒体语音中分离出来，具体的分离过程可基于听觉场景分析技术或盲信号分离技术等语音分离方法，这样可输出一路人声主唱的语音信号。在选取的多媒体语音的持续时间方面，可以选取完整的多媒体长度，也可以只选取多媒体的一段。通常选取的多媒体语音的时间越长，所消耗的计算资源也就越多，但为后续步骤提供的信息也就越多，这样方便后续步骤进行精确的检索。

在步骤S302中，对待检索多媒体的语音进行语音识别，得到识别文本。在该步骤中，主要是将人声主唱的语音信号转换为识别文本，即将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或字符序列等。该识别文本包括多个识别代码，识别代码包括但不限于中文文字、中文词语、拼音、英文文字和/或英文词语等。目前具体的语音识别过程可采用统计模式识别技术等语音识别方法。由于语音识别本身可能存在不确定的出错率，因此可通过增加提取多媒体语音的时间，来降低语音识别错误导致后续的多媒体检索错误的概率。

请参照图4，步骤S303具体包括：

步骤S3031，根据预设的词库对识别文本进行分词处理，以得到多个待定识别代码。

由于语音识别具有一定的出错率，因此直接将识别出来识别文本进行检索，可能会由于一些小的识别错误导致最终的检索失败。因此这里通过预设的词库对识别文本进行分词处理，得到识别文本中的多个小单元，即为待定识别代码。

该待定识别代码包括但不限于中文文字、中文词语、拼音、英文文字和/或英文词语等，具体根据预设的词库的类型进行划分。如预设的词库只支持中文文字和词语，那只将识别文本划分为多个中文文字或中文词语类型的待定识别代码；如预设的词库支持中文和拼音，同时多媒体数据库也支持拼音检索的话，那可将一些无法识别的中文文字使用拼音的方式进行检索，这样可以进一步保证检索的质量，避免出现检索错误；如预设的词库同时支持中文和英文，这样可以对一些具有英文的多媒体或纯英文多媒体直接进行检索。

步骤S3032，根据待定识别代码在词库中的词频，确定多个识别代码。

每个从词库中选出的待定识别代码在词库中都具有一个词频的属性，待定识别代码的词频大小说明了该待定识别代码在日常生活中使用的频繁程度（词库是对人们在网络上经常使用的语言进行归纳总结形成的），该待定识别代码在日常生活中使用的越频繁，该待定识别代码的词频就越大，否则该待定识别代码的词频就越小。

为了减小检索消耗的资源，会根据待定识别代码在词库中的词频选出一些待定识别代码作为最后用于多媒体检索的识别代码。具体过程如下：

将待定识别代码按待定识别代码在词库中的词频从低到高排列；然后选择词频最低的n个待定识别代码；再随机选择m个待定识别代码，这样n个待定识别代码和所述m个待定识别代码不重复；最后n个待定识别代码以述m个待定识别代码设定为识别代码，这里的n大于等于1，m大于等于0。这里n个待定识别代码由于其词频较低，可以在一定程度上保证检索结果的精确性，而m个待定识别代码可以在一定程度上避免由于低词频的待定识别代码可能导致的检索失败（这里的检索为模糊检索，满足一定程度的检索条件即反馈给检索用户）。这里的n值和m值可根据用户的要求进行灵活设定。

步骤S3033，使用上面确定的多个识别代码在多媒体数据库上进行检索，以得到待检索多媒体的多媒体信息。

这里的检索过程可根据检索结果进行调整，如检索反馈结果过多，可以相应的从待定识别代码中增加新的识别代码；或将检索条件精细化，将满足检索条件高的检索结果反馈给用户。如反馈检索失败，则相应的减少识别代码的数量后进行再次检索，以避免由于语音识别错误产生的识别代码导致检索失败。这里具体的检索过程可根据实际情况进行设定，检索具体过程的不同并不影响本发明的保护范围。多媒体数据库可以是位于本地计算机的本地多媒体数据库，也可以是位于网络上的服务器的网络多媒体数据库。

在步骤S304中，将检索到的多媒体的多媒体信息展示给用户。这里的多媒体信息可为用户想知道的关于检索多媒体的各种相关信息，包括但不限于该多媒体的歌名、演唱者、歌词、专辑、背景信息、歌谱以及多媒体下载链接等；对于某些用户，也可以向其展示该多媒体的下载链接，例如网络在线多媒体的免费下载链接，以及用户本地多媒体相应的免费正版链接等。

通过上述的步骤S301至步骤S304即完成了对待检索多媒体的自动检索，并将检索结果快速的反馈给了听歌用户。

如本发明的多媒体信息检索方法用于用户一端，可如图5所示，图5为将本发明的多媒体信息检索方法使用在用户一端的使用示意图。这样语音提取、语音识别以及结果展示均在用户一端产生，而用于检索的多媒体数据库设置在检索服务器一端，检索服务器仅仅承担检索的作用。

如本发明的多媒体信息检索方法用于服务器一端，可如图6所示，图6为本发明的多媒体信息检索方法使用在服务器一端的使用示意图。这样用户可通过网络浏览器将待检索多媒体的下载链接发送给检索服务器，检索服务器将检索结果反馈给用户。这里的检索服务器不仅要进行多媒体的检索，还要进行多媒体的下载、语音提取、语音识别以及结果反馈等操作，这样可进一步方便用户的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

本发明的多媒体信息检索方法、电子设备及存储介质可将用户想了解的多媒体信息自动、快速以及全面的呈现给用户，极大地增加了用户听歌的兴趣体验。解决了现有的多媒体检索过程复杂且容易出错的技术问题。同时本发明的电子设备方便用户在自己的电脑上进行多媒体的检索，电子设备可以根据用户的请求在服务器上进行多媒体的检索，而只将检索结果反馈给用户，进一步的方便了用户的操作。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和／或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和／或线程内，并且组件可以位于一个计算机上和／或分布在两个或更多计算机之间。

而且，要求保护的主题可以被实现为使用标准编程和／或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题的方法、装置或制造品。本文所使用的术语“制造品”旨在包含可从任意计算机可读设备、载体或介质访问的计算机程序。当然，本领域技术人员将认识到可以对该配置进行许多修改，而不脱离要求保护的主题的范围或精神。

图7和随后的讨论提供了对实现本发明所述的电子设备的工作环境的简短、概括的描述。图7的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备712包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等）、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布（下文讨论）。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图7图示了包括本发明的多媒体信息检索方法的一个或多个实施例的电子设备712的实例。在一种配置中，电子设备712包括至少一个处理单元716和存储器718。根据电子设备的确切配置和类型，存储器718可以是易失性的(比如RAM)、非易失性的（比如ROM、闪存等）或二者的某种组合。该配置在图7中由虚线714图示。

在其他实施例中，电子设备712可以包括附加特征和／或功能。例如，设备712还可以包括附加的存储装置（例如可移除和／或不可移除的），其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图7中由存储装置720图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置720中。存储装置720还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器718中由例如处理单元716执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器718和存储装置720是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备712访问的任何其他介质。任意这样的计算机存储介质可以是电子设备712的一部分。

电子设备712还可以包括允许电子设备712与其他设备通信的通信连接726。通信连接726可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器／接收器、红外端口、USB连接或用于将电子设备712连接到其他电子设备的其他接口。通信连接726可以包括有线连接或无线连接。通信连接726可以发射和／或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备712可以包括输入设备724，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和／或任何其他输入设备。设备712中也可以包括输出设备722，比如一个或多个显示器、扬声器、打印机和／或任意其他输出设备。输入设备724和输出设备722可以经由有线连接、无线连接或其任意组合连接到电子设备712。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备712的输入设备724或输出设备722。

电子设备712的组件可以通过各种互连（比如总线）连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE 1394)、光学总线结构等等。在另一个实施例中，电子设备712的组件可以通过网络互连。例如，存储器718可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络728访问的电子设备730可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备712可以访问电子设备730并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备712可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备712处执行并且一些指令可以在电子设备730处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B;或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能（例如其在功能上是等价的）的任意组件（除非另外指示），即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

本发明的实施方式

工业实用性

序列表自由内容

Claims

一种多媒体信息检索方法，其包括步骤：

从待检索多媒体中提取所述待检索多媒体的语音；

对所述待检索多媒体的语音进行语音识别，以得到识别文本；以及

根据所述识别文本在多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求1所述的多媒体信息检索方法，其中所述根据所述识别文本在多媒体数据库上进行检索，得到所述待检索多媒体的多媒体信息的步骤包括：

根据预设的词库对所述识别文本进行分词处理，以得到多个待定识别代码；

根据所述待定识别代码在所述词库中的词频，确定多个识别代码；以及

使用所述多个识别代码在所述多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求2所述的多媒体信息检索方法，其中所述待定识别代码为文字、拼音和英文的至少其中之一。
根据权利要求2所述的多媒体信息检索方法，其中所述根据所述待定识别代码在所述词库中的词频，确定多个识别代码的步骤具体为：

在所有的待定识别代码中选择在所述词库中的词频最低的n个待定识别代码，随后随机选择m个待定识别代码，所述n个待定识别代码和所述m个待定识别代码不重复，将所述n个待定识别代码以及所述m个待定识别代码设定为识别代码，其中n大于等于1，m大于等于0。
根据权利要求1所述的多媒体信息检索方法，其中所述多媒体信息检索方法还包括步骤：

将所述多媒体信息展示给用户，其中所述多媒体信息包括歌名、演唱者、歌词、专辑、背景信息、歌谱以及多媒体下载链接至少其中之一。
一种电子设备，其包括：

一个或一个以上处理器；

存储器；以及

一个或一个以上程序，存储在所述存储器中，且经配置以由所述一个或一个以上处理器执行以提供一多媒体信息检索方法，所述一个或一个以上程序按照功能划分，包括：

语音提取模块，用于从待检索多媒体中提取所述待检索多媒体的语音；

语音识别模块，用于对所述待检索多媒体的语音进行语音识别，以得到识别文本；以及

检索模块，用于根据所述识别文本在多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求6所述的电子设备，其中所述检索模块包括：

待定识别代码确定单元，用于根据预设的词库对所述识别文本进行分词处理，以得到多个待定识别代码；

识别代码确定单元，用于根据所述待定识别代码在所述词库中的词频，确定多个识别代码；以及

检索单元，用于使用所述多个识别代码在所述多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求7所述的电子设备，其中所述待定识别代码为文字、拼音和英文的至少其中之一。
根据权利要求7所述的电子设备，其中所述识别代码确定单元具体用于在所有的待定识别代码中选择在所述词库中的词频最低的n个待定识别代码，随后随机选择m个待定识别代码，所述n个待定识别代码和所述m个待定识别代码不重复，将所述n个待定识别代码以及所述m个待定识别代码设定为识别代码，其中n大于等于1，m大于等于0。
根据权利要求6所述的电子设备，其中所述电子设备还包括：

多媒体展示模块，用于将所述多媒体信息展示给用户；其中所述多媒体信息包括歌名、演唱者、歌词、专辑、背景信息、歌谱以及多媒体下载链接至少其中之一。
一种电子设备，其包括：

一个或一个以上处理器；

存储器；以及

一个或一个以上程序，存储在所述存储器中，且经配置以由所述一个或一个以上处理器执行以提供一多媒体信息检索方法，所述一个或一个以上程序按照功能划分，包括：

多媒体数据库，用于存储多媒体信息；

下载模块，用于通过待检索多媒体的下载链接下载所述待检索多媒体；

语音提取模块，用于从待检索多媒体中提取所述待检索多媒体的语音；

语音识别模块，用于对所述待检索多媒体的语音进行语音识别，以得到识别文本；以及

检索模块，用于根据所述识别文本在所述多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求11所述的电子设备，其中所述检索模块包括：

待定识别代码确定单元，用于根据预设的词库对所述识别文本进行分词处理，以得到多个待定识别代码；

识别代码确定单元，用于根据所述待定识别代码在所述词库中的词频，确定多个识别代码；以及

检索单元，用于使用所述多个识别代码在所述多媒体数据库上进行检索，以得到所述待检索多媒体的多媒体信息。
根据权利要求12所述的电子设备，其中所述待定识别代码为文字、拼音和英文的至少其中之一。
根据权利要求12所述的电子设备，其中所述识别代码确定单元具体用于在所有的待定识别代码中选择在所述词库中的词频最低的n个待定识别代码，随后随机选择m个待定识别代码，所述n个待定识别代码和所述m个待定识别代码不重复，将所述n个待定识别代码以及所述m个待定识别代码设定为识别代码，其中n大于等于1，m大于等于0。
根据权利要求11所述的电子设备，其中所述电子设备还包括：

反馈模块，用于将所述多媒体信息反馈给用户；其中所述多媒体信息包括歌名、演唱者、歌词、专辑、背景信息、歌谱以及多媒体下载链接至少其中之一。
根据权利要求11所述的电子设备，其中所述电子设备还包括：

关联模块，用于将所述下载模块获得的下载链接与相应的多媒体信息关联起来。