WO2018108080A1

WO2018108080A1 - 一种基于声纹搜索的信息推荐方法及装置

Info

Publication number: WO2018108080A1
Application number: PCT/CN2017/115707
Authority: WO
Inventors: 何坚强
Original assignee: 北京奇虎科技有限公司
Priority date: 2016-12-13
Filing date: 2017-12-12
Publication date: 2018-06-21
Also published as: CN106601259A; CN106601259B

Abstract

一种基于声纹搜索的信息推荐方法及装置。该方法包括：对输入的语音信息进行预处理，获得待识别的声纹数据（S101）；提取声纹数据的韵律特征（S102）；根据韵律特征查找声纹模型库，识别目标关键词，其中声纹模型库包含以韵母作为索引的关键词词库（S103）；搜索包含目标关键词的标题信息，按预设规则推荐给用户（S104）。根据用户语音快速准确地给用户推荐节目内容。

Description

一种基于声纹搜索的信息推荐方法及装置

技术领域

本发明涉及语音识别技术领域，更具体地，涉及基于声纹搜索的信息推荐方法及装置。

背景技术

自从发明并使用各种机器以来，人类就有一个梦想，那就是让各种机器能够听懂自己的语言，并按照口头命令采取对应的行动，从而实现人机之间的语言交互。语音技术的出现，为人类这一梦想的实现创造了可能。语音技术是计算机利用相应算法从语音中自动提取出人类需要的、具有实际意义的信息。语音技术的研究开始于20世纪50年代，至今已有60年的历史。随着信息技术的高速发展，语音技术变得越来越重要，其应用前景也越来越广阔。

其中，网络和多媒体技术发展至今，人们想对特定人的音频内容进行快速检索，从而能够快速定位到感兴趣的人的节目内容。如何基于说话人识别技术的说话人分割、说话人聚类，在大量的历史语音数据和最新的广播电视新闻信息中查询到有效的目标数据，成为当前业界的共同问题。

发明内容

鉴于上述问题，本发明提出了一种基于声纹搜索的信息推荐方法及装置，能够根据用户语音快速准确地给用户推荐节目内容。

第一方面，本发明实施例中提供了一种基于声纹搜索的信息推荐方法，包括：对输入的语音信息进行预处理，获得待识别的声纹数据；提取所述声纹数据的韵律特征；根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

第二方面，本发明实施例提供了一种基于声纹搜索的信息推荐装置，包括：至少一个处理器；以及，至少一个存储器，其与所述至少一个处理器可通信地连接；所述至少一个存储器包括处理器可执行的指令，当所述处理器可执行的指令由所述至少一个处理器执行时，致使所述装置执行至少以下操作：对输入的语音信息进行预处理，获得待识别的声纹数据；提取所述声纹数据的韵律特征；根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

第三方面，本发明实施例提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码被运行时，导致第一方面所述的方法被执行。

第四方面，本发明实施例提供了一种计算机可读介质，其中存储了如第三方面所述的计算机程序。

相对于现有技术，本发明提供的方案，首先，对输入的语音信息进行预处理，获得待识别的声纹数据。例如，用户按下语音键，同时输入语音信息，系统经过去噪等预处理后获得待识别的声纹数据。然后，提取所述声纹数据的韵律特征。需要说明的是，声纹特征包括声学特征、韵律特征和词法特征等。其中，“韵律特征”又叫“超音质特征”或“超音段特征”，指的是语音中除音质特征之外的音高、音长和音强方面的变化。韵律是人类自然语言的一个典型特征，具有许多跨语言的共同特点，比如：音高下倾、重读、停顿等都普遍存在于不同的语言之中。另外，由于韵律特征提取方便，容易分析，而本发明仅通过提取韵律特征进行分析，分析速度快。为了达到分析准确的目标，本发明预设的声纹模型库，包含以韵母作为索引的关键词词库。根据所述韵律特征查找声纹模型库，识别目标关键词。从而实现快速、准确地将语音信息转换成文字信息。最后，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。其中，所述标题信息，包括书籍、新闻、文章等名称及其摘要的内容信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于声纹搜索的信息推荐方法的流程图。

图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。

图3为本发明一种基于声纹搜索的信息推荐装置的示意图。

图4为本发明一种基于声纹搜索的信息推荐装置的实施例示意图。

图5示出了用于执行根据本发明方法的基于智能手机终端的框图；

以及

图6示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一种基于声纹搜索的信息推荐方法的流程图，包括：

S101：对输入的语音信息进行预处理，获得待识别的声纹数据；

S102：提取所述声纹数据的韵律特征；

S103：根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

S104：搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

图2为本发明一种基于声纹搜索的信息推荐方法的实施例流程图。图2与图1相比，图2的实施例还包括以声纹登录账户，进一步地，通过账号资料给用户推荐符合用户个性需求的标题信息。

S201：对输入的语音信息进行预处理，获得待识别的声纹数据；

S202：判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号；

S203：提取所述声纹数据的韵律特征；

S204：根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

S205：显示至少两个目标关键词，以供用户选择；根据用户的选择，确定待搜索的目标关键词；

S206：判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息；

S207：判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息；

S208：按时间先后或浏览量大小将搜索到的标题信息展示给用户。

本发明的实施终端不限于可穿戴设备、手机、IPAD、个人电脑等具有话筒/声音接收器的智能终端。本实施例以小孩使用智能手机终端实施本发明，做进一步的说明。假设，小孩按下语音键，同时对智能手机的话筒输入语音信息“灰太狼”。本发明对输入的语音信息进行预处理，获得待识别的声纹数据。

优选地，所述对输入的语音信息进行预处理，获得待识别的声纹数据的步骤，包括：

采用单声道采样所述语音信息的语音流；

以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。

预处理包括去噪和端点检测两部分。

去噪，是对话筒输入的语音信息进行量化和采样，获得数字化的语音流；再将含噪的语音流通过去噪处理，得到干净的语音流后并通过预加重技术滤除低频干扰，尤其是50H或60Hz的工频干扰，提升语音流的高频部分，而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。具体地，输入语音信息采用单声道、8bit、16KHz采样。以256个采样点为一个音框单位(帧)，以128为音框之间的重迭单位，对输入语音流进行分帧。计算各帧语音数据的累积能量E(最大值为256^3＝16777216，用int表示足够)，

如果连续语音帧累积能量大于预设静音阈值(连续数>100)，则采纳该段连续语音帧为待识别的声纹数据。保留所有可供训练的语音帧。

端点检测，本系统采用语音信息的短时能量和短时过零率进行端点检测。语音信息的采样频率为8Hz，每帧数据20ms，共计160采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以删除掉静默帧、白噪声帧和清音帧，最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。

经过去噪和端点检测之后，可以判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。相比于现有技术需要用户记住账号和密码，更为方便和安全，尤其适用于记忆力稍弱的小孩。接上例所述，小孩输入“灰太狼”之后，本发明对“灰太狼”语音信息经过预处理，与其中一个用户账号预先存储的声纹数据相符，登录该用户账号。

以小孩身份注册用户账号时，可以输入小孩的年龄、性别、阅读偏好等，以便本发明可以结合用户特点，给用户定制个性化信息。

提取所述声纹数据的韵律特征。对于“灰太狼”的韵律特征，韵母依次为ui，ai，ang。由于语言习惯，一般最后一个韵母的重音和音长都比较大，根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库。由于韵律特征提取方便，容易分析，而本发明仅通过提取韵律特征进行分析，分析速度快。而本实施例的声纹模型库存储的以韵母作为索引的关键词词库内词库数据相对还是较少的，对比分析速度快，而且准确率也高。例如，声纹模型库内存储了如下表所示的相关信息：

分类	文献/节目	关键词	韵母索引
儿童(男)	喜羊羊与灰太狼	喜羊羊、灰太狼	Iangang，uiaiang
儿童(女)	小红帽	小红帽、大灰狼	Aoongao，aiuiang
成人(男)	忍者乱太郎	忍者、乱太郎	Ene，anaiang

通过比对，可以快速地识别目标关键词为“灰太狼”“大灰狼”“乱太郎”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，推荐给用户的是《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》。

优选地，显示至少两个目标关键词，以供用户选择，例如，本发明反馈显示“灰太狼”“大灰狼”“乱太郎”等。根据用户的选择，最终，确定待搜索的目标关键词为“灰太狼”。此时，首先推荐给用户的是《喜羊羊与灰太狼》。其次，还可以推荐相关的《小红帽》和《忍者乱太郎》。

优选地，判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。判断所述语音信息的说话人的年龄优先通过用户账号登记的年龄作为判断依据，也可以在预处理的过程中根据声纹特征判断用户的年龄。如上表所示，当判断输入语音信息的用户为儿童时，确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，首先推荐给用户的是《喜羊羊与灰太狼》和《小红帽》。其次，还可以推荐相关的《忍者乱太郎》。

优选地，判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息。如上表所示，当判断输入语音信息的用户为男孩时，确定目标关键词为“灰太狼”和“大灰狼”。按时间先后或浏览量大小将搜索到的标题信息展示给用户。此时，首先推荐给用户的是《喜羊羊与灰太狼》。其次，还可以推荐相关的《小红帽》和《忍者乱太郎》。

优选地，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。

例如，可以存储本次搜索查找到的《喜羊羊与灰太狼》、《小红帽》和《忍者乱太郎》三个作品。小孩再次搜索时，便可以方便的获得相关题材的其他作品。

将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。

例如，小孩这次点选阅读了《喜羊羊与灰太狼》，看完了第30辑，下次打开时，直接跳转至历史阅读记录30辑，方便小孩接着往下看。

将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。

例如，小孩这次点选阅读了《喜羊羊与灰太狼》，并将其添加至书签栏之中。下次小孩只需在书签栏中翻查该作品，无需重新搜索。

图3为本发明一种基于声纹搜索的信息推荐装置的示意图，包括：

预处理单元，用于对输入的语音信息进行预处理，获得待识别的声纹数据；

特征提取单元，用于提取所述声纹数据的韵律特征；

关键词识别单元，用于根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

搜索推荐单元，用于搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。

图3与图1相对应，图中各个单元的运行方式与方法中的相同。

如图4所示，还包括：

关键词确定单元，用于显示至少两个目标关键词，以供用户选择；根据用户的选择，确定待搜索的目标关键词。

如图4所示，包括：

与所述预处理单元相连的账号登陆单元，用于判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。

如图4所示，所述搜索推荐单元，包括：

年龄判断单元，用于判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。

如图4所示，所述搜索推荐单元，包括：

性别判断单元，用于判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息。

如图4所示，所述搜索推荐单元，包括：

标题展示单元，用于按时间先后或浏览量大小将搜索到的标题信息展示给用户。

图4与图2相对应，图中各个单元的运行方式与方法中的相同。

优选地，所述预处理单元，包括：

采样单元，用于采用单声道采样所述语音信息的语音流；

分帧单元，用于以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算单元，用于计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的历史记录单元，用于将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的阅读记录单元，用于将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。

优选地，还包括：

与所述搜索推荐单元、所述账号登陆单元分别相连的收藏记录单元，用于将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。

图5示出了可以实现根据本发明基于声纹搜索的信息推荐方法的智能手机终端设备(下述将智能手机终端设备统称为设备)。该设备传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如，用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图6所述的便携式或者固定存储单元。该存储单元可以具有与图5中的存储器1020类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括用于执行根据本发明的方法步骤的程序代码1031’，即可以由例如诸如1010之类的处理器读取的代码，这些代码当由设备运行时，导致该设备执行上面所描述的方法中的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于声纹搜索的信息推荐方法，包括：

对输入的语音信息进行预处理，获得待识别的声纹数据；

提取所述声纹数据的韵律特征；

根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。
根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，所述对输入的语音信息进行预处理，获得待识别的声纹数据的步骤，包括：

采用单声道采样所述语音信息的语音流；

以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。
根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，所述识别目标关键词的步骤之后，所述搜索包含所述目标关键词的标题信息的步骤之前，还包括：

显示至少两个目标关键词，以供用户选择；

根据用户的选择，确定待搜索的目标关键词。
根据权利要求1所述的基于声纹搜索的信息推荐方法，其特征在于，对输入的语音信息进行预处理，获得待识别的声纹数据的步骤之后，包括：

判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。
根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
根据权利要求4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的步骤之后，还包括：

将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
根据权利要求1或4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息的步骤具体，包括：

判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；

在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
根据权利要求1或4所述的基于声纹搜索的信息推荐方法，其特征在于，搜索包含所述目标关键词的标题信息的步骤具体，包括：

判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；

在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
根据权利要求1或4所述的基于声纹搜索的信息推荐方法，其特征在于，按预设规则推荐给用户的步骤具体，包括：

按时间先后或浏览量大小将搜索到的标题信息展示给用户。
一种基于声纹搜索的信息推荐装置，包括：

至少一个处理器；

以及，至少一个存储器，其与所述至少一个处理器可通信地连接；所述至少一个存储器包括处理器可执行的指令，当所述处理器可执行的指令由所述至少一个处理器执行时，致使所述装置执行至少以下操作：

对输入的语音信息进行预处理，获得待识别的声纹数据；

提取所述声纹数据的韵律特征；

根据所述韵律特征查找声纹模型库，识别目标关键词，其中所述声纹模型库包含以韵母作为索引的关键词词库；

搜索包含所述目标关键词的标题信息，按预设规则推荐给用户。
根据权利要求11所述的基于声纹搜索的信息推荐装置，其特征在于，所述对输入的语音信息进行预处理，获得待识别的声纹数据的操作具体包括：

采用单声道采样所述语音信息的语音流；

以256个采样点为一帧，按128个采样点为音框之间的重迭单位，对所述语音流进行分帧；

计算各帧语音数据的累积能量，如果连续语音帧累积能量大于预设静音阈值，则采纳该段连续语音帧为待识别的声纹数据。
根据权利要求11所述的基于声纹搜索的信息推荐装置，其特征在于，还包括：

显示至少两个目标关键词，以供用户选择；根据用户的选择，确定待搜索的目标关键词。
根据权利要求11所述的基于声纹搜索的信息推荐装置，其特征在于，还包括：

判断当前的声纹数据是否与用户账户预先存储的声纹数据相符，如果相符，则登录所述用户账号。
根据权利要求14所述的基于声纹搜索的信息推荐装置，其特征在于，还包括：

将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。
根据权利要求14所述的基于声纹搜索的信息推荐装置，其特征在于，还包括：

将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。
根据权利要求14所述的基于声纹搜索的信息推荐装置，其特征在于，还包括：

将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。
根据权利要求11或14所述的基于声纹搜索的信息推荐装置，其特征在于，所述搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的操作，具体包括：

判断所述语音信息的说话人的年龄，将所述说话人标记为成年人或儿童；在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。
根据权利要求11或14所述的基于声纹搜索的信息推荐装置，其特征在于，所述搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的操作，具体包括：

判断所述语音信息的说话人的性别，将所述说话人标记为男生或女生；在对应性别的信息专区中搜索包含所述目标关键词的标题信息。
根据权利要求11或14所述的基于声纹搜索的信息推荐装置，其特征在于，所述搜索包含所述目标关键词的标题信息，按预设规则推荐给用户的操作，具体包括：

按时间先后或浏览量大小将搜索到的标题信息展示给用户。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码被运行时，导致权利要求1-10中的任一项权利要求所述的方法被执行。
一种计算机可读介质，其中存储了如权利要求21所述的计算机程序。