WO2019149108A1

WO2019149108A1 - 语音关键词的识别方法、装置、计算机可读存储介质及计算机设备

Info

Publication number: WO2019149108A1
Application number: PCT/CN2019/072590
Authority: WO
Inventors: 王珺; 苏丹; 俞栋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-01-31
Filing date: 2019-01-22
Publication date: 2019-08-08
Also published as: JP2021512362A; CN108305617A; EP3748629B1; US11222623B2; EP3748629C0; CN110444193A; CN110444195B; CN110444193B; JP7005099B2; CN110444195A; US20200286465A1; EP3748629A1; CN108305617B; EP3748629A4

Abstract

一种语音关键词的识别方法，包括：基于待识别语音信号获得各第一语音片段；通过预置第一分类模型获得与各第一语音片段分别对应的各第一概率，第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率；基于待识别语音信号获得各第二语音片段，基于与各第二语音片段对应的第一语音片段所对应的第一概率生成各第二语音片段的第一预测特征，并通过预置的第二分类模型，基于各第一预测特征进行分类，获得与各第二语音片段分别对应的各第二概率，第二概率包括该第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个；基于第二概率确定待识别语音信号中是否存在预定关键词。该识别方法能提高普适性。

Description

语音关键词的识别方法、装置、计算机可读存储介质及计算机设备

本申请要求于2018年01月31日提交中国专利局，申请号为201810096472.X，申请名称为“语音关键词的识别方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音关键词的识别方法、装置、计算机可读存储介质及计算机设备。

背景技术

随着语音技术的发展和交互体验的提升，用户越来越乐于通过语音与电子设备进行交互，例如通过语音控制电子设备完成指定工作。语音关键词的识别是指识别连续语音信号中是否存在预定关键词，其在电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等方面均有着广泛的应用。

传统的语音关键词识别方法，是先从待识别语音信号中提取声学特征，并将该声学特征输入至一个预先训练的深度神经网络模型中，进而基于该深度神经网络模型输出的概率和人为设定的决策逻辑，识别该语音信号中是否存在预定关键词。然而，传统方法对人为设定的决策逻辑十分敏感，通常每当应用场景或预定关键词发生改变时，都需要由人工对决策逻辑进行仔细调校，以此来适应新的应用场景，普适性不高。

发明内容

根据本申请提供的各种实施例，提供一种语音关键词的识别方法、装置、计算机可读存储介质及计算机设备。

一种语音关键词的识别方法，由用户终端或服务器执行，包括步骤：

基于待识别语音信号获得各第一语音片段；

通过预置的第一分类模型，获得与各所述第一语音片段分别对应的各第一概率；所述第一概率包括所述第一语音片段分别对应预定关键词的各预定分词单元的各概率；

基于所述待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征；

通过预置的第二分类模型，基于各所述第一预测特征进行分类，获得与各所述第二语音片段分别对应的各第二概率；所述第二概率包括所述第二语音片段对应所述预定关键词的概率和未对应所述预定关键词的概率中的至少一个；

基于所述第二概率，确定所述待识别语音信号中是否存在所述预定关键词。

一种语音关键词的识别装置，包括：

第一语音片段获取模块，用于基于待识别语音信号获得各第一语音片段；

第一概率获取模块，用于通过预置的第一分类模型，获得与各所述第一语音片段分别对应的各第一概率；所述第一概率包括所述第一语音片段分别对应预定关键词的各预定分词单元的各概率；

预测特征生成模块，用于基于所述待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征；

第二概率获取模块，用于通过预置的第二分类模型，基于各所述第一预测特征进行分类，获得与各所述第二语音片段分别对应的各第二概率；所述第二概率包括所述第二语音片段对应所述预定关键词的概率和未对应所述预定关键词的概率中的至少一个；

关键词识别模块，用于基于所述第二概率，确定所述待识别语音信号中是否存在所述预定关键词。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

基于待识别语音信号获得各第一语音片段；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

基于待识别语音信号获得各第一语音片段；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中语音关键词的识别方法的应用环境图；

图2为一个实施例中语音关键词的识别方法的流程示意图；

图3为一个实施例中CNN模型的拓扑结构示意图；

图4为一个实施例中语音关键词的识别系统的架构示意图；

图5为一个实施例中语音信号的频谱及对应的第一概率的示意图；

图6为一个实施例中基于预定决策逻辑作初步判断的流程示意图；

图7为一个实施例中在图6的基础上增加的步骤的流程示意图；

图8为一个实施例中基于预定决策逻辑作初步判断的流程示意图；

图9为一个实施例中训练第一分类模型的方法的流程示意图；

图10为一个实施例中训练第二分类模型的方法的流程示意图；

图11为另一个实施例中语音关键词的识别方法的流程示意图；

图12为一个实施例中语音关键词的识别装置的结构框图；

图13为一个实施例中计算机设备的结构框图；

图14为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请文件中使用的诸如“第一”和“第二”的术语，是用于对类似的对象作出命名上的区分，但这些对象本身不受这些术语限制。在不脱离本申请的范围的情况下，这些术语在适当的情况下可以互换。

本申请各实施例提供的语音关键词的识别方法，可应用于如图1所示的应用环境中。该应用环境可涉及用户终端110和服务器120，用户终端110 和服务器120通过网络进行通信。

具体地，用户终端110获取待识别语音信号，再通过网络将待识别语音信号发送至服务器120。服务器120基于待识别语音信号获得各第一语音片段，再通过预置的第一分类模型获得与各第一语音片段分别对应的各第一概率，第一概率包括第一语音片段分别对应预定关键词的各预定分词单元的各概率；然后，基于待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各第二语音片段的第一预测特征；进而，通过预置的第二分类模型，基于各第一预测特征进行分类，获得与各第二语音片段分别对应的各第二概率，第二概率包括该第二语音片段对应预定关键词的概率和对应预定关键词的概率中的至少一个；而后，基于第二概率确定待识别语音信号中是否存在预定关键词。

在其他实施例中，也可以由用户终端110执行从获取待识别语音信号到基于第二概率确定待识别语音信号中是否存在预定关键词的步骤，而无需服务器120参与。

其中，用户终端110可以是移动终端或者台式终端，移动终端可以包括手机、音箱、机器人、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的物理服务器，或者多个物理服务器构成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音关键词的识别方法。以该方法由计算机设备(如上图1中的用户终端110或服务器120)执行为例进行说明。该方法可以包括如下步骤S202～S210。

S202，基于待识别语音信号获得各第一语音片段。

待识别语音信号，是指需要确定其中是否存在预定关键词的语音信号。在实际应用中，通常可由用户根据实际需要发出声音信号(如用户说一句话)，计算机设备采集该声音信号，并将该声音信号转化为电信号，以获得待识别语音信号。

第一语音片段，是指与待识别语音信号中的单元帧对应的第一拼接帧序列。具体地，计算机设备获取到待识别语音信号后，先对该待识别语音信号进行分帧处理，得到各单元帧，即将该待识别语音信号切分为若干个小段，每一小段均为一帧单元帧；进而，计算机设备可基于预定的第一拼接规则，获得与各单元帧一一对应的各第一拼接帧序列，即各第一语音片段。

在一个实施例中，可以通过移动窗函数实现分帧处理，例如以窗函数的帧窗长为25ms、窗移为10ms进行分帧处理，得到的各单元帧的长度均为25ms，相邻的两帧单元帧之间具有15ms的交叠部分。

在一个实施例中，对于任一单元帧，均可基于该单元帧在待识别语音信号中的出现顺序，将出现在该单元帧之前的第一预设帧数的单元帧、该单元帧本身、以及出现在该单元帧之后的第二预设帧数的单元帧进行拼接处理，从而获得与该单元帧对应的第一语音片段。

其中，第一预设帧数和第二预设帧数可基于预置的第一分类模型所对应的预定关键词的预定分词单元的长度进行设定。例如，预定关键词为“耳朵”，且第一分类模型所对应的该预定关键词的各预定分词单元分别为“er”和“duo”。在此情况下，第一预设帧数可设为10，第二预设帧数可设为5，对于任一单元帧，可将该单元帧的前10帧、该单元帧本身、以及该单元帧的后5帧进行拼接处理，拼接得到的与该单元帧对应的第一语音片段则包含这16帧单元帧。

需要说明的是，若待识别语音信号中包括N帧单元帧，按照在待识别语音信号中的出现顺序，该N帧单元帧由前往后分别为第1帧单元帧、第2帧单元帧、第3帧单元帧、…、第N帧单元帧。对于某一帧单元帧，若位于该单元帧之前的单元帧的总数小于第一预设帧数，则可以复制多帧第1帧单元帧，以凑足第一预设帧数。例如，第一预设帧数为10，第二预设帧数为5，对于与第1帧单元帧对应的第一语音片段，该第一语音片段可以包含11帧第1帧单元帧、以及第2～6帧单元帧，共计16帧单元帧；对于与第3帧单元帧对应的第一语音片段，该第一语音片段可以包含9帧第1帧单元帧、以及第2～8帧单元帧，共计16帧单元帧。

类似地，对于某一帧单元帧，若位于该单元帧之后的单元帧的总数小于第二预设帧数，则可以复制多帧第N帧单元帧，以凑足第二预设帧数。

S204，通过预置的第一分类模型，获得与各第一语音片段分别对应的各第一概率。

第一分类模型，是预先训练的神经网络模型。可以将各第一语音片段的声学特征输入第一分类模型，再通过第一分类模型，基于各第一语音片段的声学特征对各第一语音片段进行分类处理，得到与各第一语音片段一一对应的各第一概率。其中，第一语音片段对应的第一概率可包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。第一概率可以为后验概率。

其中，第一语音片段的声学特征可包括该第一语音片段包含的各单元帧的声学特征。在一个实施例中，第一语音片段的声学特征为维度为t×f的特征向量，t表示时间帧维度，即第一语音片段所包含的单元帧的总帧数，f表示频谱维度，即各单元帧的声学特征的维度。

单元帧的声学特征，是对单元帧进行声学特征的提取处理得到。具体地，将单元帧对应的波形转换为多维向量，该多维向量可用于表征该单元帧中包含的内容信息，其可以为该单元帧的声学特征。单元帧的声学特征可包括梅尔频谱、对数梅尔频谱(对梅尔频谱进行对数运算获得)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等中的任意一种或任意多种的组合。以对单元帧提取对数梅尔频谱这一声学特征为例，可以得到与该单元帧对应的40维向量。

以各第一语音片段均包含16帧单元帧，且提取的各单元帧的声学特征均为40维对数梅尔频谱特征为例，t＝16，f＝40，即各第一语音片段的声学特征均包括维度为16×40的向量。

预定分词单元，可基于预定的分词单位对预定关键词进行分词处理获得。以预定关键词是“耳朵”，预定分词单位为拼音为例，“耳朵”这一预定关键词的各预定分词单元可分别为“er”和“duo”。相应地，对于任一第一语音片段，第一分类模型输出的与该第一语音片段对应的第一概率可包括该第一语音片段对应“er”的概率、以及该第一语音片段对应“duo”的概率。再例如，预定关键词为“小蓝精灵”，预定分词单位为拼音，则“小蓝精灵”这一预定关键词的各预定分词单元可分别为“xiao”、“lan”、“jing”和“ling”，第一分类模型输出的与该第一语音片段对应的第一概率可包括该第一语音片段对应“xiao”的概率、该第一语音片段对应“lan”的概率、该第一语音片段对应“jing”的概率、以及该第一语音片段对应“ling”的概率。

在一个实施例中，第一概率除了包括第一语音片段对应各预定分词单元的各概率之外，还可以包括第一语音片段对应第一填充信息的概率。第一填充信息是指除各预定分词单元之外的其他信息。例如，对于各预定分词单元分别为“er”和“duo”的情况，除“er”和“duo”之外的其他所有信息均为第一填充信息。再例如，对于各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”的情况，除“xiao”、“lan”、“jing”和“ling”之外的其他所有信息均为第一填充信息。

在第一概率包括第一语音片段对应各预定分词单元的各概率和对应第一填充信息的概率的情况下，对于任一第一语音片段，其对应的第一概率中包含的各概率的和可以为1。

在一个实施例中，第一分类模型可以为CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、TDNN(Time-Delay Neural Network，时延神经网络)或闸控卷积神经网络等。

以第一分类模型是CNN为例进行说明，CNN可包括卷积层、max-pooling层、全连接层和softmax层。如前文所述，第一分类模型的输入信息为第一语音片段的声学特征(即维度为t×f的特征向量)，如图3所示，可由卷积层将第一语音片段对应的维度为t×f的特征向量与维度为s×v×w的卷积核(即过滤权重矩阵)作卷积处理，获得s个特征映射图，v为各卷积核在时间帧维度的大小，v≤t；r为各卷积核在频谱维度的大小，w≤f；s为卷积核的个数，即对于该CNN，一共有s个维度为v×w的卷积核。然后，由max-pooling层分别对这s个特征映射图进行最大池化处理(即邻域内特征点取最大的处理，亦即抽样处理)，以减小时频维度的大小，获得s个降维后的特征映射图。进而，通过全连接层对s个降维后的特征映射图进行分类处理，并将全连接层的输出送入softmax层。而后，由softmax层对全连接层的输出进行归一化处理，得到该第一语音片段对应的第一概率。

在一个实施例中，出于权衡网络复杂度和系统性能的考虑，CNN可采用一层卷积层，并且将卷积核的时间帧维度的大小配置为与输入特征的时间帧维度的小相同，即v＝t＝16。此外，该CNN还可采用5个全连接层，其中，前四层包含512个隐层，最后一层包括128个隐层。

S206，基于待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各第二语音片段的第一预测特征。

第二语音片段，是指与待识别语音信号中的单元帧对应的第二拼接帧序列。与第一语音片段类似，计算机设备可基于预定的第二拼接规则，获得与各单元帧一一对应的各第二拼接帧序列，即各第二语音片段。

在一个实施例中，对于任一单元帧，均可基于该单元帧在待识别语音信号中的出现顺序，将出现在该单元帧前面的第三预设帧数的单元帧、该单元帧本身、以及出现在该单元帧后面的第四预设帧数的单元帧进行拼接处理，从而获得与该单元帧对应的第二语音片段。

其中，第三预设帧数和第四预设帧数可基于预定关键词的长度进行设定。以预定关键词为“耳朵”为例，第三预设帧数可设为40，第四预设帧数可设为20，即对于任一单元帧，均可将出现在该单元帧之前的40帧单元帧、该单元帧本身、以及出现在该单元帧之后的20帧单元帧进行拼接处理，拼接得到的与该单元帧对应的第二语音片段则包含这61帧单元帧。

需要说明的是，相较于第一语音片段，第二语音片段包含的单元帧的总帧数更多。因此相较于第一语音片段，第二语音片段包含更多的“上下文”信息。

第二语音片段的第一预测特征，可以基于与该第二语音片段对应的各第一语音片段所对应的第一概率生成。在一个实施例中，第二语音片段的第一预测特征可以包括与该第二语音片段包含的各单元帧一一对应的各第一语音片段所对应的各第一概率。例如，第二语音片段包含61帧单元帧，该第二语音片段包含的61帧单元帧中的每一帧都具有与之对应的第一语音片段，据此，该第二语音片段对应61个第一语音片段，并且，各第一语音片段均具有与之对应的第一概率，因此该第二语音片段的第一预测特征包括该第二语音片段对应的61个第一语音片段所对应的第一概率。

以第二语音片段包含61帧单元帧、预定关键词是“耳朵”、各预定分词单元分别为“er”和“duo”，且第一分类模型输出的第一概率包括第一语音片段对应“er”的概率、对应“duo”的概率、以及对应第一填充信息的概率为例。在此情况下，第二语音片段的第一预测特征可包括维度为61×3的向量。

S208，通过第二分类模型，基于各第一预测特征进行分类，获得与各第二语音片段分别对应的各第二概率。

第二分类模型，也是预先训练的神经网络模型。可以将各第二语音片段的第一预测特征输入第二分类模型，再通过第二分类模型，基于各第二语音片段的第一预测特征对各第二语音片段进行分类处理，得到与各第二语音片段一一对应的各第二概率。第二语音片段对应的第二概率可包括该第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个。与第一概率类似，第二概率也可以为后验概率。

在一个实施例中，第二概率可仅包括第二语音片段对应预定关键词的概率。以预定关键词是“耳朵”为例，第二语音片段对应的第二概率，可以包括该第二语音片段对应“er duo”的概率。再以预定关键词是“小蓝精灵”为例，第二语音片段对应的第二概率，可以包括该第二语音片段对应“xiao lan jing ling”的概率。

在另一个实施例中，第二概率可仅包括第二语音片段未对应(即不对应)预定关键词的概率。以预定关键词是“耳朵”为例，第二语音片段对应的第二概率，可以仅包括该第二语音片段对应除“er duo”以外的其他信息的概率。

在又一个实施例中，第二概率可同时包括第二语音片段对应预定关键词的概率和第二语音片段未对应预定关键词的概率。在此情况下，第二语音片段对应的第二概率中包含的各概率的和可以为1。

在一个实施例中，第二分类模型可以为CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、TDNN(Time-Delay Neural Network，时延神经网络)、闸控卷积神经网络、或基于全连接的FCDNN神经网络等。

此外，第二分类模型采用基于全连接的FCDNN神经网络时，该神经网络可以包括两个全连接层，各全连接层均包含128个结点，从而实现在保证系统性能的前提下，降低复杂度。

S210，基于第二概率确定待识别语音信号中是否存在预定关键词。

获得第二概率后，可将与各第二语音片段一一对应的各第二概率逐一地与预定概率阈值进行比较。在一个实施例中，可基于各第二语音片段对应的单元帧在待识别语音信号中的出现顺序，由前往后地将与各第二语音片段一一对应的各第二概率逐一与预定概率阈值进行比较。

在一个实施例中，将第二概率与预定概率阈值进行比较，具体可以是判断第二概率中包含的第二语音片段对应预定关键词的概率或者包含的第二语音片段未对应预定关键词的概率，是否大于相应的预定概率阈值。

以判断第二概率中包含的第二语音片段对应预定关键词的概率是否大于预定概率阈值为例，基于获得的第二概率确定待识别语音信号中是否存在预定关键词的过程如下：

若第一个第二语音片段(其对应的单元帧出现在待识别语音信号的最前面的第二语音片段)对应预定关键词的概率大于预定概率阈值，则判定该第一个第一语音片段中存在预定关键词，输出表征待识别语音信号中存在预定关键词的识别结果，并结束识别流程。相反地，若该第一个第一语音片段对应预定关键词的概率小于预定概率阈值，则判定该第一个第二语音片段中不存在预定关键词，继续比较第二个第二语音片段对应预定关键词的概率与预定的概率阈值的大小关系。以此类推，直至某一个第二语音片段对应预定关键词的概率大于预定的概率阈值时，判定该第二语音片段中存在预定关键词，输出表征待识别语音信号中存在预定关键词的识别结果，并结束识别流程。若直至最后一个第二语音片段对应预定关键词的概率仍小于预定的概率阈值，则判定该待识别语音信号中不存在预定关键词，输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。

上述语音关键词的识别方法，基于第一分类模型获得与待识别语音信号的各第一语音片段分别对应的第一概率后，无需基于人为设定的决策逻辑最终确定待识别语音信号中是否存在预定关键词，而是基于待识别语音信号获得各第二语音片段，再基于与各第二语音片段分别对应的各第一语音片段所对应的第一概率，生成各第二语音片段的预测特征，并将该预测特征输入第二分类模型，获得各第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个，进而基于第二分类模型输出的概率最终确定该待识别语音信号中是否存在该预定关键词。能够有效克服传统方法中对人为设定的决策逻辑敏感的问题，从而提高普适性。

此外，传统方案对预定的决策逻辑敏感，还限制了产品的灵活开发和快速上线，且系统泛化能力弱。相应地，上述语音关键词的识别方法还能够减少上述限制以及提高系统泛化能力。

需要说明的是，对于语音关键词识别，召回率和误识别率是评估系统性能的两个重要指标。其中，召回率用于表征正类被识别为正类正确的比例。误识别率用于表征负类被识别为正类的比例。应用于电子设备的唤醒场景时，误识别率低，意味着待识别语音信号中实际不存在预定关键词时，错误地识别到该待识别语音信号中存在预定关键词，这一现象出现的几率低。

一般来说，为使系统的召回率和误识别率达到较好的均衡，通常需要慎重地设定关键词。其中一个重要设定条件是预定关键词的长度需要足够长，并且预定关键词中包含的音节或音素需要足够丰富。例如，预定关键词中包含至少四个音节或至少五个音素，类似于“Okay Google”、“天猫精灵”、“你好小雅”、“叮咚叮咚”、“小爱同学”和“你好电视”等等。传统方案仅仅能够在预定关键词较长，且待识别语音信号的背景环境安静的情况下，达到差强人意的系统性能。

然而，本申请的各实施例中，采用第一分类模型和第二分类模型逐级进行预定关键词的识别，先获得与各第一语音片段一一对应的第一概率，再基于各第二语音片段对应的各第一语音片段所对应的第一概率，获得与各第二语音片段一一对应的第二概率。由于第二语音片段中包含了更多的“上下文”信息，能够有效地提高识别的精准性。并且，本申请各实施例中的方案不仅能很好地适用于关键词较长，且背景环境安静的情况，还能够在预定关键词较短，且待识别语音信号的背景环境为真实的远讲环境的情况下，使得系统的召回率和误识别率达到较好的均衡。

在一个实施例中，当基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词时，进入基于待识别语音信号获得各第二语音片段的步骤。

在本实施例中，如图4所示，在获得第一分类模型输出的各第一概率之后，基于待识别语音信号获得各第二语音片段之前，可先基于各第一概率和预定的决策逻辑，对待识别语音信号中是否存在预定关键词进行初步判断。在初步判定存在预定关键词时，才进入基于待识别语音信号获得各第二语音片段的步骤。相反地，初步判定不存在预定关键词时，可以直接输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。在一个实施例中，决策逻辑可基于隐马尔可夫模型(Hidden Markov Model，HMM)实现。

在本实施例中，增设初步判断的步骤，基于预定的决策逻辑初步判定存在预定关键词时，才由第二分类模型进行分类处理。一方面，能够通过双重判断提高识别的准确性。另一方面，对于不存在预定关键词的待识别语音信号，提前结束识别流程，无需再由第二分类模型进行分类处理，避免了无实际意义的操作，能够有效地优化系统性能。

此外，可通过预定的决策逻辑使系统达到较低的假阴性率(使得待识别语音信号中真实存在预定关键词时，错误地识别为不存在预定关键词的现象出现的几率低)。例如，在实际应用中，可使系统的假阴性率达到0.05以下。需要说明的是，在基于预定的决策逻辑进行初步判断的过程中，可以暂时先不考虑假阳性率，而由第二分类网络针对预定的决策逻辑的结构来优化假阳性率。

在实际应用中，当预定关键词为“耳朵”时，对于对应“er duo”的语音信号A，以及对应“ao duo”的语音信号B。经过第一分类模型对该语音信号A进行分类后，输出的各第一概率如图5中左边的坐标轴的纵坐标所示，经过第一分类模型对该语音信号B进行分类后，输出的各第一概率如图5中右边的坐标轴的纵坐标所示。此外，图5中左边的频谱图中的白线表示基于第一概率和预定的决策逻辑识别到语音信号A中预定关键词的出现位置，图5中右边的频谱图中的白线表示基于第一概率和预定的决策逻辑识别到语音信号B中预定关键词的出现位置。由此可知，仅基于第一分类模型和预定的决策逻辑进行初步识别，仍可能出现误识别(对于实际上不存在预定关键词的语音信号B，识别到该语音信号B中存在预定关键词)。但在本实施例中，经预定的决策逻辑初步判定待识别语音信号中存在预定关键词后，还基于第二分类模型作进一步识别，能够有效地减少误识别，从而提高识别的准确率。

在一个实施例中，分别检测预定关键词的各预定分词单元是否存在于待识别语音信号中，并且检测各预定分词单元在待识别语音信号中的出现顺序是否与各预定分词单元在预定关键词中的出现顺序一致。

如图6所示，在一个实施例中，基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词的方式，可以包括如下步骤S602～S608。

S602，确定当前待识别分词单元。

当前待识别分词单元，是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

以预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”为例。在一次识别过程中，第一次确定当前待识别分词单元时，“xiao”、“lan”、“jing”和“ling”均是未作为过待识别分词单元的预定分词单元，此时，将出现在最前的“xiao”确定为当前待识别分词单元。第二次确定当前待识别分词单元时，“lan”、“jing”和“ling”是未作为过待识别分词单元的预定分词单元，将出现在最前的“lan”确定为当前待识别分词单元，以此类推。

S604，确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

若待识别语音信号中包括N帧单元帧，则对应有N个第一语音片段。基于第一语音片段对应的单元帧在待识别语音信号中的出现顺序，由前往后，各第一语音片段分别为第1个第一语音片段、第2个第一语音片段、….、第N个第一语音片段。在一次识别过程中，第一次确定当前待判断语音片段时，这N个第一语音片段均未作为过待判断语音片段，则将第1个第一语音片段确定为当前待识别语音片段。第二次确定当前待判断语音片段时，第2个第一语音片段、第3个第一语音片段….第N个第一语音片段均未作为过待判断语音片段，则将出现在最前的第2个第一语音片段确定为当前待判断语音片段，以此类推。

S606，在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，返回确定当前待识别分词单元的步骤。

S608，在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元是预定关键词中出现在最后的预定分词单元时，判定待识别语音信号中存在预定关键词。

在本实施例中，确定当前待识别分词单元和当前待判断语音片段后，判断当前待判断语音片段对应当前待识别分词单元的概率是否大于预定阈值。

若大于，说明当前待识别分词单元存在于当前待判断语音片段中。此时，进一步判断当前待识别分词单元是否为预定关键词中出现在最后的预定分词单元。若否，说明目前还只检测到待识别语音信号中存在当前待识别分词单元，需要进一步检测该待识别语音信号中是否存在其他预定分词单元，因此返回确定当前待识别分词单元的步骤。若是，说明已经检测到待识别语音信号中存在预定关键词的各预定分词单元，因此可初步判定待识别语音信号中存在预定关键词。

若小于或等于，说明当前待识别分词单元不存在于当前待判断语音片段中。在一个实施例中，判定小于或等于时，可以返回确定当前待判断语音片段的步骤，以将下一个第一语音片段确定为当前待判断语音片段，继续检测当前待识别分词单元是否存在于该下一个第一语音片段中。

在本实施例中，若当前待判断语音片段为待识别语音信号中出现在最后的一帧单元帧所对应的第一语音片段，且检测到该第一语音片段中不存在预定关键词中出现在最后的预定分词单元，则可初步判定待识别语音信号中不存在预定关键词，直接输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。

需要说明的是，如前文所述，可通过预定的决策逻辑使系统达到较低的假阴性率。相应地，在本实施例中，也可通过调整预定阈值，使系统达到较低的假阴性率。

在一个实施例中，在图6所示实施例的基础上，如图7所示，语音关键词的识别方法还可以包括如下步骤S702～S704。

S702，在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，返回确定当前待判断语音片段的步骤(S604)。

S704，在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于无效状态时，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并返回确定当前待判断语音片段的步骤(S604)。

需要说明的是，对于待识别语音信号而言，可能出现如下情况：该待识别语音信号中存在各预定关键词的各预定分词单元，且各预定分词单元在该待识别语音信号中的出现顺序与该各预定分词单元在预定关键词中的出现顺序也是一致的，但在该待识别语音信号中，各预定分词单元并不能紧凑相连地构成预定关键词，而是被其他填充信息隔断。例如，预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”，然而，在待识别语音信号中，出现的不是“xiao lan jing ling”，而是“xiao peng you ai lan jing ling”，即被“peng you ai”隔断。在此情况下，待识别语音信号中实际上是不存在预定关键词的，但仍可能识别为该待识别语音信号中存在预定关键词，即出现误识别。

基于此，在本实施例中，判定当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值时，进一步判断上一次判定大于预定阈值时所对应的待识别分词是否处于有效状态。若是，则直接返回确定当前待判断语音片段的步骤。若否，则将预定关键词的各预定分词单元中出现在最前的预定分词单元确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤，例如，预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”，则将所有预定分词单元中出现在最前的“xiao”确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤。

在一个实施例中，可以通过计数值判断上一次判定大于预定阈值时所对应的待识别分词是否处于有效状态。每当判定当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，但当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，先将当前计数值设置为预定的触发初始值(该触发初始值可以为基于业务经验设定的正数，如30)，再返回确定当前待识别分词单元的步骤。

并且，每当判定当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值时，将当前计数值减去预定调整值(例如减1)，以更新当前计数值，并判断当前计数值是否大于预定的标准值(如0)。若大于，说明上一次判定大于预定阈值时所对应的待识别分词处于有效状态，因此可直接返回确定当前待判断语音片段的步骤。若小于或等于，说明上一次判定大于预定阈值时所对应的待识别分词已经处于无效状态，因此可将预定关键词的各预定分词单元中出现在最前的预定分词单元确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤。

在一个实施例中，基于待识别语音信号获得N个第一语音片段，设定第一语音片段的索引值为n，则第n个第一语音片段为在该待识别语音信号中出场顺序由前往后排在第n位的第一语音片段，n小于或等于N。并且，预定关键词包括M个预定分词单元，设定预定分词单元的索引值为m，则第m个预定分词单元为在预定关键词中出场顺序由前往后排在第m位的预定分词单元，m小于或等于M。此外，计数值为k，且假设计数值的初始触发值为30。如图8所示，在本实施例中，基于预定的决策逻辑初步判断待识别语音信号中是否存在预定关键词的步骤，可以包括如下步骤S801～S811。

S801，令n等于0，m等于1，以及k等于0。

S802，令n增加1。

S803，判断n是否大于N。若是，则跳转至步骤S804，若否，则跳转至步骤S805。

S804，初步判定待识别语音信号中不存在预定关键词，并结束流程。

S805，判断第n个第一语音片段对应第m个预定分词单元的概率是否大于预定阈值。若是，则跳转至步骤S806，若否，则跳转至步骤S808。

S806，判断m是否等于M。若否，则跳转至步骤S807，若是，则跳转至步骤S811。

S807，令k等于30，m增加1，并且返回步骤S802。

S808，令k减1。

S809，判断k是否大于0。若是，则返回步骤S802，若否，则跳转至步骤S810。

S810，令m等于1，并返回步骤S802。

S811，初步判定待识别语音信号中存在预定关键词，并结束流程。

在一个实施例中，如图9所示，确定第一分类模型的方式，可以包括如下步骤S902～S908。

S902，基于预定语料库获取样本语音信号，预定语料库包括通用语料库。

S904，基于各样本语音信号获得第三语音片段。

S906，获取各第三语音片段的第一声学特征和各第三语音片段对应的第三概率，第三概率包括该第三语音片段分别对应预定关键词的各预定分词单元的各概率。

S908，基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，确定第一分类模型。

可以理解，在通过第一分类模型进行分类处理之前，需要先基于样本数据对预定的神经网络模型进行训练，得到第一分类模型。

在传统方案中，通常只能基于专用语料库获取样本语音信号。专用语料库是指针对预定关键词专门建立的语料库，专用语料库中包括在各种不同声学条件下采集的对应预定关键词的语音信号。可以理解，对于不同的预定关键词，需要建立不同的专用语料库，并且建立专用语料库是非常耗时耗力的工作，这限制了产品的灵活开发和快速上线。

基于此，在本实施例中，可基于通用语料库获取样本语音信号，可有效减少上述限制。并且，通用语料库具备覆盖更广的声学条件、具有更大的数据规模、以及语音信号的质量更有保障的优势，因此能够高效且保持鲁棒性地实现预定关键词的识别。

可以理解，在通用语料库中，对于各语音信号均有对应的标注，该标注用于表征各相应语音信号的内容信息。在本实施例中，获得样本语音信号后，与对待识别语音信号的处理过程类似，通过分帧及拼接处理获得各第三语音片段，再基于第三语音片段包含的各样本单元帧的声学特征，获得第三语音片段的第一声学特征。但与待识别语音信号的处理有所区别的是，对样本语音信号进行处理时，还需进行帧对齐处理，通过帧对齐处理，确定样本语音信号从第多少帧样本单元帧到第多少帧样本单元帧的标注，对应于相应的预定分词单元。此外，第一声学特征与前文中的第一语音片段的声学特征类似，此处不加赘述。

在一个实施例中，可以基于通用语料库中的标注，获得各第三语音片段对应预定关键词的各预定分词单元的各概率。在另一个实施例中，也可以基于通用语料库中的标注，获得各第三语音片段对应预定关键词的各预定分词单元的各概率、以及对应第二填充信息的概率。其中，第二填充信息与前文的第一填充信息类似，此处不加赘述。

进而，基于各第三语音片段的第一声学特征和第三概率，对预定的第一神经网络模型进行训练，即确定第一神经网络模型涉及的各模型参数，从而获得第一分类模型。

在一个实施例中，在图9所示实施例的基础上，如图10所示，训练第二分类模型的方式，可以包括如下步骤S1002～S1008。

S1002，基于各样本语音信号获得第四语音片段。

S1004，分别基于与各第四语音片段对应的第三语音片段所对应的第三概率，生成各所述第四语音片段的第二预测特征；

S1006，获取与各第四语音片段分别对应的各第四概率，第四概率包括该第四语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个；

S1008，基于各第四语音片段的第二预测特征和各第四概率对预定的第二神经网络模型进行训练，确定第二分类模型。

与第一分类模型类似，在通过第二分类模型进行分类处理之前，需要先基于样本数据对预定的第二神经网络模型进行训练，得到第二分类模型。

在本实施例中，基于样本语音信号获得第四语音片段，与基于待识别语音信号获得第二语音片段的处理过程类似，此处不加赘述。此外，第四概率与前文的第二概率，除针对对象不同之外(第二概率针对第二语音片段，第四概率针对第四语音片段)，其他性质均类似，此处也不加赘述。

需要说明的是，可以以优化交叉熵为目标，并采用分布式异步梯度下降的方法来进行训练，从而确定第一神经网络模型和第二神经网络模型涉及的模型参数。

此外，进行拼接处理得到第二语音片段、第三语音片段、以及第四语音片段时，若位于某一帧单元帧之前或之后的单元帧的总数不足相应的预设帧数，则可以参照前文对进行拼接处理得到第一语音片段的描述中提到的复制处理的方式，凑足相应的预设帧数，在此不加赘述。

在一个实施例中，在生成各第二语音片段的第一预测特征之前，还可以包括步骤：获取各第二语音片段的第二声学特征。据此，第二语音片段的第一预测特征基于该第二语音片段的第二声学特征、以及与该第二语音片段对应的各第一语音片段所对应的第一概率生成。

在本实施例中，第二语音片段的第一预测特征，除了包括该第二语音片段对应的各第一语音片段所对应的第一概率之外，还可包括该第二语音片段的第二声学特征。第一预测特征中包含更多的有效特征信息，能够提高识别的准确率。此外，第二声学特征与前文中的第一语音片段的声学特征类似，此处不加赘述。

在一个实施例中，预定关键词的各预定分词单元的获取方法，可以包括如下步骤：基于预定的分词单位对预定关键词进行分词处理，获得预定关键词的各预定分词单元，其中，预定的分词单位包括下述三项中的至少一项：拼音、音素和字。

需要说明的是，前文的实施例中，均以预定的分词单位为拼音为例进行说明。但在本申请中，分词单位可基于实际需求(例如识别准确度、系统性能等)进行设定。例如，还可以以音素为预定的分词单位，或者以字为预定的分词单位。

在一个实施例中，第一分类模型包括相互级联的各子分类模型，子分类模型的级数大于或等于2。

据此，将各第一语音片段的声学特征输入预先训练的第一分类模型，获得各第一语音片段分别对应预定关键词的各预定分词单元的第一概率的步骤，可以包括：逐级将各级子分类模型对应的输入信息输入各级子分类模型，获得各级子分类模型输出的第五概率。

其中，首级子分类模型的输入信息包括与该首级子分类模型对应的各第一语音片段的声学特征，除首级子分类模型以外的各级子分类模型的输入信息均基于其上一级子分类模型输出的第五概率生成。

并且，针对任一级子分类模型，该级子分类模型输出的第五概率包括与该级子分类模型对应的各第一语音片段分别对应预定关键词的与该级子分类模型对应的预定分词单元的概率。此外，第一分类模型中的最后一级子分类模型输出的第五概率即为第一概率。

需要说明的是，各级子分类模型各自对应有第一语音信号和预定分词单元，且各级子分类模型对应的第一语音信号和预定分词单元互不相同。此外，可基于实际需求(如系统复杂度以及系统性能的要求)，设定第一分类模型中包含的子分类模型的级数。

以预定关键词为“小蓝精灵”，预定分词单元为拼音为例，对预定关键词进行分词处理，可获得如下三组预定分词单元：第一组包括的各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”。第二组包括的各预定分词单元分别为“xiao lan”、“lan jing”和“jing ling”。第三组包括的各预定分词单元分别为“xiao lan jing”和“lan jing ling”。

在此情况下，第一分类模型包括的子分类模型的级数可以为3。相应地，第一级分类子模型对应的各预定分词单元为第一组包括的各预定分词单元，第二级分类子模型对应的各预定分词单元为第二组包括的各预定分词单元，第三级分类子模型对应的各预定分词单元为第三组包括的各预定分词单元。

此外，为便于描述，下文将第一级、第二级以及第三级子分类模型各自对应的第一语音片段，分别称之为一级第一语音片段、二级第一语音片段、三级第一语音片段。

基于此，在本实施例中，先将一级第一语音片段的声学特征输入第一级子分类模型，通过第一级子分类模型，基于一级第一语音片段的声学特征进行分类，并输出的一级第一语音片段分别对应“xiao”、“lan”、“jing”和“ling”的概率。

然后，基于第一级子分类模型输出的概率生成二级第一语音片段的第三预测特征。再将各第三预测特征输入第二级子分类模型，通过第二级子分类模型，基于各第三预测特征进行分类，并输出二级第一语音片段分别对应“xiao lan”、“lan jing”和“jing ling”的概率。

进一步地，基于第二级子分类模型输出的概率生成三级第一语音片段的第四预测特征。再将各第四预测特征输入第三级子分类模型，通过第三级子分类模型，基于各第四预测特征进行分类，并输出三级第一语音片段分别对应“xiao lan jing”和“lan jing ling”的概率，第三级子分类模型输出的概率即为第一分类模型输出的第一概率。进而，基于与各第二语音片段对应的各第一语音片段的第一概率，分别生成各第二语音片段的第一预测特征，再将各第一预测特征输入第二分类模型，以及执行相应的后续步骤。

在一个实施例中，如图11所示，语音关键词的识别方法可包括如下步骤S1101～S1111。

S1101，基于待识别语音信号获得各第一语音片段，并通过预置的第一分类模型，获得与各所述第一语音片段分别对应的各第一概率；所述第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

S1102，确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

S1103，确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

S1104，判断当前待判断语音片段对应当前待识别分词单元的概率是否大于预定阈值；若是，则跳转至S1105，若否，则跳转至S1107。

S1105，判断当前待识别分词单元是否是预定关键词中出现在最后的预定分词单元；若否，则返回S1102，若是，则跳转至S1106。

S1106，初步判定待识别语音信号中存在预定关键词，并跳转至S1109。

S1107，判断上一次判定大于预定阈值时所对应的待识别分词单元是否处于有效状态；若是，则返回S1103，若否，则跳转至S1108。

S1108，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并返回S1103。

S1109，分别基于与各第二语音片段对应的第一语音片段所对应的第一概率，生成各第二语音片段的第一预测特征。

S1110，将各第一预测特征输入预置的第二分类模型，通过预置的第二分类模型，基于各第一预测特征进行分类，获得与各第二语音片段分别对应的各第二概率；第二概率包括该第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个。

S1111，基于第二概率，确定待识别语音信号中是否存在预定关键词。

需要说明的是，本实施例中的各步骤的技术特征可与上文的各实施例中的对应步骤的技术特征相同，此处不加赘述。

在合理条件下应当理解，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请各实施例提供的语音关键词的识别方法，可应用于电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等场景。此外，该识别方法可用作自动语音识别系统中一个重要的前端处理模块，能够极大地节省自动语音识别系统的资源占用和消耗，提升用户体验。更具体地，可应用于智能音箱、AI Lab(人工智能实验室)的语音识别以及智能语音助手等。

在一个实施例中，如图12所示，提供了一种语音关键词的识别装置1200，可以包括如下模块1202～1210。

第一语音片段获取模块1202，用于基于待识别语音信号获得各第一语音片段。

第一概率获取模块1204，用于通过预置的第一分类模型，获得与各第一语音片段分别对应的各第一概率；第一语音片段的第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

预测特征生成模块1206，用于基于待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各第二语音片段的第一预测特征。

第二概率获取模块1208，用于通过第二分类模型，基于各第一预测特征进行分类，获得与各第二语音片段分别对应的各第二概率；第二语音片段对应的第二概率包括该第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个。

关键词识别模块1210，用于基于第二概率确定待识别语音信号中是否存在预定关键词。

上述语音关键词的识别装置，基于第一分类模型获得与待识别语音信号的各第一语音片段分别对应的第一概率后，无需基于人为设定的决策逻辑最终确定待识别语音信号中是否存在预定关键词，而是基于待识别语音信号获得各第二语音片段，再基于与各第二语音片段一一对应的各第一语音片段所对应的第一概率，生成各第二语音片段的预测特征，并将该预测特征输入第二分类模型，获得各第二语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个，进而基于第二分类模型输出的概率最终确定该待识别语音信号中是否存在该预定关键词。能够有效克服传统方法中对人为设定的决策逻辑敏感的问题，从而提高普适性。

在一个实施例中，装置1200还可以包括初步识别模块。该初步识别模块，用于在基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词时，调用预测特征生成模块。

在一个实施例中，初步识别模块还可以包括当前分词确定单元、当前片段识别单元、第一返回单元和初步判定单元。

其中，当前分词确定单元，用于确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

当前片段识别单元，用于确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

第一调用单元，用于在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，调用所述当前分词确定单元。

初步判定单元，用于在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元是预定关键词中出现在最后的预定分词单元时，判定待识别语音信号中存在预定关键词。

在一个实施例中，初步识别模块还可以包括第二调用单元和分词重置单元。

其中，第二调用单元，用于在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，调用所述当前片段识别单元；

分词重置单元，用于在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于无效状态时，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并调用所述当前片段识别单元。

在一个实施例中，装置1200还可以包括样本数据获取模块、第一片段获取模块、第一样本特征获取模块和第一模型训练模块。

其中，样本数据获取模块，用于基于预定语料库获取样本语音信号，预定语料库包括通用语料库；

第一片段获取模块，用于基于各样本语音信号获得第三语音片段；

第一样本特征获取模块，用于获取各第三语音片段的第一声学特征和与各第三语音片段分别对应的各第三概率；第三语音片段的第三概率包括该第三语音片段分别对应预定关键词的各预定分词单元的各概率；

第一模型训练模块，用于基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，确定第一分类模型。

在一个实施例中，装置1200还可以包括第二片段获取模块、第二样本特征获取模块、样本概率获取模块和第二模型训练模块。

其中，第二片段获取模块，用于基于各样本语音信号获得第四语音片段；

第二样本特征获取模块，用于分别基于与各第四语音片段对应的第三语音片段所对应的第三概率，生成各第四语音片段的第二预测特征；

样本概率获取模块，用于获取与各第四语音片段分别对应的各第四概率，第四概率包括该第四语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个；

第二模型训练模块，用于基于各第四语音片段的第二预测特征和各第四概率对预定的第二神经网络模型进行训练，确定第二分类模型。

在一个实施例中，装置1200还包括：声学特征获取模块，获取各第二语音片段的第二声学特征。据此，第二样本特征获取模块用于分别基于各第二语音片段的第二声学特征、以及与各第二语音片段对应的第一语音片段所对应的第一概率，生成各第二语音片段的第一预测特征。

在一个实施例中，装置1200还可以包括分词处理模块。该分词处理模块，用于基于预定的分词单位对预定关键词进行分词处理，获得预定关键词的各预定分词单元，预定的分词单位包括下述三项中的至少一项：拼音、音素和字。

在一个实施例中，提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请任一实施例提供的语音关键词的识别方法的步骤。

在一个实施例中，该计算机设备可以是图1中的用户终端110，其内部结构可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和声音采集装置。其中，处理器用于提供计算和控制能力。存储器包括非易失性存储介质和内存储器，该计算机设备的非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时，可使得处理器实现本申请各实施例提供的语音关键词的识别方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。网络接口用于与外部的终端通过网络连接通信。显示屏可以是液晶显示屏或者电子墨水显示屏。输入装置可以为显示屏上覆盖的触摸层、或者计算机设备外壳上设置的按键、轨迹球或触控板、或者外接的键盘、触控板或鼠标。

在另一个实施例中，该计算机设备可以是图1中示出的服务器120，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，该计算机程序被处理器执行时以实现本申请任一实施例提供的语音关键词的识别方法。该网络接口用于与外部的终端通过网络连接通信。

本领域技术人员可以理解，图13和图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图13中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音关键词的识别装置可以实现为一种计算机程序的形式，计算机程序可在如图13或图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该装置的各个程序模块，比如，图12所示的第一概率获取模块1202、预测特征生成模块1204、第二概率获取模块1206和关键词识别模块1208。各个程序模块构成的计算机程序使得处理器执行本申请任一实施例提供的语音关键词的识别方法中的步骤。

例如，图13或图14所示的计算机设备，可以通过如图12所示的语音关键词的识别装置1200中的第一概率获取模块1202执行步骤S202、通过预测特征生成模块1204执行步骤S204等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中，提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请任一实施例方法的步骤。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音关键词的识别方法，由用户终端或服务器执行，包括步骤：

基于待识别语音信号获得各第一语音片段；

通过预置的第一分类模型，获得与各所述第一语音片段分别对应的各第一概率；所述第一概率包括所述第一语音片段分别对应预定关键词的各预定分词单元的各概率；

基于所述待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征；

通过预置的第二分类模型，基于各所述第一预测特征进行分类，获得与各所述第二语音片段分别对应的各第二概率；所述第二概率包括所述第二语音片段对应所述预定关键词的概率和未对应所述预定关键词的概率中的至少一个；

基于所述第二概率，确定所述待识别语音信号中是否存在所述预定关键词。
根据权利要求1所述的方法，其特征在于，当基于各所述第一概率和预定的决策逻辑判定所述待识别语音信号中存在所述预定关键词时，进入所述基于所述待识别语音信号获得各第二语音片段的步骤。
根据权利要求2所述的方法，其特征在于，基于各所述第一概率和预定的决策逻辑判定所述待识别语音信号中存在所述预定关键词的方式，包括：

确定当前待识别分词单元；所述当前待识别分词单元是基于各所述预定分词单元在所述预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元；

确定当前待判断语音片段；所述当前待判断语音片段是基于各所述第一语音片段在所述待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段；

在所述当前待判断语音片段对应所述当前待识别分词单元的概率大于预定阈值，且所述当前待识别分词单元不是所述预定关键词中出现在最后的所述预定分词单元时，返回所述确定当前待识别分词单元的步骤；

在所述当前待判断语音片段对应所述当前待识别分词单元的概率大于所述预定阈值，且所述当前待识别分词单元是所述预定关键词中出现在最后的所述预定分词单元时，判定所述待识别语音信号中存在所述预定关键词。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述当前待判断语音片段对应所述当前待识别分词单元的概率小于或等于所述预定阈值，且上一次判定大于所述预定阈值时所对应的待识别分词单元处于有效状态时，返回所述确定当前待判断语音片段的步骤；

在所述当前待判断语音片段对应所述当前待识别分词单元的概率小于或等于所述预定阈值，且上一次判定大于所述预定阈值时所对应的待识别分词单元处于无效状态时，将所述预定关键词的各所述预定分词中出现在最前的所述预定分词单元确定为当前待识别分词单元，并返回所述确定当前待判断语音片段的步骤。
根据权利要求1所述的方法，其特征在于，确定所述第一分类模型的方式，包括：

基于预定语料库获取样本语音信号，所述预定语料库包括通用语料库；

基于各所述样本语音信号获得第三语音片段；

获取各所述第三语音片段的第一声学特征和与各所述第三语音片段分别对应的各第三概率；所述第三概率包括所述第三语音片段分别对应所述预定关键词的各预定分词单元的各概率；

基于各所述第三语音片段的第一声学特征和各所述第三概率对预定的第一神经网络模型进行训练，确定所述第一分类模型。
根据权利要求5所述的方法，其特征在于，确定所述第二分类模型的方式，包括：

基于各所述样本语音信号获得第四语音片段；

分别基于与各第四语音片段对应的第三语音片段所对应的第三概率，生成各所述第四语音片段的第二预测特征；

获取与各所述第四语音片段分别对应的各第四概率；所述第四概率包括该第四语音片段对应所述预定关键词的概率和未对应所述预定关键词的概率中的至少一个；

基于各所述第四语音片段的第二预测特征和各所述第四概率对预定的第二神经网络模型进行训练，确定第二分类模型。
根据权利要求1所述的方法，其特征在于，在所述分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征之前，还包括：

获取各所述第二语音片段的第二声学特征；

所述分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征，包括：

分别基于各所述第二语音片段的第二声学特征、以及与各第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征。
根据权利要求1所述的方法，其特征在于，获取所述预定关键词的各预定分词单元的方式，包括：

基于预定的分词单位对所述预定关键词进行分词处理，获得所述预定关键词的各预定分词单元；所述预定的分词单位包括拼音、音素及字中的至少一项。
根据权利要求1至8任一项所述的方法，其特征在于，所述第一分类模型包括相互级联的各子分类模型，所述子分类模型的级数大于或等于2。
一种语音关键词的识别装置，包括：

第一语音片段获取模块，用于基于待识别语音信号获得各第一语音片段；

第一概率获取模块，用于通过预置的第一分类模型，获得与各所述第一语音片段分别对应的各第一概率；所述第一概率包括所述第一语音片段分别对应预定关键词的各预定分词单元的各概率；

预测特征生成模块，用于基于所述待识别语音信号获得各第二语音片段，分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征；

第二概率获取模块，用于通过预置的第二分类模型，基于各所述第一预测特征进行分类，获得与各所述第二语音片段分别对应的各第二概率；所述第二概率包括所述第二语音片段对应所述预定关键词的概率和未对应所述预定关键词的概率中的至少一个；

关键词识别模块，用于基于所述第二概率，确定所述待识别语音信号中是否存在所述预定关键词。
根据权利要求10所述的装置，其特征在于，还包括：

初步识别模块，用于在基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词时，调用所述预测特征生成模块。
根据权利要求11所述的装置，其特征在于，所述初步识别模块包括：

当前分词确定单元，用于确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元；

当前片段识别单元，用于确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段；

第一调用单元，用于在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，调用所述当前分词确定单元；

初步判定单元，用于在当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元是预定关键词中出现在最后的预定分词单元时，判定待识别语音信号中存在预定关键词。
根据权利要求12所述的装置，其特征在于，所述初步识别模块包括：

第二调用单元，用于在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，调用所述当前片段识别单元；

分词重置单元，用于在当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于无效状态时，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并调用所述当前片段识别单元。
根据权利要求10所述的装置，其特征在于，还包括：

样本数据获取模块，用于基于预定语料库获取样本语音信号，预定语料库包括通用语料库；

第一片段获取模块，用于基于各样本语音信号获得第三语音片段；

第一样本特征获取模块，用于获取各第三语音片段的第一声学特征和与各第三语音片段分别对应的各第三概率；第三概率包括所述第三语音片段分别对应预定关键词的各预定分词单元的各概率；

第一模型训练模块，用于基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，确定第一分类模型。
根据权利要求14所述的装置，其特征在于，还包括：

第二片段获取模块，用于基于各样本语音信号获得第四语音片段；

第二样本特征获取模块，用于分别基于与各第四语音片段对应的第三语音片段所对应的第三概率，生成各第四语音片段的第二预测特征；

样本概率获取模块，用于获取与各第四语音片段分别对应的各第四概率，第四概率包括该第四语音片段对应预定关键词的概率和未对应预定关键词的概率中的至少一个；

第二模型训练模块，用于基于各第四语音片段的第二预测特征和各第四概率对预定的第二神经网络模型进行训练，确定第二分类模型。
根据权利要求10所述的装置，其特征在于，还包括：

声学特征获取模块，获取各第二语音片段的第二声学特征；

所述第二样本特征获取模块，用于分别基于各所述第二语音片段的第二声学特征、以及与各第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征。
根据权利要求10所述的装置，其特征在于，还包括：

分词处理模块，用于基于预定的分词单位对预定关键词进行分词处理，获得预定关键词的各预定分词单元；预定的分词单位包括拼音、音素及字中的至少一项。
根据权利要求10至17任一项所述的装置，其特征在于，第一分类模型包括相互级联的各子分类模型，子分类模型的级数大于或等于2。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9任一项所述方法的步骤。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9任一项所述方法的步骤。