WO2022121188A1

WO2022121188A1 - 关键词检测方法、装置、设备和存储介质

Info

Publication number: WO2022121188A1
Application number: PCT/CN2021/084545
Authority: WO
Inventors: 刘博卿; 王健宗; 张之勇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-11
Filing date: 2021-03-31
Publication date: 2022-06-16
Also published as: CN112634870A; CN112634870B

Abstract

一种关键词检测方法，该方法包括：获取当前用户输入的待检测语音语句（S1）；提取待检测语音语句对应的语音特征参数（S2）；将语音特征参数输入关键词检测网络（S3）；判断第一全连接层输出的第一概率是否高于预设概率阈值（S4）；若是，根据第二全连接层输出的第二概率，确定待检测语音语句的关键词（S5）。该方法通过设定两个不同损失函数分别约束不同全连接层对应的任务通道，实现了多任务在同一个网络模型中运行，共享计算，达到了对设备内存要求低、降低计算时间和电池耗电量的效果。

Description

关键词检测方法、装置、设备和存储介质

本申请要求于2020年12月11日提交中国专利局、申请号为202011462771.4，发明名称为“关键词检测方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的神经网络领域。

背景技术

随着人工智能技术的发展，越来越多的智能设备上配置智能语音助手功能，实现用户和机器的语音对话。发明人发现，目前的语音智能助手仅为关键词检测系统，满足任何用户与机器的对话，无需对用户身份特征进行识别。即便是有特殊要求进行用户身份识别的系统，也多通过另外训练一模型，比如声纹识别模型，即关键词检测和说话人识别任务需分别进行建模处理，增大了模型计算量和反馈延迟，且不适合同时部署于小型的智能设备上。

技术问题

现有关键词检测和说话人识别任务不能通过一个模型实现，导致计算量大、反馈延迟的技术问题。

技术解决方案

本申请的第一方面，提出一种关键词检测方法，关键词检测网络包括并行连接的第一全连接层和第二全连接层，方法包括：

获取当前用户输入的待检测语音语句；

提取所述待检测语音语句对应的语音特征参数；

将所述语音特征参数输入所述关键词检测网络；

判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

本申请的第二方面提供了一种关键词检测装置，所述装置部署关键词检测网络，所述关键词检测网络包括并行连接的第一全连接层和第二全连接层，装置包括：

第一获取模块，用于获取当前用户输入的待检测语音语句；

提取模块，用于提取所述待检测语音语句对应的语音特征参数；

第一输入模块，用于将所述语音特征参数输入所述关键词检测网络；

第一判断模块，用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

确定模块，用于若高于预设概率阈值，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

本申请的第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述关键词检测方法的步骤，关键词检测网络包括并行连接的第一全连接层和第二全连接层，所述方法包括：获取当前用户输入的待检测语音语句；提取所述待检测语音语句对应的语音特征参数；将所述语音特征参数输入所述关键词检测网络；判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述关键词检测方法的步骤，，关键词检测网络包括并行连接的第一全连接层和第二全连接层，所述方法包括：获取当前用户输入的待检测语音语句；提取所述待检测语音语句对应的语音特征参数；将所述语音特征参数输入所述关键词检测网络；判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

有益效果

本申请通过设定两个不同损失函数分别约束不同全连接层对应的任务通道，实现多任务在同一个网络模型中运行，共享计算，从而达到对设备内存要求低、降低计算时间和电池耗电量的效果，满足降低模型计算量和反馈延迟，满足嵌入设备对模型参数量小的要求，适合部署于小型的智能设备上。

附图说明

图1本申请一实施例的关键词检测方法流程示意图；

图2本申请一实施例的关键词检测装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的关键词检测方法，关键词检测网络包括并行连接的第一全连接层和第二全连接层，方法包括：

S1：获取当前用户输入的待检测语音语句；

S2：提取所述待检测语音语句对应的语音特征参数；

S3：将所述语音特征参数输入所述关键词检测网络；

S4：判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

S5：若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

本申请实施例的关键词检测网络包括依次连接的特征输入层、多层残差结构、卷积层、批标准化层、平均池化层以及并列连接于平均池化层之后的第一全连接层和第二全连接层。上述待检测语音语句经过预加重、分帧、加窗等操作，提取待检测语音语句的MFCC(Mel-frequency Cepstrum Coefficients，梅尔频率倒谱系数)作为语音特征参数。上述的MFCC为40维，帧移10ms，帧长30ms，使用汉明窗加窗分帧，以平滑各帧的边缘信号。上述的多层残差层包括6层，每个残差层中包括两个依次连接的数据处理单元，每个数据处理单元中依次由卷积层连接批标准化层组成，其中卷积层的卷积核为3*3，卷积核个数为45。残差层中军基层使用空洞卷积，以增大感受野，扩张率为

因为有6个残差层，每个残差层有两个卷积层，一共12个卷积层，所以l的取值有12个，连在最后一个残差层之后的卷积层的扩张率设置为(16,16)。

本申请通过在平均池化层之后并列连接第一全连接层和第二全连接层，实现两个任务处理通道，第一全连接层对应的第一通道用于第一任务，本申请中通过设定第一通道中的损失函数为sigmoid函数，实现对当前用户是否为目标用户的身份识别；通过设定第二通道中的损失函数为softmax函数，实现对关键词的识别。本申请基于同一套训练数据以及相同的特征处理过程，通过并列连接由两个不同损失函数约束的任务通道，通过设计合理的训练逻辑，控制同时执行两个任务的网络模型的参数小幅增长，达到两个任务可共享计算，两个任务在同一个网络模型中实现。

进一步地，所述判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤S4，包括：

S41：根据指定计算方式计算所述当前用户为目标用户的概率，其中，所述指定计算方式为P(S _u|X)＝1-P(S _e|X)，P(S _u|X)表示所述当前用户为所述目标用户的概率，P(S _e|X)表示所述当前用户不是所述目标用户的概率；

S42：将所述当前用户为所述目标用户的概率P(S _u|X)，作为所述第一概率；

S43：判断所述P(S _u|X)是否高于预设概率阈值；

S44：若是，则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。

本申请实施例为了使关键词检测网络中的深度残差层不仅可以做关键词检测的任务，还可以检测是否是目标用户对应的关键词，额外并列设计了由第一全连接层输出的任务通道，并设定该任务通道的损失函数为sigmoid函数，从而得到条件概率P(S _u|X)＝1-P(S _e|X)，P(S _u|X)表示当前用户为目标用户的概率，P(S _e|X)表示当前用户不是目标用户的概率，负责特征计算的网络部分，包括特征输入层、多层残差结构、卷积层、批标准化层和平均池化层，与关键词识别任务共享参数，减少计算量和内存。上述sigmoid函数输出概率取值为0到1的一个概率值，只有当P(S _u|X)高于预设概率阈值的时候，才会被认为是目标用户启动了关键词检测。上述预设概率阈值比如为0.9或以上。

进一步地，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤S1之前，包括：

S11：将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

S12：实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

S13：根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

S14：判断所述总损失函数是否达到预设条件；

S15：若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。

本申请实施例的关键词检测网络为多任务模型，为达到各任务均有较好的预测准确率，在训练过程中通过将两个任务分别对应的损失函数通过设置权重的方式组成总损失函数，约束多任务模型在训练过程中的参数调整。在训练中，为加快总损失函数的收敛，设计了动态调整两个损失权重，以平衡两个任务的训练学习水平，使多任务模型最终学习到的参数对两个任务均有较好的识别准确度。

本申请实施例中将关键词检测任务和目标说话人检测任务分别标记为T ₁和T ₂，令T＝{T ₁,T ₂}为所有任务的集合，令λ _j(i)和L _j(i)分别为在训练第i轮时第j个任务的损失权重和损失函数，则第i轮训练时的总损失函数为：

其中|T|代表集合里一共有多少个元素，有多少个元素代表多少个任务。上述预设条件包括各任务的训练精准度达到预设要求，或关键词识别任务和目标说话人检测任务的准确率，不会因彼此的共存而受较大影响。实现证明，当

时，当个任务均可精准地执行，且减少计算量。上述

时，表示总权重和等于总任务数量2时，各任务分别对应的损失权重均为1。

本申请实施例为提高训练效果，对训练数据进行了数据增广，从而提高关键词检测网络的鲁棒性，数据增广包括但不限于随机的对训练数据进行时间平移、对训练数据进行随机加噪、每轮训练有部分训练数据会重新生成等。

进一步地，所述实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值的步骤S12，包括：

S121：获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；

S122：根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。

本申请实施例中，两个任务同时在一个模型架构上训练，模型架构的参数调整，同时受两个任务分别对应的损失函数的约束。通过实时获取两个任务过程中两个函数的函数值，来确定优先以那个函数约束训练为准。损失函数值表示预测值与真实值之间的差距，从而通过反向传播约束模型架构的参数调整。

进一步地，所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤S13，包括：

S131：计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；

S132：判断所述差值是否大于零；

S133：若是，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。

本申请实施例中，损失函数值大的任务，认为距离训练目标远，不容易训练，则会加大该任务的损失函数在总损失函数中的损失权重，使当前关键词检测网络的模型架构的参数更偏向于该任务。某一任务的训练准确率越高，其对应的损失权重就越低。通过逐步调整总损失函数的台阶式递进方式，获取最终两个任务均能较好执行的参数。

进一步地，所述判断所述总损失函数是否达到预设条件的步骤S14之前，包括：

S141：获取当前时刻对应的第一任务的第一训练准确度，以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度；

S142：根据所述第一训练准确度和所述第二训练准确度，计算所述第一任务当前时刻对应的平均训练精准度；

S143：根据所述平均训练精准度，根据指定函数计算所述第一任务的损失权重，其中，所述指定函数为λ _j(i)＝-(1-k _j(i))log(k _j(i))，k _j(i)表示训练第i轮时第j个任务的平均训练精准度；

S144：根据所述第一任务的损失权重的计算方式，计算所述第二任务的损失权重；

S145：根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数，得到所述总损失函数。

本申请实施例中，每个损失函数的损失权重跟各自任务的训练准确率相关，损失权重表示为λ _j(i)＝-(1-k _j(i))log(k _j(i))，其中k _j(i)是通过滑动平均得到的平均训练准确率。上述的滑动平均指当前时刻的训练准确率等于当前时刻的训练准确率和上一时刻的训练准确率做加权平均，比如为X(t)＝alpha*X(t-1)+(1-alpha)*X(t)，其中，X(t)表示当前时刻的训练准确率，X(t-1)表示当前时刻的上一时刻的训练准确率，alpha表示加权权重。

本申请实施例为方便调控第一损失函数和第二损失函数的损失权重的调控幅度，对上述两个由各自训练准确率得到的损失权重进行了归一化处理，使总损失函数中两个损失函数的损失权重的加和等于任务总数量，即使得

成立。本申请实施例中，即使两个损失函数的损失权重的加和等于2。

进一步地，接收所述待检测语音语句的终端为智能设备，所述根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词的步骤S5之后，包括：

S6：获取所述关键词对应的操控指令信息，其中，所述操控指令信息包括所述操控指令的运行链接；

S7：根据所述运行链接在所述智能设备上运行所述操控指令，得到运行结果；

S8：将所述运行结果反馈至所述智能设备的显示终端。

本申请实施例以将关键词检测网络部署于智能设备，识别特定人的语音指令为例，上述智能设备包括但不限于智能手机、智能音响、智能电脑、智能扫地机等小型的人工交互设备。通过同时识别目标人身份以及目标人发起的语音指令中的关键词，实现只对特定人关键词识别以及指令指示的实现。

参照图2，本申请一实施例的关键词检测装置，所述装置部署关键词检测网络，所述关键词检测网络包括并行连接的第一全连接层和第二全连接层，装置包括：

第一获取模块1，用于获取当前用户输入的待检测语音语句；

提取模块2，用于提取所述待检测语音语句对应的语音特征参数；

第一输入模块3，用于将所述语音特征参数输入所述关键词检测网络；

第一判断模块4，用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

确定模块5，用于若高于预设概率阈值，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

本申请装置实施例的解释，适用方法对应部分的解释，不赘述。

进一步地，判断模块4，包括：

第一计算单元，用于根据指定计算方式计算所述当前用户为目标用户的概率，其中，所述指定计算方式为P(S _u|X)＝1-P(S _e|X)，P(S _u|X)表示所述当前用户为所述目标用户的概率，P(S _e|X)表示所述当前用户不是所述目标用户的概率；

作为单元，用于将所述当前用户为所述目标用户的概率P(S _u|X)，作为所述第一概率；

第一判断单元，用于判断所述P(S _u|X)是否高于预设概率阈值；

判定单元，用于若高于预设概率阈值，则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。

进一步地，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，关键词检测装置，包括：

第二输入模块，用于将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

第二获取模块，用于实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

调整模块，用于根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

第二判断模块，用于判断所述总损失函数是否达到预设条件；

判定模块，用于若达到预设条件，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。

进一步地，第二获取模块，包括：

获取单元，用于获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；

第二计算单元，用于根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。

进一步地，调整模块，包括：

第三计算单元，用于计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；

第二判断单元，用于判断所述差值是否大于零；

增大单元，用于若大于零，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。

进一步地，关键词检测装置，包括：

第三获取模块，用于获取当前时刻对应的第一任务的第一训练准确度，以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度；

第一计算模块，用于根据所述第一训练准确度和所述第二训练准确度，计算所述第一任务当前时刻对应的平均训练精准度；

第二计算模块，用于根据所述平均训练精准度，根据指定函数计算所述第一任务的损失权重，其中，所述指定函数为λ _j(i)＝-(1-k _j(i))log(k _j(i))，k _j(i)表示训练第i轮时第j个任务的平均训练精准度；

第三计算模块，用于根据所述第一任务的损失权重的计算方式，计算所述第二任务的损失权重；

得到模块，用于根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数，得到所述总损失函数。

进一步地，接收所述待检测语音语句的终端为智能设备，关键词检测装置，包括：

第四获取模块，用于获取所述关键词对应的操控指令信息，其中，所述操控指令信息包括所述操控指令的运行链接；

运行模块，用于根据所述运行链接在所述智能设备上运行所述操控指令，得到运行结果；

反馈模块，用于将所述运行结果反馈至所述智能设备的显示终端。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关键词检测过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现关键词检测方法。

上述处理器执行上述关键词检测方法，关键词检测网络包括并行连接的第一全连接层和第二全连接层，方法包括：获取当前用户输入的待检测语音语句；提取所述待检测语音语句对应的语音特征参数；将所述语音特征参数输入所述关键词检测网络；判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

上述计算机设备，通过设定两个不同损失函数分别约束不同全连接层对应的任务通道，实现多任务在同一个网络模型中运行，共享计算，从而达到对设备内存要求低、降低计算时间和电池耗电量的效果，满足降低模型计算量和反馈延迟，满足嵌入设备对模型参数量小的要求，适合部署于小型的智能设备上。

在一个实施例中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，上述处理器获取当前用户输入的待检测语音语句的步骤之前，包括：将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；判断所述总损失函数是否达到预设条件；若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。

在一个实施例中，上述处理器实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值的步骤，包括：获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。

在一个实施例中，上述处理器根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤，包括：计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；判断所述差值是否大于零；若是，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。

在一个实施例中，上述处理器判断所述总损失函数是否达到预设条件的步骤之前，包括：获取当前时刻对应的第一任务的第一训练准确度，以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度；根据所述第一训练准确度和所述第二训练准确度，计算所述第一任务当前时刻对应的平均训练精准度；根据所述平均训练精准度，根据指定函数计算所述第一任务的损失权重，其中，所述指定函数为λ _j(i)＝-(1-k _j(i))log(k _j(i))，k _j(i)表示训练第i轮时第j个任务的平均训练精准度；根据所述第一任务的损失权重的计算方式，计算所述第二任务的损失权重；根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数，得到所述总损失函数。

在一个实施例中，接收所述待检测语音语句的终端为智能设备，上述处理器根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词的步骤之后，包括：获取所述关键词对应的操控指令信息，其中，所述操控指令信息包括所述操控指令的运行链接；根据所述运行链接在所述智能设备上运行所述操控指令，得到运行结果；将所述运行结果反馈至所述智能设备的显示终端。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现关键词检测方法，关键词检测网络包括并行连接的第一全连接层和第二全连接层，方法包括：获取当前用户输入的待检测语音语句；提取所述待检测语音语句对应的语音特征参数；将所述语音特征参数输入所述关键词检测网络；判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。

上述计算机可读存储介质，通过设定两个不同损失函数分别约束不同全连接层对应的任务通道，实现多任务在同一个网络模型中运行，共享计算，从而达到对设备内存要求低、降低计算时间和电池耗电量的效果，满足降低模型计算量和反馈延迟，满足嵌入设备对模型参数量小的要求，适合部署于小型的智能设备上。

在一个实施例中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，上述处理器获取当前用户输入的待检测语音语句的步骤之前，包括：将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；判断所述总损失函数是否达到预设条件；若是，则判定完成对所述关键词检测网络的训练，并固定关键词检测网络的参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种关键词检测方法，其中，关键词检测网络包括并行连接的第一全连接层和第二全连接层，方法包括：

获取当前用户输入的待检测语音语句；

提取所述待检测语音语句对应的语音特征参数；

将所述语音特征参数输入所述关键词检测网络；

判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。
根据权利要求1所述的关键词检测方法，其中，所述判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤，包括：

根据指定计算方式计算所述当前用户为目标用户的概率，其中，所述指定计算方式为P(S _u|X)＝1-P(S _e|X)，P(S _u|X)表示所述当前用户为所述目标用户的概率，P(S _e|X)表示所述当前用户不是所述目标用户的概率；

将所述当前用户为所述目标用户的概率P(S _u|X)，作为所述第一概率；

判断所述P(S _u|X)是否高于预设概率阈值；

若是，则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
根据权利要求1所述的关键词检测方法，其中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤之前，包括：

将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

判断所述总损失函数是否达到预设条件；

若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。
根据权利要求3所述的关键词检测方法，其中，所述实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值的步骤，包括：

获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；

根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。
根据权利要求3所述的关键词检测方法，其中，所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤，包括：

计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；

判断所述差值是否大于零；

若是，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。
根据权利要求5所述的关键词检测方法，其中，所述判断所述总损失函数是否达到预设条件的步骤之前，包括：

获取当前时刻对应的第一任务的第一训练准确度，以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度；

根据所述第一训练准确度和所述第二训练准确度，计算所述第一任务当前时刻对应的平均训练精准度；

根据所述平均训练精准度，根据指定函数计算所述第一任务的损失权重，其中，所述指定函数为λ _j(i)＝-(1-k _j(i))log(k _j(i))，k _j(i)表示训练第i轮时第j个任务的平均训练精准度；

根据所述第一任务的损失权重的计算方式，计算所述第二任务的损失权重；

根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数，得到所述总损失函数。
根据权利要求1所述的关键词检测方法，其中，接收所述待检测语音语句的终端为智能设备，所述根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词的步骤之后，包括：

获取所述关键词对应的操控指令信息，其中，所述操控指令信息包括所述操控指令的运行链接；

根据所述运行链接在所述智能设备上运行所述操控指令，得到运行结果；

将所述运行结果反馈至所述智能设备的显示终端。
一种关键词检测装置，其中，所述装置部署关键词检测网络，所述关键词检测网络包括并行连接的第一全连接层和第二全连接层，装置包括：

第一获取模块，用于获取当前用户输入的待检测语音语句；

提取模块，用于提取所述待检测语音语句对应的语音特征参数；

第一输入模块，用于将所述语音特征参数输入所述关键词检测网络；

第一判断模块，用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

确定模块，用于若高于预设概率阈值，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种关键词检测方法，其中，关键词检测网络包括并行连接的第一全连接层和第二全连接层，所述方法包括：

获取当前用户输入的待检测语音语句；

提取所述待检测语音语句对应的语音特征参数；

将所述语音特征参数输入所述关键词检测网络；

判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。
根据权利要求9所述的计算机设备，其中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤之前，包括：

将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

判断所述总损失函数是否达到预设条件；

若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。
根据权利要求9所述的计算机设备，其中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤之前，包括：

将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

判断所述总损失函数是否达到预设条件；

若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。
根据权利要求11所述的计算机设备，其中，所述实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值的步骤，包括：

获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；

根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。
根据权利要求11所述的计算机设备，其中，所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤，包括：

计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；

判断所述差值是否大于零；

若是，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。
根据权利要求13所述的计算机设备，其中，所述判断所述总损失函数是否达到预设条件的步骤之前，包括：

获取当前时刻对应的第一任务的第一训练准确度，以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度；

根据所述第一训练准确度和所述第二训练准确度，计算所述第一任务当前时刻对应的平均训练精准度；

根据所述平均训练精准度，根据指定函数计算所述第一任务的损失权重，其中，所述指定函数为λ _j(i)＝-(1-k _j(i))log(k _j(i))，k _j(i)表示训练第i轮时第j个任务的平均训练精准度；

根据所述第一任务的损失权重的计算方式，计算所述第二任务的损失权重；

根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数，得到所述总损失函数。
根据权利要求9所述的计算机设备，其中，接收所述待检测语音语句的终端为智能设备，所述根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词的步骤之后，包括：

获取所述关键词对应的操控指令信息，其中，所述操控指令信息包括所述操控指令的运行链接；

根据所述运行链接在所述智能设备上运行所述操控指令，得到运行结果；

将所述运行结果反馈至所述智能设备的显示终端。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种关键词检测方法，其中，关键词检测网络包括并行连接的第一全连接层和第二全连接层，所述方法包括：

获取当前用户输入的待检测语音语句；

提取所述待检测语音语句对应的语音特征参数；

将所述语音特征参数输入所述关键词检测网络；

判断所述第一全连接层输出的第一概率是否高于预设概率阈值，其中，所述第一概率为所述当前用户身份识别对应的概率；

若是，根据所述第二全连接层输出的第二概率，确定所述待检测语音语句的关键词，其中，所述第二概率为关键词识别对应的概率。
根据权利要求16所述的计算机可读存储介质，其中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤之前，包括：

将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

判断所述总损失函数是否达到预设条件；

若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。
根据权利要求16所述的计算机可读存储介质，其中，所述关键词检测网络中所述第一全连接层对应第一任务的输出通道，所述第二全连接层对应第二任务的输出通道，所述获取当前用户输入的待检测语音语句的步骤之前，包括：

将各训练数据分别对应的语音特征参数，输入至所述关键词检测网络中进行训练；

实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值；

根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重；

判断所述总损失函数是否达到预设条件；

若是，则判定完成对所述关键词检测网络的训练，并固定所述关键词检测网络的参数。
根据权利要求18所述的计算机可读存储介质，其中，所述实时获取所述第一任务对应的第一损失函数的函数值，以及所述第二任务对应的第二损失函数的函数值的步骤，包括：

获取所述第一任务对应的sigmoid函数的当前预测值，以及预设的第一真实值，获取所述第二任务对应的softmax函数的当前预测值，以及预设的第二真实值；

根据所述sigmoid函数的当前预测值，以及预设的第一真实值，计算所述第一损失函数值，根据所述softmax函数的当前预测值，以及预设的第二真实值，计算所述第二损失函数值。
根据权利要求18所述的计算机可读存储介质，其中，所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系，实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤，包括：

计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值；

判断所述差值是否大于零；

若是，则增大所述第一损失函数在总损失函数中对应的第一损失权重，减小所述第二损失函数在总损失函数中对应的第二损失权重。