WO2017114201A1

WO2017114201A1 - 一种设定操作的执行方法及装置

Info

Publication number: WO2017114201A1
Application number: PCT/CN2016/110671
Authority: WO
Inventors: 王志铭; 李宏言
Original assignee: 阿里巴巴集团控股有限公司; 王志铭; 李宏言
Priority date: 2015-12-31
Filing date: 2016-12-19
Publication date: 2017-07-06
Also published as: CN106940998A; CN106940998B

Abstract

一种设定操作的执行方法及装置，该方法包括：获得语音信号声学特征（S101），将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本（S102）；根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作（S103）。采用神经网络模型进行计算的方式，可以有效降低计算量级，减少耗费的处理资源。

Description

一种设定操作的执行方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种设定操作的执行方法及装置。

背景技术

随着信息技术的发展，语音唤醒技术由于其非接触式的操控特性，使得用户可以便捷地针对具有语音唤醒功能的设备进行启动控制，从而得到了广泛地应用。

若要实现对设备的语音唤醒，需要在设备中预先设置特定的唤醒词，根据唤醒词和发音词典确定相应的发音音素(其中，发音音素简称为音素，是指唤醒词的发音音节的最小语音单位)。在实际使用时，用户在设备附近的一定范围内说出唤醒词时，设备就会采集用户发出的语音信号，并根据语音信号声学特征，进而判断语音信号声学特征是否与唤醒词的音素相匹配，以确定用户说出的是否为唤醒词，若是，则设备会执行自我唤醒的操作，比如自动启动、或者从休眠状态切换为激活状态，等等。

现有技术中，对于具有语音唤醒功能的设备而言，通常采用隐马尔可夫模型(Hidden Markov Model，HMM)实现上述判断，具体为：在语音唤醒模块中分别预加载唤醒词和非唤醒词的HMM，当接收到用户发出的语音信号后，使用维特比算法对语音信号逐帧解码至音素级别，最后根据解码后的结果，判断用户发出的语音信号的语音声学特征是否与唤醒词的音素相匹配，从而判断出用户说出的是否为唤醒词。

上述现有技术存在的缺陷在于，在采用维特比算法对用户发出的语音信号进行逐帧解码计算的过程中会涉及到动态规划计算，计算量极大，从而导致整个语音唤醒过程耗费较多处理资源。

类似地，在采用上述类似方法，以设定词对应的语音信号声学特征，触发设备执行自我唤醒的操作外的其他设定操作(比如发出指定信号，或者拨打电话，等等)时，也可能面临相同的问题。其中，所述的设定词，是指用于触发设备执行设定操作的语音信号声学特征对应的字或词的统称，前文所述的唤醒词，属于设定词的一种。

发明内容

本申请实施例提供一种设定操作的执行方法，用以解决现有技术中的触发设备执行设定操作的过程会耗费较多处理资源的问题。

本申请实施例还提供一种设定操作的执行装置，用以解决现有技术中的触发设备执行设定操作的过程会耗费较多处理资源的问题。

本申请实施例提供的设定操作的执行方法，包括：

获得语音信号声学特征；

将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述唤醒词对应的音素的概率，判断是否执行唤醒操作。

本申请实施例提供的设定操作的执行装置，包括：

获取模块，用于获得语音信号声学特征；

神经网络模块，用于将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

判断确认模块，用于根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。

采用本申请实施例提供的上述至少一个方案，通过采用神经网络模型，来确定获得的语音信号声学特征对应于与设定词对应的音素的概率，进而根据概率确定是否执行设定操作。由于相比于采用维特比算法对语音信号逐帧解码至音素级别而言，采用神经网络来确定所述概率不会耗费较多资源，因此相比于现有技术，本申请实施例提供的方案可减少设定操作过程耗费的处理资源。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的设定操作的执行过程；

图2为本申请实施例提供的神经网络模型的示意图；

图3a、3b为本申请实施例提供的根据神经网络模型的输出，对唤醒词对应音素进行规律统计的示意图；

图4本申请实施例提供的设定操作的执行装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如前所述，采用维特比算法对语音信号逐帧解码至音素级别需要耗费大量计算资源，尤其对于具备语音唤醒功能的设备而言，如：智能音响、智能家居设备等等，较大的计算量不仅会增加设备的工作负荷，而且会增加设备能耗，导致设备的工作效率降低。而考虑到神经网络模型具有较强的特征学习能力以及计算结构轻量级的特点，适于实际应用中具备语音唤醒功能的各类设备。

正是基于此，本申请提出了如图1所示的设定操作的执行过程，该过程具体包括以下步骤：

S101，获得语音信号声学特征。

在实际应用场景下，当用户针对具有语音唤醒功能的设备(下文中称为“语音设备”)通过语音触发方式执行设定操作时，通常需要说出设定词，用户说出设定词的声音就是用户发出的语音信号。相应地，语音设备便可以接收到用户发出的语音信号。对于语音设备而言，可以认为其接收到的任何语音信号，都是需要进行识别处理的，以便确定出用户说出的是否为设定词。

这里需要说明的是，在本申请中，设定操作包括但不限于：以语音方式触发的唤醒操作、呼叫操作、多媒体控制操作等等。本申请中的设定词包括但不限于：唤醒词、呼叫指令词、控制指令词等预先设定的、用于进行语音方式触发的口令词语(在某些情况下，设定词可以只包含一个汉字或单词)。

在语音设备接收到用户发出的语音信号之后，会从该语音信号中提取并获得相应的语音信号声学特征，以便对语音信号进行识别。本申请实施例中所述的语音信号声学特征，具体可以是从语音信号中提取的以帧为单位的语音信号的声学特征。

当然，对于语音信号而言，可由语音设备中携带的具有语音拾音功能的芯片实现信号声学特征的提取。更为具体地，语音信号声学特征的提取，可由语音设备中的语音唤醒模块完成，这里并不构成对本申请的限定。一旦语音设备获得了上述语音信号声学特征，就可以对语音信号声学特征进行计算处理，也即，可以执行下述步骤S102。

S102，将获得的各语音信号声学特征输入训练好的神经网络模型。

其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本。

所述的神经网络模型，具备了计算量级小、计算结果准确的特点，适用于不同的设备中。考虑到在实际应用中，具有极强的特征学习能力、易训练的深度神经网络(Deep Neural Network，DNN)，可以较好的适应于语音识别的场景中，故在本申请实施例中，具体可以采用训练好的深度神经网络。

在实际应用场景下，本申请中训练好的神经网络模型可由设备供应商提供，即，语音设备供应商会将训练好的神经网络模型作为语音唤醒模块的一部分，将语音唤醒模块设置在芯片或处理器中嵌入语音设备。当然，这里只是对神经网络模型设置方式的示例性说明，并不构成对本申请的限定。

为了保证训练好的神经网络模型的输出结果的准确性，在训练的过程中，可使用一定规模的训练样本进行训练，以便优化并完善神经网络模型。对于训练样本而言，训练样本中通常包含设定词对应的语音信号声学特征样本，当然，语音设备所接收到的语音信号并非都对应着设定词，那么，为了区别出非设定词，在实际应用中，训练样本中一般还可以包含非设定词的语音信号声学特征样本。

本申请实施例中，该训练好的神经网络模型的输入结果，至少包括语音信号声学特征对应于与设定词对应的音素的概率。

在神经网络模型生成后，便可以将之前得到的语音信号声学特征(如：语音特征向量)作为输入，输入至神经网络模型中进行计算，得到相应的输出结果。这里需要说明的是，作为本申请实施例在实际应用场景下的一种方式，可以在获得了设定词对应的全部语音信号声学特征后，一并将获得到的各语音信号声学特征输入至上述的神经网络模型。而作为本申请实施例在实际应用场景下的另一种方式，考虑到用户发出的语音信号是时序信号，那么，可以将获取到的语音信号声学特征以时序方式连续输入至上述的神经网络模型中(也即，边获取边输入)。上述两种输入语音信号声学特征的方式可根据实际应用的需要而选定，并不构成对本申请的限定。

S103，根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。

其中，所述各语音信号声学特征对应于与设定词对应的音素的概率，即各语音信号声学特征与所述设定词对应的音素相匹配的概率。可以理解，该概率越大，语音信号声学特征为设定词对应的正确发音的语音信号声学特征的可能性越大；反之，则可能性越小。

所述执行设定操作，是指以语音唤醒的方式唤醒待唤醒的语音设备。比如，若本申请实施例提供的方法的执行主体是该设备本身，则所述执行设定操作，是指唤醒该设备本身。当然，本申请实施例提供的该方法，也适用于由一设备唤醒另一设备的场景。

本申请实施例中，针对某个语音信号声学特征而言，神经网络模型可以根据输入的该语音信号声学特征，经过计算后，输出该语音信号声学特征对应于不同音素(包括设定词对应的音素和其他音素)的概率分布，根据输出的概率分布，就可以从所述不同音素中，确定出与该语音信号声学特征最为匹配的音素，即确定出所述概率分布中的最大概率对应的音素。该音素，为与该语音信号声学特征最为匹配的音素。

以此类推，可以统计出与从长度为一个历史窗口的语音信号内提取的每个语音信号声学特征分别最为匹配的音素，及相应的概率；进一步地，基于与每个语音信号声学特征分别最为匹配的音素，及相应的概率，可以确定语音信号是否与设定词相对应。需要说明的是，所述历史窗口也即一定时长，该时长为语音信号时长，具备该时长的语音信号一般被认为包含足够多的语音信号声学特征。

以下举例说明上述特征的具体实现过程：

假设以设定词为汉语中“启动”二字为例：其发音包含“q”、“i3”、“d”、“ong4”四个音素，这里的数字3和4分别表示不同的声调，也即，“i3”表示发出“i”音时是第三声调，相类似的，“ong4”表示发出“ong”音时是第四声调。在实际应用时，设备将获得的语音信号声学特征输入至训练好的神经网络模型中，神经网络模型可计算出各语音信号声学特征可能表示的音素的概率分布，如：计算出语音信号声学特征可能表示的每一种音素“q”、“i3”、“d”、“ong4”的概率，并将语音信号声学特征映射到概率最大的音素，从而，也就得到了各语音信号声学特征相匹配的音素。基于此，在一个历史窗口内，确定语音信号是否依次对应着“q”、“i3”、“d”、“ong4”这四个音素，若是，那么，语音信号就对应着“启动”这个设定词。

从上例可见，这样的方式可确定出语音信号声学特征所对应的音素是否为设定词的音素，也就能进一步确定出用户说出的是否为设定词，从而判断是否执行设定操作。

通过上述步骤，通过采用神经网络模型，来确定获得的语音信号声学特征对应于与设定词对应的音素的概率，进而根据概率确定是否执行唤醒操作。由于相比于采用维特比算法对语音信号逐帧解码至音素级别而言，采用神经网络来确定所述概率不会耗费较多资源，因此相比于现有技术，本申请实施例提供的方案可减少设定操作过程耗费的处理资源。

对于上述步骤，需要说明的是，在执行设定操作之前，设备通常处于休眠、关闭等未激活状态(此时，只有设备中的语音唤醒模块处于监控状态)，设定操作是在用户说出设定词通过认证后，设备中的语音唤醒模块会控制设备进入激活状态。因此，在本申请中，获得语音信号声学特征之前，所述方法还包括：通过执行语音活动检测(Voice Activity Detection，VAD)，判断是否存在语音信号，在判断为是时，执行步骤S101，即获得语音信号声学特征。

在实际应用时，对于上述步骤S101而言，获得语音信号声学特征，包括：从语音信号帧中获得所述语音信号声学特征。也就是说，上述的语音信号声学特征通常是从语音信号中提取后获得的，而语音信号声学特征提取的准确性，将对后续神经网络模型的泛化预测产生影响，也会对提升唤醒识别的准确度有重大的影响。下面将对语音信号声学特征提取的过程进行具体说明。

在特征的提取阶段，一般在一个固定大小的时间窗口内采样每一帧语音信号的特征。例如：作为本申请实施例中的一种可选方式，信号采集窗口的时间长度设置为25ms，采集周期设置为10ms，也就是说，当设备接收到待识别语音信号之后，将每隔10ms对一个时间长度为25ms的窗口进行采样。

在上述示例中，采样得到的是语音信号的原始特征，经过进一步特征提取后，获得固定维度(假设为N，N的取值将根据实际应用时所采用的不同的特征提取方式来确定，这里不作具体限定)的且具备一定区分度的语音信号声学特征。在本申请实施例中，常用的语音声学特征包括滤波器组特征(Filter Bank特征)、梅尔倒谱特征(Mel Frequency Cepstrum Coefficient，MFCC特征)，感知线性预测特征(Perceptual Linear Predictive， PLP)等。

经过这样的提取过程，便得到了包含有N维语音信号声学特征的语音信号帧(在本申请中，这里的每一个语音信号帧也可称为每一帧语音特征向量)。另外需要说明的是，由于语音是时序信号，上下文帧之间具有相关性，所以，在获得了上述的各帧语音特征向量后，可以按照语音信号帧在时间轴上的排列顺序，依次将各帧语音特征向量进行拼接，得到一个组合形式的语音信号声学特征。

具体而言，从语音信号帧中获得所述语音信号声学特征，包括：依次针对语音信号帧中的各基准帧，执行：获取语音信号帧中的、在时间轴上排列在该基准帧之前的第一数量的语音信号帧的声学特征，以及语音信号帧中的、在时间轴上排列在该基准帧之后的第二数量的语音信号帧的声学特征，其中，对获取的各声学特征进行拼接，得到所述语音信号声学特征。

基准帧通常是指语音设备当前采样的语音信号帧，对于连续的语音信号而言，语音设备会执行多次采样，从而在整个过程中将产生多个基准帧。

在本实施例中，所述第二数量可以小于所述第一数量。拼接得到的该语音信号声学特征，可以视为相应的基准帧的语音信号声学特征，后文中提及的时间戳，则可以是所述相应的基准帧的在语音信号中的相对时序次序，即该基准帧在时间轴上的排列位置。

也就是说，为了提高深度神经网络模型的泛化预测能力，一般将当前帧(也即，基准帧)与其上下文的左L帧，右R帧拼接起来，组成一个大小为(L+1+R)*N的特征向量(其中，数字“1”表示当前帧本身)，作为深度神经网络模型的输入。通常地，L>R，也即，左右不对称的帧数。这里之所以用到不对称的左、右上下文帧数，是因为流式音频存在延时解码问题，不对称的上下文帧可以尽量减少或避免延时解码的影响。

例如，在本申请实施例中，以当前帧作为基准帧，那么，可以选定该当前帧及其前30帧、后10帧拼接起来，形成了41帧(包含当前帧本身)组成的语音信号声学特征，作为深度神经网络输入层的输入。

以上内容是本申请中语音信号声学特征的详细描述，在获得了上述的语音信号声学特征后，就会输入至训练好的神经网络模型中进行计算。那么，对于本申请中的神经网络模型而言，可以是一种深度神经网络模型，该模型的结构比如如图2所示。

在图2中，深度神经网络模型具有输入层、隐层和输出层三部分。语音特征向量从输入层中输入至隐层进行计算处理。每一层隐层中包括128个或者256个节点(也称为神经元)，每个节点中设置有相应的激活函数，实现具体的计算过程，作为本申请实施例中的一种可选方式，以线性修正函数(Rectified Linear Units，ReLU)作为隐层节点的激活函数，并在输出层中设置SoftMax回归函数，对隐层的输出进行规整化处理。

建立了上述的深度神经网络模型后，便要对该深度神经网络模型进行训练。在本申请中，采用下述方式，训练上述的深度神经网络模型：

根据所述设定词对应的音素样本的数量，确定待训练的深度神经网络中输出层的节点数量，循环执行下述步骤，直至深度神经网络模型收敛(深度神经网络模型收敛是指：深度神经网络所输出的概率分布中的最大概率值，对应的是所述语音信号声学特征样本对应的正确发音的音素)：

将训练样本输入至所述深度神经网络模型，使得所述深度神经网络模型对输入的样本的特征进行前向传播计算直至输出层，并使用预设目标函数(一般是基于交叉熵(Cross Entropy)准则)计算误差，并通过深度神经网络模型从输出层开始反向传播误差，并根据误差逐层调节所述深度神经网络模型的权重。

当算法收敛时，深度神经网络模型中存在的误差降至最低。

经过上述步骤，训练好的深度神经网络便可以采用芯片方式嵌入到相应的设备中进行应用。这里针对深度神经网络模型在嵌入式设备的应用需要说明的是，一方面，在应用时需要用到轻量级的模型，即：神经网络中隐层数量和每个隐层的节点数量需要有所限制，故采用适当规模的深度神经网络模型即可；另一方面，还需要根据特定的平台利用优化指令集(如：ARM平台上的NEON)对深度神经网络模型的计算进行性能提升的优化，以满足实时性的要求。

本申请中，经过训练后的深度神经网络模型的输出层的节点的数量，与设定词对应的音素的数量以及1个“Garbage”节点相对应，也即，假设设定词为上例中的“启动”，对应4个音素，那么，经过训练后的深度神经网络模型的输出层的节点数量就为5。其中“Garbage”节点对应于除了设定词音素之外的其他音素，也即，对应于与设定词的音素不相同的其他音素。

为了能够准确地得到与设定词对应的音素以及与设定词的音素不相符的其他音素，在训练过程中，可以基于大词汇连续语音识别系统(Large Vocabulary Continuous Speech Recognition，LVCSR)，为训练样本中的每一帧特征强对齐(Forced Align)至音素级别。

其中，对于训练样本而言，一般可以包括正样本(包含设定词)和负样本(不包含设定词)。本申请实施例中，通常选择发音以元音开头(或包含元音)的设定词，这样的设定词发音饱满，有助于提高唤醒系统的误拒比率。鉴于此，训练样本的设定词可以例如：“大白，你好”，其对应的音素分别为：d、a4、b、ai2、n、i3、h、ao3。这里举例说明的设定词只是一种示例，并不构成对本申请的限定，在实际应用中还可以类推至其他有价值的设定词。

经过上述训练样本数据的训练后，将获得一个收敛优化的深度神经网络模型，其可以最大概率将语音声学特征映射到正确的音素上。

另外，为了使得神经网络模型的拓扑结构达到最优状态，可以采用迁移学习(Transfer Learning)的方式，利用互联网语音大数据训练拓扑结构合适的DNN，作为目标深度神经网络(主要是除了输出层之外的其他层)参数的初始值。这样处理的好处是为了获得鲁棒性更好的“特征表示”，避免训练过程中陷入局部最优。“迁移学习”的概念很好地利用了深度神经网络“特征学习”的强大能力。当然，这里并不构成对本申请的限定。

经过上述内容，便得到了本申请中训练好的神经网络模型。从而可以进行实际使用。下面将针对实际使用的场景进行说明。

在实际应用时，设备可接收用户发出的语音信号，并获取该语音信号对应的语音信号声学特征输入至训练好的神经网络模型，从而神经网络模型经过计算后，输出所述设定词对应的音素与所述各语音信号声学特征分别相匹配的概率，进而判断是否执行设定操作。

具体而言，根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行唤醒操作，包括：确定所述神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率中的最大似然概率，确定获得的各最大似然概率与相应的音素的映射关系，根据所述映射关系，以及置信度阈值，判断是否执行唤醒操作。

这里需要说明的是，当各语音信号声学特征经过上述的神经网络模型的计算处理后，神经网络模型输出各语音信号声学特征的概率分布，概率分布反映了语音信号声学特征与设定词对应的音素相匹配的各种可能性分布，显然，对于任一语音信号声学特征而言，其概率分布中的最大值(即，最大似然概率)，就表示该语音信号声学特征与设定词对应的音素相匹配的可能性的最大，故在本申请的上述步骤中，将确定出各语音信号声学特征对应于与所述设定词对应的音素的概率中最大的似然概率。

另外，在上述步骤中，根据所述映射关系，以及置信度阈值，判断是否执行唤醒操作，具体包括：针对每一设定词对应的音素，统计与该音素具有映射关系的最大似然概率的数量，作为该音素对应的置信度，判断每一音素的置信度是否均大于置信度阈值，若是，则执行所述设定操作；否则，则不执行所述设定操作。

至此，在本申请中，当语音设备获得了语音信号声学特征之后，可将该语音信号声学特征输入至语音唤醒模块神经网络模型中进行计算，得到语音信号声学特征可能表征的各音素的概率分布，并且，神经网络模型会将语音信号声学特征映射到概率最大的音素，这样一来，在统计了一个历史窗口内各帧语音信号声学特征的音素规律特性，以确定所述语音信号是否与设定词相对应。本申请中所采用的神经网络模型进行计算的方式，可以有效降低计算量级，减少耗费的处理资源，同时，神经网络模型易于训练，能够有效提升其适用性。

为了清楚地说明上述设定操作操作的执行过程，下面以设定词为唤醒词、设定操作为针对语音设备的唤醒操作的场景进行详细说明：

在本场景中，假设语音设备预先设定的唤醒词为“大白，你好”，该唤醒词对应的标准音素(为了区分识别过程中用户说出的词组所对应的音素，这里将预设的唤醒词对应的音素称为标准音素)分别为：d、a4、b、ai2、n、i3、h、ao3。

首先，为了能够直观地表示各音素的概率分布，可以采用诸如直方图的图形方式进行表示，本示例中以直方图为例，即，将通过上述深度神经网络模型建立每个音素和“Garbage”节点对应的直方图。如图3a所示，每一个音素(包括“Garbage”节点)对应一个直方图柱(由于还未进行语音信号识别处理过程，所以图3a中，每个音素的直方图柱的高度为零)，直方图柱的高度反映了语音信号声学特征映射到该音素的统计值。这里的统计值，便可以看作该音素的置信度。

之后，语音唤醒设备中的语音唤醒模块接收待识别语音信号。通常地，在语音唤醒模块执行前，通常由VAD模块执行语音信号的检测操作，目的是为了检测语音信号是否存在(以区别于静音状态)。一旦检测语音信号，语音唤醒系统开始工作，即，利用神经网络模型进行计算处理。

在深度神经网络模型进行计算的过程中，语音唤醒模块会从用户发出的语音信号中获得的语音信号声学特征(其中包含采用前文所述方式对若干帧语音特征向量进行拼接得到的语音信号声学特征)输入到深度神经网络模型，进行前向传播计算。为了提高计算的效率，这里也可以采用“块计算”的方式，即：将连续若干语音信号帧(形成一个活动窗口)的语音特征向量同时输入到深度神经网络模型，接着进行矩阵计算。当然，这里并不构成对本申请的限定。

深度神经网络模型的输出层所输出的数值，表示基于给定语音特征向量对应音素的概率分布。显然，唤醒词对应的发音音素覆盖非“Garbage”节点的概率是更大的。取输出层最大似然概率对应的音素，其直方图增加一个单位，并记录相应的时间戳(以帧为单位)。

具体而言，假设，对于某一语音信号帧的语音特征向量而言，其输出层最大概率对应的发音音素为唤醒词发音音素“d”，那么，在如图3a所示的直方图中，对应于标准音素“d”的直方图的高度就增加一个单位；而如果其输出层最大概率对应的发音音素不是唤醒词的任何发音音素，那么，“garbage”对应的直方图将增加一个单位，表示这一语音信号帧的语音特征向量不对应于唤醒词的任何发音音素。按照这样的方式，最终可以形成如图3b所示的直方图。

在一个历史窗口内，每个直方图的覆盖占比可以视作每个音素的置信度。本申请实施例中，可以预设置信度阈值，比如可以在深度神经网络训练完成后，在一个验证集上进行交叉实验获得该置信度阈值。该置信度阈值的作用在于：针对某个语音信号而言，若按照上文介绍的过程，确定出该语音信号对应的唤醒词的各发音音素的直方图，那么，可以根据该直方图以及该置信度阈值，判断唤醒词的各发音音素的直方图高度(即置信度)是否均超过置信度阈值，若是，那么可以确定该语音信号是唤醒词对应的语音信号，也就可以执行相应的语音唤醒操作。

此外需要说明的是，直方图中每增加一个单位，语音唤醒设备都会记录相应的时间戳。其中，该时间戳以帧为单位，表示语音声学特征所属的语音信号帧在语音信号中的相对时序次序，即该语音声学特征所属的语音信号帧在时间轴上的排列位置。若针对语音声学特征，在直方图中增加一个单位时，记录了时间戳为X，则该时间戳可以表示该帧语音声学特征所属的语音信号帧为第X帧。根据时间戳，可以确定出不同语音声学特征所属的语音信号帧在时间轴上的排列位置。可以认为，如果待识别语音信号中也包含着“大白，你好”这个唤醒词，那么，如图3b所示的直方图中，针对与“d”至“ao3”的直方图对应记录的时间戳应该单调递增。

在实际应用中，若引入时间戳作为是否执行唤醒操作的判定条件，则若“d”至“ao3”的直方图高度均超过置信度阈值，且根据记录的时间戳，判断出与“d”至“ao3”的直方图对应的时间戳单调递增时，才认为语音信号是唤醒词对应的语音信号，从而执行唤醒操作。

引入时间戳作为是否执行唤醒操作的判定条件的方式，比较适合于要求对唤醒词包含的各个字进行依次发音，才能执行唤醒操作的场景。

在实际应用中，上述内容并不限于语音唤醒操作，同样适用于不同场景下以语音方式触发的设定操作。这里不再过多赘述。

以上为本申请实施例提供的设定操作操作的执行方法，基于同样的思路，本申请实施例还提供一种设定操作的执行装置，如图4所示。

在图4中，设定操作的执行装置包括：获取模块401、神经网络模块402、判断确认模块403，其中，

获取模块401，用于获得语音信号声学特征。

神经网络模块402，用于将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本。

判断确认模块403，用于根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。

获取模块401，具体用于从语音信号帧中获得所述语音信号声学特征。

更为具体地，获取模块401，具体用于采用以当前采样的语音信号帧作为基准帧的方式，从第一数量的语音信号帧之后的第一帧开始，逐帧对后续各语音信号帧执行：获取各语音信号帧中的、在时间轴上排列在该基准帧之前的第一数量的语音信号帧的声学特征，以及各语音信号帧中的、在时间轴上排列在该基准帧之后的第二数量的语音信号帧的声学特征，并对获取的各声学特征进行拼接，得到所述语音信号声学特征。

对于上述内容而言，其中，所述第二数量小于所述第一数量。

此外，所述装置还包括：语音活动检测模块404，用于在获得语音信号声学特征之前，通过执行语音活动检测VAD，判断是否存在语音信号，在判断为是时，获得语音信号声学特征。

在本申请实施例中，神经网络模块402，具体用于采用下述方式，训练所述神经网络模型：根据所述设定词对应的音素样本的数量确定待训练的深度神经网络中输出层的节点数量；

循环执行下述步骤，直至待训练的深度神经网络所输出的、设定词对应的语音信号声学特征样本对应的音素的概率分布中的最大概率值，为所述语音信号声学特征样本对应的正确发音的音素：将训练样本输入至所述待训练的深度神经网络，使得所述待训练的深度神经网络对输入的样本的特征进行前向传播计算直至输出层，使用预设目标函数计算该误差，并通过所述深度神经网络模型从输出层反向传播误差，根据误差逐层调节所述深度神经网络模型的权重。

在上述神经网络模块402完成训练的基础上，判断确认模块403，具体用于确定所述神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率中的最大似然概率，确定获得的各最大似然概率与相应的音素的映射关系，根据所述映射关系，以及置信度阈值，判断是否执行唤醒操作。

更为具体地，判断确认模块403，具体用于针对每一设定词对应的音素，统计与该音素具有映射关系的最大似然概率的数量，作为该音素对应的置信度，判断每一音素的置信度是否均大于置信度阈值，若是，则执行所述设定操作；否则，则不执行所述设定操作。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种设定操作的执行方法，其特征在于，包括：

获得语音信号声学特征；

将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。
如权利要求1所述的方法，其特征在于，获得语音信号声学特征，具体包括：

从语音信号帧中获得所述语音信号声学特征。
如权利要求2所述的方法，其特征在于，从语音信号帧中获得所述语音信号声学特征，包括：

依次针对语音信号帧中的各基准帧，执行：获取语音信号帧中的、在时间轴上排列在基准帧之前的第一数量的语音信号帧的声学特征，以及语音信号帧中的、在时间轴上排列在该基准帧之后的第二数量的语音信号帧的声学特征；

对获取的各声学特征进行拼接，得到所述语音信号声学特征。
如权利要求3所述的方法，其特征在于，所述第二数量小于所述第一数量。
如权利要求1所述的方法，其特征在于，获得语音信号声学特征之前，所述方法还包括：

通过执行语音活动检测VAD，判断是否存在语音信号；

在判断为是时，获得语音信号声学特征。
如权利要求1所述的方法，其特征在于，采用下述方式，训练所述神经网络模型：

根据所述设定词对应的音素样本的数量确定待训练的深度神经网络中输出层的节点数量；

循环执行下述步骤，直至待训练的深度神经网络所输出的概率分布中的最大概率值，对应的是所述语音信号声学特征样本对应的正确发音的音素：

将训练样本输入至所述待训练的深度神经网络，使得所述待训练的深度神经网络对输入的样本的特征进行前向传播计算直至输出层，使用预设目标函数计算该误差，并通过所述深度神经网络模型从输出层反向传播误差，根据误差逐层调节所述深度神经网络模型的权重。
如权利要求1所述的方法，其特征在于，根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作，包括：

确定所述神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率中的最大似然概率；

确定获得的各最大似然概率与相应的音素的映射关系；

根据所述映射关系，以及置信度阈值，判断是否执行设定操作。
如权利要求7所述的方法，其特征在于，根据所述映射关系，以及置信度阈值，判断是否执行设定操作，具体包括：

针对每一设定词对应的音素，统计与该音素具有映射关系的最大似然概率的数量，作为该音素对应的置信度；

判断每一音素的置信度是否均大于置信度阈值；

若是，则执行所述设定操作；

否则，则不执行所述设定操作。
一种设定操作的执行装置，其特征在于，包括：

获取模块，用于获得语音信号声学特征；

神经网络模块，用于将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

判断确认模块，用于根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。
如权利要求9所述的装置，其特征在于，所述获取模块，具体用于从语音信号帧中获得所述语音信号声学特征。
如权利要求10所述的装置，其特征在于，所述获取模块，具体用于依次针对语音信号帧中的各基准帧，执行：获取语音信号帧中的、在时间轴上排列在该基准帧之前的第一数量的语音信号帧的声学特征，以及语音信号帧中的、在时间轴上排列在该基准帧之后的第二数量的语音信号帧的声学特征；

对获取的各声学特征进行拼接，得到所述语音信号声学特征。
如权利要求11所述的装置，其特征在于，所述第二数量小于所述第一数量。
如权利要求9所述的装置，其特征在于，所述装置还包括：语音活动检测模块，用于在获得语音信号声学特征之前，通过执行语音活动检测VAD，判断是否存在语音信号，在判断为是时，获得语音信号声学特征。
如权利要求9所述的装置，其特征在于，所述神经网络模块，具体用于采用下述方式，训练所述神经网络模型：根据所述设定词对应的音素样本的数量确定待训练的深度神经网络中输出层的节点数量；

循环执行下述步骤，直至待训练的深度神经网络所输出的概率分布中的最大概率值，对应的是所述语音信号声学特征样本对应的正确发音的音素：将训练样本输入至所述待训练的深度神经网络，使得所述待训练的深度神经网络对输入的样本的特征进行前向传播计算直至输出层，使用预设目标函数计算该误差，并通过所述深度神经网络模型从输出层反向传播误差，根据误差逐层调节所述深度神经网络模型的权重。
如权利要求9所述的装置，其特征在于，所述判断确认模块，具体用于确定所述神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率中的最大似然概率，确定获得的各最大似然概率与相应的音素的映射关系，根据所述映射关系，以及置信度阈值，判断是否执行设定操作。
如权利要求9所述的装置，其特征在于，所述判断确认模块，具体用于针对每一设定词对应的音素，统计与该音素具有映射关系的最大似然概率的数量，作为该音素对应的置信度，判断每一音素的置信度是否均大于置信度阈值，若是，则执行所述设定操作；否则，则不执行所述设定操作。