WO2018068649A1

WO2018068649A1 - 一种语音激活检测方法及装置

Info

Publication number: WO2018068649A1
Application number: PCT/CN2017/103861
Authority: WO
Inventors: 范利春; 朱磊
Original assignee: 芋头科技（杭州）有限公司
Priority date: 2016-10-11
Filing date: 2017-09-28
Publication date: 2018-04-19
Also published as: CN107919116B; TW201814689A; TWI659412B; CN107919116A

Abstract

一种语音激活检测方法及装置，通过采用两次激活检测的方法，将第一次激活判断中取到的语音片段输入BLSTM循环神经网络，通过对整条语音的所有帧进行处理，最终判定是否激活语音识别设备。在两次激活确认中，第一次激活的阈值可以设置适当宽松，以保证较高的检出率；第二次激活确认由于已知起始点，相对更加准确，两次激活检测能够同时降低误激活和漏激活，即有效降低激活的等错误率，从而更加有效的保证激活的性能。

Description

一种语音激活检测方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种利用双向循环神经网络进行二次确认的语音激活检测方法及装置。

背景技术

很多语音识别设备需要语音激活之后才能够拾音进而进行识别。语音识别设备激活之后才进行拾音一来是为了降低设备功耗，二来是为了减少不需要进行识别的语音进入语音识别流程，进而带来不必要的响应。近场语音识别环境中，比如手机端的语音识别，可以采用触摸或按键等方式进入拾音状态。在远场识别中，或是近场识别但不方便用手操作的时候，利用语音对设备进行激活使设备进入拾音状态就变得不可或缺。语音激活通常是先设定激活词，然后对设备说出激活词，设备被唤醒之后进入拾音状态。

语音激活最简单直观的方法是利用语音识别的方法，把激活的语音送入语音识别器进行识别，如果识别结果是激活词或者包含激活词，那么设备激活。实际上，只需要对激活语音进行声学打分，计算在设定激活词上的声学得分即可，同时还可以根据得分设定接受和拒绝的阈值；然而阈值是非常难于控制的，这是因为阈值设定太低会带来很多的误激活，阈值设定太高则使得语音识别设备难以被激活。这种现象对于较短的激活词尤其严重。

如何找到一种同时降低误激活和降低漏激活(即降低激活的等错误率)的方法成为本领域技术人员致力于研究的方向。

发明内容

针对上述存在的问题，本发明公开一种语音激活检测方法，其中，应用于对设置有激活词的语音识别设备进行激活时的语音检测，包括以下步骤：

步骤S1，对待测语音数据进行端点检测，以获取包含语音信号的语音数据；

步骤S2，利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率；

步骤S3，对所述三音子后验概率进行流式动态规划，以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分；

步骤S4，将所述路径得分与预先设定的第一阈值进行比较：

若所述路径得分小于所述第一阈值，则判断所述包含语音信号的语音数据为非激活语音，随后退出；

步骤S5，进行回溯，找到所述包含语音信号的语音数据的起始位置，并根据所述起始位置获取语音片段；

步骤S6，利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理，并根据处理结果判断是否激活所述语音识别设备。

上述的语音激活检测方法，其中，所述步骤S6中，根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括：

将所述处理结果与预先设定的第二阈值进行比较，并在所述处理结果大于所述第二阈值时激活所述设备。

上述的语音激活检测方法，其中，所述端点检测为基于短时能量、音高或神经网络的端点检测。

上述的语音激活检测方法，其中，所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。

上述的语音激活检测方法，其中，关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。

上述的语音激活检测方法，其中，所述语音片段为只包括所述激活词的语音片段。

上述的语音激活检测方法，其中，所述双向循环神经网络为BLSTM循环神经网络。

上述的语音激活检测方法，其中，所述步骤S6中，预先训练形成所述双向循环神经网络的训练步骤包括：

步骤S61，对包含激活词的语音进行处理以获取只包含激活词的语音片段；

步骤S62，利用所述只包含激活词的语音片段对所述双向循环神经网络进行训练。

本发明还公开了一种语音激活检测装置，应用于设置有激活词的语音识别设备上，以在对所述语音识别设备进行激活时进行语音检测，包括：

端点检测模块，对待测语音数据进行端点检测，以获取包含语音信号的语音数据；

声学打分模块，与所述端点检测模块连接，以利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率；

动态规划模块，与所述声学打分模块连接，对所述三音子后验概率进行流式动态规划，以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分；

比较模块，与所述动态规划模块连接，且所述比较模块中预先设定有第一阈值，所述比较模块将所述路径得分与预先设定的第一阈值进行比较，并根据比较结果判断所述包含语音信号的语音数据是否为激活语音；

回溯模块，与所述比较模块连接，以在所述比较结果判断所述包含语音信号的语音数据为激活语音时进行回溯，找到所述包含语音信号的语音数据的起始位置，并根据所述起始位置获取语音片段；

处理比较模块，与所述回溯模块连接，并包括预先训练形成的双向循环神经网络，以利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理，并根据处理结果判断是否激活所述语音识别设备。

上述的语音激活检测装置，其中，所述处理比较模块包括处理单元和比较单元；

所述处理单元利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理；

所述比较单元将所述处理结果与预先设定的第二阈值进行比较，并在所述处理结果大于所述第二阈值时激活所述设备。

上述的语音激活检测装置，其中，所述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。

上述的语音激活检测装置，其中，所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。

上述的语音激活检测装置，其中，关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。

上述的语音激活检测装置，其中，所述语音片段为只包括所述激活词的语音片段。

上述的语音激活检测装置，其中，所述双向循环神经网络为BLSTM循环神经网络。

上述发明具有如下优点或者有益效果：

本发明公开的一种语音激活检测方法及装置，采用两次激活检测的方法，并在第一次激活确认中，仅使用声学打分，然后利用动态规划的方法，并依据路径得分和阈值的比较来判断包含语音信号的语音数据是否有可能激活，然后将有可能激活的语音片段送入到第二次使用BLSTM循环神经网络进行语音激活确认的流程中，通过对整条语音的所有帧进行计算，最终判定是否激活语音识别设备；在两次激活确认中，第一次激活的阈值可以设置的适当宽松，以保证较高的检出率；第二次激活确认由于已知起始点，相对更加准确，两次激活检测能够同时降低误激活和漏激活，即有效降低激活的等错误率，从而更加有效的保证激活的性能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明实施例中语音激活检测方法的流程图；

图2是本发明实施例中语音激活检测装置的结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明，但是不作为本发明的限定。

如图1所示，本实施例涉及一种语音激活检测方法，应用于对设置有激活词的语音识别设备进行激活时的语音检测，该方法主要由包括以下步骤：

步骤S1，对待测语音数据进行端点检测，以获取包含语音信号的语音数据。

之所以将端点检测的步骤放在方法流程的第一位，是由于如果持续对待测语音数据(连续语音信号)进行声学计算，会浪费较大的资源，而进行端点检测后后续的声学计算只针对包含语音信号的语音数据进行，这样能够节省计算资源。端点检测的方法有很多，例如使用短时能量的方法，使用音高(pitch)的方法以及使用神经网络的方法等(即端点检测可以为基于短时能量、音高或神经网络的端点检测等)。

在本发明的一个优选的实施例中，采用神经网络的方法对待测语音数据进行端点检测，以获取包含语音信号的语音数据；具体的，神经网络的输入是每一帧语音特征，神经网络的输出有2个节点，分别对应语音和非语音。在持续的帧判断中，设定连续出现一定数量的语音帧则认为是起始端点，连续出现一定数量的非语音帧则认为是结束端点。

步骤S2，利用预先训练形成的语音识别声学模型处理得到关联于包含语音信号的语音数据的三音子后验概率。

在本发明一个优选的实施例中，关联于包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，声学得分矩阵包括包含语音信号的语音数据的每一帧语音在激活词所包含的三音子上的得分，(即得分计算需要得到每一帧语音在激活词所包含的三音子上的得分，最终得到一个声学得分矩阵)。

在本发明一个优选的实施例中，上述语音识别声学模型为基于 GMM-HMM的声学模型或基于DNN(深度神经网络)-HMM框架的声学模型。

步骤S3，对三音子后验概率进行流式动态规划，以处理得到包含语音信号的语音数据在激活词上的路径得分。

在第一次激活确认的流式动态规划中，为了限制搜索空间的大小，需要设定激活词的最短以及最长时间片段。同时这样做也保证了激活词片段的时长，从而增加了可靠性。更具体的讲，是设定了激活词中每个音子的最短以及最长时间片段。

在声学打分矩阵上使用动态规划算法计算出各语音片段的匹配得分，若该语音中有语音片段的匹配得分高于阈值，则包含有唤醒词。具体如下：

对于一个关键词，如“数字”，其包含有2个字，4个声韵母，相当于4个tri-phone，即12个状态，假设其状态号依次为1-12。那么对于一段测试语音，从每一帧的声学打分模型的输出中提取出这12个状态下的概率，作为该帧在“数字”关键词下的声学打分。那么对于一段T帧的语音，则该语音可以转换为12*T的矩阵。

对于该帧长为T的语音，借助于其对应的12*T矩阵，可计算出任一语音片段的匹配得分，计算细节如下：一般来说，每一个状态的长度为2-10帧，那么“数字”关键词的长度为24-120帧。对于语音流中的任意第t帧，将其作为该语音片段的终止帧，向前取24到120帧，即分别将t-120、t-119、…、t-24作为该语音片段的初始帧，从而构成了96种待判别的情况，分别对这96种情况下的矩阵做动态规划，将得到的结果除以帧长得到平均得分，取这96种情况下的最高平均得分作为第t帧的匹配得分。

步骤S4，将路径得分与预先设定的第一阈值进行比较：若路径得分小于第一阈值，则判断包含语音信号的语音数据为非激活语音，随后退出。

经过第一次语音激活判断(第一次语音激活判断包括步骤S3和步骤S4)之后，可以获取到动态规划的路径得分。将这个路径得分与预先设定的第一阈值进行对比，小于此第一阈值的则认为是非激活语音，随后退出；而超过阈值的认为通过了第一次激活检测，继续进行步骤S5。

步骤S5，进行回溯，找到包含语音信号的语音数据的起始位置，并根据起始位置获取语音片段。

具体的，通过第一次激活检测的语音使用过动态规划的回溯算法找到起始点，从而获取到一段可能包含激活词的语音片段。这段语音片段的选择对于后面使用双向循环神经网络进行激活的二次确认有较大的影响，最好是恰好包含激活词的语音片段，这样才能获得最好的效果。

步骤S6，利用预先训练形成的BLSTM(Bidirectional Long Short Term Memory，双向长短时记忆)循环神经网络对语音片段进行前向处理，并根据处理结果判断是否激活语音识别设备。

BLSTM循环神经网络，其中。双向长短时记忆是神经网络学习模型，“双向”表示输入被前向和后向提供给两个单独的回归网络，这两个回归网络均连接至相同的输出层，并且“长短时记忆”表示能够学习长期依赖性的替选的神经架构。

在此，值得一提的是，神经网络，尤其是循环神经网络，由于强大的建模能力而被语音识别领域广泛采用。而双向循环神经网络拥有比单向循环神经网络更加强大的建模能力。但是，需要知道起始点和结束点才能进行准确计算的要求，使得双向循环神经网络在语音领域难以应用；本发明实施例通过第一次激活检测的语音使用动态规划的回溯算法找到起始点，从而获取到一段可能包含激活词的语音片段，进而可以使得双向循环神经网络在语音激活检测中得以应用。

在步骤S6中，BLSTM循环神经网络需要预先进行训练，它包含几个隐藏层，输入为语音片段的特征，输出节点为2，分别代表非激活节点和激活节点。训练数据同样需要进行处理，将包含激活词的语音进行前面的四个处理步骤，得到只包含激活词的语音片段来进行训练。反样本是误激活数据，发音类似激活词，同样经过处理之后得到语音片段来进行训练。训练中，包含真正激活词的语音片段每一帧的标签都设置为1，反之则将每一帧的标签都设置为0。

进行激活词二次确认的时候，将整个语音片段送入到BLSTM循环神经网络中进行计算，每一帧语音都会得到一个输出结果，最后根据所有帧的加权得分。

将语音片段素有帧的BLSTM循环神经网络的输出计算均值，针对标签1的节点设定阈值，输出值大于阈值的，认为语音片段确实是激活词，设备激活；输出值小于阈值的，认为语言片段并非激活词，设备不激活。

如图2所示，本实施例涉及一种语音激活检测装置，应用于设置有激活词的语音识别设备上，以在对语音识别设备进行激活时进行语音检测，具体的，该语音激活检测装置包括对待测语音数据进行端点检测，以获取包含语音信号的语音数据的端点检测模块、与端点检测模块连接，以利用预先训练形成的语音识别声学模型处理得到关联于包含语音信号的语音数据的三音子后验概率的声学打分模块、与声学打分模块连接，对三音子后验概率进行流式动态规划，以处理得到包含语音信号的语音数据在激活词上的路径得分放入动态规划模块、与动态规划模块连接的比较模块、与比较模块连接的回溯模块以及与回溯模块连接的计算比较模块；其中，比较模块中预先设定有第一阈值，该比较模块将路径得分与预先设定的第一阈值进行比较，并根据比较结果判断包含语音信号的语音数据是否为激活语音；回溯模块以在比较结果判断包含语音信号的语音数据为激活语音时进行回溯，找到包含语音信号的语音数据的起始位置，并根据起始位置获取语音片段；处理比较模块包括预先训练形成的双向循环神经网络，以利用预先训练形成的双向循环神经网络对语音片段进行前向处理，并根据处理结果判断是否激活语音识别设备。

在本发明一个优选的实施例中，上述处理比较模块包括利用预先训练形成的双向循环神经网络对语音片段进行前向处理的处理单元和将处理结果与预先设定的第二阈值进行比较，并在处理结果大于第二阈值时激活设备的比较单元。

在本发明一个优选的实施例中，上述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。

在本发明一个优选的实施例中，上述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。

在本发明一个优选的实施例中，上述关联于包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，声学得分矩阵包括包含语音信号的语音数据的每一帧语音在激活词所包含的三音子上的得分。

在本发明一个优选的实施例中，上述语音片段为只包括激活词的语音片段。

在本发明一个优选的实施例中，上述双向循环神经网络为BLSTM双向循环神经网络。

不难发现，本实施例为与上述语音激活检测方法的实施例相对应的结构实施例，本实施例可与上述语音激活检测方法的实施例互相配合实施。上述语音激活检测方法的实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述语音激活检测方法的实施例中。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

一种语音激活检测方法，其特征在于，应用于对设置有激活词的语音识别设备进行激活时的语音检测，包括以下步骤：

步骤S1，对待测语音数据进行端点检测，以获取包含语音信号的语音数据；

步骤S2，利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率；

步骤S3，对所述三音子后验概率进行流式动态规划，以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分；

步骤S4，将所述路径得分与预先设定的第一阈值进行比较：

若所述路径得分小于所述第一阈值，则判断所述包含语音信号的语音数据为非激活语音，随后退出；

步骤S5，进行回溯，找到所述包含语音信号的语音数据的起始位置，并根据所述起始位置获取语音片段；

步骤S6，利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理，并根据处理结果判断是否激活所述语音识别设备。
如权利要求1所述的语音激活检测方法，其特征在于，所述步骤S6中，根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括：

将所述处理结果与预先设定的第二阈值进行比较，并在所述处理结果大于所述第二阈值时激活所述设备。
如权利要求1所述的语音激活检测方法，其特征在于，所述端点检测为基于短时能量、音高或神经网络的端点检测。
如权利要求1所述的语音激活检测方法，其特征在于，所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
如权利要求1所述的语音激活检测方法，其特征在于，关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
如权利要求1所述的语音激活检测方法，其特征在于，所述语音片段为只包括所述激活词的语音片段。
如权利要求1所述的语音激活检测方法，其特征在于，所述双向循环神经网络为BLSTM循环神经网络。
如权利要求1所述的语音激活检测方法，其特征在于，所述步骤S6中，预先训练形成所述双向循环神经网络的训练步骤包括：

步骤S61，对包含激活词的语音进行处理以获取只包含激活词的语音片段；

步骤S62，利用所述只包含激活词的语音片段对所述双向循环神经网络进行训练。
一种语音激活检测装置，其特征在于，应用于设置有激活词的语音识别设备上，以在对所述语音识别设备进行激活时进行语音检测，包括：

端点检测模块，对待测语音数据进行端点检测，以获取包含语音信号的语音数据；

声学打分模块，与所述端点检测模块连接，以利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率；

动态规划模块，与所述声学打分模块连接，对所述三音子后验概率进行流式动态规划，以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分；

比较模块，与所述动态规划模块连接，且所述比较模块中预先设定有第一阈值，所述比较模块将所述路径得分与预先设定的第一阈值进行比较，并根据比较结果判断所述包含语音信号的语音数据是否为激活语音；

回溯模块，与所述比较模块连接，以在所述比较结果判断所述包含语音信号的语音数据为激活语音时进行回溯，找到所述包含语音信号的语音数据的起始位置，并根据所述起始位置获取语音片段；

处理比较模块，与所述回溯模块连接，并包括预先训练形成的双向循环神经网络，以利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理，并根据处理结果判断是否激活所述语音识别设备。
如权利要求9所述的语音激活检测装置，其特征在于，所述处理比较模块包括处理单元和比较单元；

所述处理单元利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理；

所述比较单元将所述处理结果与预先设定的第二阈值进行比较，并在所述处理结果大于所述第二阈值时激活所述设备。
如权利要求9所述的语音激活检测装置，其特征在于，所述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。
如权利要求9所述的语音激活检测装置，其特征在于，所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
如权利要求9所述的语音激活检测装置，其特征在于，关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵，所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
如权利要求9所述的语音激活检测装置，其特征在于，所述语音片段为只包括所述激活词的语音片段。
如权利要求9所述的语音激活检测装置，其特征在于，所述双向循环神经网络为BLSTM循环神经网络。