WO2017071182A1

WO2017071182A1 - 一种语音唤醒方法、装置及系统

Info

Publication number: WO2017071182A1
Application number: PCT/CN2016/082401
Authority: WO
Inventors: 王育军
Original assignee: 乐视控股（北京）有限公司; 乐视致新电子科技（天津）有限公司
Priority date: 2015-10-26
Filing date: 2016-05-17
Publication date: 2017-05-04
Also published as: RU2016135447A3; EP3179475A4; RU2016135447A; EP3179475A1; CN105654943A

Abstract

一种语音唤醒方法、装置及系统，该方法包括：对获取的当前输入语音进行语音特征提取（101）；根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在指令词，关键词检测模型中的关键词至少包括预设的指令词（102）；当当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行相应操作（103）。由于对输入语音检测出指令词后，直接唤醒语音识别器，根据指令词执行相应操作，不需要在检测到唤醒词后，唤醒语音识别器，再重新检测新的输入语音中是否存在指令词，节省了资源。并且对于用户而言，不需要每次先说唤醒词，再说指令词，提高了用户体验。

Description

一种语音唤醒方法、装置及系统

本申请要求在2015年10月26日提交中国专利局、申请号为201510702094.1、发明名称为“一种语音唤醒方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音唤醒方法、装置及系统。

背景技术

随着语音技术的发展，很多智能设备都可以通过语音与用户进行交互。智能设备的语音交互系统通过对用户的语音进行识别，完成用户的指令。在传统的语音交互中，用户通常手动激活语音，比如按下录音键，才可以进行语音交互。为了使用户更加顺畅的切入语音，模拟在人与人交互的开始呼唤对方的行为，设计了语音唤醒功能。

目前，现有的语音唤醒方式主要为：在与智能设备进行语音交互之前，用户首先需要说唤醒词，唤醒词可以是针对智能设备预先设置的。语音交互系统的唤醒模块对语音进行检测，提取语音特征，确定提取到的语音特征与预设的唤醒词的语音特征是否匹配，如果匹配，唤醒识别模块，对后续输入的语音指令进行语音识别和语义解析。例如：用户想要使用电视的语音交互系统，指示电视转换到体育频道。首先用户需要说唤醒词，比如“你好电视”，唤醒模块检测到唤醒词后，激活识别模块。识别模块开始检测语音指令。此时，用户说“看体育频道”，识别模块识别语音指令，并根据指令将频道转换到体育频道。在完成指令识别后，识别模块关闭不再工作，如果用户想要再次发出指令，需要再次说唤醒词唤醒识别模块。

上述现有的语音唤醒方式中，由于用户在每次发出指令前，都需要进行语音唤醒，即需要先说唤醒词，再发出指令的语音，使得语音交互系统完成一个指令操作后，需要重新进行关键词检测，浪费系统资源；并且对于用户而言，每次发出指令之前，都需要说一次唤醒词，语音唤醒方式繁琐，用户体验较差。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用以解决现有技术中的对语音交互系统进行语音唤醒时造成的系统资源浪费、用户体验差的问题。

本发明实施例提供一种语音唤醒方法，包括：

对获取的当前输入语音进行语音特征提取；

根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型中的关键词至少包括预设的指令词；

当所述当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。

本发明实施例提供一种语音唤醒装置，包括：

提取单元，用于对获取的当前输入语音进行语音特征提取；

指令词确定单元，用于根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型中的关键词至少包括预设的指令词；

第一唤醒单元，用于当所述当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。

本发明实施例提供一种语音唤醒系统，包括：关键词检测模块和语音识别器，其中：

所述关键词检测模块，用于对获取的当前输入语音进行语音特征提取；根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型至少包括指令词检测；当所述当前输入语音中存在指令词时，唤醒语音识别器，并将所述当前输入语音发送给所述语音识别器；

所述语音识别器，用于对所述当前输入语音进行语义解析，得到所述当前输入语音的语义；确定所述当前输入语音的语义与设定的指令语义匹配；根据所述指令词发出执行指令词指示的相应的操作的命令。

本发明实施例提供的语音唤醒方法及装置的有益效果包括：由于对输入语音检测出指令词后，直接唤醒语音识别器，根据指令词执行相应操作，不需要在检测到唤醒词后，唤醒语音识别器，再重新检测新的输入语音中是否存在指令词，节省了资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中语音唤醒方法的流程图；

图2为本发明实施例中关键词检测模型为隐马尔科夫模型的结构示意图；

图3为本发明实施例1中语音唤醒方法的流程图；

图4为本发明实施例2中语音唤醒装置的结构示意图；

图5为本发明实施例3中语音唤醒系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音唤醒方法，如图1所示，包括：

步骤101、对获取的当前输入语音进行语音特征提取。

步骤102、根据提取到的语音特征，按照预先构建的关键词检测模型，确定该当前输入语音中是否存在指令词，该关键词检测模型中的关键词至少包括预设的指令词。

步骤103、当该当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。

本发明实施例中的语音唤醒方法可以应用在带有语音交互功能的智能设备上，例如：电视、手机、电脑、智能冰箱等。语音特征可以为频谱或倒谱系数。关键词检测模型中的关键词可以为预先设置的指令词，指令词是用于指示智能设备执行具体操作的词组，例如：指令词可以为“看体育频道”、“导航到”或“播放”等。当前输入语音可以通过关键词检测模型检测。

本发明实施例中，在检测输入语音中是否存在指令词之前，首先要构建好关键词检测模型，具体构建关键词检测模型的方式如下：

一般的，用户如果想要使用语音交互功能，可以说预先设置的关键词，该关键词可以为唤醒词，也可以为指令词。其中，唤醒词是用来唤醒语音识别器的词组，唤醒词通常选用发声声母较多的词组，比如词组中包含以m、n、l、r等声母开头的汉字，因为发声声母存在声带振动，可以较好的与环境噪声区分开，具有较好的抗噪性，例如：唤醒词可以设置为“你好乐乐”或者“嗨乐乐”。指令词是用来指示该智能设备执行相应操作的词组。指令词的特点是能反映该智能设备专有的功能，比如“导航到”是与具有导航功能的设备(例如汽车)高度相关的，“播放”通常是与具有多媒体功能的设备(例如电视和手机)高度相关的。指令词可以直接反映出用户的意图。语音特征可以为频谱或者倒谱系数等，每10毫秒可以从输入语音的信号中提取一帧语音特征向量。

用户在说关键词时，可以说唤醒词，也可以说指令词，在不同的应用场景中，关键词通常是不同，这就需要针对不同的应用场景预先构建关键词检测模型。构建关键词检测模型也就是要构建声学模型。由于声学模型可以有很多表述方式，例如隐马尔科夫模型、或神经网络模型等。本发明实施例中，以隐马尔科夫模型表述关键词检测模型为例，如图2所示，每个关键词可以在隐马尔科夫模型中展开成一条隐马尔科夫链，即关键词状态链，每条链上的每一个节点对应关键词音素的一个状态的声学参数。每条关键词状态链的两端节点分别设置一个短静音状态，以及一个标识关键词类型的空尾状态，空尾状态即标识该条隐马尔科夫链表示为唤醒词或者指令词，如图3中每条链的黑点节点。节点可以往前跳转，表示发声状态的变化，例如元音时口型的变化；也可以自跳转，自跳转表示发声暂时不变，例如元音中较为稳定的发音状态。每条链的开始有静音状态节点。在隐马尔科夫状态链中，将除了关键词音素以外的音素组合构成垃圾词状态链，垃圾词状态链尾部也有一个空尾状态，表示该条隐马尔科夫链为垃圾词。

以隐马尔科夫模型表述关键词检测模型为例，构建关键词检测模型的方式可以为如下两种方式：

第一种方式：

针对语音中的每一个音素，在语料库中提取每个因素对应的声学参数样本。从音质的角度划分，语音的最小单位是音素。音素可以分为元音和辅音两大类，包括10个元音，22个辅音，共有32个音素。在隐马尔科夫模型中，根据语音特征，通常为一个音素设定三个状态，每个状态反映了该音素的声音特性，例如：可以表示发该音素时声道的形状变化。语料库是用于保存语音文本和该语音文件对应的语音的，语音文本可以为不同领域内的内容，语音文件对应的语音可以为对不同的人阅读语音文本的录音。由于不同的语音文本中可能包含相同的音素，在语料库中提取每个音素对应的声学参数样本，声学参数即为表征音素状态的参数。例如，提取音素a对应的声学参数样本，a的三个状态为b、c、d，每个状态分别提取n个样本，那么状态b对应的样本为b1、b2……bn，状态c对应的样本为c1、c2……cn，状态c对应的样本为c1、c2……cn。

按照预设的训练算法，对每个音素对应的声学参数样本进行训练，得到声学模型。声学模型为音素与对应的声学参数的对应关系。预设的训练算法可以为算术平均算法，例如：将音素a的三个状态b、c、d的样本分别进行算术平均b′＝(b1+b2+……+bn)/n，c′＝(c1+c2+……+cn)/n，d′＝(d1+d2+……+dn)/n，b′、c′、d′为音素a对应的声学参数。还可以将音素a的三个状态b、c、d的样本分别求方差，将得到的方差作为音素a对应的声学参数。进一步的，还可以采用现有技术中的隐马尔科夫模型和神经网络结合的方式，使用反向传播法训练每个神经元的权重，确定神经网络模型，神经网络模型的输入为音素，输出为该音素对应的声学参数。声学模型即为32个音素的每一个音素分别与该音素的声学参数的对应关系。

在根据不同的应用场景确定关键词后，在发音词典中查找各关键词对应的关键词音素。发音词典是用于保存词组包括的音素的。确定关键词音素后，将声学模型中与关键词音素对应的声学参数构建为关键词检测模型。

第二种方式：

该方式中不需要对每一个音素都确定对应的声学参数，只需要确定与关键词音素对应的声学参数即可。

根据不同的应用场景确定关键词，在发音词典中查找各关键词对应的关键词音素。

在语料库中提取关键词音素对应的声学参数样本。

按照预设的训练算法，对关键词音素对应的声学参数样本进行训练，得到关键词检测模型。其中采用的训练算法与第一种方式中采用的算法相同，在此不再进行详细描述。

下面结合附图，用具体实施例对本发明提供的方法及装置和相应系统进行详细描述。

实施例1：

图3为本发明实施例1提供的语音唤醒方法的流程图，具体包括如下处理步骤：

步骤301、智能设备对当前输入语音进行语音特征提取。

本发明实施例中，带有语音交互功能的智能设备监听是否有语音输入。智能设备中的关键词检测模块用来检测当前输入语音中的关键词。

本步骤中，可以采用现有的声学模型评估对当前输入语音进行特征提取。其中，语音特征可以为频谱或倒谱系数。关键词检测模块可以采用关键词检测模型检测输入语音中的关键词，本发明实施例中，以该关键词检测模型为隐马尔科夫模型为例。隐马尔科夫模型可以通过静音状态节点确定语音的开始和结束，确定得到当前输入语音。

步骤302、采用声学模型评估，对提取到的语音特征，在隐马尔科夫模型中的每一条隐马尔科夫链上进行关键词确认，得到该隐马尔科夫链的分数。

本步骤中，采用提取到的语音特征与每一条隐马尔科夫链的状态进行比较，得到该隐马尔科夫链的分数，该分数表征了当前输入语音中的词组与各关键词的相似度，分数越高，相似度越高。

步骤303、确认分数最高的隐马尔科夫链对应的词组是否为预设的指令词，如果是，进入步骤304，如果否，进入步骤312。

本步骤中，可以根据隐马尔科夫链的空尾状态，确定分数最高的隐马尔科夫链对应的词组是否为预设的指令词。

步骤304、唤醒语音识别器。

本发明实施例中，语音识别器一般部署在云端的服务器上。

步骤305、将当前输入语音发送给语音识别器。

步骤306、语音识别器对该当前输入语音进行语义解析，得到该当前输入语音的语义。

由于从当前输入语音中检测到指令词时，该指令词并不一定标识用户所说的话是语音指令，也可能是当前输入语音中恰巧含有指令词，但用户的意图并非是该指令词。例如：用户说“葫芦岛航道”里面含有类似“导航到”的发音，但用户的真正意图并不是指示导航到某个目的地。其中，对当前输入语音进行语义解析可以采用现有技术中的方法，例如，可以采用基于模板匹配的方法，或者基于序列标注的方法，具体处理方式在此不再进行详细描述。

步骤307、语音识别器确定该当前输入语音的语义与设定的指令语义是否匹配，如果是，进入步骤308，如果否，进入步骤310。

本步骤中，设定的指令语义为根据应用场景设定的包含多个语义词组，例如包含“指令词”+“地点名词”。例如，对于应用在导航功能的导航器，设定的指令语音为“导航到”+“地点名词”，该地点名词可以为北京、海淀区中关村、西土城等。将已确定的当前输入语音的语义与各个设定的指令语义进行对比，如果找到与当前输入语音的语音相符的，则匹配成功，进入步骤308，如果未找到与当前输入语音的语音相符的，则匹配失败，进入步骤310。

步骤308、语音识别器向智能设备发送匹配成功消息。

步骤309、智能设备根据指令词执行指令词指示的相应的操作。

本步骤中，如果该智能设备是电视，用户说“看体育频道”，当智能电视接收到语义识别器发送的匹配成功消息后，直接切换到体育频道。而现有技术中用户首先需要说唤醒词(例如：你好乐乐)，唤醒语音识别器后，用户再说指令词“看体育频道”。

步骤310、语音识别器向智能设备发送匹配失败消息。

步骤311、该智能设备接收到该匹配失败消息后，不做任何处理。

步骤312、确认分数最高的隐马尔科夫链对应的词组是唤醒词还是垃圾词，如果是唤醒词，进入步骤313，如果是垃圾词，进入步骤314。

步骤313、唤醒语音识别器。

本步骤中，如果智能设备从当前输入语音中检测出唤醒词，则唤醒语音识别器。用户在说出唤醒词后，通常会继续说出指令词，智能设备继续进行关键词检测，确定当前输入语音中是否存在指令词，具体的检测方式与上述步骤301-步骤311相同，在此不再进行详细描述。

步骤314、当分数最高的隐马尔科夫链对应的词组是垃圾词时，确定当前输入语音中未包括关键词。

进一步的，确定当前输入语音中未包括关键词时，关键词检测模型回到检测入口继续检测输入语音。

通过本发明实施例1提供的方法，由于对输入语音检测出指令词后，直接唤醒语音识别器，根据指令词执行相应操作，不需要在检测到唤醒词后，唤醒语音识别器，再重新检测新的输入语音中是否存在指令词，节省了资源，并且对于用户而言，不需要每次先说唤醒词，再说指令词，提高了用户体验。

实施例2：

基于同一发明构思，根据本发明上述实施例提供的语音唤醒方法，相应地，本发明实施例2还提供了一种语音唤醒装置，其结构示意图如图4所示，具体包括：

提取单元401，用于对当前输入语音进行语音特征提取。

具体的，可以采用现有的声学模型评估对当前输入语音进行特征提取。其中，语音特征可以为频谱或倒谱系数。当前输入语音可以通过预先构建的关键词检测模型检测。

指令词确定单元402，用于根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在指令词，关键词检测模型中的关键词至少包括预设的指令词。

本发明实施例中，语音唤醒装置检测输入语音中的关键词。一般的，用户如果想要使用语音交互功能，可以说预先设置的关键词，该关键词可以为唤醒词，也可以为指令词。其中，唤醒词是用来唤醒语音识别器的词组，唤醒词通常选用发声声母较多的词组，比如词组中包含以m、n、l、r等声母开头的汉字，因为发声声母存在声带振动，可以较好的与环境噪声区分开，具有较好的抗噪性，例如：唤醒词可以设置为“你好乐乐”或者“嗨乐乐”。指令词是用来指示该智能设备执行相应操作的词组，指令词的特点是能反映该智能设备专有的功能，比如“导航到”是与具有导航功能的设备(例如汽车)高度相关的，“播放”通常是与具有多媒体功能的设备(例如电视和手机)高度相关的，指令词可以直接反映出用户的意图。语音特征可以为频谱或者倒谱系数等，每10毫秒可以从输入语音的信号中提取一帧语音特征向量。

第一唤醒单元403，用于当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。

以电视上包括该语音唤醒装置为例，用户说“看体育频道”，当智能电视接收到语义识别器发送的匹配成功消息后，直接切换到体育频道。而现有技术中用户首先需要说唤醒词(例如：你好乐乐)，唤醒语音识别器后，用户再说指令词“看体育频道”。

进一步的，上述装置，还包括：

获取单元404，用于获取对当前输入语音的语义与指令语义进行匹配的匹配成功消息，匹配成功消息为语音识别器对输入语音进行语义解析，得到输入语音的语义，并对输入语音的语义与设定的指令语义进行匹配成功后发送的。

由于从当前输入语音中检测到指令词时，该指令词并不一定标识用户所说的话是语音指令，也可能是当前输入语音中恰巧含有指令词，但用户的意图并非是该指令词。例如：用户说“葫芦岛航道”里面含有类似“导航到”的发音，但用户的真正意图并不是指示导航到某个目的地。设定的指令语义为根据应用场景设定的包含多个语义词组，例如包含“指令词”+“地点名词”。例如，对于应用在导航功能的导航器，设定的指令语音为“导航到”+“地点名词”，该地点名词可以为北京、海淀区中关村、西土城等，将已确定的当前输入语音的语义与各个设定的指令语义进行对比，如果找到与当前输入语音的语音相符的，则匹配成功，如果未找到与当前输入语音的语音相符的，则匹配失败。

进一步的，指令词确定单元402，具体用于针对语音中的每一个音素，在语料库中提取每个音素对应的声学参数样本，语料库是用于保存语音文本和语音文本对应的语音的；按照预设的训练算法，对每一个音素对应的声学参数样本进行训练，得到声学模型，声学模型为音素与对应的声学参数的对应关系；在发音词典中查找关键词对应的关键词音素，并将声学模型中关键词音素与对应的声学参数构建为关键词检测模型，发音词典是用于保存词组包括的音素的。

进一步的，指令词确定单元402，具体用于在发音词典中查找关键词对应的关键词音素，发音词典是用于保存词组包括的音素的；在语料库中提取关键词音素对应的声学参数样本，语料库是用于保存语音文本对应的语音的；按照预设的训练算法，对关键词音素对应的声学参数样本进行训练，得到关键词检测模型。

用户在说关键词时，可以说唤醒词，也可以说指令词，在不同的应用场景中，关键词通常是不同，这就需要针对不同的应用场景预先构建关键词检测模型。构建关键词检测模型也就是要构建声学模型。由于声学模型可以有很多表述方式，例如隐马尔科夫模型、或神经网络模型等。本发明实施例中，以隐马尔科夫模型表述关键词检测模型为例。如图2所示，每个关键词可以在隐马尔科夫模型中展开成一条隐马尔科夫链，即关键词状态链，每条链上的每一个节点对应关键词音素的一个状态的声学参数。每条关键词状态链的两端节点分别设置一个短静音状态，以及一个标识关键词类型的空尾状态，空尾状态即标识该条隐马尔科夫链表示为唤醒词或者指令词，如图3中每条链的黑点节点。节点可以往前跳转，表示发声状态的变化，例如元音时口型的变化；也可以自跳转，自跳转表示发声暂时不变，例如元音中较为稳定的发音状态。每条链的开始有静音状态节点。在隐马尔科夫状态链中，将除了关键词音素以外的音素组合构成垃圾词状态链，垃圾词状态链尾部也有一个空尾状态，表示该条隐马尔科夫链为垃圾词。隐马尔科夫模型可以通过静音状态节点确定语音的开始和结束，确定得到当前输入语音。

第一种方式：

第二种方式：

在语料库中提取关键词音素对应的声学参数样本。

指令词确定单元402，具体用于采用声学模型评估，对提取到的语音特征，在隐马尔科夫模型中的每一条隐马尔科夫链上进行指令词确认，得到该隐马尔科夫链的指令词确认分数；确认与指令词确认分数最高对应的隐马尔科夫链的词组是否为预设的指令词。

指令词确定单元402，采用现有的声学模型评估将提取到的语音特征与每一条隐马尔科夫链的状态进行比较，得到该隐马尔科夫链的分数，该分数表征了输入语音中的词组与各关键词的相似度，分数越高，相似度越高。

进一步的，关键词检测模型中的关键词还包括预设的唤醒词；

进一步的，上述装置还包括：

第二唤醒单元405，用于当根据提取到的语音特征，按照预先构建的关键词检测模型，确定输入语音中存在唤醒词时，唤醒语音识别器。

上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤，在此不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

通过本发明实施例1提供的装置，由于对输入语音检测出指令词后，直接唤醒语音识别器，根据指令词执行相应操作，不需要在检测到唤醒词后，唤醒语音识别器，再重新检测新的输入语音中是否存在指令词，节省了资源，并且对于用户而言，不需要每次先说唤醒词，再说指令词，提高了用户体验。

实施例3：

基于同一发明构思，根据本发明上述实施例提供的语音唤醒方法，相应地，本发明实施例3还提供了一种语音唤醒系统，其结构示意图如图5所示，包括：关键词检测模块501和语音识别器502，其中：

关键词检测模块501，用于对获取的当前输入语音进行语音特征提取；根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在指令词，关键词检测模型至少包括指令词检测；当当前输入语音中存在指令词时，唤醒语音识别器，并将当前输入语音发送给语音识别器。

当前输入语音可以通过预先构建的关键词检测模型检测。

预先构建的关键词检测模型具体采用如下方式构建：

一般的，用户如果想要使用语音交互功能，可以说预先设置的关键词，该关键词可以为唤醒词，也可以为指令词。其中，唤醒词是用来唤醒语音识别器的词组，唤醒词通常选用发声声母较多的词组，比如词组中包含以 m、n、l、r等声母开头的汉字，因为发声声母存在声带振动，可以较好的与环境噪声区分开，具有较好的抗噪性，例如：唤醒词可以设置为“你好乐乐”或者“嗨乐乐”。指令词是用来指示该智能设备执行相应操作的词组，指令词的特点是能反映该智能设备专有的功能，比如“导航到”是与具有导航功能的设备(例如汽车)高度相关的，“播放”通常是与具有多媒体功能的设备(例如电视和手机)高度相关的，指令词可以直接反映出用户的意图。语音特征可以为频谱或者倒谱系数等，每10毫秒可以从输入语音的信号中提取一帧语音特征向量。

用户在说关键词时，可以说唤醒词，也可以说指令词，在不同的应用场景中，关键词通常是不同，这就需要针对不同的应用场景预先构建关键词检测模型。构建关键词检测模型也就是要构建声学模型。由于声学模型可以有很多表述方式，例如隐马尔科夫模型、或神经网络模型等。本发明实施例中，以隐马尔科夫模型表述关键词检测模型为例。如图3所示，每个关键词可以在隐马尔科夫模型中展开成一条隐马尔科夫链，即关键词状态链，每条链上的每一个节点对应关键词音素的一个状态的声学参数。每条关键词状态链的两端节点分别设置一个短静音状态，以及一个标识关键词类型的空尾状态，空尾状态即标识该条隐马尔科夫链表示为唤醒词或者指令词，如图3中每条链的黑点节点。节点可以往前跳转，表示发声状态的变化，例如元音时口型的变化；也可以自跳转，自跳转表示发声暂时不变，例如元音中较为稳定的发音状态。每条链的开始有静音状态节点。在隐马尔科夫状态链中，将除了关键词音素以外的音素组合构成垃圾词状态链，垃圾词状态链尾部也有一个空尾状态，表示该条隐马尔科夫链为垃圾词。

第一种方式：

按照预设的训练算法，对每个音素对应的声学参数样本进行训练，得到声学模型。声学模型为音素与对应的声学参数的对应关系。预设的训练算法可以为算术平均算法，例如：将音素a的三个状态b、c、d的样本分别进行算术平均b′＝(b1+b2+……+bn)/n，c′＝(c1+c2+……+cn)/n，d′＝(d1+d2+……+dn)/n，b′、c′、d′为音素a对应的声学参数。还可以将音素a的三个状态b、c、d的样本分别求方差，将得到的方差作为音素a对应的声学参数。进一步的，还可以采用现有技术中的隐马尔科夫模型和神经网络结合的方式，使用反向传播法训练每个神经元的权重，确定神经网络模型，神经网络模型的输入为音素，输出为该音素对应的声学参数声学模型即为32个音素的每一个音素分别与该音素的声学参数的对应关系。

第二种方式：

在语料库中提取关键词音素对应的声学参数样本。

关键词检测模块501，可以采用声学模型评估，对提取到的语音特征，在隐马尔科夫模型中的每一条隐马尔科夫链上进行关键词确认，得到该隐马尔科夫链的分数。该分数表征了输入语音中的词组与各关键词的相似度，分数越高，相似度越高。确认分数最高的隐马尔科夫链对应的词组是否为预设的指令词，具体的，可以根据隐马尔科夫链的空尾状态，确定分数最高的隐马尔科夫链对应的词组是否为预设的指令词，如果分数最高的隐马尔科夫链对应的词组是预设的指令词，则唤醒语音识别器，并将输入语音发送给语音识别器502。

语音识别器502，用于对当前输入语音进行语义解析，得到当前输入语音的语义；确定当前输入语音的语义与设定的指令语义匹配；根据指令词发出执行指令词指示的相应的操作的命令。

由于从输入语音中检测到指令词时，该指令词并不一定标识用户所说的话是语音指令，也可能是输入语音中恰巧含有指令词，但用户的意图并非是该指令词。例如：用户说“葫芦岛航道”里面含有类似“导航到”的发音，但用户的真正意图并不是指示导航到某个目的地。因此，要对检测到的指令词进行语义解析。

本发明实施例3中提供的上述如图5所示的语音唤醒系统，其中所包括的关键词检测模块501和语音识别器502进一步的功能，可对应于图2、图3所示流程中的相应处理步骤，在此不再赘述。

综上所述，本发明实施例提供的方案，包括：对获取的当前输入语音进行语音特征提取；根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在指令词，关键词检测模型中的关键词至少包括预设的指令词；当该当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行相应操作。采用本发明实施例提供的方案，由于对当前输入语音检测出指令词后，直接唤醒语音识别器，根据指令词执行相应操作，不需要在检测到唤醒词后，唤醒语音识别器，再重新检测新的输入语音中是否存在指令词，节省了资源。并且对于用户而言，不需要每次先说唤醒词，再说指令词，提高了用户体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种语音唤醒方法，其特征在于，包括：

对获取的当前输入语音进行语音特征提取；

根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型中的关键词至少包括预设的指令词；

当所述当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。
根据权利要求1所述的方法，其特征在于，在根据指令词执行指令词指示的相应操作之前，还包括：

获取对所述当前输入语音的语义与指令语义进行匹配的匹配成功消息，所述匹配成功消息为所述语音识别器对所述输入语音进行语义解析，得到所述当前输入语音的语义，并对所述当前输入语音的语义与设定的指令语义进行匹配成功后发送的。
根据权利要求1所述的方法，其特征在于，构建关键词检测模型，具体包括：

针对语音中的每一个音素，在语料库中提取每个音素对应的声学参数样本，所述语料库是用于保存语音文本和所述语音文本对应的语音的；

按照预设的训练算法，对每一个音素对应的声学参数样本进行训练，得到声学模型，所述声学模型为音素与对应的声学参数的对应关系；

在发音词典中查找关键词对应的关键词音素，并将声学模型中关键词音素与对应的声学参数构建为关键词检测模型，所述发音词典是用于保存词组包括的音素的。
根据权利要求1所述的方法，其特征在于，构建关键词检测模型，具体包括：

在发音词典中查找关键词对应的关键词音素，所述发音词典是用于保存词组包括的音素的；

在语料库中提取所述关键词音素对应的声学参数样本，所述语料库是用于保存语音文本对应的语音的；

按照预设的训练算法，对所述关键词音素对应的声学参数样本进行训练，得到关键词检测模型。
根据权利要求1所述的方法，其特征在于，所述关键词检测模型为隐马尔科夫链模型；

根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述输入语音中是否存在指令词，具体包括：

采用声学模型评估，对提取到的语音特征，在隐马尔科夫模型中的每一条隐马尔科夫链上进行指令词确认，得到该隐马尔科夫链的指令词确认分数；

确认与所述指令词确认分数最高的隐马尔科夫链对应的词组是否为预设的指令词。
根据权利要求1所述的方法，其特征在于，所述关键词检测模型中的关键词还包括预设的唤醒词；

所述方法，还包括：

当根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述输入语音中存在唤醒词时，唤醒语音识别器。
一种语音唤醒装置，其特征在于，包括：

提取单元，用于对获取的当前输入语音进行语音特征提取；

指令词确定单元，用于根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型中的关键词至少包括预设的指令词；

第一唤醒单元，用于当所述当前输入语音中存在指令词时，唤醒语音识别器，并根据指令词执行指令词指示的相应操作。
根据权利要求7所述的装置，其特征在于，还包括：

获取单元，用于获取对所述当前输入语音的语义与指令语义进行匹配的匹配成功消息，所述匹配成功消息为所述语音识别器对所述输入语音进行语义解析，得到所述当前输入语音的语义，并对所述当前输入语音的语义与设定的指令语义进行匹配成功后发送的。
根据权利要求7所述的装置，其特征在于，所述指令词确定单元，具体用于针对语音中的每一个音素，在语料库中提取每个音素对应的声学参数样本，所述语料库是用于保存语音文本和所述语音文本对应的语音的；按照预设的训练算法，对每一个音素对应的声学参数样本进行训练，得到声学模型，所述声学模型为音素与对应的声学参数的对应关系；在发音词典中查找关键词对应的关键词音素，并将声学模型中关键词音素与对应的声学参数构建为关键词检测模型，所述发音词典是用于保存词组包括的音素的。
根据权利要求7所述的装置，其特征在于，所述指令词确定单元，具体用于在发音词典中查找关键词对应的关键词音素，所述发音词典是用于保存词组包括的音素的；在语料库中提取所述关键词音素对应的声学参数样本，所述语料库是用于保存语音文本对应的语音的；按照预设的训练算法，对所述关键词音素对应的声学参数样本进行训练，得到关键词检测模型。
根据权利要求7所述的装置，其特征在于，所述关键词检测模型为隐马尔科夫链模型；

所述指令词确定单元，具体用于采用声学模型评估，对提取到的语音特征，在隐马尔科夫模型中的每一条隐马尔科夫链上进行指令词确认，得到该隐马尔科夫链的指令词确认分数；确认与所述指令词确认分数最高对应的隐马尔科夫链的词组是否为预设的指令词。
根据权利要求7所述的装置，其特征在于，所述关键词检测模型中的关键词还包括预设的唤醒词；

所述装置，还包括：

第二唤醒单元，用于当根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述输入语音中存在唤醒词时，唤醒语音识别器。
一种语音唤醒系统，其特征在于，包括：关键词检测模块和语音识别器，其中：

所述关键词检测模块，用于对获取的当前输入语音进行语音特征提取；根据提取到的语音特征，按照预先构建的关键词检测模型，确定所述当前输入语音中是否存在指令词，所述关键词检测模型至少包括指令词检测；当所述当前输入语音中存在指令词时，唤醒语音识别器，并将所述当前输入语音发送给所述语音识别器；

所述语音识别器，用于对所述当前输入语音进行语义解析，得到所述当前输入语音的语义；确定所述当前输入语音的语义与设定的指令语义匹配；根据所述指令词发出执行指令词指示的相应的操作的命令。