WO2020140487A1

WO2020140487A1 - 用于智能设备的人机交互语音识别方法及系统

Info

Publication number: WO2020140487A1
Application number: PCT/CN2019/106778
Authority: WO
Inventors: 孙鹏飞; 贾洪园; 李春生
Original assignee: 苏宁云计算有限公司; 苏宁易购集团股份有限公司
Priority date: 2019-01-02
Filing date: 2019-09-19
Publication date: 2020-07-09
Also published as: CN109785833A; CA3166784A1

Abstract

一种用于智能设备的人机交互语音识别方法及系统，属于语音识别技术领域，通过将意图识别和槽位填充进行联合优化训练，以提高语音识别的准确率。该方法包括：将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对原始词序列进行向量化表示；通过将隐含状态向量h _i和槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S；通过将隐含状态向量hT和意图上下文向量c ^I加权处理后得到意图预测模型y ^I；使用槽位门g对槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示；对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建目标函数，并基于目标函数对用户的语音问题进行意图识别。

Description

用于智能设备的人机交互语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于智能设备的人机交互语音识别方法及系统。

背景技术

随着互联网技术的发展，使用语音进行人机交互的智能设备越来越多，现有的语音交互系统有Siri、小蜜、Cortana、小冰、度秘等，语音人机交互相比较于传统的手动输入人机交互而言具备便捷高效的特点，具有广泛的应用场景，在语音识别的过程中，意图识别及槽位填充技术是保证语音识别结果准确率的关键。

对于意图识别来说，可以将其抽象为一个分类问题，然后使用CNN+知识表示的分类器训练意图识别模型，在意图识别模型中除了将用户的语音问题进行单词嵌入外，还引入了知识的语义表示来增加表示层的泛化能力，但在实际应用中发现该模型存在槽位信息填充偏差的缺陷，影响了意图识别模型的准确性。对于槽位填充来说，其本质是将句子序列形式化为标注序列，常用的标注序列的方法有很多，如隐马尔科夫模型或者条件随机场模型，但是这些槽位填充模型在特定的应用场景中，由于缺乏上下文信息会导致槽位在不同语义意图下存在歧义，进而无法满足实际应用需求。可见，现有技术中的两个模型的训练是独立进行的，没有针对意图识别任务和槽位填充任务进行结合优化，最终导致训练出的模型在语音识别方面存在识别准确率低的问题，降低了用户体验。

发明内容

本发明的目的在于提供一种用于智能设备的人机交互语音识别方法及系统，通过将意图识别和槽位填充进行联合优化训练，以提高语音识别的准确率。

为了实现上述目的，本发明的一方面提供一种用于智能设备的人机交互语音识别方法，包括：

将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将所述隐含状态向量h _i和所述槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S；

计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I；

使用槽位门g对所述槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示；

对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

优选地，将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示的方法包括：

接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

将原始词序列进行word embedding处理，实现对原始词序列中各分词的向量化表示。

较佳地，计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将所述隐含状态向量h _i和所述槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S的方法包括：

利用双向LSTM网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量h _i；

通过公式

计算各分词向量对应的槽位上下文向量c _i ^S；其中，

表示槽位的注意力权重，其计算公式为

σ表示槽位激活函数，

表示槽位权重矩阵；

基于所述隐含状态向量h _i和所述槽位上下文向量c _i ^S构建槽位标签模型

进一步地，计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I的方法包括：

利用双向LSTM网络中的隐含单元对向量化表示的原始词序列进行编码处理，得到隐含状态向量hT；

通过公式

计算原始词序列的意图上下文向量c ^I；其中，

表示意图的注意力权重，其计算公式为

σ′表示意图激活函数，

表示意图权重矩阵；

基于所述隐含状态向量hT和所述意图上下文向量c ^I构建意图预测模型

优选地，使用槽位门g对所述槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示的方法包括：

槽位门g的形式化表示为

其中，v表示训练得到的权重向量，W表示训练得到的权重矩阵；

通过槽位门g对槽位标签模型y _i ^S进行转换的形式化表示为

可选地，对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建的目标函数为：

其中，p(y ^S,y ^I|X)表示槽位填充和意图预测在给定原始词序列输出的条件概率，其中，X为向量化表示的原始词序列。

较佳地，基于所述目标函数对用户的语音问题进行意图识别的方法包括：

通过目标目标函数依次获取原始词序列中各分词对应的意图条件概率；

从中筛选出概率值最大的分词识别为用户语音问题的意图。

与现有技术相比，本发明提供的用于智能设备的人机交互语音识别方法具有以下有益效果：

本发明提供的用于智能设备的人机交互语音识别方法中，首先将获取到的用户语音问题转换成为识别文本，并基于可识别文本分词处理生成原始词序列，然后对原始词序列进行单词嵌入处理实现向量化形式表示，之后，基于向量化表示的原始词序列分别进行槽位标签模型y _i ^S和意图预测模型y ^I的构建，其中，槽位标签模型y _i ^S的构建步骤为通过计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，然后将隐含状态向量h _i和槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S，意图预测模型y ^I的构建步骤为通过计算原始词序列的隐含状态向量hT和意图上下文向量c ^I，然后将隐含状态向量hT和意图上下文向量c ^I加权处理后得到意图预测模型y ^I，可见，为了融合意图预测模型y ^I和槽位标签模型y _i ^S，我们在现有的encoder-decoder架构上额外增加了decoder层构建意图预测模型y ^I，并通过引入槽位门g对槽位上下文向量c _i ^S和意图上下文向量c ^I拼接处理，最后对意图预测模型y ^I和转换后的槽位标签模型y _i ^S进行联合优化得到目标函数，并利用目标函数依次获取原始词序列中各分词对应的意图条件概率，然后从中筛选出概率值最大的分词识别为用户语音问题的意图，保证了语音识别的准确性。

本发明的另一方面提供一种用于智能设备的人机交互语音识别系统，应用于上述技术方案所述的用于智能设备的人机交互语音识别方法中，所述系统包括：

分词处理单元，用于将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

第一计算单元，用于计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将所述隐含状态向量h _i和所述槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S；

第二计算单元，用于计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I；

模型转换单元，用于使用槽位门g对所述槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示；

联合优化单元，用于对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

优选地，所述分词处理单元包括：

分词模块，用于接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

嵌入处理模块，用于将原始词序列进行word embedding处理，实现对原始词序列中各分词的向量化表示。

较佳地，所述第一计算单元包括：

隐含状态计算模块，用于利用双向LSTM网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量h _i；

槽位上下文计算模块，用于通过公式

计算各分词向量对应的槽位上下文向量c _i ^S；其中，

表示槽位的注意力权重，其计算公式为

σ表示槽位激活函数，

表示槽位权重矩阵；

槽位标签模型模块，用于基于所述隐含状态向量h _i和所述槽位上下文向量c _i ^S构建槽位标签模型

与现有技术相比，本发明提供的用于智能设备的人机交互语音识别系统的有益效果与上述技术方案提供的用于智能设备的人机交互语音识别方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中用于智能设备的人机交互语音识别方法的流程示意图；

图2为本发明实施例一中encoder-decoder融合模型示例图；

图3为图2中槽位门g的示例图；

图4为本发明实施例二中用于智能设备的人机交互语音识别系统的结构框图。

附图标记：

1-分词处理单元， 2-第一计算单元；

3-第二计算单元， 4-模型转换单元；

5-联合优化单元。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

图1为本发明实施例一中用于智能设备的人机交互语音识别方法流程示意图。请参阅图1，本实施例提供一种用于智能设备的人机交互语音识别方法，包括：

将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对原始词序列进行向量化表示；计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将隐含状态向量h _i和槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S；计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将隐含状态向量hT和意图上下文向量c ^I加权处理后得到意图预测模型y ^I；使用槽位门g对槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示；对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

本实施例提供的用于智能设备的人机交互语音识别方法中，首先将获取到的用户语音问题转换成为识别文本，并基于可识别文本分词处理生成原始词序列，然后对原始词序列进行单词嵌入处理实现向量化形式表示，之后，基于向量化表示的原始词序列分别进行槽位标签模型y _i ^S和意图预测模型y ^I的构建，其中，槽位标签模型y _i ^S的构建步骤为通过计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，然后将隐含状态向量h _i和槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S，意图预测模型y ^I的构建步骤为通过计算原始词序列的隐含状态向量hT和意图上下文向量c ^I，然后将隐含状态向量hT和意图上下文向量c ^I加权处理后得到意图预测模型y ^I，如图2所述，为了融合意图预测模型y ^I和槽位标签模型y _i ^S，我们在encoder-decoder架构上额外增加了decoder层构建意图预测模型y ^I，并通过引入槽位门g对槽位上下文向量c _i ^S和意图上下文向量c ^I拼接处理，最后对意图预测模型y ^I和转换后的槽位标签模型y _i ^S进行联合优化得到目标函数，并利用目标函数依次获取原始词序列中各分词对应的意图条件概率，然后从中筛选出概率值最大的分词识别为用户语音问题的意图，保证了语音识别的准确性。

具体地，上述实施例中将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示的方法包括：

接收用户的语音问题转换为可识别文本，利用分词器对可识别文本分词处理得到原始词序列；将原始词序列进行word embedding处理，实现对原始词序列中各分词的向量化表示。

需要说明的是，上述实施例中计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将所述隐含状态向量h _i和所述槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S的方法包括：

利用双向LSTM网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量h _i；通过公式

计算各分词向量对应的槽位上下文向量c _i ^S；其中，

表示槽位的注意力权重，其计算公式为

σ表示槽位激活函数，

表示槽位权重矩阵；基于隐含状态向量h _i和槽位上下文向量c _i ^S构建槽位标签模型

具体实施时，将多个分词向量输入双向LSTM网络后可一一对应的输出隐含状态向量h _i，对于槽位上下文向量公式

其中

代表槽位的注意力权重，i表示第i个分词向量，j表示第i个分词向量中的第j个元素，具体地，槽位的注意力权重的计算公式为

T表示分词向量中元素的总数量，K表示T中的第K个元素。另外，对于槽位激活函数σ和槽位权重矩阵

可基于原始词序列的向量矩阵训练导出，其具体训练过程为本领域常用技术手段，本实施例在此不做赘述。

上述实施例中计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将隐含状态向量hT和意图上下文向量c ^I加权处理后得到意图预测模型y ^I的方法包括：

利用双向LSTM网络中的隐含单元对向量化表示的原始词序列进行编码处理，得到隐含状态向量hT；通过公式

计算原始词序列的意图上下文向量c ^I；其中，

表示意图的注意力权重，其计算公式为

σ′表示意图激活函数，

表示意图权重矩阵；基于隐含状态向量hT和意图上下文向量c ^I构建意图预测模型

具体实施过程中，意图预测模型y ^I的训练方法与槽位标签模型

的训练方法相同，区别在于隐含状态向量hT只需利用双向LSTM网络中的隐含单元即可得到，通过将向量矩阵一维化处理，然后调用公式

计算原始词序列的意图上下文向量c ^I；其中，

表示意图的注意力权重，其计算公式为

σ′表示意图激活函数，

表示意图权重矩阵，对于意图激活函数σ′和意图权重矩阵

可基于处理后的一维化向量训练导出，其具体训练过程为本领域常用技术手段，本实施例在此不做赘述。

进一步地，上述实施例中使用槽位门g对槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示的方法包括：

槽位门g的形式化表示为

其中，v表示训练得到的权重向量，W表示训练得到的权重矩阵；通过槽位门g对槽位标签模型y _i ^S进行转换的形式化表示为

图3示出了槽位门g的结构模型。

优选地，上述实施例中对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建的目标函数为：

其中，p(y ^S,y ^I|X)表示槽位填充和意图预测在给定原始词序列输出的条件概率，其中，X表示向量化表示的原始词序列。拓展后

x _i表示第i个分词向量，T表示分词向量的总数量。通过目标函数的计算可得出各分词向量的意图概率值，筛选各分词向量中概率值最大的分词识别为用户语音问题的意图。

实施例二

请参阅图1和图4，本实施例提供一种用于智能设备的人机交互语音识别系统，包括：

分词处理单元1，用于将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

第一计算单元2，用于计算各分词向量的隐含状态向量h _i和槽位上下文向量c _i ^S，通过将所述隐含状态向量h _i和所述槽位上下文向量c _i ^S加权处理后得到槽位标签模型y _i ^S；

第二计算单元3，用于计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I；

模型转换单元4，用于使用槽位门g对所述槽位上下文向量c _i ^S和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型y _i ^S进行转换表示；

联合优化单元5，用于对意图预测模型y ^I和转换后的槽位标签模型y _i ^S联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。具体地，所述分词处理单元包括：

具体地，所述第一计算单元包括：

槽位上下文计算模块，用于通过公式

计算各分词向量对应的槽位上下文向量c _i ^S；其中，

表示槽位的注意力权重，其计算公式为

σ表示槽位激活函数，

表示槽位权重矩阵；

与现有技术相比，本发明实施例提供的用于智能设备的人机交互语音识别系统的有益效果与上述实施例一提供的用于智能设备的人机交互语音识别方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种用于智能设备的人机交互语音识别方法，其特征在于，包括：

将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

计算各分词向量的隐含状态向量h _i和槽位上下文向量
通过将所述隐含状态向量h _i和所述槽位上下文向量
加权处理后得到槽位标签模型

计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I；

使用槽位门g对所述槽位上下文向量
和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型
进行转换表示；

对意图预测模型y ^I和转换后的槽位标签模型
联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。
根据权利要求1所述的方法，其特征在于，将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示的方法包括：

接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

将原始词序列进行word embedding处理，实现对原始词序列中各分词的向量化表示。
根据权利要求1所述的方法，其特征在于，计算各分词向量的隐含状态向量h _i和槽位上下文向量
通过将所述隐含状态向量h _i和所述槽位上下文向量
加权处理后得到槽位标签模型
的方法包括：

利用双向LSTM网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量h _i；

通过公式
计算各分词向量对应的槽位上下文向量
其中，
表示槽位的注意力权重，其计算公式为
σ表示槽位激活函数，
表示槽位权重矩阵；

基于所述隐含状态向量h _i和所述槽位上下文向量
构建槽位标签模型
根据权利要求1所述的方法，其特征在于，计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I的方法包括：

利用双向LSTM网络中的隐含单元对向量化表示的原始词序列进行编码处理，得到隐含状态向量hT；

通过公式
计算原始词序列的意图上下文向量c ^I；其中，
表示意图的注意力权重，其计算公式为
σ′表示意图激活函数，
表示意图权重矩阵；

基于所述隐含状态向量hT和所述意图上下文向量c ^I构建意图预测模型
根据权利要求1所述的方法，其特征在于，使用槽位门g对所述槽位上下文向量
和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型
进行转换表示的方法包括：

槽位门g的形式化表示为
其中，v表示训练得到的权重向量，W表示训练得到的权重矩阵；

通过槽位门g对槽位标签模型
进行转换的形式化表示为
根据权利要求1所述的方法，其特征在于，对意图预测模型y ^I和转换后的槽位标签模型
联合优化构建的目标函数为：

其中，p(y ^S,y ^I|X)表示槽位填充和意图预测在给定原始词序列输出的条件概率，其中，X为向量化表示的原始词序列。
根据权利要求6所述的方法，其特征在于，基于所述目标函数对用户的语音问题进行意图识别的方法包括：

通过目标目标函数依次获取原始词序列中各分词对应的意图条件概率；

从中筛选出概率值最大的分词识别为用户语音问题的意图。
一种用于智能设备的人机交互语音识别系统，其特征在于，包括：

分词处理单元，用于将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

第一计算单元，用于计算各分词向量的隐含状态向量h _i和槽位上下文向量
通过将所述隐含状态向量h _i和所述槽位上下文向量
加权处理后得到槽位标签模型

第二计算单元，用于计算向量化表示的原始词序列隐含状态向量hT和意图上下文向量c ^I，通过将所述隐含状态向量hT和所述意图上下文向量c ^I加权处理后得到意图预测模型y ^I；

模型转换单元，用于使用槽位门g对所述槽位上下文向量
和意图上下文向量c ^I进行拼接处理，并通过槽位门g对槽位标签模型
进行转换表示；

联合优化单元，用于对意图预测模型y ^I和转换后的槽位标签模型
联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。
根据权利要求8所述的系统，其特征在于，所述分词处理单元包括：

分词模块，用于接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

嵌入处理模块，用于将原始词序列进行word embedding处理，实现对原始词序列中各分词的向量化表示。
根据权利要求8所述的系统，其特征在于，所述第一计算单元包括：

隐含状态计算模块，用于利用双向LSTM网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量h _i；

槽位上下文计算模块，用于通过公式
计算各分词向量对应的槽位上下文向量
其中，
表示槽位的注意力权重，其计算公式为
σ表示槽位激活函数，
表示槽位权重矩阵；

槽位标签模型模块，用于基于所述隐含状态向量h _i和所述槽位上下文向量
构建槽位标签模型