WO2021022816A1

WO2021022816A1 - 一种基于深度学习网络的意图识别方法

Info

Publication number: WO2021022816A1
Application number: PCT/CN2020/081302
Authority: WO
Inventors: 司马华鹏; 姚奥
Original assignee: 南京硅基智能科技有限公司
Priority date: 2019-08-07
Filing date: 2020-03-26
Publication date: 2021-02-11
Also published as: EP3869411A1; EP3869411A4; CN110232439A; CN110232439B

Abstract

本发明涉及智能识别领域，公开了一种基于深度学习网络的意图识别方法，解决了意图识别准确率不高的技术问题，其技术方案要点是将第一深度学习网络的特征迁移到第二深度学习网络中，主要在于将所有领域的数据集转为字序列WS和相应的拼音序列PS，同时对某一领域的数据集进行人工标注，并将其转换为字序列WD、拼音序列PD和标签。将字序列WS和拼音序列PS投入第一深度学习网络训练得到语言模型，将该语言模型的编码层参数矩阵初始化和更新，再将字序列WD和拼音序列PD投入到第二深度学习网络编码后，加权投入到第二深度学习网络训练意图识别模型，该意图识别模型进行意图识别的准确率较高。

Description

一种基于深度学习网络的意图识别方法

本申请要求在2019年8月7日提交中国专利局、申请号为201910724662.6、发明名称为“一种基于深度学习网络的意图识别方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及智能识别领域，尤其涉及一种基于深度学习网络的意图识别方法。

背景技术

在人机对话领域，意图识别是最为核心的技术之一，对于自然语义的理解是人机对话能够实现的前提之一。目前意图识别的基本方法包括基于词典以及模板的规则方法、基于查询点击日志和基于分类模型来对用户的意图进行判别等，业界一致认为意图识别的最大难点在于标注数据的获取，因而对于字序列和拼音序列这样数据量庞大的研究方法鲜少进行，通过字和拼音的特征向量来训练的识别模型几乎处于空白状态。

发明内容

本公开的目的是提供一种基于深度学习网络的意图识别方法，达到通过字和拼音的特征向量训练识别模型进而进行意图识别的目的。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种基于深度网络学习的意图识别方法，包括：

获取所有领域的历史语音数据并将其转换为文本信息S1，同时从公开数据源获取文本信息S2，所述S1和所述S2组合得到数据集S；

获取一个领域的历史语音数据并将其转换为文本，得到数据集D；

对所述D进行人工标注，进行意图类别分类得到D'，将所述D'转换成字序列WD、拼音序列PD和标签；

将所述数据集S转换成字序列WS和拼音序列PS，并投入到第一深度学习网络训练语言模型LM；

获取所述语言模型LM的字编码层参数矩阵W和拼音编码层参数矩阵U，将所述字编码层参数矩阵W与所述拼音编码层参数矩阵U投入到第二深度学习网络初始化编码层得到参数矩阵W1、W2和U1、U2；

所述第二深度学习网络包括编码层和卷积层；

使用所述D'训练所述第二深度学习网络，跟随所述D'的每次训练所述W1和所述U1更新为参数矩阵W1'和U1'，所述W2和U2保持不变；

将所述字序列WD、拼音序列PD和标签输入到所述第二深度学习网络，通过所述编码层的参数矩阵W1'、U1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型；

使用所述意图识别模型进行意图识别。

进一步地，通过所述编码层的参数矩阵W1'、U1'、W2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。

进一步地，通过所述编码层的参数矩阵W1'、U1'和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。

进一步地，通过所述编码层的参数矩阵W1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。

进一步地，通过所述编码层的参数矩阵U1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。

进一步地，所述第一深度学习网络为语言模型，使用梯度下降算法进行训练。

进一步地，所述语言模型包括word2vec网络结构、LSTM网络结构、bert网络结构、gpt网络结构和elmo网络结构。

进一步地，所述第二深度学习网络为意图识别模型，使用交叉熵损失函数和梯度下降算法进行训练。

进一步地，所述第二深度学习网络包括输入层、编码层、卷积层、池化层、全连接层和输出层。

综上可知，第一深度学习网络的任务是训练语言模型，第二深度学习网络的任务是训练意图识别模型，若第一深度学习网络对应的是A任务，第二深度学习网络对应的B任务，那么本公开通过将A任务学习的特征迁移到B任务中的技术手段训练了识别准确率更高的意图识别模型。本公开的有益效果在于：将所有领域的数据集转为字序列WS和相应的拼音序列PS，同时对某一领域的数据集进行人工标注，得到字序列WD和拼音序列PD，且标注后的数据集含有标签。将字序列WS和拼音序列PS投入第一深度学习网络训练得到语言模型，对该语言模型的编码层参数矩阵进行初始化和更新，而后将字序列WD和拼音序列PD投入到第二深度学习网络编码，将编码后的字序列WD和拼音序列PD加权投入到第二深度学习网络训练意图识别模型，通过该意图识别模型进行意图识别，得到较高的准确率。

附图说明

图1为本公开参数矩阵更新流程示意图；

图2为本公开意图模型训练流程示意图。

具体实施方式

以下结合附图对本公开作进一步详细说明。

需要理解地是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，而只是用来区分不同的组成部分。

图1为本公开参数矩阵更新流程示意图，首先获取所有领域的历史语音数据，利用公开的ASR(语音转为文本)方法(例如科大讯飞、阿里语音识别api等)将其转换为文本信息S1，同时从公开数据源(例如搜狗新闻、微博语料等)获取文本信息S2，S1和S2组合得到数据集S。

将数据集S转换成字序列WS和拼音序列PS，并投入到第一深度学习网络训练语言模型，语言模型的网络结构可以是word2vec、LSTM、bert,gpt,elmo(双向的LSTM网络)等。然后获取语言模型的字编码层参数矩阵W和拼音编码层参数矩阵U，将字编码层参数矩阵W与拼音编码层参数矩阵U投入到第二深度学习网络初始化编码层得到参数矩阵W1、W2和U1、U2。这里的第二深度学习网络包括输入层、编码层、卷积层、池化层、全连接层和输出层。

获取某一个领域的历史语音数据并将其转换为文本，得到数据集D，对D进行人工标注，进行意图类别分类得到D'。这里的人工标注指的是意图类别的标注，而不是字词等的简单切分，即一句话的具体内容属于什么意图，比如“今天天气怎么样”和“今天好冷”，这两句话的意图类别的标注就是“天气”。

使用D'训练所述第二深度学习网络，跟随D'的每次训练W1和U1更新为参数矩阵W1'和U1'，W2和U2则保持不变，不进行更新。图2为本公开意图模型训练流程示意图，将D'中的训练数据转换成字序列WD、拼音序列PD和标签并输入到第二深度学习网络，通过第二深度学习网络的编码层的参数矩阵W1'、U1'、W2和U2对字序列WD和拼音序列PD进行编码，将编码后的字序列WD和拼音序列PD加权输入到第二深度学习网络的卷积层，训练得到意图识别模型，最后使用该意图识别模型进行意图识别。

这里标签的作用是使用交叉熵损失函数，利用梯度下降算法获得每个beach更新的梯度值，交叉熵损失函数为：

其中，m为正整数，y _i为输入第二深度学习网络前标签，y _i-为从第二深度学习网络输出后的标签，x ⁽ⁱ⁾为输入的编码后的字序列WD和拼音序列PD，h _θ(x ⁽ⁱ⁾)为构建的第二深度学习网络，y _i-＝h _θ(x ⁽ⁱ⁾)，使用梯度下降算法更新第二深度学习网络。

编码层的参数矩阵可以不同组合形式对字序列WD和拼音序列PD进行编码，这些组合包括(W1'、U1'、W2)、(W1'、U1'、U2)、(W1'、W2、U2)、(W1'、W2、U2)，将通过这些组合形式参数矩阵编码后的字序列WD和拼音序列PD加权输入到第二深度学习网络的卷积层，训练得到意图识别模型。

综上可知，第一深度学习网络有充足的训练文本，因而可以利用第一深度学习网络的训练数据来训练第二深度学习网络，从而提升第二深度学习网络的训练效果，以能够训练出意图识别率更高的意图识别模型。

另外，第一深度学习网络为语言模型，使用梯度下降算法进行训练。第二深度学习网络为意图识别模型，使用交叉熵损失函数和梯度下降算法进行训练。

第二深度学习网络的主要参数如表1所示。

参数	参数值
char_dim	100
Pinyin_dim	100
卷积核	3,4,5
dropout	0.7
GradientDescent	0.1

表1

本公开在信用卡领域利用已经标注的数据集，包含训练集数据137737条，测试集数据11392条，意图类别数为55，训练的深度学习网络意图识别模型的准确率为79.97％。在贷款行业，利用已经标注的数据集，包含训练集数据310556条，测试集数据22967条，意图类别数为51，训练的深度学习网络意图识别模型的准确率为92.10％，如表2所示。

表2

另外，由于拼音序列的数据量非常庞大，一方面需要大量的数据，另一方面运算工作量也非常庞大，故表2给出的数据不包括拼音序列持续更新并编码后训练的意图识别模型的识别准确率。因而，本公开的保护范围由权利要求书及其等效物限定，在本公开的思想下做出的没有创造性劳动的改进均属于本公开的保护范围。

Claims

一种基于深度网络学习的意图识别方法，其特征在于，包括：

获取所有领域的历史语音数据并将其转换为文本信息S1，同时从公开数据源获取文本信息S2，所述S1和所述S2组合得到数据集S；

获取一个领域的历史语音数据并将其转换为文本，得到数据集D；

对所述D进行人工标注，进行意图类别分类得到D'，将所述D'转换成字序列WD、拼音序列PD和标签；

将所述数据集S转换成字序列WS和拼音序列PS，并投入到第一深度学习网络训练语言模型；

获取所述语言模型的字编码层参数矩阵W和拼音编码层参数矩阵U，将所述字编码层参数矩阵W与所述拼音编码层参数矩阵U投入到第二深度学习网络初始化编码层得到参数矩阵W1、W2和U1、U2；

所述第二深度学习网络包括编码层和卷积层；

使用所述D'训练所述第二深度学习网络，跟随所述D'的每次训练所述W1和所述U1更新为参数矩阵W1'和U1'，所述W2和U2保持不变；

将所述字序列WD、拼音序列PD和标签输入到所述第二深度学习网络，通过所述编码层的参数矩阵W1'、U1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型；

使用所述意图识别模型进行意图识别。
如权利要求1所述的基于深度网络学习的意图识别方法，其特征在于，通过所述编码层的参数矩阵W1'、U1'、W2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。
如权利要求1所述的基于深度网络学习的意图识别方法，其特征在于，通过所述编码层的参数矩阵W1'、U1'和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。
如权利要求1所述的基于深度网络学习的意图识别方法，其特征在于，通过所述编码层的参数矩阵W1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。
如权利要求2所述的基于深度网络学习的意图识别方法，其特征在于，通过所述编码层的参数矩阵U1'、W2和U2对所述字序列WD和拼音序列PD进行编码，将编码后的所述字序列WD和拼音序列PD加权输入到所述第二深度学习网络的卷积层，训练得到意图识别模型。
如权利要求1-5任一所述的基于深度网络学习的意图识别方法，其特征在于，所述第一深度学习网络为语言模型，使用梯度下降算法进行训练。
如权利要求6所述的基于深度网络学习的意图识别方法，其特征在于，所述语言模型包括word2vec网络结构、LSTM网络结构、bert网络结构、gpt网络结构和elmo网络结构。
如权利要求1-5任一所述的基于深度网络学习的意图识别方法，其特征在于，所述第二深度学习网络为意图识别模型，使用交叉熵损失函数和梯度下降算法进行训练。
如权利要求8所述的基于深度网络学习的意图识别方法，其特征在于，所述第二深度学习网络包括输入层、编码层、卷积层、池化层、全连接层和输出层。