WO2021169745A1

WO2021169745A1 - 基于语句前后关系预测的用户意图识别方法及装置

Info

Publication number: WO2021169745A1
Application number: PCT/CN2021/074788
Authority: WO
Inventors: 高洋洋
Original assignee: 升智信息科技(南京)有限公司
Priority date: 2020-02-25
Filing date: 2021-02-02
Publication date: 2021-09-02
Also published as: US20230080671A1; CN111563144A; CN111563144B

Abstract

一种基于语句前后关系预测的用户意图识别方法、装置、计算机设备和存储介质，通过设置多个样本数据：所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系（S10），将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型（S20），向初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型（S30），采用意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图（S40），所确定的用户意图具有较高的准确性。

Description

基于语句前后关系预测的用户意图识别方法及装置

本申请要求于2020年2月25日提交中国专利局、申请号为202010116553.9、发明名称为“基于语句前后关系预测的用户意图识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音信号处理技术领域，特别是涉及一种基于语句前后关系预测的用户意图识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的发展，智能对话机器人已进入人们的日常生活。这些对话机器人需要与用户自然对话，理解用户说话的语义，准确识别用户的意图，从而更高效、真实地与用户交互。在智能对话机器人系统中，用户意图识别是否准确决定对话系统是否能够生成合理的回复，是对话系统是否智能最重要的体现。

目前用户语义意图识别有基于关键字、基于正则表达式、基于规则模板、基于传统机器学习如支持向量机以及基于当前蓬勃发展的深度学习等方法。例如，有方案提出一种基于文本相似度的意图识别方法，解决通过语音转为文本存在错误而导致的意图识别错误的问题，其用到的文本相似度的计算方法包括基于字符编辑距离的算法和基于深度学习得到的词向量相似性的算法；还有方案提出通过组合字和拼音的特征向量训练意图识别深度学习模型，将所有领域的数据集转为字序列和相应的拼音序列，输入第一深度学习网络训练得到语言模型，然后将该语言模型的编码层参数矩阵初始化和更新，再将字序列和拼音序列输入到第二深度学习网络编码后，加权投入到第二深度学习网络训练意图识别模型等等。然而，传统的用户意图识别方案往往存在准确率低的问题。

发明内容

基于此，本发明的目的是提供一种基于语句前后关系预测的用户意图识别方法、装置、计算机设备和存储介质，能够提高用户意图识别的准确率。

为实现上述目的，本发明提供了一种基于语句前后关系预测的用户意图识别方法，包括：

S10，设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系；

S20，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型；

S30，向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型；

S40，采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图。

在一个实施例中，设置多个样本数据包括：

获取多组语句，设置各组语句中各个词的单词嵌入向量、标识嵌入向量和位置嵌入向量，根据各组语句以及各自语句分别对应的单词嵌入向量、标识嵌入向量和位置嵌入向量确定样本数据；其中各组语句均包括第一语句和第二语句；所述单词嵌入向量表征相应单词的内容；所述标识嵌入向量表征相应单词属于第一语句或者第二语句；所述位置嵌入向量表征相应单词在所在语句中的位置。

在一个实施例中，采用所述意图识别模型确定用户输入的语句的后一句语句包括：

读取用户输入的语句，将用户输入的语句输入所述意图识别模型，所述意图识别模型输入多个待选语句以及各个待选语句的概率值，将概率值最大的待选语句确定为用户输入的语句的后一句语句。

一种基于语句前后关系预测的用户意图识别装置，包括：

设置模块，用于设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系；

预训练模块，用于将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型；

微调模块，用于向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型；

确定模块，用于采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图。

在一个实施例中，所述设置模块进一步用于：

在一个实施例中，所述确定模块进一步用于：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的基于语句前后关系预测的用户意图识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的基于语句前后关系预测的用户意图识别方法的步骤。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出了一种基于语句前后关系预测的用户意图识别方法、装置、计算机设备和存储介质，通过设置多个样本数据，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型，向初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型，采用意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图，所确定的用户意图具有较高的准确性。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于语句前后关系预测的用户意图识别方法流程图；

图2为本发明实施例语句构成过程示意图；

图3为本发明实施例微调时的模型与训练目标示意图；

图4为本发明实施例基于语句前后关系预测的用户意图识别装置结构示意图；

图5为本发明实施例计算机设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于语句前后关系预测的用户意图识别方法、装置、计算机设备和存储介质，能够提高用户意图识别的准确率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本申请提供的基于语句前后关系预测的用户意图识别方法，可以应用于相关用户意图识别终端(如需要与用户交流的机器人等)。上述用户意图识别终端可以设置多个样本数据，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型，向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型，采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图，以提高所确定的用户意图的准确性。其中，用户意图识别终端可以但不限于是各种个人计算机和笔记本电脑等智能处理设备。

在一个实施例中，如图1所示，提供了一种基于语句前后关系预测的用户意图识别方法，以该方法应用于用户意图识别终端为例进行说明，包括以下步骤：

S10，设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系。

上述语句属性特征包括相应语句所包括的单词，以及各个单词的位置等内容。

在一个实施例中，设置多个样本数据包括：

具体地，上述各组语句均包括第一语句和第二语句，第一语句可以为相应组语句的前一条语句，第二语句可以为相应语句的后一条语句。

进一步地，上述样本数据作为后续预训练语言模型的输入，其中每个序列的第一个标记可以始终是相应分类标记。与此标记对应的最终输出隐藏状态用作表示第二条语句是否为第一条语句的下一语句。第一条和第二条语句可以封装在一起形成单个序列，作为一组语句。

在一个示例中，可以通过两种方式区分语句。第一种方式是使用特殊符号([SEP])将它们分开。第二种方式是向每个单词添加学习到的标识嵌入向量，以指示它是属于语句A(第一语句)还是语句B(第二语句)。对于每一个单词，它的输入由单词本身的单词嵌入向量、标识嵌入向量(E _A、 E _B)和位置嵌入向量(E ₀、E ₁、E ₂...)相加得到。具体过程可以参考图2所示。

S20，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型。

上述第一设定准确率可以依据用户识别的精度进行设置，如设置为98％等值。

具体地，预训练使用与对话系统无关的大规模单语语料库进行训练。相应模型(预训练语言模型)使用两种任务作为目标进行预训练。第一个任务是屏蔽语言模型。在输入时随机屏蔽一定比例的单词，然后在模型的输出预测这些屏蔽掉的单词，这种方式可以构建双向的深度网络。第二个任务是预测第二条语句是否为下一个语句。在为每个预训练样本选择两个语句时，百分之五十的概率第二条语句是跟随第一条语句的实际下一个语句，百分之五十的概率是来自语料库的随机语句。

S30，向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型。

上述第二设定准确率可以依据用户识别的精度进行设置，如设置为98％等值。

具体地，预训练完成后，用对话系统配置的语句对预训练后的模型进行微调。在微调阶段，不再以屏蔽语言模型作为训练目标，而仅仅以预测下一条语句作为唯一目标，因此模型的输入不再屏蔽任何单词。微调阶段的样本以期望用户所说的语句作为第一条语句，以对话系统中配置的下一节点的语句作为第二条语句，生成任务训练集中的正样本；以期望用户所说的语句作为第一条语句，以话术中配置的其它节点的语句作为第二条语句，生成任务训练集中的负样本。

可选地，微调时的模型与训练目标如图3所示。

在实际人机对话过程中，以用户真实所说的语句作为第一条语句，当前节点中所有分支的语句作为第二条语句，执行相应模型(意图识别模型)的预测方法，得到每一条语句作为用户所说语句的下一条语句的概率。取概率最高的语句所在的分支作为匹配的意图，并返回概率最高的语句作为回复。

进一步地，在预测阶段，模型的输入同样不再屏蔽任何单词。

上述基于语句前后关系预测的用户意图识别方法，通过设置多个样本数据，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型，向初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型，采用意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图，所确定的用户意图具有较高的准确性。

在一个实施例中，对于上述基于语句前后关系预测的用户意图识别方法的应用过程中，语言模型预训练对于改进许多自然语言处理任务效果非常显著。这些任务包括语句级别的任务以及单词级别的任务，如预测语句之间关系的自然语言推理、命名实体识别和知识问答等。基于Transformer的双向编码表征(BERT)是最近提出的预训练语言模型，该预训练模型能高效抽取文本信息并应用于各种自然语言处理任务，它的出现刷新了11项自然语言处理任务的最优性能记录。为了训练能够理解语句关系的模型，BERT提出可以从任何单语语料库训练预测下一条语句的任务，即判断两条语句是否应该为连续的前后语句关系。在为每个预训练样本选择两个语句时，百分之五十的概率第二条语句是跟随第一条语句的实际下一条语句，百分之五十的概率是来自语料库的随机语句，即第二条语句实际上不是第一条语句的下一条语句。在训练深度神经网络的双向表征时，为了不让每个单词影响注意力机制，BERT随机屏蔽一定比例的输入单词，然后预测被屏蔽的单词。本发明以两条语句是否应该为连续的前后语句关系作为意图识别的一种判断依据，提高意图识别的准确率。具体来说，以期望用户所说的语句作为第一条语句，以对话系统中配置的下一节点的语句作为第二条语句，生成任务训练集中的正样本；以期望用户所说的语句作为第一条语句，以话术中配置的其它节点的语句作为第二条语句，生成任务训练集中的负样本。正负样本生成以后，在此数据上继续训练微调BERT预训练模型，直至模型的损失值收敛。在实际人机对话过程中，以用户真实所说的语句作为第一条语句，当前节点中所有分支的语句作为第二条语句，执行模型的预测方法，得到每一条语句作为用户所说语句的下一条语句的概率。取概率最高的语句所在的分支作为匹配的意图，并返回概率最高的语句作为回复。

参考图4所示，图4为一个实施例的基于语句前后关系预测的用户意图识别装置结构示意图，包括：

设置模块10，用于设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系；

预训练模块20，用于将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型；

微调模块30，用于向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型；

确定模块40，用于采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图。

在一个实施例中，所述设置模块进一步用于：

在一个实施例中，所述确定模块进一步用于：

关于基于语句前后关系预测的用户意图识别装置的具体限定可以参见上文中对于基于语句前后关系预测的用户意图识别方法的限定，在此不再赘述。上述基于语句前后关系预测的用户意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语句前后关系预测的用户意图识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种基于语句前后关系预测的用户意图识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述基于语句前后关系预测的用户意图识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种基于语句前后关系预测的用户意图识别方法。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于语句前后关系预测的用户意图识别方法，其特征在于，包括如下步骤：

S10，设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系；

S20，将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型；

S30，向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型；

S40，采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图。
根据权利要求1所述的基于语句前后关系预测的用户意图识别方法，其特征在于，设置多个样本数据包括：

获取多组语句，设置各组语句中各个词的单词嵌入向量、标识嵌入向量和位置嵌入向量，根据各组语句以及各自语句分别对应的单词嵌入向量、标识嵌入向量和位置嵌入向量确定样本数据；其中各组语句均包括第一语句和第二语句；所述单词嵌入向量表征相应单词的内容；所述标识嵌入向量表征相应单词属于第一语句或者第二语句；所述位置嵌入向量表征相应单词在所在语句中的位置。
根据权利要求2所述的基于语句前后关系预测的用户意图识别方法，其特征在于，采用所述意图识别模型确定用户输入的语句的后一句语句包括：

读取用户输入的语句，将用户输入的语句输入所述意图识别模型，所述意图识别模型输入多个待选语句以及各个待选语句的概率值，将概率值最大的待选语句确定为用户输入的语句的后一句语句。
一种基于语句前后关系预测的用户意图识别装置，其特征在于，包括：

设置模块，用于设置多个样本数据；所述样本数据包括第一条语句，第二条语句，以及第一条语句和第二条语句的语句属性特征和位置关系；

预训练模块，用于将各个样本数据输入预训练语言模型进行预训练，并在预训练语言模型针对样本数据的识别准确率达到第一设定准确率时，根据预训练语言模型当前的运行参数确定初始模型；

微调模块，用于向所述初始模型输入测试语句，以预测测试语句的下一条语句作为唯一目标对所述初始模型进行微调，在初始模型的预测准确率达到第二设定准确率时，根据初始模型当前的运行参数确定意图识别模型；

确定模块，用于采用所述意图识别模型确定用户输入的语句的后一句语句，根据所确定的后一句语句确定用户意图。
根据权利要求4所述的基于语句前后关系预测的用户意图识别装置，其特征在于，所述设置模块进一步用于：

获取多组语句，设置各组语句中各个词的单词嵌入向量、标识嵌入向量和位置嵌入向量，根据各组语句以及各自语句分别对应的单词嵌入向量、标识嵌入向量和位置嵌入向量确定样本数据；其中各组语句均包括第一语句和第二语句；所述单词嵌入向量表征相应单词的内容；所述标识嵌入向量表征相应单词属于第一语句或者第二语句；所述位置嵌入向量表征相应单词在所在语句中的位置。
根据权利要求4所述的基于语句前后关系预测的用户意图识别装置，其特征在于，所述确定模块进一步用于：

读取用户输入的语句，将用户输入的语句输入所述意图识别模型，所述意图识别模型输入多个待选语句以及各个待选语句的概率值，将概率值最大的待选语句确定为用户输入的语句的后一句语句。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。