WO2021135548A1

WO2021135548A1 - 语音的意图识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2021135548A1
Application number: PCT/CN2020/123205
Authority: WO
Inventors: 叶怡周; 马骏; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-05
Filing date: 2020-10-23
Publication date: 2021-07-08
Also published as: CN111710336A; CN111710336B

Abstract

语音的意图识别方法、装置、计算机设备及存储介质，涉及人工智能的语音语义，若接收用户初始语音数据，对其进行识别得到初始语音文本数据；调用NLU模型获取其对应的当前回复文本，调用NLG模型将当前回复文本生成当前回复语音；若接收到用户回复语音数据，对其进行识别得到当前回复语音文本数据；若当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用对应的目标词槽；由目标NLP模型编码获取目标NLP模型，通过其对第一事项办理语音数据进行识别得到第一识别结果。实现了通过多种不同的方式完成对用户意图识别，提高了基于用户语音的意图识别准确率，降低与智能客服机器人对话进行事项办理的耗时。

Description

语音的意图识别方法、装置、计算机设备及存储介质

本申请要求于2020年6月5日提交中国专利局、申请号为202010507190.1，申请名称为“语音的意图识别方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的语音语义技术领域，尤其涉及一种语音的意图识别方法、装置、计算机设备及存储介质。

背景技术

目前，在智能客服机器人系统中，对话管理是用来控制智能客服机器人与客户之间交互的核心部分。发明人发现对话管理中主要是根据NLU模型(即自然语言理解模型)对用户的说话来进行理解和判断意图，但由于通过ASR技术(即自动语音识别技术)对客户语音进行语音转文字时转化正确率不高，导致NLU模型无法在短时间内准确识别用户意图，从而导致与智能客服机器人对话进行事项办理时间耗时较长，而且处理效率低下。

发明内容

本申请实施例提供了一种语音的意图识别方法、装置、计算机设备及存储介质，旨在解决现有技术中智能客服机器人系统中通过自动语音识别技术对客户语音进行语音转文字，由于转化正确率不高，自然语言理解模型无法在短时间内准确识别用户意图，导致与智能客服机器人对话进行事项办理时间耗时较长，而且处理效率低下的问题。

第一方面，本申请实施例提供了一种语音的意图识别方法，其包括：

若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。

第二方面，本申请实施例提供了一种语音的意图识别装置，其包括：

第一语音识别单元，用于若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

当前回复语音获取单元，用于通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

第二语音识别单元，用于若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

关键词判断单元，用于判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

目标词槽获取单元，用于若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

事项语音识别单元，用于若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

本申请实施例提供了一种语音的意图识别方法、装置、计算机设备及存储介质，包括若接收到用户端发送的用户初始语音数据，对用户初始语音数据进行语音识别，得到对应的初始语音文本数据；通过调用自然语言理解模型以获取初始语音文本数据对应的当前回复文本，通过调用自然语言生成模型以将当前回复文本对应生成当前回复语音，将当前回复语音发送至用户端；若接收用户端所发送的与当前回复语音对应的用户回复语音数据，对用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；若当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与当前回复文本对应的目标词槽；以及若检测接收到用户的第一事项办理语音数据，由目标NLP模型编码获取对应的目标NLP模型，通过目标NLP模型对第一事项办理语音数据进行识别，得到对应的第一识别结果。该方法实现了通过多种不同的方式完成对用户意图识别，提高了基于用户语音的意图识别准确率，降低与智能客服机器人对话进行事项办理的耗时。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音的意图识别方法的应用场景示意图；

图2为本申请实施例提供的语音的意图识别方法的流程示意图；

图3为本申请实施例提供的语音的意图识别方法的的子流程示意图；

图4为本申请实施例提供的语音的意图识别装置的示意性框图；

图5为本申请实施例提供的语音的意图识别装置的子单元示意性框图；

图6为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本申请实施例提供的语音的意图识别方法的应用场景示意图，图2为本申请实施例提供的语音的意图识别方法的流程示意图，该语音的意图识别方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据。

在本实施例中，为了更清楚的理解技术方案，对具体实现场景所涉及的终端进行详细介绍。本申请是在服务器的角度描述技术方案。

一是用户端，用户端为用户所使用的智能终端(如智能手机等终端)，用户可以使用用户端与服务器对应提供的智能对话系统进行语音交流，以实现具体的事项办理。也即用户端可以将所采集到的用户语音发送至服务器。

二是服务器，服务器对所接收到的由用户端所发送的用户语音，结合本地的智能对话系统的语音识别功能，进行各种事项办理。

服务器判断是否接收到用户端发送的用户初始语音数据，对应的场景是此时通过用户端与服务器建立连接后，用户可与服务器一侧所部署的智能对话系统进行交流。一般服务器这一侧的智能对话系统向用户端发送的第一段语音一般是包括欢迎词和待办业务类型询问语句，例如“欢迎致电XXX公司，请问您需要办理哪种业务”这一类型的语音。

当用户端接收了服务器发送的第一段语音后，用户会根据第一段语音对应进行回答，此时用户端对用户回答第一段语音而发出的语音进行采集，得到对应的用户初始语音数据。服务器接收了用户初始语音数据对其进行识别，得到初始语音文本数据。

在一实施例中，步骤S110包括：

通过调用预先存储的N元模型对所述用户初始语音数据进行语音识别，得到对应的初始语音文本数据。

在本实施例中，N元模型即N-gram模型，N-gram模型是一种语言模型(Language Model，LM)，语言模型是一个基于概率的判别模型，它的输入是一句话(单词的顺序序列)，输出是这句话的概率，即这些单词的联合概率(jointprobability)。N-gram模型也可以用于语音文本识别。

当服务器接收到了用户端所发送的用户初始语音数据时，可以通过调用N元模型所述对所述用户初始语音数据进行语音识别，以得到对应的初始语音文本数据。通过N元模型进行语音识别，提高了对客户语音进行语音转文字时的正确率。

S120、通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端。

在本实施例中，自然语言理解模型即NLU模型(NLU的全称是Natural Language Understanding)。自然语言处理模型(即NLP模型)一般是包括自然语言理解模型和自然语言生成模型(即NLG模型，NLG的全称是Natural Language Generation)。其中，NLU负责理解内容，NLG负责生成内容。当用户对智能对话系统说“我的银行卡还信用卡时自动扣款失败”，首先需要利用NLU模型判断用户意图，理解用户想要什么，然后利用NLG模型说出“请问您是否开通自动还款功能”。

其中，常用的自然语言理解模型是Transformer模型(是一个完全基于注意力机制的编解码器模型，即翻译模型)，用了encoer-decoder架构。Transformer模型的具体处理过程如下：输入序列首先经过wordembedding(即词嵌入，也就是将输入序列转化为词向量)，再和positional encoding(即位置编码)相加后，输入到encoder(即编码器)中，编码器的输出序列经过的处理和输入序列一样，然后输入到decoder(即解码器中)，最终得到与输入序列对应的最终输出序列。

之后由于最终输出序列是文本数据，而此时智能对话系统需要将其转化为语音数据后发送至用户端，此时则可将该当前回复语音发送至用户端。例如仍然参考上述实例，当用户对智能对话系统说“我的银行卡还信用卡时自动扣款失败”，智能对话系统对用户说出“请问您是否开通自动还款功能”。

在一实施例中，步骤S120中所述自然语言理解模型及所述自然语言生成模型均存储于区块链网络中。

在本实施例中，基于所述自然语言理解模型及所述自然语言生成模型得到对应的摘要信息，具体来说，摘要信息由所述自然语言理解模型及所述自然语言生成模型进行散列处理得到，比如利用sha256算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述自然语言理解模型及所述自然语言生成模型是否被篡改。

本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。。

此时，服务器中所述调用的所述自然语言理解模型及所述自然语言生成模型均存储于区块链网络中，以确保模型的不可篡改。而且服务器作为区块链节点设备上传的所述自然语言理解模型及所述自然语言生成模型，均可以被与服务器处于同一区块链网络中的其他区块链节点设备所调用。

S130、若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据。

在本实施例中，由于用户端接收了当前回复语音(例如请问您是否开通自动还款功能)后，会根据该当前回复语音进行回复，即用户端在采集到的与当前回复语音对应的用户回复语音数据后，将用户回复语音数据发送至服务器。此时在服务器中还是可以通过N元模型对所述用户回复语音数据进行语音识别以得到对应的当前回复语音文本数据。

S140、判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词。

在本实施例中，在服务器中可以判断所述当前回复语音文本数据中是否包括肯定回复关键词(肯定回复关键词具体为是)，或是否包括否定回复关键词(否定回复关键词具体为不是)，或是否包括跳转人工服务关键词，一旦所述当前回复语音文本数据中包括上述三种类型关键词其中一种时则执行对应的处理流程；若所述当前回复语音文本数据中未包括上述三种类型关键词任意一种时则也执行对应的处理流程。

S150、若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型。

在本实施例中，当判定所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，表示用户针对所述当前回复语音做出了肯定或者否定的回复，表示进入了办理当前事项的正常流程。此时为了提高用户后续对话的识别效率，此时可以调用本地存储的与所述当前回复文本对应的目标词槽。

目标词槽中包括针对智能对话系统在接下来与用户的交谈中所采用的NLP模型对应的目标NLP模型编码，以及所采用的目标词槽固定话术模型。该目标词槽固定话术模型设置了智能对话系统在接下来与用户的交谈中固定使用的话术，例如您暂未开通我行自动还款功能，如需开通请说“是”，无需开通请说“返回”。由于此时调用了目标NLP模型对用户的后续语音文本进行识别转换，且该目标NLP模型就是针对此种对话场景训练的模型，故能有更高的识别率，能更准确的理解用户意图。而且由于目标词槽中设置了固定话术模型，可以根据该固定话术模型引导用户更快速的办理完事项，提高了对每一用户所需办理事项的数据处理效率。

S160、若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。

在本实施例中，由于目标词槽中设置了对应的目标NLP模型编码，当根据目标NLP模型编码在服务器的本地调用与所述目标NLP模型编码获取对应的目标NLP模型后，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。通过这一定向获取目标NLP模型，由于该目标NLP模型就是针对此种对话场景训练的模型，故能有更高的识别率，能更准确的理解用户意图。

在一实施例中，如图3所示，步骤S160之后还包括：

S170、若所述当前回复语音文本数据中包括跳转人工服务关键词，获取当前状态为空闲的坐席端连接请求发送至用户端。

在本实施例中，当判定所述当前回复语音文本数据中包括跳转人工服务关键词，表示用户针对所述当前回复语音不太理解，可能需要跳转人工服务。此时，获取当前状态为空闲的坐席端连接请求发送至用户端，用户端选定接收与该坐席端进行连接后，即可通过坐席端提供的人工服务辅助用户完成后续流程。通过人工服务介入事项流程，能辅助用户更快捷的完成事项办理。

在一实施例中，步骤S160之后还包括：

若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据。

在本实施例中，当判定若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，表示可以根据用户端针对用户初始语音数据回复而得到的初始语音文本数据来进一步判断用户所需办理事项的事项类型。

例如，用户针对“请问您是否开通自动还款功能”这一问题，所给出的答复并非为是、不是、或者跳转人工服务中的任意一种时，而是答复“我要查询信用卡固定额度”，此时上述回复中包括信用卡固定额度及查询这两个关键词，此时在本地调用与上述两个关键词对应的事项流程数据，并按照事项流程数据中流程顺序依序将对应的流程问题发送至用户端，以通过自助办理的流程指引用户完成事项办理。

在一实施例中，步骤S160、或者步骤S170或者所述若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据的步骤还包括：

若检测到与所述事项流程数据对应的未识别指令，将初始语音文本数据发送至当前状态为空闲的静默坐席端；

接收静默坐席端的静默回复文本，将所述静默回复文本转化为对应的人工协助语音数据并发送至用户端。

在本实施例中，若通过所述事项流程数据的指引，仍未引导用户成功办理事项，此时可以触发生成未识别指令。此时若服务器检测到生成的未识别指令，表示可以切换至静默坐席端以辅助用户办理事项。此时用户不再与智能对话系统进行对话，而且切换为静默坐席服务。

静默坐席端与前述坐席端的区别在于，该静默坐席端不是通过其本人语音沟通的方式与用户进行沟通，而是服务器将用户的每一句对话转化为文本后展示在静默坐席端的显示界面上，即静默坐席端根据该对话的文本配置对应的话术后转化为静默回复文本发送至服务器。

当服务器接收到收到静默坐席端的静默回复文本，将所述静默回复文本转化为对应的人工协助语音数据并发送至用户端，也即通过一种人工静默辅助参与的方式，引导用户完成事项办理。

该方法实现了通过多种不同的方式完成对用户意图识别，提高了基于用户语音的意图识别准确率，降低与智能客服机器人对话进行事项办理的耗时。

本申请实施例还提供一种语音的意图识别装置，该语音的意图识别装置用于执行前述语音的意图识别方法的任一实施例。具体地，请参阅图4，图4是本申请实施例提供的语音的意图识别装置的示意性框图。该语音的意图识别装置100可以配置于服务器中。

如图4所示，语音的意图识别装置100包括：第一语音识别单元110、当前回复语音获取单元120、第二语音识别单元130、关键词判断单元140、目标词槽获取单元150、事项语音识别单元160。

第一语音识别单元110，用于若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据。

在本实施例中，服务器判断是否接收到用户端发送的用户初始语音数据，对应的场景是此时通过用户端与服务器建立连接后，用户可与服务器一侧所部署的智能对话系统进行交流。一般服务器这一侧的智能对话系统向用户端发送的第一段语音一般是包括欢迎词和待办业务类型询问语句，例如“欢迎致电XXX公司，请问您需要办理哪种业务”这一类型的语音。

在一实施例中，第一语音识别单元110还用于：

当前回复语音获取单元120，用于通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端。

在一实施例中，当前回复语音获取单元120中所述自然语言理解模型及所述自然语言生成模型均存储于区块链网络中。

第二语音识别单元130，用于若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据。

关键词判断单元140，用于判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词。

目标词槽获取单元150，用于若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型。

事项语音识别单元160，用于若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。

在一实施例中，如图5所示，语音的意图识别装置100还包括：

人工服务跳转单元170，用于若所述当前回复语音文本数据中包括跳转人工服务关键词，获取当前状态为空闲的坐席端连接请求发送至用户端。

在一实施例中，语音的意图识别装置100还包括：

自助办理提示单元，用于若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据。

在一实施例中，语音的意图识别装置100还包括：

静默坐席端通讯单元，用于若检测到与所述事项流程数据对应的未识别指令，将初始语音文本数据发送至当前状态为空闲的静默坐席端；

静默回复文本转化单元，用于接收静默坐席端的静默回复文本，将所述静默回复文本转化为对应的人工协助语音数据并发送至用户端。

该装置实现了通过多种不同的方式完成对用户意图识别，提高了基于用户语音的意图识别准确率，降低与智能客服机器人对话进行事项办理的耗时。

上述语音的意图识别装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行语音的意图识别方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行语音的意图识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例公开的语音的意图识别方法。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。所述计算机可读存储介质可以是非易失性，也可以是易失性。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的语音的意图识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种语音的意图识别方法，其中，包括：

若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。
根据权利要求1所述的语音的意图识别方法，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中包括跳转人工服务关键词，获取当前状态为空闲的坐席端连接请求发送至用户端。
根据权利要求1所述的语音的意图识别方法，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据。
根据权利要求3所述的语音的意图识别方法，其中，还包括：

若检测到与所述事项流程数据对应的未识别指令，将初始语音文本数据发送至当前状态为空闲的静默坐席端；

接收静默坐席端的静默回复文本，将所述静默回复文本转化为对应的人工协助语音数据并发送至用户端。
根据权利要求1所述的语音的意图识别方法，其中，所述对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据，包括：

通过调用预先存储的N元模型对所述用户初始语音数据进行语音识别，得到对应的初始语音文本数据。
根据权利要求1所述的语音的意图识别方法，其中，所述自然语言理解模型及所述自然语言生成模型均存储于区块链网络中。
根据权利要求1所述的语音的意图识别方法，其中，所述自然语言理解模型为Transformer模型；

所述通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，包括：

将所述初始语音文本数据依次经过词嵌入、与位置编码相加、及编码器编码和解码器解码，得到所述初始语音文本数据对应的当前回复文本。
根据权利要求1所述的语音的意图识别方法，其中，所述对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据，包括：

通过N元模型对所述用户回复语音数据进行语音识别以得到对应的当前回复语音文本数据。
一种语音的意图识别装置，其中，包括：

第一语音识别单元，用于若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

当前回复语音获取单元，用于通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

第二语音识别单元，用于若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

关键词判断单元，用于判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

目标词槽获取单元，用于若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

事项语音识别单元，用于若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。
根据权利要求10所述的计算机设备，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中包括跳转人工服务关键词，获取当前状态为空闲的坐席端连接请求发送至用户端。
根据权利要求10所述的计算机设备，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据。
根据权利要求12所述的计算机设备，其中，还包括：

若检测到与所述事项流程数据对应的未识别指令，将初始语音文本数据发送至当前状态为空闲的静默坐席端；

接收静默坐席端的静默回复文本，将所述静默回复文本转化为对应的人工协助语音数据并发送至用户端。
根据权利要求10所述的计算机设备，其中，所述对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据，包括：

通过调用预先存储的N元模型对所述用户初始语音数据进行语音识别，得到对应的初始语音文本数据。
根据权利要求10所述的计算机设备，其中，所述自然语言理解模型及所述自然语言生成模型均存储于区块链网络中。
根据权利要求10所述的计算机设备，其中，所述自然语言理解模型为Transformer模型；

所述通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，包括：

将所述初始语音文本数据依次经过词嵌入、与位置编码相加、及编码器编码和解码器解码，得到所述初始语音文本数据对应的当前回复文本。
根据权利要求10所述的计算机设备，其中，所述对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据，包括：

通过N元模型对所述用户回复语音数据进行语音识别以得到对应的当前回复语音文本数据。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

若接收到用户端发送的用户初始语音数据，对所述用户初始语音数据进行语音识别，得到与所述用户初始语音数据对应的初始语音文本数据；

通过调用预先训练的自然语言理解模型以获取所述初始语音文本数据对应的当前回复文本，通过调用预先训练的自然语言生成模型以将当前回复文本对应生成当前回复语音，将所述当前回复语音发送至用户端；

若接收用户端所发送的与所述当前回复语音对应的用户回复语音数据，对所述用户回复语音数据进行语音识别得到对应的当前回复语音文本数据；

判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词；

若所述当前回复语音文本数据中包括肯定回复关键词或否定回复关键词，调用本地存储的与所述当前回复文本对应的目标词槽；其中，目标词槽中包括目标词槽名称、目标NLP模型编码、目标词槽固定话术模型；以及

若检测接收到用户的第一事项办理语音数据，由所述目标NLP模型编码获取对应的目标NLP模型，通过所述目标NLP模型对所述第一事项办理语音数据进行识别，得到对应的第一识别结果。
根据权利要求18所述的计算机可读存储介质，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中包括跳转人工服务关键词，获取当前状态为空闲的坐席端连接请求发送至用户端。
根据权利要求18所述的计算机可读存储介质，其中，所述判断所述当前回复语音文本数据中是否包括肯定回复关键词、否定回复关键词、或是跳转人工服务关键词之后，还包括：

若所述当前回复语音文本数据中未包括回复关键词、否定回复关键词及跳转人工服务关键词中其中任意一个，调用本地存储的与所述当前回复语音文本数据对应的事项流程数据。