WO2021017173A1

WO2021017173A1 - 自然语言处理的方法、装置及设备

Info

Publication number: WO2021017173A1
Application number: PCT/CN2019/110894
Authority: WO
Inventors: 钱庄
Original assignee: 北京小米智能科技有限公司
Priority date: 2019-07-29
Filing date: 2019-10-12
Publication date: 2021-02-04
Also published as: CN110413756A; EP3772012A1; JP2021535411A; RU2726739C1; CN110413756B; US11501078B2; KR20210016262A; JP7101706B2; KR102330061B1; US20210034966A1

Abstract

本公开实施例是一种自然语言处理的方法、装置及设备，应用于人机对话系统中的对话机器人，其中所述方法包括：确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

Description

自然语言处理的方法、装置及设备

相关申请的交叉引用

本申请基于申请号为201910687763.0、申请日为2019年07月29日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开实施例涉及人机对话技术领域，尤其涉及自然语言处理的方法、装置及设备。

背景技术

自然语言处理是一门融合语言学、计算机科学、数学的科学，研究实现人与计算机之间用自然语言进行有效通信的理论和方法。在自然语言处理中，序列标注模型是常用的模型，被广泛应用于文本处理等相关领域。

解决序列标注问题目前流行的方法包括隐马尔科夫模型(HMM)、条件随机场(CRFs)以及循环神经网络(RNNs)。但上述模型都存在模型能力有限、无法进行自学习等问题。

发明内容

为克服相关技术中存在的问题，本公开实施例提供了一种自然语言处理的方法、装置及设备。

根据本公开实施例的第一方面，提供一种自然语言处理的方法，所述方法应用于人机对话系统中的对话机器人，所述方法包括：

确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

可选地，所述人机对话系统还包括中央控制模块；

在确定使用的所述BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果之后，所述方法还包括：

所述对话机器人将所述BiLSTM-CRF模型输出的词槽识别结果输出至所述中央控制模块；

获取所述中央控制模块从接收到的针对所述对话数据的词槽识别结果集合中决策出的目标词槽识别结果；

其中，所述词槽识别结果集合包括所述BiLSTM-CRF模型输出的词槽识别结果以及其他对话机器人输出的词槽识别结果；所述目标词槽识别结果用于作为所述人机对话系统对用户的回复结果输出。

可选地，所述基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息包括：

响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果不一致，则将所述不一致的反馈信息确定为负反馈信息；

响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果一致，则根据用户对所述回复结果的反馈操作确定反馈信息。

可选地，所述根据用户对所述回复结果的反馈操作确定反馈信息，包括：

响应于用户的正向反馈率大于或等于预设阈值，将该反馈信息确定为正反馈信息；

响应于所述正向反馈率小于预设阈值，将该反馈信息确定为负反馈信息；

其中，所述正向反馈率为根据一段时间内用户对所述回复结果的反馈操作确定的。

可选地，所述根据所述反馈信息进行模型增强学习，包括：

将所述反馈信息反馈到所述BiLSTM-CRF模型中的CRF层，以由所述CRF层根据所述反馈信息进行模型增强训练。

根据本公开实施例的第二方面，提供一种自然语言处理的装置，所述装置应用于人机对话系统中的对话机器人，所述装置包括：

词槽识别结果确定模块，被配置为确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

反馈信息确定模块，被配置为基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

模型增强学习模块，被配置为根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

可选地，所述人机对话系统还包括中央控制模块；

所述装置还包括：

词槽识别结果输出模块，被配置为将所述BiLSTM-CRF模型输出的词槽识别结果输出至所述中央控制模块；

目标词槽识别结果确定模块，被配置为获取所述中央控制模块从接收到的针对所述对话数据的词槽识别结果集合中决策出的目标词槽识别结果；

可选地，所述反馈信息确定模块包括：

第一反馈信息确定子模块，被配置为响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果不一致，则将所述不一致的反馈信息确定为负反馈信息；

第二反馈信息确定子模块，被配置为响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果一致，则根据用户对所述回复结果的反馈操作确定反馈信息。

可选地，所述第二反馈信息确定子模块具体被配置为：

可选地，所述模型增强学习模块具体被配置为：

根据本公开实施例的第三方面，提供一种人机对话设备，所述人机对话设备中包括对话机器人，所述人机对话设备包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开实施例中，以BiLSTM-CRF模型作为基本框架，当BiLSTM-CRF模型对外输出词槽识别结果以后，对话机器人可以根据该词槽识别结果获取对应的反馈信息，并根据该反馈信息对BiLSTM-CRF模型进行增强学习，从而实现模型的动态自学习，以减少人工标注的过程，提升词槽识别的效率和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开实施例。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开实施例的原理。

图1是本公开根据一示例性实施例示出的一种自然语言处理的方法实施例的步骤流程图；

图2是本公开根据一示例性实施例示出的又一种自然语言处理的方法实施例的步骤流程图；

图3是本公开根据一示例性实施例示出的BiLSTM-CRF模型示意图；

图4是本公开根据一示例性实施例示出的一种自然语言处理的装置实施例的框图；

图5是本公开根据一示例性实施例示出的一种人机交互设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。

在本公开实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参考图1是本公开根据一示例性实施例示出的一种自然语言处理的方法实施例的步骤流程图，本公开实施例的方法可以应用于人机对话系统中的对话机器人，具体可以包括如下步骤：

步骤101，确定使用的BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果。

在该步骤中，当本对话机器人接收到用户输入的对话数据时，可以采用BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络算法)-CRF(Conditional Random Field algorithm，条件随机场算法)模型对该对话数据进行词槽识别，并获取BiLSTM-CRF模型输出的词槽识别结果。其中，词槽识别可以理解为序列标注任务，解决序列标注问题。

步骤102，基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息。

在该步骤中，当对话机器人获得词槽识别结果以后，可以进一步确定该词槽识别结果的反馈信息，示例性地，该反馈信息可以包括用户对该词槽识别结果的反馈。

步骤103，根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

该步骤中，对话机器人可以根据获得的该词槽识别结果的反馈信息，对BiLSTM-CRF模型进行增强学习，从而实现模型的动态自学习，以减少人工标注的过程，提升词槽识别的效率和准确率。

参考图2是本公开根据一示例性实施例示出的另一种自然语言处理的方法实施例的步骤流程图，本公开实施例的方法可以应用于人机对话系统中的对话机器人，具体可以包括如下步骤：

步骤201，确定使用的BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果。

词槽识别(Slot tagging)是NLU(Natural Language Understanding，自然语言理解)模块的重要组成部分，而NLU模块是人机对话系统中最核心的部分，整个NLU模块的功能主要包括如下两个：对用户意图(Intent)的理解，和对用户表达的语句中核心槽位(Slot，即词槽)的解析。意图(Intent)是一个分类器，确定用户表达的语句的类型，进而由确定的类型对应的程序(即Bot(语音机器人))进行专门的解析。比如用户说：“给我放一首快乐的歌吧”，这个时候可以判断用户的意图分类是音乐，因此可以召唤出音乐机器人(Bot)给用户推荐一首歌播放，用户听着觉得不对的时候，说：“换一首”，还是这个音乐机器人继续为用户服务，直到用户表达别的问题，意图已经不是音乐的时候，再切换成别的机器人为用户服务。

人机对话系统中还包括一个与NLU模块通信的中央控制模块，当NLU模块针对一个对话语句解析出超过一种意图时，可以由中央控制模块将用户的对话语句发送给声明可以处理用户意图的Bot(即ChatBot，对话机器人)，并由这些Bot返回自己处理完毕的结果。

而Bot需要理解对话语句中的内容，为简便起见，可以只选择最核心重要的部分进行理解，并忽略其他非核心的内容，而那些最核心重要的部分称之为槽位(Slot)，即词槽。

本公开实施例中的对话机器人Bot可以采用BiLSTM-CRF模型对用户输入的对话数据进行词槽识别。其中，词槽识别可以理解为序列标注任务，解决序列标注问题。

以下以中文句子为例，采用BiLSTM-CRF模型进行词槽识别过程如下：

将一个含有n个字的句子(字的序列)记作

x＝(x ₁,x ₂,…,x _n)

其中，x _i表示句子第i个字在字典中的id，进而可以得到每个字的独热编码(one-hot)向量，维数是字典大小。

如图3的BiLSTM-CRF模型示意图所示：

模型的第一层是查找层(look-up layer)，利用预训练或随机初始化的嵌入(embedding)矩阵将句子中的每个字由one-hot向量映射为低维稠密的字向量，在输入下一层之前，设置dropout(随机失活，是对具有深度结构的神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性，从而实现神经网络的正则化，防止神经网络的过拟合)以缓解过拟合。

模型的第二层是双向LSTM(Long Short-Term Memory，长短期记忆网络)层，包括正向长短期记忆网络(forward LSTM)以及反向长短期记忆网络(backward LSTM)。将一个句子的各个字的char embedding(字符嵌入)序列(x ₁,x ₂,…,x _n)作为双向LSTM各个时间步的输入，再将正向LSTM输出的

隐状态序列与反向LSTM的

在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列。

在设置dropout后，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而由输出层(LSTM’s output)输出自动提取的句子特征，记作矩阵P＝(p ₁,p ₂,…,p _n)。

模型的第三层是CRF层，进行句子级的序列标注，CRF层的参数是一个(k+2)*(k+2)的矩阵A，A _ij表示的是从第i个标签到第j个标签的转移得分，进而在为一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。

从图3可以看出，针对“中国很大”的句子，BiLSTM-CRF模型最终输出的词槽识别结果为：

其中，在BIO标注集中，B-PER、I-PER分别表示人名首字、人名非首字；B-LOC、I-LOC分别表示地名首字、地名非首字；B-ORG、I-ORG分别表示组织机构名首字、组织机构名非首字；O表示该字不属于命名实体的一部分。当然，在特定领域中，还会相应地自定义领域内的各种实体类型，例如电影类型(video)、天气类型(weather)等类型。

步骤202，所述对话机器人将所述BiLSTM-CRF模型输出的词槽识别结果输出至所述中央控制模块。

步骤203，获取所述中央控制模块从接收到的针对所述对话数据的词槽识别结果集合中决策出的目标词槽识别结果。

在该实施例中，当对话机器人获得BiLSTM-CRF模型输出的词槽识别结果以后，可以将该词槽识别结果输出给中央控制模块。对于中央控制模块而言，其可以接收到来自不同对话机器人Bot发来的针对同一对话数据的词槽识别结果，组成词槽识别结果集合，则词槽识别结果集合可以包括BiLSTM-CRF模型输出的词槽识别结果以及其他对话机器人输出的词槽识别结果。

在实际中，当NLU模块针对一个对话语句解析出超过一种意图时，可以由中央控制模块进行决策，从多种意图中决策出一种意图作为用户意图，并确定出与用户意图对应的至少一个Bot分别进行解析处理，得到处理后的词槽识别结果集合。随后，中央控制模块可以从词槽识别结果集合中决策出最匹配用户意图的目标词槽识别结果，该目标词槽识别结果可以用于作为人机对话系统对用户的回复结果输出。

步骤204，响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果不一致，则将所述不一致的反馈信息确定为负反馈信息。

本实施例可以结合目标词槽结果与BiLSTM-CRF模型输出的词槽识别结果的比较结果，来确定BiLSTM-CRF模型输出的词槽识别结果的反馈信息。

作为一种示例，该反馈信息可以包括正反馈信息以及负反馈信息。例如，正反馈信息可以用数值1表示，负反馈信息可以用数值-1表示。

在该步骤中，若BiLSTM-CRF模型输出的词槽识别结果与目标词槽识别结果不一致，则可以将反馈信息确定为负反馈信息。

在一种实现方式中，本对话机器人中可以设置反馈计算器(Reward Calculator)来记录当前词槽识别结果的反馈信息。例如，若上述反馈信息确定为负反馈信息，则Reward Calculator的记录为reward＝-1。

步骤205，响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果一致，则根据用户对所述回复结果的反馈操作确定反馈信息。

在该步骤中，如果BiLSTM-CRF模型输出的词槽识别结果与目标词槽识别结果一致，则可以结合用户对回复结果的反馈操作来确定反馈信息。

也就是说，即使BiLSTM-CRF模型输出的词槽识别结果与目标词槽识别结果一致，也可以结合用户对回复结果的反馈操作来确定反馈信息，因为用户是对回复结果是否合理的真正评判端。

在本公开实施例的一种可能的实施方式中，步骤205可以包括如下子步骤：

子步骤S11，响应于用户的正向反馈率大于或等于预设阈值，将该反馈信息确定为正反馈信息。

子步骤S12，响应于所述正向反馈率小于预设阈值，将该反馈信息确定为负反馈信息。

其中，正向反馈率为根据一段时间内用户对回复结果的反馈操作确定的。

在实际中，在一个时间段内，可能有多个用户向人机对话系统发出相同或类似的对话数据，则针对该对话数据，若BiLSTM-CRF模型输出的词槽识别结果作为回复结果，可以统计该时间段内多个用户对该回复结果的反馈操作(如点击或点赞等操作)，如果正向反馈率大于或等于预设阈值，则表示用户的反馈是积极反馈，此时可以将该词槽识别结果的反馈信息确定为正反馈信息，即reward＝1；否则，如果正向反馈率小于预设阈值，则表示用户的反馈是消极反馈，此时可以将该词槽识别结果的反馈信息确定为负反馈信息，即reward＝-1。

当确定反馈信息以后，还可以将该反馈信息存储在缓存区中，以供后续使用。

步骤206，将所述反馈信息反馈到所述BiLSTM-CRF模型中的CRF层，以由所述CRF层根据所述反馈信息进行模型增强训练。

在该步骤中，Reward Calculator确定BiLSTM-CRF模型输出的词槽识别结果的反馈信息以后，可以将记录的反馈信息反馈到BiLSTM-CRF模型的CRF层中，CRF层将各个词槽识别结果以及对应的反馈信息作为训练数据进行模型的增强学习训练，通过增强学习完成整个学习的闭环，从而使得训练得到的BiLSTM-CRF模型能够获得更加准确的词槽识别结果。

在一种例子中，BiLSTM-CRF模型进行增强学习的四要素可以包括：

Action：词槽识别结果Y

State：待识别序列X

Policy：p(y|x)，即在序列X的条件下，生成结果Y的概率

Reward：反馈信息。

在本实施例中，当获得BiLSTM-CRF模型输出的词槽识别结果以后，可以结合中央控制模块与用户对该词槽识别结果的反馈，确定反馈信息，免去用户标注的麻烦，将该反馈信息返回至BiLSTM-CRF模型的CRF层进行增强学习，可以提高BiLSTM-CRF模型的准确率。

为了使本领域技术人员能够更好地理解本公开实施例，以下列举具体的例子对本公开实施例进行示例性说明：

例如，用户输入的对话数据为“明日的天气”，由于“明日的天气”是一个电影名称，因此BiLSTM-CRF模型对“明日的天气”进行词槽识别后，输出的词槽识别结果为：明日的天气/video。中央控制模块接收到多个Bot发送的词槽识别结果后，最终决策的该对话数据的用户意图是天气，因此最终得到的目标词槽识别结果是“明日/date天气/weather”。Reward Calculator获得中央控制模块决策的目标词槽识别结果以后，将其与BiLSTM-CRF模型输出的词槽识别结果进行匹配，判定两者不一致(一个是video的结果，一个是weather的结果)，因此，将该BiLSTM-CRF模型输出的词槽识别结果的反馈信息设置为reward＝-1。

反之，如果中央控制模块最终决策的该对话数据的意图是video，因此最终得到的目标词槽识别结果是“明日的天气/video”。Reward Calculator获得中央控制模块决策的目标词槽识别结果以后，将其与BiLSTM-CRF模型输出的词槽识别结果进行匹配，判定两者一致(都是video的结果)，此时，Reward Calculator会统计一段时间内用户对该目标词槽识别结果对应的回复结果(例如，中央控制模块向用户回复明日的天气的电影资源)的点击率，如果点击率比较低(低于预设阈值)，此时可以认为该回复结果没有满足用户，则可以将该词槽识别结果的反馈信息设置为reward＝-1，反之，如果点击率比较高(高于预设阈值)，此时可以认为该回复结果满足用户，则可以将该词槽识别结果的反馈信息设置为reward＝1。

Reward Calculator将反馈信息反馈到BiLSTM-CRF模型中，由模型进行动态自学习，假设reward＝-1，则下次当模型再次接收到“明日的天气”的对话数据时，则判定其不属于video的标注结果，而是属于weather的标注结果，输出的识别结果为“明日/date天气/weather”，从而达到了学习的目的。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

与前述自然语言处理的方法实施例相对应，本公开实施例还提供了自然语言处理的装置的实施例。

如图4所示，图4是本公开根据一示例性实施例示出的一种自然语言处理的装置实施例的框图，本公开实施例的装置应用于人机对话系统中的对话机器人，该装置具体可以包括如下模块：

词槽识别结果确定模块401，被配置为确定使用的BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

反馈信息确定模块402，被配置为基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

模型增强学习模块403，被配置为根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

由上述实施例可见，本公开实施例通过词槽识别结果确定模块401获取BiLSTM-CRF模型输出的槽识别结果，并通过反馈信息确定模块402基于该词槽识别结果以及用户对该词槽识别结果的反馈确定反馈信息，以减少人工的标注量。然后通过模型增强学习模块403根据该反馈信息对BiLSTM-CRF模型进行增强学习，实现模型的动态自学习，从而可以提升模型的词槽识别的准确率。

在本公开实施例的一种可选实施例中，人机对话系统还包括中央控制模块；所述装置还包括如下模块：

在本公开实施例的另一种可选实施例中，所述反馈信息确定模块402可以包括如下子模块：

由上述实施例可见，反馈信息可以包括中央处理模块的反馈信息以及用户的反馈信息，丰富了反馈信息的确定维度，以提高标注的准确性。

在本公开实施例的一种可选实施例中，所述第二反馈信息确定子模块具体被配置为：

由上述实施例可知，在进行反馈信息的标注时，可以结合中央控制模块以及用户的反馈信息进行分析，从而可以提高标注的准确度。

在本公开实施例的一种可选实施例中，所述模型增强学习模块403具体被配置为：

由上述实施例可知，通过模型增强学习模块403根据反馈信息进行模型增强学习，可以实现模型的动态自学习，提升模型的词槽识别的准确率。

上述装置中各个模块的功能和作用的实现过程具体详情见上述系统实施例中的具体描述，在此不再赘述。

对于装置实施例而言，由于其基本对应于系统实施例，所以相关之处参见系统实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

如图5所示，图5是本公开根据一示例性实施例示出的一种人机对话设备500的框图。

参照图5，设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)接口512，传感器组件514，以及通信组件516。

处理组件502通常控制设备500的整体操作，处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件506为设备500的各种组件提供电力。电源组件506可以包括：电源管理系统，一个或多个电源，及其他与为设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器不仅可以感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态、组件的相对定位，例如所述组件为设备500的显示器和小键盘，传感器组件514还可以检测：设备500或设备500中一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，被配置为在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi、2G或5G、或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、CD-ROM、磁带、软盘和光数据存储设备等。

其中，当所述存储介质中的指令由所述处理器执行时，使得设备500能够执行一种自然语言处理的方法，包括：确定使用的BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开实施例的其它实施方案。本公开实施例旨在涵盖本公开实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开实施例的一般性原理并包括本公开实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开实施例的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开实施例的范围仅由所附的权利要求来限制。

以上所述仅为本公开实施例的较佳实施例而已，并不用以限制本公开实施例，凡在本公开实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开实施例保护的范围之内。

工业实用性

本公开实施例中，以BiLSTM-CRF模型作为基本框架，当BiLSTM-CRF模型对外输出词槽识别结果以后，对话机器人可以根据该词槽识别结果获取对应的反馈信息，并根据该反馈信息对BiLSTM-CRF模型进行增强学习，从而实现模型的动态自学习，以减少人工标注的过程，提升词槽识别的效率和准确率。

Claims

一种自然语言处理的方法，所述方法应用于人机对话系统中的对话机器人，所述方法包括：

确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。
根据权利要求1所述的方法，其中，所述人机对话系统还包括中央控制模块；

在确定使用的所述BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果之后，所述方法还包括：

所述对话机器人将所述BiLSTM-CRF模型输出的词槽识别结果输出至所述中央控制模块；

获取所述中央控制模块从接收到的针对所述对话数据的词槽识别结果集合中决策出的目标词槽识别结果；

其中，所述词槽识别结果集合包括所述BiLSTM-CRF模型输出的词槽识别结果以及其他对话机器人输出的词槽识别结果；所述目标词槽识别结果用于作为所述人机对话系统对用户的回复结果输出。
根据权利要求2所述的方法，其中，所述基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息包括：

响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果不一致，则将所述不一致的反馈信息确定为负反馈信息；

响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果一致，则根据用户对所述回复结果的反馈操作确定反馈信息。
根据权利要求3所述的方法，其中，所述根据用户对所述回复结果的反馈操作确定反馈信息，包括：

响应于用户的正向反馈率大于或等于预设阈值，将该反馈信息确定为正反馈信息；

响应于所述正向反馈率小于预设阈值，将该反馈信息确定为负反馈信息；

其中，所述正向反馈率为根据一段时间内用户对所述回复结果的反馈操作确定的。
根据权利要求1-4任一项所述的方法，其中，所述根据所述反馈信息进行模型增强学习，包括：

将所述反馈信息反馈到所述BiLSTM-CRF模型中的CRF层，以由所述CRF层根据所述反馈信息进行模型增强训练。
一种自然语言处理的装置，所述装置应用于人机对话系统中的对话机器人，所述装置包括：

词槽识别结果确定模块，被配置为确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

反馈信息确定模块，被配置为基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

模型增强学习模块，被配置为根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。
根据权利要求6所述的装置，其中，所述人机对话系统还包括中央控制模块；

所述装置还包括：

词槽识别结果输出模块，被配置为将所述BiLSTM-CRF模型输出的词槽识别结果输出至所述中央控制模块；

目标词槽识别结果确定模块，被配置为获取所述中央控制模块从接收到的针对所述对话数据的词槽识别结果集合中决策出的目标词槽识别结果；

其中，所述词槽识别结果集合包括所述BiLSTM-CRF模型输出的词槽识别结果以及其他对话机器人输出的词槽识别结果；所述目标词槽识别结果用于作为所述人机对话系统对用户的回复结果输出。
根据权利要求7所述的装置，其中，所述反馈信息确定模块包括：

第一反馈信息确定子模块，被配置为响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果不一致，则将所述不一致的反馈信息确定为负反馈信息；

第二反馈信息确定子模块，被配置为响应于所述目标词槽识别结果与所述BiLSTM-CRF模型输出的词槽识别结果一致，则根据用户对所述回复结果的反馈操作确定反馈信息。
根据权利要求8所述的装置，其中，所述第二反馈信息确定子模块具体被配置为：

响应于用户的正向反馈率大于或等于预设阈值，将该反馈信息确定为正反馈信息；

响应于所述正向反馈率小于预设阈值，将该反馈信息确定为负反馈信息；

其中，所述正向反馈率为根据一段时间内用户对所述回复结果的反馈操作确定的。
根据权利要求6-9任一项所述的装置，其中，所述模型增强学习模块具体被配置为：

将所述反馈信息反馈到所述BiLSTM-CRF模型中的CRF层，以由所述CRF层根据所述反馈信息进行模型增强训练。
一种人机对话设备，所述人机对话设备中包括对话机器人，所述人机对话设备包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定使用的双向长短期记忆网络算法及条件随机场算法BiLSTM-CRF模型对用户输入的对话数据进行词槽识别后输出的词槽识别结果；

基于所述词槽识别结果以及用户对所述词槽识别结果的反馈确定反馈信息；

根据所述反馈信息对所述BiLSTM-CRF模型进行增强学习。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。