WO2020220702A1

WO2020220702A1 - 生成自然语言

Info

Publication number: WO2020220702A1
Application number: PCT/CN2019/127634
Authority: WO
Inventors: 付圣; 任冬淳; 丁曙光; 钱德恒; 王志超; 朱炎亮
Original assignee: 北京三快在线科技有限公司
Priority date: 2019-04-29
Filing date: 2019-12-23
Publication date: 2020-11-05
Also published as: CN110096707A; CN110096707B

Abstract

本申请公开了生成自然语言，属于人工智能领域。方法包括：获取目标指令的内容所包括的目标词汇，以及目标指令的环境图片中的环境元素所指示的描述词汇；基于目标词汇及描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，自然语言模型是根据训练数据集训练过的语言模型；获取每条初始自然语句的分值，基于每条初始自然语句的分值选择满足条件的自然语句作为目标指令的自然语言。

Description

生成自然语言

本公开要求于2019年04月29日提交的申请号为201910357502.2、申请名称为“生成自然语言的方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本申请涉及人工智能领域，特别涉及生成自然语言。

背景技术

随着人工智能技术的发展，人工智能装置被广泛应用于生活中，自然语言的生成装置便是其中一种。该生成装置在获取需要用户理解的目标指令后，生成自然语言(即人类沟通所使用的语言)来描述该目标指令，以便用户进行理解。因此，如何生成自然语言，成为用户快速、正确地理解目标指令的关键。

发明内容

本申请实施例提供了生成自然语言，所述技术方案如下：

一方面，提供了一种生成自然语言的方法，所述方法包括：

获取目标指令的内容所包括的目标词汇，以及所述目标指令的环境图片中的环境元素所指示的描述词汇；

基于所述目标词汇及所述描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，所述自然语言模型是根据训练数据集训练过的语言模型，所述训练数据集包括用户描述训练指令的自然语言；

获取每条初始自然语句的分值，基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，所述分值用于指示所述初始自然语句的准确程度。

可选地，所述获取每条初始自然语句的分值，包括：

对于任一初始自然语句，获取所述初始自然语句的第一分值，所述第一分值用于指示所述初始自然语句与所述训练数据集的匹配程度；

根据公开数据集获取所述初始自然语句的第二分值，所述第二分值用于指示所述初始自然语句与所述环境图片的匹配程度，所述公开数据集包括标注了环境元素的多张图片；

将所述第一分值与所述第二分值的乘积作为所述初始自然语句的分值。

可选地，所述根据公开数据集获取所述初始自然语句的第二分值，包括：

对所述初始自然语句进行编码，得到编码后的自然语句信息；

根据分值模型中的卷积参数对所述编码后的自然语句信息和所述环境图片中的信息进行卷积计算，得到卷积结果；

根据所述分值模型中的分类参数对所述卷积结果进行计算，得到所述初始自然语句的第二分值，所述卷积参数和所述分类参数是根据所述公开数据集训练得到的参数。

可选地，所述基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，包括：

从初始自然语句中选择分值最大的初始自然语句，若所述分值最大的初始自然语句的分值不低于参考阈值，则将所述分值最大的初始自然语句作为所述目标指令的自然语言。

可选地，所述方法还包括：

若所述分值最大的初始自然语句的分值低于所述参考阀值，重新获取分值不低于所述参考阈值的目标自然语句，将所述目标自然语句作为所述目标指令的自然语言。

可选地，所述重新获取分值不低于所述参考阈值的目标自然语句，包括：

调用所述自然语言模型，基于所述目标词汇和所述描述词汇，按照第一语法生成一条或多条第一自然语句，所述第一语法为除所述参考语法外的任一语法；

获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值；

若所述第一自然语句的分值的平均值大于所述初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于所述分值最大的初始自然语句，将所述分值最大的第一自然语句作为所述目标自然语句。

可选地，所述获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值之后，还包括：

若所述第一自然语句的分值的平均值不大于所述初始自然语句的分值的平均值，或者，所述分值最大的第一自然语句的分值不大于所述分值最大的初始自然语句，调用所述自然语言模型，基于所述分值最大的初始自然语句和所述描述词汇，按照所述参考语法生成一条或多条第二自然语句，所述第二自然语句中的描述词汇的数量大于所述分值最大的初始自然语句中的描述词汇的数量；

获取所述第二自然语句的分值，将分值最大的第二自然语句作为所述目标自然语句。

可选地，所述基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言之后，所述方法还包括：

获取预测数值，所述预测数值用于指示所述环境元素更新对所述满足条件的自然语句的影响程度；

若所述预测数值大于参考数值，调用所述自然语言模型生成备选自然语句，将所述备选自然语句代替所述满足条件的自然语句作为所述目标指令的自然语言。

可选地，所述获取预测数值，包括：

获取第一预测数值，所述第一预测数值用于指示所述环境元素更新后，所述环境图片由当前状态更新为预测状态的概率，其中，所述当前状态是指所述环境元素更新之前的状态；

获取第二预测数值，所述第二预测数值用于指示观测到所述当前状态及所述环境元素更新的概率；

获取第三预测数值，所述第三预测数值用于指示若所述环境图片由当前状态更新为预测状态，对所述满足条件的自然语句的影响程度；

将所述第一预测数值、所述第二预测数值与所述第三预测数值的乘积作为所述预测数值。

一方面，提供了一种生成自然语言的装置，所述装置包括：

第一获取模块，用于获取目标指令的内容所包括的目标词汇，以及所述目标指令的环境图片中的环境元素所指示的描述词汇；

生成模块，用于基于所述目标词汇及所述描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，所述自然语言模型是根据训练数据集训练过的语言模型，所述训练数据集包括用户描述训练指令的自然语言；

第二获取模块，用于获取每条初始自然语句的分值；

选择模块，用于基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，所述分值用于指示所述初始自然语句的准确程度。

可选地，所述第二获取模块，用于对于任一初始自然语句，获取所述初始自然语句的第一分值，所述第一分值用于指示所述初始自然语句与所述训练数据集的匹配程度；根据公开数据集获取所述初始自然语句的第二分值，所述第二分值用于指示所述初始自然语句与所述环境图片的匹配程度，所述公开数据集包括标注了环境元素的多张图片；将所述第一分值与所述第二分值的乘积作为所述初始自然语句的分值。

可选地，所述第二获取模块，用于对所述初始自然语句进行编码，得到编码后的自然语句信息；根据分值模型中的卷积参数对所述编码后的自然语句信息和所述环境图片中的信息进行卷积计算，得到卷积结果；根据所述分值模型中的分类参数对所述卷积结果进行计算，得到所述初始自然语句的第二分值，所述卷积参数和所述分类参数是根据所述公开数据集训练得到的参数。

可选地，所述选择模块，用于从初始自然语句中选择分值最大的初始自然语句，若所述分值最大的初始自然语句的分值不低于参考阈值，则将所述分值最大的初始自然语句作为所述目标指令的自然语言。

可选地，所述装置还包括：第三获取模块，用于若所述分值最大的初始自然语句的分值低于所述参考阀值，重新获取分值不低于所述参考阈值的目标自然语句，将所述目标自然语句作为所述目标指令的自然语言。

可选地，所述第三获取模块，用于调用所述自然语言模型，基于所述目标词汇和所述描述词汇，按照第一语法生成一条或多条第一自然语句，所述第一语法为除所述参考语法外的任一语法；获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值；若所述第一自然语句的分值的平均值大于所述初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于所述分值最大的初始自然语句，将所述分值最大的第一自然语句作为所述目标自然语句。

可选地，所述第三获取模块，还用于若所述第一自然语句的分值的平均值不大于所述初始自然语句的分值的平均值，或者，所述分值最大的第一自然语句的分值不大于所述分值最大的初始自然语句，调用所述自然语言模型，基于所述分值最大的初始自然语句和所述描述词汇，按照所述参考语法生成一条或多条第二自然语句，所述第二自然语句中的描述词汇的数量大于所述分值最大的初始自然语句中的描述词汇的数量；获取所述第二自然语句的分值，将分值最大的第二自然语句作为所述目标自然语句。

可选地，所述装置还包括：预测模块，用于获取预测数值，所述预测数值用于指示所述环境元素更新对所述满足条件的自然语句的影响程度；若所述预测数值大于参考数值，调用所述自然语言模型生成备选自然语句，将所述备选自然语句代替所述满足条件的自然语句作为所述目标指令的自然语言。

可选地，所述预测模块，用于获取第一预测数值，所述第一预测数值用于指示所述环境元素更新后，所述环境图片由当前状态更新为预测状态的概率，其中，所述当前状态是指所述环境元素更新之前的状态；获取第二预测数值，所述第二预测数值用于指示观测到所述当前状态及所述环境元素更新的概率；获取第三预测数值，所述第三预测数值用于指示若所述环境图片由当前状态更新为预测状态，对所述满足条件的自然语句的影响程度；将所述第一预测数值、所述第二预测数值与所述第三预测数值的乘积作为所述预测数值。

一方面，提供了一种生成自然语言的设备，所述设备包括存储器及处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现本申请实施例提供的生成自然语言的方法。

另一方面，提供了一种可读存储介质，所述可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现本申请实施例提供的生成自然语言的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例通过根据训练数据集训练过的自然语言模型来生成初始自然语句，再从初始自然语句中选择满足条件的自然语句来作为目标指令的自然语言，不仅效率较高，而且生成的自然语言语义明确、易于理解，用户的使用体验较好。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的实施环境示意图；

图2是本申请实施例提供的生成自然语言的方法的流程图；

图3是本申请实施例提供的生成自然语言的流程示意图；

图4是本申请实施例提供的生成自然语言的流程示意图；

图5是本申请实施例提供的生成自然语言的装置的结构示意图；

图6是本申请实施例提供的生成自然语言的装置的结构示意图；

图7是本申请实施例提供的生成自然语言的装置的结构示意图；

图8是本申请实施例提供的终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着人工智能技术的发展，自然语言的生成装置被广泛的应用于生活中。自然语言的生成装置在获取需要用户理解的目标指令后，生成自然语言，即人类沟通所使用的语言，来描述该目标指令，以便用户进行理解。

在相关技术一中，首先基于目标指令的内容获取目标词汇，然后将该目标指令的实施环境中的环境元素所对应的词汇作为描述词汇，并按照不同顺序对目标词汇和所有描述词汇进行排列，形成参考数量的语句。之后，计算每个语句被用户正确理解的概率，将被用户正确理解的概率最高的语句作为描述目标指令的自然语言。

例如，以交通环境为例，基于目标指令“到黑车这来”获取目标词汇为“黑车”，将该交通环境中的环境元素所对应的词汇如“交警”及“过街天桥”作为描述词汇，从而排列得到“交警旁边的过街天桥后面的黑车”、“过街天桥后面的交警旁边的黑车”等语句。通过计算选择被用户正确理解的概率最高的语句作为描述目标指令的自然语言。

在相关技术一的基础上，相关技术二将被用户正确理解的概率最高的语句作为目标语句，向该目标语句中添加历史信息，形成一个或多个更新语句。之后，计算每个更新语句被用户正确理解的概率，将被用户正确理解的概率最高的更新语句作为描述目标指令的自然语言。

仍以上述交通环境为例，假设排列得到的“交警旁边的过街天桥后面的黑车”为目标语句。向该目标语句中添加历史信息，如将“交警旁边的过街天桥后面的黑车”变为“交警旁边的过街天桥后面的刚亮了一下尾灯的黑车”等更新语句。之后，再通过计算进行选择，从而得到描述目标指令的自然语言。

然而，对于包括较多环境元素的复杂环境，描述词汇也较多。从而导致相关技术一的计算量较大、效率低，且生成的自然语言的语义不够准确。相关技术二通过添加历史信息来提高自然语言的语义的准确程度，然而由于用户对历史信息常常印象不深，因而相关技术二生成的自然语言的语义仍不够准确，易被用户误解。可以看出，用户对相关技术的使用体验较差。

本申请实施例提供了一种生成自然语言的方法，该方法可应用于如图1所示的实施环境中。图1中，包括至少一个终端11和服务器12，终端11可与服务器12进行通信连接，以从服务器12上获取目标语言模型。若终端11能够自行训练模型，本申请实施例所提供的方法也可不依赖服务器12，而由终端11来执行整体方法流程。

其中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。

服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，参见图2，本申请实施例提供了一种生成自然语言的方法，该方法可应用于图1所示的终端中。如图2所示，该方法包括：

步骤201，获取目标指令的内容所包括的目标词汇，以及目标指令的环境图片中的环境元素所指示的描述词汇。

其中，目标指令是需要用户理解或执行的指令，目标词汇是指目标指令中包括的待描述的词汇。例如，目标指令为“到黑车这来”，则目标词汇为“黑车”。目标指令的环境图片用于指示目标指令的实施环境，环境元素包括但不限于目标指令的实施环境中的人、物或文字，人、物或文字所对应的名称即为环境元素所指示的描述词汇，描述词汇的数量可以为一个或多个。例如，参见图3所示的环境图片，则描述词汇包括但不限于“交警”、“过街天桥”以及“搭”。

在本实施例中，获取目标指令的环境图片的方式包括通过摄像机等采集设备进行采集。之后，可通过CNN(Convolutional Neural Network，卷积神经网络)对目标指令的环境图片进行特征提取，可得到环境图片中的环境元素；通过分类器对CNN提取得到的环境元素进行分类，从而获取环境元素的名称，即该环境元素所指示的描述词汇。

在获取目标词汇以及描述词汇之后，可通过描述词汇来对目标词汇进行描述，以使得描述后的目标词汇便于用户理解。

步骤202，基于目标词汇及描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句。

其中，自然语言模型是根据训练数据集训练过的语言模型，训练数据集包括用户描述训练指令的自然语言。需要说明的是，每条训练指令均对应有用于指示该训练指令的实施环境的环境图片。用户描述训练指令的自然语言是指，用户观察训练指令的环境图片后，根据用户的习惯来应用语法及词汇对训练指令进行描述所使用的自然语言。因此，根据训练数据集训练过的自然语言模型具有基于语法、描述词汇以及目标词汇生成自然语句的能力，且自然语言模型所使用的描述词汇包括所有描述词汇中的一个或多个。

在本实施例中，采集不同类型环境、不同时刻的训练指令以及训练指令的环境图片，将用户描述每个训练指令的自然语言作为训练数据集，以使得训练数据集所包含的自然语言的数量较多，进而使得根据该训练数据集训练过的自然语言模型生成自然语句的能力较强。其中，用户可以是需要对目标指令进行理解或执行的用户，也可以是通过样本抽取选中的多个其他用户，本实施例对此不加以限定。

根据以上说明可知，调用自然语言模型基于目标词汇以及描述词汇，按照参考语法可生成一条或多条初始自然语句，不同的初始自然语句所使用的描述词汇或描述词汇的数量中的至少一项不同。例如，仍参见图3所示的环境图片，则可生成“黑车有一个交警站在旁边”、“黑车后面有一个‘搭’的汉字”以及“黑车前面有一个过街天桥”等初始自然语句。

步骤203，获取每条初始自然语句的分值，基于每条初始自然语句的分值选择满足条件的自然语句作为目标指令的自然语言。

其中，分值用于指示初始自然语句的准确程度。初始自然语句的分值越高，则该初始自然语句的准确程度越高，也就是说，该初始自然语句的语义越易于被用户所理解。可选地，获取每条初始自然语句的分值，包括：

步骤2031，对于任一初始自然语句，获取初始自然语句的第一分值，第一分值用于指示初始自然语句与训练数据集的匹配程度。

初始自然语句与训练数据集的匹配程度是指，初始自然语句与训练数据集所包括的用户描述训练指令的自然语言的匹配程度。在一种可选的实施方式中，获取初始自然语句的第一分值，包括：

通过编码器对初始自然语句进行编码得到向量，将该向量输入全连接层以及分类器，以得到初始自然语句的第一分值，第一分值可表示为

其中，C _d为第一分值，k用于区分不同的初始自然语句，k为正整数，且k的最大值不大于初始自然语句的数量。例如，当初始自然语句的数量为两个时，一个初始自然语句的第一分值为

另一个初始自然语句的第一分值为

步骤2032，根据公开数据集获取初始自然语句的第二分值，第二分值用于指示初始自然语句与环境图片的匹配程度，公开数据集包括标注了环境元素的多张图片。

由于自然语言模型是根据训练数据集训练得到的，而训练数据集中所包括的自然语言数量有限，因而可能导致自然语言模型所生成的初始自然语句过拟合。其中，过拟合定义为：自然语言模型所生成的初始自然语句与训练数据集所包括的自然语言之间的匹配程度高，而与环境图片的匹配程度低。

因此，本实施例根据公开数据集来获取用于指示初始自然语句与环境图片的匹配程度的第二分值，以避免后续选择过程中，与环境图片的匹配程度低的初始自然语句被作为目标指令的自然语言。其中，公开数据集包括标注了环境元素的多张图片，标注环境元素是指将环境元素标注为词汇。公开数据集包括但不限于Oxford-102、KITTI及CityScope等数据集。

其中，考虑到初始自然语句与环境图片的匹配程度取决于初始自然语句所使用的描述词汇，因而可通过初始自然语句所使用的描述词汇与公开数据集中所标注的词汇的匹配程度，来间接表示初始自然语句与环境图片的匹配程度。例如，针对目标指令的环境图片，初始自然语句使用的描述词汇为“白色的天空”，而公开数据集所标注的词汇为“蓝色的天空”，则初始自然语句所使用的描述词汇与公开数据集所标注的词汇的匹配程度较低，从而得出初始自然语句与环境图片的匹配程度也较低。

可选地，根据公开数据集获取初始自然语句的第二分值，包括：

对初始自然语句进行编码，得到编码后的自然语句信息；根据分值模型中的卷积参数对编码后的自然语句信息和环境图片中的信息进行卷积计算，得到卷积结果；根据分值模型中的分类参数对卷积结果进行计算，得到初始自然语句的第二分值。

其中，本实施例采用LSTM(Long Short-Term Memory，长短期记忆网络)编码器，按照如下的公式对初始自然语句进行编码：

c＝LSTM(y)

其中，c为编码后的自然语句信息，该信息为向量形式；y为初始自然语句。

之后，调用分值模型，按照如下的公式对编码后的自然语句信息和环境图片中的信息进行卷积计算，得到卷积结果：

f＝tanh(W _x·x+b _x)⊙tanh(W _c·c+b _c)

其中，f即为卷积结果，x为环境图片中的信息，Wx、bx、Wc及bc均为分值模型中的卷积参数，tanh为双曲正切函数，⊙为卷积计算符号。

接着，按照如下的公式对卷积结果进行计算，从而得到第二分值：

其中，

代表第二分值，与第一分值相同，k仍用于区分不同的初始自然语句，此处不再加以赘述。另外，Wm及bm均为分值模型中的分类参数，softmax为分类函数。

需要说明的是，根据公开数据集对分值模型进行训练，即可得到上述卷积参数(Wx、bx、Wc、bc)及分类参数(Wm、bm)。进行训练后，还可将测试环境图片及测试自然语句输入该分值模型，得到测试的第二分值。通过分析该测试的第二分值来调整卷积参数及分类参数，即改变卷积参数及分类参数中的一个或多个参数的数值，以使得该分值模型输出的第二分值所指示的初始自然语句与环境图片的匹配程度的准确性更高。

步骤2033，将第一分值与第二分值的乘积作为初始自然语句的分值。

根据以上说明可知，第一分值指示初始自然语句与训练数据集的匹配程度，第二分值指示初始自然语句与环境图片的匹配程度。则将第一分值与第二分值的乘积作为初始自然语句的分值，该分值可同时体现初始自然语句与训练数据集、初始自然语句与环境图片的匹配程度，从而指示初始自然语句的准确程度。

另外，除了将第一分值与第二分值的乘积作为初始自然语句的分值，本实施例还可采用其他的方式对第一分值与第二分值进行计算，得到初始自然语句的分值。例如，可将第一分值与第二分值的加权求和值作为初始自然语句的分值。此时，第一分值与第二分值所对应的权值可以相同，也可以不同，以满足不同需求。

需要说明的是，若初始自然语句的分值越大指示初始自然语句的准确程度越高，则相应地，第一分值及第二分值越大，其指示的匹配程度也越高。若初始自然语句的分值越小指示初始自然语句的准确程度越高，则相应地，第一分值及第二分值越小，其指示的匹配程度越高。本实施例根据实际情况采用以上两种情况中的一种，在此不加以限定。

在获取每条初始自然语句的分值后，便可基于每条初始自然语句的分值选择满足作为目标指令的自然语言。以初始自然语句的分值越大指示初始自然语句的准确程度越高为例，可选地，从初始自然语句中选择分值最大的初始自然语句，若分值最大的初始自然语句的分值不低于参考阈值，则将分值最大的初始自然语句作为目标指令的自然语言。

可以看出，本实施例从自然语言模型生成的一条或多条初始自然语句中选择准确程度最高的初始自然语句，若该初始自然语句的准确程度不低于参考阈值所指示的准确程度，则可说明该初始自然语句的准确程度已达到易于被用户所理解的标准，因而可将该初始自然语句作为目标指令的自然语言。其中，参考阈值可根据经验选取，本实施例对此不加以限定。

由于初始自然语句的分值为第一分值与第二分值的乘积(或加权求和值等)，因而第一分值与第二分值中的任意一项分值较低，均会导致初始自然语句的分值低于参考阈值，进而导致该初始自然语句不能被选择作为目标指令的自然语句。换言之，与训练数据集的匹配程度低或者与环境图片的匹配程度低的初始自然语句均会被剔除掉，因而保证了作为目标指令的自然语言的初始自然语句，既与训练数据集的匹配程度较高，又与环境图片的匹配程度较高，从而便于用户的理解或执行。

当然，上述说明针对于分值最大的初始自然语句的分值不低于参考阈值的情况。而对于分值最大的初始自然语句的分值低于参考阈值的情况，可选地，本实施例提供的方法还包括：若分值最大的初始自然语句的分值低于参考阀值，重新获取分值不低于参考阈值的目标自然语句，将目标自然语句作为目标指令的自然语言。

其中，若分值最大的初始自然语句的分值低于参考阈值，则说明所有初始自然语句的分值均低于参考阈值，也就是所有初始自然语句的准确程度均未达到易于被用户所理解的标准。因此，需要重新获取其他的自然语句来作为目标指令的自然语言，以保证目标指令的自然语句满足易于被用户所理解的标准。

在一种可选的实施方式中，重新获取分值不低于参考阈值的目标自然语句，包括：调用自然语言模型，基于目标词汇和描述词汇，按照第一语法生成一条或多条第一自然语句，第一语法为除参考语法外的任一语法；获取第一自然语句的分值的平均值和初始自然语句的分值的平均值；若第一自然语句的分值的平均值大于初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于分值最大的初始自然语句，将分值最大的第一自然语句作为目标自然语句。

训练数据集所包括的自然语言应用了多种语法，因而根据训练数据集训练得到的自然语言模型也可使用多种语法，从而可基于相同的目标词汇及描述词汇生成不同的自然语句。在生成初始自然语句的过程中，自然语言模型所使用的语法为参考语法，参考语法为上述多种语法中的任意一种。

由于初始自然语句的分值均低于参考阈值，因而说明参考语法可能不是多种语法中最适合用于生成目标指令的自然语言的语法，则可从多种语法中选择除参考语法以外的第一语法，并使用目标词汇以及与初始自然语句所使用的描述词汇相同的描述词汇来生成一条或多条第一自然语句。例如，仍参见图3所示的环境图片，若分值最大的初始自然语句为“黑车有一个交警站在旁边”，则目标词汇为黑车，描述词汇为交警，生成初始自然语句所使用的参考语法为“主语+状语”。使用相同的目标词汇“黑车”及描述词汇“交警”，通过参考语法以外的第一语法如“定语+主语”，则可生成第一自然语句“有一个交警站在旁边的黑车”。

之后，再通过对比第一自然语句的分值的平均值与初始自然语句的分值的平均值，来确定第一语法与参考语法中更适合用于生成目标指令的自然语言的语法。其中，获取第一自然语句的分值的方式与获取初始自然语句的分值的方式相同，可参见上述说明，此处不再加以赘述。将第一自然语句的分值之和除以第一自然语句的数量即为第一自然语句的分值的平均值，相同地，将初始自然语句的分值之和除以初始自然语句的数量即为初始自然语句的分值的平均值。图3所示的公式如下，用于表示上述获取分值的平均值Q的过程：

若第一自然语句的分值的平均值大于初始自然语句的分值的平均值，则可初步确认第一语法是更适合用于生成目标指令的自然语言的语法。进一步地，还需要分值最大的第一自然语句的分值大于分值最大的初始自然语句，从而避免了分值最大的第一自然语句与分值最大的初始自然语句中分值更大的那个被剔除。只有在满足上述两个条件的情况下，才将分值最大的第一自然语句作为目标自然语句，将该目标自然语句作为目标指令的自然语言，提高了目标指令的自然语言的准确程度。

需要说明的是，参见图3，在确定第一语法与参考语法中更适合用于生成目标指令的自然语言的语法之后，还可从自然语言模型所能使用的多种语法选择其他的语法来与更适合的那个语法进行对比。对比过程可多次进行，从而最终得到多种语法中最适合用于生成目标指令的自然语言的语法，将根据该语法所生成的自然语句中分值最大的自然语句作为目标自然语句，从而保证了目标指令的自然语言的准确程度。

若经过多次对比，确定自然语言模型所能使用的多种语法中参考语法已经是最适合用于生成目标指令的自然语言的语法，也就是说通过改变语法的方式不能使得目标指令的自然语言的准确程度更高。由于分值最大的初始自然语句的分值低于参考阈值，因而可通过增加初始自然语句中描述词汇的数量的方式来进一步增大分值最大的初始自然语句的分值。

基于上述考虑，可选地，获取第一自然语句的分值的平均值和初始自然语句的分值的平均值之后，还包括：若第一自然语句的分值的平均值不大于初始自然语句的分值的平均值，或者，分值最大的第一自然语句的分值不大于分值最大的初始自然语句，调用自然语言模型，基于分值最大的初始自然语句和描述词汇，按照参考语法生成一条或多条第二自然语句，第二自然语句中的描述词汇的数量大于分值最大的初始自然语句中的描述词汇的数量；获取第二自然语句的分值，将分值最大的第二自然语句作为目标自然语句。在实施中，可以对每条第二自然语句的分值均进行获取。

其中，分值最大的初始自然语句所使用的描述词汇为所有描述词汇中的一个或多个。基于分值最大的初始自然语句和描述词汇生成第二自然语句的过程是指：在分值最大的初始自然语句的基础上，从未被分值最大的初始自然语句所使用的描述词汇中选择一个或多个添加到分值最大的初始自然语句中，从而形成第二自然语句。可以看出，分值最大的初始自然语句与第二自然语句均使用了参考语法，只是第二自然语句所使用的描述词汇的数量比分值最大的初始自然语句的数量更多，从而实现了分值的增大。

之后，同样按照与获取初始自然语句的分值相同的方式来获取每条第二自然语句的分值，并将分值最大的第二自然语句作为目标自然语句，从而保证了目标指令的自然语言的准确程度。

在选择满足条件的自然语句作为目标指令的自然语言之后，可能由于环境图片中所包括的环境元素发生更新，而导致满足条件的自然语句不再适用于环境元素更新后的环境图片。因此，本实施例提供的方法还包括：获取预测数值，若预测数值大于参考数值，调用自然语言模型生成备选自然语句，将备选自然语句代替满足条件的自然语句作为描述目标指令的自然语言。

其中，预测数值用于指示环境元素更新对满足条件的自然语句的影响程度，环境元素更新包括环境元素在环境图片中的位置更新。例如环境元素为“交警”，则交警发生移动可以看作是环境元素发生了更新。获取预测数值的方式包括：获取第一预测数值、第二预测数值以及第三预测数值，将第一预测数值、第二预测数值与第三预测数值的乘积作为预测数值。

其中，第一预测数值用于指示环境元素更新后，环境图片由当前状态更新为预测状态的概率，当前状态是指环境元素更新之前的状态，预测状态是未来时刻的状态。第一预测数值应用了MDP(Markov Decision Process，马尔可夫决策过程)思想，即假设未来状态(对应于本实施例的预测状态)仅与当前状态(对应于本实施例的当前状态)及当前状态下的动作(对应于本实施例中的环境元素更新)有关，而与其他因素无关。第一预测数值可表示为P(s′ _k|s _k,a _k)，其中s _k表示当前状态，a _k表示环境元素更新这一动作，s′ _k表示预测状态。

例如，仍以交警发生移动作为环境元素更新为例，则当前状态是指交警原地不动的状态，而第一预测数值指示了交警发生移动后，环境图片由交警原地不动更新为预测状态，如交警离开实施环境的概率。

第二预测数值用于指示观测到当前状态及环境元素更新的概率。第二预测数值可表示为O(s _k,a _k)，其中s _k仍表示当前状态，a _k仍表示环境元素更新这一动作。仍然以交警发生移动作为环境元素为例，则第二预测数值用于指示观测到交警原地不动以及交警发生移动的概率。可以看出，第二预测数值是第一预测数值的基础，即首先需要观测到当前状态及环境元素更新，才能根据进一步获取到环境元素更新后环境图片由当前状态更新为预测状态的概率。

第三预测数值用于指示若环境图片由当前状态更新为预测状态，对目标自然语句的影响程度，第三预测数值可表示为d(s′ _k,s _k)。在本实施例中，第三预测数值为正数，第三预测数值与0的差值越小，则说明环境图片由当前状态更新为预测状态对目标自然语句的影响程度越小，相应地，第三预测数值与0的差值越大则说明环境图片由当前状态更新为预测状态对满足条件的自然语句的影响程度越大。例如，第三预测数值的取值范围可以为[0，1]。

在一种可选的实施方式中，第三预测数值的值为0或1。也就是说，当第三预测数值的值为0时，指示当前状态更新为预测状态对满足条件的自然语句无影响，不对满足条件的目标自然语句进行更新。而当第三预测数值的值为1时，则指示当前状态更新为预测状态使得满足条件的自然语句需要被更新。其中，令第三预测数值的值为1的规则包括但不限于以下三种：

第一种情况：环境元素更新，使得满足条件的自然语句所使用的描述词汇与更新后的环境元素所指示的描述词汇不一致。例如，满足条件的自然语句为“黑车有一个交警站在旁边”，该自然语句所使用的描述词汇为“交警”。在环境元素更新为交警离开实施环境的情况下，更新后的环境元素所指示的描述词汇不包括“交警”，因而需要对满足条件的自然语句进行更新。

第二种情况：目标词汇发生改变。仍以满足条件的自然语句为“黑车有一个交警站在旁边”为例，该自然语句中的目标词汇为“黑车”。若黑车离开实施环境，则黑车不能继续作为自然语句的目标词汇，因而也需要对满足条件的自然语句进行更新。

第三种情况：用户距离实施环境的距离不大于参考距离。在该情况下，由于用户能够看见真实的实施环境中的环境元素，因而生成用户视角的自然语句比上述满足条件的自然语句更易于用户理解，用户视角的自然语句例如为“您左手边的黑车”。因此，也需要对满足条件的自然语句进行更新。

根据以上三种规则对满足条件的自然语句更新的过程可参见图4。当然，本实施例还可根据需要增加或减少令第三预测数值的值为1的规则，此处不再一一举例说明。

另外，对于第一预测数值、第二预测数值以及第三预测数值的获取方式，均可以通过经验数据集来实现获取，本实施例对此不加以限定。获取第一预测数值、第二预测数值以及第三预测数值之后，将第一预测数值、第二预测数值与第三预测数值的乘积作为预测数值，则预测数值x _k可按照如下的公式进行表示：

x _k＝P(s′ _k|s _k,a _k)O(s _k,a _k)d(s′ _k,s _k)

需要说明的是，本实施例不对通过第一预测数值、第二预测数值以及第三预测数值计算得到预测数值的计算方式加以限定，计算方式跟可以需要或经验进行选取。例如，除了将第一预测数值、第二预测数值以及第三预测数值的乘积作为预测数值以外，也可以对第一预测数值、第二预测数值以及第三预测数值进行加权求和，从而得到预测数值。计算过程中，第一预测数值、第二预测数值以及第三预测数值所对应的权重可以相同，也可以不同，权重可根据经验进行确定，本实施例不对权重加以限定。

若预测数值大于参考数值，则说明环境元素更新导致满足条件的自然语句不再适用于作为目标指令的自然语言的可能性较大，大于参考数值所指示的可能性，也就是环境元素更新对满足条件的自然语言的影响程度较大。因此，将预测数值大于参考数值作为更新满足条件的自然语句的时机，再调用自然语言模型生成备选自然语句，将备选自然语句代替满足条件的自然语句作为描述目标指令的自然语言，使得该描述指令的自然语言适用于环境元素更新后的环境图片，从而保证了环境元素更新的情况下描述目标指令的自然语言的准确性。

综上所述，本申请实施例通过根据训练数据集训练过的自然语言模型来生成初始自然语句，从初始自然语句中选择满足条件的自然语句作为目标指令的自然语言，不仅效率较高，而且生成的自然语言语义明确、易于理解，用户的使用体验好。

基于相同构思，本申请实施例提供了一种生成自然语言的装置，参见图5，该装置包括：

第一获取模块501，用于获取目标指令的内容所包括的目标词汇，以及目标指令的环境图片中的环境元素所指示的描述词汇；

生成模块502，用于基于目标词汇及描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，自然语言模型是根据训练数据集训练过的语言模型，训练数据集包括用户描述训练指令的自然语言；

第二获取模块503，用于获取每条初始自然语句的分值；

选择模块504，用于基于每条初始自然语句的分值选择满足条件的自然语句作为目标指令的自然语言，分值用于指示初始自然语句的准确程度。

可选地，第二获取模块503，用于对于任一初始自然语句，获取初始自然语句的第一分值，第一分值用于指示初始自然语句与训练数据集的匹配程度；根据公开数据集获取初始自然语句的第二分值，第二分值用于指示初始自然语句与环境图片的匹配程度，公开数据集包括标注了环境元素的多张图片；将第一分值与第二分值的乘积作为初始自然语句的分值。

可选地，第二获取模块503，用于对初始自然语句进行编码，得到编码后的自然语句信息；根据分值模型中的卷积参数对编码后的自然语句信息和环境图片中的信息进行卷积计算，得到卷积结果；根据分值模型中的分类参数对卷积结果进行计算，得到初始自然语句的第二分值，卷积参数和分类参数是根据公开数据集训练得到的参数。

可选地，选择模块504，用于从初始自然语句中选择分值最大的初始自然语句，若分值最大的初始自然语句的分值不低于参考阈值，则将分值最大的初始自然语句作为目标指令的自然语言。

可选地，参见图6，装置还包括：第三获取模块505，用于若分值最大的初始自然语句的分值低于参考阀值，重新获取分值不低于参考阈值的目标自然语句，将目标自然语句作为目标指令的自然语言。

可选地，第三获取模块505，用于调用自然语言模型，基于目标词汇和描述词汇，按照第一语法生成一条或多条第一自然语句，第一语法为除参考语法外的任一语法；获取第一自然语句的分值的平均值和初始自然语句的分值的平均值；若第一自然语句的分值的平均值大于初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于分值最大的初始自然语句，将分值最大的第一自然语句作为目标自然语句。

可选地，第三获取模块505，还用于若第一自然语句的分值的平均值不大于初始自然语句的分值的平均值，或者，分值最大的第一自然语句的分值不大于分值最大的初始自然语句，调用自然语言模型，基于分值最大的初始自然语句和描述词汇，按照参考语法生成一条或多条第二自然语句，第二自然语句中的描述词汇的数量大于分值最大的初始自然语句中的描述词汇的数量；获取第二自然语句的分值，将分值最大的第二自然语句作为目标自然语句。

可选地，参见图7，装置还包括：预测模块506，用于获取预测数值，预测数值用于指示环境元素更新对满足条件的自然语句的影响程度；若预测数值大于参考数值，调用自然语言模型生成备选自然语句，将备选自然语句代替满足条件的自然语句作为描述目标指令的自然语言。

可选地，预测模块506，用于获取第一预测数值，第一预测数值用于指示环境元素更新后，环境图片由当前状态更新为预测状态的概率，其中，当前状态是指环境元素更新之前的状态；获取第二预测数值，第二预测数值用于指示观测到当前状态及环境元素更新的概率；获取第三预测数值，第三预测数值用于指示若环境图片由当前状态更新为预测状态，对满足条件的自然语句的影响程度；将第一预测数值、第二预测数值与第三预测数值的乘积作为预测数值。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参见图8，其示出了本申请实施例提供的一种生成自然语言的终端800的结构示意图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏805所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请实施例提供的生成自然语言的方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头808、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器810可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

基于相同构思，本申请实施例提供了一种生成自然语言的设备，该设备包括存储器及处理器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现本申请实施例提供的上述任一种生成自然语言的方法。

基于相同构思，本申请实施例提供了一种可读存储介质，该可读存储介质中存储有至少一条指令，指令由处理器加载并执行，以实现本申请实施例提供的上述任一种生成自然语言的方法。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种生成自然语言的方法，其中，所述方法包括：

获取目标指令的内容所包括的目标词汇，以及所述目标指令的环境图片中的环境元素所指示的描述词汇；

基于所述目标词汇及所述描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，所述自然语言模型是根据训练数据集训练过的语言模型，所述训练数据集包括用户描述训练指令的自然语言；

获取每条初始自然语句的分值，基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，所述分值用于指示所述初始自然语句的准确程度。
根据权利要求1所述的方法，其中，所述获取每条初始自然语句的分值，包括：

对于任一初始自然语句，获取所述初始自然语句的第一分值，所述第一分值用于指示所述初始自然语句与所述训练数据集的匹配程度；

根据公开数据集获取所述初始自然语句的第二分值，所述第二分值用于指示所述初始自然语句与所述环境图片的匹配程度，所述公开数据集包括标注了环境元素的多张图片；

将所述第一分值与所述第二分值的乘积作为所述初始自然语句的分值。
根据权利要求2所述的方法，其中，所述根据公开数据集获取所述初始自然语句的第二分值，包括：

对所述初始自然语句进行编码，得到编码后的自然语句信息；

根据分值模型中的卷积参数对所述编码后的自然语句信息和所述环境图片中的信息进行卷积计算，得到卷积结果；

根据所述分值模型中的分类参数对所述卷积结果进行计算，得到所述初始自然语句的第二分值，所述卷积参数和所述分类参数是根据所述公开数据集训练得到的参数。
根据权利要求1-3任一所述的方法，其中，所述基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，包括：

从初始自然语句中选择分值最大的初始自然语句，若所述分值最大的初始自然语句的分值不低于参考阈值，则将所述分值最大的初始自然语句作为所述目标指令的自然语言。
根据权利要求4所述的方法，其中，所述方法还包括：

若所述分值最大的初始自然语句的分值低于所述参考阀值，重新获取分值不低于所述参考阈值的目标自然语句，将所述目标自然语句作为所述目标指令的自然语言。
根据权利要求5所述的方法，其中，所述重新获取分值不低于所述参考阈值的目标自然语句，包括：

调用所述自然语言模型，基于所述目标词汇和所述描述词汇，按照第一语法生成一条或多条第一自然语句，所述第一语法为除所述参考语法外的任一语法；

获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值；

若所述第一自然语句的分值的平均值大于所述初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于所述分值最大的初始自然语句，将所述分值最大的第一自然语句作为所述目标自然语句。
根据权利要求6所述的方法，其中，所述获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值之后，还包括：

若所述第一自然语句的分值的平均值不大于所述初始自然语句的分值的平均值，或者，所述分值最大的第一自然语句的分值不大于所述分值最大的初始自然语句，调用所述自然语言模型，基于所述分值最大的初始自然语句和所述描述词汇，按照所述参考语法生成一条或多条第二自然语句，所述第二自然语句中的描述词汇的数量大于所述分值最大的初始自然语句中的描述词汇的数量；

获取所述第二自然语句的分值，将分值最大的第二自然语句作为所述目标自然语句。
根据权利要求1-3任一所述的方法，其中，所述基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言之后，所述方法还包括：

获取预测数值，所述预测数值用于指示所述环境元素更新对所述满足条件的自然语句的影响程度；

若所述预测数值大于参考数值，调用所述自然语言模型生成备选自然语句，将所述备选自然语句代替所述满足条件的自然语句作为所述目标指令的自然语言。
根据权利要求8所述的方法，其中，所述获取预测数值，包括：

获取第一预测数值，所述第一预测数值用于指示所述环境元素更新后，所述环境图片由当前状态更新为预测状态的概率，其中，所述当前状态是指所述环境元素更新之前的状态；

获取第二预测数值，所述第二预测数值用于指示观测到所述当前状态及所述环境元素更新的概率；

获取第三预测数值，所述第三预测数值用于指示若所述环境图片由当前状态更新为预测状态，对所述满足条件的自然语句的影响程度；

将所述第一预测数值、所述第二预测数值与所述第三预测数值的乘积作为所述预测数值。
一种生成自然语言的装置，其中，所述装置包括：

第一获取模块，用于获取目标指令的内容所包括的目标词汇，以及所述目标指令的环境图片中的环境元素所指示的描述词汇；

生成模块，用于基于所述目标词汇及所述描述词汇，调用自然语言模型按照参考语法生成一条或多条初始自然语句，所述自然语言模型是根据训练数据集训练过的语言模型，所述训练数据集包括用户描述训练指令的自然语言；

第二获取模块，用于获取每条初始自然语句的分值；

选择模块，用于基于每条初始自然语句的分值选择满足条件的自然语句作为所述目标指令的自然语言，所述分值用于指示所述初始自然语句的准确程度。
根据权利要求10所述的装置，其中，所述第二获取模块，用于对于任一初始自然语句，获取所述初始自然语句的第一分值，所述第一分值用于指示所述初始自然语句与所述训练数据集的匹配程度；根据公开数据集获取所述初始自然语句的第二分值，所述第二分值用于指示所述初始自然语句与所述环境图片的匹配程度，所述公开数据集包括标注了环境元素的多张图片；将所述第一分值与所述第二分值的乘积作为所述初始自然语句的分值。
根据权利要求11所述的装置，其中，所述第二获取模块，用于对所述初始自然语句进行编码，得到编码后的自然语句信息；根据分值模型中的卷积参数对所述编码后的自然语句信息和所述环境图片中的信息进行卷积计算，得到卷积结果；根据所述分值模型中的分类参数对所述卷积结果进行计算，得到所述初始自然语句的第二分值，所述卷积参数和所述分类参数是根据所述公开数据集训练得到的参数。
根据权利要求10-12任一所述的装置，其中，所述选择模块，用于从初始自然语句中选择分值最大的初始自然语句，若所述分值最大的初始自然语句的分值不低于参考阈值，则将所述分值最大的初始自然语句作为所述目标指令的自然语言。
根据权利要求13所述的装置，其中，所述装置还包括：第三获取模块，用于若所述分值最大的初始自然语句的分值低于所述参考阀值，重新获取分值不低于所述参考阈值的目标自然语句，将所述目标自然语句作为所述目标指令的自然语言。
根据权利要求14所述的装置，其中，所述第三获取模块，用于调用所述自然语言模型，基于所述目标词汇和所述描述词汇，按照第一语法生成一条或多条第一自然语句，所述第一语法为除所述参考语法外的任一语法；获取所述第一自然语句的分值的平均值和所述初始自然语句的分值的平均值；若所述第一自然语句的分值的平均值大于所述初始自然语句的分值的平均值，且分值最大的第一自然语句的分值大于所述分值最大的初始自然语句，将所述分值最大的第一自然语句作为所述目标自然语句。
根据权利要求15所述的装置，其中，所述第三获取模块，还用于若所述第一自然语句的分值的平均值不大于所述初始自然语句的分值的平均值，或者，所述分值最大的第一自然语句的分值不大于所述分值最大的初始自然语句，调用所述自然语言模型，基于所述分值最大的初始自然语句和所述描述词汇，按照所述参考语法生成一条或多条第二自然语句，所述第二自然语句中的描述词汇的数量大于所述分值最大的初始自然语句中的描述词汇的数量；获取所述第二自然语句的分值，将分值最大的第二自然语句作为所述目标自然语句。
根据权利要求10-12任一所述的装置，其中，所述装置还包括：预测模块，用于获取预测数值，所述预测数值用于指示所述环境元素更新对所述满足条件的自然语句的影响程度；若所述预测数值大于参考数值，调用所述自然语言模型生成备选自然语句，将所述备选自然语句代替所述满足条件的自然语句作为所述目标指令的自然语言。
根据权利要求17所述的装置，其中，所述预测模块，用于获取第一预测数值，所述第一预测数值用于指示所述环境元素更新后，所述环境图片由当前状态更新为预测状态的概率，其中，所述当前状态是指所述环境元素更新之前的状态；获取第二预测数值，所述第二预测数值用于指示观测到所述当前状态及所述环境元素更新的概率；获取第三预测数值，所述第三预测数值用于指示若所述环境图片由当前状态更新为预测状态，对所述满足条件的自然语句的影响程度；将所述第一预测数值、所述第二预测数值与所述第三预测数值的乘积作为所述预测数值。
一种生成自然语言的设备，其中，所述设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1-9中任一所述的生成自然语言的方法。
一种可读存储介质，其中，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1-9中任一所述的生成自然语言的方法。