WO2020061910A1

WO2020061910A1 - 用于生成信息的方法和装置

Info

Publication number: WO2020061910A1
Application number: PCT/CN2018/107990
Authority: WO
Inventors: 乔超; 李航; 牛艺霖
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-02

Abstract

一种用于生成信息的方法和装置，提高了文本相似度计算的准确性。该方法包括：利用动态规划算法，确定通过对第一文本进行编辑操作，将该第一文本转换为第二文本的最小编辑距离（201），其中，该最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于该第一文本中的目标词与该第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；将该最小编辑距离进行归一化，将归一化后的数值确定为该第一文本与该第二文本的相似度（202）。

Description

用于生成信息的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于生成信息的方法和装置。

背景技术

当缺乏足够的标注数据时，有监督的文本相似度计算方法无法适用。而实际情况中，大多数任务都面临缺乏标注数据的问题。因而，通常使用无监督的文本相似度计算方法进行文本间相似度的计算。

相关的方式，通常使用词袋模型(Bag-of-words model)等方法进行文本相似度计算。

发明内容

本申请实施例提出了用于生成信息的方法和装置。

第一方面，本申请实施例提供了一种用于生成信息的方法，该方法包括：利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离，其中，最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于第一文本中的目标词与第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；将最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度。

在一些实施例中，第一文本中的目标词与第二文本中的目标词的语义相似度通过如下语义相似度确定步骤确定：确定第一文本中的目标词与第二文本中的目标词是否相同；若否，分别确定第一文本中的目标词和第二文本中的目标词是否为未登录词；响应于确定第一文本中的目标词和/或第二文本中的目标词为未登录词，将第一预设数值确定为第一文本中的目标词与第二文本中的目标词的语义相似度。

在一些实施例中，语义相似度确定步骤还包括：响应于确定第一文本中的目标词不为未登录词且第二文本中的目标词不为未登录词，执行如下步骤：确定第一文本中的目标词的词向量与第二文本中的目标词的词向量的余弦相似度；确定余弦相似度与第一预设参数的乘积；将乘积与第二预设参数的和输入至目标函数，将目标函数的值确定为第一文本中的目标词与第二文本中的目标词的语义相似度。

在一些实施例中，语义相似度确定步骤还包括：响应于确定第一文本中的目标词与第二文本中的目标词相同，将第二预设数值确定为第一文本中的目标词与第二文本中的目标词的语义相似度。

在一些实施例中，替换词操作的代价通过如下步骤确定：将第一文本中的待替换词确定为第一文本中的目标词；将第二文本中的用于替换待替换词的词确定为第二文本中的目标词；确定第一文本中的目标词与第二文本中的目标词的语义相似度；将第三预设数值与语义相似度的差值确定为替换词操作的代价。

在一些实施例中，删除词操作的代价通过如下步骤确定：将第一文本中的待删除的词作为第一文本中的目标词，逐一确定第二文本中的词与第一文本中的目标词的语义相似度；将语义相似度最大值所对应的第二文本中的词确定为第二文本中的目标词，确定相似度最大值与第三预设参数的乘积，将第四预设参数与乘积的差值确定为删除词操作的代价。

在一些实施例中，插入词操作的代价通过如下步骤确定：将第二文本中的待插入至第一文本中的词作为第二文本中的目标词，逐一确定第一文本中的词与第二文本中的目标词的语义相似度；将语义相似度最大值所对应的第一文本中的词确定为第一文本中的目标词，确定相似度最大值与第三预设参数的乘积，将第四预设参数与乘积的差值确定为插入词操作的代价。

在一些实施例中，对最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度，包括：分别将构成第一文本、第二文本的词序列中的词的数量确定为第一数量、第二数量；基于最小编辑距离、第一数量、第二数量、第四预设参数与预设阈值的比较，确定第一文本与第二文本的相似度。

在一些实施例中，基于最小编辑距离、第一数量、第二数量、第四预设参数与预设阈值的比较，确定第一文本与第二文本的相似度，包括：响应于确定第四预设参数小于预设阈值，执行如下步骤：将第一数量与第二数量之和确定为第一中间数值；将第一中间数值与第四预设参数的乘积确定为第二中间数值；确定最小编辑距离与第二中间数值的比值；将第四预设数值与比值的差值确定为第一文本与第二文本的相似度。

在一些实施例中，基于最小编辑距离、第一数量、第二数量、第四预设参数与预设阈值的比较，确定第一文本与第二文本的相似度，包括：响应于确定第四预设参数不小于预设阈值，执行如下步骤：将第二数量与第一数量的差值确定为第三中间数值；将第三中间数值与第四预设参数的乘积确定为第四中间数值；将第四中间数值与第一数量之和确定为第五中间数值；确定最小编辑距离与第五中间数值的比值；将第四预设数值与比值的差值确定为第一文本与第二文本的相似度。

在一些实施例中，该方法还包括：显示包含相似度的相似度计算结果；或者响应于确定相似度大于预设相似度阈值，建立第一文本与第二文本的对应关系，并存储用于表征对应关系的对应关系信息。

第二方面，本申请实施例提供了一种用于生成信息的装置，该装置包括：第一确定单元，被配置成利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离，其中，最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于第一文本中的目标词与第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；第二确定单元，被配置成将最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度。

在一些实施例中，第一确定单元，进一步被配置成执行如下语义相似度确定步骤：确定第一文本中的目标词与第二文本中的目标词是否相同；若否，分别确定第一文本中的目标词和第二文本中的目标词是否为未登录词；响应于确定第一文本中的目标词和/或第二文本中的目标词为未登录词，将第一预设数值确定为第一文本中的目标词与第二文本中的目标词的语义相似度。

在一些实施例中，第一确定单元，进一步被配置成执行如下步骤：将第一文本中的待替换词确定为第一文本中的目标词；将第二文本中的用于替换待替换词的词确定为第二文本中的目标词；确定第一文本中的目标词与第二文本中的目标词的语义相似度；将第三预设数值与语义相似度的差值确定为替换词操作的代价。

在一些实施例中，第一确定单元，进一步被配置成执行如下步骤：将第一文本中的待删除的词作为第一文本中的目标词，逐一确定第二文本中的词与第一文本中的目标词的语义相似度；将语义相似度最大值所对应的第二文本中的词确定为第二文本中的目标词，确定相似度最大值与第三预设参数的乘积，将第四预设参数与乘积的差值确定为删除词操作的代价。

在一些实施例中，第一确定单元，进一步被配置成执行如下步骤：将第二文本中的待插入至第一文本中的词作为第二文本中的目标词，逐一确定第一文本中的词与第二文本中的目标词的语义相似度；将语义相似度最大值所对应的第一文本中的词确定为第一文本中的目标词，确定相似度最大值与第三预设参数的乘积，将第四预设参数与乘积的差值确定为插入词操作的代价。

在一些实施例中，第二确定单元，包括：第一确定模块，被配置成分别将构成第一文本、第二文本的词序列中的词的数量确定为第一数量、第二数量；第二确定模块，被配置成基于最小编辑距离、第一数量、第二数量、第四预设参数与预设阈值的比较，确定第一文本与第二文本的相似度。

在一些实施例中，第二确定模块，进一步被配置成：响应于确定第四预设参数小于预设阈值，执行如下步骤：将第一数量与第二数量之和确定为第一中间数值；将第一数值与第二数量的乘积确定为第二中间数值；确定最小编辑距离与第二中间数值的比值；将第三预设数值与比值的差值确定为第一文本与第二文本的相似度。

在一些实施例中，第二确定模块，进一步被配置成：响应于确定第四预设参数不小于预设阈值，执行如下步骤：将第二数量与第一数量的差值确定为第三中间数值；将第三中间数值与第四预设参数的乘积确定为第四中间数值；将第四中间数值与第一数量之和确定为第五中间数值；确定最小编辑距离与第五中间数值的比值；将第四预设数值与比值的差值确定为第一文本与第二文本的相似度。

在一些实施例中，该装置还包括：显示单元，被配置成显示包含相似度的相似度计算结果；或者存储单元，被配置成响应于确定相似度大于预设相似度阈值，建立第一文本与第二文本的对应关系，并存储用于表征对应关系的对应关系信息。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行时：利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离，其中，最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于第一文本中的目标词与第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；将最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时，使得处理器：利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离，其中，最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于第一文本中的目标词与第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；将最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度。

本申请实施例提供的用于生成信息的方法和装置，通过动态规划算法，确定出确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离，以便将最小编辑距离进行归一化，从而将归一化后的数值确定为第一文本与第二文本的相似度。其中，编辑操作分为插入词操作、删除词操作和替换词操作。编辑操作的代价基于第一文本中的目标词与第二文本中的目标词的语义相似度确定。从而，能够同时考虑文本中的词的顺序和词对应相似度，提高了文本相似度计算的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于生成信息的方法的一个实施例的流程图；

图3是根据本申请的用于生成信息的方法的一个应用场景的示意图；

图4是根据本申请的用于生成信息的方法的又一个实施例的流程图；

图5是根据本申请的用于生成信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如文本编辑类应用、新闻浏览类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是能够进行网络通信的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103所上传的文本进行处理的后台服务器。后台服务器可以对文本进行分析等处理，并生成处理结果(例如相似度)。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于生成信息的方法一般由服务器105执行，相应地，用于生成信息的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法，包括以下步骤：

步骤201，利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离。

在本实施例中，用于生成信息的方法的执行主体(例如图1所示的服务器105)可以预先获取第一文本和第二文本。其中，第一文本和第二文本可以是待进行相似度计算的文本。第一文本和第二文本可以分别可以由词序列构成。

此处，第一文本可以表示为A。第二文本可以表示为B。构成第一文本的词序列可以表示为

构成第二文本的词序列可以表示为

其中，w可以用于表示文本中的词。

可以分别表示第一文本中的第一个词、第二个词、第n个词。

可以分别表示第二文本中的第一个词、第二个词、第m个词。此处，n可以是构成第一文本的词的数量。m可以是构成第二文本的词的数量。n和m均为不小于1的正数。

在一种场景中，上述第一文本、上述第二文本可以预先存储在上述执行主体的本地。此时，上述执行主体可以直接从本地提取上述第一文本和第二文本。

在另一中场景中，上述第一文本、上述第二文本可以是终端(例如图1所示的终端设备101、102、103)通过有线连接或者无线连接方式，发送至上述执行主体的。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在另一种场景中，上述第一文本和上述第二文本中的其中一个文本可预先存储在上述执行主体中。另一个文本可以是终端发送至上述执行主体的。

在本实施例中，上述执行主体可以利用动态规划算法，确定通过对第一文本进行编辑操作，将上述第一文本转换为第二文本的最小编辑距离(可以用WED表示)。

实践中，编辑距离(Edit Distance，也可以称为编辑代价)可以是针对两个文本的差异程度的量化量测。编辑距离可以用于表征将一个文本(或者字符串)转换成另一个文本(另一字符串)的代价。最小编辑距离即为编辑距离的最小值，也即将一个文本转换成另一个文本的最小代价。此处，代价可以理解为对文本的处理程度，可以用数值进行表示。对文本的处理程度越大，代价越大；对文本的处理程度越小，代价越小。

在本实施例中，最小编辑距离可以指将上述第一文本转换成上述第二文本的最小代价。将上述第一文本转换成上述第二文本，通常需要进行一次或多次编辑操作。上述执行主体对于每一次编辑操作，可以确定该次编辑操作的代价。最小编辑距离可以基于各次编辑操作的代价确定。

此处，上述编辑操作可以分为插入词操作、删除词操作和替换词操作。这里，一次插入词操作可以是在第一文本中插入一个词的操作。一次删除词操可以是删除第一文本中的一个词的操作。一次替换词操作可以是将第一文本中的一个词替换为第二文本中的一个词的操作。可以理解的是，由于编辑操作可以被划分为删除词操作、插入词操作和替换词操作，因而，编辑操作的代价可以被划分为删除词操作的代价(可以D表示)、插入词操作的代价(可以用I表示)和替换词操作的代价(可以用S表示)。

具体地，上述执行主体可以使用动态规划算法，基于对第一文本进行各次编辑操作的代价，确定出将上述第一文本转换为第二文本的最小编辑距离。实践中，动态规划(Dynamic Programming，DP)是运筹学的一个分支，是求解决策过程(decision process)最优化的数学方法。基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。

在本实施例中，动态规划算法所使用的状态转移方程可以采用如下公式：

其中，

是构成第一文本的词序列中的第i个词。

是构成第二文本的词序列中的第j个词。i为不小于1且不大于n的整数。j为不小于1且不大于m的整数。

为删除第一文本中的词

的代价。

为在第一文本中插入词

的代价。

为将第一文本中的词

替换为第二文本中的词

的代价。f _i,j表示将第一文本中的前i个词转换为第二文本中的前j个词的最小代价。f _i-1,j-1表示将第一文本中的前i-1个词转换为第二文本中的前j-1个词的最小代价。f _i-1,j表示将第一文本中的前i-1个词转换为第二文本中的前j个词的最小代价。f _i,j-1表示将第一文本中的前i个词转换为第二文本中的前j-1个词的最小代价。min表示最小值。

通过上述状态转移方程，上述执行主体可以基于各次编辑操作的代价，利用动态规划算法，逐次计算出最终的f _n,m，即将第一文本转换为第二文本的最小代价，也即最小编辑距离WED。

在本实施例中，编辑操作的代价可以基于上述第一文本中的目标词与上述第二文本中的目标词的语义相似度确定。其中，目标词可以是为编辑操作所涉及的词。作为示例，编辑操作为删除词操作时，第一文本中的目标词可以是第一文本中待删除的词；第二文本中的目标词可以是与上述待删除的词的语义相似度最大的词。作为又一示例，编辑操作为插入词操作时，第二文本中的目标词可以是第二文本中的、待插入至第一文本的词；第一文本中的目标词可以是与第二文本中的目标词的语义相似度最大的词。作为再一示例，编辑操作为替换词操作时，第一文本中的目标词可以是第一文本中待替换词。第二文本中的目标词可以是第二文本中的用于替换上述待替换词的词。

对于某一次编辑操作，上述执行主体可以基于第一文本中的目标词与第二文本中的目标词的语义相似度计算结果，确定出该次编辑操作的代价。此处，上述执行主体可以预先设置语义相似度与编辑操作的代价的对应关系，例如对应关系表、公式等。在确定某一次编辑操作的代价时，上述执行主体可以将第一文本中的目标词与第二文本中的目标词的语义相似度计算结果直接代入与该次编辑操作对应的对应关系，得到该次编辑操作的代价。

可以理解的是，针对不同的编辑操作，可以预先设置有相同或不同的对应关系。例如，语义相似度与删除词操作的代价的对应关系、语义相似度与插入词操作的代价的对应关系可以采用相同的对应关系表或者公式。语义相似度与删除词操作的代价的对应关系、语义相似度与替换词操作的代价的对应关系，可以采用不同的对应关系表或者公式。此处不作限定。

需要说明的是，上述执行主体可以利用各种方式确定第一文本中的目标词与第二文本中的目标词的语义相似度。作为示例，首先，可以分别确定第一文本中的目标词与第二文本的目标词的词向量。此处，词向量可以是利用词嵌入技术所得到的词的嵌入表示。上述执行主体可以通过各种现有的词向量计算方法(例如对单词-文本共现矩阵进行主成分分析)，或者，可以使用现有的词向量计算工具或模型(例如word2vec模型、glove模型、ELMo模型)来确定。此处不作限定。接着，可以将第一文本中的目标词的词向量与第二文本的目标词的词向量进行语义相似度计算。实践中，词向量可以包含词的语义特征。通过将词向量进行相似度计算，可以得到两个目标词的语义相似度。此处，可以利用各种相似度计算方法进行相似度计算。例如欧氏距离、余弦相似度等。

在本实施例的一些可选的实现方式中，上述第一文本中的目标词与上述第二文本中的目标词的语义相似度可以通过如下语义相似度确定步骤确定：第一步，确定上述第一文本中的目标词(此处可以用

表示)与上述第二文本中的目标词(此处可以用

表示)是否相同。第二步，响应于确定上述第一文本中的目标词与上述第二文本中的目标词不相同，可以分别确定上述第一文本中的目标词和上述第二文本中的目标词是否为未登录词(Out of Vocabulary，OOV)。此处，未登录词可以是没有被收录在分词词表中但必须切分出来的词。例如，可以包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。第三步，响应于确定上述第一文本中的目标词和/或上述第二文本中的目标词为未登录词，可以将第一预设数值(例如0)确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度(此处可以用

表示)。

由于未登录词由于未收录在词表中，因此，通常无法得到未登录词的词向量，由此，无法确定语义相似度。通过这种现实方式，可以考虑到未登录词的存在。当第一文本中的目标词和/或第二文本的目标词存在未登录词，并且两个目标词不同时，将语义相似度设置成第一预设数值(例如0)，从而依然可以得到两个目标词的语义相似度。从而，更全面地考虑了文本中的词，提高了文本相似度计算的准确性。

在本实施例的一些可选的实现方式中，在上述语义相似度确定步骤的第二步执行之后，响应于确定上述第一文本中的目标词不为未登录词且上述第二文本中的目标词不为未登录词，上述执行主体可以执行如下步骤：首先，确定上述第一文本中的目标词的词向量(此处可以用

表示)与上述第二文本中的目标词的词向量(此处可以用

表示)的余弦相似度(此处可以用

表示)。此处，词向量可以采用各种现有的词向量计算方法确定，或者，可以使用现有的词向量计算工具或模型确定。接着，可以确定上述余弦相似度与第一预设参数(此处可以用α表示)的乘积。接着，可以将上述乘积与第二预设参数(此处可以用β表示)的和输入至目标函数(例如sigmoid函数，此处可以用σ表示)，将上述目标函数的值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度

即：

其中，α、β和σ函数可以将余弦相似度映射至指定数值区间(例如[0,1])。α、β的值可以根据需要设定。实践中，α可以被设置为大于0的数。

在本实施例的一些可选的实现方式中，在上述语义相似度确定步骤的第一步执行之后，响应于确定上述第一文本中的目标词与上述第二文本中的目标词相同，上述执行主体可以将第二预设数值(例如1)确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。由此，当两个文本中的目标词的相同时，可以不再通过词向量计算语义相似度，可直接将语义相似度确定为第二预设数值。提高了数据处理效率。

在本实施例的一些可选的实现方式中，对于某一次编辑操作，可以按照如下公式确定出该次编辑操作所涉及的第一文本中的目标词与第二文本中的目标词的相似度：

在本实施例的一些可选的实现方式中，替换词操作的代价可以通过如下步骤确定(以将第一文本中的词

替换为第二文本中的词

的代价

为例)：

第一步，将上述第一文本中的待替换词

确定为上述第一文本中的目标词。

第二步，将上述第二文本中的用于替换上述待替换词的词

确定为上述第二文本中的目标词。

第三步，确定上述第一文本中的目标词与上述第二文本中的目标词的语义相似度

第四步，将第三预设数值(例如1)与上述语义相似度的差值确定为替换词操作的代价

例如，当第三预设数值为1时，按照如下公式确定替换词操作的代价

在本实施例的一些可选的实现方式中，删除词操作的代价可以通过如下步骤确定(此处以删除第一文本中的词

的代价

为例)：

第一步，将上述第一文本中的待删除的词

作为上述第一文本中的目标词，逐一确定上述第二文本中的词与上述第一文本中的目标词的语义相似度。即，确定

其中，w _B为第二文本中的词。

第二步，将语义相似度最大值(此处可以表示为

所对应的上述第二文本中的词确定为上述第二文本中的目标词，确定上述相似度最大值与第三预设参数(此处可以表示为λ ₂)的乘积，将第四预设参数(此处可以表示为λ ₁)与上述乘积的差值确定为删除词操作的代价

即：

其中，

max表示最大值。

在本实施例的一些可选的实现方式中，插入词操作的代价可以通过如下步骤确定(此处以在第一文本中插入词

的代价

为例)：

第一步，将上述第二文本中的待插入至上述第一文本中的词

作为上述第二文本中的目标词，逐一确定上述第一文本中的词与上述第二文本中的目标词的语义相似度。即，确定

其中，w _A为第一文本中的词。

第二步，将语义相似度最大值(此处可以表示为

)所对应的上述第一文本中的词确定为上述第一文本中的目标词，确定上述相似度最大值与第三预设参数(λ ₂)的乘积，将第四预设参数(λ ₁)与上述乘积的差值确定为插入词操作的代价

即：

其中，

max表示最大值

需要说明的是，λ ₁可以用于调整删除词操作的代价或者插入词操作的代价的相对大小。实践中，可以将λ ₁设置为不小于0的数值。λ ₂可以用于调整相似度的影响程度。实践中，可以将λ ₂设置为不小于0且不大于1的数值。当λ ₂等于1时，处于不同位置但是相同的词将不会产生代价。

需要指出的是，上述各参数(α、β、λ ₁、λ ₂)的值可以根据需要预先设定，也可以是根据大量数据统计和试验而预先制定，具体取值此处不作限定。

还需要指出的是，替换词操作的代价、删除词操作的代价以及插入词操作的代价的计算公式不限于上述实现方式中列举，还可以设置成以目标词的语义相似度作为变量的其他公式。此处不作限定。

步骤202，将最小编辑距离进行归一化，将归一化后的数值确定为第一文本与第二文本的相似度。

在本实施例中，将上述最小编辑距离进行归一化，将归一化后的数值确定为上述第一文本与上述第二文本的相似度。实践中，归一化是指将待处理的数据经过处理后(通过某种算法)限制在指定范围内。例如，将某个数值转化为数值区间[0,1]内的值。对最小编辑距离进行归一化，可以便于数据的比较和后续处理。

此处，可以利用各种现有的归一化函数，或者预先建立的公式，对步骤201所得到的最小编辑距离进行归一化。作为示例，可以首先确定构成第一文本的词序列中的词的数量n。同时，可以确定构成第二文本的词序列中的词的数量m。而后，可以确定构成两文本的词序列中的词的数量之和。最后，可以将最小编辑距离与上述数量之和的比值确定为上述第一文本与上述第二文本的相似度。

在本实施例的一些可选的实现方式中，上述执行主体可以首先分别将构成上述第一文本、上述第二文本的词序列中的词的数量确定为第一数量(n)、第二数量(m)。当删除词操作的代价和插入词的代价是按照步骤201中所阐述的可选的实现方式确定时，上述执行主体可以基于上述最小编辑距离、上述第一数量、上述第二数量、上述第四预设参数λ ₁与预设阈值的比较，确定上述第一文本与上述第二文本的相似度(此处可以用sim表示)。

可选的，响应于确定上述第四预设参数小于预设阈值(例如0.5)，上述执行主体可以执行如下步骤：首先，可以将上述第一数量n与上述第二数量m之和确定为第一中间数值。而后，可以将上述第一中间数值与上述第四预设参数λ ₁的乘积确定为第二中间数值。之后，可以确定上述最小编辑距离WED与上述第二中间数值的比值。最后，可以将第四预设数值(例如1)与上述比值的差值确定为上述第一文本与上述第二文本的相似度。此处，第四预设数值的具体值可以基于实际需求确定，此处不作限定。

可选的，响应于确定上述第四预设参数不小于预设阈值(例如0.5)，上述执行主体可以执行如下步骤：首先，可以将上述第二数量m与上述第一数量n的差值确定为第三中间数值。而后，可以将上述第三中间数值与上述第四预设参数λ ₁的乘积确定为第四中间数值。之后，可以将上述第四中间数值与上述第一数量n之和确定为第五中间数值。然后，可以确定上述最小编辑距离WED与上述第五中间数值的比值。最后，可以将第四预设数值(例如1)与上述比值的差值确定为上述第一文本与上述第二文本的相似度。

作为示例，上述实现方式中，当预设阈值为0.5、第四预设数值为1时，可以参照如下公式确定上述第一文本与上述第二文本的相似度：

在本实施例的一些可选的实现方式中，在确定出第一本文与第二文本的相似度之后，上述执行还可以显示包含上述相似度的相似度计算结果。或者，响应于确定上述相似度大于预设相似度阈值，可以建立上述第一文本与上述第二文本的对应关系，并存储用于表征上述对应关系的对应关系信息。或者，可以推送上述第一文本或者第二文本给指定用户等。

继续参见图3，图3是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中，用户首先利用终端设备301向服务器302发送了相似度计算请求，相似度计算请求中包含待进行相似度计算的第一文本303和第二文本304。而后，服务器302 利用动态规划算法，确定出将上述第一文本转换为第二文本的最小编辑距离。而后，将上述最小编辑距离进行归一化，将归一化后的数值确定为上述第一文本与上述第二文本的相似度305。最后，服务器向终端设备发送包含相似度305的相似度计算结果306。

本申请的上述实施例提供的方法，通过动态规划算法，确定出确定通过对第一文本进行编辑操作，将上述第一文本转换为第二文本的最小编辑距离，以便将上述最小编辑距离进行归一化，从而将归一化后的数值确定为上述第一文本与上述第二文本的相似度。其中，上述编辑操作分为插入词操作、删除词操作和替换词操作。编辑操作的代价基于上述第一文本中的目标词与上述第二文本中的目标词的语义相似度确定。从而，能够同时考虑文本中的词的顺序、词对应相似度以及词的对齐关系，提高了文本相似度计算的准确性。

进一步参考图4，其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400，包括以下步骤：

步骤401，利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本转换为第二文本的最小编辑距离。

在本实施例中，用于生成信息的方法的执行主体(例如图1所示的服务器105)可以利用动态规划算法，确定通过对第一文本进行编辑操作，将第一文本(表示为A)转换为第二文本(表示为B)的最小编辑距离(表示为WED)。其中，构成第一文本的词的数量可以表示为n。n和m均为不小于1的正数。此处，上述编辑操作可以分为插入词操作、删除词操作和替换词操作。编辑操作的代价可以被划分为删除词操作的代价(可以D表示)、插入词操作的代价(可以用I表示)和替换词操作的代价(可以用S表示)。上述执行主体可以使用动态规划算法，基于对第一文本进行各次编辑操作的代价，确定出将上述第一文本转换为第二文本的最小编辑距离。此处，所使用的状态转移方程可以采用如下公式：

其中，

是构成第一文本的词序列中的第i个词。

为删除第一文本中的词

的代价。

为在第一文本中插入词

的代价。

为将第一文本中的词

替换为第二文本中的词

的代价。f _i,j表示将第一文本中的前i个(即第1个至第i个)词转换为第二文本中的前j个词(即第1个至第j个)的最小代价。f _i-1,j-1表示将第一文本中的前i-1个词转换为第二文本中的前j-1个词的最小代价。f _i-1,j表示将第一文本中的前i-1个词转换为第二文本中的前j个词的最小代价。f _i,j-1表示将第一文本中的前i个词转换为第二文本中的前j-1个词的最小代价。min表示最小值。

通过上述状态转移方程，上述执行主体可以基于各次编辑操作的代价，利用动态规划算法，逐次计算出状态转移方程的最终的值，即为将第一文本转换为第二文本的最小代价，也即最小编辑距离WED。

此处，编辑操作的代价可以是基于上述第一文本中的目标词与上述第二文本中的目标词的语义相似度确定的。

上述状态转移方程中，

其中，

为第一文本中的词

与上述第二文本中的词

的语义相似度。此处，可以将编辑操作所涉及的词作为目标词。由于替换词操作涉及到第一文本中的词

和第二文本中的词

因此，可以将

作为第一文本中的目标词，将

作为第二文本中的目标词。

上述状态转移方程中，

其中，λ ₁可以用于调整删除词操作的代价或者插入词操作的代价的相对大小。实践中，可以将λ ₁设置为不小于0的数值。λ ₂可以用于调整相似度的影响程度。实践中，可以将λ ₂设置为不小于0且不大于1的数值。当λ ₂等于1时，处于不同位置但是相同的词将不会产生代价。需要指出的是，上述λ ₁、 λ ₂的值可以根据需要预先设定，也可以是根据大量数据统计和试验而预先制定，具体取值此处不作限定。

为第一文本中的目标词

与上述第二文本中的各个词w _B的语义相似度的最大值。即：

上述状态转移方程中，

其中，

为第二文本中的目标词

与上述第一文本中的各个词w _A的语义相似度的最大值。即：

在本实施例中，上述第一文本中的目标词

与上述第二文本中的目标词

的语义相似度

可以通过如下语义相似度确定步骤确定：

第一步，确定

与

是否相同。

若相同，可以将第二预设数值(例如1)确定为

与

的语义相似度。由此，当两个文本中的目标词的相同时，可以不再通过词向量计算语义相似度，可直接将语义相似度确定为第二预设数值。提高了数据处理效率。

若

与

不同，可以执行如下第二步。

第二步，响应于确定

与

不相同，可以分别确定上述

和上述

是否为未登录词。

若

和/或

是未登录词，可以将第一预设数值(例如0)确定为

与

的语义相似度。由于未登录词由于未收录在词表中，因此，通常无法得到未登录词的词向量，由此，无法确定语义相似度。通过这种现实方式，可以考虑到未登录词的存在。当第一文本中的目标词和/或第二文本的目标词存在未登录词，并且两个目标词不同时，将语义相似度设置成第一预设数值(例如0)，从而依然可以得到两个目标词的语义相似度。从而，更全面地考虑了文本中的词，提高了文本相似度计算的准确性。

若

和

均不是未登录词，可以执行如下第三步。

第三步，响应于确定

和

均不是未登录词，可以首先确定

的词向量

与

的词向量

的余弦相似度

而后，按照如下公式确定

与

的语义相似度：

当上述第一预设数值为0、上述第二预设数值为1时，可参照如下公式：

需要说明的是，上述第一文本中的目标词

与上述第二文本中的各个词w _B的语义相似度可以参照

与

的语义相似度

计算方法确定。第二文本中的目标词

与上述第一文本中的各个词w _A的语义相似度也可以参照

与

的语义相似度

计算方法确定。此处不再赘述。

步骤402，分别将构成第一文本、第二文本的词序列中的词的数量确定为第一数量、第二数量。

在本实施例中，上述执行主体可以分别将构成第一文本、第二文本的词序列中的词的数量确定为第一数量(表示为n)、第二数量(表示为m)。

步骤403，基于最小编辑距离、第一数量、第二数量、第四预设参数与预设阈值的比较，确定第一文本与第二文本的相似度。

在本实施例中，可以参照如下公式确定第一文本与第二文本的相似度：

步骤404，显示包含上述相似度的相似度计算结果。

在本实施例中，上述执行主体可以显示包含上述相似度的相似度计算结果，以将相似度计算结果呈现给用户，供用户查看。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于生成信息的方法的流程400给出了一种最小编辑距离以及基于最小编辑距离确定文本相似度的计算过程。由此，本实施例描述的方案能够同时考虑文本中的词的顺序和词对应相似度，提高了文本相似度计算的准确性。同时，可以根据任务灵活调整参数，对文本中的词的顺序以及语义相似度进行不同程度的使用，提高了文本相似度计算的灵活性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于生成信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的用于生成信息的装置500包括：第一确定单元501，被配置成利用动态规划算法，确定通过对第一文本进行编辑操作，将上述第一文本转换为第二文本的最小编辑距离，其中，上述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于上述第一文本中的目标词与上述第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；第二确定单元502，被配置成将上述最小编辑距离进行归一化，将归一化后的数值确定为上述第一文本与上述第二文本的相似度。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以被配置成执行如下语义相似度确定步骤：确定上述第一文本中的目标词与上述第二文本中的目标词是否相同；若否，分别确定上述第一文本中的目标词和上述第二文本中的目标词是否为未登录词；响应于确定上述第一文本中的目标词和/或上述第二文本中的目标词为未登录词，将第一预设数值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

在本实施例的一些可选的实现方式中，上述语义相似度确定步骤还可以包括：响应于确定上述第一文本中的目标词不为未登录词且上述第二文本中的目标词不为未登录词，执行如下步骤：确定上述第一文本中的目标词的词向量与上述第二文本中的目标词的词向量的余弦相似度；确定上述余弦相似度与第一预设参数的乘积；将上述乘积与第二预设参数的和输入至目标函数，将上述目标函数的值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

在本实施例的一些可选的实现方式中，上述语义相似度确定步骤还可以包括：响应于确定上述第一文本中的目标词与上述第二文本中的目标词相同，将第二预设数值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以进一步被配置成执行如下步骤，以确定替换词操作的代价：将上述第一文本中的待替换词确定为上述第一文本中的目标词；将上述第二文本中的用于替换上述待替换词的词确定为上述第二文本中的目标词；确定上述第一文本中的目标词与上述第二文本中的目标词的语义相似度；将第三预设数值与上述语义相似度的差值确定为替换词操作的代价。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以进一步被配置成执行如下步骤，以确定删除词操作的代价：将上述第一文本中的待删除的词作为上述第一文本中的目标词，逐一确定上述第二文本中的词与上述第一文本中的目标词的语义相似度；将语义相似度最大值所对应的上述第二文本中的词确定为上述第二文本中的目标词，确定上述相似度最大值与第三预设参数的乘积，将第四预设参数与上述乘积的差值确定为删除词操作的代价。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以进一步被配置成执行如下步骤，以确定插入词操作的代价：将上述第二文本中的待插入至上述第一文本中的词作为上述第二文本中的目标词，逐一确定上述第一文本中的词与上述第二文本中的目标词的语义相似度；将语义相似度最大值所对应的上述第一文本中的词确定为上述第一文本中的目标词，确定上述相似度最大值与第三预设参数的乘积，将第四预设参数与上述乘积的差值确定为插入词操作的代价。

在本实施例的一些可选的实现方式中，上述第二确定单元502可以包括第一确定模块和第二确定模块(图中未示出)。其中，上述第一确定模块可以被配置成分别将构成上述第一文本、上述第二文本的词序列中的词的数量确定为第一数量、第二数量。上述第二确定模块可以被配置成基于上述最小编辑距离、上述第一数量、上述第二数量、上述第四预设参数与预设阈值的比较，确定上述第一文本与上述第二文本的相似度。

在本实施例的一些可选的实现方式中，上述第二确定模块可以进一步被配置成：响应于确定上述第四预设参数小于预设阈值，执行如下步骤：将上述第一数量与上述第二数量之和确定为第一中间数值；将上述第一数值与上述第二数量的乘积确定为第二中间数值；确定上述最小编辑距离与上述第二中间数值的比值；将第三预设数值与上述比值的差值确定为上述第一文本与上述第二文本的相似度。

在本实施例的一些可选的实现方式中，上述第二确定模块可以进一步被配置成：响应于确定上述第四预设参数不小于预设阈值，执行如下步骤：将上述第二数量与上述第一数量的差值确定为第三中间数值；将上述第三中间数值与上述第四预设参数的乘积确定为第四中间数值；将上述第四中间数值与上述第一数量之和确定为第五中间数值；确定上述最小编辑距离与上述第五中间数值的比值；将第四预设数值与上述比值的差值确定为上述第一文本与上述第二文本的相似度。

在本实施例的一些可选的实现方式中，该装置还可以包括显示单元或者存储单元(图中未示出)。其中，上述显示单元可以被配置成显示包含上述相似度的相似度计算结果。上述存储单元可以被配置成响应于确定上述相似度大于预设相似度阈值，建立上述第一文本与上述第二文本的对应关系，并存储用于表征上述对应关系的对应关系信息。

本申请的上述实施例提供的装置，第一确定单元501通过动态规划算法，确定出确定通过对第一文本进行编辑操作，将上述第一文本转换为第二文本的最小编辑距离，以便第二确定单元502将上述最小编辑距离进行归一化，从而将归一化后的数值确定为上述第一文本与上述第二文本的相似度。其中，上述编辑操作分为插入词操作、删除词操作和替换词操作。编辑操作的代价基于上述第一文本中的目标词与上述第二文本中的目标词的语义相似度确定。从而，能够同时考虑文本中的词的顺序、词对应相似度以及词的对齐关系，提高了文本相似度计算的准确性。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元和第二确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一确定单元还可以被描述为“利用动态规划算法确定将第一文本转换为第二文本的最小编辑距离的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：利用动态规划算法，确定通过对第一文本进行编辑操作，将该第一文本转换为第二文本的最小编辑距离，其中，上述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于该第一文本中的目标词与该第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；将该最小编辑距离进行归一化，将归一化后的数值确定为该第一文本与该第二文本的相似度。

可选的，上述第一文本中的目标词与上述第二文本中的目标词的语义相似度可以通过如下语义相似度确定步骤确定：确定上述第一文本中的目标词与上述第二文本中的目标词是否相同；若否，分别确定上述第一文本中的目标词和上述第二文本中的目标词是否为未登录词；响应于确定上述第一文本中的目标词和/或上述第二文本中的目标词为未登录词，将第一预设数值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

可选的，上述语义相似度确定步骤还可以包括：响应于确定上述第一文本中的目标词不为未登录词且上述第二文本中的目标词不为未登录词，执行如下步骤：确定上述第一文本中的目标词的词向量与上述第二文本中的目标词的词向量的余弦相似度；确定上述余弦相似度与第一预设参数的乘积；将上述乘积与第二预设参数的和输入至目标函数，将上述目标函数的值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

可选的，上述语义相似度确定步骤还可以包括：响应于确定上述第一文本中的目标词与上述第二文本中的目标词相同，将第二预设数值确定为上述第一文本中的目标词与上述第二文本中的目标词的语义相似度。

可选的，替换词操作的代价可以通过如下步骤确定：将上述第一文本中的待替换词确定为上述第一文本中的目标词；将上述第二文本中的用于替换上述待替换词的词确定为上述第二文本中的目标词；确定上述第一文本中的目标词与上述第二文本中的目标词的语义相似度；将第三预设数值与上述语义相似度的差值确定为替换词操作的代价。

可选的，删除词操作的代价可以通过如下步骤确定：将上述第一文本中的待删除的词作为上述第一文本中的目标词，逐一确定上述第二文本中的词与上述第一文本中的目标词的语义相似度；将语义相似度最大值所对应的上述第二文本中的词确定为上述第二文本中的目标词，确定上述相似度最大值与第三预设参数的乘积，将第四预设参数与上述乘积的差值确定为删除词操作的代价。

可选的，插入词操作的代价可以通过如下步骤确定：将上述第二文本中的待插入至上述第一文本中的词作为上述第二文本中的目标词，逐一确定上述第一文本中的词与上述第二文本中的目标词的语义相似度；将语义相似度最大值所对应的上述第一文本中的词确定为上述第一文本中的目标词，确定上述相似度最大值与第三预设参数的乘积，将第四预设参数与上述乘积的差值确定为插入词操作的代价。

可选的，上述对上述最小编辑距离进行归一化，将归一化后的数值确定为上述第一文本与上述第二文本的相似度，可以包括：分别将构成上述第一文本、上述第二文本的词序列中的词的数量确定为第一数量、第二数量；基于上述最小编辑距离、上述第一数量、上述第二数量、上述第四预设参数与预设阈值的比较，确定上述第一文本与上述第二文本的相似度。

可选的，上述基于上述最小编辑距离、上述第一数量、上述第二数量、上述第四预设参数与预设阈值的比较，确定上述第一文本与上述第二文本的相似度，可以包括：响应于确定上述第四预设参数小于预设阈值，执行如下步骤：将上述第一数量与上述第二数量之和确定为第一中间数值；将上述第一中间数值与上述第四预设参数的乘积确定为第二中间数值；确定上述最小编辑距离与上述第二中间数值的比值；将第四预设数值与上述比值的差值确定为上述第一文本与上述第二文本的相似度。

可选的，上述基于上述最小编辑距离、上述第一数量、上述第二数量、上述第四预设参数与预设阈值的比较，确定上述第一文本与上述第二文本的相似度，可以包括：响应于确定上述第四预设参数不小于预设阈值，执行如下步骤：将上述第二数量与上述第一数量的差值确定为第三中间数值；将上述第三中间数值与上述第四预设参数的乘积确定为第四中间数值；将上述第四中间数值与上述第一数量之和确定为第五中间数值；确定上述最小编辑距离与上述第五中间数值的比值；将第四预设数值与上述比值的差值确定为上述第一文本与上述第二文本的相似度。

可选的，在确定出第一文本与第二文本的相似度之后，还可以显示包含上述相似度的相似度计算结果；或者响应于确定上述相似度大于预设相似度阈值，建立上述第一文本与上述第二文本的对应关系，并存储用于表征上述对应关系的对应关系信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种用于生成信息的方法，包括：

利用动态规划算法，确定通过对第一文本进行编辑操作，将所述第一文本转换为第二文本的最小编辑距离，其中，所述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于所述第一文本中的目标词与所述第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；

将所述最小编辑距离进行归一化，将归一化后的数值确定为所述第一文本与所述第二文本的相似度。
根据权利要求1所述的用于生成信息的方法，其中，所述第一文本中的目标词与所述第二文本中的目标词的语义相似度通过如下语义相似度确定步骤确定：

确定所述第一文本中的目标词与所述第二文本中的目标词是否相同；

若否，分别确定所述第一文本中的目标词和所述第二文本中的目标词是否为未登录词；

响应于确定所述第一文本中的目标词和/或所述第二文本中的目标词为未登录词，将第一预设数值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求2所述的用于生成信息的方法，其中，所述语义相似度确定步骤还包括：

响应于确定所述第一文本中的目标词不为未登录词且所述第二文本中的目标词不为未登录词，执行如下步骤：

确定所述第一文本中的目标词的词向量与所述第二文本中的目标词的词向量的余弦相似度；

确定所述余弦相似度与第一预设参数的乘积；

将所述乘积与第二预设参数的和输入至目标函数，将所述目标函数的值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求2所述的用于生成信息的方法，其中，所述语义相似度确定步骤还包括：

响应于确定所述第一文本中的目标词与所述第二文本中的目标词相同，将第二预设数值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求1所述的用于生成信息的方法，其中，替换词操作的代价通过如下步骤确定：

将所述第一文本中的待替换词确定为所述第一文本中的目标词；

将所述第二文本中的用于替换所述待替换词的词确定为所述第二文本中的目标词；

确定所述第一文本中的目标词与所述第二文本中的目标词的语义相似度；

将第三预设数值与所述语义相似度的差值确定为替换词操作的代价。
根据权利要求1所述的用于生成信息的方法，其中，删除词操作的代价通过如下步骤确定：

将所述第一文本中的待删除的词作为所述第一文本中的目标词，逐一确定所述第二文本中的词与所述第一文本中的目标词的语义相似度；

将语义相似度最大值所对应的所述第二文本中的词确定为所述第二文本中的目标词，确定所述相似度最大值与第三预设参数的乘积，将第四预设参数与所述乘积的差值确定为删除词操作的代价。
根据权利要求1所述的用于生成信息的方法，其中，插入词操作的代价通过如下步骤确定：

将所述第二文本中的待插入至所述第一文本中的词作为所述第二文本中的目标词，逐一确定所述第一文本中的词与所述第二文本中的目标词的语义相似度；

将语义相似度最大值所对应的所述第一文本中的词确定为所述第一文本中的目标词，确定所述相似度最大值与第三预设参数的乘积，将第四预设参数与所述乘积的差值确定为插入词操作的代价。
根据权利要求6或7所述的用于生成信息的方法，其中，所述对所述最小编辑距离进行归一化，将归一化后的数值确定为所述第一文本与所述第二文本的相似度，包括：

分别将构成所述第一文本、所述第二文本的词序列中的词的数量确定为第一数量、第二数量；

基于所述最小编辑距离、所述第一数量、所述第二数量、所述第四预设参数与预设阈值的比较，确定所述第一文本与所述第二文本的相似度。
根据权利要求8所述的用于生成信息的方法，其中，所述基于所述最小编辑距离、所述第一数量、所述第二数量、所述第四预设参数与预设阈值的比较，确定所述第一文本与所述第二文本的相似度，包括：

响应于确定所述第四预设参数小于预设阈值，执行如下步骤：

将所述第一数量与所述第二数量之和确定为第一中间数值；

将所述第一中间数值与所述第四预设参数的乘积确定为第二中间数值；

确定所述最小编辑距离与所述第二中间数值的比值；

将第四预设数值与所述比值的差值确定为所述第一文本与所述第二文本的相似度。
根据权利要求8所述的用于生成信息的方法，其中，所述基于所述最小编辑距离、所述第一数量、所述第二数量、所述第四预设参数与预设阈值的比较，确定所述第一文本与所述第二文本的相似度，包括：

响应于确定所述第四预设参数不小于预设阈值，执行如下步骤：

将所述第二数量与所述第一数量的差值确定为第三中间数值；

将所述第三中间数值与所述第四预设参数的乘积确定为第四中间数值；

将所述第四中间数值与所述第一数量之和确定为第五中间数值；

确定所述最小编辑距离与所述第五中间数值的比值；

将第四预设数值与所述比值的差值确定为所述第一文本与所述第二文本的相似度。
根据权利要求1所述的用于生成信息的方法，其中，所述方法还包括：

显示包含所述相似度的相似度计算结果；或者

响应于确定所述相似度大于预设相似度阈值，建立所述第一文本与所述第二文本的对应关系，并存储用于表征所述对应关系的对应关系信息。
一种用于生成信息的装置，包括：

第一确定单元，被配置成利用动态规划算法，确定通过对第一文本进行编辑操作，将所述第一文本转换为第二文本的最小编辑距离，其中，所述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于所述第一文本中的目标词与所述第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；

第二确定单元，被配置成将所述最小编辑距离进行归一化，将归一化后的数值确定为所述第一文本与所述第二文本的相似度。
根据权利要求12所述的用于生成信息的装置，其中，所述第一确定单元，进一步被配置成执行如下语义相似度确定步骤：

确定所述第一文本中的目标词与所述第二文本中的目标词是否相同；

若否，分别确定所述第一文本中的目标词和所述第二文本中的目标词是否为未登录词；

响应于确定所述第一文本中的目标词和/或所述第二文本中的目标词为未登录词，将第一预设数值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求13所述的用于生成信息的装置，其中，所述语义相似度确定步骤还包括：

响应于确定所述第一文本中的目标词不为未登录词且所述第二文本中的目标词不为未登录词，执行如下步骤：

确定所述第一文本中的目标词的词向量与所述第二文本中的目标词的词向量的余弦相似度；

确定所述余弦相似度与第一预设参数的乘积；

将所述乘积与第二预设参数的和输入至目标函数，将所述目标函数的值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求13所述的用于生成信息的装置，其中，所述语义相似度确定步骤还包括：

响应于确定所述第一文本中的目标词与所述第二文本中的目标词相同，将第二预设数值确定为所述第一文本中的目标词与所述第二文本中的目标词的语义相似度。
根据权利要求12所述的用于生成信息的装置，其中，所述第一确定单元，进一步被配置成执行如下步骤：

将所述第一文本中的待替换词确定为所述第一文本中的目标词；

将所述第二文本中的用于替换所述待替换词的词确定为所述第二文本中的目标词；

确定所述第一文本中的目标词与所述第二文本中的目标词的语义相似度；

将第三预设数值与所述语义相似度的差值确定为替换词操作的代价。
根据权利要求12所述的用于生成信息的装置，其中，所述第一确定单元，进一步被配置成执行如下步骤：

将所述第一文本中的待删除的词作为所述第一文本中的目标词，逐一确定所述第二文本中的词与所述第一文本中的目标词的语义相似度；

将语义相似度最大值所对应的所述第二文本中的词确定为所述第二文本中的目标词，确定所述相似度最大值与第三预设参数的乘积，将第四预设参数与所述乘积的差值确定为删除词操作的代价。
根据权利要求12所述的用于生成信息的装置，其中，所述第一确定单元，进一步被配置成执行如下步骤：

将所述第二文本中的待插入至所述第一文本中的词作为所述第二文本中的目标词，逐一确定所述第一文本中的词与所述第二文本中的目标词的语义相似度；

将语义相似度最大值所对应的所述第一文本中的词确定为所述第一文本中的目标词，确定所述相似度最大值与第三预设参数的乘积，将第四预设参数与所述乘积的差值确定为插入词操作的代价。
根据权利要求17或18所述的用于生成信息的装置，其中，所述第二确定单元，包括：

第一确定模块，被配置成分别将构成所述第一文本、所述第二文本的词序列中的词的数量确定为第一数量、第二数量；

第二确定模块，被配置成基于所述最小编辑距离、所述第一数量、所述第二数量、所述第四预设参数与预设阈值的比较，确定所述第一文本与所述第二文本的相似度。
根据权利要求19所述的用于生成信息的装置，其中，所述第二确定模块，进一步被配置成：

响应于确定所述第四预设参数小于预设阈值，执行如下步骤：

将所述第一数量与所述第二数量之和确定为第一中间数值；

将所述第一中间数值与所述第四预设参数的乘积确定为第二中间数值；

确定所述最小编辑距离与所述第二中间数值的比值；

将第四预设数值与所述比值的差值确定为所述第一文本与所述第二文本的相似度。
根据权利要求19所述的用于生成信息的装置，其中，所述第二确定模块，进一步被配置成：

响应于确定所述第四预设参数不小于预设阈值，执行如下步骤：

将所述第二数量与所述第一数量的差值确定为第三中间数值；

将所述第三中间数值与所述第四预设参数的乘积确定为第四中间数值；

将所述第四中间数值与所述第一数量之和确定为第五中间数值；

确定所述最小编辑距离与所述第五中间数值的比值；

将第四预设数值与所述比值的差值确定为所述第一文本与所述第二文本的相似度。
根据权利要求12所述的用于生成信息的装置，其中，所述装置还包括：

显示单元，被配置成显示包含所述相似度的相似度计算结果；或者

存储单元，被配置成响应于确定所述相似度大于预设相似度阈值，建立所述第一文本与所述第二文本的对应关系，并存储用于表征所述对应关系的对应关系信息。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时：

利用动态规划算法，确定通过对第一文本进行编辑操作，将所述第一文本转换为第二文本的最小编辑距离，其中，所述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于所述第一文本中的目标词与所述第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；

将所述最小编辑距离进行归一化，将归一化后的数值确定为所述第一文本与所述第二文本的相似度。
一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时，使得所述处理器：

利用动态规划算法，确定通过对第一文本进行编辑操作，将所述第一文本转换为第二文本的最小编辑距离，其中，所述最小编辑距离基于编辑操作的代价确定，编辑操作的代价基于所述第一文本中的目标词与所述第二文本中的目标词的语义相似度确定，目标词为编辑操作所涉及的词，编辑操作分为删除词操作、插入词操作和替换词操作；

将所述最小编辑距离进行归一化，将归一化后的数值确定为所述第一文本与所述第二文本的相似度。