WO2021218015A1

WO2021218015A1 - 相似文本的生成方法及装置

Info

Publication number: WO2021218015A1
Application number: PCT/CN2020/117946
Authority: WO
Inventors: 骆加维; 吴信朝; 龚连银; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-04-27
Filing date: 2020-09-25
Publication date: 2021-11-04
Also published as: CN111680494A; CN111680494B

Abstract

一种相似文本的生成方法及装置，涉及语义解析技术领域。该方法主要包括：获取初始文本的文本分词(101)；根据预置词向量算法，查找文本分词的文本词向量(102)；将文本词向量和文本词向量的相对位置向量进行拼接，生成拼接向量(103)；将拼接向量输入预置编码器，生成初始文本的表征词向量集合(104)；将表征词向量集合输入预置解码器，解算初始文本的相似文本(105)。所述方法主要应用于自然语言处理的过程中，还涉及区块链技术，拼接向量可存储于区块链节点中。

Description

相似文本的生成方法及装置

本申请要求于2020年4月27日提交中国专利局、申请号为202010341544.X，发明名称为“相似文本的生成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语义解析技术领域，特别是涉及一种相似文本的生成方法及装置。

背景技术

随着人工智能的不断发展，人机交互系统的应用越来越广泛。在使用人机交互系统的过程中，用户输入的文本信息，或者语音转换得到的文本信息，可能并不是用户实际要表达的含义。为了避免人机交互系统对用户输入信息的错误解读，往往通过训练双语环境或者多语环境，将用户输入信息转换成多种准确的表述方法。但在双语翻译模型中会遇到语法语义偏差以及文本对齐的问题。

发明人意识到，现有技术中，采用根据第一神经网络模型计算初始文本的当前相似文本，然后根据第二神经网络模型计算初始文本和当前相似文本的当前判别概率，再判断当前判别概率是否等于预设概率值，若不等于则根据预设模型优化策略对第一神经网络模型进行优化，再根据优化后的第一神经网络模型重进计算当前相似文本，最后循环判断计算得到的当前判别概率是否等于预设概率值，若等于则相似文本作为目标相似文本。

本申请创造的发明人在研究中发现，现有技术的方案，采用神经网络方法计算相似文本，判别依赖依据主要在于第一神经网络模型和第二神经网络模型的模型参数，而模型参数是通过训练数据获得的，也就是计算得到的相似文本对训练数据的依赖度较高，相应的对初始文本依赖度较低，所以容易导致相似文本与初始文本的实际语义不完全相同。

发明内容

有鉴于此，本申请提供一种相似文本的生成方法及装置，主要目的在于解决现有技术中相似文本与初始文本的实际语义不完全相同的问题。

依据本申请一个方面，提供了一种相似文本的生成方法，包括：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。

依据本申请另一个方面，提供了一种相似文本的生成装置，包括：

获取模块，用于获取初始文本的文本分词；

查找模块，用于根据预置词向量算法，查找所述文本分词的文本词向量；

第一生成模块，用于将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

第二生成模块，用于将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

解算模块，用于将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。

根据本申请的又一方面，提供了一种计算机存储介质，所述计算机存储介质中存储有至少一种可执行指令，所述可执行指令使处理器执行以下步骤：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

根据本申请的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一种可执行指令，所述可执行指令使所述处理器执行以下步骤：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

本申请实施例通过以相对位置向量与文本词向量的拼接向量为输入，通过预置编码器生成初始文本的表征词向量结合，其中，相对位置向量使得每个文本分词都具有“上下文”关系，以使得同一个长句中不同分段的词语蕴含的位置信息相同，提高上下文的关联性，进而提高相似文本与初始文本的语义相似度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种相似文本的生成方法流程图；

图2示出了本申请实施例提供的另一种相似文本的生成方法流程图；

图3示出了本申请实施例提供的一种相似文本的生成装置组成框图；

图4示出了本申请实施例提供的另一种相似文本的生成装置组成框图；

图5示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请的技术方案还可应用于人工智能、区块链和/或大数据技术领域，如可通过数据平台或其他设备实现，以提升相似文本与初始文本的语义相似度。

本申请实施例提供了一种相似文本的生成方法，如图1所示，该方法包括：

101、获取初始文本的文本分词。

当用户通过终端输入文字或语音时，通常需要文字或语音的实际语义进行问答、推荐或搜索。初始文本是指用户输入的文字，或者语音转换后的文字。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程，对初始文本进行分词，可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法，在本申请实施例中对采用的分词方法不做限定。

102、根据预置词向量算法，查找文本分词的文本词向量。

预置词向量算法可以为基于矩阵分解的方法、基于浅层窗口的方法和word2vector算法等等，其中word2vector算法是通过神经网络机器学习算法来训练N-gram语言模型，并在训练过程中求出word所对应的vector的方法。在训练过程中采用层次和负采样两种方式加速训练word2vector算法。预置word2vector算法是已经训练好的模型算法，通过预置word2vector算法可以直接查找文本分词的文本词向量。

103、将文本词向量和文本词向量的相对位置向量进行拼接，生成拼接向量。

每个文本词向量都可以根据其在初始文本中的相对位置或绝对位置进行标识。若采用绝对位置会导致同一个长句下不同分段的词语蕴含的位置信息相同，但实际上位置信息应该有所区别，因此在本申请中采用相对位置，以有效区分每个文本词向量。相对位置向量是矢量矩阵，矢量矩阵的第i行第j列标识第i个词到第j个词之间的相对位置。相对位置向量与文本词向量一一对应，是同维度的高维向量，根据矩阵的运算规则直接相加进行拼接。

104、将拼接向量输入预置编码器，生成初始文本的表征词向量集合。

预置编码器的作用是把一个不定长的输入序列变换成一个定长变量，常用循环神经网络实现。也就是将拼接向量转换为同义的表征词向量集合，表征词向量结合是指与初始文本词意图相同，表述不同的高维空间的词向量张量的集合。预置编码器可采用深度神经网络、递归变分、和积网络深度等方式，在本申请实施例中对预置编码器采用的具体方法不做限定。

本申请的目的是在不改变文本含义的基础上，输出丰富多样的文本集合，以完成对初始文本的文本复述，以收集大量相似文本数据，用于提取文字摘要、机器翻译等自然语言处理中需要监督学习的任务。

105、将表征词向量集合输入预置解码器，解算初始文本的相似文本。

预置解码器的作用，与预置编码器的作用相反，是预置编码器的逆过程，用于将定长变量转换为不定长的输出序列。预置解码器是根据下游任务设计的，下游任务可以分为生成式任务和序列任务两类。示例性的，机器翻译是生成式任务，判断同义词是序列任务。以表征词向量集合为输入，经预置解码器的解算，输出相似文本。

本申请提供了一种相似文本的生成方法，首先获取初始文本的文本分词，然后根据预置词向量算法查找文本分词的文本词向量，再将文本词向量和文本词向量的相对位置向量进行拼接生成拼接向量，再将拼接向量输入预置编码器，生成初始文本的表征词向量集合，最后将表征词向量集合输入预置解码器解算初始文本的相似文本。与现有技术相比，本申请实施例通过以相对位置向量与文本词向量的拼接向量为输入，通过预置编码器生成初始文本的表征词向量结合，其中，相对位置向量使得每个文本分词都具有“上下文”关系，以使得同一个长句中不同分段的词语蕴含的位置信息相同，提高上下文的关联性，进而提高相似文本与初始文本的语义相似度。

本申请实施例提供了另一种相似文本的生成方法，如图2所示，该方法包括：

201、获取初始文本的文本分词。

当用户通过终端输入文字或语音时，通常需要文字或语音的实际语义进行问答、推荐或搜索。初始文本是指用户输入的文字，或者语音转换后的文字。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程，对初始文本进行分词，可以采用：将所述初始文本输入至预置的结巴分词模型中；获取所述结巴分词模型输出的文本分词。

结巴中文分词包括基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。通过载入词典，调整词典，然后基于TF-IDF算法的关键词抽取，或基于TextRank算法的关键词抽取，对初始文本进行分词。

202、根据预置词向量算法，查找文本分词的文本词向量。

203、将文本词向量和文本词向量的相对位置向量进行拼接，生成拼接向量。

204、根据拼接向量的词序概率，计算拼接向量的因式分解向量。

为了更好的理解本方案，现举例说明词序概率，假设给定长度为T的序列xx，总共有T！种排列方法，也就对应T！种链式分解方法。假设拼接向量x＝x1x2x3，那么总共用3！＝6种分解方法，其中p(x2|x1x3)是指第一个词是x1并且第三个词是x3的条件下第二个词是x2的概率，也就是说原来词的顺序是保持的。遍历T！种分解方法，并且共享模型参数，使得提取因式分解向量过程中能够学习到上下文关系。而普通的从左到右或者从右往左的语言模型只能学习一种方向的依赖关系，比如先”猜”一个词，然后根据第一个词”猜”第二个词，根据前两个词”猜”第三个词。而通过排列语言模型会学习各种顺序的词序概率，比如p(x)＝p(x ₁|x ₃)p(x ₂|x ₁x ₃)p(x ₃)对应的顺序3→1→2，它是先”猜”第三个词，然后根据第三个词猜测第一个词，最后根据第一个和第三个词猜测第二个词。如果上下文依赖关系与文本顺序相同，那么顺序相同的文本具有唯一含义，且根据其唯一含义能获取其相似文本的可能性极大，据此，以词序概率计算拼接向量的因式分解向量

计算拼接向量的因式分解向量，具体包括：根据所述拼接向量计算所述初始文本的词序概率，其中，所述词序概率是指所述文本分词进行全排列的每种排列方式的条件概率，所述条件概率的发生条件是按照所述排列方式排列在当前分词之前的所有分词全部发生；确定所述词序概率的最大值对应的所述文本分词的排列顺序为分词语义顺序；将相邻分词向量合并，生成所述拼接向量的因式分解向量，所述相邻分词向量是指与所述分词语义顺序中顺序邻接的文本分词对应的所述拼接向量中的向量元素。

假设初始文本中包括5个文本分词x ₁、x ₂、x ₃、x ₄、x ₅，对应的拼接向量中包括5个向量元素A1、A2、A3、A4、A5，将初始文本的文本分词进行全排列，包括5！＝120中排列方式，其中词序概率最大的排序方式为x ₃、x ₁、x ₂、x ₄、x ₅，其计算公式为P＝p(x ₁|x ₃)p(x ₂|x ₁x ₃)p(x ₃)p(x ₄|x ₁x ₂x ₃)p(x ₅|x ₁x ₂x ₃x ₄)，分词语义顺序为x ₃、x ₁、x ₂、x ₄、x ₅，其中x ₁和x ₂，以及x ₄和x ₅，都是顺序临街的分词文本，其对应的拼接向量中的向量元素A1和A2是相邻分词向量，A4和A5是相邻分词向量，将A1和A2合并为B1，将A4和A5合并为B2，拼接向量的因素分解向量为A1、B1、B2，以实现对拼接向量的降维，能减少数据量，提高训练和计算速度。其中，如果拼接向量中的各个元素为顺序编号，则相邻分词向量的查找方法，可以获取分词语义顺序中任意位置的第一个元素在拼接向量中的第一元素位置标识，以及按照预置顺序与其相邻的第二个元素在拼接向量中的第二元素位置标识，再将第一元素位置标识做自增步长运算得到预测位置标识，自增步长是拼接向量的顺序编号的编号间隔，如果预测位置标识与第二元素位置标识不同则重新获取第一元素位置，如果预测位置标识与第二元素位置标识相同，则确定第一元素和第二元素是相邻分词向量，同时将第二元素位置标识重新定义为第一元素位置标识，以第二元素为分词语义顺序中的任意位置的第一元素，重复上述步骤，直至查找到拼接向量中的全部相邻分词向量。相邻分词向量可以是包括两个元素、三个元素、四个元素等等，在本申请实施例中对相邻分词向量中包含的元素个数不做限定。

205、根据预置的自注意力机制，提取因式分解向量的注意力特征。

自注意力特征的提取过程包括：将query和每个key进行相似度计算得到权重，然后使用一个softmax函数对权重进行归一化；最后将权重和相应的键值value进行加权求和得到注意力特征其中key和value是同一个，即key＝value。通过因式分解向量和预置的自注意力机制，用于对拼接向量进行意图提取，以获得明显意图相同的文本编码。

206、基于因式分解向量的向量平均矢量和向量标准差矢量，对因式分解向量进行随机采样生成采样样本。

本步骤采用矢量量化变分机制，在本步骤获取维度较低的随机采样的采样样本。现有技术中将输入转换成矢量编码，其所在的潜在空间可能不连续，或者允许简单的插值，在机器翻译的双语翻译任务中，由编码器输出的是一个明确的多维特征张量，由于翻译任务的特殊性，潜在语义特征、语法特征以及文本长度都会影响翻译的准确性以及复述性。隐藏如果编码器输出的不是一个确定的多维张量，而是服从某种分布的随机分布特征，并通过该特征随机取样以保证语言的丰富性与多样性，会使得提高翻译的准确性以及复述性。

生成采用样本的过程具体包括：统计所述因式分解向量的向量平均矢量和向量标准差矢量；根据所述向量平均矢量和所述向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本。统计因式分解向量的数据分布特征，然后进行归纳，输出两个大小相同的矢量，向量平均矢量和向量标准差矢量。然后基于向量平均矢量和向量标准差矢量，对服从该约束的数据进行随机采样，随机采样的采用样本的潜在空间是连续的，并且允许插值。

其中，统计因式分解向量的向量平均矢量和向量标准差矢量，具体包括：依据第一预置概率分布公式，统计所述因式分解向量的第一概率分布函数，并依据第二预置概率分布公式，统计所述因式分解向量的第二概率分布函数，所述第一概率分布函数的因变量包括第一平均矢量和第一标准差矢量，所述第二概率分布函数的因变量包括第二平均矢量和第二标准差矢量；计算所述第一概率分布函数和所述第二概率分布函数的KL散度；如果KL散度等于0，则确定所述因式分解向量服从所述第一概率分布函数或所述第二概率分布函数，确定所述向量平均矢量是所述第一平均矢量或所述第二平均矢量，确定所述向量标准差矢量是第一标准差矢量或第二标准差矢量；如果KL散度不等于0，则根据所述因式分解向量，以获取所述KL散度的最小值为目标，计算所述向量平均矢量和所述向量标准差矢量。

生成采样样本之后，还可以结合残差神经网络，以避免后向传播过程中的梯度爆炸与梯度消失的情况，在输入第二层线性变化的激活层前加入上层输入，能够降低抽象表征在解码器做梯度更新的过程中的交叉熵并且加快收敛速率。

207、根据采样样本和注意力特征，生成初始文本的表征词向量集合。

表征词向量集合，是在采用样本的基础上，与采用样本相似但不完全相同的文本编码集合。具体的，根据预置维度调节规则，生成初始文本的表征向量集合，其中，预置维度调节规则的特征描述为：z _h＝αe _h+(1-α)q _h；其中，z _h为表征向量集合，α为学习参数，e _h为注意力特征，q _h为随机采样结果。

上述步骤204-207相当于图1所示步骤104将拼接向量输入预置编码器，生成初始文本的表征词向量集合，其中步骤204-207可以等同于编码过程包括因式变换层、自注意力层、矢量量化变分层和全连接层。通过四层计算等到初始文本的表征词向量集合。表征词向量结合是指与初始文本词意图相同，表述不同的高维空间的词向量张量的集合。本申请的目的是在不改变文本含义的基础上，输出丰富多样的文本集合，以完成对初始文本的文本复述，以收集大量相似文本数据，用于提取文字摘要、机器翻译等自然语言处理中需要监督学习的任务。

208、将表征词向量集合输入预置解码器，解算初始文本的相似文本。

进一步的，作为对上述图1所示方法的实现，本申请实施例提供了一种相似文本的生成装置，如图3所示，该装置包括：

获取模块31，用于获取初始文本的文本分词；

查找模块32，用于根据预置词向量算法，查找所述文本分词的文本词向量；

第一生成模块33，用于将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

第二生成模块34，用于将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

解算模块35，用于将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。

本申请提供了一种相似文本的生成装置，首先获取初始文本的文本分词，然后根据预置词向量算法查找文本分词的文本词向量，再将文本词向量和文本词向量的相对位置向量进行拼接生成拼接向量，再将拼接向量输入预置编码器，生成初始文本的表征词向量集合，最后将表征词向量集合输入预置解码器解算初始文本的相似文本。与现有技术相比，本申请实施例通过以相对位置向量与文本词向量的拼接向量为输入，通过预置编码器生成初始文本的表征词向量结合，其中，相对位置向量使得每个文本分词都具有“上下文”关系，以使得同一个长句中不同分段的词语蕴含的位置信息相同，提高上下文的关联性，进而提高相似文本与初始文本的语义相似度。

进一步的，作为对上述图2所示方法的实现，本申请实施例提供了另一种相似文本的生成装置，如图4所示，该装置包括：

获取模块41，用于获取初始文本的文本分词；

查找模块42，用于根据预置词向量算法，查找所述文本分词的文本词向量；

第一生成模块43，用于将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

第二生成模块44，用于将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

解算模块45，用于将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。

进一步地，所述获取模块41，包括：

输入单元411，用于将所述初始文本输入至预置的结巴分词模型中；

获取单元412，用于获取所述结巴分词模型输出的文本分词。

进一步地，所述第二生成模块44，包括：

计算单元441，用于根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量，其中，所述拼接向量存储在区块链中；

需要强调的是，为进一步保证上述拼接向量的私密和安全性，上述拼接向量还可以存储于一区块链的节点中。

提取单元442，用于根据预置的自注意力机制，提取所述因式分解向量的注意力特征；

采样单元443，用于基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本；

生成单元444，用于根据所述采样样本和所述注意力特征，生成所述初始文本的表征词向量集合。

进一步地，所述计算单元441，包括：

计算子单元4411，用于根据所述拼接向量计算所述初始文本的词序概率，其中，所述词序概率是指所述文本分词进行全排列的每种排列方式的条件概率，所述条件概率的发生条件是按照所述排列方式排列在当前分词之前的所有分词全部发生；

确定子单元4412，用于确定所述词序概率的最大值对应的所述文本分词的排列顺序为分词语义顺序；

生成子单元4413，用于将相邻分词向量合并，生成所述拼接向量的因式分解向量，所述相邻分词向量是指与所述分词语义顺序中顺序邻接的文本分词对应的所述拼接向量中的向量元素。

进一步地，所述采样单元443，包括：

统计子单元4431，用于统计所述因式分解向量的向量平均矢量和向量标准差矢量；

采样子单元4432，用于根据所述向量平均矢量和所述向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本。

进一步地，所述统计子单元4431，用于：

依据第一预置概率分布公式，统计所述因式分解向量的第一概率分布函数，并依据第二预置概率分布公式，统计所述因式分解向量的第二概率分布函数，所述第一概率分布函数的因变量包括第一平均矢量和第一标准差矢量，所述第二概率分布函数的因变量包括第二平均矢量和第二标准差矢量；

计算所述第一概率分布函数和所述第二概率分布函数的KL散度；

如果KL散度等于0，则确定所述因式分解向量服从所述第一概率分布函数或所述第二概率分布函数，确定所述向量平均矢量是所述第一平均矢量或所述第二平均矢量，确定所述向量标准差矢量是第一标准差矢量或第二标准差矢量；

如果KL散度不等于0，则根据所述因式分解向量，以获取所述KL散度的最小值为目标，计算所述向量平均矢量和所述向量标准差矢量。

进一步地，所述生成单元444，用于：

根据预置维度调节规则，生成所述初始文本的表征向量集合，其中，所述预置维度调节规则的特征描述为：

z _h＝αe _h+(1-α)q _h；

其中，z _h为所述表征向量集合，α为学习参数，e _h为注意力特征，q _h为所述随机采样结果。

根据本申请一个实施例提供了一种计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的相似文本的生成方法。

可选的，本申请涉及的存储介质(计算机存储介质)可以是计算机可读存储介质，该存储介质可以是非易失性的，也可以是易失性的。

图5示出了根据本申请一个实施例提供的一种计算机设备的结构示意图，本申请具体实施例并不对计算机设备的具体实现做限定。

如图5所示，该计算机设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行至少一种可执行指令如程序510，具体可以执行上述相似文本的生成方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放至少一种可执行指令如程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种相似文本的生成方法，其中，包括：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。
如权利要求1所述的方法，其中，所述获取初始文本的文本分词，包括：

将所述初始文本输入至预置的结巴分词模型中；

获取所述结巴分词模型输出的文本分词。
如权利要求1所述的方法，其中，所述将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合，包括：

根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量，其中，所述拼接向量存储在区块链中；

根据预置的自注意力机制，提取所述因式分解向量的注意力特征；

基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本；

根据所述采样样本和所述注意力特征，生成所述初始文本的表征词向量集合。
如权利要求3所述的方法，其中，所述根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量，包括：

根据所述拼接向量计算所述初始文本的词序概率，其中，所述词序概率是指所述文本分词进行全排列的每种排列方式的条件概率，所述条件概率的发生条件是按照所述排列方式排列在当前分词之前的所有分词全部发生；

确定所述词序概率的最大值对应的所述文本分词的排列顺序为分词语义顺序；

将相邻分词向量合并，生成所述拼接向量的因式分解向量，所述相邻分词向量是指与所述分词语义顺序中顺序邻接的文本分词对应的所述拼接向量中的向量元素。
如权利要求3所述的方法，其中，所述基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本，包括：

统计所述因式分解向量的向量平均矢量和向量标准差矢量；

根据所述向量平均矢量和所述向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本。
如权利要求5所述的方法，其中，所述统计所述因式分解向量的向量平均矢量和向量标准差矢量，包括：

依据第一预置概率分布公式，统计所述因式分解向量的第一概率分布函数，并依据第二预置概率分布公式，统计所述因式分解向量的第二概率分布函数，所述第一概率分布函数的因变量包括第一平均矢量和第一标准差矢量，所述第二概率分布函数的因变量包括第二平均矢量和第二标准差矢量；

计算所述第一概率分布函数和所述第二概率分布函数的KL散度；

如果KL散度等于0，则确定所述因式分解向量服从所述第一概率分布函数或所述第二概率分布函数，确定所述向量平均矢量是所述第一平均矢量或所述第二平均矢量，确定所述向量标准差矢量是第一标准差矢量或第二标准差矢量；

如果KL散度不等于0，则根据所述因式分解向量，以获取所述KL散度的最小值为目标，计算所述向量平均矢量和所述向量标准差矢量。
如权利要求3所述的方法，其中，所述根据所述采样样本和注意力特征，生成所述初始文本的表征词向量集合，包括：

根据预置维度调节规则，生成所述初始文本的表征向量集合，其中，所述预置维度调节规则的特征描述为：

z _h＝αe _h+(1-α)q _h；

其中，z _h为所述表征向量集合，α为学习参数，e _h为注意力特征，q _h为所述随机采样结果。
一种相似文本的生成装置，其中，包括：

获取模块，用于获取初始文本的文本分词；

查找模块，用于根据预置词向量算法，查找所述文本分词的文本词向量；

第一生成模块，用于将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

第二生成模块，用于将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

解算模块，用于将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。
一种计算机存储介质，其中，所述计算机存储介质中存储有至少一种可执行指令，所述可执行指令使处理器执行以下步骤：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。
如权利要求9所述的计算机存储介质，其中，所述将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合时，具体执行：

根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量，其中，所述拼接向量存储在区块链中；

根据预置的自注意力机制，提取所述因式分解向量的注意力特征；

基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本；

根据所述采样样本和所述注意力特征，生成所述初始文本的表征词向量集合。
如权利要求10所述的计算机存储介质，其中，所述根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量时，具体执行：

根据所述拼接向量计算所述初始文本的词序概率，其中，所述词序概率是指所述文本分词进行全排列的每种排列方式的条件概率，所述条件概率的发生条件是按照所述排列方式排列在当前分词之前的所有分词全部发生；

确定所述词序概率的最大值对应的所述文本分词的排列顺序为分词语义顺序；

将相邻分词向量合并，生成所述拼接向量的因式分解向量，所述相邻分词向量是指与所述分词语义顺序中顺序邻接的文本分词对应的所述拼接向量中的向量元素。
如权利要求10所述的计算机存储介质，其中，所述基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本时，具体执行：

统计所述因式分解向量的向量平均矢量和向量标准差矢量；

根据所述向量平均矢量和所述向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本。
如权利要求12所述的计算机存储介质，其中，所述统计所述因式分解向量的向量平均矢量和向量标准差矢量时，具体执行：

依据第一预置概率分布公式，统计所述因式分解向量的第一概率分布函数，并依据第二预置概率分布公式，统计所述因式分解向量的第二概率分布函数，所述第一概率分布函数的因变量包括第一平均矢量和第一标准差矢量，所述第二概率分布函数的因变量包括第二平均矢量和第二标准差矢量；

计算所述第一概率分布函数和所述第二概率分布函数的KL散度；

如果KL散度等于0，则确定所述因式分解向量服从所述第一概率分布函数或所述第二概率分布函数，确定所述向量平均矢量是所述第一平均矢量或所述第二平均矢量，确定所述向量标准差矢量是第一标准差矢量或第二标准差矢量；

如果KL散度不等于0，则根据所述因式分解向量，以获取所述KL散度的最小值为目标，计算所述向量平均矢量和所述向量标准差矢量。
如权利要求10所述的计算机存储介质，其中，所述根据所述采样样本和注意力特征，生成所述初始文本的表征词向量集合时，具体执行：

根据预置维度调节规则，生成所述初始文本的表征向量集合，其中，所述预置维度调节规则的特征描述为：

z _h＝αe _h+(1-α)q _h；

其中，z _h为所述表征向量集合，α为学习参数，e _h为注意力特征，q _h为所述随机采样结果。
一种计算机设备，其中，包括：处理器、存储器、通信接口和通信总线、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一种可执行指令，所述可执行指令使所述处理器执行以下步骤：

获取初始文本的文本分词；

根据预置词向量算法，查找所述文本分词的文本词向量；

将所述文本词向量和所述文本词向量的相对位置向量进行拼接，生成拼接向量；

将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合；

将所述表征词向量集合输入预置解码器，解算所述初始文本的相似文本。
如权利要求15所述的计算机设备，其中，所述将所述拼接向量输入预置编码器，生成所述初始文本的表征词向量集合时，具体执行：

根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量，其中，所述拼接向量存储在区块链中；

根据预置的自注意力机制，提取所述因式分解向量的注意力特征；

基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本；

根据所述采样样本和所述注意力特征，生成所述初始文本的表征词向量集合。
如权利要求16所述的计算机设备，其中，所述根据所述拼接向量的词序概率，计算所述拼接向量的因式分解向量时，具体执行：

根据所述拼接向量计算所述初始文本的词序概率，其中，所述词序概率是指所述文本分词进行全排列的每种排列方式的条件概率，所述条件概率的发生条件是按照所述排列方式排列在当前分词之前的所有分词全部发生；

确定所述词序概率的最大值对应的所述文本分词的排列顺序为分词语义顺序；

将相邻分词向量合并，生成所述拼接向量的因式分解向量，所述相邻分词向量是指与所述分词语义顺序中顺序邻接的文本分词对应的所述拼接向量中的向量元素。
如权利要求16所述的计算机设备，其中，所述基于所述因式分解向量的向量平均矢量和向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本时，具体执行：

统计所述因式分解向量的向量平均矢量和向量标准差矢量；

根据所述向量平均矢量和所述向量标准差矢量，对所述因式分解向量进行随机采样生成采样样本。
如权利要求18所述的计算机设备，其中，所述统计所述因式分解向量的向量平均矢量和向量标准差矢量时，具体执行：

依据第一预置概率分布公式，统计所述因式分解向量的第一概率分布函数，并依据第二预置概率分布公式，统计所述因式分解向量的第二概率分布函数，所述第一概率分布函数的因变量包括第一平均矢量和第一标准差矢量，所述第二概率分布函数的因变量包括第二平均矢量和第二标准差矢量；

计算所述第一概率分布函数和所述第二概率分布函数的KL散度；

如果KL散度等于0，则确定所述因式分解向量服从所述第一概率分布函数或所述第二概率分布函数，确定所述向量平均矢量是所述第一平均矢量或所述第二平均矢量，确定所述向量标准差矢量是第一标准差矢量或第二标准差矢量；

如果KL散度不等于0，则根据所述因式分解向量，以获取所述KL散度的最小值为目标，计算所述向量平均矢量和所述向量标准差矢量。
如权利要求16所述的计算机设备，其中，所述根据所述采样样本和注意力特征，生成所述初始文本的表征词向量集合时，具体执行：

根据预置维度调节规则，生成所述初始文本的表征向量集合，其中，所述预置维度调节规则的特征描述为：

z _h＝αe _h+(1-α)q _h；

其中，z _h为所述表征向量集合，α为学习参数，e _h为注意力特征，q _h为所述随机采样结果。