WO2021189890A1

WO2021189890A1 - 基于文本编辑技术的文本生成模型的训练方法及装置

Info

Publication number: WO2021189890A1
Application number: PCT/CN2020/131757
Authority: WO
Inventors: 孙超; 王健宗; 吴天博; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-22
Filing date: 2020-11-26
Publication date: 2021-09-30
Also published as: CN112257456A

Abstract

一种基于文本编辑技术的文本生成模型的训练方法及装置（100），该方法包括：获取预设的源文本集（S110）；根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集（S120）；根据所述源文本集、所述目标文本集构建词汇表（S130）；根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列（S140）；将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列（S150）；根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整（S160）。通过上述方法对文本生成模型进行训练，不仅极大的提升了文本生成模型的训练效率，而且提高了文本生成模型生成高语义的文本准确率。

Description

基于文本编辑技术的文本生成模型的训练方法及装置

本申请要求于2020年10月22日提交中国专利局、申请号为202011139506.2，发明名称为“基于文本编辑技术的文本生成模型的训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能中的机器学习技术领域，尤其涉及一种基于文本编辑技术的文本生成模型的训练方法及装置。

背景技术

文本生成是自然语言处理领域一项重要的任务，也是人工智能面临的一个重大挑战。虽然文本生成可以辅助专业人员进行专业写作，例如法律文书补全、自动生成新闻、生成文本摘要、文本复述等，但是发明人意识到现有技术中文本生成模型的训练需依赖于大量的数据，尤其在特定领域的高质量的文本数据却比较匮乏，造成文本生成模型生成的高语义文本的准确度不高。

发明内容

本申请实施例提供了一种基于文本编辑技术的文本生成模型的训练方法及装置，解决了现有技术中文本生成模型需要大量高质量的文本数据进行训练才能准确获取高语义文本的问题。

第一方面，本申请实施例提供了一种基于文本编辑技术的文本生成模型的训练方法，其包括：

获取预设的源文本集；

根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

根据所述源文本集、所述目标文本集构建词汇表；

根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。

第二方面，本申请实施例提供了一种基于文本编辑技术的文本生成模型的训练装置，其包括：

第一获取单元，用于获取预设的源文本集；

编辑单元，用于根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

第一构建单元，用于根据所述源文本集、所述目标文本集构建词汇表；

处理单元，用于根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

输入单元，用于将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

第一调整单元，用于根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。

第三方面，本申请实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时执行以下步骤：

获取预设的源文本集；

根据所述源文本集、所述目标文本集构建词汇表；

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下步骤：

获取预设的源文本集；

根据所述源文本集、所述目标文本集构建词汇表；

本申请通过所述的基于文本编辑技术的文本生成模型的训练方法，使得当源文本集较少时，仍然可以完成文本模型的训练并极大的提高了文本生成模型的训练效率，而且提高了生成高语义文本的准确率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的流程示意图；

图2为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的子流程示意图；

图3为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的另一子流程示意图；

图4为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的另一子流程示意图；

图5为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的另一子流程示意图；

图6为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的另一子流程示意图；

图7为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的示意性框图；

图8为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的子单元示意性框图；

图9为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的另一子单元示意性框图；

图10为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的另一子单元示意性框图；

图11为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的另一子单元示意性框图；

图12为本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置的另一子单元示意性框图；

图13为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的基于文本编辑技术的文本生成模型的训练方法的流程示意图。所述基于文本编辑技术的文本生成模型的训练方法在服务器中进行搭建并运行，在服务器中对文本生成模型进行训练的过程时，通过获取对文本生成模型进行训练所需的源文本集后，将源文本集中的每一条源文本进行编辑以得到每一条源文本的目标文本，然后通过预设的词汇表以及目标文本对源文本进行处理以得到第一标签序列，同时将源文本输入到待训练的文本生成模型中以得到第二标签序列，通过计算第一标签序列与第二标签序列的相似度来对待训练的文本生成模型进行配置参数的调整，使得当源文本集较少时，仍然可以完成文本模型的训练并极大的提高了文本生成模型的训练效率，而且提高了生成高语义文本的准确率。

如图1所示，该方法包括步骤S110～S150。

S110、获取预设的源文本集。

获取预设的源文本集。具体的，所述源文本集为需对文本生成模型进行训练的数据集，所述源文本集中的文本数量可根据用户需求进行配置，既可以为大量的文本数据，也可以为少量的文本数据。在本申请实施例中，采用数据量较少的源文本集队文本生成模型进行训练。

S120、根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集。

根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集。具体的，所述文本编辑器为可用于对所述源文本集中的每一条源文本进行编辑以得到具有高语义的目标文本的文本编辑工具，Window旗下的记事本，Mac OS X旗下的文本编辑，Linux旗下的vi、emacs、gedit等均可用于对所述源文本集中的每一条源文本进行编辑。例如：当源文本为“小明出生于1993年。小明生在上海”时，使用文本编辑器编辑后的目标文本为“小明于1993年初出生在上海”。

S130、根据所述源文本集、所述目标文本集构建词汇表。

根据所述源文本集、所述目标文本集构建词汇表。具体的，将所述目标文本集中每一目标文本中不存在于该目标文本的源文本中的词语作为所述词汇表中的词语，在构建词汇表的过程中，通常为了减少后续使用词汇表时的计算量，需要对词汇表进行优化以使得词汇表尽可能小，而从源文本集中获取词汇表中的词语需根据该词语在目标文本集中出现的频率进行筛选，例如，将词汇表中在目标文本集中出现十次以下的词语进行剔除，便可得到优化后的词汇表。本申请实施例中的词汇表构建完成后存储于区块链中，保证了词汇表存储的安全性能。

在一实施例中，如图2所示，步骤S130包括子步骤S131和S132。

S131、根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列。

根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列。具体的，通过使用最长公共子序列技术来获取每一源文本以及每一源文本的目标文本的最长公共子序列。最长公共子序列的定义为：一个序列S，如果分别是两个或多个已知序列的子序列，且是所有符合此条件序列中最长的，则S称为已知序列的最长公共子序列。

在一实施例中，如图3所示，步骤S131包括子步骤S1311和S1312。

S1311、获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合。

获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合。具体的，所述每一源文本的子序列集合中的子序列为在不改变每一源文本字符顺序的前提下将每一源文本进行拆分而得到子序列，每一源文本拆分后的子序列组合成所述每一源文本的子序列集合，同样所述每一源文本的目标文本的子序列集合参考每一源文本的子序列集合的获取方式得到。

S1312、将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。

将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。具体的，所述公共子序列集合中的每一个公共子序列均为所述每一源文本和所述每一源文本的目标文本的公共子序列，所述公共子序列集合中最长的序列便为所述每一源文本和所述每一源文本的目标文本的最长公共子序列。

S132、根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。

根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。具体的，所述最长公共子序列为所述每一源文本的目标文本与所述每一源文本的最长公共子序列，通过所述最长公共子序列从所述每一源文本的目标文本中获取不存在于所述最长公共子序列中的词语并将该词语作为所述词汇表中的词语，进而完成词汇表的构建。

在一实施例中，如图4所示，步骤S132包括子步骤S1321和S1322。

S1321、将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语。

将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语。具体的，本实施例中采用基于字符串的分词方法中的逆向最大匹配法对每一源文本的目标文本进行分词处理，其分词过程为：设定预置的词典中最长词条所包含的汉字数量为L，从目标文本的字符串末尾开始处理。在每一次循环开始时，都取所述字符串最后的L个字作为处理对象，查找所述词典。若所述词典中存在这样的一个L字词，则匹配成功，所述处理对象则被作为一个词被切分；若不成功，则去掉该处理对象的第一个汉字，剩下的字符串作为新的处理对象，再次进行匹配，直到切分成功为止，即完成一轮匹配，切分出一个词，类此循环直至目标文本中的词语全部被切分出来为止。

S1322、将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。

将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。具体的，将所述每一源文本的目标文本的词语是否存在于所述最长公共子序列作为目标文本的词语与最长公共子序列是否匹配成功的结果，如果匹配成功，则该词语不为词汇表中的词语；若匹配不成功，则将其作为词汇表中的词语。

S140、根据所述词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列。

根据所述词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列。具体的，所述每一源文本中不包含有所述词汇表中的词汇，通过标注所述每一源文本中与所述每一源文本的目标文本的最长公共子序列以对所述每一源文本进行标注，然后将标注后的每一源文本进行拆分得到标注后的每一源文本的字符，将该字符与词汇表中的词语进行匹配以得到新的词语，然后将匹配后的词语进行拼接便可得到第一标签序列。

在一实施例中，如图5所示，步骤S140包括子步骤S141、S142、S143和S144。

S141、根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本。

根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本。具体的，将所述每一源文本中属于最长公共子序列中的字符标注第一标签，记作符号“keep”；将不属于最长公共子序列中的字符标注为第二标签，记作符号“delete”，进而使得所述每一源文本标注有第一标签和第二标签的文本。例如，源文本为“小明出生于1993年。小明生在上海”时，标注有标签的源文本标注的标签的顺序为“keep keep delete delete keep keep keep delete delete delete keep keep keep keep”。

S142、将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合。

将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合。具体的，所述标注后的每一源文本的字符集合为标注有第一标签的字符的集合，分词的过程为：首先将每一源文本中标注有第一标签和第二标签相邻的两个词进行分词处理，然后单独将标注有第一标签的语句进行分词处理以得到所述标注后的每一源文本的字符集合。例如，源文本为“小明出生于1993年。小明生在上海”时，标注有标签的源文本标注的标签的顺序为“keep keep delete delete keep keep keep delete delete delete keep keep keep keep”，最终得到的标注后的每一源文本的字符集合为：[小、明、于、1993、年、生、在、上、海]，其中，每一个字符上均标注有第一标签。

S143、将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合。

将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合。具体的，将词汇表中的每一个词语均与字符集合中的每一个字符进行匹配以组成新的词语，然后在预设的词典中进行查找以得到该词典中是否存在新组成的词语，若不存在，则忽略该新组成的词语，最终筛选出的新的词语组成所述词语集合。

S144、将所述词语集合中的词语进行拼接以得到所述第一标签序列。

将所述词语集合中的词语进行拼接以得到所述第一标签序列。具体的，将所述词语集合中的词语以所述标注后的每一源文本中字符的排列顺序进行拼接以得到所述第一标签序列。在对词语集合中所有的词语进行拼接的过程中，需按照源文本字符组成的顺序进行拼接，拼接完成至少得到一条文本，然后将拼接完的得到的文本进行句法分析，筛选出最符合源文本的语句并将其作为所述第一标签序列，通过所述第一标签序列便可预测出源文本的目标文本。例如，源文本为“小明出生于1993年。小明生在上海”时，第一标签序列为“keep keep delete delete keep keep keep ^初|delete delete delete ^出|keep keep keep keep”，其中“ ^初|”和“ ^出|”均为根据词汇表中的词语进行标注的标签。

S150、将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列。

将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列。具体的，所述待训练的文本生成模型为encoder-decoder模型架构的模型，即所述文本生成模型包括编码器和解码器。源文本输入到待训练的文本生成模型中后，通过编码和解码便可得到第二标签序列，通过第二标签序列便可预测出该源文本的目标文本。在本申请实施例中，所述文本生成模型的编码器采用预训练的RoBERTa中文模型，即由12层transformer组成；解码器采用单层transformer，可在保证精度的同时兼顾模型的推理速度。

S160、根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。

根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。具体的，通过所述第一标签序列和所述第二标签序列均可获得源文本的目标文本，所述第一标签序列在源文本的目标文本的基础上获得，而第二标签序列文本通过待训练的文本生成模型生成，即第一标签序列相对于第二标签序列而言，根据第一标签序列获得的目标文本更准确，通过将第一标签序列与第二标签序列进行计算以得到第一标签序列与第二标签序列的相似度，最后根据相似度对文本生成模型的配置参数进行相应的调整，以使得文本生成模型生成的第二标签序列更接近于第一标签序列，进而完成对文本生成模型的训练。

在一实施例中，如图6所示，步骤S160包括子步骤S161和S162。

S161、获取所述第二标签序列与所述第一标签序列的相似度。

获取所述第二标签序列与所述第一标签序列的相似度。具体的，在计算所述第一标签序列和第二标签序列的相似度时，需将第一标签序列和第二标签序列进行向量化，然后进行距离计算，将计算得到的距离作为所述第二标签序列与所述第一标签序列的相似度，距离越长，相似度越低，距离越短，相似度越高。在本申请实施例中采用欧式距离计算方式得到所述相似度。所述欧式距离是一个通常采用的距离定义，指在n维空间中两个点之间的真实距离，或者向量的自然长度。所述第二标签序列与所述第一标签序列的欧式距离计算公式为：

其中，n表示向量的维度，x _1k为第一标签序列的向量，x _2k为第二标签序列的向量。

S162、若所述相似度低于预设的阈值，根据所述相似度对所述文本生成模型的配置参数进行调整。

若所述相似度低于预设的阈值，根据所述相似度对所述文本生成模型的配置参数进行调整。具体的，预设的阈值为是否对文本生成模型的参数进行调整的以使得文本生成模型能更加准确生成高语义文本。所述阈值可根据实际情况进行设定，在此不做限定。

本申请所述的基于文本编辑技术的文本生成模型的训练方法，通过获取预设的源文本集；根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；根据所述源文本集、所述目标文本集构建词汇表；根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。本申请所述的基于文本编辑技术的文本生成模型的训练方法不仅极大的提升了文本生成模型的训练效率，而且提高了文本生成模型生成高语义的文本准确率。

本申请实施例还提供了一种基于文本编辑技术的文本生成模型的训练装置100，该装置用于执行前述基于文本编辑技术的文本生成模型的训练方法的任一实施例。具体地，请参阅图7，图7是本申请实施例提供的基于文本编辑技术的文本生成模型的训练装置100的示意性框图。

如图7所示，所述的基于文本编辑技术的文本生成模型的训练装置100，该装置包括第一获取单元110、编辑单元120、第一构建单元130、处理单元140、输入单元150和第一调整单元160。

第一获取单元110，用于获取预设的源文本集。

编辑单元120，用于根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集。

第一构建单元130，用于根据所述源文本集、所述目标文本集构建词汇表。

在其他发明实施例中，如图8所示，所述第一构建单元130包括：第二构建单元131和第三构建单元132。

第二构建单元131，用于根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列。

在其他发明实施例中，如图9所示，所述第二构建单元131包括：第二获取单元1311和第一匹配单元1312。

第二获取单元1311，用于获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合。

第一匹配单元1312，用于将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。

第三构建单元132，用于根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。

在其他发明实施例中，如图10所示，所述第三构建单元132包括：第一分词单元1321和第二匹配单元1322。

第一分词单元1321，用于将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语。

第二匹配单元1322，用于将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。

处理单元140，用于根据所述词汇表、所述源文本集中每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列。

在其他发明实施例中，如图11所示，所述处理单元140包括：标注单元141、第二分词单元142、第三匹配单元143和拼接单元144。

标注单元141，用根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本。

第二分词单元142，用于将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合。

第三匹配单元143，用于将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合。

拼接单元144，用于将所述词语集合中的词语进行拼接以得到所述第一标签序列。

输入单元150，用于将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列。

第一调整单元160，用于根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。

在其他发明实施例中，如图12所示，所述第一调整单元160包括：第三获取单元161和第二调整单元162。

第三获取单元161，用于获取所述第二标签序列与所述第一标签序列的相似度。

第二调整单元162，用于若所述相似度低于预设的阈值，根据所述相似度对所述文本生成模型的配置参数进行调整。

本申请实施例所提供的基于文本编辑技术的文本生成模型的训练装置100用于执行上述用于获取预设的源文本集；根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；根据所述源文本集、所述目标文本集构建词汇表；根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。

请参阅图13，图13是本申请实施例提供的计算机设备的示意性框图。

参阅图13，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于文本编辑技术的文本生成模型的训练方法。该处理器502用于提供计算和控制能力，支撑整个设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于文本编辑技术的文本生成模型的训练方法。该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述基于文本编辑技术的文本生成模型的训练方法的任一实施例。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质可以为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质可以是非易失性，也可以是易失性。该存储介质存储有计算机程序，该计算机程序当被处理器执行时实现上述基于文本编辑技术的文本生成模型的训练方法的任一实施例。

该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于文本编辑技术的文本生成模型的训练方法，其中，包括以下步骤：

获取预设的源文本集；

根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

根据所述源文本集、所述目标文本集构建词汇表；

根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
根据权利要求1所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述根据所述源文本集、所述目标文本集构建所述词汇表，包括：

根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列；

根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。
根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列，包括：

获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合；

将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。
根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表，包括：

将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语；

将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。
根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述根据预设的词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列，包括：

根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本；

将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合；

将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合；

将所述词语集合中的词语进行拼接以得到所述第一标签序列。
根据权利要求5所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述将所述词语集合中的词语进行拼接以得到所述第一标签序列，包括：

将所述词语集合中的词语以所述标注后的每一源文本中字符的排列顺序进行拼接以得到所述第一标签序列。
根据权利要求1所述的基于文本编辑技术的文本生成模型的训练方法，其中，所述根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整，包括：

获取所述第二标签序列与所述第一标签序列的相似度；

若所述相似度低于预设的阈值，根据所述相似度对所述文本生成模型的配置参数进行调整。
一种基于文本编辑技术的文本生成模型的训练装置，其中，包括：

第一获取单元，用于获取预设的源文本集；

编辑单元，用于根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

第一构建单元，用于根据所述源文本集、所述目标文本集构建词汇表；

处理单元，用于根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

输入单元，用于将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

第一调整单元，用于根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时执行以下步骤：

获取预设的源文本集；

根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

根据所述源文本集、所述目标文本集构建词汇表；

根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
根据权利要求9所述的计算机设备，其中，所述根据所述源文本集、所述目标文本集构建所述词汇表，包括：

根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列；

根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。
根据权利要求10所述的计算机设备，其中，所述根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列，包括：

获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合；

将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。
根据权利要求10所述的计算机设备，其中，所述根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表，包括：

将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语；

将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。
根据权利要求10所述的计算机设备，其中，所述根据预设的词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列，包括：

根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本；

将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合；

将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合；

将所述词语集合中的词语进行拼接以得到所述第一标签序列。
根据权利要求13所述的计算机设备，其中，所述将所述词语集合中的词语进行拼接以得到所述第一标签序列，包括：

将所述词语集合中的词语以所述标注后的每一源文本中字符的排列顺序进行拼接以得到所述第一标签序列。
根据权利要求9所述的计算机设备，其中，所述根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整，包括：

获取所述第二标签序列与所述第一标签序列的相似度；

若所述相似度低于预设的阈值，根据所述相似度对所述文本生成模型的配置参数进行调整。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行以下步骤：

获取预设的源文本集；

根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集；

根据所述源文本集、所述目标文本集构建词汇表；

根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列；

将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列；

根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述源文本集、所述目标文本集构建所述词汇表，包括：

根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列；

根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。
根据权利要求17所述的计算机可读存储介质，其中，所述根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列，包括：

获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合；

将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。
根据权利要求17所述的计算机可读存储介质，其中，所述根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表，包括：

将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语；

将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。
根据权利要求17所述的计算机可读存储介质，其中，所述根据预设的词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列，包括：

根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本；

将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合；

将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合；

将所述词语集合中的词语进行拼接以得到所述第一标签序列。