WO2024036840A1

WO2024036840A1 - 基于主题增强的开放域对话回复方法及系统

Info

Publication number: WO2024036840A1
Application number: PCT/CN2022/139320
Authority: WO
Inventors: 李太豪; 黄剑韬
Original assignee: 之江实验室
Priority date: 2022-08-16
Filing date: 2022-12-15
Publication date: 2024-02-22
Also published as: CN115048944A; CN115048944B

Abstract

一种基于主题增强的开放域对话回复方法及系统。该方法包括：采集并预处理得到中文对话语料数据集；进行对话的断句、分词和词性标注并抽取名词性词语；对每一句对话进行语义及主题信息的增强处理，用预训练句子表征模型学习原始句子与增强后句子的向量表征；使用图卷积神经网络进行主题聚合增强的处理；将主题聚合增强后的句向量输入预训练的生成模型，生成对话回复候选集，采用对比学习方法训练回复排序选择模型选出最适合的回复。

Description

基于主题增强的开放域对话回复方法及系统

相关申请

本申请要求2022年8月16日申请的，申请号为202210981384.4，发明名称为“一种基于主题增强的开放域对话回复方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能领域，涉及一种基于主题增强的开放域对话回复方法及系统。

背景技术

开放域对话回复生成是自然语言处理中一项具有挑战性的任务，开放域对话是指在不限定领域下进行通用聊天。目前在任务型对话回复任务中，人工智能取得了重大的突破，可是开放域的对话回复中，无法掌控用户的意图变化，所以需要模型具有更强的泛化能力及鲁棒性。

目前对话回复生成的系统主要分成两种模式，一种是基于检索模型在特定数据库或语料库中找寻相似内容的回复，现在很多知识问答或者任务型对话都是采用这种检索模型。而在开放域聊天中，没有一个特定的语料库可供查询，所以这种检索模型的效果往往不如预期。而随着深度学习的兴起，尤其是大规模预训练生成模型如GPT(Generative Pre-trained Transformer)、T5(Text-to-Text Transfer Transformer)、BART(Bidirectional and Auto-Regressive Transformers)等的提出，基于深度学习的生成式对话系统也受到了越来越多的关注。虽然在大规模的对话预料中预训练然后再微调的方式，可以生成语义通顺的回复，可是在开放域对话回复中往往生成比较泛的回复，缺少主题的一致性。

在开放域对话回复中，目前的技术往往只考虑生成回复与前文的连贯性，却忽略了主题之间的一致性，导致模型通常会给出很泛的回复。而且由于开放域中没有固定的主题，难以及时侦测主题，并给出一致的回复。

发明内容

根据本申请的各种实施例，本申请提供一种基于主题增强的开放域对话回复方法及系统。

一种基于主题增强的开放域对话回复方法，包括以下步骤：

采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集；

利用公开的自然语言处理工具包HanLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语；

对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征；

使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量；

将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型，以选出最适合的回复。

在一些实施例中，所述采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集包括：通过网络爬虫的方式，采集开源的中文开放域对话文本语料并进行数据的过滤与清洗，得到中文对话语料数据集。

在一些实施例中，所述利用公开的自然语言处理工具包HanLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语包括：利用公开的自然语言处理工具包HanLP，对中文对话语料数据集中的每一段对话进行断句，得到m句对话：{S ₁,S ₂,S ₃,...,S _m}，每一句对话进行分词，得到n个词语：{t ₁,t ₂,t ₃,...,t _n}，对每一个词语t _x(1≤x≤n)按照现代汉语语料库加工规范进行词性分类，依据词语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词词性标记，并用正则表达式将符合名词性的词语全部抽取出来，即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词。

在一些实施例中，所述对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征，包括：

将每一句对话S _y(1≤y≤m)进行数据的语义增强；

对抽取出来的名词进行主题信息的增强；

对增强的对话文本做再一次的数据增强的处理；

然后使用预训练的句子表征模型RoBERTa(Robustly Optimized BERT Pretraining Approach)学习原始句子与增强后的句子的向量表征。

在一些实施例中，所述语义增强的方式包括：1)利用中文近义词词典将对话文本中的词组进行随机同义词替换；2)将对话文本中的邻近词组进行随机的调换位置；3)使用对话文本中的非名词词组进行随机的重复多次或者删除；或4)使用SimBERT模型改写对话文本；

所述主题信息的增强的方式包括：1)使用大规模词向量模型得到名词或名词性短语的相似词，并用所述相似词替换原本对话文本中的名词或名词短语；或2)使用对话文本中的名词词组或短语进行随机的重复多次。

在一些实施例中，所述使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量，包括：

首先用原始的对话文本与增强后的对话文本建构一张有向图，图上的节点ν _O代表编码后的原始句子,ν _A代表增强后的句子集合；每一增强后的句子都有一条边ε指向原始句子，最后得到一张有向图G＝(ν,ε)；

在建构好有向图G后，使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理；

所述聚合增强处理的方式为：

在有向图G中存在两种关系：

一阶直接相邻

表示两个节点中有一条边相连，指的是原始句子与直接相邻的增强后的句子，

二阶间接相邻

表示两个节点之间没有一条边直接相连，而是有一个共同的相邻节点；

通过邻接矩阵

与

分别计算对应的度矩阵，计算公式分别为：

并通过各对应的度矩阵对邻接矩阵

与

分别做一个归一化的操作，对应的计算公式分别为：

然后使用一个线性变化以及Sigmod激活函数计算每一个经过一阶相邻与二阶相邻增强后的句子向量H _l+1，其计算公式为：

H _l+1＝σ(W(αN+βN′)H _l+b)，

其中H _l表示主题增强前的原始句向量，W和b表示线性变化的权重，α与β则为可学习的参数。

在一些实施例中，所述将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型，以选出最适合的回复，包括：

将得到的主题聚合增强后的句向量和原始句向量拼接起来，输入到预训练的生成模型GPT中，在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集；

采用对比学习的方法训练回复排序选择模型，得到原始句子最适合的回复。

在一些实施例中，所述采用对比学习的方法训练回复排序选择模型，得到原始句子最适合的回复包括：在通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练回复排序选择模型判断该回复是否适合，包括：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将BERT模型输出中[CLS]token对应的向量S _i取出来做分类。

在一些实施例中，所述回复排序选择模型训练的损失函数为：

其中，

表示一段对话句子i中的前文句子，

表示一段对话中的对句子S ¹ _i回复的后文句子，

表示另一段对话即其他段对话句子j中的回复的后文句子，N表示有N个其他段对话句子。

一种基于主题增强的开放域对话回复系统，包括：

文本采集模块，基于网络爬虫，用于采集中文开放域对话文本语料，并对数据进行过滤与清洗；

分词与词性标注模块，用于断句分词，并依据每一个词组或短语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词一个词性的标记，然后通过正则表达式，提取出具有名词性质的词；

语义及主题增强模块，用于让模型更好地学习到句子语义表征，对原始句子进行语义及主题的数据增强，包括：1)随机同义词替换，2)随机邻近词调换，3)随机删除或重复非名词词组，4)使用SimBERT做句子改写，5)使用词向量模型做名词的同义词替换，或6)名词词组的随机重复；

文本编码模块，使用预训练句子表征模型得到原始句子与增强后句子的向量表征，然后利用图卷积神经网络，通过对数据增强后的句子向量表征做聚合，得到主题增强后的句子向量表征；

基于对比学习的句子排序模块，采用对比学习的方法，将同一段对话的前后文作为正例，取该段对话的前文与另一段对话的回复作为负例，训练回复排序选择模型，用于筛选出最适合的回复文本；

回复生成模块，将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中，并采用Beam Search束搜索的方式产生主题相关的回复候选集，然后通过前面训练好的句子排序模块进行排序筛选，找到最适合的回复。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

为了更好地描述和说明这里公开的本申请的实施例和/或示例，可以参考一幅或多幅附图。用于描述附图的附加细节或示例不应当被认为是对所公开的申请、目前描述的实施例和/或示例以及目前理解的这些申请的最佳模式中的任何一者的范围的限制。

图1是本申请实施例的一种基于主题增强的开放域对话回复系统框图；

图2是本申请实施例的一种基于主题增强的开放域对话回复方法流程示意图；

图3是本申请实施例的一种基于主题增强的开放域对话回复装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的“多个”是指大于或者等于两个。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含。

如图1所示，本申请的一种基于主题增强的开放域对话回复系统，包括：

语义及主题增强模块，用于让模型更好地学习到句子语义表征，对原始句子进行语义及主题的数据增强，包括以下内容方式：1)随机同义词替换，2)随机邻近词调换，3)随机删除或重复非名词词组，4)使用SimBERT做句子改写，5)使用词向量模型做名词的同义词替换，或6)名词词组的随机重复；

本申请的基于对比学习、图卷积神经网络与主题增强的开放域与对话回复系统，利用语意及主题增强，并透过图卷积网络进行聚合，生成具有主题一致性的回复候选集，同时利用对比学习的思想优化回复排序选择模型，确保生成兼具主题一致性与语意流畅性的回复内容。

如图2所示，本申请的一种基于主题增强的开放域对话回复方法，包括如下步骤：

步骤一：采集开源的中文开放域对话文本语料并预处理得到对话语料数据集。

透过网络爬虫采集中文开放域对话文本语料，其中包括微博语料、豆瓣会话语料、百度贴吧对话语料。并对这些语料进行数据的过滤与清洗，最后得到近300万笔对话数据。

步骤二：利用公开的自然语言处理工具包HanLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语。

利用公开的自然语言处理工具包HanLP提供的中文分词与词性标注套件，对每一段对话进行断句，得到m句对话：{S ₁,S ₂,S ₃,...,S _m}，每一句对话进行分词，得到n个词语：{t ₁,t ₂,t ₃,...,t _n}，并由机器给出句子中分词的结果，依据其在句法结构或语言形态上承担的成分，通过词性分类赋予每个词词性标记。

其中，对每一个词语t _x(1≤x≤n)按照PKU规范(现代汉语语料库加工规范)被分成43类，为了找到与主题相关的词组，从这43类的词性类别中选择an(具有名词功能的形容词)、n(名词)、nr(人名)、ns(地名)、nt(机构团体名)、nz(专有名词)，并用正则表达式将符合上述词性的词语全部抽取出来。

步骤三：对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征，包括以下子步骤：

步骤3.1：为了更好地让网络模型学习到句子语义表征，将每一句对话S _y(1≤y≤m)进行数据的语义增强，包括：1)利用中文近义词词典将对话文本(对话的句子)中的词组进行随机同义词替换；2)将对话文本中的临近词组进行随机的调换位置；3)使用对话文本中的非名词词组进行随机的重复多次或者删除；或4)使用SimBERT模型改写对话文本。

步骤3.2：若对话句子中有通过词性标注模型找出名词或名词性短语，除了步骤3.1对句子语义进行增强外，还会使用抽取出来的名词进行主题信息的增强，包括：1)使用大规模词向量模型得到这些名词或名词性短语的相似词，并用这些相似词替换原本对话文本(原始句子)中的名词或名词短语；或2)使用对话文本中的名词词组或短语进行随机的重复多次。

步骤3.3：得到语义及主题信息增强的对话文本之后，再利用上述步骤二至步骤三的方法，对增强的对话文本做再一次的数据增强的处理，确保增强后语义及主题的丰富性。

步骤3.4：然后使用预训练的句子表征模型RoBERTa学习原始句子与增强后的句子的向量表征，输入一个句子到RoBERTa模型中，将模型输出中[CLS]token对应的向量取出作为该句子的向量表征。

步骤四：使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量，包括以下子步骤：

步骤4.1：首先用原始的对话文本与增强后的对话文本建构一张有向图，图上的节点ν _O代表编码后的原始句子,ν _A代表增强后的句子集合；每一增强后的句子都有一条边ε指向原始句子，最后得到一张有向图G＝(ν,ε)；

步骤4.2：在建构好有向图G后，接下来要使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理，具体操作如下：

在有向图G中一共存在两种关系：

一阶直接相邻

二阶间接相邻

表示两个节点之间没有一条边直接相连，而是有一个共同的相邻节点，指的是增强后的句子之间，因为在建立的有向图网路中，没有直接相连的结点也会存在某些主题之间的联系，通过这种二阶间接相邻关系可以提取到更多文本主题相关的特征；

通过邻接矩阵

与

分别计算对应的度矩阵，计算公式分别为：

并通过各对应的度矩阵对邻接矩阵

与

分别做一个归一化的操作，防止某一节点因为相连的边比较多而造成较大的影响力，对应的计算公式分别为：

然后使用一个线性变化以及Sigmod激活函数计算每一个经过一阶相邻与二阶相邻增强后的句子向量H _l+1，其计算公式为

H _l+1＝σ(W(αN+βN′)H _l+b)，

其中H _l表示主题增强前的原始句向量，W和b表示线性变化的权重，α与β则为可学习的参数，用来控制一阶相邻与二阶相邻的增强后语句对主题增强的影响。

步骤五：将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型，以选出最适合的回复。

步骤5.1：将得到的主题聚合增强后的句向量作为一个主题的Prompt和原始句向量拼接起来，输入到预训练的生成模型GPT中，在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集，不同于Greedy Search贪心搜索的是每一个time step时间步只产生概率最高的特征向量token，Beam Search在生成回复的时候每一步都保留束宽beam size个概率最高的候选特征向量token。

步骤5.2：在使用Beam Search产生多个对话回复候选集后，采用对比学习的方法训练一个回复排序选择模型，以选出最适合的回复。

通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练模型判断该回复是否适合，包括：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将输出中[CLS]token对应的向量S _i取出来做分类。其中，回复排序选择模型训练的损失函数为：

其中，

表示一段对话句子i中的前文句子，

表示一段对话中的对句子S ¹ _i回复的后文句子，

表示另一段对话即其他段对话句子j中的回复的后文句子，N表示有N个其他段对话句子；

采用对比学习的方法是让正例之间的距离

更加靠近，同时让负例之间的距离增加。

综上所述，本实施例提供的方法，通过图卷积神经网络、对比学习与主题增强，可以实现开放域主题可控回复生成。

本申请的开放域对话回复生成方法，结合了数据增强，通过词性标注与大规模词向量模型在有限的对话语料中，利用策略增强了句子的语意及主题信息；图卷积神经网络，通过语意及主题增强后的句子，对原始句子做了一个主题的融合与增强；对比学习，利用构建正负例的方法，模型学习的过程中拉近了相关回复的距离，让模型可以从生成的回复候选集中排序出适合的回复；本申请解决了开放域对话回复生成中遇到的生成回复比较泛，缺少主题一致性等问题，提高回复生成的效果。

与前述一种基于主题增强的开放域对话回复方法的实施例相对应，本申请还提供了一种基于主题增强的开放域对话回复装置的实施例。

参见图3，本申请实施例提供的一种基于主题增强的开放域对话回复装置，包括一个或多个处理器，用于实现上述实施例中的一种基于主题增强的开放域对话回复方法。

本申请的一种基于主题增强的开放域对话回复装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本申请的一种基于主题增强的开放域对话回复装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于主题增强的开放域对话回复方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于主题增强的开放域对话回复方法，其特征在于，包括：

采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集；

利用公开的自然语言处理工具包HanLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语；

对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征；

使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量；

将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型，以选出最适合的回复。
如权利要求1所述的基于主题增强的开放域对话回复方法，其中，所述采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集包括：通过网络爬虫的方式，采集开源的中文开放域对话文本语料并进行数据的过滤与清洗，得到中文对话语料数据集。
如权利要求1所述的基于主题增强的开放域对话回复方法，其中，所述利用公开的自然语言处理工具包HanLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语包括：利用公开的自然语言处理工具包HanLP，对中文对话语料数据集中的每一段对话进行断句得到m句对话：{S ₁,S ₂,S ₃,...,S _m}，每一句对话进行分词得到n个词语：{t ₁,t ₂,t ₃,...,t _n}，对每一个词语t _x(1≤x≤n)按照现代汉语语料库加工规范进行词性分类，依据词语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词词性标记，并用正则表达式将符合名词性的词语全部抽取出来，即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词。
如权利要求3所述的基于主题增强的开放域对话回复方法，其中，所述对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征包括：

将每一句对话S _y(1≤y≤m)进行数据的语义增强；

对抽取出来的名词进行主题信息的增强；

对增强的对话文本做再一次的数据增强的处理；

然后使用预训练的句子表征模型RoBERTa学习原始句子与增强后的句子的向量表征。
如权利要求4所述的基于主题增强的开放域对话回复方法，其中，所述语义增强的方式包括：1)利用中文近义词词典将对话文本中的词组进行随机同义词替换；2)将对话文本中的邻近词组进行随机的调换位置；3)使用对话文本中的非名词词组进行随机的重复多次或者删除；或4)使用SimBERT模型改写对话文本；

所述主题信息的增强的方式包括：1)使用大规模词向量模型得到名词或名词性短语的相似词，并用所述相似词替换原本对话文本中的名词或名词短语；或2)使用对话文本中的名词词组或短语进行随机的重复多次。
如权利要求4所述的一种基于主题增强的开放域对话回复方法，其中，所述使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量包括：

用原始的对话文本与增强后的对话文本建构一张有向图，图上的节点ν _O代表编码后的原始句子,ν _A代表增强后的句子集合；每一增强后的句子都有一条边ε指向原始句子，最后得到一张有向图G＝(ν,ε)；

在建构好有向图G后，使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理；

所述聚合增强处理的方式包括：

在有向图G中存在两种关系：

一阶直接相邻
表示两个节点中有一条边相连，指的是原始句子与直接相邻的增强后的句子，

二阶间接相邻
表示两个节点之间没有一条边直接相连，而是有一个共同的相邻节点；

通过邻接矩阵
与
分别计算对应的度矩阵，计算公式分别为：

并通过各对应的度矩阵对邻接矩阵
与
分别做归一化的操作，对应的计算公式分别为：

然后使用一个线性变化以及Sigmod激活函数计算每一个经过一阶相邻与二阶相邻增强后的句子向量H _l+1，其计算公式为：

H _l+1＝σ(W(αN+βN′)H _l+b)，

其中H _l表示主题增强前的原始句向量，W和b表示线性变化的权重，α与β则为可学习的参数。
如权利要求6所述的基于主题增强的开放域对话回复方法，其中，所述将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型，以选出最适合的回复包括：

将得到的主题聚合增强后的句向量和原始句向量拼接起来，输入到预训练的生成模型GPT中，在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集；

采用对比学习的方法训练回复排序选择模型，得到原始句子最适合的回复。
如权利要求7所述的基于主题增强的开放域对话回复方法，其中，所述采用对比学习的方法训练回复排序选择模型得到原始句子最适合的回复包括：在通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练回复排序选择模型去判断该回复是否适合，包括：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将BERT模型输出中[CLS]token对应的向量S _i取出来做分类。
如权利要求8所述的基于主题增强的开放域对话回复方法，其中，所述回复排序选择模型训练的损失函数为：

其中，
表示一段对话句子i中的前文句子，
表示一段对话中的对句子S1i回复的后文句子，
表示另一段对话即其他段对话句子j中的回复的后文句子，N表示有N个其他段对话句子。
一种基于主题增强的开放域对话回复系统，其特征在于，包括：

文本采集模块，基于网络爬虫，用于采集中文开放域对话文本语料，并对数据进行过滤与清洗；

分词与词性标注模块，用于断句分词，并依据每一个词组或短语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词一个词性的标记，然后通过正规表达式，提取出具有名词性质的词；

语义及主题增强模块，用于让模型更好地学习到句子语义表征，对原始句子进行语义及主题的数据增强，包括：1)随机同义词替换，2)随机邻近词调换，3)随机删除或重复非名词词组，4)使用SimBERT模型做句子改写，5)使用词向量模型做名词的同义词替换，或6)名词词组的随机重复；

文本编码模块，使用预训练句子表征模型得到原始句子与增强后句子的向量表征，然后利用图卷积神经网络，通过对数据增强后的句子向量表征做聚合，得到主题增强后的句子向量表征；

基于对比学习的句子排序模块，采用对比学习的方法，将同一段对话的前后文作为正例，取该段对话的前文与另一段对话的回复作为负例，训练回复排序选择模型，用于筛选出最适合的回复文本；

回复生成模块，将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中，并采用Beam Search束搜索的方式产生主题相关的回复候选集，然后通过前面训练好的句子排序模块进行排序筛选，找到最适合的回复。