WO2021169217A1

WO2021169217A1 - 摘要提取方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021169217A1
Application number: PCT/CN2020/112340
Authority: WO
Inventors: 郑立颖; 徐亮; 阮晓雯
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-02-27
Filing date: 2020-08-30
Publication date: 2021-09-02
Also published as: CN111507090A

Abstract

一种摘要提取方法、装置、设备及计算机可读存储介质，该方法包括：计算语句集中每两个语句之间的句子相似度，并基于TextRank算法和句子相似度，从语句集中筛选出第一摘要候选集（S102）；计算语句集中每两个语句之间的余弦相似度，并基于TextRank算法和余弦相似度，从语句集中筛选出第二摘要候选集（S103）；基于MMR算法和预设语句个数，分别从第一摘要候选集和第二摘要候选集中筛选出第三摘要候选集第四摘要候选集（S104）；分别四个摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集（S105）；统计融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从融合摘要候选集中筛选出目标文本的摘要结果集（S106）。该方法涉及数据处理，可以提高摘要提取的准确性。

Description

摘要提取方法、装置、设备及计算机可读存储介质

本申请要求于2020年2月27日提交中国专利局、申请号为CN202010125189.2，发明名称为“摘要提取方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种摘要提取方法、装置、设备及计算机可读存储介质。

背景技术

目前，摘要技术主要分为抽取式和生成式两大类，抽取式指直接从文中抽取重要的句子，再将句子进行排序组合后输出作为最终的摘要；生成式是指根据原文内容进行提炼总结，允许有新的词语或者句子生成来形成摘要。然而，发明人意识到生成式摘要需要大量的标注数据，而摘要的标注没有统一的标准且比较耗时，无法准确的提取文本的摘要，而常用的抽取式摘要方法是TextRank，但是原始TextRank方法只是基于句子的相似度抽取摘要，且抽取出的句子存在冗余性，摘要提取的准确性较低。因此，如何提高摘要提取的准确性是目前亟待解决的问题。

发明内容

本申请的主要目的在于提供一种摘要提取方法、装置、设备及计算机可读存储介质，旨在提高摘要提取的准确性。

一种摘要提取方法，该方法包括：

获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。

一种摘要提取装置，该装置包括：

获取模块，用于获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

第一摘要筛选模块，用于计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

第二摘要筛选模块，用于计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

第三摘要筛选模块，用于基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

选择模块，用于分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

摘要确定模块，用于统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。

一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如下步骤：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如下步骤：

本申请提供一种摘要提取方法、装置、设备及计算机可读存储介质，可以降低提取到的摘要语句之间的冗余性，有效的提高文本摘要提取的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种摘要提取方法的流程示意图；

图2为图1中的摘要提取方法的子步骤流程示意图；

图3为本申请实施例提供的另一种摘要提取方法的流程示意图；

图4为本申请实施例提供的一种摘要提取装置的示意性框图；

图5为本申请实施例提供的另一种摘要提取装置的示意性框图；

图6为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种摘要提取方法、装置、设备及计算机可读存储介质。其中，该摘要提取方法可应用于服务器或终端设备中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群，该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。以下以服务器为例进行说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种摘要提取方法的流程示意图。

如图1所示，该摘要提取方法包括步骤S101至步骤S106。

步骤S101、获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本。

当用户需要提取文本中的摘要时，可以通过终端设备将待提取摘要的文本上传至服务器，服务器对接收到的待提取摘要的文本进行语句拆分，得到初始语句集，并对初始语句集进行清洗，以去除初始语句集中的标点符号和停用词等字符，得到待提取摘要的文本的语句集。服务器定时或实时获取待提取摘要文本的语句集。

步骤S102、计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集。

在获取到目标文本的语句集之后，计算该语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据该语句集中每两个语句之间的句子相似度，从该语句集中筛选出第一摘要候选集。

具体地，统计该语句集中每两个语句的相同词的数量和语句集中每个语句包含的词的个数；根据语句集中每两个语句的相同词的数量和语句集中每个语句包含的词的个数，计算语句集中每两个语句的句子相似度；基于TextRank算法，根据语句集中每两个语句之间的句子相似度，确定每个语句的第一重要性值；根据语句集中每个语句的第一重要性值，从语句集中筛选出第一摘要候选集。其中，第一重要性值用于表征语句在目标文本中的重要程度，第一重要性值越高的语句在目标文本中的重要程度越高，第一重要性值越低的语句在目标文本中的重要程度越低，基于TextRank算法，计算语句的第一重要性值的公式为：

其中，等式左侧的W _S(V _i)表示语句V _i的重要性值，w _ji为语句V _i到语句V _j的边的权值，d为阻尼系数，代表某一语句指向其他任意语句的概率，可选为0.85，In(V _i)和Out(V _j)分别为指向语句V _i的语句集合和从语句V _j出发的边指向的语句集合，权值w _ji是两个语句S _i和S _j的相似度，权值w _jk是从语句V _j出发的边指向的语句集合中的任意一个语句与语句S _j的相似度。该语句集中每两个语句之间的句子相似度的计算公式如下所示：

其中，{t _k∨t _k∈S _i∧t _k∈S _j}为两个语句S _i和S _j中都出现的词的数量，S _i和S _j包括多个词，t _k是第k个词，|S _i|是语句S _i中包含的词的个数，|S _j|是语句S _j中包含的词的个数。通过上述相似度公式即可计算得到语句集中每两个语句的句子相似度，通过第一重要性值的计算公式即可计算得到语句集每个语句的第一重要性值。

在一实施例中，根据语句集中每个语句的第一重要性值，从语句集中筛选出第一摘要候选集的方式具体为：按照该语句集中每个语句的第一重要性值的高低，对该语句集中的每个语句进行排序，得到第一摘要候选集，或者，按照该语句集中每个语句的第一重要性值的高低，对该语句集中的每个语句进行排序，并按照排序的先后顺序，依次从该语句集中获取语句，直到获取到的语句的个数达到设定的个数，汇集获取到的每个语句，从而得到第一摘要候选集。需要说明的是，上述设定的个数可基于实际情况进行设置，本申请对此不作具体限定。

步骤S103、计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集。

在获取到目标文本的语句集之后，计算该语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据该语句集中每两个语句之间的余弦相似度，从该语句集中筛选出第一摘要候选集。

具体地，对该语句集中的每个语句进行编码，得到语句集中的每个语句各自对应的语句向量；根据语句集中的每个语句各自对应的语句向量，计算语句集中每两个语句之间的余弦相似度；基于TextRank算法，根据语句集中每两个语句之间的余弦相似度，确定每个语句的第二重要性值；根据该语句集中每个语句的第二重要性值，从语句集中筛选出第二摘要候选集。其中，第二重要性值用于表征语句在目标文本中的重要程度，第二重要性值越高的语句在目标文本中的重要程度越高，第二重要性值越低的语句在目标文本中的重要程度越低，基于TextRank算法，计算语句的第二重要性值的公式为：

其中，等式左侧的W _S(V _i)表示语句V _i的重要性值，D _ji为语句V _i到语句V _j的边的权值，d为阻尼系数，代表某一语句指向其他任意语句的概率，可选为0.85，In(V _i)和Out(V _j)分别为指向语句V _i的语句集合和从语句V _j出发的边指向的语句集合，权值w _ji是两个语句S _i和S _j的相似度，权值w _jk是从语句V _j出发的边指向的语句集合中的任意一个语句与语句S _j的相似度。

其中，两个语句S _i和S _j的余弦相似度的计算公式为：

其中，

为语句S _i的语句向量，

为语句S _j的语句向量。通过上述相似度公式即可计算得到语句集中每两个语句的余弦相似度，通过第二重要性值的计算公式即可计算得到语句集每个语句的第二重要性值。

在一实施例中，语句的语句向量的确定方式可以为：对语句中的每个词进行编码，得到每个词各自对应的词向量，并根据每个词对应的词向量，计算平均词向量，且将该平均词向量作为该语句的语句向量。

在一实施例中，根据语句集中每个语句的第二重要性值，从语句集中筛选出第二摘要候选集的方式具体为：按照该语句集中每个语句的第二重要性值的高低，对该语句集中的每个语句进行排序，得到第二摘要候选集，或者，按照该语句集中每个语句的第二重要性值的高低，对该语句集中的每个语句进行排序，并按照排序的先后顺序，依次从该语句集中获取语句，直到获取到的语句的个数达到设定的个数，汇集获取到的每个语句，从而得到第二摘要候选集。需要说明的是，上述设定的个数可基于实际情况进行设置，本申请对此不作具体限定。

步骤S104、基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集。

在筛选得到第一摘要候选集和第二摘要候选集之后，服务器基于最大边界相关 (Maximal Marginal Relevance，MMR)算法和预设语句个数，从第一摘要候选集中筛选出第三摘要候选集以及从第二摘要候选集中筛选出第四摘要候选集。其中，第三摘要候选集为第一摘要候选集的子集，第四摘要候选集为第二摘要候选集的子集。需要说明的是，上述预设语句个数可基于实际情况进行设置，本申请对此不作具体限定。通过MMR算法，可以消除语句之间的冗余性，提高摘要提取的准确性。

在一实施例中，如图2所示，步骤S104包括子步骤S1041至步骤S1047。

S1041、根据所述第一摘要候选集中每个语句的所述第一重要性值，对所述第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号。

按照第一摘要候选集中每个语句的第一重要性值的高低，对第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号。需要说明的是，第一重要性值越高的语句的排序编号越小，第一重要性值越低的语句的排序编号越大。

S1042、从所述第一摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集。

在对第一摘要候选集中每个语句进行排序之后，从第一摘要候选集中获取该排序编号小于或等于预设的排序编号的语句，以形成候选语句集。需要说明的是，上述预设的排序编号可基于实际情况进行设置，本申请对此不作具体限定。可选地，预设的排序编号为10，则从第一摘要候选集中获取排序编号小于或等于10的语句，以形成候选语句集。

S1043、将所述候选语句集中所述第一重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集。

具体地，服务器从候选语句集中获取第一重要性值最高的语句，并将该语句移存至预设的空白摘要候选集，以更新摘要候选集和候选语句集。例如，候选语句集包括5个语句，分别为语句A、语句B、语句C、语句D和语句E，且语句C的第一重要性值最高，则更新后的摘要候选集包括语句C，更新后的候选语句集包括语句A、语句B、语句D和语句E。

S1044、基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。

其中，MMR值用于表征候选语句集中的语句与摘要候选集之间的相似程度，预设的MMR值的计算公式为：

MMR _i＝α·W _s(V _i)-(1-α)·sim(i,set)

其中，MMR _i为语句V _i的MMR值，α为权重系数，取值范围可选为0-1，W _s(V _i)为语句V _i的第一重要性值，set为候选语句集，sim(i,set)为语句V _i与候选语句集set之间的语义相似度。根据候选语句集中每个语句的第一重要性值，和该MMR值的计算公式，即可计算得到摘要候选集分别与候选语句集中每个语句各自对应的MMR值。

具体地，对摘要候选集进行编码，得到摘要候选集对应的向量；分别对候选语句集中的每个语句进行编码，得到候选语句集中的每个语句各自对应的向量；计算摘要候选集对应的向量分别与候选语句集中的每个语句各自对应的向量之间的语义相似度；基于MMR值的计算公式，根据每个语义相似度和候选语句集中每个语句的第一重要性值，计算摘要候选集分别与候选语句集中每个语句各自对应的MMR值。例如，候选语句集中的一个语句的第一重要性值为x，且该语句与摘要候选集之间的相似度为s，则该语句与摘要候选集之间的MMR值为α·x-(1-α)·s。

其中，对摘要候选集进行编码，得到摘要候选集对应的向量的方式具体为：对该摘要候选集中的每个语句进行编码，得到该摘要候选集中的每个语句各自对应的语句向量；根据该摘要候选集中的每个语句各自对应的语句向量，计算平均向量，并将该平均向量作为该摘要候选集的向量。

S1045、将所述MMR值最高的语句移存至所述摘要候选集，以更新所述摘要候选集和候选语句集。

在计算得到摘要候选集分别与候选语句集中每个语句各自对应的MMR值之后，服务器将MMR值最高的语句移存至该摘要候选集，以更新摘要候选集和候选语句集。例如，该摘要候选集包括语句C，候选语句集包括语句A、语句B、语句D和语句E，且MMR值最高的语句为语句E，则更新后的摘要候选集包括语句C和语句E，更新后的候选语句集包括语句A、语句B和语句D。

S1046、确定更新后的所述摘要候选集中的语句的数量是否达到预设语句个数。

服务器确定更新后的摘要候选集中的语句的数量是否达到预设语句个数，若更新后的摘要候选集中的语句数量未达到预设语句个数，则执行子步骤S1044，即基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。需要说明的是，上述预设语句个数可基于实际情况进行设置，本申请对此不作具体限定。

S1047、若更新后的所述摘要候选集中的语句的数量达到预设语句个数，则将更新后的所述摘要候选集作为第三摘要候选集。

如果更新后的摘要候选集中的语句数量达到预设语句个数，则将更新后的摘要候选集作为第三摘要候选集。例如，预设语句个数为5个，更新后的摘要候选集包括语句A、语句B、语句C、语句D和语句E，共计5个语句，此时摘要候选集中的语句数量达到预设语句个数，因此将包含语句A、语句B、语句C、语句D和语句E的摘要候选集作为第三摘要候选集。

可以理解的是，第四摘要候选集的提取方式与第三摘要候选集的提取方式类似，具体为：根据所述第二摘要候选集中每个语句的第二重要性值，对第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号；从第二摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集；将候选语句集中第二重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集；基于预设的MMR值计算公式，根据候选语句集中每个语句的第二重要性值，计算摘要候选集分别与候选语句集中每个语句各自对应的MMR值，其中，MMR值用于表征候选语句集中的语句与摘要候选集之间的相似程度；将MMR值最高的语句移存至摘要候选集，以更新摘要候选集和候选语句集；确定更新后的摘要候选集中的语句的数量是否达到预设语句个数；若更新后的摘要候选集中的语句的数量未达到预设语句个数，则执行步骤：基于预设的MMR值计算公式，根据候选语句集中每个语句的第二重要性值，计算摘要候选集分别与候选语句集中每个语句各自对应的MMR值；若更新后的摘要候选集中的语句的数量达到预设语句个数，则将更新后的摘要候选集作为第四摘要候选集。

步骤S105、分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集。

服务器在得到第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集这四个摘要候选集之后，分别从第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集。需要说明的是，上述预设摘要语句数量小于预设语句个数，预设摘要语句数量可基于实际情况进行设置，本申请对此不作具体限定。

在一实施例中，根据重要性值的大小，分别对第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中的语句进行排序，并按照各语句的排序先后，分别从第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量写入融合摘要候选集。其中，重要性值越大，则排序越靠前，重要性值越小，则排序越靠后。

例如，第一摘要候选集为[A，B，C，D，E，F，G，H，I，J]，第二摘要候选集为[A， B，C，D，E，G，H，I，J，K]，第三摘要候选集为[C，D，E，F，G，H，I]，第四摘要候选集为[D，E，G，H，I，J，K]，预设摘要语句数量为5，则从第一摘要候选集选择的语句为[A，B，C，D，E]，从第二摘要候选集选择的语句为[A，B，C，D，E]，从第三摘要候选集选择的语句为[C，D，E，F，G]，从第四摘要候选集选择的语句为[D，E，G，H，I]，因此，融合摘要候选集为{[A，B，C，D，E]，[A，B，C，D，E]，[C，D，E，F，G]，[D，E，G，H，I]}。

步骤S106、统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。

在得到融合摘要候选集之后，统计融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从融合摘要候选集中筛选出目标文本的摘要结果集，即从融合摘要候选集中筛选出该出现次数大于或等于预设出现次数的语句作为目标文本的摘要结果集。其中，该出现次数为语句在融合摘要候选集中出现的次数。

例如，融合摘要候选集为{[A，B，C，D，E]，[A，B，C，D，E]，[C，D，E，F，G]，[D，E，G，H，I]}，则语句A的出现次数为2，语句B的出现次数为2，语句C的出现次数为3，语句D的出现次数为4，语句E的出现次数为4，语句F的出现次数为1，语句G的出现次数为2，语句H的出现次数为1，语句I的出现次数为1。

上述实施例提供的摘要提取方法，通过TextRank算法，根据语句集中每两个语句之间的句子相似度，从语句集中筛选出第一摘要候选集，且通过TextRank算法，根据语句集中每两个语句之间的余弦相似度，从语句集中筛选出第二摘要候选集，然后基于最大边缘相关MMR算法和预设语句个数，从第一摘要候选集筛选出第三摘要候选集以及从第二摘要候选集中筛选出第四摘要候选集，最后对这四个摘要候选集进行融合，以确定文本的摘要结果集，可以降低提取到的摘要语句之间的冗余性，有效的提高文本摘要提取的准确性。

请参照图3，图3为本申请实施例提供的另一种摘要提取方法的流程示意图。

如图3所示，该摘要提取方法包括步骤S201至208。

步骤S201、获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本。

步骤S202、计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集。

步骤S203、计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集。

步骤S204、基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集。

在筛选得到第一摘要候选集和第二摘要候选集之后，服务器基于最大边界相关(Maximal Marginal Relevance，MMR)算法和预设语句个数，从第一摘要候选集中筛选出第三摘要候选集以及从第二摘要候选集中筛选出第四摘要候选集。其中，第三摘要候选集为第一摘要候选集的子集，第四摘要候选集为第二摘要候选集的子集。需要说明的是，上述预设语句个数可基于实际情况进行设置，本申请对此不作具体限定。通过MMR算法，可以消除语句之间的冗余性，提高摘要提取的准确性。

步骤S205、分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集。

步骤S206、统计所述融合摘要候选集中各语句的出现次数，并确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量。

在得到融合摘要候选集之后，统计融合摘要候选集中各语句的出现次数，并确定该出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量。其中，该出现次数为语句在融合摘要候选集中出现的次数。需要说明的是，上述摘要语句数量可基于实际情况进行设置，本申请对此不作具体限定。

步骤S207、若所述出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量，则根据所述出现次数，对所述融合摘要候选集中的语句进行排序。

如果该出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量，则根据该出现次数，对融合摘要候选集中的语句进行排序。需要说明的是，出现次数越大的语句的排序越靠前，出现次数越小的语句的排序越靠后。

在一实施例中，若出现次数大于预设出现次数的语句的个数小于预设的摘要语句数量，则将融合摘要候选集中出现次数大于预设出现次数的语句移存至目标文本的摘要结果集中，以更新融合摘要候选集；获取更新后的融合摘要候选集中每个语句的重要性值，并根据重要性值，对更新后的融合摘要候选集中的语句进行排序；按照更新后的融合摘要候选集中每个语句的排序，依次从更新后的融合摘要候选集中选择语句写入摘要结果集中，直至摘要结果集中的语句的数量达到预设的摘要语句数量。

步骤S208、按照所述融合摘要候选集中每个语句的排序，依次从所述融合摘要候选集中选择语句写入所述目标文本的摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。

在对融合摘要候选集中的语句排序后，按照该融合摘要候选集中每个语句的排序，依次从融合摘要候选集中选择语句写入目标文本的摘要结果集中，直至摘要结果集中的语句的数量达到预设的摘要语句数量。例如，融合摘要候选集为{[A，B，C，D，E]，[A，B，C，D，E]，[C，D，E，F，G]，[D，E，G，H，I]}，则语句A的出现次数为2，语句B的出现次数为2，语句C的出现次数为3，语句D的出现次数为4，语句E的出现次数为4，语句F的出现次数为1，语句G的出现次数为2，语句H的出现次数为1，语句I的出现次数为1，因此融合摘要候选集中各语句的排序为[D、E、C、A、B、G、F、H、I]，摘要语句数量为5，且预设出现次数为2，则目标文本的摘要结果集为[D、E、C、A、B]。

上述实施例提供的摘要提取方法，通过TextRank算法，根据语句集中每两个语句之间的句子相似度，筛选出第一摘要候选集，且通过TextRank算法，根据每两个语句之间的余弦相似度，筛选出第二摘要候选集，然后基于MMR算法，从第一摘要候选集筛选出第三摘要候选集以及从第二摘要候选集中筛选出第四摘要候选集，并从这四个摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；最后统计融合摘要候选集中各语句的出现次数，并在该出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量时，按照出现次数的大小顺序，从融合摘要候选集中选择语句写入目标文本的摘要结果集中，可以降低提取到的摘要语句之间的冗余性，有效的提高文本摘要提取的准确性。

请参照图4，图4为本申请实施例提供的一种摘要提取装置的示意性框图。

如图4所示，该摘要提取装置300，包括：获取模块301、第一摘要筛选模块302、第二摘要筛选模块303、第三摘要筛选模块304、选择模块305和摘要确定模块306。

获取模301，用于获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

第一摘要筛选模块302，用于计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

第二摘要筛选模块303，用于计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

第三摘要筛选模块304，用于基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

选择模块305，用于分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

摘要确定模块306，用于统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。

在一个实施例中，所述第一摘要筛选模块302还用于：

统计所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数；

根据所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数，计算所述语句集中每两个语句的句子相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的句子相似度，确定每个语句的第一重要性值，其中，所述第一重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第一重要性值，从所述语句集中筛选出第一摘要候选集。

在一个实施例中，所述第二摘要筛选模块303还用于：

对所述语句集中的每个语句进行编码，得到所述语句集中的每个语句各自对应的语句向量；

根据所述语句集中的每个语句各自对应的语句向量，计算所述语句集中每两个语句之间的余弦相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的余弦相似度，确定每个语句的第二重要性值，其中，所述第二重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第二重要性值，从所述语句集中筛选出第二摘要候选集。

在一个实施例中，所述第三摘要筛选模块304还用于：

根据所述第一摘要候选集中每个语句的所述第一重要性值，对所述第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号；

从所述第一摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集；

将所述候选语句集中所述第一重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集；

基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，其中，所述MMR值用于表征所述候选语句集中的语句与所述摘要候选集之间的相似程度；

将所述MMR值最高的语句移存至所述摘要候选集，以更新所述摘要候选集和候选语句集；

确定更新后的所述摘要候选集中的语句的数量是否达到预设语句个数；

若更新后的所述摘要候选集中的语句的数量未达到预设语句个数，则执行步骤：基于所述MMR算法，基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值；

若更新后的所述摘要候选集中的语句的数量达到预设语句个数，则将更新后的所述摘要候选集作为第三摘要候选集。

在一个实施例中，所述第三摘要筛选模块304还用于：

对所述摘要候选集进行编码，得到所述摘要候选集对应的向量；

分别对所述候选语句集中的每个语句进行编码，得到所述候选语句集中的每个语句各自对应的向量；

计算所述摘要候选集对应的向量分别与所述候选语句集中的每个语句各自对应的向量之间的语义相似度；

根据每个所述语义相似度和所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。

请参照图5，图5为本申请实施例提供的另一种摘要提取装置的示意性框图。

如图5所示，该摘要提取装置400，包括：获取模块401、第一摘要筛选模块402、第二摘要筛选模块403、第三摘要筛选模块404、选择模块405、确定模块406、排序模块407和摘要确定模块408。

获取模块401，用于获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

第一摘要筛选模块402，用于计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

第二摘要筛选模块403，用于计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

第三摘要筛选模块404，用于基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

选择模块405，用于分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

确定模块406，用于确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量；

排序模块407，用于若所述出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量，则根据所述出现次数，对所述融合摘要候选集中的语句进行排序；

摘要确定模块408，用于按照所述融合摘要候选集中每个语句的排序，依次从所述融合摘要候选集中选择语句写入所述目标文本的摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。

在一实施例中，所述摘要确定模块408，还用于：

若所述出现次数大于预设出现次数的语句的个数小于预设的摘要语句数量，则将所述融合摘要候选集中所述出现次数大于预设出现次数的语句移存至所述目标文本的摘要结果集中，以更新所述融合摘要候选集；

获取更新后的所述融合摘要候选集中每个语句的重要性值，并根据所述重要性值，对更新后的所述融合摘要候选集中的语句进行排序；

按照更新后的所述融合摘要候选集中每个语句的排序，依次从更新后的所述融合摘要候选集中选择语句写入所述摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述摘要提取方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端设备。

如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行如下步骤：

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种摘要提取方法。

所述计算机程序被执行时所实现的步骤的具体实施方式可参照本申请摘要提取方法的各个实施例。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机程序中包括程序指令，所述程序指令被执行时实现如下步骤：

所述程序指令被执行时所实现的步骤的具体实施方式可参照本申请摘要提取方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在另一实施例中，本申请所提供的摘要提取方法，为进一步保证上述所有出现的数据的私密和安全性，上述所有数据还可以存储于一区块链的节点中。例如第一摘要候选集、第二摘要候选集及目标文本等等，这些数据均可存储在区块链节点中。

需要说明的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种摘要提取方法，其中，包括：

获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。
根据权利要求1所述的摘要提取方法，其中，所述计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集，包括：

统计所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数；

根据所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数，计算所述语句集中每两个语句的句子相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的句子相似度，确定每个语句的第一重要性值，其中，所述第一重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第一重要性值，从所述语句集中筛选出第一摘要候选集。
根据权利要求1所述的摘要提取方法，其中，所述计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集，包括：

对所述语句集中的每个语句进行编码，得到所述语句集中的每个语句各自对应的语句向量；

根据所述语句集中的每个语句各自对应的语句向量，计算所述语句集中每两个语句之间的余弦相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的余弦相似度，确定每个语句的第二重要性值，其中，所述第二重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第二重要性值，从所述语句集中筛选出第二摘要候选集。
根据权利要求2所述的摘要提取方法，其中，所述基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集，包括：

根据所述第一摘要候选集中每个语句的所述第一重要性值，对所述第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号；

从所述第一摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集；

将所述候选语句集中所述第一重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集；

基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，其中，所述MMR值用于表征所述候选语句集中的语句与所述摘要候选集之间的相似程度；

将所述MMR值最高的语句移存至所述摘要候选集，以更新所述摘要候选集和候选语句集；

确定更新后的所述摘要候选集中的语句的数量是否达到预设语句个数；

若更新后的所述摘要候选集中的语句的数量未达到预设语句个数，则执行步骤：基于所述MMR算法，基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值；

若更新后的所述摘要候选集中的语句的数量达到预设语句个数，则将更新后的所述摘要候选集作为第三摘要候选集。
根据权利要求4所述的摘要提取方法，其中，所述基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，包括：

对所述摘要候选集进行编码，得到所述摘要候选集对应的向量；

分别对所述候选语句集中的每个语句进行编码，得到所述候选语句集中的每个语句各自对应的向量；

计算所述摘要候选集对应的向量分别与所述候选语句集中的每个语句各自对应的向量之间的语义相似度；

根据每个所述语义相似度和所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。
根据权利要求1至5中任一项所述的摘要提取方法，其中，所述根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集，包括：

确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量；

若所述出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量，则根据所述出现次数，对所述融合摘要候选集中的语句进行排序；

按照所述融合摘要候选集中每个语句的排序，依次从所述融合摘要候选集中选择语句写入所述目标文本的摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。
根据权利要求6所述的摘要提取方法，其中，所述确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量之后，还包括：

若所述出现次数大于预设出现次数的语句的个数小于预设的摘要语句数量，则将所述融合摘要候选集中所述出现次数大于预设出现次数的语句移存至所述目标文本的摘要结果集中，以更新所述融合摘要候选集；

获取更新后的所述融合摘要候选集中每个语句的重要性值，并根据所述重要性值，对更新后的所述融合摘要候选集中的语句进行排序；

按照更新后的所述融合摘要候选集中每个语句的排序，依次从更新后的所述融合摘要候选集中选择语句写入所述摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。
一种摘要提取装置，其中，所述摘要提取装置包括：

获取模块，用于获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

第一摘要筛选模块，用于计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

第二摘要筛选模块，用于计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

第三摘要筛选模块，用于基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

选择模块，用于分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

摘要确定模块，用于统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。
一种计算机设备，其中，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如下步骤：

获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。
根据权利要求9所述的计算机设备，其中，所述计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集，包括：

统计所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数；

根据所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数，计算所述语句集中每两个语句的句子相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的句子相似度，确定每个语句的第一重要性值，其中，所述第一重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第一重要性值，从所述语句集中筛选出第一摘要候选集。
根据权利要求9所述的计算机设备，其中，所述计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集，包括：

对所述语句集中的每个语句进行编码，得到所述语句集中的每个语句各自对应的语句向量；

根据所述语句集中的每个语句各自对应的语句向量，计算所述语句集中每两个语句之间的余弦相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的余弦相似度，确定每个语句的第二重要性值，其中，所述第二重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第二重要性值，从所述语句集中筛选出第二摘要候选集。
根据权利要求10所述的计算机设备，其中，所述基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集，包括：

根据所述第一摘要候选集中每个语句的所述第一重要性值，对所述第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号；

从所述第一摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集；

将所述候选语句集中所述第一重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集；

基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，其中，所述MMR值用于表征所述候选语句集中的语句与所述摘要候选集之间的相似程度；

将所述MMR值最高的语句移存至所述摘要候选集，以更新所述摘要候选集和候选语句集；

确定更新后的所述摘要候选集中的语句的数量是否达到预设语句个数；

若更新后的所述摘要候选集中的语句的数量未达到预设语句个数，则执行步骤：基于所述MMR算法，基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值；

若更新后的所述摘要候选集中的语句的数量达到预设语句个数，则将更新后的所述摘要候选集作为第三摘要候选集。
根据权利要求12所述的计算机设备，其中，所述基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，包括：

对所述摘要候选集进行编码，得到所述摘要候选集对应的向量；

分别对所述候选语句集中的每个语句进行编码，得到所述候选语句集中的每个语句各自对应的向量；

计算所述摘要候选集对应的向量分别与所述候选语句集中的每个语句各自对应的向量之间的语义相似度；

根据每个所述语义相似度和所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。
根据权利要求9至13中任一项所述的计算机设备，其中，所述根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集，包括：

确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量；

若所述出现次数大于预设出现次数的语句的个数大于或等于预设的摘要语句数量，则根据所述出现次数，对所述融合摘要候选集中的语句进行排序；

按照所述融合摘要候选集中每个语句的排序，依次从所述融合摘要候选集中选择语句写入所述目标文本的摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。
根据权利要求14所述的计算机设备，其中，所述确定所述出现次数大于预设出现次数的语句的个数是否大于或等于预设的摘要语句数量之后，还包括：

若所述出现次数大于预设出现次数的语句的个数小于预设的摘要语句数量，则将所述融合摘要候选集中所述出现次数大于预设出现次数的语句移存至所述目标文本的摘要结果集中，以更新所述融合摘要候选集；

获取更新后的所述融合摘要候选集中每个语句的重要性值，并根据所述重要性值，对更新后的所述融合摘要候选集中的语句进行排序；

按照更新后的所述融合摘要候选集中每个语句的排序，依次从更新后的所述融合摘要候选集中选择语句写入所述摘要结果集中，直至所述摘要结果集中的语句的数量达到预设的摘要语句数量。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如下步骤：

获取目标文本的语句集，其中，所述目标文本为待提取摘要的文本；

计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集；

计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集；

基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集以及从所述第二摘要候选集中筛选出第四摘要候选集；

分别从所述第一摘要候选集、第二摘要候选集、第三摘要候选集和第四摘要候选集中选择预设摘要语句数量的语句，以形成融合摘要候选集；

统计所述融合摘要候选集中各语句的出现次数，并根据各语句的出现次数，从所述融合摘要候选集中筛选出所述目标文本的摘要结果集。
根据权利要求16所述的计算机可读存储介质，其中，所述计算所述语句集中每两个语句之间的句子相似度，并基于TextRank算法，根据所述句子相似度，从所述语句集中筛选出第一摘要候选集，包括：

统计所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数；

根据所述语句集中每两个语句的相同词的数量和所述语句集中每个语句包含的词的个数，计算所述语句集中每两个语句的句子相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的句子相似度，确定每个语句的第一重要性值，其中，所述第一重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第一重要性值，从所述语句集中筛选出第一摘要候选集。
根据权利要求16所述的计算机可读存储介质，其中，所述计算所述语句集中每两个语句之间的余弦相似度，并基于TextRank算法，根据所述余弦相似度，从所述语句集中筛选出第二摘要候选集，包括：

对所述语句集中的每个语句进行编码，得到所述语句集中的每个语句各自对应的语句向量；

根据所述语句集中的每个语句各自对应的语句向量，计算所述语句集中每两个语句之间的余弦相似度；

基于TextRank算法，根据所述语句集中每两个语句之间的余弦相似度，确定每个语句的第二重要性值，其中，所述第二重要性值用于表征语句在所述目标文本中的重要程度；

根据所述语句集中每个语句的第二重要性值，从所述语句集中筛选出第二摘要候选集。
根据权利要求17所述的计算机可读存储介质，其中，所述基于最大边缘相关MMR算法和预设语句个数，从所述第一摘要候选集中筛选出第三摘要候选集，包括：

根据所述第一摘要候选集中每个语句的所述第一重要性值，对所述第一摘要候选集中每个语句进行排序，并获取每个语句的排序编号；

从所述第一摘要候选集中获取所述排序编号小于或等于预设的排序编号的语句，以形成候选语句集；

将所述候选语句集中所述第一重要性值最高的语句移存至空白的摘要候选集，以更新所述摘要候选集和候选语句集；

基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，其中，所述MMR值用于表征所述候选语句集中的语句与所述摘要候选集之间的相似程度；

将所述MMR值最高的语句移存至所述摘要候选集，以更新所述摘要候选集和候选语句集；

确定更新后的所述摘要候选集中的语句的数量是否达到预设语句个数；

若更新后的所述摘要候选集中的语句的数量未达到预设语句个数，则执行步骤：基于所述MMR算法，基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值；

若更新后的所述摘要候选集中的语句的数量达到预设语句个数，则将更新后的所述摘要候选集作为第三摘要候选集。
根据权利要求19所述的计算机可读存储介质，其中，所述基于预设的MMR值计算公式，根据所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值，包括：

对所述摘要候选集进行编码，得到所述摘要候选集对应的向量；

分别对所述候选语句集中的每个语句进行编码，得到所述候选语句集中的每个语句各自对应的向量；

计算所述摘要候选集对应的向量分别与所述候选语句集中的每个语句各自对应的向量之间的语义相似度；

根据每个所述语义相似度和所述候选语句集中每个语句的第一重要性值，计算所述摘要候选集分别与所述候选语句集中每个语句各自对应的MMR值。