WO2023124648A1

WO2023124648A1 - 一种文本纪要生成方法、装置、设备及存储介质

Info

Publication number: WO2023124648A1
Application number: PCT/CN2022/133167
Authority: WO
Inventors: 高建清; 戚婷; 闫莉; 孙境廷
Original assignee: 科大讯飞股份有限公司
Priority date: 2021-12-30
Filing date: 2022-11-21
Publication date: 2023-07-06
Also published as: CN114328899A

Abstract

本申请提出一种文本纪要生成方法、装置、设备及存储介质，该方法包括：获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。采用该文本纪要生成方法，即便是针对相同的目标文本，当参考文本不同时，能够通过从目标文本中定位与参考文本相关的文本内容，对目标文本进行不同侧重点的文本纪要生成处理，从而得到与参考文本对应的目标文本纪要。因此，该方法能够针对同一目标文本，生成满足不同用户需求的文本纪要。

Description

一种文本纪要生成方法、装置、设备及存储介质

本申请要求于2021年12月30日提交中国专利局、申请号为202111667181.X、发明名称为“一种文本纪要生成方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本纪要生成方法、装置、设备及存储介质。

背景技术

文本纪要生成，是指对长篇文本进行内容提取，从而提炼出能够表征文本核心内容的信息，文本纪要可以帮助人们更加直接、有效地把握文本内容。

常规的文本纪要生成方案通常是基于文本自动摘要技术，从文本中提取要点并形成概括性的文本。文本自动摘要技术按照产生摘要的方式可以划分为抽取式摘要和生成式摘要。抽取式摘要是从原始文本中原封不动地抽取单词或句子来形成一个摘要，摘要内容全部来源于原文；而生成式摘要允许生成新的词语以及原文本中没有的短语来组成摘要，生成摘要时首先对文本内容进行语义理解，基于语义生成一段话来对给定的文本进行概括。

通常，需要生成文本纪要的目标文本的内容是多方面的，而不同的人员可能对不同方面的内容感兴趣，因此，不同人员对相同目标文本的文本纪要需求是不一样的。

但是，目前的文本纪要生成方案，无论是抽取式摘要还是生成式摘要，均不能针对不同的人员需求生成不同内容的文本纪要，无法满足不同人员对相同目标文本的文本纪要生成需求。

发明内容

基于上述技术现状，本申请提出一种文本纪要生成方法、装置、设备及存储介质，通过实施本申请技术方案，能够针对同一目标文本，生成满足不同用户需求的文本纪要。

为了实现上述目的，本申请提出如下技术方案：

一种文本纪要生成方法，包括：

获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；

基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

一种文本纪要生成装置，包括：

数据获取单元，用于获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；

纪要生成单元，用于基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

一种文本纪要生成设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的文本纪要生成方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的文本纪要生成方法。

本申请提出的文本纪要生成方法，在对目标文本生成文本纪要时，以参考文本作为生成文本纪要的参考，通过从目标文本中定位参考文本的关联内容，对该目标文本进行纪要生成处理，得到与参考文本相对应的目标文本纪要。该方法在对目标文本生成文本纪要时，将目标文本内容，以及目标文本中的参考文本关联内容联合应用，共同用于确定目标文本的文本纪要。采用该文本纪要生成方法，即便是针对相同的目标文本，当参考文本不同时，能够通过从目标文本中定位与参考文本相关的文本内容，对目标文本进行不同侧重点的文本纪要生成处理，从而得到与参考文本对应的目标文本纪要。因此，该方法能够针对同一目标文本，生成满足不同用户需求的文本纪要。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种文本纪要生成方法的流程示意图；

图2是本申请实施例提供的篇章交互语义检索模型的结构示意图；

图3是本申请实施例提供的基于检索候选信息增强的语义检索模型的结构示意图；

图4是本申请实施例提供的一种基于注意力机制的文本纪要生成模型的结构示意图；

图5是本申请实施例提供的另一种基于注意力机制的文本纪要生成模型的结构示意图；

图6是本申请实施例提供的词-句-篇章层级信息编码模型的结构示意图；

图7是本申请实施例提供的分词特征提取示意图；

图8是本申请实施例提供的信息融合模型的结构示意图；

图9是本申请实施例提供的一种文本纪要生成装置的结构示意图；

图10是本申请实施例提供的一种文本纪要生成设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于生成文本纪要的应用场景，采用本申请实施例技术方案，能够生成与用户关注点相符的文本纪要，从而能够满足不同用户的文本纪要需求。

上述的生成文本纪要的应用场景，具体是指需要生成纪要内容的场景，包括但不限于会议纪要生成、文献摘要生成、新闻要点提炼等具体的应用场景。

例如，在会议场景中，会议内容通常是多方面的，而不同的参会人员所关心的内容通常是不一样的。比如，一场关于新产品策划的研讨会，同时参会的公司设计部、产品部以及市场部等负责人各自关心不同方面的内容。如设计部，更多关注的是产品设计方案的完善，产品部更多关注的是产品定义及研发规划，市场部更多关注的是新产品的市场定位。因此，不同部门所需的会议纪要的内容不同。

但是，常规的文本纪要生成方案，无论是抽取式摘要还是生成式摘要，由于其只能是对待生成摘要的文本进行技术处理，从而确定文本的主要内容，均不能针对不同的关注点生成侧重点不同的文本纪要。

基于上述技术现状，本申请实施例提出一种文本纪要生成方案，该方案能够参考用户所关注的目标文本内容，对目标文本生成文本纪要，从而可以针对不同的关注点生成不同的文本纪要，满足不同用户对于文本纪要内容的个性化需求。

在本申请后续的各项实施例中，以会议纪要生成为例，介绍本申请实施例技术方案的具体处理内容，当本申请实施例技术方案应用于其他场景时，其具体执行过程可以参照本申请各项实施例的介绍。需要说明的是，本申请实施例技术方案不仅适用于对文本进行纪要生成，从而得到文本形式的纪要，还适用于对语音进行纪要生成，得到文本或语音形式的纪要，或者对文本进行纪要生成得到语音形式的纪要。当针对非文本形式的数据进行纪要生成，或者生成非文本形式的纪要时，可以通过将非文本形式的数据转换为文本数据，或者将生成的文本形式的纪要转换为非文本形式而实现，其中的纪要生成主要处理，依然可以参照本申请实施例的介绍。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种文本纪要生成方法，参见图1所示，该方法包括：

S101、获取目标文本以及参考文本。

其中，上述的目标文本，是指需要生成纪要的文本，该目标文本可以是是通过任意途径获取的任意内容、任意语种的文本。具体而言，该目标文本可以是直接获取的文本，例如学术文献、新闻稿件、书籍等，或者是由语音识别得到的文本，例如对会议录音进行语音识别得到的识别结果文本、对演讲人的演讲语音进行识别得到的识别结果文本等。理论上，任意形式的数据内容，均可以转换为文本形式，从而作为上述的目标文本，通过后续处理实现对该目标文本的纪要生成。

上述的参考文本，基于用户所关注的目标文本内容而确定。具体而言，该参考文本，可以表征用户对目标文本内容的感兴趣内容或关注点，同时表征用户对生成的文本纪要内容的需求，其用于对生成上述目标文本的文本纪要提供参考，以便能够生成符合用户关注点或包含用户感兴趣内容的目标文本纪要。

该参考文本，可以由用户输入，或者在执行文本纪要生成之前预先设置确定。该参考文本的具体形式，可以是固定的句式，也可以是关键词或短语的形式，或者是简短的文本句或文本段的形式，甚至可以是多种文本的逻辑组合。例如，参考文本可以是一些检索条件的组合，如A相关且B相关(记作A&B)、A相关或B相关(记作A||B)，或者A相关但B不相关(记作A-B)等，甚至是更为复杂的条件组合，如A相关且B相关但C不相关(记作{A&B}-C)，其中A，B，C的具体形式也不做要求，可以是短语、关键词、语句或其他形式。

例如，在会议纪要生成场景中，对会议录音进行语音识别处理，得到与会议录音对应的文本，该文本作为上述的目标文本。同时，获取用户输入的表征其感兴趣或关注的会议内容的参考文本。该参考文本，可以是用户基于会议内容概括的短语、短句，或者是用户在会场记录的简单会议记录，或者是用户基于希望得到的会议纪要内容而确定的关键词、短语、检索条件等。当获取与会议对应的目标文本以及用户输入的参考文本时，即可执行后续的文本纪要生成处理，对上述的目标文本进行纪要生成处理，得到符合用户关注点，或者包含用户感兴趣内容的目标文本纪要。

对于处理设备来说，其对文本进行处理时，实际上是对文本特征进行处理。因此，上述的“获取目标文本以及参考文本”，可以是获取目标文本以及参考文本的原文，然后针对获取的目标文本以及参考文本原文进行特征提取，获取目标文本的特征以及参考文本的特征，用于后续的文本纪要生成处理；或者，也可以是直接获取目标文本以及参考文本的特征，用于后续的文本纪要生成处理。

S102、基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

其中，上述的参考文本的关联内容，是指与参考文本相关的文本内容，例如与参考文本的相似度大于设定相似度阈值的文本内容，或者与参考文本的语义相似或相关的文本内容，均可作为参考文本的关联内容。

示例性的，本申请实施例将参考文本与目标文本的各个文本片段依次进行比对，确定参考文本与目标文本的各文本片段的文本相似度或语义相似度，从而确定参考文本与目标文本片段的相关性，实现从目标文本中定位、识别出与参考文本相关的关联内容。

可以理解，目标文本中的参考文本关联内容，对于生成与参考文本对应的文本纪要的作用价值更大。因为参考文本关联内容中包含与参考文本相关的文本信息，如果在对目标文本进行文本纪要生成时，能够重点考虑这些参考文本的联内容，就能够使得最终生成的文本纪要包含更多的参考文本关联信息，从而使得生成的目标文本纪要与参考文本相匹配。

基于上述思想，本申请实施例在生成目标文本的文本纪要时，以目标文本中的参考文本关联内容为主，以目标文本中的其他内容为辅，生成目标文本的文本纪要，使得与参考文本的关联内容在最终生成的目标文本纪要中的占比更高，从而使的最终生成的目标文本纪要与参考文本的相关性越高，即，得到与参考文本对应的目标文本纪要。

作为一种示例性的实施方式，本申请实施例基于从目标文本中定位与参考文本相关的文本片段，对该目标文本的全文内容进行纪要生成处理，从而得到与参考文本对应的目标文本纪要。

上述的文本片段，可以是文本句、文本段或者是文本短语等。本申请实施例通过文本比对、语义比对等方法，从目标文本中识别与参考文本相关的文本片段。比如，只要目标文本中的文本片段与参考文本的文本相似度或语义相似度不为0，则可以认为其对于生成与参考文本对应的目标文本纪要有价值，因此将其确定为与参考文本相关的文本片段。

然后，结合与参考文本相关的文本片段的定位结果，对目标文本的全文内容进行纪要生成处理，即对目标文本的全文内容生成文本纪要。在生成纪要过程中，设置与参考文本相关的文本片段对于生成目标文本纪要的贡献度高于与参考文本不相关的文本片段对于生成目标文本纪要的贡献度，从而使得生成的目标文本纪要包含更多的参考文本相关文本片段信息。进一步的，还可以针对与参考文本相关的各个文本片段，根据其与参考文本的相关度大小，为其设置不同的贡献度，从而使得最终生成的目标文本纪要与参考文本的相关度更高。

例如，假设某场会议的会议原文共包含200段会话文本，例如以下会议原文所示(由于会议原文内容较长，为了表述简便，采用省略号代表省略的部分会议原文内容)：

会议原文：

段落1：今天我们主要讨论下关于扫描笔新产品的上市计划。

段落2：计划2019年3月启动为期约四个月的巡展，开展科技创新日。

…………

段落:16：下面将产品趋势的全面分析，帮助产品从激烈的市场中脱颖而出。我们将选取14个城市，积极寻找自媒体合作，合作内容包括……

…………

段落68：年轻人更喜欢外表很酷的设计，我们要认真对待这一部分市场，找到切入点。加强宣传效果……

…………

段落79：现在有个demo可以看一下。双十一发布前，我们对产品进行了较为系统的测试。测试集上正确率可以高达98％，超过竞品相对30％，足以形成代差。

…………

段落88：测试集数据测试，是没有测出效果的。因为要跟竞品完全对比的话，其实我们要在相同的事情真上作对比的。如果是同样一个集，不同的人感受是不同的。

…………

段落88：产品定位应该更多考虑年轻人，把这部分设计加进去……

…………

段落162：界面设计也需要交互合理，考虑按键属性和跳转等衔接……对了，前面说的测试问题，我们也该考虑用户主观体验这一项，需要设置一些主观体验的对比。对一些特殊情况，比如顺滑度，多行跨选等，感受下产品使用效果。

…………

段落200：今天会议就到这，后面各部门注意配合。

将上述的会议原文作为目标文本，假设用户A输入的检索条件为“产品效果主观体验”，则将用户A输入的检索条件作为参考文本，针对确定的目标文本和参考文本，通过执行本申请实施例提出的文本纪要生成方法的处理，可以确定，在上述的会议原文中，与用户A输入的检索条件“产品效果主观体验”相关的文本内容为“对了，前面说的测试问题，我们也该考虑用户主观体验这一项，需要设置一些主观体验的对比。”以及“对一些特殊情况，比如顺滑度，多行跨选等，感受下产品使用效果。”通过从会议原文中定位出与检索条件“产品效果主观体验”相关的文本内容，对该会议原文进行纪要生成处理，最终得到会议纪要“扫描笔新产品的效果不仅仅看数据结果，还需要考虑一些主观体验的方案”。可见，最终得到的会议纪要，与用户A输入的检索条件“产品效果主观体验”相匹配，即该会议纪要是表征产品效果主观体验的相关信息的会议纪要。因此，采用本申请实施例技术方案，能够通过从会议原文中定位与用户A输入的检索条件相关的文本内容，生成与用户A输入的检索条件相对应的会议纪要，从而满足用户A的会议纪要需求。

又例如，针对上述的会议原文，假设用户B输入的检索条件为“产品效果主观体验&产品定位”，则将该会议原文作为目标文本，将用户B输入的检索条件作为参考文本，通过执行本申请实施例提出的文本纪要生成方法的处理，可以确定，在上述的会议原文中，与用户B输入的检索条件“产产品效果主观体验&产品定位”相关的文本内容为“产品定位应该更多考虑年轻人，把这部分设计加进去。”、“对了，前面说的测试问题，我们也该考虑用户主观体验这一项，需要设置一些主观体验的对比。”以及“对一些特殊情况，比如顺滑度，多行跨选等，感受下产品使用效果。”通过从会议原文中定位出与检索条件“产品效果主观体验&产品定位”相关的文本内容，对该会议原文进行纪要生成处理，最终得到会议纪要“扫描笔新产品定位应该考虑年轻人更喜欢外表酷的设计，使用效果不仅仅看数据结果，还需要考虑一些主观体验的方案”。可见，最终得到的会议纪要，与用户B输入的检索条件“产品效果主观体验&产品定位”相匹配，即该会议纪要是表征产品效果主观体验和产品定位的相关信息的会议纪要。因此，采用本申请实施例技术方案，能够通过从会议原文中定位与用户B输入的检索条件相关的文本内容，生成与用户B输入的检索条件相对应的会议纪要，从而满足用户B的会议纪要需求。

可见，采用本申请实施例提出的文本纪要生成方法，即便是针对相同的会议原文，当用户输入的检索条件不同时，能够分别针对不同的用户检索条件生成与用户检索条件相匹配的文本纪要，从而满足不同用户对会议内容的需求。

综上所述，本申请实施例提出的文本纪要生成方法，在对目标文本生成文本纪要时，以参考文本作为生成文本纪要的参考，通过从目标文本中定位参考文本的关联内容，对该目标文本进行纪要生成处理，得到与参考文本相对应的目标文本纪要。该方法在对目标文本生成文本纪要时，将目标文本内容，以及目标文本中的参考文本关联内容联合应用，共同用于确定目标文本的文本纪要。采用该文本纪要生成方法，即便是针对相同的目标文本，当参考文本不同时，能够通过从目标文本中定位与参考文本相关的文本内容，对目标文本进行不同侧重点的文本纪要生成处理，从而得到与参考文本对应的目标文本纪要。因此，该方法能够针对同一目标文本，生成满足不同用户需求的文本纪要。

作为一种示例性的实施方式，本申请实施例预先训练基于注意力机制的文本纪要生成模型，用于根据目标文本以及参考文本，对目标文本进行文本纪要生成处理，得到与参考文本对应的目标文本纪要。

该基于注意力机制的文本纪要生成模型，基于预先收集的目标文本-参考文本-目标文本纪要平行数据训练得到。比如，预先收集大量的会议原文-用户检索条件-会议纪要文本的平行数据，并进行数据预处理后，用于对该模型进行训练。

所述会议原文数据，可以收集会议音频数据，进行语音转写后得到相应文本数据；当然，也可以直接收集会议文本数据，如速记员对会议整理的原始全文稿等。所述检索条件，形式不仅仅局限于固定模板的固定句式，还支持用户输入自己关心的关键词或短语，或是简短的会议记录，甚至是多种子条件的逻辑组合，如A相关且B相关(记作A&B)，A相关或B相关(记作A||B)以及A相关但B不相关(记作A-B)，甚至是更为复杂的条件组合，如A相关且B相关但C不相关(记作{A&B}-C)，其中A，B，C的具体形式也不做要求，可以是短语、关键词、语句或其他形式。在本申请实施例中，不限定检索条件的具体来源或具体内容。所述会议纪要，旨在高度凝练和检索条件高度相关的原长篇幅的会议文本，覆盖并总结检索条件相关的会议重点内容。

所述数据预处理，首先是对会议原文文本进行分句处理。所述分句，可以采用按标点符号进行子句或整句的切分，也可根据固定字数窗，滑窗进行分句，本案对分句具体方法不做具体要求，本案采用以标点符号，按照整句切分的方式，对会议原文文本进行分句处理；其次，是将分句后的会议原文文本数据处理成分词的输入序列形式，文本分词可以用现有技术，在此不再详述，如会议原文文本句“接下来的重点工作是春交会的一个跟进。”分词后结果“接下来/ 的/重点/工作/是/春交会/的/一个/跟进。”。对于用户检索条件，若检索条件仅为单个条件，则直接将检索条件视为纯文本，所述预处理仅需将检索条件文本数据处理成分词的输入序列形式，若检索条件为多个子条件的复合，则分别将各个子条件处理成分词后的序列形式。对于对应的会议纪要，所述预处理是将文本数据处理成分词的序列形式。

该基于注意力机制的文本纪要生成模型，为时序输出模型，即每次解码输出一个分词，最终得到的各个分词可以组合得到纪要文本。在训练时，分别获取会议原文的分词序列的特征，以及检索条件的分词序列的特征，将会议原文分词序列的特征和检索条件的分词序列的特征，输入该基于注意力机制的文本纪要生成模型，并通过将模型输出的会议纪要分词序列与预先处理得到的会议纪要分词序列进行比对确定模型损失，基于该模型损失对模型参数进行修正，使得该基于注意力机制的文本纪要生成模型，能够以目标文本和参考文本的特征为输入，生成与参考文本对应的目标文本纪要。

下面，以生成满足不同用户检索条件的会议纪要为例，对本申请实施例提出的文本纪要生成方法的具体处理过程进行介绍。在下文实施例中，以会议原文，代表上述的目标文本，以用户输入的检索条件或检索子条件，代表上述的参考文本，通过介绍对会议原文生成文本纪要，得到与用户输入的检索条件相符的文本纪要的过程，展示本申请实施例基于从目标文本中定位参考文本的关联内容，生成与参考文本相对应的目标文本纪要的技术方案的具体处理过程。

首先，对于“获取目标文本以及参考文本”，如上文所示，可以是获取目标文本和参考文本的原文，然后对其进行特征提取，用于后续的文本纪要生成处理。或者，也可以是直接获取目标文本的特征以及参考文本的特征，并用于后续的文本纪要生成处理。

具体的目标文本特征和参考文本特征的提取过程，可以参照后续实施例的详细介绍。

然后，关于本申请实施例提出的文本纪要生成方法中的“基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要”这一处理步骤，作为一种示例性的实施方式，可以通过如下步骤A1-A2实现：

A1、通过确定目标文本中的各个文本片段与参考文本的相关度，从所述目标文本中定位出与所述参考文本相关的文本片段。

具体的，上述的文本片段，可以是文本句、文本段或者文本短语等任意粒度的文本内容。本申请实施例对目标文本进行文本句划分，以划分得到的各个文本句作为上述的文本片段。其中，对目标文本进行文本句划分，可以是按照目标文本的标点，对其进行文本句划分，或者是根据固定字数窗，滑窗进行分句，本案对分句具体方法不做具体要求。在本申请实施例中，根据目标文本中的标点，对其进行语句划分。

然后，将参考文本与划分得到的各个目标文本句进行文本比对或语义比对，确定参考文本与各个目标文本句的相关度。在本申请实施例中，通过语义度量，确定目标文本中的各个文本片段与参考文本的相关度，即，通过比对参考文本与目标文本中的各个文本片段之间的语义相似度，确定参考文本与目标文本中的各个文本片段的相关度。

示例性的，先分别获取目标文本的特征，以及参考文本的特征。然后，根据目标文本中的各个文本片段的特征以及参考文本的特征，分别确定目标文本中的各个文本片段与参考文本的相关度。根据参考文本与目标文本中的各个文本片段的相关度，即可从目标文本中定位出与参考文本相关的文本片段。例如，在目标文本中，与参考文本的相关度不为零的文本片段，即为与参考文本相关的文本片段。

其中，目标文本的特征，可以是通过对目标文本中的各个文本片段提取特征，然后由各个文本片段的特征组合得到目标文本的特征，由此，基于目标文本中的各个文本片段的特征，可以分别确定目标文本的整体特征，以及目标文本的各个文本片段的特征。或者，也可以直接对目标文本整体进行特征提取，得到目标文本的特征，然后，根据目标文本的各个文本片段在目标文本中的位置，从目标文本特征中截取相应位置的特征，得到各个文本片段的特征。

在本申请实施例中，通过提取目标文本的各个文本片段的特征，确定目标文本的特征，以及，通过提取参考文本的各个文本片段的特征，确定参考文本的特征，具体的特征提取处理过程将在后续实施例中介绍。

作为一种可选的实施方式，例如，在会议纪要生成的应用场景下，假设用户输入了多个检索子条件，则针对每个检索子条件，分别确定其与会议原文中的每句文本的语义相似度。此时，针对每个检索子条件，确定其与会议原文中的每句文本的语义相似度，均可以通过上述的确定目标文本的文本片段与参考文本的语义相似度的处理过程实现。

示例性的，本申请实施例构建语义模糊检索模型，提取用户检索条件的每个子条件与会议原文中的每句文本的语义相似度得分，也就是确定参考文本与目标文本中的各个文本片段的相关度。

所述语义模糊检索模型，以检索子条件文本及会议原文文本为输入，输出对于某条检索子条件文本，会议原文文本中每句文本和其语义相似度得分。基于上述的语义模糊检索模型，将会议原文及用户检索子条件文本序列输入到语义模糊检索模型后，即可得到对于某条用户检索子条件，会议原文中1到n(n为会议原文句子总数)个句子与其的语义相似度得分，对于检索子条件A，其与会议原文的n个句子的语义相似度得分用

表示，对于检索子条件B，其与会议原文的n个句子的语义相似度得分用

表示。

本申请实施例提出两种语义模糊检索模型框架：篇章交互语义检索模型，以及基于检索候选信息增强的语义检索模型，用于度量检索子条件(参考文本)与会议原文(目标文本)句子的语义相似度得分。

如图2所示，篇章交互语义检索模型包括词编码器、句编码器，以及检索子条件文本与会议文本交互模块。其中，词编码器采用BERT预训练模型，首先输入会议转写文本句子S，以及检索子条件Q到词编码器中(其中，q＝{w ₁,w ₂,...,w _n}表示检索子条件Q所包含的n个分词，S _j＝{w _j,1,w _j,2,...w _j,m}表示第j个会议文本句子所包含的m个分词)，获取句子中每个词的上下文编码向量，抽取[CLS]的词向量表征

以及

作为转写文本句子编码以及检索子条件句子编码，用以表征整个句子的信息。

然后，转写文本句子编码通过两层Transformer句编码器建模将上下文信息引入当前句子，补全当前句子承接上下文所省略的信息，从而获得更准确的句子表征

其次，通过检索子条件文本与会议文本交互模块，对会议原文的各个文本句的句子编码，以及检索子条件的句子编码，进行基于注意力机制的交互运算，得到信息完善后的检索子条件句子编码。检索子条件文本与会议文本交互模块由attention结构构成，将检索子条件编码句子编码

作为attention机制的询问Q，将会议转写句子编码作为K和V，从而将会议内容信息融入检索子条件句子编码q中，在检索子条件较为简短，或者描述模糊等信息不全的情况下，会议文本内容可以较好地补充检索子条件中省略的信息；同时编码q拥有了全场会议内容的全局视野，对于其在转写文本中选择更优的检索结果更为有利。

最后，将检索子条件句子编码q与每个会议文本句子编码

做拼接，生成最终的交互向量S _j，输入到输出层预测该句与检索子条件的语义相似度得分。

上式中，

表示检索子条件与文本句子j的点积运算，代表两者相似程度；

表示检索子条件与文本句子j的信息差，通过多个视角的比较能够获得更全面的相似性判断信息。

相比于篇章交互语义检索模型，基于检索候选信息增强的语义检索模型在检索子条件与文本句子交互方式上进行了修改。具体来说，在获得检索子条件句子编码

以及获得会议原文的各个文本句的句子编码

之后，根据检索子条件的句子编码以及各个文本句的句子编码，计算会议原文的各个文本句与检索子条件的相似度，然后，根据会议原文的各个文本句与检索子条件的相似度，从会议原文中选出与参考文本的相似度最高的N个文本句，最后，对选出的N个文本句的句子编码，以及检索子条件的句子编码，进行基于注意力机制的交互运算，得到信息完善后的检索子条件句子编码。

例如，通过和会议文本句子编码

计算余弦距离可以获得与检索子条件最为相似的TopN个初步匹配的检索结果，也就是，根据会议原文文本中的各个文本句与检索子条件的相似度，从会议原文文本中选出与检索子条件相似度最高的N个文本句。如图3中所示，r＝1表示选中的TopN个初步匹配句子，r＝0表示其他相关性较低的句子。

然后，检索子条件句子编码

与TopN个高质量匹配结果

通过attention进行交互，更新检索子条件的编码向量为q。在N设置较小，如2时，N个检索候选与检索子条件相关的置信度较高，可以较为准确地补充检索子条件信息；同时，通过将质量较高的N个检索作为提示信息，可以引导模型将与初步高质量检索结果相似的结果选择出来，避免最终选择的检索结果之间语义相关性相差过大，降低用户体验。

考虑到BM25在精确匹配场景上的优势，本申请实施例将BM25方案与语义检索模型的输出结果相融合。具体来说，根据会议原文中的各个文本句子的编码以及检索子条件的编码，通过BM25算法计算确定会议原文中的各个文本句子与检索子条件的语义相似度。然后，对上述的语义模糊检索模型输出的会议原文中的各个文本句子与检索子条件的语义相似度得分，以及通过BM25算法计算确定的会议原文中的各个文本句子与检索子条件的语义相似度进行融合处理，例如进行加权融合，得到融合后的会议原文中的各个文本句子与检索子条件的语义相似度得分，即得到融合后的会议原文中的各个文本句子与检索子条件的相关度。

另外，考虑到与检索子条件相关的句子在会议文本中的跨度过大时不符合实际检索子条件描述内容较为集中的事实，本申请实施例对于与检索子条件相关的会议原文句子的位置分布的跨度进行约束，也就是，根据会议文本中的各个文本句子在会议文本中的位置分布，对会议文本中的各个文本句子与检索子条件的相关度进行修正。

本申请实施例先从会议文本中的各个文本句中，选出与检索子条件的相关度最高的第二数量的文本片段；

然后，按照会议文本中的其它文本句与选出的第二数量的文本句的距离越大，则对其它文本句与检索子条件的相关度的惩罚度越高的规则，确定对会议文本中的其它文本句与检索子条件的相关度的惩罚度；并根据对会议文本中的其它文本句与检索子条件的相关度的惩罚度，对会议文本中的其它文本句与检索子条件的相关度进行惩罚。

具体来说，本申请实施例设定，融合后的会议原文中的各个文本句子与检索子条件的语义相似度得分的Top2是相对准确的，会议原文中的其他文本句子与检索子条件的语义相似度得分应当按照距离Top-2的大小进行相应惩罚。由于Top2有两个句子，其他文本句子与检索子条件的语义相似度得分受到的惩罚应该只选择与Top2两个句子中距离较小的进行惩罚；基于上述处理，会议原文中的其他文本句子与检索子条件的语义相似度得分为原得分减去距离惩罚分。

更进一步的，本申请实施例还对从会议原文中识别出的与检索子条件相关的文本句进行异常文本句滤除处理，即，更进一步地精确会议文本句与检索子条件的相似度得分。首先，根据会议文本中的各个文本句与检索子条件的相关度，从会议文本中选出与检索子条件的相关度最高的第三数量的文本句；然后，根据选出的第三数量的文本句中的各个文本句与检索子条件的相关度，从所述第三数量的文本句中，选出与检索子条件的相关度大于第一相关度阈值，或者与检索子条件的相关度大于第二相关度阈值并且与检索子条件的标准化相关度大于第三相关度阈值的文本句，作为与检索子条件相关的文本句；

其中，所述第一相关度阈值大于所述第二相关度阈值，所述第二相关度阈值大于所述第三相关度阈值。

具体而言，在从会议文本中抽取出与检索子条件的相关度TopK的文本句子后，将非停用词数目小于等于1的文本句子删除以过滤低信息量句子。如果剩余的文本句子与检索子条件的相似度得分score小于t1(如t1＝0.6)，则认为该文本句子的可信度较低，考虑将该句子删除；如果剩余的文本句子与检索子条件的相似度得分score都比较低，例如都小于t1，则说明检索子条件内容较为困难，如过于简略或者概括性较强，因此将调低门限t2(如t2＝0.3)，并进一步查看剩余的文本句子与检索子条件的标准化得分score_norm，以及设定门限t3(如t3＝0.2)。最后，只保留与检索子条件的相似度得分score大于t1，或者与检索子条件的相似度得分大于t2并且与检索子条件的标准化相似度得分大于t3的文本句子，作为与检索子条件相关的文本句子。

具体来说，标准化得分score_norm计算如下：

最终的相关文本句子挑选策略为，对于会议原文中的文本句子i，其与检索子条件的相似度得分需要满足(score _i＞t ₁)||((score _i＞t ₂)&&(score_norm _i＞t ₃))。

通过上述的处理，可以从会议原文中定位出与检索条件或检索子条件相关的文本句。该与检索条件或检索子条件相关的文半句，也可以输出给用户，使用户可以应用或知晓在会议原文中，有哪些与检索条件或检索子条件相关的文本内容。

基于上述处理，可以分别确定检索子条件与会议文本中的各个文本句的语义相似度，还可以从会议原文的文本中，识别出与检索子条件相关的文本句子。

当检索子条件有多个时，需要对各个检索子条件与会议文本中的各个文本句的语义相似度得分进行整合，确定检索条件整体上与会议文本中的各个文本句的语义相似度得分。

具体而言，当检索条件包含多个检索子条件(即相当于参考文本的文本数量大于1，其中，文本的数量可以根据文本句、文本段等粒度的文本的数量而确定)时，本申请实施例针对会议文本中的每个文本句，通过如下处理确定其与检索条件的相关度，也就是确定其与检索条件的相似度得分：

首先，根据该文本句的特征，以及各个检索子条件的特征，确定该文本句与各个检索子条件的相关度。

具体而言，参照申请上述实施例的介绍，可以针对该文本句，基于该文本句的特征和各个检索子条件的特征，分别计算确定该文本句与检索条件中的各个检索子条件的相似度得分。

然后，根据各条检索子条件之间的关系，对该文本句与各个检索子条件的相关度进行融合处理，确定该文本句与检索条件的相关度。

具体的，当用户设置多个检索子条件构成完整的检索条件时，通常是通过对多个检索子条件进行逻辑组合得到检索条件。因此，检索条件中的各个检索子条件之间具有明确的逻辑关系。

基于上述的逻辑关系，本申请实施例在分别确定该文本句与各个检索子条件之间的相似度得分后，按照各个检索子条件之间的逻辑关系，对该文本句与各个检索子条件之间的相似度得分进行逻辑组合，从而确定该文本句与检索条件整体的相似度得分。

上述的对该文本句与各个检索子条件之间的相似度得分进行逻辑组合，可以参见表1所示：

表1

根据表1所示，对于会议原文中的第个文本句，假设其与检索子条件A的相似度得分为

其与检索子条件B的相似度得分为

则，该文本句与检索条件A&B的相似度得分为

该文本句与检索条件A||B的相似度得分为

该文本句与检索条件A-B的相似度得分为

进一步的，本申请实施例还对通过上述方式确定的会议原文中的各个文本句与检索条件的相似度得分进行归一化处理，使得会议原文的各个文本句与检索条件的相似度得分处理0-1之间，以便于更加直观地表示会议原文的文本句与检索条件的相关度，并且使不同文本句与检索条件的相关度具有可比性。经过上述处理后，对于会议原文中的第1到n个文本句子，其与检索条件的相关度，用p ₁,p ₂…,p _n表示。

A2、至少基于所述目标文本中的与所述参考文本相关的各个文本片段与所述参考文本的相关度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

具体的，当从目标文本中定位出与参考文本相关的各个文本片段时，即可根据与参考文本相关的各个文本片段，对目标文本的全文内容进行纪要生成处理，得到与参考文本对应的目标文本纪要。

例如，以目标文本中的与参考文本相关的各个文本片段的内容为主，以目标文本中的其他文本内容为辅，生成文本纪要，得到的目标文本纪要中的主要内容是与参考文本相关的内容。

或者，根据目标文本中与参考文本相关的各个文本片段与参考文本的相关度，对各个相关文本片段对于生成目标文本纪要的贡献度进行设置，使得与参考文本的相关度越高的文本片段，对于生成目标文本纪要的贡献度越高，从而使得最终生成的目标文本纪要中，所包含的与参考文本相关的文本段内容所占的比例与参考文本的相关度成正比。

作为一种优选的实施方式，本申请实施例综合考虑目标文本中的各个文本片段与参考文本的相关度，对目标文本的全文内容进行纪要生成处理。即，通过执行如下步骤A21-A22，对目标文本的全文内容进行纪要生成：

A21、根据目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度。

具体的，本申请实施例按照目标文本中的文本片段与参考文本的相关度越高，则目标文本中的文本片段对于生成与参考文本对应的文本纪要的贡献度越大的规则，分别确定目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度。

作为一种示例性的实施方式，本申请实施例采用基于注意力机制的文本纪要生成模型来生成目标文本的文本纪要。该基于注意力机制的文本纪要生成模型，能够根据目标文本中的各个文本片段与参考文本的相关度，确定目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，进而，基于该贡献度生成目标文本的文本纪要。

由于该文本纪要生成模型是基于注意力机制的文本解码模型，因此，该模型能够通过调整对输入的目标文本的各个文本片段的注意力系数，得到满足需求的文本纪要解码结果。当解码过程对不同文本片段的注意力不同时，可以使得最终解码得到的文本纪要的内容发生变化。由于该基于注意力机制的文本纪要生成模型是时序输出模型，因此，当前时刻的文本纪要解码对于目标文本中的各个文本片段的注意力系数，还可能与当前时刻之前已经输出的目标文本纪要内容有关。

通过训练，该模型能够根据前序的解码结果，确定当前时刻文本纪要解码对目标文件的各个文本片段的注意力系数分布，也就是对输入的目标文本的各个文本片段分配正确的注意力系数，因此，通过该模型能够确定该模型在生成目标文本的文本纪要时，其对于目标文本中的各个文本片段的注意力系数。

然后，根据生成目标文本的文本纪要对于目标文本中的各个文本片段的注意力系数，以及目标文本中的各个文本片段与参考文本的相关度，确定目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度。

由于本申请实施例的最终目的是生成与参考文本对应的文本纪要，因此，只确定文本纪要生成对目标文本的各个文本片段的注意力系数，还不足以使得最终生成的目标文本纪要与参考文本相对应。为了使得最终生成的目标文本纪要与参考文本相对应，本申请实施例还将生成目标文本的文本纪要对于目标文本中的各个文本片段的注意力系数，与目标文本中的各个文本片段与参考文本的相关度，进行结合，共同用于确定目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度。

示例性的，将生成目标文本的文本纪要对于目标文本中的各个文本片段的注意力系数，与目标文本中的各个文本片段与参考文本的相关度，进行相乘运算，然后再将与各个文本片段对应的乘积结果进行归一化处理，最终得到的与各个文本片段对应的归一化值，作为目标文本中的各个文本片段对于生成参考文本对应的文本纪要的贡献度。

以上的贡献度确定方案，也可以参见后续实施例对于生成目标文本纪要的具体过程的举例说明。

A22、至少根据所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

具体的，上述的基于注意力机制的文本纪要生成模型，首先根据目标文本的特征，以及目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，生成文本纪要解码特征；然后，在根据该文本纪要解码特征，进行文本纪要解码处理，生成目标文本的文本纪要。

由于本申请实施例是通过获取目标文本的各个文本片段的特征，进而确定目标文本的特征，因此，目标文本的各个文本片段的特征是预先明确的。而目标文本各个文本片段对于生成文本纪要的贡献度不同，因此，可以直接根据目标文本的各个文本片段的特征，以及目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

进而，对上述的文本纪要解码特征在预设的字典范围内进行解码，得到解码结果。按照上述方法使模型对目标文本全文进行解码，即可得到与参考文本对应的目标文本纪要。

仍以对会议原文生成符合用户检索条件的会议纪要为例，图4示出了基于注意力机制的文本纪要生成模型的结构，以及其解码生成目标文本纪要的处理过程。

假设对于用户某条检索条件，该模型历史已解出的会议纪要文本词序列表示为y _1,y ₂,…,y _t-1，会议原文中每句(假设共有n句)文本的句隐层特征为

t表示当前解码时刻，对于会议原文中的第1到n个文本句子，其与检索条件的相关度，用p ₁,p ₂…,p _n表示。将会议原文中每句文本的句隐层特征

以及每句文本与检索条件的相关度p ₁,p ₂…,p _n，输入该模型，具体是输入该模型的解码端与原文交互注意力模块。

历史已解出的会议纪要文本词序列y _1,y ₂,…,y _t-1经过该模型的解码隐层特征表达模块后，得到当前解码时刻的隐层状态特征为d _t。该解码隐层特征表达模块，可以输入对于用户某条检索条件，利用该模型已解出的历史会议纪要文本词序列，输出当前解码时刻的隐层状态特征。所述解码隐层特征表达模块的网络结构可利用Transformer方案下的decoder部分编码模型或单向LSTM等结构。

在解码端与原文交互注意力模块中，首先基于attention机制，确定在当前解码时刻，隐层状态特征d _t对会议原文中第j个文本句的句隐层特征的注意力系数

然后，根据隐层状态特征d _t对会议原文中第j个文本句的句隐层特征的注意力系数

以及会议原文中的第j个文本句与检索条件的相关度p _j，计算确定会议原文中的第j个文本句对于会议纪要生成的贡献度

最后，根据会议原文中的各个文本句的句隐层特征，以及会议原文中的各个文本句对于会议纪要生成的贡献度，生成文本纪要解码特征

以上处理的具体计算过程如下：

其中，j＝1，2，…n，表示会议原文中的n个文本句。Attention()表示注意力机制计算函数，可采用self-attention及加性attention等方式。在本申请实施例中，解码端充分考虑在会议原文所有文本句中，和检索条件内容相关的信息对会议纪要生成的影响，优化改进原注意力系数为

文本纪要解码特征

为解码端具有语义模糊检索特征指导做相关内容选择的，关注会议原文句隐层特征程度不同的上下文向量表示。

从

及

计算过程可以看出，若会议原文中的某个句子和检索条件的相关度越高，即检索匹配特征值越大，则该句对应优化后的注意力系数值越大，对最终的文本纪要解码特征

的贡献程度则越大，保证了本申请实施例提出的基于注意力机制的会议纪要生成模型具备选择和检索相关原文内容的能力。

图4中的出词预测模块，是输入文本纪要解码特征

计算分布在词典大小的出词概率，输出当前解码时刻对应的词。所述出词预测模块的网络结构可利用线性层接非线性激活函数层，解码算法可用beam search算法。依照上述算法，模型在每一时刻分别确定基于会议原文的文本纪要解码特征，并且进行解码输出，从而可以与会议原文对应、并且符合检索条件的会议纪要。

作为一种优选的实施方式，由于本申请实施例最终生成的目标文本纪要，是需要与参考文本相对应的，因此，除了明确目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，从而使得最终生成的目标文本纪要包含与参考文本相关的目标文本内容之外，本申请实施例还直接将参考文本的特征，用于生成目标文本的文本纪要，从而进一步地提高生成的目标文本纪要与参考文本的相关性。

基于上述思想，本申请实施例在生成文本纪要解码特征时，根据目标文本的特征、参考文本的特征，以及目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

示例性的，在图4所示的基于注意力机制的文本纪要生成模型中，除了将会议原文中每句文本的句隐层特征

以及每句文本与检索条件的相关度p ₁,p ₂…,p _n，输入该模型之外，还将检索条件的特征输入该模型，例如将检索条件的每个词的词隐层特征

输入该模型，使得该模型进行解码处理时，能够参考检索条件对会议原文的文本内容进行解码，从而提高解码结果与检索条件的相关性。

例如，将会议原文中每句文本的句隐层特征

每句文本与检索条件的相关度p ₁,p ₂…,p _n，以及检索条件的每个词的词隐层特征

输入该模型的解码端与原文交互注意力模块，使得该模型在确定对会议原文的各个文本句的注意力系数、确定会议原文的各个文本句对生成与检索条件对应的会议纪要的贡献度，以及生成文本纪要解码特征时，均能够以检索条件为参考，从而使得最终解码得到的会议纪要与检索条件的相关度更高，避免会议纪要脱离检索条件。

作为一种可选的实施方式，本申请实施例提出如图5所示的基于注意力机制的文本纪要生成模型结构，该模型相对于图4所示的模型结构，在解码端与原文交互注意力模块之前，增加了解码端与检索交互注意力模块，在该解码端与检索交互注意力模块，主要实现模型隐层状态特征与检索条件特征的交互，生成参考解码特征，该参考解码特征，再通过解码端与原文交互注意力模块实现与会议原文特征的交互。

基于图5所示的模型结构，在生成文本纪要解码特征时，先根据参考文本的特征，生成参考解码特征；然后再根据参考解码特征、目标文本的特征，以及目标文本中的各个文本片段对于生成参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

具体而言，参见图5所示，将检索条件的特征，以及隐层状态特征，输入模型的解码端与检索交互注意力模块，使得检索条件的特征与模型隐层状态特征相融合，得到参考解码特征。

更进一步的，本申请实施例通过参考文本的各个文本片段的特征，来确定参考文本的特征，而参考文本的各个文本片段，对于生成与参考文本对应的目标文本纪要的影响，也是不同的。例如，参考文本中的关键实体词，能够很大程度上表达参考文本的语义，因此其对于生成与参考文本对应的目标文本纪要的参考价值更大，而参考文本中的非实体词，例如语气词、修饰词等，对于生成与参考文本对应的目标文本纪要的参考价值相对更小。因此，本申请实施例参照上述实施例介绍的确定目标文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度的方案，确定参考文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度。其中，参考文本中的文本片段，可以是词、短语、语句、文本段落等任意粒度的文本内容。

当明确了参考文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度后，根据参考文本的特征，以及参考文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，生成参考解码特征。

具体而言，本申请实施例通过获取参考文本的各个文本片段的特征而确定参考文本的特征，而参考文本的各个文本片段对于生成与参考文本对应的文本纪要的贡献度不同，因此，本申请实施例根据参考文本的各个文本片段的特征，以及参考文本中的各个文本片段对于生成与参考文本对应的文本纪要的贡献度，生成参考解码特征。

继续以上述的对会议原文生成符合用户检索条件的会议纪要为例，借助如图5所示的基于注意力机制的文本纪要生成模型，假设检索条件的每个词的词隐层特征为

将当前解码时刻隐层状态特征d _t，以及检索条件每个词的词隐层特征

输入解码端与检索交互注意力模块，该模块利用attention机制，先确定检索条件中的每个词对于生成与检索条件对应的文本纪要的贡献度，然后根据检索条件的每个词的特征以及检索条件中的每个词对于生成与检索条件对应的文本纪要的贡献度，生成参考解码特征。具体计算过程如下：

其中，i＝1，2，…m1+m2，表示检索条件中的m1+m2个词，m1+m2表示检索条件包含的两个检索子条件的词的数量之和。Attention()表示注意力机制计算函数，可采用self-attention及加性attention等方式。

表示当前解码时刻，解码隐层状态特征对检索条件中第i个词的词隐层特征注意力系数，该系数也表示检索条件中的第i个词对于生成与检索条件相对应的文本纪要的贡献度。

为解码端与检索交互后获得的关注检索条件词隐层特征程度不同的上下文向量表示，在本申请实施例中，将其命名为参考解码特征。可以理解，本申请实施例技术方案在解码端充分了考虑检索条件中信息对会议纪要生成的贡献度。

参见图5所示，在得到参考解码特征

后，将该参考解码特征、会议原文的各个文本句的特征，以及会议原文中的各个文本句与检索条件的相关度，输入解码端与原文交互注意力模块，使该模型通过注意力交互运算，确定会议原文中的各个文本句对于生成与检索条件对应的文本纪要的贡献度，以及文本纪要解码特征。具体计算过程如下：

其中，

为解码端在第t时刻与检索交互后的上下文向量，也就是参考解码特征。

为会议原文中第j句话的句隐层特征，i＝1，2，…n。Attention()表示注意力机制计算函数，可采用self-attention及加性attention等方式。

表示当前解码时刻，解码端与检索交互后的上下文向量对会议原文文本中第j句话的句隐层特征注意力系数，也就是解码端在生成与检索条件对应的文本纪要时对会议原文中的第j个文本句的注意力系数。p _j表示检索条件与会议原文中第j句文本的相似度。

综合上述实施例介绍可见，本申请实施例在解码文本纪要时，不仅考虑了目标文本的各个文本片段对于生成与参考文本对应的目标文本纪要的贡献度，还考虑了参考文本的各个文本片段对于生成与参考文本对应的目标文本纪要的贡献度。从而保证了整个目标文本纪要生成过程具备了选择和检索相关的目标文本内容和参考文本内容的能力，从而提高了最终生成的目标文本纪要与参考文本和目标文本中的参考文本关联内容的相关度，即使得最终生成的目标文本纪要与参考文本相对应。

需要说明的是，上述实施例中，借助目标文本的各个文本片段的特征，以及参考文本的各个文本片段的特征，说明参考解码特征和文本纪要解码特征的获取过程，以及最终解码得到目标文本纪要的处理过程。在实际实施本申请实施例时，可以直接将目标文本的整体特征和参考文本的整体特征，输入上述的基于注意力机制的文本纪要生成模型，获取参考解码特征和文本纪要解码特征，此时，对该模型的训练过程和模型的具体处理过程，均可以参照上述实施例的介绍而执行。

另外，上述的图4和图5所示的基于注意力机制的文本纪要生成模型的各个处理模块的名称，是结合具体的处理对象而命名的，当实际处理的目标文本和参考文本为其他类型的文本，而非会议原文和检索条件时，可以根据实际处理对象而对各个处理模块的名称进行适应性更改。本申请实施例并不限定上述的基于注意力机制的文本纪要生成模型的各个处理模块的名称，而主要是介绍各个处理模块的功能和处理内容，从而具体地介绍该基于注意力机制的文本纪要生成模型的处理过程和所实现的功能。

在上文各实施例中，分别介绍了度量目标文本的各个文本片段与参考文本的相关度，以及对目标文本进行文本纪要生成处理得到与参考文本对应的目标文本纪要的具体实施方式。由于对于计算机设备来说，其对文本进行处理，本质上均是对文本的特征进行处理，也就是说，本申请实施例所提出的文本纪要生成方法中所包含的对文本进行的处理内容，本质上均是对文本的特征进行的处理。因此，文本特征的准确与否，将直接影响对文本进行纪要生成处理的准确度。下面，本申请实施例将对目标文本的特征和参考文本的特征的获取方式，进行示例说明。

通常情况下，采用编码器对文本进行编码，即可得到文本特征。例如采用词级编码encoder结构，可以获取对目标文本和参考文本的编码特征。但是，需要生成纪要的目标文本，通常是篇幅较长的文本，例如会议文本的主要特点就是其文本长度较长，一个时长一小时的会议，可能包含1-2万个词。而如果借助常规的词级编码器获取会议文本的特征，则将耗费大量内容，同时也无法很好地捕捉长距离依赖信息，导致提取的文本特征不准确或不完整，这也导致常规的纪要生成方法，只能是针对篇幅较短的文章如新闻、邮件以及轮次较少的人际对话等场景进行摘要生成，其无法胜任长篇幅的目标文本的纪要生成任务。

为了提高文本特征提取的效果，作为示例性的实施方式，本申请实施例通过获取目标文本中的各个文本片段的特征，确定目标文本的特征，以及，通过获取参考文本中的各个文本片段的特征，确定参考文本的特征。

其中，在获取目标文本中的各个文本片段的特征时，通过执行如下步骤B1-B4实现对各个文本片段的特征提取：

B1、对目标文本进行文本片段划分处理，确定目标文本包含的各个文本片段。

B2、对于目标文本中的各个文本片段，分别进行分词处理，确定各个文本片段包含的各个分词。

B3、分别提取各个文本片段包含的各个分词的融合上下文信息的分词特征。

B4、根据各个文本片段包含的各个分词的融合上下文信息的分词特征，确定各个文本片段的特征。

具体的，本申请实施例构建词-句-篇章层级信息编码模型，来提取目标文本的融合上下文信息的句级隐层特征和篇章级隐层特征，也就是提取目标文本的各个文本片段的特征，和目标文本的整体特征。

本申请实施例先对目标文本进行文本片段划分，以及对划分的文本片段进行分词，确定各个文本片段包含的各个分词。其中，对目标文本进行文本片段划分，可以是对目标文本进行文本句划分，例如按照标点符号进行文本句划分，或者借助固定字数的滑窗在目标文本上滑动提取文本片段。对文本片段进行分词，可以采用现有的分词算法实现，本申请实施例不再详细介绍。基于上述的文本片段划分和分词处理后，针对目标文本的各个文本片段包含的分词，即可借助上述的词-句-篇章层级信息编码模型来提取目标文本的文本片段特征和篇章特征。

参见图6所示，该词-句-篇章层级信息编码模型，包括词隐层特征表达模块、句子表示提取模块、句隐层特征表达模块以及篇章特征提取模块。下面，以会议原文表示目标文本，以会议原文中的各个文本句表示目标文本中的各个文本片段，以提取会议原文的各个文本句的特征和会议原文篇章特征为例，介绍提取目标文本的各个文本片段的特征和目标文本的整体特征的处理过程。

上述的词隐层特征表达模块，是指对于会议原文文本中的每一文本句，输入每个词的词表示，输出融合当前句上下文信息的词隐层特征。所述词隐层特征表达模块的网络结构可利用Transformer方案下的encoder部分模型或双向LSTM等结构。假设会议原文经过分句后，共有n句话，每句话包含的词序列为

其中，n表示会议原文的第n句话，m _n表示第n句话中包含的词的总数。

表示会议原文文本中第1个句子中的每个词融合当前句上下文信息后的词隐层特征，m1表示第1句话中，共有m1个词。同理

表示会议原文文本中第2个句子中的m2个词的融合当前句上下文信息后的词隐层特征，

表示会议原文文本中第n个句子中的m _n个词的融合当前句上下文信息后的词隐层特征。

上述的句子表示提取模块，是将输入序列中多个词的词表示进行压缩，得到句子表示向量，会议原文文本的第1个句子所有的词隐层特征

经过句子表示提取模块后，得到第1句的句子表示向量为s ₁。依次类推，会议文本中第1句至第n句的句子表示向量可表示为序列s ₁,s ₂…,s _n。本申请实施例对句子表示提取模块的网络结构不作限定，可采用注意力机制或池化等技术。

上述的句隐层特征表达模块，是指输入会议原文文本所有的句子表示向量，输出融合当前句上下文信息的句子隐层特征。和上述的词隐层特征表达模块类似，所述句隐层特征表达模块的网络结构，可利用Transformer方案下的encoder部分模型或双向LSTM等结构。

表示会议文本中n个句子的融合上下文信息后的句隐层特征。

上述的篇章特征提取模块，和上述的句子表示提取模块类似，是将输入序列中多句话的句隐层特征表示进行压缩，得到篇章表示向量。会议原始文本的第1句至第n句的句子表示向量可表示为序列

经过篇章特征提取模块后，得到会议原文篇章特征u。本申请实施例对篇章特征提取模块的网络结构不作限定，可采用注意力机制或池化等技术。

通过上述的词-句-篇章层级信息编码模型，可以分别获取会议原文的每个文本句的特征，以及会议原文的篇章特征，也就是会议原文的整体特征。并且，会议原文的文本句的特征、文本句所包含的分词的特征，以及会议原文的篇章特征，均是融合了上下文信息的特征，因此，本申请实施例上述的会议原文文本特征提取方案，能够更好地捕捉长篇幅的会议文本中的长距离依赖信息，得到更加准确的会议文本特征。

作为一种可选的实施方式，上述的词-句-篇章层级信息编码模型，也可以省略其中的句隐层特征表达模块，直接将句子表示提取模块输出的各个文本句的句子表示向量s ₁,s ₂…,s _n，作为会议文本的各个文本句的特征，以及，根据各个文本句的特征s ₁,s ₂…,s _n，确定会议文本的篇章特征u。

在获取参考文本中的各个文本片段的特征时，通过执行如下步骤C1-C2实现对各个文本片段的特征提取：

C1、对参考文本进行分词处理，确定参考文本包含的各个分词。

C2、分别提取参考文本包含的各个分词的融合上下文信息的分词特征。

具体的，本申请实施例通过提取参考文本的各个文本片段的特征，确定参考文本的整体特征。其中，参考文本的文本片段，可以是参考文本中的词、短语、文本句、文本段等任意粒度的文本内容。在本申请实施例中，通过提取参考文本的各个分词的特征，确定参考文本的特征。

因此，首先对参考文本进行分词处理，例如通过分词模型或分词算法，对参考文本进行分词，确定参考文本包含的各个分词。然后，分别提取参考文本包含的各个分词的融合上下文信息的分词特征，以及，根据参考文本包含的各个分词的分词特征，组合得到参考文本的整体特征。

进一步的，如果参考文本包含的文本数量大于1，即参考文本中包含多个文本句，则本申请实施例先根据各个参考文本之间的关系，对参考文本中包含的各个文本句进行合并或筛选处理后，将其整合为一个参考文本，然后对该参考文本再进行分词、分词特征提取以及参考文本特征提取处理。

示例性的，本申请实施例通过如图7所示的词隐层特征表达模块，提取参考文本的各个分词的分词特征。

以提取用户在获取会议原文的会议纪要使输入的检索条件的特征为例。若用户检索条件为单个条件，则对用户检索条件进行分词后，将检索词序列输入上述的词隐层特征表达模块，输出融合检索条件上下文信息的词隐层特征，即得到检索条件包含的各个分词的融合上下文信息的分词特征。

若用户检索条件为多个检索子条件的组合，则按照如下表2所示的方法，将单个或多个检索子条件的词序列，输入上述的词隐层特征表达模块，该词隐层特征表达模块对应输出单个或多个检索条件的融合上下文信息的词隐层特征。

表2

复合条件	输入说明	输入序列个数
A&B	将A和B子条件序列拼接为一个序列输入	1
A\|\|B	将A和B子条件序列分别输入	2
A-B	仅输入A子条件序列	1

按照表2所示的检索条件合并或筛选思想，对于更复杂的检索子条件复合情况，如{A&B}-C，通过上述方法可处理成一个文本序列，即子条件A和B拼接后的文本序列输入。

上述的词隐层特征表达模块的网络结构可利用Transformer方案下的encoder部分模型或双向LSTM等结构。如图7中所示，假设某个检索条件中的一个输入序列，共有m1个词，分别为

将该词序列输入上述的词隐层特征表达模块后，得到检索条件每个词的隐层特征表示为

特别地，若检索条件按所述方法拆解后有多个序列，提取过程类似，如图中另一个输入序列，共有m2个词，分别为

将该词序列输入上述的词隐层特征表达模块后，得到每个词的隐层特征表示为

按照上述方法，可分别获取每个检索子条件的分词特征，最后，将检索子条件包含的各个分词的分词特征按照分词顺序进行拼接，即可得到检索条件的整体特征。

通过上述处理分别确定目标文本的各个文本片段的特征，以及参考文本的各个文本片段的特征后，本申请实施例还对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征进行特征融合处理，得到融合参考文本特征的目标文本特征，和/或融合目标文本特征的参考文本特征。

即，本申请实施例将参考文本的特征，融入目标文本特征中，和/或，将目标文本的特征，融入参考文本特征中，从而使得参考文本和/或目标文本的特征中，不仅包含自身特征，还包括对方的特征。

在本申请实施例中，将参考文本的特征融入目标文本特征中，同时，将目标文本的特征融入参考文本的特征中。在实际实施本申请实施例技术方案时，可以根据本申请实施例的介绍，选择将其中一方的特征融入另一方。

其中，将目标文本特征融入参考文本特征时，可以是将目标文本的篇章特征和/或目标文本的各个文本片段的特征，融入参考文本的各个文本片段的特征，或者融入参考文本的整体特征。上述的目标文本的篇章特征，根据目标文本的各个文本片段的特征而确定。

在本申请实施例中，先根据目标文本的各个文本片段的特征，确定目标文本的篇章特征。然后，将目标文本的篇章特征，以及目标文本的各个文本片段的特征，分别融入参考文本的各个文本片段的特征；另外，将参考文本的各个文本片段的特征，融入目标文本的各个文本片段的特征中。最终，得到的参考文本的各个文本片段的特征中融合了目标文本的篇章特征和各个文本片段特征，得到的目标文本的各个文本片段的特征中融合了参考文本的各个文本片段的特征。

示例性的，仍以上述的会议原文表示目标文本，以用户检索条件表示参考文本，本申请实施例充分考虑用户检索条件和会议原文的信息融合，即提取最终的会议原文中每个句子隐层特征时，将融合相关检索条件信息，与此同时，提取最终用户检索条件中每个词隐层特征时，也将融合会议原文信息。

本申请实施例构建信息融合模型，用于实现用户检索条件和会议原文的信息融合。参见图8所示，该信息融合模型包括词隐层特征表达模块、词特征提取模块以及信息相互融合模块。

上述的词隐层特征表达模块的功能和处理过程，可参见图7所述的词隐层特征表达模块的功能介绍。

所述词特征提取模块，输入会议原文篇章级隐层特征u以及检索条件每个词隐层特征表示

输出融合原文篇章信息后的检索条件每个词的隐层特征

在本申请实施例中，该词特征提取模块采用递归的网络结构，会议原文篇章级隐层特征u为初始状态表示，检索条件每个词隐层特征为输入，递归获得融合会议原文篇章信息后的检索条件中每一个词的隐层特征的计算过程如下所示：

...

上述的递归的网络结构，可采用LSTM或GRU等结构。

特别地，若检索条件为多个检索子条件的复合，则按上述处理后，有多个词隐层特征。如图8所示，对于另一个词隐层特征表示

本申请实施例提取融合会议原文篇章信息后的检索条件中每一个词的隐层特征的计算过程和上述过程一致，最终得到

所述信息相互融合模块，在获得融合会议原文篇章信息后的检索条件中每一个词的隐层特征后，输入该特征以及会议原文每个文本句的句隐层特征

输出进一步融合原文句信息后的检索条件每个词的隐层特征

以及融合相关检索条件词信息的会议原文中每句话的句隐层特征

该信息相互融合模块，可利用self-attention机制或双向LSTM等结构。

通过上述介绍可见，本申请实施例在对目标文本和参考文本进行特征提取时，不仅能够提取目标文本和参考文本的融合了上下文信息的各个文本片段的特征，还实现了目标文本特征和参考文本特征的融合，使得目标文本和参考文本的特征信息更丰富，更加有利于通过对目标文本进行文本纪要生成处理，得到与参考文本对应的目标文本纪要。

例如，基于通过上述方式提取的目标文本的特征，进行文本纪要生成处理，或者，将通过上述方式提取的目标文本的特征和参考文本的特征进行组合应用，进行文本纪要生成处理，由于目标文本的特征中融入了参考文本的特征，因此，能够使得生成的目标文本纪要与参考文本相关。

本申请实施例通过将按照上述方式提取的目标文本的各个文本片段的特征，以及参考文本的各个文本片段的特征，输入如图5所示的基于注意力机制的文本纪要生成模型，生成与参考文本对应的目标文本纪要，具体的纪要生成过程，请参见上述实施例的介绍。

与上述的文本纪要生成方法相对应的，本申请实施例还提出一种文本纪要生成装置，参见图9所示，该装置包括：

数据获取单元100，用于获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；

纪要生成单元110，用于基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

作为一种可选的实施方式，基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

基于从所述目标文本中定位与所述参考文本相关的文本片段，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

作为一种可选的实施方式，基于从所述目标文本中定位与所述参考文本相关的文本片段，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

通过确定目标文本中的各个文本片段与参考文本的相关度，从所述目标文本中定位出与所述参考文本相关的文本片段；

至少基于所述目标文本中的与所述参考文本相关的各个文本片段与所述参考文本的相关度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

作为一种可选的实施方式，至少基于所述目标文本中的与所述参考文本相关的各个文本片段与所述参考文本的相关度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

根据目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度；

至少根据所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

作为一种可选的实施方式，确定目标文本中的各个文本片段与参考文本的相关度，包括：

分别获取目标文本的特征以及参考文本的特征；

根据目标文本中的各个文本片段的特征，以及参考文本的特征，分别确定目标文本中的各个文本片段与参考文本的相关度。

作为一种可选的实施方式，所述纪要生成单元110还用于：

对目标文本中的各个文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征。

作为一种可选的实施方式，对目标文本中的各个文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征，包括：

根据目标文本中的各个文本片段的特征，以及参考文本的特征，计算确定目标文本中的各个文本片段与参考文本的相似度；

根据目标文本中的各个文本片段与参考文本的相似度，从目标文本中选出与参考文本的相似度最高的第一数量的文本片段；

对从目标文本中选出的第一数量的文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征。

作为一种可选的实施方式，当参考文本的文本数量大于1时，根据目标文本中的各个文本片段的特征，以及参考文本的特征，分别确定目标文本中的各个文本片段与参考文本的相关度，包括：

对于目标文本中的各个文本片段，分别通过如下处理确定其与参考文本的相关度：

根据该文本片段的特征，以及各条参考文本的特征，确定该文本片段与各条参考文本的相关度；

根据各条参考文本之间的关系，对该文本片段与各条参考文本的相关度进行融合处理，确定该文本片段与参考文本的相关度。

作为一种可选的实施方式，所述纪要生成单元110还用于：

根据目标文本中的各个文本片段的特征以及参考文本的特征，通过BM25算法计算确定目标文本中的各个文本片段与参考文本的语义相似度；

对目标文本中的各个文本片段与参考文本的相关度，以及目标文本中的各个文本片段与参考文本的语义相似度进行融合处理，得到融合后的目标文本中的各个文本片段与参考文本的相关度。

作为一种可选的实施方式，所述纪要生成单元110还用于：

根据目标文本中的各个文本片段在目标文本中的位置分布，对目标文本中的各个文本片段与参考文本的相关度进行修正。

作为一种可选的实施方式，根据目标文本中的各个文本片段在目标文本中的位置分布，对目标文本中的各个文本片段与参考文本的相关度进行修正，包括：

从目标文本中的各个文本片段中，选出与参考文本的相关度最高的第二数量的文本片段；

按照目标文本中的其它文本片段与选出的第二数量的文本片段的距离越大，则对其它文本片段与参考文本的相关度的惩罚度越高的规则，确定对目标文本中的其它文本片段与参考文本的相关度的惩罚度；

根据对目标文本中的其它文本片段与参考文本的相关度的惩罚度，对目标文本中的其它文本片段与参考文本的相关度进行惩罚。

作为一种可选的实施方式，所述纪要生成单元110还用于：

根据目标文本中的各个文本片段与参考文本的相关度，从目标文本中选出与参考文本的相关度最高的第三数量的文本片段；

根据选出的第三数量的文本片段中的各个文本片段与参考文本的相关度，从所述第三数量的文本片段中，选出与参考文本的相关度大于第一相关度阈值，或者与参考文本的相关度大于第二相关度阈值并且与参考文本的标准化相关度大于第三相关度阈值的文本片段，作为与参考文本相关的文本片段；

作为一种可选的实施方式，根据目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，包括：

确定生成所述目标文本的文本纪要对于所述目标文本中的各个文本片段的注意力系数；

根据生成所述目标文本的文本纪要对于所述目标文本中的各个文本片段的注意力系数，以及所述目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度。

作为一种可选的实施方式，至少根据所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

至少根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征；

根据所述文本纪要解码特征，生成所述目标文本的文本纪要。

作为一种可选的实施方式，至少根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

至少根据所述目标文本的特征、所述参考文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

作为一种可选的实施方式，至少根据所述目标文本的特征、所述参考文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

至少根据所述参考文本的特征，生成参考解码特征；

根据所述参考解码特征、所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

作为一种可选的实施方式，所述纪要生成单元110还用于：

确定所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度；

至少根据所述参考文本的特征，生成参考解码特征，包括：

根据所述参考文本的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征。

作为一种可选的实施方式，根据所述参考文本的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征，包括：

根据所述参考文本的各个文本片段的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征；

根据所述参考解码特征、所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

根据所述参考解码特征、所述目标文本的各个文本片段的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

作为一种可选的实施方式，根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

根据所述目标文本中的各个文本片段的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。

作为一种可选的实施方式，获取目标文本以及参考文本，基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

获取目标文本的特征，以及参考文本的特征；

将目标文本的特征和参考文本的特征输入预先训练的基于注意力机制的文本纪要生成模型，使所述基于注意力机制的文本纪要生成模型基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。

作为一种可选的实施方式，目标文本的特征，通过获取目标文本中的各个文本片段的特征而得到；参考文本的特征，通过获取参考文本的各个文本片段的特征而得到。

作为一种可选的实施方式，获取目标文本中的各个文本片段的特征，包括：

对目标文本进行文本片段划分处理，确定目标文本包含的各个文本片段；

对于目标文本中的各个文本片段，分别进行分词处理，确定各个文本片段包含的各个分词；

分别提取各个文本片段包含的各个分词的融合上下文信息的分词特征；

根据各个文本片段包含的各个分词的融合上下文信息的分词特征，确定各个文本片段的特征。

作为一种可选的实施方式，所述获取目标文本中的各个文本片段的特征，还包括：

对各个文本片段的特征进行融合编码处理，得到各个文本片段的融合上下文信息的文本片段特征。

作为一种可选的实施方式，获取参考文本的各个文本片段的特征，包括：

对参考文本进行分词处理，确定参考文本包含的各个分词；

分别提取参考文本包含的各个分词的融合上下文信息的分词特征。

作为一种可选的实施方式，当参考文本的文本数量大于1时，在对参考文本进行分词处理，确定参考文本包含的各个分词之前，还包括：

根据各条参考文本之间的关系，对各条参考文本进行合并或筛选处理。

作为一种可选的实施方式，还包括：

对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合参考文本特征的目标文本特征，和/或融合目标文本特征的参考文本特征。

作为一种可选的实施方式，对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合目标文本特征的参考文本特征，包括：

将目标文本的篇章特征和/或目标文本的各个文本片段的特征，与参考文本的各个文本片段的特征进行特征融合处理，得到融合目标文本特征的参考文本特征；

其中，目标文本的篇章特征根据目标文本的各个文本片段的特征而确定。

作为一种可选的实施方式，对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合参考文本特征的目标文本特征和融合目标文本特征的参考文本特征，包括：

根据目标文本的各个文本片段的特征，确定目标文本的篇章特征；

将目标文本的篇章特征，与参考文本的各个文本片段的特征进行特征融合处理，得到参考文本的各个文本片段的融合目标文本篇章特征的文本片段特征；

将参考文本的各个文本片段的融合目标文本篇章特征的文本片段特征，与目标文本的各个文本片段的特征进行特征融合处理，得到融合参考文本特征的目标文本特征和融合目标文本特征的参考文本特征。

具体的，上述的文本纪要生成装置的各个实施例中的各个部分的具体工作内容，请参见上述的文本纪要生成方法的各个实施例中的相应处理步骤的具体内容，此处不再重复说明。

本申请另一实施例还提出一种文本纪要生成设备，参见图10所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的文本纪要生成方法。

具体的，上述文本纪要生成设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240 通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种文本纪要生成方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现本申请上述实施例所提供的任意一种文本纪要生成方法的各个步骤。

具体的，上述的文本纪要生成设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的文本纪要生成方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种文本纪要生成方法，其特征在于，包括：

获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；

基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
根据权利要求1所述的方法，其特征在于，基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

基于从所述目标文本中定位与所述参考文本相关的文本片段，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
根据权利要求2所述的方法，其特征在于，基于从所述目标文本中定位与所述参考文本相关的文本片段，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

通过确定目标文本中的各个文本片段与参考文本的相关度，从所述目标文本中定位出与所述参考文本相关的文本片段；

至少基于所述目标文本中的与所述参考文本相关的各个文本片段与所述参考文本的相关度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
根据权利要求3所述的方法，其特征在于，至少基于所述目标文本中的与所述参考文本相关的各个文本片段与所述参考文本的相关度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

根据目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度；

至少根据所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
根据权利要求3所述的方法，其特征在于，确定目标文本中的各个文本片段与参考文本的相关度，包括：

分别获取目标文本的特征以及参考文本的特征；

根据目标文本中的各个文本片段的特征，以及参考文本的特征，分别确定目标文本中的各个文本片段与参考文本的相关度。
根据权利要求5所述的方法，其特征在于，在分别获取目标文本的特征以及参考文本的特征后，所述方法还包括：

对目标文本中的各个文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征。
根据权利要求6所述的方法，其特征在于，对目标文本中的各个文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征，包括：

根据目标文本中的各个文本片段的特征，以及参考文本的特征，计算确定目标文本中的各个文本片段与参考文本的相似度；

根据目标文本中的各个文本片段与参考文本的相似度，从目标文本中选出与参考文本的相似度最高的第一数量的文本片段；

对从目标文本中选出的第一数量的文本片段的特征，以及参考文本的特征，进行基于注意力机制的交互运算，得到信息完善后的参考文本特征。
根据权利要求5所述的方法，其特征在于，当参考文本的文本数量大于1时，根据目标文本中的各个文本片段的特征，以及参考文本的特征，分别确定目标文本中的各个文本片段与参考文本的相关度，包括：

对于目标文本中的各个文本片段，分别通过如下处理确定其与参考文本的相关度：

根据该文本片段的特征，以及各条参考文本的特征，确定该文本片段与各条参考文本的相关度；

根据各条参考文本之间的关系，对该文本片段与各条参考文本的相关度进行融合处理，确定该文本片段与参考文本的相关度。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据目标文本中的各个文本片段的特征以及参考文本的特征，通过BM25 算法计算确定目标文本中的各个文本片段与参考文本的语义相似度；

对目标文本中的各个文本片段与参考文本的相关度，以及目标文本中的各个文本片段与参考文本的语义相似度进行融合处理，得到融合后的目标文本中的各个文本片段与参考文本的相关度。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据目标文本中的各个文本片段在目标文本中的位置分布，对目标文本中的各个文本片段与参考文本的相关度进行修正。
根据权利要求10所述的方法，其特征在于，根据目标文本中的各个文本片段在目标文本中的位置分布，对目标文本中的各个文本片段与参考文本的相关度进行修正，包括：

从目标文本中的各个文本片段中，选出与参考文本的相关度最高的第二数量的文本片段；

按照目标文本中的其它文本片段与选出的第二数量的文本片段的距离越大，则对其它文本片段与参考文本的相关度的惩罚度越高的规则，确定对目标文本中的其它文本片段与参考文本的相关度的惩罚度；

根据对目标文本中的其它文本片段与参考文本的相关度的惩罚度，对目标文本中的其它文本片段与参考文本的相关度进行惩罚。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据目标文本中的各个文本片段与参考文本的相关度，从目标文本中选出与参考文本的相关度最高的第三数量的文本片段；

根据选出的第三数量的文本片段中的各个文本片段与参考文本的相关度，从所述第三数量的文本片段中，选出与参考文本的相关度大于第一相关度阈值，或者与参考文本的相关度大于第二相关度阈值并且与参考文本的标准化相关度大于第三相关度阈值的文本片段，作为与参考文本相关的文本片段；

其中，所述第一相关度阈值大于所述第二相关度阈值，所述第二相关度阈值大于所述第三相关度阈值。
根据权利要求4所述的方法，其特征在于，根据目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，包括：

确定生成所述目标文本的文本纪要对于所述目标文本中的各个文本片段的注意力系数；

根据生成所述目标文本的文本纪要对于所述目标文本中的各个文本片段的注意力系数，以及所述目标文本中的各个文本片段与参考文本的相关度，确定所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度。
根据权利要求4所述的方法，其特征在于，至少根据所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，对所述目标文本的全文内容进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

至少根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征；

根据所述文本纪要解码特征，生成所述目标文本的文本纪要。
根据权利要求14所述的方法，其特征在于，至少根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

至少根据所述目标文本的特征、所述参考文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。
根据权利要求15所述的方法，其特征在于，至少根据所述目标文本的特征、所述参考文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

至少根据所述参考文本的特征，生成参考解码特征；

根据所述参考解码特征、所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。
根据权利要求16所述的方法，其特征在于，所述方法还包括：

确定所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度；

至少根据所述参考文本的特征，生成参考解码特征，包括：

根据所述参考文本的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征。
根据权利要求17所述的方法，其特征在于，根据所述参考文本的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征，包括：

根据所述参考文本的各个文本片段的特征，以及所述参考文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成参考解码特征；

根据所述参考解码特征、所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

根据所述参考解码特征、所述目标文本的各个文本片段的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。
根据权利要求14所述的方法，其特征在于，根据所述目标文本的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征，包括：

根据所述目标文本中的各个文本片段的特征，以及所述目标文本中的各个文本片段对于生成与所述参考文本对应的文本纪要的贡献度，生成文本纪要解码特征。
根据权利要求1所述的方法，其特征在于，获取目标文本以及参考文本，基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要，包括：

获取目标文本的特征，以及参考文本的特征；

将目标文本的特征和参考文本的特征输入预先训练的基于注意力机制的文本纪要生成模型，使所述基于注意力机制的文本纪要生成模型基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
根据权利要求1至20中任意一项所述的方法，其特征在于，目标文本的特征，通过获取目标文本中的各个文本片段的特征而得到；参考文本的特征，通过获取参考文本的各个文本片段的特征而得到。
根据权利要求21所述的方法，其特征在于，获取目标文本中的各个文本片段的特征，包括：

对目标文本进行文本片段划分处理，确定目标文本包含的各个文本片段；

对于目标文本中的各个文本片段，分别进行分词处理，确定各个文本片段包含的各个分词；

分别提取各个文本片段包含的各个分词的融合上下文信息的分词特征；

根据各个文本片段包含的各个分词的融合上下文信息的分词特征，确定各个文本片段的特征。
根据权利要求22所述的方法，其特征在于，还包括：

对各个文本片段的特征进行融合编码处理，得到各个文本片段的融合上下文信息的文本片段特征。
根据权利要求21所述的方法，其特征在于，获取参考文本的各个文本片段的特征，包括：

对参考文本进行分词处理，确定参考文本包含的各个分词；

分别提取参考文本包含的各个分词的融合上下文信息的分词特征。
根据权利要求24所述的方法，其特征在于，当参考文本的文本数量大于1时，在对参考文本进行分词处理，确定参考文本包含的各个分词之前，还包括：

根据各条参考文本之间的关系，对各条参考文本进行合并或筛选处理。
根据权利要求21所述的方法，其特征在于，所述方法还包括：

对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合参考文本特征的目标文本特征，和/或融合目标文本特征的参考文本特征。
根据权利要求26所述的方法，其特征在于，对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合目标文本特征的参考文本特征，包括：

将目标文本的篇章特征和/或目标文本的各个文本片段的特征，与参考文本的各个文本片段的特征进行特征融合处理，得到融合目标文本特征的参考文本特征；

其中，目标文本的篇章特征根据目标文本的各个文本片段的特征而确定。
根据权利要求26所述的方法，其特征在于，对目标文本的各个文本片段的特征以及参考文本的各个文本片段的特征，进行特征融合处理，得到融合参考文本特征的目标文本特征和融合目标文本特征的参考文本特征，包括：

根据目标文本的各个文本片段的特征，确定目标文本的篇章特征；

将目标文本的篇章特征，与参考文本的各个文本片段的特征进行特征融合处理，得到参考文本的各个文本片段的融合目标文本篇章特征的文本片段特征；

将参考文本的各个文本片段的融合目标文本篇章特征的文本片段特征，与目标文本的各个文本片段的特征进行特征融合处理，得到融合参考文本特征的目标文本特征和融合目标文本特征的参考文本特征。
一种文本纪要生成装置，其特征在于，包括：

数据获取单元，用于获取目标文本以及参考文本，其中，所述参考文本基于用户所关注的目标文本内容而确定；

纪要生成单元，用于基于从所述目标文本中定位所述参考文本的关联内容，对所述目标文本进行纪要生成处理，得到与所述参考文本对应的目标文本纪要。
一种文本纪要生成设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至28中任意一项所述的文本纪要生成方法。
一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至28中任意一项所述的文本纪要生成方法。