WO2021203581A1

WO2021203581A1 - 基于精标注文本的关键信息抽取方法、装置及存储介质

Info

Publication number: WO2021203581A1
Application number: PCT/CN2020/103933
Authority: WO
Inventors: 曹辰捷; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-04-10
Filing date: 2020-07-24
Publication date: 2021-10-14
Also published as: CN111177326A; CN111177326B

Abstract

一种基于精标注文本的关键信息抽取方法、装置及存储介质，其中的方法包括：S110、通过BERT预训练模型对文本数据进行预训练获得词向量，将所获得的词向量组合成矩阵式文本数据(S110)；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息(S120)；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出(S130)。本方法解决了对文本段片段进行自动标注的问题，大大降低了标注成本，达到了为下游任务提供了有力支持的技术效果。

Description

基于精标注文本的关键信息抽取方法、装置及存储介质

本申请要求于2020年4月10日提交中国专利局、申请号为202010280586.7，发明名称为“基于精标注文本的关键信息抽取方法、系统、装置及存储介质”的中国发明专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于精标注文本的关键信息抽取方法、系统、装置及存储介质。

背景技术

机器阅读理解，是指让机器通过阅读文本，回答内容相关的问题。目前，将待回答的问题和相关的阅读材料输入到训练完毕的阅读理解模型进行人工智能式阅读理解的应用越来越广泛。

申请人意识到，现有的阅读理解模型是以问题为条件，在文本中标出正确答案，将提前标注好的关键句/段作为模型的输入，但是，关键片段的标注无法兼顾很多领域因而存在片面性，如果采用外包人工标注关键句/段的办法，则会大大增加时间和金钱成本。

为了实现对长文本中可作为答案的片段进行自动标注的目的，业界常见的解决方式为，通过无监督方法或者无监督的方法进行关键片段的标注，但是，仍然存在以下弊端：

1)通过无监督方法进行关键片段的标注，仅可以标注出词语，无法标注出片段；2)有监督方法进行关键片段的标注，提取的内容也是词级别，无法标注出片段。

所以，亟需一种可以标注出片段的关键信息抽取的方法。

发明内容

本申请提供一种基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质，其主要通过BERT预训练模型和关键信息抽取模型解决了对文本段片段进行自动标注的问题。

为实现上述目的，本申请还提供一种基于精标注文本的关键信息抽取方法，应用于电子装置，方法包括：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

为实现上述目的，本申请提供一种基于精标注文本的关键信息抽取系统，包括预训练单元、关键信息获得单元和关键信息输出单元；所述预训练单元，用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；所述关键信息获得单元，用于将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；所述关键信息输出单元，用于按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

为实现上述目的，本申请提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中存储有基于精标注文本的关键信息抽取程序，所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括基于精标注文本的关键信息抽取程序，所述基于精标注文本的关键信息抽取程序被处理器执行时，实现上述的基于精标注文本的关键信息抽取方法的步骤。

本申请提出的基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质，通过将阅读理解模型的输入改变为长文本以及空字符串(即将问题替换为空字符串)，并对阅读理解模型进行训练使其学习到标准答案的特征，从而输出文本中对应的片段作为回答，彻底改变了以往输入文本加问题而输出答案的模式；其有益效果如下：1)、以阅读理解模型为基本思路进行的改进，将以往以词、句、段为单位标注的关键信息，转换为标注一个连续的片段；2)、解决了对文本段片段进行自动标注的问题；3)、大大降低了标注成本，为下游任务提供了有力的支持。

附图说明

图1为本申请基于精标注文本的关键信息抽取方法较佳实施例的流程图；

图2为本申请的关键信息抽取模型获得关键信息方法的较佳实施例的流程图；

图3为本申请的基于精标注文本的关键信息抽取系统的较佳实施例的结构示意图；

图4为本申请的电子装置的较佳实施例的结构示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

阅读理解模型是以问题为条件(或者说输入的是长文本以及问题)，在文本中标出正确答案(输出的是文本中对应的作为回答的片段)；现有的阅读理解模型是将提前标注好的关键句/段作为模型的输入，而人为标注关键片段存在片面性较大的弊端。

本申请利用BERT(Bidirectional Encoder Representation from Transformer，双向注意力神经网络模型)预训练模型对文本数据进行预训练，然后输入关键信息抽取模型，从而输出文本数据中的关键信息作为回答。

具体地说，与传统的阅读理解模型的输入文本加问题，而输出答案的模式不同，本申请的关键信息抽取模型，输入的是文本，而输出的是关键信息；这里的关键信息是作为答案候选的，也就是说，关键信息某种程度上是阅读理解输出的答案的子集。需要说明的是，本申请的基于精标注文本的关键信息抽取方法由于是无监督的，也不需要问题作为输入，因此输出的关键信息覆盖的范围比答案更广。

本申请提供一种基于精标注文本的关键信息抽取方法。图1示出了根据本申请基于精标注文本的关键信息抽取方法较佳实施例的流程。参照图1所示，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

以“2018年的dota2世界邀请赛的冠军是OG战队”为例，若采用传统的阅读理解模型，则输入为：文本--“2018年的dota2世界邀请赛的冠军是OG战队”+问题--“2018年冠军是谁”；输出为：答案--“OG战队”。

而若采取本申请的关键信息抽取模型的话，输入为：“2018年的dota2世界邀请赛的冠军是OG战队”；输出的关键信息为：“2018年，dota2世界邀请赛，OG战队”。

在本实施例中，基于精标注文本的关键信息抽取方法包括：步骤S110-步骤S130。

S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据。

具体地说，BERT(Bidirectional Encoder Representation from Transformer，双向注意力神经网络模型)是一个句子级别的语言模型，不像ELMo模型在与下游具体NLP任务拼接时需要每层加上权重做全局池化，BERT可以直接获得一整个句子的唯一向量表示。它在每个input前面加一个特殊的记号[CLS]，然后让Transformer对[CLS]进行深度encoding，由于Transformer是可以无视空间和距离的把全局信息encoding进每个位置的，而[CLS]的最高隐层作为句子/句对的表示直接跟softmax的输出层连接，因此其作为梯度反向传播路径上的“关卡”，可以学到整个input的上层特征。因此BERT模型可以进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。

需要说明的是，BERT预训练模型获得词向量的过程是先进行分词，再将分词后的文档进行预训练生成训练词向量。也就是说，首先得出所有字符的低维向量表示方法，然后将所述低维向量组合成一个二维向量，即可获得一句话的矩阵表示。

下面以“15岁以下的学生”这句话为例进行详细说明。

首先，“1”、“5”、“岁”、“以”、“下”、“的”、“学”、“生”都可以使用一个向量进行表示，然后将上述向量组合成二维向量，从而获得这句话的矩阵表示。具体地说，就是通过BERT模型可以生成上述8个词分别对应的d维词向量，然后将这八个拼接起来形成一个8*d的矩阵，这个矩阵可以唯一的表示上述文本，即矩阵式文本数据。

总的来说，所述BERT预训练模型通过将所述文本数据的字符进行一维向量表示，将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。

在一个具体实施例中，在步骤S110之前，还包括对所述文本数据进行预处理步骤，所述预处理包括清洗处理。具体地说，这里的清洗指的是垂直数据语料的预处理。如前所述，BERT预训练模型应用在垂直数据上，而这些数据(法律、医药、新闻等)不够整洁，因此需要对它们进行处理以满足模型的输入(清洗是清洗测试数据，而非训练数据)。

清洗：包括分段、去除过短语料、清除有误预料。分段：如前所述，BERT预训练模型需要输入一段文本，然后输出其关键字。需要对输入文本最大长度进行限制，以将所有输入文本标准化为该长度(该参数设置成512，假设某段不足512个token，则用空白将其补全，这样所有的输入都被标准化为同一个长度了)。而显然地，这些垂直数据长度绝大多数都超过512，因此把它按照段落进行分开重新组合，保证每一段的长度都在规定的限制内，且同时尽可能地保留上下文的语义连贯性。去除过短的预料：由于各种可能的原因，极小部分数据可能是空，或者篇幅特别短，这部分数据对于下游工作没有帮助，因此在这步直接将其筛选掉。

S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息。

模型训练过程中留出的样本集，用于调整模型的超参数以及评估模型的能力。是用于评估最终模型的性能，帮助对比多个最终模型并作出选择。用留出的样本对模型能力进行评估的结果偏差更小。将训练样本分为训练集和验证集，模型在训练集上进行拟合，然后使用拟合后的模型对验证集中保留的数据样本进行预测，并定量地计算模型验证误差，通常使用MSE对错误率进行评估，评估生成的验证集错误率即测试错误率。

在一个具体实施例中，利用测试集对训练好的关键信息抽取模型进行测试，获得em值。即将关键信息抽取模型通过测试集进行测试，选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型；

其中，em＝n’/n；

n为标准答案数量，n’为所述关键信息抽取模型所获得的关键信息中包含的标准答案的数量。即若一篇文本有n个标准答案，输入这篇文本后，模型生成的topK个答案组成了一个集合K，假设在n个答案中，有n’个答案存在于集合K中，则em＝n’/n。

需要说明的是，利用CMRC数据集对关键信息抽取模型进行训练。CMRC数据集中的每个文档中均包括多个问答对，将所述问答对中的问题去除；仅剩文档以及答案，将仅剩文档-答案的CMRC作为数据集，训练上述关键信息抽取模型。即，以去除问题的CMRC数据集作为关键信息抽取模型的训练集。

图2示出了根据本申请的关键信息抽取模型获得关键信息方法的较佳实施例的流程图；关键信息抽取模型包括全连接层、sigmoid层和交叉熵优化层。参照图2所示，关键信息抽取模型获得关键信息的方法包括步骤S210-步骤S230：

S210、通过所述关键信息抽取模型的全连接层获得多组关键词，每组关键词均包含关键词起点和关键词终点。

所述全连接层包括起点全连接网络和终点全连接网络；所述起点全连接网络，用于将所述矩阵式文本数据转化为起点向量；所述终点全连接网络，用于将所述矩阵式文本数据转化为终点点向量。

具体地说，对生成的文本的矩阵通过一个表示起点的全连接层(即起点全连接网络)，得到一个长度为l的向量，并将向量命名为start_logits；同理通过一个表示终点的全连接层(即终点全连接网络)，得到另一个命名为end_logits的向量；也就是通过起点全连接网络和终点全连接网络两个全连接网络进行预测关键词的起点和终点。

矩阵式的文本数据为(d*length)通过两个全连接层后，转化为两个(1*length)的一维向量。即，在一个向量中，句子中每个字对应一个值，这个值就是表示其能作为起点的可能性；另外，在另一个向量中，句子中每个字对应一个值，这个值就是表示其能作为终点的可能性。

在一个具体的实施例中，若将关键信息抽取模型表示为LM_Model；

则：X＝LM_Model(P)；

输入P表示为原文文本，并且在文本输入前，在文本的前后添加token进行标记；

P＝[<CLS>，passage，<SEP>]

需要进一步说明的是，token进行标记就是，分词之后，在前面加<CLS>，后面加<SEP>进行标记；可以看作文本首尾的标记。

继续以内容就是“15岁以下的学生”为例：

P＝[<CLS>，passage，<SEP>]表示[“<CLS>”,“1”,“5”,“岁”,“以”,“下”,“的”,“学”,“生”,“。”,“<SEP>”]；其中passage指的是整篇文章。

通过上述公式，得到的X输出，可以看做为长度为p_length，维度为d_im的矩阵；

若通过start_logits和end_logits两个全连接网络来预测关键词的起点和终点，则表示为：

startLogits＝FC_start(X)

endLogits＝FC_end(X)

S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息；

其中，关于关键词的起点和终点，通过步骤S210可以得到s _logits和e _logits两个向量。需要说明的是，通过步骤S210得到了文本数据中的每组关键词的起点值和终点值(即，作为起点和终点的可能性)，例如s和e。即确认了首字符和末字符，从而确定了结果文本。为了控制结果文本的长度，在一定的长度范围(max_answer_legnth＝64)内计算所有组合中，首字符的起点值与末字符的终点值之和即C，然后通过各关键词的C的得分进行排序。

在一个具体的实施例中，若对于在文本中出现的某一个片段c _i，假设起点为s _i,终点为e _i，则判断c _i的得分为s _logits[si]+e _logits[ei]。

S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后，获得关键信息。

在具体的实施过程中，因为所筛选的关键信息是文本数据的一部分，因此包含起点S和终点e，0<s<e≤l；

新建一个作为长度为l的向量，令s＝1,e＝0时，作为start_position；

新建另一个一个作为长度为l的向量，令e＝1,s＝0时，作为end_position；计算start_logits与start_position的稀疏交叉熵start_loss；

以及end_logits与end_position的稀疏交叉熵end_loss，令loss为稀疏交叉熵start_loss和稀疏交叉熵start_loss二者的平均数，对初步关键信息进行优化训练。其中：

Loss_start＝-y*log(sigmoid(start_logits))-(1-y)*log(1-sigmoid(start_logits))

Loss_end＝-y*log(sigmoid(end_logits))-(1-y)*log(1-sigmoid(end_logits))

总之，使用sigmoid作为激活函数时，以及使用交叉熵损失函数cross-entropy对关键信息进行筛选，可使关键信息抽取模型的网络参数能够快速的从错误中学习问题，可较为快速的得出网络结果。

下面通过一个具体的实施例利用公式对关键信息抽取模型的关键信息抽取流程进行说明：

假设d为词嵌入维度，l为文本最大长度，s为该关键信息的起始点，e为该关键信息的终点。

M _c作为该文本的表示，M _c是大小为d*l的矩阵；V _s和V _e分别是两个全连接层中的1*d的向量。

s _logits,s _position,e _logits,e _position分别为长度为l的向量，其中：

s _position[i]＝0，if i≠s，1；且if i＝s(i＝0,1,…,l-1)；

e _position[i]＝0，if i≠e，1；且if i＝e(i＝0,1,…,l-1)；

s _logits＝(v _s*M _c) ^T；e _logits＝(v _e*M _c) ^T；

loss＝(loss _s+loss _e)/2

＝(H(s _logits,s _position)+H(e _logits,e _position))/2

其中H(p,q)为p,q两向量的交叉熵；即，

当p为s _logits,则q为s _position；

当p为e _logits,则q为e _position。

S130、根据预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

之前的网络已经表明，得到了文本中的每个关键词的起点值和终点值(即，作为起点和终点的可能性)。显然地，确认了首字符和末字符，即确定了结果文本。为了控制结果的长度，在一定的长度范围(max_answer_legnth＝64)内计算所有组合中，首字符的起点值与末字符的终点值之和。

然后根据预设排序规则对所获得的每个关键词的首字符的起点值与末字符的终点值之和进行排序；需要说明的是预设的排序规则，在具体实施过程中，是将所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的降序排列。也就是说，因为k值比较小，所以遍历topK结果对应的值，然后对它们进行排序。

在一个具体实施例中，在文本中出现的某一个片段c，假设起点为s,终点为e，则判断c的得分为s _logits[s]+e _logits[e]。在后续步骤中，并通过控制c的最大长度以增加不同的起点-终点对的可能性。

对于所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的降序排列后，将符合设定选取规则的关键信息作为输出。需要说明的是，选取规则在具体的实施过程中，是采用topK方式，也就是说关键词的首字符的起点值与末字符的终点值之和按照从大到小的降序排列后，选择排名前K的关键词作为最终关键词的答案。

在一个具体的实施例中，设定k＝10，则通过选取startlogits和endlogits各top10后，再将期交叉相加，得到大约100组start+end的数值。最后再对其从大到小排序后选择top20作为最终关键词的答案。

总的来说，本申请的关键信息抽取模型训练的目标确实是CMRC数据集的答案，但是却没有利用CMRC数据集里的“问题”这个信息，并且输出的最终结果也不是唯一的答案，而是top20的关键信息，也就是说，在没有问题的基础上，输出所有具有答案潜力的候选答案作为关键信息。

图3示出了本申请的神经网络模型的较佳实施例的结构；参照图3所示，本申请提供一种基于精标注文本的关键信息抽取系统300，包括预训练单元310、关键信息获得单元320和关键信息输出单元330。

所述预训练单元310，用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；所述关键信息获得单元320，用于将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；所述关键信息输出单元330，用于通过按照预设的排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。所述关键信息获得单元320包括多组关键词获取模块321、初步关键信息获取模块322和关键信息获取模块323；所述多组关键词获取模块321，用于通过所述关键信息抽取模型的全连接层获得多组关键词，每组关键词均包含关键词起点和关键词终点；所述初步关键信息获取模块322，用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息；所述关键信息获取模块323，用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后，获得关键信息。

所述关键信息获取单元320还包括关键信息抽取模型测试模块，所述关键信息抽取模型测试模块用于将关键信息抽取模型通过测试集进行测试，选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型；其中，em＝n’/n；n为标准答案数量，n’为所述关键信息抽取模型所获得的关键信息中包含的标准答案的数量。

所述预训练单元310中的所述BERT预训练模型将所述文本数据的字符进行一维向量表示，将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。

在一个具体的实施例中，所述关键信息抽取系统还包括文本数据的清洗单元，所述文本数据的清洗单元，用于对所述文本数据的分段、去除过短语料和去除有误语料。

具体地说，对所述文本数据的分段包括把输入文本按照段落进行分开重新组合，组合后的每一段的长度均小于等于标准化长度。

综上所述，本申请的基于精标注文本的关键信息抽取系统通过BERT预训练模型和关键信息抽取模型，实现了输入文本而输出文本中对应的片段(关键信息)，彻底改变了以往输入文本加问题而输出答案的模式。

本申请提供一种基于精标注文本的关键信息抽取方法，应用于一种电子装置4。

图4示出了根据本申请基于精标注文本的关键信息抽取方法较佳实施例的应用环境。

参照图4所示，在本实施例中，电子装置4可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置4包括：处理器42、存储器41、通信总线43及网络接口44。

存储器41包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器41等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置4的内部存储单元，例如该电子装置4的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置4的外部存储器41，例如所述电子装置4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器41的可读存储介质通常用于存储安装于所述电子装置4的基于精标注文本的关键信息抽取程序40等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

处理器42在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器41中存储的程序代码或处理数据，例如执行基于精标注文本的关键信息抽取程序40等。

通信总线43用于实现这些组件之间的连接通信。

网络接口44可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置4与其他电子设备之间建立通信连接。

图4仅示出了具有组件41-44的电子装置4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置4还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置4还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置4中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置4还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图4所示的装置实施例中，作为一种计算机存储介质的存储器41中可以包括操作系统、以及基于精标注文本的关键信息抽取程序40；处理器42执行存储器41中存储的基于精标注文本的关键信息抽取程序40时实现如下步骤：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

在其他实施例中，基于精标注文本的关键信息抽取程序40还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器41中，并由处理器42执行，以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。基于精标注文本的关键信息抽取程序40可以包括预训练单元310、关键信息获得单元320和关键信息输出单元330。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质可以非易失性的，也可以是易失性，主要包括存储数据区和存储程序区，其中，存储数据区可存储根据区块链节点的使用所创建的数据等，存储程序区可存储操作系统、至少一个功能所需的应用程序，所述计算机可读存储介质中包括基于精标注文本的关键信息抽取程序，所述基于精标注文本的关键信息抽取程序被处理器执行时实现如下操作：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。

本申请之计算机可读存储介质的具体实施方式与上述基于精标注文本的关键信息抽取方法、电子装置的具体实施方式大致相同，在此不再赘述。

总的来说，本申请基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质以阅读理解模型为基本思路进行的改进，将以往以词、句、段为单位标注的关键信息，转换为标注一个连续的片段；解决了对文本段片段进行自动标注的问题；大大降低了标注成本，达到了为下游任务提供有力支持的技术效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于精标注文本的关键信息抽取方法，应用于电子装置，其中，所述方法包括：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。
根据权利要求1所述的基于精标注文本的关键信息抽取方法，其中，在所述步骤S120中，所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括：S210、通过所述关键信息抽取模型的全连接层获得多组关键词，每组关键词均包含关键词起点和关键词终点；S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息；S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后，获得关键信息。
根据权利要求2所述的基于精标注文本的关键信息抽取方法，其中，所述全连接层包括起点全连接网络和终点全连接网络；所述起点全连接网络，用于将所述矩阵式文本数据转化为起点向量；所述终点全连接网络，用于将所述矩阵式文本数据转化为终点向量。
根据权利要求1所述的基于精标注文本的关键信息抽取方法，其中，将关键信息抽取模型通过测试集进行测试，选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型；其中，em＝n’/n；n为标准答案数量，n’为所述关键信息抽取模型所获得的关键信息中包含的标准答案的数量。
根据权利要求1所述的基于精标注文本的关键信息抽取方法，其中，所述BERT预训练模型将所述文本数据的字符进行一维向量表示，将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
根据权利要求1所述的基于精标注文本的关键信息抽取方法，其中，在通过BERT预训练模型对文本数据进行预训练获得词向量之前还包括对所述文本数据的清洗步骤，所述清洗步骤包括对所述文本数据的分段、去除过短语料和去除有误语料。
根据权利要求6所述的基于精标注文本的关键信息抽取方法，其中，对所述文本数据的分段包括把输入文本按照段落进行分开重新组合，组合后的每一段的长度均小于等于标准化长度。
一种基于精标注文本的关键信息抽取系统，其中，包括预训练单元、关键信息获得单元和关键信息输出单元；所述预训练单元，用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；所述关键信息获得单元，用于将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；所述关键信息输出单元，用于按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。
根据权利要求8所述的基于精标注文本的关键信息抽取系统，其中，所述关键信息获得单元包括多组关键词获取模块、初步关键信息获取模块和关键信息获取模块；所述多组关键词获取模块，用于通过所述关键信息抽取模型的全连接层获得多组关键词，每组关键词均包含关键词起点和关键词终点；所述初步关键信息获取模块，用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息；所述关键信息获取模块，用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后，获得关键信息。
根据权利要求8所述的基于精标注文本的关键信息抽取系统，其中，所述全连接层包括起点全连接网络和终点全连接网络；所述起点全连接网络，用于将所述矩阵式文本数据转化为起点向量；所述终点全连接网络，用于将所述矩阵式文本数据转化为终点向量。
根据权利要求8所述的基于精标注文本的关键信息抽取系统，其中，所述关键信息获取单元还包括关键信息抽取模型测试模块，所述关键信息抽取模型测试模块用于将关键信息抽取模型通过测试集进行测试，选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型；

其中，em＝n’/n；

n为标准答案数量，n’为所述关键信息抽取模型所获得的关键信息中包含的标准答案的数量。
根据权利要求8所述的基于精标注文本的关键信息抽取系统，其中，所述预训练单元中的所述BERT预训练模型将所述文本数据的字符进行一维向量表示，将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
根据权利要求8所述的基于精标注文本的关键信息抽取系统，其中，所述关键信息抽取系统还包括文本数据的清洗单元，所述文本数据的清洗单元，用于对所述文本数据的分段、去除过短语料和去除有误语料。
根据权利要求13所述的基于精标注文本的关键信息抽取系统，其中，对所述文本数据的分段包括把输入文本按照段落进行分开重新组合，组合后的每一段的长度均小于等于标准化长度。
一种电子装置，其中，该电子装置包括：存储器、处理器，所述存储器中存储有基于精标注文本的关键信息抽取程序，所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤：S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量，将所获得的词向量组合成矩阵式文本数据；S120、将所述矩阵式文本数据输入关键信息抽取模型，所述关键信息抽取模型利用CMRC数据集进行训练，并根据所述矩阵式文本数据获得关键信息；S130、按照预设排序规则对所获得的关键信息进行排序，并将符合设定选取规则的关键信息作为输出。
根据权利要求15所述的电子装置，其中，在所述步骤S120中，所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括：S210、通过所述关键信息抽取模型的全连接层获得多组关键词，每组关键词均包含关键词起点和关键词终点；S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息；S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后，获得关键信息。
根据权利要求15所述的电子装置，其中，所述全连接层包括起点全连接网络和终点全连接网络；所述起点全连接网络，用于将所述矩阵式文本数据转化为起点向量；所述终点全连接网络，用于将所述矩阵式文本数据转化为终点向量。
根据权利要求15所述的电子装置，其中，将关键信息抽取模型通过测试集进行测试，选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型；其中，em＝n’/n；n为标准答案数量，n’为所述关键信息抽取模型所获得的关键信息中包含的标准答案的数量。
根据权利要求15所述的电子装置，其中，所述BERT预训练模型将所述文本数据的字符进行一维向量表示，将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括基于精标注文本的关键信息抽取程序，所述基于精标注文本的关键信息抽取程序被处理器执行时，实现如权利要求1至7中任一项所述的基于精标注文本的关键信息抽取方法的步骤。