WO2021174864A1

WO2021174864A1 - 基于少量训练样本的信息抽取方法及装置

Info

Publication number: WO2021174864A1
Application number: PCT/CN2020/121886
Authority: WO
Inventors: 谭莹; 黄麟越; 许开河; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-03
Filing date: 2020-10-19
Publication date: 2021-09-10
Also published as: CN111506696A

Abstract

本申请公开了一种基于少量训练样本的信息抽取方法及装置，涉及数据处理技术领域，为解决现有技术中不能得到待提取文本的有效目标文本信息的问题而发明。该方法主要包括：获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；根据所述文本预测模型，抽取待抽取文本的抽取信息。本申请主要应用于信息抽取的过程中。

Description

基于少量训练样本的信息抽取方法及装置

本申请要求于2020年3月3日提交中国专利局、申请号为202010138072.8，发明名称为“基于少量训练样本的信息抽取方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种数据处理技术领域，特别是涉及一种基于少量训练样本的信息抽取方法及装置。

背景技术

信息抽取是将非结构化的文本包含的信息进行结构化处理，输出固定格式的信息点，从而帮助用户对海量内容进行分类、提取和重构。信息抽取的标签通常包括实体、关系、事件，如抽取时间、地点、关键人物等。信息抽取具有重要意义，由于其能从大量文本中抽取出用户感兴趣的信息框架和内容，可用于信息检索、信息整合等，在情感分析、文本挖掘等方面有丰富的应用场景。

发明人意识到，目前是采用获取通用文本提取模型，然后获取少量训练样本，再将训练样本数据通用文本提取模型中进行训练得到通用文本提取模型对训练样本提取得到的训练标准字段，再根据训练标准字段和目标标准字段对通用文本提取模块的参数进行调整，知道满足收敛条件，得到目标文本提取模型，最后将待提取文本输入模板文本提取模型中个，通过目标文本提取模型从待提取文本中得到目标文本信息。

采用上述方法，由于训练样本较少，目标文本信息与训练标注字段可能不一致，导致不能得到待提取文本的有效目标文本信息。

技术问题

有鉴于此，本申请提供一种基于少量训练样本的信息抽取方法及装置，主要目的在于解决现有技术中不能得到待提取文本的有效目标文本信息的问题。

技术解决方案

依据本申请一个方面，提供了一种基于少量训练样本的信息抽取方法，包括：获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；根据所述文本预测模型，抽取待抽取文本的抽取信息。

依据本申请另一个方面，提供了一种基于少量训练样本的信息抽取装置，包括：获取模块，用于获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；提取模块，用于根据BERT语言模型，提取所述训练样本中每个句子的样本特征量；训练模块，用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，生成文本预测模型；抽取模块，用于根据所述文本预测模型，抽取待抽取文本的抽取信息。

根据本申请的又一方面，提供了一种计算机存储介质，所述计算机存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下步骤：获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；根据所述文本预测模型，抽取待抽取文本的抽取信息。

根据本申请的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下步骤：获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；根据所述文本预测模型，抽取待抽取文本的抽取信息。

有益效果

本申请实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量，即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量，使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息，以获取有效的抽取信息。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

图1示出了本申请实施例提供的一种基于少量训练样本的信息抽取方法流程图。

图2示出了本申请实施例提供的另一种基于少量训练样本的信息抽取方法流程图。

图3示出了本申请实施例提供的一种基于少量训练样本的信息抽取装置组成框图。

图4示出了本申请实施例提供的另一种基于少量训练样本的信息抽取装置组成框图。

图5示出了本申请实施例提供的一种计算机设备的结构示意图。

本发明的实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请的技术方案可应用于人工智能、区块链和/或大数据技术领域，可通过预测分析实现获取有效抽取信息。可选的，本申请涉及的数据如训练样本等可存储于数据库中，或者可以存储于区块链中，本申请不做限定。

本申请实施例仅需要做少量的标注，即可快速训练所需的文本预测模型，故可以适用多种类型，如合同文本、简历和保险等类型。本申请实施例提供了一种基于少量训练样本的信息抽取方法，如图1所示，该方法包括以下步骤。

101、获取训练样本。

训练样本是已标注的待抽取关键信息的文本，在本申请实施例中采用少量的训练样本，也可实现对待抽取文本中相似信息的有效抽取。示例性的，需要批量抽取“免租期信息”，则设置“免租期”标签，某训练样本中的“免租期”为2018年1月1日到2018年6月1日，则标注出“2018年1月1日到2018年6月1日”为“免租期”标签，也就是待抽取关键信息。训练样本中包括多篇文档，如标注“免租期”标签的30篇文档。

用户可以通过在线标注工作，对初始文本进行标注，以生成训练样本。用于通过在线标注工具进行标注，随时在线更新和完善标注内容，满足个性化需求，灵活化抽取需求，以保证抽取信息能够适用多种类型文档的信息抽取需求。

训练样本以及标注的待抽取关键信息，共同作为模型训练的基础。在标注过程中，可以根据实际需求设置多个标签，如甲方、乙方、租赁时间、租赁地址和免租期等多个标签，在本申请实施例中对标签的个数不做限定。

102、根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量。

BERT语言模型包括大规模预训练语料，能够弥补训练样本的数量少的问题。BERT语言模型能够作为文本语义特征提取器，以学习中文字词的向量表示。BERT语言模型中的训练语料包括中文wiki、新闻文本、小说等一系列自然语言文本。根据BERT语言模型，提取的训练样本中的每个句子的样本特征向量，是对应句子的向量表示，表示该句子的词语级、句子级和包含上下文的映射结果。

103、根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型。

在训练过程中，将训练样本以及其对应的样本特征向量输入初始模型，经初始模型预测的训练句子与待抽取关键信息所在的句子进行比较，如果两者相同则说明已完成初始模型模型的训练，如果两者不同则说明需要更改初始模型的模型参数继续训练初始模型。当训练结束后，获取初始模型及其模型参数共同构成文本预测模型。

104、根据所述文本预测模型，抽取待抽取文本的抽取信息。

抽取信息与训练样本中的待抽取关键信息的样本特征向量相对应，如果待抽取信息的样本特征向量对应的是“免租期”，那么抽取信息是待抽取文本中与“免租期”相关的文本。

本申请提供了一种基于少量训练样本的信息抽取方法，首先获取训练样本，然后根据BERT语言模型提取训练样本中每个句子的样本特征量，再根据训练样本、待抽取关键信息和样本特征向量，训练文本预测模型，最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比，本申请实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量，即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量，使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息，以获取有效的抽取信息。

本申请实施例提供了另一种基于少量训练样本的信息抽取方法，如图2所示，该方法包括以下步骤。

201、获取训练样本。

训练样本是已标注的待抽取关键信息的文本，在本申请实施例中采用少量的训练样本，也可实现对待抽取文本中相似信息的有效抽取。训练样本以及标注的待抽取关键信息，共同作为模型训练的基础。待抽取关键信息的标签类型包括词句标签和段落标签。如某一类租赁合同文本，用户可根据需要设定甲方、乙方、租赁时间、租赁地址、免租期等多个标签。标签类型包括词句标签和段落标签，词句标签是指标注较短信息的标签，如甲方、乙方，标注段落标签是指标注较长信息的标签，如违约条款。

202、根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量。

BERT语言模型包括大规模预训练语料，能够弥补训练样本的数量少的问题。BERT语言模型能够作为文本语义特征提取器，以学习中文字词的向量表示。在前期，创新性地预训练了大规模训练语料并进行实际语句的文字迁移，作为文本语义特征提取器，突破了当前要求大训练样本的技术瓶颈。BERT语言模型中的训练语料包括中文wiki、新闻文本、小说等一系列自然语言文本。根据BERT语言模型，提取的训练样本中的每个句子的样本特征向量，是对应句子的向量表示，表示该句子的词语级、句子级和包含上下文的映射结果。

其中，“词语级、句子级和包含上下文的映射结果”是指向量表示所涵盖的三种数据特征，在同一向量表示中分别采用三种向量分量标识句子特征。示例性的，样本文本为“在完成首次交易后，甲方张三和乙方李四在上海签署协议”，用户标记“张三、李四”，那么特征向量可能为“【0，甲方，乙方】”，其中0表示标注文本为词语级文本，甲方表示“张三”标记的上下文映射结果即标注文本的上位特征，乙方表示“李四”标记的上下文映射结果即标注文本的上位特征。

203、根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型。

初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型。文本预测模型包括LSI预测模型和CRF预测模型。待抽取关键信息的标签类型包括词句标签和段落标签。两种不同的文本预测模型与待抽取关键信息的标签类型是一一对应的，在此基础上训练初始模型具体包括：判断所述待抽取关键信息的标签类型；如果所述标注标签是词句标签，则确定所述文本预测模型是所述LSI模型；如果所述标注标签是段落标签，则确定所述文本预测模型是所述CRF模型；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到所述CRF预测模型。

所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，包括：采用所述LSI初始模型，计算特征相似度，所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度；查找所述特征相似度中相似度最高的所述训练样本中的训练句子；如果所述训练句子中包含所述待抽取关键信息，则结束训练所述LSI初始模型得到所述LSI预测模型；如果所述训练句子中不包含所述待抽取关键信息，则更新LSI参数，重新计算所述特征相似度。

LSI初始模型用于训练待抽取关键信息词汇的语义，以抽取待抽取文本中与抽取关键信息的语义相关的词汇。LSI初始模型的基本思想是文本中的词语词之间不是孤立的，存在着某种潜在的语义关系，通过对训练样本的统计分析，自动挖掘潜在的语义关系，并把这些关系表示成计算机可以理解的模型，在挖掘语义关系过程中同样可以训练同义和多义想象。在训练LSI初始模型的过程中，需要设置低秩逼近的最小误差、主题数等LSI参数，如果训练句子中不包含待抽取关键信息，则按照预置规则更新LSI参数，再根据更新后的LSI参数重新计算特征相识度。LSI参数更新的预置规则包括将最小误差和主题数按照固定步长增加或减小两种更新趋势，每次更新按照一种更新趋势修改一种LSI参数，然后根据更新LSI参数计算得到的特征相似度，如果特征相似度增加，则说明该LSI参数的更新趋势有利于训练LSI初始模型过程的收敛，如果还需要更新LSI参数，则按照该更新趋势继续再次更新LSI参数。在本申请实施例中通过BERT语言模型获取的样本特征向量，以克服训练样本较少的问题。

所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述CRF初始模型得到CRF预测模型，包括：将所述训练样本中的各个分句对应的样本特征向量进行拼接；以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入，训练所述CRF初始模型得到CRF预测模型。训练CRF初始模型，也就是训练CRF初始模型的的模型参数参数，以得到CRF预测模型。将训练样本中的各个分句进行序列标注，在训练过程中通过序列标注区分各个分句的样本特征向量。在将训练样本中的各个分局对应的样本特征向量进行拼接后，拼接结果中也携带序列标注。下载编程软件中的CRF工具包，以训练CRF初始模型。

如果所述标签类型包括所述词句标签和所述段落标签，则根据所述训练样本、所述待抽取关键信息和所述样本特征向量，并行训练所述LSI初始模型和CRF初始模型。按照标注标签的类型，将LSI初始模型和CRF初始模型并行训练，根据训练LSI初始模型和训练CRF初始模型的具体方法，采用并行方式，同时启动两种训练方法，从而大大降低待训练的模型参数量级，保证在10-20量级的标注数据上也可以实现90%的准确率，以实现少样本、高精度、速度快的训练效果。

204、根据所述文本预测模型，抽取待抽取文本的抽取信息。

由于文本预测模型中包括LSI预测模型和CRF预测模型，所以在抽取待抽取文本的抽取信息时，也采用两种模型分别进行抽取信息的抽取，具体包括：采用所述LSI预测模型，抽取所述待抽取文本的LSI信息；采用所述CRF预测模型，抽取所述待抽取文本的CRF信息；合并所述LSI信息和所述CRF信息，生成所述抽取信息。根据标注类型采用不同的算法模型，能够保证最高精准度，同时便于用户进行标签管理。

205、以表格形式展示所述抽取信息。

抽取信息以表格形式展示，直观清晰，以便于用户查看。

进一步的，作为对上述图1所示方法的实现，本申请实施例提供了一种基于少量训练样本的信息抽取装置，如图3所示，该装置包括：获取模块31，用于获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；提取模块32，用于根据BERT语言模型，提取所述训练样本中每个句子的样本特征量；训练模块33，用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；抽取模块34，用于根据所述文本预测模型，抽取待抽取文本的抽取信息。

本申请提供了一种基于少量训练样本的信息抽取装置，首先获取训练样本，然后根据BERT语言模型提取训练样本中每个句子的样本特征量，再根据训练样本、待抽取关键信息和样本特征向量，训练文本预测模型，最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比，本申请实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量，即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量，使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息，以获取有效的抽取信息。

进一步的，作为对上述图2所示方法的实现，本申请实施例提供了另一种基于少量训练样本的信息抽取装置，如图4所示，该装置包括：获取模块41，用于获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；提取模块42，用于根据BERT语言模型，提取所述训练样本中每个句子的样本特征量；训练模块43，用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；抽取模块44，用于根据所述文本预测模型，抽取待抽取文本的抽取信息。

进一步地，所述待抽取关键信息的标签类型包括词句标签和段落标签；所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型，所述文本预测模型包括LSI预测模型和CRF预测模型。

所述训练模块43，包括：判断单元431，用于判断所述待抽取关键信息的标签类型；确定单元432，用于如果所述标注标签是词句标签，则确定所述文本预测模型是所述LSI模型；确定单元432，用于如果所述标注标签是段落标签，则确定所述文本预测模型是所述CRF模型；训练单元433，用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到CRF预测模型。

进一步地，所述训练单元433，包括：计算子单元4331，用于采用所述LSI初始模型，计算特征相似度，所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度；查找子单元4332，用于查找所述特征相似度中相似度最高的所述训练样本中的训练句子；结束子单元4333，用于如果所述训练句子中包含所述待抽取关键信息，则结束训练所述LSI初始模型得到所述LSI预测模型；更新子单元4334，用于如果所述训练句子不包含所述待抽取关键信息，则更新LSI参数，重新计算所述特征相似度。

进一步地，所述训练单元423，包括：拼接子单元4335，用于将所述训练样本中的各个分句对应的样本特征向量进行拼接；训练子单元4336，用于以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入，训练所述CRF初始模型得到所述CRF预测模型。

进一步地，所述训练单元423，用于：如果所述标签类型包括所述词句标签和所述段落标签，则根据所述训练样本、所述待抽取关键信息和所述样本特征向量，并行训练所述LSI初始模型和CRF初始模型。

进一步地，所述抽取模块44，包括：抽取单元441，用于采用所述LSI预测模型，抽取所述待抽取文本的LSI信息；所述抽取单元441，还用于采用所述CRF预测模型，抽取所述待抽取文本的CRF信息；合并单元442，用于合并所述LSI信息和所述CRF信息，生成所述抽取信息。

进一步地，所述装置还包括：展示模块45，用于所述根据所述文本预测模型，抽取待抽取文本的抽取信息之后，以表格形式展示所述抽取信息。

根据本申请一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该可执行指令可使处理器执行上述任意方法实施例中的基于少量训练样本的信息抽取方法。

可选的，本申请涉及的存储介质可以是计算机（可读）存储介质，该存储介质如计算机存储介质可以是非易失性的，也可以是易失性的。

图5示出了根据本申请一个实施例提供的一种计算机设备的结构示意图，本申请具体实施例并不对计算机设备的具体实现做限定。

如图5所示，该计算机设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述基于少量训练样本的信息抽取方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；根据所述文本预测模型，抽取待抽取文本的抽取信息。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种基于少量训练样本的信息抽取方法，其中，包括：

获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；

根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；

根据所述文本预测模型，抽取待抽取文本的抽取信息。
如权利要求1所述的方法，其中，所述待抽取关键信息的标签类型包括词句标签和段落标签；所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型；所述文本预测模块包括LSI预测模型和CRF预测模型；

所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型，包括：

判断所述待抽取关键信息的标签类型；

如果所述标注标签是词句标签，则确定所述文本预测模型是所述LSI模型；

如果所述标注标签是段落标签，则确定所述文本预测模型是所述CRF模型；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到所述CRF预测模型。
如权利要求2所述的方法，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，包括：

采用所述LSI初始模型，计算特征相似度，所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度；

查找所述特征相似度中相似度最高的所述训练样本中的训练句子；

如果所述训练句子中包含所述待抽取关键信息，则结束训练所述LSI初始模型得到所述LSI预测模型；

如果所述训练句子中不包含所述待抽取关键信息，则更新LSI参数，重新计算所述特征相似度。
如权利要求2所述的方法，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述CRF初始模型得到所述CRF预测模型，包括：

将所述训练样本中的各个分句对应的样本特征向量进行拼接；

以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入，训练所述CRF初始模型得到所述CRF预测模型。
如权利要2所述的方法，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到所述CRF预测模型，包括：

如果所述标签类型包括所述词句标签和所述段落标签，则根据所述训练样本、所述待抽取关键信息和所述样本特征向量，并行训练所述LSI初始模型和CRF初始模型。
如权利要求2所述的方法，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息，包括：

采用所述LSI预测模型，抽取所述待抽取文本的LSI信息；

采用所述CRF预测模型，抽取所述待抽取文本的CRF信息；

合并所述LSI信息和所述CRF信息，生成所述抽取信息。
如权利要求1-6任一项所述的方法，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息之后，所述方法还包括：

以表格形式展示所述抽取信息。
一种基于少量训练样本的信息抽取装置，其中，包括：

获取模块，用于获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；

提取模块，用于根据BERT语言模型，提取所述训练样本中每个句子的样本特征量；

训练模块，用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；

抽取模块，用于根据所述文本预测模型，抽取待抽取文本的抽取信息。
一种计算机存储介质，其中，所述计算机存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下步骤：

获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；

根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；

根据所述文本预测模型，抽取待抽取文本的抽取信息。
如权利要求9所述的计算机存储介质，其中，所述待抽取关键信息的标签类型包括词句标签和段落标签；所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型；所述文本预测模块包括LSI预测模型和CRF预测模型；

所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型时，具体执行：

判断所述待抽取关键信息的标签类型；

如果所述标注标签是词句标签，则确定所述文本预测模型是所述LSI模型；

如果所述标注标签是段落标签，则确定所述文本预测模型是所述CRF模型；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到所述CRF预测模型。
如权利要求10所述的计算机存储介质，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型时，具体执行：

采用所述LSI初始模型，计算特征相似度，所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度；

查找所述特征相似度中相似度最高的所述训练样本中的训练句子；

如果所述训练句子中包含所述待抽取关键信息，则结束训练所述LSI初始模型得到所述LSI预测模型；

如果所述训练句子中不包含所述待抽取关键信息，则更新LSI参数，重新计算所述特征相似度。
如权利要求10所述的计算机存储介质，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述CRF初始模型得到所述CRF预测模型时，具体执行：

将所述训练样本中的各个分句对应的样本特征向量进行拼接；

以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入，训练所述CRF初始模型得到所述CRF预测模型。
如权利要求10所述的计算机存储介质，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息时，具体执行：

采用所述LSI预测模型，抽取所述待抽取文本的LSI信息；

采用所述CRF预测模型，抽取所述待抽取文本的CRF信息；

合并所述LSI信息和所述CRF信息，生成所述抽取信息。
如权利要求9-13任一项所述的计算机存储介质，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息之后，所述可执行指令还用于使处理器执行以下步骤：

以表格形式展示所述抽取信息。
一种计算机设备，其中，包括：处理器、存储器、通信接口和通信总线、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下步骤：

获取训练样本，所述训练样本是已标注的待抽取关键信息的文本；

根据BERT语言模型，提取所述训练样本中每个句子的样本特征向量；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型；

根据所述文本预测模型，抽取待抽取文本的抽取信息。
如权利要求15所述的计算机设备，其中，所述待抽取关键信息的标签类型包括词句标签和段落标签；所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型；所述文本预测模块包括LSI预测模型和CRF预测模型；

所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练初始模型，得到文本预测模型时，具体执行：

判断所述待抽取关键信息的标签类型；

如果所述标注标签是词句标签，则确定所述文本预测模型是所述LSI模型；

如果所述标注标签是段落标签，则确定所述文本预测模型是所述CRF模型；

根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型，和/或训练所述CRF初始模型得到所述CRF预测模型。
如权利要求16所述的计算机设备，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述LSI初始模型得到所述LSI预测模型时，具体执行：

采用所述LSI初始模型，计算特征相似度，所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度；

查找所述特征相似度中相似度最高的所述训练样本中的训练句子；

如果所述训练句子中包含所述待抽取关键信息，则结束训练所述LSI初始模型得到所述LSI预测模型；

如果所述训练句子中不包含所述待抽取关键信息，则更新LSI参数，重新计算所述特征相似度。
如权利要求16所述的计算机设备，其中，所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量，训练所述CRF初始模型得到所述CRF预测模型时，具体执行：

将所述训练样本中的各个分句对应的样本特征向量进行拼接；

以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入，训练所述CRF初始模型得到所述CRF预测模型。
如权利要求16所述的计算机设备，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息时，具体执行：

采用所述LSI预测模型，抽取所述待抽取文本的LSI信息；

采用所述CRF预测模型，抽取所述待抽取文本的CRF信息；

合并所述LSI信息和所述CRF信息，生成所述抽取信息。
如权利要求15-19任一项所述的计算机设备，其中，所述根据所述文本预测模型，抽取待抽取文本的抽取信息之后，所述可执行指令还用于使所述处理器执行以下步骤：

以表格形式展示所述抽取信息。