WO2020119075A1

WO2020119075A1 - 通用文本信息提取方法、装置、计算机设备和存储介质

Info

Publication number: WO2020119075A1
Application number: PCT/CN2019/093158
Authority: WO
Inventors: 郑子欧; 刘媛源; 张翔; 于修铭; 汪伟; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-12-10
Filing date: 2019-06-27
Publication date: 2020-06-18
Also published as: CN109766540A; CN109766540B

Abstract

一种通用文本信息提取方法，包括：将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则；根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列；获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本；获取标注文本中的目标句法特征和目标语义特征；将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果；根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

Description

通用文本信息提取方法、装置、计算机设备和存储介质

本申请要求于2018年12月10日提交中国专利局，申请号为2018115043864，申请名称为“通用文本信息提取方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种通用文本信息提取方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术领域和信息时代的高速发展，人们每天需要面对海量的信息，其中文本信息几乎每天都需接触。在面对海量文本信息的同时，人们常常需要花费大量的时间进行查找以及提取。

然而，发明人意识到，传统的对于不同类型文本信息的提取需要针对所提取文本所在领域进行建模，并且在建模前需要提前定义所需提取的字段，并获得大量相关标注数据集进行建模，在仅需少量样本的情况下无法实现对各种类型的文本信息进行提取。

发明内容

根据本申请公开的各种实施例，提供一种通用文本信息提取方法、装置、计算机设备和存储介质。一种通用文本信息提取方法，包括：

获取模型训练样本和待处理文本；

将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

获取所述标注文本中的目标句法特征和目标语义特征；

将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。

一种通用文本信息提取装置，包括：

信息获取模块，用于获取模型训练样本和待处理文本；

规则获取模块，用于将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

文本标注模块，用于根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

文本确定模块，用于获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

特征获取模块，用于获取所述标注文本中的目标句法特征和目标语义特征；

句法语义分析模块，用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

目标信息提取模块，用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取模型训练样本和待处理文本；

获取所述标注文本中的目标句法特征和目标语义特征；

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取模型训练样本和待处理文本；

获取所述标注文本中的目标句法特征和目标语义特征；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。·

图1为根据一个或多个实施例中通用文本信息提取方法的应用环境图；

图2为根据一个或多个实施例中通用文本信息提取方法的方法流程图；

图3为根据一个或多个实施例中通用文本信息提取方法中获取标注序列的方法流程图；

图4为根据一个或多个实施例中通用文本信息提取方法中获取目标特征的方法流程图；

图5为根据一个或多个实施例中通用文本信息提取方法装置的结构示意图；

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例中所提供的通用文本信息提取方法可以应用于如图1所示的应用环境中，服务器120获取模型训练样本和待处理文本，模型训练样本和待处理文本可为终端110输入或上传的文本，服务器120将模型训练样本输入标注模型进行标注，能够得到与模型训练样本对应的标注规则，然后服务器120根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列，服务器120再获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本，通过服务器120获取标注文本中的目标句法特征和目标语义特征，再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果，服务器120根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

下述实施方式以通用文本信息提取方法应用于图1的服务器102为例进行说明，但需要说明的是，实际应用中该方法并不仅限应用于上述服务器。

如图2所示，为一个实施例中的通用文本信息提取方法的流程图，该方法具体包括以下步骤：

步骤202，获取模型训练样本和待处理文本。

模型训练样本是用于获取标注规则以及建立基础标注模型的样本，模型训练样本的数量少于预设阈值。在其中一个实施例中，模型训练样本可为3至5篇。待处理文本是与模型训练样本同类型的样本，目标提取信息存在于待处理文本中。具体地，训练样本和待处理文本可为各个领域的文本信息，例如各种类型的合同、简历、网页源文本信息等，模型训练样本和待处理文本可以是终端用户输入的样本，例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本，也可以是在线获取的样本。

步骤204，将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则。

标注规则用于对待处理文本进行迁移学习，例如，当待处理文本为重大合同这一类型文本时，用户提供样本，针对所需字段(比如甲方)作为一个任务进行信息提取，在线对其中的少量样本(比如5篇)进行标注，学习建模后，能对用户提供的其他合同样本提取相同字段(比如甲方)的信息。已训练好的标注模型所采用的标注方法为序列标注，将文本信息抽取问题转化为序列标注问题，将文本中无关的文字都标为O，正确的标注第一个字符标为B-target，其他标为I-target。假设有如下句子：今年海钓比赛在厦门市与金门之间的海域举行。那么对这句话进行序列标注之后的得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”这段标注采用的是BIEO标注方式，即Begin,Intermediate,End,Other，针对不同的标注任务标注方式也各不相同。将文本中无关的文字都标为O，正确的标注第一个字符标为B-target，其他标为I-target。

步骤206，根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列。

基础标注模型中包括对模型训练样本进行标注所采用的标注规则。将待处理文本输入基础标注模型进行标注的过程即为迁移学习的过程，进一步学习模型训练样本进行标注时采用的规则，即将标注规则运用到对待处理文本进行标注，能够提高标注过程的效率且得到的标注序列更加准确。

步骤208，获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本。

标注文本是与标注序列所对应的，存在于待处理文本中的字段信息。序列消解规则为指代消解规则，通过对待处理文本进行标注得到标注序列，再利用标注序列进一步定位各个标注文本。例如，当得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”时，通过标注序列获取与人名、地名、组织名以及其他信息对应的标注文本，即获得标注文本“今年海钓比赛在厦门市与金门之间的海域举行。”具体地，确定与待处理文本对应的标注文本是利用指代消解找到合同公告中的指代词的实际对象，指代消解为在篇章中确定代词指向哪个名词短语的问题，指代词即可理解为存在于标注序列中的信息，实际对象为标注文本。

步骤210，获取标注文本中的目标句法特征和目标语义特征。

目标句法特征和目标语义特征是存在于待处理文本中的特征信息，用于输入已训练的句法语义分析模型进行句法分析和语义分析。

步骤212，将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果。

已训练的句法语义分析模型包括句法特征分析和浅层语义特征分析。句法特征分析是对输入的文本句子进行分析以得到句子的句法结构的处理过程。句法分析可以分为以下三种：(1)短语结构句法分析，作用是识别出句子中的短语结构以及短语之间的层次句法关系；(2)依存句法分析,作用是识别句子中词汇与词汇之间的相互依存关系；(3)深层文法句法分析，对句子进行深层的句法以及语义分析。浅层语义特征分析指运用各种机器学习方法，学习与理解段文本所表示的语义内容。一段文本通常由词、句子和段落来构成，根据理解对象的语言单位不同，语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。一般来说，词汇级语义分析关注的是如何获取或区别单词的语义，句子级语义分析则试图分析整个句子所表达的语义，而篇章语义分析研究文本的内在结构并理解文本单元(可以是句子从句或段落)间的语义关系。通过将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，能够得到与标注文本对应的句法语义分析结果。

步骤214，根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

目标提取信息是存在于待处理文本中的字段信息，例如需要提取合同这一文本类型信息时，目标提取信息可以为“甲方”这一字段。通过利用模型训练样本建立基础标注模型，将待处理文本输入基础标注模型中得到标注文本，再对标注文本进行句法语义分析能够准确的提取目标提取信息。

本实施例中，通过获取模型训练样本和待处理文本，再将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则，标注规则能够对待处理文本进行迁移标注，再根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列，能够为后续句法语义分析提供前提条件，再获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本，然后获取标注文本中的目标句法特征和目标语义特征，利用目标句法特征和目标语义特征能够在仅需少量样本的标注下实现对不同类型文本的提取，再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果，能够生成与标注文本对应的准确的句法分析和语义分析，最后根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息，能够实现在仅需少量样本的情况下提取各种类型的文本信息。

在其中一个实施例中，如图3所示，该方法还包括以下步骤：

步骤302，将待处理文本输入已训练的分词模型进行分词，得到分词结果。

和大部分西方语言不同，汉语书面词语之间没有明显的空格标记，文本中的句子以字串的形式出现。因此需要将输入的字串切分为单独的词语，然后在此基础进行其他更高级的分析，这一过程就是分词。将待处理文本输入已训练的分词模型进行分词后，能在后续更精确的对待处理文本进行标注。

步骤304，获取与待处理文本对应的分词错误消解规则。

分词错误消解规则用于消解分词过程中所出现的错误。分词错误消解规则包括分词歧义消解、新词识别和错误字(以及谐音字)规范化，分词歧义消解是指在一个句子中，一个字串可以有不同的切分方法。例如，“乒乓球拍/卖完了”，可以切分为“乒乓/球拍/卖/完/了”，也可以切分为“乒乓球/拍卖/完/了”，新词识别指未在训练数据中出现过的词，包括人们新创的词以及旧词新意，错别字/谐音字规范化，输入的句子中不可避免会存在一些错别字或者刻意的谐音词(如“香菇”->“想哭”；“蓝瘦”->“难受”；“蓝菇”->“难过”等等)。经过分词错误消解规则得到目标分词信息，再将目标分词信息进行标注，能够更好的对文本信息进行标注，以达到更准确抽取文本信息的目的。

步骤306，根据分词错误消解规则筛选分词结果，得到目标分词信息。

由于在分词错误消解过程中会出现多种分词结果，例如“乒乓球拍/卖完了”、“乒乓/球拍/卖/完/了”、“乒乓球/拍卖/完/了”。通过分词错误消解规则对分词结果进行筛选，得到目标分词信息，例如通过分词错误消解规则对上述分词结果进行筛选，可得到目标分词信息：乒乓/球拍/卖/完/了。

步骤308，将目标分词信息输入基础标注模型进行标注，得到标注序列。

将筛选得到的目标分词信息输入基础标注模型进行标注，能够得到更为准确的标注序列，在后续进行目标提取信息的提取时将更加精确。

本实施例中，通过将待处理文本输入已训练的分词模型进行分词，得到分词结果，再利用分词错误消解规则筛选分词结果，能够得到目标分词信息，将经过分词过程的待处理文本即目标分词信息输入基础标注模型进行标注，能够得到更为准确的标注序列，提高信息提取的效率和准确率。

在其中一个实施例中，该方法还包括：显示目标提取信息，获取与目标提取信息对应的信息更新结果；将信息更新结果输入句法语义分析模型进行分析，得到更新后的句法语义分析结果；根据更新后的句法语义分析结果更新句法分析规则和语义分析规则；将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。

信息更新结果是在将目标提取信息显示至终端时，终端对于目标提取信息进行的修改、增加和删除等操作后得到的文本信息。将修改、增加和删除后的文本信息输入句法语义分析模型进行分析，得到更新后的句法语义分析结果，通过更新后的句法语义分析结果更新句法分析规则和语义分析规则，并将更新后的句法分析规则和语义分析规则存储至句法语义分析模型，能够实现在线学习的过程，通过终端的主动修正进一步更新句法语义分析模型，以用于提高在通用文本信息抽取时的准确率。

在其中一个实施例中，如图4所示，该方法还包括以下步骤：

步骤402，获取标注文本中的句法特征和语义特征。

句法特征包括短语结构：动词短语、名词短语。句法特征还包括句法依存：主谓宾等句子成分。语义特征包括词汇级语义、句子级语义以及篇章级语义等。

步骤404，将句法特征和语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征。

已训练的特征细化模型是用于提取句法特征和语义特征中更为小类的特征。细化句法特征为句法特征中更为小类的特征，细化语义特征为语义特征中更为小类的特征。

步骤406，将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果。

决策树模型用于获得特征的重要性排序，决策树模型是一种十分常用的分类方法。决策树模型为一种监管学习，监管学习是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类，具体地，重要性排序通过重要性阈值进行排序，当重要性大于预设的重要性阈值时，筛选细化文本句法特征和细化文本语义特征得到特征排序结果。

步骤408，根据特征排序结果确定目标句法特征和目标语义特征。

通过特征排序结果进一步确定目标句法特征和目标语义特征，利用目标句法特征和目标语义特征对标注文本进行分析能够在提取文本信息时，更加准确。

本实施例中，通过获取标注文本中的句法特征和语义特征，再将句法特征和语义特征输入已训练的特征细化模型进行特征细化，能够得到细化句法特征和细化语义特征，再进一步将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到了特征排序结果，最后根据特征排序结果能够确定目标句法特征和目标语义特征，利用句法以及语义分析能够提取各个不同类型的文本信息。

在其中一个实施例中，该方法还包括：将模型训练样本切分为训练样本、验证样本和测试样本；将训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；将目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；将目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；根据目标测试样本更新基础标注模型。

模型训练样本中可切分为训练样本、验证样本和测试样本，当训练集:验证集:测试集＝6:2:2->所有样本，训练、验证、测试集之间样本及样本中的文本类型不重合。可以理解的是，训练集是用于训练基础标注模型，后续结合验证集作用，会选出同一参数的不同取值。将训练样本输入训练集进行训练，就能够得到目标训练样本。验证集是当通过训练集训练出多个模型后，为了能找出效果最佳的基础标注模型，使用各个基础标注模型对验证集数据进行预测，并记录模型准确率，选出效果最佳的基础标注模型所对应的参数，即用来调整模型参数，即将目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本。测试集是通过训练集和验证集得出最优基础标注模型后，使用测试集进行模型预测，用来衡量该最优基础标注模型的性能和分类能力，即可以把测试集当作从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价，利用测试集测试后得到的目标测试样本更新基础标注模型。

本实施例中，通过将模型训练样本切分为训练样本、验证样本和测试样本，再将训练样本输入与基础标注模型对应的训练集进行训练，能够得到目标训练样本，然后将目标训练样本输入与基础标注模型对应的验证集进行验证，进一步得到目标验证样本，最后将目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本，再根据目标测试样本更新基础标注模型，能够对基础标注模型进行更新，有利于提取各个不同类型的文本信息。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图5所示，为一实施例中的通用文本信息提取装置的示意图，该装置包括：

信息获取模块502，用于获取模型训练样本和待处理文本；

规则获取模块504，用于将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则；

文本标注模块506，用于根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列；

文本确定模块508，用于获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本；

特征获取模块510，用于获取标注文本中的目标句法特征和目标语义特征；

句法语义分析模块512，用于将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果；

目标信息提取模块514，用于根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

在其中一个实施例中，文本标注模块包括：文本分词模块，用于将待处理文本输入已训练的分词模型进行分词，得到分词结果；文本消解模块，用于获取与待处理文本对应的分词错误消解规则；目标分词获取模块，用于根据分词错误消解规则筛选分词结果，得到目标分词信息；序列获取模块，用于将目标分词信息输入基础标注模型进行标注，得到标注序列。

在其中一个实施例中，目标信息提取模块包括：信息更新模块，用于显示目标提取信息，获取与目标提取信息对应的信息更新结果；信息分析模块，用于将信息更新结果输入句法语义分析模型进行分析，得到更新后的句法语义分析结果；规则更新模块，用于根据更新后的句法语义分析结果更新句法分析规则和语义分析规则；规则存储模块，用于将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。

在其中一个实施例中，目标句法特征和目标语义特征确定模块用于获取标注文本中的句法特征和语义特征；将句法特征和语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；根据特征排序结果确定目标句法特征和目标语义特征。

在其中一个实施例中，基础标注模型更新模块用于将模型训练样本切分为训练样本、验证样本和测试样本；将训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；将目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；将目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；根据目标测试样本更新基础标注模型。

关于通用文本信息提取装置的具体限定可以参见上文中对于通用文本信息提取方法的限定，在此不再赘述。上述通用文本信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述通用文本信息提取装置可以实现为一种计算机可读指令的形式。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端。当该计算机设备为终端时，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种通用文本信息提取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取模型训练样本和待处理文本；将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则；根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列；获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本；获取标注文本中的目标句法特征和目标语义特征；将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果；及根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

在其中一个实施例中，处理器执行计算机可读指令时还可以实现以下步骤：将待处理文本输入已训练的分词模型进行分词，得到分词结果；获取与待处理文本对应的分词错误消解规则；根据分词错误消解规则筛选分词结果，得到目标分词信息；及将目标分词信息输入基础标注模型进行标注，得到标注序列。

在其中一个实施例中，处理器执行计算机可读指令时还可以实现以下步骤：显示目标提取信息，获取与目标提取信息对应的信息更新结果；将信息更新结果输入句法语义分析模型进行分析，得到更新后的句法语义分析结果；根据更新后的句法语义分析结果更新句法分析规则和语义分析规则；及将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。

在其中一个实施例中，处理器执行计算机可读指令时还可以实现以下步骤：获取标注文本中的句法特征和语义特征；将句法特征和语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及根据特征排序结果确定目标句法特征和目标语义特征。

在其中一个实施例中，处理器执行计算机可读指令时还可以实现以下步骤：将模型训练样本切分为训练样本、验证样本和测试样本；将训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；将目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；将目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及根据目标测试样本更新基础标注模型。

上述对于计算机设备的限定可以参见上文中对于通用文本信息提取方法的具体限定，在此不再赘述。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取模型训练样本和待处理文本；将模型训练样本输入标注模型进行标注，得到与模型训练样本对应的标注规则；根据标注规则建立基础标注模型，将待处理文本输入基础标注模型进行标注，得到标注序列；获取与标注序列对应的序列消解规则，根据序列消解规则确定与标注序列对应的标注文本；获取标注文本中的目标句法特征和目标语义特征；将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析，得到与标注文本对应的句法语义分析结果；及根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

在其中一个实施例中，该计算机可读指令被处理器执行时还可以实现以下步骤：将待处理文本输入已训练的分词模型进行分词，得到分词结果；获取与待处理文本对应的分词错误消解规则；根据分词错误消解规则筛选分词结果，得到目标分词信息；及将目标分词信息输入基础标注模型进行标注，得到标注序列。

在其中一个实施例中，该计算机可读指令被处理器执行时还可以实现以下步骤：显示目标提取信息，获取与目标提取信息对应的信息更新结果；将信息更新结果输入句法语义分析模型进行分析，得到更新后的句法语义分析结果；根据更新后的句法语义分析结果更新句法分析规则和语义分析规则；及将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。

在其中一个实施例中，该计算机可读指令被处理器执行时还可以实现以下步骤：获取标注文本中的句法特征和语义特征；将句法特征和语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及根据特征排序结果确定目标句法特征和目标语义特征。

在其中一个实施例中，该计算机可读指令被处理器执行时还可以实现以下步骤：将模型训练样本切分为训练样本、验证样本和测试样本；将训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；将目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；将目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及根据目标测试样本更新基础标注模型。

上述对于非易失性计算机可读存储介质的限定可以参见上文中对于通用文本信息提取方法的具体限定，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种通用文本信息提取方法，包括：

获取模型训练样本和待处理文本；

将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

获取所述标注文本中的目标句法特征和目标语义特征；

将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
根据权利要求1所述的方法，其特征在于，所述根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列包括：

将所述待处理文本输入已训练的分词模型进行分词，得到分词结果；

获取与所述待处理文本对应的分词错误消解规则；

根据所述分词错误消解规则筛选所述分词结果，得到目标分词信息；及

将所述目标分词信息输入所述基础标注模型进行标注，得到所述标注序列。
根据权利要求1所述的方法，所述句法语义分析模型包括句法分析规则和语义分析规则，其特征在于，在根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息之后，所述方法还包括：

显示所述目标提取信息，获取与所述目标提取信息对应的信息更新结果；

将所述信息更新结果输入所述句法语义分析模型进行分析，得到更新后的句法语义分析结果；

根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则；及

将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
根据权利要求1所述的方法，其特征在于，所述获取所述标注文本中的目标句法特征和目标语义特征包括：

获取所述标注文本中的句法特征和语义特征；

将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；

将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及

根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
根据权利要求4所述的方法，其特征在于，所述句法特征包括短语结构和句法依存；所述语义特征包括词汇级语义、句子级语义以及篇章级语义。
根据权利要求1所述的方法，其特征在于，所述将所述模型训练样本输入标注模型进行标注包括：

将所述模型训练样本切分为训练样本、验证样本和测试样本；

将所述训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；

将所述目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；

将所述目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及

根据所述目标测试样本更新所述基础标注模型。
根据权利要求1至6任一项所述的方法，其特征在于，所述训练样本和待处理文本为终端用户输入的样本或在线获取的样本。
根据权利要求1至6任一项所述的方法，其特征在于，所述训练样本和待处理文本为各种类型的合同、简历和网页源文本信息中的至少一种。
一种通用文本信息提取装置，包括：

信息获取模块，用于获取模型训练样本和待处理文本；

规则获取模块，用于将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

文本标注模块，用于根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

文本确定模块，用于获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

特征获取模块，用于获取所述标注文本中的目标句法特征和目标语义特征；

句法语义分析模块，用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

目标信息提取模块，用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
根据权利要求9所述的装置，其特征在于，所述文本标注模块包括：

文本分词模块，用于将所述待处理文本输入已训练的分词模型进行分词，得到分词结果；

文本消解模块，用于获取与所述待处理文本对应的分词错误消解规则；

目标分词获取模块，用于根据所述分词错误消解规则筛选所述分词结果，得到目标分词信息；及

序列获取模块，用于将所述目标分词信息输入所述基础标注模型进行标注，得到所述标注序列。
根据权利要求9所述的装置，其特征在于，所述目标信息提取模块包括：

信息更新模块，用于显示所述目标提取信息，获取与所述目标提取信息对应的信息更新结果；

信息分析模块，用于将所述信息更新结果输入所述句法语义分析模型进行分析，得到更新后的句法语义分析结果；

规则更新模块，用于根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则；及

规则存储模块，用于将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
根据权利要求9所述的装置，其特征在于，所述装置还包括目标句法特征和目标语义特征确定模块，用于：

获取所述标注文本中的句法特征和语义特征；

将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；

将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及

根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
根据权利要求9所述的装置，其特征在于，所述装置还包括基础标注模型更新模块，用于：

将所述模型训练样本切分为训练样本、验证样本和测试样本；

将所述训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；

将所述目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；

将所述目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及

根据所述目标测试样本更新所述基础标注模型。
一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取模型训练样本和待处理文本；

将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

获取所述标注文本中的目标句法特征和目标语义特征；

将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
根据权利要求14所述的计算机设备，其特征在于，所述根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列包括：

将所述待处理文本输入已训练的分词模型进行分词，得到分词结果；

获取与所述待处理文本对应的分词错误消解规则；

根据所述分词错误消解规则筛选所述分词结果，得到目标分词信息；及

将所述目标分词信息输入所述基础标注模型进行标注，得到所述标注序列。
根据权利要求14所述的计算机设备，所述句法语义分析模型包括句法分析规则和语义分析规则，其特征在于，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器还执行以下步骤：

显示所述目标提取信息，获取与所述目标提取信息对应的信息更新结果；

将所述信息更新结果输入所述句法语义分析模型进行分析，得到更新后的句法语义分析结果；

根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则；及

将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
根据权利要求14所述的计算机设备，其特征在于，所述获取所述标注文本中的目标句法特征和目标语义特征包括：

获取所述标注文本中的句法特征和语义特征；

将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；

将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及

根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
根据权利要求14所述的计算机设备，其特征在于，所述将所述模型训练样本输入标注模型进行标注包括：

将所述模型训练样本切分为训练样本、验证样本和测试样本；

将所述训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；

将所述目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；

将所述目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及

根据所述目标测试样本更新所述基础标注模型。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取模型训练样本和待处理文本；

将所述模型训练样本输入标注模型进行标注，得到与所述模型训练样本对应的标注规则；

根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列；

获取与所述标注序列对应的序列消解规则，根据所述序列消解规则确定与所述标注序列对应的标注文本；

获取所述标注文本中的目标句法特征和目标语义特征；

将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析，得到与所述标注文本对应的句法语义分析结果；及

根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
根据权利要求19所述的存储介质，其特征在于，所述根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列包括：

将所述待处理文本输入已训练的分词模型进行分词，得到分词结果；

获取与所述待处理文本对应的分词错误消解规则；

根据所述分词错误消解规则筛选所述分词结果，得到目标分词信息；及

将所述目标分词信息输入所述基础标注模型进行标注，得到所述标注序列。
根据权利要求19所述的存储介质，其特征在于，所述根据所述标注规则建立基础标注模型，将所述待处理文本输入所述基础标注模型进行标注，得到标注序列包括：

显示所述目标提取信息，获取与所述目标提取信息对应的信息更新结果；

将所述信息更新结果输入所述句法语义分析模型进行分析，得到更新后的句法语义分析结果；

根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则；及

将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
根据权利要求19所述的存储介质，其特征在于，所述获取所述标注文本中的目标句法特征和目标语义特征包括：

获取所述标注文本中的句法特征和语义特征；

将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化，得到细化句法特征和细化语义特征；

将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序，得到特征排序结果；及

根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
根据权利要求19所述的存储介质，其特征在于，所述将所述模型训练样本输入标注模型进行标注包括：

将所述模型训练样本切分为训练样本、验证样本和测试样本；

将所述训练样本输入与基础标注模型对应的训练集进行训练，得到目标训练样本；

将所述目标训练样本输入与基础标注模型对应的验证集进行验证，得到目标验证样本；

将所述目标验证样本输入与基础标注模型对应的测试集进行测试，得到目标测试样本；及

根据所述目标测试样本更新所述基础标注模型。