WO2021218024A1

WO2021218024A1 - 命名实体识别模型的训练方法、装置、计算机设备

Info

Publication number: WO2021218024A1
Application number: PCT/CN2020/118523
Authority: WO
Inventors: 陈桢博; 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-04-29
Filing date: 2020-09-28
Publication date: 2021-11-04
Also published as: CN111553164A

Abstract

本申请涉及人工智能领域，提供了一种命名实体识别模型的训练方法、装置、计算机设备和存储介质，包括：基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；采用半监督的方法，充分利用原有数据，克服标注数据量不足的缺陷；用三个学习模型投票一致性原则来隐式表达置信度，增加了模型的可靠性。

Description

命名实体识别模型的训练方法、装置、计算机设备

本申请要求于2020年04月29日提交中国专利局、申请号为202010357577.3，发明名称为“命名实体识别模型的训练方法、装置、计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的技术领域，特别涉及一种命名实体识别模型的训练方法、装置、计算机设备和存储介质。

背景技术

在对电子简历文本进行识别的场景中，通常需要识别简历文本中的校名、地名等命名实体。命名实体识别(Named Entity Recognition,NER)任务主要是识别出对应文本中出现的人名、地名、机构名等专有名称并加以归类，它是信息抽取、信息检索、问答系统等多种自然语言处理任务的基础。目前采用的命名实体识别模型通常为BiLSTM-CRF模型。

目前，在简历文本中对识别命名实体的准确率提出了更高的要求，而发明人意识到目前的BiLSTM-CRF模型通常基于通用语料库，因此其对简历文本的识别准确率不高；同时训练过程大多采用有监督的方法进行训练，标注十分耗时并且数据量有限。

技术问题

本申请的主要目的为提供一种命名实体识别模型的训练方法、装置、计算机设备和存储介质，旨在克服命名实体识别模型准确率低以及训练模型时标注数据量少的缺陷。

技术解决方案

为实现上述目的，本申请提供了一种命名实体识别模型的训练方法，包括以下步骤：

在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。

本申请还提供了一种命名实体识别模型的训练装置，包括：

请求获取单元，用于在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

第一训练单元，用于基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

第一预测单元，用于迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

第二训练单元，用于若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现一种命名实体识别模型的训练方法，包括以下步骤：

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种命名实体识别模型的训练方法，包括以下步骤：

有益效果

本申请提供的命名实体识别模型的训练方法、装置、计算机设备和存储介质，包括：基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；采用半监督的方法代替原有只用有标签数据训练的方式，充分利用了原有数据，克服标注数据量不足的缺陷；用三个学习模型投票一致性原则来隐式表达置信度，减少频繁交叉验证所需要的时间，增加了模型的可靠性，使模型训练效果更好，对简历文本的命名实体识别效果更好，并提升了泛化能力。

附图说明

图1是本申请一实施例中命名实体识别模型的训练方法步骤示意图；

图2是本申请一实施例中命名实体识别模型的训练装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明的最佳实施方式

参照图1，本申请一实施例中提供了一种命名实体识别模型的训练方法，包括以下步骤：

步骤S01，在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

步骤S1，基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及指定领域命名实体训练集；

步骤S2，迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

步骤S3，若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。

在本实施例中，上述方法中所训练得到的命名实体识别模型用于从简历文本（即上述指定领域）中批量自动识别校名、地名等命名实体从而生成结构化数据；通常在简历内容识别过程中，需要对简历文本中的校名、地名等进行识别，这便需要应用到命名实体识别（NER）技术，上述命名实体识别模型便是为了实现该需求。

目前，上述命名实体识别模型通常采用了BiLSTM-CRF模型，其训练样本通常采用的是现有网络上公开的大量中文命名实体数据集（即上述公开数据集，该数据集为现有资源而且数据量大），上述公开数据集为标注有标签的数据集。

而在本实施例中，本模型的应用场景是实现对简历文本的命名实体识别，因此本实施例中的模型需要针对该场景数据集进行训练，才能用于该任务。如果直接采用该指定领域命名实体训练集，会因为数据量较小导致过拟合问题。

因此，如上述步骤S01所述的，在对指定领域中的目标文本进行命名实体识别之前，需要训练对应的命名实体识别模型，因此，用户可以触发一个训练模型的请求指令，而终端在接收到对命名实体识别模型进行训练的请求时，为了更好训练上述命名实体识别模型，提升其识别准确率，因此，需要获取到该命名实体识别模型具体用于对哪个领域中的目标文本进行识别，以便获取对应领域的训练集用于训练。具体地，接收到训练请求时，获取所有识别的目标文本所在的指定领域；如该指定领域为简历文本领域，则根据简历文本领域，获取对应的简历文本中的实体训练集，用于后续的训练过程。

如上述步骤S1所述的，由于本模型的应用场景是简历文本命名实体识别，因此本模型需要针对简历文本领域的命名实体数据集进行训练，才能用于该任务。如果直接采用该命名实体数据集，会因为数据量较小导致过拟合问题。因此，本方案基于公开数据集首先预训练BiLSTM-CRF模型得到预训练模型M0，以初始化其中神经网络参数，随后再采用指定领域命名实体数据集进行训练，这种方法能够有效提升算法鲁棒性，上述训练样本中采用了指定领域命名实体训练集（该训练集数据量虽小，但是其为特定领域词汇，针对性强），上述指定领域命名实体训练集指的是指定领域当中的训练语料，其也是标注有标签的数据集。具体地，在一实施例中，在基于公开数据集首先预训练模型得到预训练模型M0之后，将指定领域命名实体训练集分成三组训练数据集，并基于每一组训练数据集分别训练预训练模型M0，分别得到一个训练模型；三组训练模型均是基于预训练模型M0所训练得到，区别在于其采用的训练数据集有所不同，因此最终得到的训练模型也有所不同。

如上述步骤S2所述的，上述采用有标签数据进行模型训练为有监督的训练方法，其十分耗费时间，而且通常数据量十分有限，因此，为了充分利用现有数据，在本实施例中，进一步地采用了半监督的训练方法（tri-training）来训练模型，即除了采用上述有标签的数据集之外，还采用了无标签的数据集，不仅增加了训练数据量，而且可以增加模型的可靠性。

具体地，基于上述步骤S1训练得到的三个模型，在半监督训练的每一轮训练过程中，从上述三个模型随机选择出任意两个模型，依次从无标签数据集中选择出一个无标签目标数据进行标签预测，即通过随机两个模型预测同一无标签目标数据对应的预测标签。若该两个模型预测得到的预测标签相同，则可以认为该两个模型的置信度高；否则，置信度较低。可以理解的是，上述预测标签并不是只是一个标签，其为无标签数据集对应的一组标签；该组标签中的标签数量取决于该无标签数据集中的词的数量。

对上述无标签数据集的标注方式采用的是BIOES标注方式，在不同的应用场景中，对相同的词所对应的标注会有所不同；例如在一些场景中，某个词为地名的开头，其可以使用地名中的B进行标注，若为地名的结尾，则标注为地名中的E；例如“北京”中的北会标注为B，京标注为E；在其它场景中，上述北作为名字“顾北”中的一词，北又可能被标注为名字中的E，即相同的词在不同的场景所对应的标签会有所不同。

因此，如上述步骤S3所述的，若两个训练模型预测同一个无标签目标数据得到的预测标签相同，则可以将其预测的预测标签添加至无标签目标数据中以更新至未选择的训练模型的训练样本中，以迭代训练另一个未选择的模型。同时，上述无标签目标数据放回至所述无标签数据集中。在本实施例中，需要结合模型预测结果，确定无标签数据是否加入至训练样本中，现有技术中，采用无标签数据训练模型时通常是根据模型预测无标签数据的概率是否达到阈值来确定是否将无标签数据是否加入至训练样本中。本实施例中相对于现有技术中通过模型预测概率以确定无标签数据是否加入至训练样本中，具有明显的区别；本申请结合多个模型投票一致性原则来隐式表达置信度，增加了模型的可靠性，使模型训练效果更好，在识别时更准确。

若上述选择出的两个训练模型预测得到的预测标签不同，则上述选择出的两个训练模型的置信度较低，需要继续训练，因此上述无标签目标数据无法添加上述预测标签加入至训练样本中。

依次重复上述步骤S3，即完成对上述三个训练模型的再训练。

依次重复上述步骤S2，S3，即更换选择出的两个模型，直至从所述无标签数据集中识别的样本不变时，停止迭代训练，表明此时模型训练已经完成，得到最终的命名实体识别模型。

在本实施例中，每一轮所有无标签数据预测结束之后，相应模型的训练数据集得到更新，之后进入下一轮循环，重复上述步骤，直到所有模型的训练集不再更新的时候停止。通过这种方式，可以有效利用无标签数据增加训练样本的数据量，提升模型泛化性。

在本实施例中，在原有BiLSTM-CRF的基础上，首先加入了特定领域词汇特征，在专业领域下使得分词准确率更高，从而提高命名实体识别的准确率；神经网络算法结合应用于半监督训练方法中，即在CRF和BiLSTM-CRF中应用tri-training来完成NER任务，采用半监督的方法代替原有只用有标签数据训练，充分利用原有数据，克服目前标注数据量不足的缺陷；用三个学习模型投票一致性原则来隐式表达置信度，减少频繁交叉验证所需要的时间，增加了模型的可靠性，使模型训练效果更好，对简历文本的命名实体识别效果更好，并提升了泛化能力。同时，本实施例中训练得到的模型，在实际应用中，例如在简历识别场景中，可以使用具体的简历文本进行迭代训练，以自动化更新模型。

在本实施例中，在智慧城市的建设中，为了加强信息之间的高效传输、表达，上述方案还可以用于智慧办公场景中，推动智慧城市的建设。

在一实施例中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤S1，包括：

步骤S11，基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

步骤S12，对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

步骤S13，基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。

具体地，,所述基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型的步骤S13，包括：

保留所述预训练模型中BiLSTM的模型参数，并初始化所述预训练模型中CRF层的模型参数，得到预处理训练模型；

通过三组所述训练数据集分别训练所述预处理训练模型，得到三个所述训练模型。

在本实施例中，上述两组有标签数据集的差别在于，指定领域命名实体训练集为当前任务专门标注的命名实体，公开数据集来自网络公开的大型中文标注命名实体数据集；上述指定领域即为当前命名实体识别任务所在的领域。例如在本实施例中，上述指定领域可为简历文本领域。

如上述步骤S11所述的，基于公开数据集，采用BiLSTM-CRF模型进行训练，得到预训练模型M0，以初始化模型中的神经网络参数；然后如上述步骤S13所述的，采用上述指定领域命名实体训练集放回抽样后得到的三组训练数据集，基于上述预训练模型M0进行训练。在本实施例中，训练样本所采用的是公开数据集以及指定领域命名实体训练集，不仅仅使得训练得到的上述三个模型能保证较高的传统命名实体识别率，又能确保特定领域中的命名实体识别效果。

在本实施例中，首先利用公开数据集训练BiLSTM-CRF模型，获得M0，这一状态下的M0模型，通过预训练之后已经优化了模型参数并获得了一定的预测能力。在这一M0模型基础上，替换掉CRF层（即初始化）并重新采用指定领域命名实体训练集进行训练模型，并进一步优化参数，以使得训练得到的模型能够用于当前任务。在本实施例中，基于大型公开数据集仅仅是为了更好初始化模型神经网络部分参数（即BiLSTM部分的参数），提升模型鲁棒性，而不需要初始化CRF参数。模型最终用于简历命名实体识别，因此需要针对该领域的标注数据集进行训练，CRF层将重新训练，因此需要初始化该CRF层。初始化过程为仅保留BiLSTM部分的预训练参数，并重置CRF参数，再采用放回抽样的方式得到上述三个训练数据集，以分别训练模型，得到上述三个训练模型M1、M2、M3。本实施例中，相比于目前单一采用对应任务的数据集或者单一采用公开数据集，本方案的训练方式能够让模型获得更高的泛化能力。

在一实施例中，所述直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型的步骤S3之后，包括：

步骤S4，接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；上述过程训练得到三个命名实体识别模型，均可以用于对待识别文本进行命名实体的识别。

步骤S5，将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。为了持续更新上述命名实体识别模型，即对上述命名实体识别模型进行迭代训练，则可以继续使用上述待识别文本作为训练样本，不断优化上述命名实体识别模型，此过程中无需人为标注数据，减少工作量，且可以不断增加训练样本的数据量。

在又一实施例中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤S1，包括：

步骤S1a，从所述公开数据集中随机选择出目标公开数据；在本实施例中，由于上述指定领域命名实体训练集的数据量有限，可以从上述公开数据集中选择出一些优质的数据来进行训练，以增强上述命名实体识别模型的识别准确率。因此，从所述公开数据集中随机选择出目标公开数据，该过程中，可以采用agent模型进行选择，agent模型在选择数据时，会根据最终模型输出的结果自动进行优化选择，即使得选择出的数据质量越来越好。

步骤S1b，将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

步骤S1c，将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；本实施例中，在训练上述BiLSTM-CRF模型时，若只采用所述指定训练集，则该模型的准确率会最高，但是其数据量少，泛化能力差；上述目标公开数据质量低于上述指定训练集，将上述目标公开数据以及指定训练集共同训练，则其对模型的准确率会造成影响，但是若该目标公开数据的质量越好，则影响越小。因此，上述预训练模型的质量与上述目标公开数据的质量相关。

步骤S1d，将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

步骤S1e，判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；在本实施例中，采用上述指定测试集来测试上述预训练模型，若得到所述指定测试集的预测标签为正确标签的正确概率大于预设概率，则表明上述预训练模型的预测能力受影响较小，即上述目标公开数据的质量高，则可以将上述目标公开数据也作为目标训练集用于后续训练的预训练模型。若上述正确概率小于预设概率，则表明上述预训练模型的预测能力受影响较大，即上述目标公开数据的质量低，此时需要重新从上述公开数据集中随机选择出另一部分的目标公开数据。

步骤S1f，对所述目标训练集进行放回抽样，得到三组训练数据集；

步骤S1g，基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。上述步骤S1f、步骤S1g与上述步骤S12、步骤S13的具体实现一致，在此不再进行赘述。

参照图2，本申请一实施例中还提供了一种命名实体识别模型的训练装置，包括：

请求获取单元100，用于在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

第一训练单元10，用于基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及指定领域命名实体训练集；

第一预测单元20，用于迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

第二训练单元30，用于若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。

在一实施例中，所述第一训练单元10，包括：

第一训练子单元，用于基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

第一抽样子单元，用于对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

第二训练子单元，用于基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。

在一实施例中，所述第二训练子单元，具体用于：

在一实施例中，所述命名实体识别模型的训练装置，还包括：

第二预测单元，用于接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；

添加单元，用于将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。

在一实施例中，所述第一训练单元10，包括：

选择子单元，用于从所述公开数据集中随机选择出目标公开数据；

分类子单元，用于将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

第三训练子单元，用于将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；

测试子单元，用于将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

判断单元，用于判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；

第二抽样子单元，用于对所述目标训练集进行放回抽样，得到三组训练数据集；

第四训练子单元，用于基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。

在本实施例中，上述装置实施例中的各个单元、子单元的具体实现请参照上述方法实施例中的具体实现，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种命名实体识别模型的训练方法，包括以下步骤：

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种命名实体识别模型的训练方法，包括以下步骤：

可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的命名实体识别模型的训练方法、装置、计算机设备和存储介质，包括基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及指定领域命名实体训练集；迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型。采用半监督的方法代替原有只用有标签数据训练的方式，充分利用了原有数据，克服标注数据量不足的缺陷；用三个学习模型投票一致性原则来隐式表达置信度，减少频繁交叉验证所需要的时间，增加了模型的可靠性，使模型训练效果更好，对简历文本的命名实体识别效果更好，并提升了泛化能。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种命名实体识别模型的训练方法，其中，包括以下步骤：

在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。
根据权利要求1所述的命名实体识别模型的训练方法，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
根据权利要求2所述的命名实体识别模型的训练方法，其中，所述基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型的步骤，包括：

保留所述预训练模型中BiLSTM的模型参数，并初始化所述预训练模型中CRF层的模型参数，得到预处理训练模型；

通过三组所述训练数据集分别训练所述预处理训练模型，得到三个所述训练模型。
根据权利要求1所述的命名实体识别模型的训练方法，其中，所述直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型的步骤之后，包括：

接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；

将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。
根据权利要求1所述的命名实体识别模型的训练方法，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

从所述公开数据集中随机选择出目标公开数据；

将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；

将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；

对所述目标训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
一种命名实体识别模型的训练装置，其中，包括：

请求获取单元，用于在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

第一训练单元，用于基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

第一预测单元，用于迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

第二训练单元，用于若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。
根据权利要求6所述的命名实体识别模型的训练装置，其中，所述第一训练单元，包括：

第一训练子单元，用于基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

第一抽样子单元，用于对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

第二训练子单元，用于基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
根据权利要求7所述的命名实体识别模型的训练装置，其中，所述第二训练子单元，具体用于：

保留所述预训练模型中BiLSTM的模型参数，并初始化所述预训练模型中CRF层的模型参数，得到预处理训练模型；

通过三组所述训练数据集分别训练所述预处理训练模型，得到三个所述训练模型。
根据权利要求6所述的命名实体识别模型的训练装置，其中，所述命名实体识别模型的训练装置，还包括：

第二预测单元，用于接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；

添加单元，用于将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。
根据权利要求6所述的命名实体识别模型的训练装置，其中，所述第一训练单元，包括：

选择子单元，用于从所述公开数据集中随机选择出目标公开数据；

分类子单元，用于将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

第三训练子单元，用于将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；

测试子单元，用于将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

判断单元，用于判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；

第二抽样子单元，用于对所述目标训练集进行放回抽样，得到三组训练数据集；

第四训练子单元，用于基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种命名实体识别模型的训练方法，包括以下步骤：

在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。
根据权利要求11所述的计算机设备，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
根据权利要求12所述的计算机设备，其中，所述基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型的步骤，包括：

保留所述预训练模型中BiLSTM的模型参数，并初始化所述预训练模型中CRF层的模型参数，得到预处理训练模型；

通过三组所述训练数据集分别训练所述预处理训练模型，得到三个所述训练模型。
根据权利要求11所述的计算机设备，其中，所述直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型的步骤之后，包括：

接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；

将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。
根据权利要求11所述的计算机设备，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

从所述公开数据集中随机选择出目标公开数据；

将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；

将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；

对所述目标训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种命名实体识别模型的训练方法，包括以下步骤：

在接收到对命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；并根据所述指定领域，获取指定领域命名实体训练集；

基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型；其中，预设的所述训练样本包括两组有标签数据集，两组有标签数据集为公开数据集以及所述指定领域命名实体训练集；

迭代从三个所述训练模型中随机选择任意两个训练模型，并依次从无标签数据集中选择一个无标签目标数据输入至选择出的两个训练模型中进行预测，得到两个所述训练模型预测出的预测标签；

若两个所述训练模型预测的预测标签相同，则将所述无标签目标数据添加所述预测标签并更新至未选择的所述训练模型的训练样本中，以训练未选择的所述训练模型；并将所述无标签目标数据放回至所述无标签数据集中，直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型；其中，所述命名实体识别模型用于对所述指定领域中的所述目标文本进行命名实体识别。
根据权利要求16所述的计算机可读存储介质，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

基于所述公开数据集，基于BiLSTM-CRF模型进行训练，得到预训练模型；

对所述指定领域命名实体训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。
根据权利要求17所述的计算机可读存储介质，其中，所述基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型的步骤，包括：

保留所述预训练模型中BiLSTM的模型参数，并初始化所述预训练模型中CRF层的模型参数，得到预处理训练模型；

通过三组所述训练数据集分别训练所述预处理训练模型，得到三个所述训练模型。
根据权利要求16所述的计算机可读存储介质，其中，所述直至所述无标签数据集中的样本不再更新时，停止迭代训练，得到三个训练完成的模型均作为最终的命名实体识别模型的步骤之后，包括：

接收到对待识别文本的命名实体识别指令时，将所述待识别文本输入至任意一个所述命名实体识别模型中进行预测，得到对所述待识别文本的命名实体识别结果；其中，所述命名实体识别结果为所述待识别文本中字符的标签；

将所述待识别文本添加至所述无标签数据集中，并将所述待识别文本添加所述命名实体识别结果之后，更新至所述指定领域命名实体训练集中。
根据权利要求16所述的计算机可读存储介质，其中，所述基于预设的训练样本训练BiLSTM-CRF模型，得到三个训练模型的步骤，包括：

从所述公开数据集中随机选择出目标公开数据；

将所述指定领域命名实体训练集分成指定训练集以及指定测试集；

将所述目标公开数据以及所述指定训练集构成模型训练集，并将所述模型训练集输入至所述BiLSTM-CRF模型中进行训练，得到预训练模型；

将所述指定测试集输入至训练后的预训练模型中进行测试，得到所述指定测试集的预测标签为正确标签的正确概率；

判断所述正确概率是否大于预设概率，若大于，则将所述目标公开数据以及所述指定领域命名实体训练集组合成目标训练集；

对所述目标训练集进行放回抽样，得到三组训练数据集；

基于三组所述训练数据集分别对所述预训练模型进行训练，得到三个训练模型。