WO2021139257A1

WO2021139257A1 - 标注数据的选择方法、装置、计算机设备和存储介质

Info

Publication number: WO2021139257A1
Application number: PCT/CN2020/118533
Authority: WO
Inventors: 梁欣; 顾婷婷
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-24
Filing date: 2020-09-28
Publication date: 2021-07-15
Also published as: CN111832294A; CN111832294B

Abstract

一种标注数据的选择方法、装置、计算机设备和存储介质，涉及区块链技术领域，包括：基于存储于区块链中的agent模型从目标字典中选择出字典标注数据（S2）；将预设的人工标注数据分成人工训练集以及人工测试集（S3）；将字典标注数据以及人工训练集构成模型训练集，输入至预设的实体识别模型中进行训练（S4）；将人工测试集输入至训练后的实体识别模型中进行测试，得到人工测试集的预测标注为正确标注的正确概率（S5）；计算正确概率与预设概率的差值，并判断差值是否小于阈值，若不小于，则基于agent模型从目标字典中选择出优化的字典标注数据（S6）。所述方法、装置、计算机设备和存储介质可以选择出质量高的标注数据，还可以应用智慧城市的智慧医疗领域中，从而推动智慧城市的建设。

Description

标注数据的选择方法、装置、计算机设备和存储介质

本申请要求于2020年06月24日提交中国专利局、申请号为202010592331.4，发明名称为“标注数据的选择方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及区块链技术领域，特别涉及一种标注数据的选择方法、装置、计算机设备和存储介质。

背景技术

实体识别是自然语言处理任务中的第一步，同时也是非常关键的一步。特别是在金融、电商、医疗等垂直领域，实体识别都是自然语言处理任务的关键，例如实体链接，实体间的关系抽取，关系分类等下游任务会层层传递上游任务带来的误差。

随着深度学习的发展，神经网络方法加上传统的条件随机场（crf）在实体识别任务上可以取得非常好的效果。但是发明人意识到，对于业务场景来说，深度学习的应用也带来了一些问题。例如，神经网络自主学习特征的能力虽然很强大，但往往需要大量的符合真实分布的训练数据，然而对于一个新领域的实体识别任务，高质量的标注数据会耗费大量的标注时间和人力标注成本。在垂直领域，虽然可以利用一个相关领域词典，通过远程监督的方法，对数据进行字典标注，但这可能会引入有噪音的数据或者标注不完整的实体，对实体识别任务有较大影响。例如在医疗领域对疾病的表述：“糖尿病伴酮症”，只标注了“糖尿病”，“过敏性哮喘”标注为“过敏”和“哮喘”等实体不完整的情况。但在医学上，这些不同实体的描述和治疗都不尽相同。只采用字典标注，会使得模型学习不到这种组合病症的特征，导致最后的实体标注效果不理想，在之后的下游任务也会因为错误的传导而效果不佳。

技术问题

本申请的主要目的为提供一种标注数据的选择方法、装置、计算机设备和存储介质，旨在克服目前标注数据不完整以及无法选择质量高的标注数据的缺陷。

技术解决方案

为实现上述目的，本申请提供了一种标注数据的选择方法，包括以下步骤：

基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。

本申请还提供了一种标注数据的选择装置，包括：

构建单元，用于基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

选择单元，用于基于agent模型从所述目标字典中选择出字典标注数据；

分类单元，用于将预设的人工标注数据分成人工训练集以及人工测试集；

训练单元，用于将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

测试单元，用于将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

判断单元，用于计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新执行将所述字典标注数据以及所述人工训练集构成模型训练集。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述标注数据的选择方法，包括以下步骤：

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述标注数据的选择方法，包括以下步骤：

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

有益效果

本申请提供的标注数据的选择方法、装置、计算机设备和存储介质，基于知识图谱，构建目标实体添加至预设字典中，以得到扩充后的字典作为目标字典，使得目标字典中的字典标注数据更完整；同时，基于人工标注数据与字典标注数据共同训练实体识别模型，判断选择出的字典标注数据的质量是否符合要求，若不符合，则从目标字典中选择出优化的字典标注数据，即实现了选择出质量更高的字典标注数据。

附图说明

图1 是本申请一实施例中标注数据的选择方法步骤示意图；

图2 是本申请一实施例中标注数据的选择装置结构框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本发明的最佳实施方式

参照图1，本申请一实施例中提供了一种标注数据的选择方法，包括以下步骤：

步骤S1，基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

步骤S2，基于agent模型从所述目标字典中选择出字典标注数据；

步骤S3，将预设的人工标注数据分成人工训练集以及人工测试集；

步骤S4，将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

步骤S5，将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

步骤S6，计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。

在本实施例中，上述方法应用于训练实体识别模型过程中对训练所需要的标注数据进行筛选，该实体识别模型用于识别医疗文本领域中的实体。本实施例中的方案还可以应用智慧城市的智慧医疗领域中，从而推动智慧城市的建设。在智慧医疗领域的业务场景中，其中用于训练实体识别模型的高质量标注数据较少，高质量的标注数据通常为人工标注。因此本实施例中结合了少量的高质量人工标注数据以及相近领域中的词典得到训练样本，可有效增加数据量，使得模型得到较大的训练集，提高模型泛化性。

具体地，如上述步骤S1所述的，上述预设字典中为利用垂直领域的实体字典标注句子得到的标注数据，为了进一步增强上述字典中标注数据的完整性、准确性，基于知识图谱，构建与上述预设字典中的实体具备关联关系的目标实体添加在上述预设字典中，以扩充上述预设字典。上述关联关系指的是：针对预设字典中的疾病、症状的实体构建出对应的别名，例如“慢性支气管炎”扩充“慢支”；构建与预设字典中实体相似度较高的目标实体，其中相似度的计算方法可以基于字符串最短编辑距离，拼音，偏旁部首等特征进行单独或是组合计算；此外，针对预设字典中实体的一些性状描述进行相似词或是反义词的替换，例如将“急性哮喘”扩充“慢性哮喘”，“糖尿病伴高血压”扩充“糖尿病不伴高血压”等。经过上述扩充之后，不仅增加上述预设字典中的标注数据数据量，而且对于医疗领域中的实体描述更加完整、准确。

如上述步骤S2所述的，上述agent模型（智能体模型）基于强化学习训练得到，其用于从目标字典标注的标注数据中挑选出标注正确的字典标注数据，其每次挑选出的数据具有导向性，使得标注质量越来越高，被挑选出来的数据再用于训练实体识别模型；因为字典标注的数据会有不完整或时不正确的情况，因此需要由agent模型不断挑选出更加准确的数据，即优化用于训练实体识别模型的字典标注数据。

如上述步骤S3所述的，上述人工标注数据为人工标注所得，其为高质量标注数据，在训练模型时需要经历训练阶段以及测试阶段，因此，需要将上述人工标注数据分成人工训练集以及人工测试集。

如上述步骤S4所述的，上述人工训练集的数据量较小，因此，需要将其与上述目标字典中选择出的字典标注数据共同组合成训练数据，得到模型训练集，增加训练数据的数据量；将所述模型训练集输入至预设的实体识别模型中进行训练，以提升实体识别模型的泛化性。上述实体识别模型包括BiLSTM-CRF模型。

在使用上述模型训练集训练上述实体识别模型之后，由于其训练数据中不仅仅包括高质量的人工标注数据，还可能包括一些不完整、不准确的字典标注数据。可以理解的是，若上述字典标注数据不完整、不准确，将会使得上述训练后的实体识别模型采用上述人工测试集进行测试时，得到的标注准确率下降。而正常采用上述人工测试集进行测试时的准确率应当为1，上述1可以作为一个预设概率。

因此，如上述步骤S5-S6所述的，将上述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率，进而再计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值；若上述正确概率接近于上述预设概率（即差值较小），则表明上述字典标注数据质量较好；若上述正确概率不接近于上述预设概率（即差值较大），则表明上述字典标注数据质量不好，必定有较多的不完整、不准确的标注数据，影响了上述实体识别模型的识别准确率。此时，则可以触发上述agent模型重新从所述目标字典中选择出更加优化的字典标注数据，进而重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。由于上述agent模型基于强化学习训练，其迭代挑选出的字典标注数据，均是根据测试结果定向选择出的更加准确的标注数据。其选择出的标注数据继续输入至上述实体识别模型中进行训练，依次迭代训练，直至测试结果趋于稳定之后，则完成训练。

在本实施例中，首先通过人工标注少量的标注数据，利用垂直领域的实体字典，用字典标注句子得到字典标注数据，增强数据，生成大量的数据集，使得模型得到较大的训练集，提高模型泛化性。再通过强化学习的方法，对由远程监督生成的不完整和带噪音的数据进行筛选，在人工标注小数据集这一先验知识的指导下进行训练，使得模型同时在人工标注的数据以及字典标注的数据上训练，减少人工标注的时间成本，提高模型的召回率。

在一实施例中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤S4，包括：

步骤S401，分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

步骤S402，将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

步骤S403，将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

步骤S404，将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。

在本实施例中，训练上述预设的实体识别模型时，为了加强上述训练集中每一个文本数据的词与字的特性表达，分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；然后将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；为了进一步地提升上述实体识别模型对上述文本数据的特征表达，提升特征提取深度；因此，将上述第一特征向量与所述拼接向量进行组合之后，再次输入至预设的实体识别模型中，输出得到第二特征向量，该第二特征向量作为上述文本数据对应的特征向量。最后，输入至分类层中进行迭代训练，优化网络参数得到训练完成的实体识别模型。

在一实施例中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤S4之前，包括：

获取公开数据集；

基于所述公开数据集，训练初始长短记忆模型，以得到预设的实体识别模型。

在本实施例中，在采用模型训练集训练模型之前，需要首先训练得到上述预设的实体识别模型。在本实施例中，可以采用公开数据集训练初始长短记忆模型，以初始化其中神经网络参数，得到上述预设的实体识别模型。随后再采用模型训练集进行训练，这种方法能够有效提升模型的鲁棒性。

在一实施例中，所述基于知识图谱，构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中，以得到扩充后的字典作为目标字典的步骤S1之前，还包括：

步骤S1a，接收用户输入的模型训练指令，其中所述模型训练指令中携带有所要训练的模型的应用领域信息；

步骤S1b，根据所述应用领域信息，获取对应领域的预设字典。

在本实施例中，为了使得训练得到的实体识别模型更好的识别效果，应当是采用对应领域的标注数据进行模型训练。用户在发出训练模型的需求时，可以输入相应的模型训练指令，在该模型训练指令中可以携带有所要训练的模型的应用领域信息。根据该应用领域信息，便可以获取到对应领域的标注数据，采用对应领域的标注数据，便于更好训练上述模型，得到的实体识别模型在识别对应领域的文本时，其效果更佳。

在一实施例中，所述计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤S6之后，包括：

步骤S7，迭代训练预设的实体识别模型，直至所述正确概率与预设概率的差值小于所述阈值，得到目标实体识别模型；

步骤S8，接收用户输入的目标文本，以及接收对所述目标文本中的实体识别请求指令；

步骤S9，基于所述请求指令，识别所述目标文本的领域信息；

步骤S10，判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同；

步骤S11，若相同，则基于所述目标实体识别模型对所述目标文本进行命名实体识别；若不相同，则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。

在本实施例中，在利用上述目标实体识别模型进行目标文本中的实体识别时，上述目标文本可能不是医疗领域的文本，因此，为了提高识别的准确率，避免识别错误，需要首先识别所述目标文本的领域信息，若该目标文本的领域信息与上述目标实体识别模型的应用领域信息相同，则利用目标实体识别模型进行命名实体识别时，可以显著提升准确率。若目标文本的领域信息与上述目标实体识别模型的应用领域信息不相同，则需要获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。

在一实施例中，上述预设字典、目标字典、agent模型、人工标注数据、预设的实体识别模型，存储于区块链中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

参照图2，本申请一实施例中还提供了一种标注数据的选择装置，包括：

在一实施例中，所述训练单元，包括：

构建子单元，用于分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

第一输出子单元，用于将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

第二输出子单元，用于将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

训练子单元，用于将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。

在一实施例中，还包括：

第一获取单元，用于获取公开数据集；

初始训练单元，用于基于所述公开数据集，训练初始长短记忆模型，以得到预设的实体识别模型。

在一实施例中，还包括：

第一接收单元，用于接收用户输入的模型训练指令，其中所述模型训练指令中携带有所要训练的模型的应用领域信息；

第二获取单元，用于根据所述应用领域信息，获取对应领域的预设字典。

在一实施例中，还包括：

迭代单元，用于迭代训练预设的实体识别模型，直至所述正确概率与预设概率的差值小于所述阈值，得到目标实体识别模型；

第二接收单元，用于接收用户输入的目标文本，以及接收对所述目标文本中的实体识别请求指令；

识别单元，用于基于所述请求指令，识别所述目标文本的领域信息；

领域判断单元，用于判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同；

处理单元，用于若相同，则基于所述目标实体识别模型对所述目标文本进行命名实体识别；若不相同，则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。

在一实施例中，所述装置还包括：

存储单元，用于将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。

在本实施例中，上述单元、子单元的具体实现请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标注数据、模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标注数据的选择方法：

上述标注数据的选择方法，包括以下步骤：

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种标注数据的选择方法。

上述标注数据的选择方法，包括以下步骤：

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的标注数据的选择方法、装置、计算机设备和存储介质，基于知识图谱，构建目标实体添加至预设字典中，以得到扩充后的字典作为目标字典，使得目标字典中的字典标注数据更完整；同时，基于人工标注数据与字典标注数据共同训练实体识别模型，判断选择出的字典标注数据的质量是否符合要求，若不符合，则从目标字典中选择出优化的字典标注数据，即实现了选择出质量更高的字典标注数据。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种标注数据的选择方法，其中，包括以下步骤：

基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
根据权利要求1所述的标注数据的选择方法，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤，包括：

分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。
根据权利要求1所述的标注数据的选择方法，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤之前，包括：

获取公开数据集；

基于所述公开数据集，训练初始长短记忆模型，以得到预设的实体识别模型。
根据权利要求1所述的标注数据的选择方法，其中，所述基于知识图谱，构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中，以得到扩充后的字典作为目标字典的步骤之前，还包括：

接收用户输入的模型训练指令，其中所述模型训练指令中携带有所要训练的模型的应用领域信息；

根据所述应用领域信息，获取对应领域的预设字典。
根据权利要求4所述的标注数据的选择方法，其中，所述计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤之后，包括：

迭代训练预设的实体识别模型，直至所述正确概率与预设概率的差值小于所述阈值，得到目标实体识别模型；

接收用户输入的目标文本，以及接收对所述目标文本中的实体识别请求指令；

基于所述请求指令，识别所述目标文本的领域信息；

判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同；

若相同，则基于所述目标实体识别模型对所述目标文本进行命名实体识别；若不相同，则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
根据权利要求1所述的标注数据的选择方法，其中，还包括：

将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。
一种标注数据的选择装置，其中，包括：

构建单元，用于基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

选择单元，用于基于agent模型从所述目标字典中选择出字典标注数据；

分类单元，用于将预设的人工标注数据分成人工训练集以及人工测试集；

训练单元，用于将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

测试单元，用于将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

判断单元，用于计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新执行将所述字典标注数据以及所述人工训练集构成模型训练集。
根据权利要求7所述的标注数据的选择装置，其特征在于，所述训练单元，包括：

构建子单元，用于分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

第一输出子单元，用于将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

第二输出子单元，用于将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

训练子单元，用于将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种标注数据的选择方法的步骤：

基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
根据权利要求9所述的计算机设备，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤，包括：

分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。
根据权利要求9所述的计算机设备，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤之前，包括：

获取公开数据集；

基于所述公开数据集，训练初始长短记忆模型，以得到预设的实体识别模型。
根据权利要求9所述的计算机设备，其中，所述基于知识图谱，构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中，以得到扩充后的字典作为目标字典的步骤之前，还包括：

接收用户输入的模型训练指令，其中所述模型训练指令中携带有所要训练的模型的应用领域信息；

根据所述应用领域信息，获取对应领域的预设字典。
根据权利要求12所述的计算机设备，其中，所述计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤之后，包括：

迭代训练预设的实体识别模型，直至所述正确概率与预设概率的差值小于所述阈值，得到目标实体识别模型；

接收用户输入的目标文本，以及接收对所述目标文本中的实体识别请求指令；

基于所述请求指令，识别所述目标文本的领域信息；

判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同；

若相同，则基于所述目标实体识别模型对所述目标文本进行命名实体识别；若不相同，则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
根据权利要求9所述的计算机设备，其中，还包括：

将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种标注数据的选择方法的步骤：

基于知识图谱，构建目标实体扩充至预设字典中，以得到扩充后的字典作为目标字典；其中，所述目标字典中均为标注数据；所述目标实体与所述预设字典中的实体具备关联关系；

基于agent模型从所述目标字典中选择出字典标注数据；

将预设的人工标注数据分成人工训练集以及人工测试集；

将所述字典标注数据以及所述人工训练集构成模型训练集，并将所述模型训练集输入至预设的实体识别模型中进行训练；

将所述人工测试集输入至训练后的实体识别模型中进行测试，得到所述人工测试集的预测标注为正确标注的正确概率；

计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则基于所述agent模型从所述目标字典中选择出优化的字典标注数据，并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
根据权利要求15所述的计算机可读存储介质，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤，包括：

分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量，将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量；

将所述拼接向量输入至预设的实体识别模型中，输出得到第一特征向量；

将所述第一特征向量与所述拼接向量进行组合，并输入至预设的实体识别模型中，输出得到第二特征向量；

将所述第二特征向量输入至预设的实体识别模型的分类层中，进行训练以优化所述分类层的网络参数。
根据权利要求15所述的计算机可读存储介质，其中，所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤之前，包括：

获取公开数据集；

基于所述公开数据集，训练初始长短记忆模型，以得到预设的实体识别模型。
根据权利要求15所述的计算机可读存储介质，其中，所述基于知识图谱，构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中，以得到扩充后的字典作为目标字典的步骤之前，还包括：

接收用户输入的模型训练指令，其中所述模型训练指令中携带有所要训练的模型的应用领域信息；

根据所述应用领域信息，获取对应领域的预设字典。
根据权利要求18所述的计算机可读存储介质，其中，所述计算所述正确概率与预设概率的差值，并判断所述差值是否小于阈值，若不小于，则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤之后，包括：

迭代训练预设的实体识别模型，直至所述正确概率与预设概率的差值小于所述阈值，得到目标实体识别模型；

接收用户输入的目标文本，以及接收对所述目标文本中的实体识别请求指令；

基于所述请求指令，识别所述目标文本的领域信息；

判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同；

若相同，则基于所述目标实体识别模型对所述目标文本进行命名实体识别；若不相同，则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
根据权利要求15所述的计算机可读存储介质，其中，还包括：

将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。