WO2020215456A1

WO2020215456A1 - 一种基于教师监督的文本标注方法和设备

Info

Publication number: WO2020215456A1
Application number: PCT/CN2019/090336
Authority: WO
Inventors: 蔡子健; 李金锋
Original assignee: 网宿科技股份有限公司
Priority date: 2019-04-26
Filing date: 2019-06-06
Publication date: 2020-10-29
Also published as: US20200380209A1; CN110134949A; EP3751445A4; EP3751445A1; CN110134949B

Abstract

本申请部分实施例提供了一种基于教师监督的文本标注方法和设备，属于自然语言处理技术领域。所述方法包括：利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果（101）；通过预设的词语分割模型对待标注文本进行分词处理，生成包含分词词语的分词结果（102）；根据每个标注词语与每个分词词语的相似度，基于分词词语对字符标注结果重新进行字符标注，得到融合标注结果并输出（103）。采用本申请，可以提高文本标注的准确率和召回率。

Description

一种基于教师监督的文本标注方法和设备

交叉引用

本申请引用于2019年4月26日递交的名称为“一种基于教师监督的文本标注方法和设备”的第201910342499.7号中国专利申请，其通过引用被全部并入本申请。

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种基于教师监督的文本标注方法和设备。

背景技术

自然语言处理(Natural Language Processing，NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取，使得计算机能够理解自然语言以及生成自然语言，进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中，文本标注技术为自然语言处理的产业化应用提供了基础。

传统的机器学习(Machine Learning，ML)可以通过学习一定数量的文本数据，结合关键词(Seed Words)来挖掘文本之间的关联特征，得到传统机器学习模型，并利用该传统机器学习模型对其他文本自动分类和标注。大多数传统机器学习模型对文本高度依赖，通常主要关注文本的词法特征和句法特征，但忽略了文本的语义特征，不利于传统机器学习模型的性能提升，并且，大多数传统机器学习模型泛化性弱。因此，现有技术可以采用泛化性较高的深度学习(Deep Learning，DL)利用神经网络来挖掘文本的词法特征、句法特征和语义特征，通过不断迭代的方式训练得到深度学习模型，并利用该深度学习模型对文本进行自动标注。

在实现本申请的过程中，发明人发现现有技术至少存在以下问题：

由于中文词汇丰富多样，计算机难以覆盖中文字符排列组合得到的所有词语，为了提高深度学习模型的泛化性以及防止深度学习模型过拟合，针对中文的文本标注技术通常利用基于字符粒度的深度学习模型对待标注文本进行标注处理。由于自然语言处理技术的不断发展，现有的基于字符粒度的深度学习模型不足以满足自然语言处理技术对文本标注不断提高的准确率要求。并且，当将一个训练成熟的深度学习模型应用到新的领域时，该深度学习模型的召回率不足甚至为零，导致深度学习模型泛化性差，词语边缘标注易固化。

发明内容

本申请部分实施例的目的在于提供一种基于教师监督的文本标注方法和设备，所述技术方案如下：

第一方面，提供了一种基于教师监督的文本标注方法，所述方法包括：

利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；

通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；

根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。

例如，所述利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果之前，还包括：

利用训练样本集合中的已标注文本对初始字符标注模型进行训练，生成所述字符标注模型。

例如，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果之后，还包括：

基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。

例如，所述基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练，包括：

将所述融合标注结果添加至融合标注集合；

从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本，生成新的训练样本集合；

利用所述新的训练样本集合对所述字符标注模型进行训练。

例如，所述利用所述新的训练样本集合对所述字符标注模型进行训练之前，还包括：

若所述词语分割模型对所述待标注文本进行分词处理失败，则将所述字符标注结果添加至回收标注集合；

从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。

例如，所述通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果，包括：

若所述字符标注结果的平均置信度超过置信度阈值，则通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果。

例如，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果，包括：

对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合，得到相关词语对；

计算所有所述相关词语对的相似度，并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语；

对替换后的所述字符标注结果重新进行字符标注，得到所述融合标注结果。

例如，所述方法还包括：

按照预设的递减函数根据所述字符标注模型的训练次数更新所述置信度阈值与所述相似度阈值。

第二方面，提供了一种基于教师监督的文本标注设备，所述设备包括：

字符标注模块，用于利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；

词语分割模块，用于通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；

融合标注模块，用于根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。

例如，所述字符标注模块，还用于：

例如，所述融合标注模块，还用于：

将所述融合标注结果添加至融合标注集合；

所述字符标注模块，还用于：

利用所述新的训练样本集合对所述字符标注模型进行训练。

例如，所述词语分割模块，还用于：

所述字符标注模块，还用于：

例如，所述词语分割模块，具体用于：

例如，所述融合标注模块，具体用于：

例如，所述融合标注模块，还用于：

第三方面，提供了一种基于教师监督的文本标注设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的基于教师监督的文本标注方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的基于教师监督的文本标注方法。

本申请实施例提供的技术方案带来的有益效果是：

第一，利用词语分割模型对字符标注模型的字符标注结果进行检查和纠正，提高了字符标注模型对待标注文本进行标注处理的准确率和可靠性。第二，将最终得到的融合标注结果作为训练样本对字符标注模型进行训练，进而对剩余待标注文本进行标注处理，优化文本标注任务所需的模型参数，使字符标注结果更加可信。第三，当将字符标注模型应用到新的领域时，文本标注设备通过教师监督算法，可以快速检查和纠正字符标注结果，并利用融合标注结果强化训练字符标注模型，提高字符标注模型的准确率。第四，将针对包含词语分割模型无法识别的新词的待标注文本添加至训练样本集合，可以增强字符标注模型的泛化性，避免对词语边缘的标注固化，进而提高字符标注模型的召回率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于教师监督的文本标注方法的流程图；

图2为本申请实施例提供的一种基于教师监督的文本标注方法的逻辑示意图；

图3为本申请实施例提供的一种基于教师监督的文本标注设备的功能模块示意图；

图4为本申请实施例提供的一种基于教师监督的文本标注设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例作详细描述。

本申请实施例提供了一种基于教师监督的文本标注方法，该方法的执行主体可以是文本标注设备，该文本标注设备可以通过基于字符粒度的深度学习模型(可称作字符标注模型)对一个文本标注任务中的大量待标注文本进行标注处理，然后通过基于词语粒度的语言模型(可称作词语分割模型)对相同的待标注文本进行词语分割处理(可称作分词处理)，进而利用词语分割的结果(可称作分词结果)对初步标注的结果(可称作字符标注结果)进行检查和纠正，将融合标注结果作为待标注文本的最终标注结果。上述文本标注设备可以包括处理器和存储器，处理器可以用于进行下述流程中执行文本标注的处理，存储器可以用于存储下述处理过程中需要的数据以及产生的数据。

下面将结合具体实施例，对本申请实施例提供的一种基于教师监督的文本标注方法进行详细的说明。为了便于理解，请结合参考图1和图2，图1为本申请实施例提供的一种基于教师监督的文本标注方法的流程图；图2示出了基于教师监督的文本标注方法的实现逻辑，其中序号1至11分别代表文本标注设备在执行文本标注方法的过程中各个处理的逻辑顺序。

步骤101，文本标注设备利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果。

在实施中，针对待标注文本主要为词语之间无明显边界的语言文字(例如中文)的文本标注任务，一条待标注文本中通常包含一个或多个以名称为标识的词语，词语可以是单个字符，也可以由两个以上字符组成。因此，文本标注设备可以利用字符标注模型来预测每条待标注文本中的每个字符对应的标签，进而识别每条待标注文本中包含的一个或多个词语，生成包含一个或多个标注词语的字符标注结果。以字符标注模型为命名实体识别模型(Named Entity Recognition，NER)为例，假设所有已标注文本和未标注文本中共有两类命名实体：地名和组织机构，对应的，针对所有已标注文本和未标注文本中的各个字符对应以下五类标签之一：LOC-B(地名首字)，LOC-I(地名非首字)，ORG-B(组织机构首字)，ORG-I(组织机构非首字)，O(非命名实体)。针对待标注文本“日本的富士山”，文本标注设备利用命名实体识别模型对待标注文本中每个字符的初步标注结果为：日/LOC-B、本/LOC-I、的/O、富/ORG-B、士/ORG-I、山/ORG-I，基于该初步标注结果，文本标注设备可以生成包含“日本”和“富士山”这两个标注词语的字符标注结果。其中，上述的标签是技术人员预先设置的，不同的文本标注任务可以具备不同标签。

值得一提的是，有些待标注文本中除了一种语言文字外，还可能夹杂少量其他语言文字。例如，一条主要为中文的待标注文本中可能包含双语命名实体“IP地址”，此时，字符标注模型可以基于英文单词粒度(word粒度)对待标注文本中的英文进行标注。文本标注设备可以将英文单词“IP”标注为首字，将“地”和“址”均标注为非首字。

例如，文本标注设备可以在使用字符标注模型标注文本前，先利用预先设置的一定数量的已标注文本对初始字符标注模型进行训练。相应的，步骤101之前的处理可以如下：文本标注设备利用训练样本集合中的已标注文本对初始字符标注模型进行训练，生成字符标注模型。

在实施中，在文本标注设备利用字符标注模型对待标注文本进行标注处理之前，技术人员可以预先对文本标注任务中的少量待标注文本进行人工标注，得到包含多条已标注文本的训练样本集合。文本标注设备利用训练样本集合中经过人工标注的多条已标注文本对初始字符标注模型进行训练，生成字符标注模型。可以理解，不同的文本标注任务中的待标注文本的特征存在一定差别，因此，针对不同的文本标注任务，字符标注模型所需的用于预测每条待标注文本中的每个字符对应的标签的模型参数也会不同。针对一个文本标注任务，文本标注设备需要利用该文本标注任务对应的训练样本集合对初始字符标注模型进行训练，从而获得该文本标注任务所需的模型参数，初步生成该文本标注任务适用的字符标注模型。

步骤102，文本标注设备通过预设的词语分割模型对待标注文本进行分词处理，生成包含分词词语的分词结果。

在实施中，技术人员可以选择与字符标注模型具有相同的语言表征特性的基于词语粒度的语言模型(例如中文分词系统(Chinese Segmentation System)、深度语境化词向量模型(Embedding From Language Model，ELMo)、知识图谱(Knowledge Graph)等)，使文本标注设备通过迁移学习预先对经过预训练的语言模型进行细微调整(例如，文本标注设备采用训练样本集合中经过人工标注的多条已标注文本对经过预训练的语言模型进行再次训练)，得到适用于当前文本标注任务的语言模型(词语分割模型)，无需从零开始训练一个词语分割模型，以减少模型训练时间。文本标注设备可以通过该词语分割模型对待标注文本进行分词处理，生成包含分词词语的分词结果。以词语分割模型为中文分词系统为例，文本标注设备可以通过中文分词系统对待标注文本“日本的富士山”进行分词处理，生成包含“日本”、“的”和“富士山”这三个分词词语的分词结果。

例如，文本标注设备利用字符标注模型生成的字符标注结果中的标注词语可能被标注错误，因此可以预先设置置信度阈值来评估字符标注结果是否可信。相应的，步骤102的具体处理可以如下：若字符标注结果的平均置信度超过置信度阈值，文本标注设备则通过预设的词语分割模型对待标注文本进行分词处理，生成包含分词词语的分词结果。

在实施中，文本标注设备利用字符标注模型对待标注文本进行标注处理时，可以计算每个字符的初步标注结果的置信度，并计算待标注文本的所有字符对应的置信度的平均数，得到待标注文本的字符标注结果的平均置信度。当字符标注结果的平均置信度超过置信度阈值，说明该字符标注结果在一定程度上是可信的，此时，文本标注设备则可以通过预设的词语分割模型对待标注文本进行分词处理，以利用分词结果检查字符标注结果是否标注正确，并对字符标注结果中标注错误的标注词语进行纠正。可以理解，当字符标注结果的平均置信度未达到置信度阈值，说明该字符标注结果在一定程度上是不可信的，字符标注模型对该待标注文本进行标注处理失败，此时，可以将该字符标注结果对应的待标注文本丢弃。其中，每个字符的初步标注结果的置信度的计算方法可以如下：文本标注设备利用命名实体识别模型的LSTM层(Long Short-Term Memory，长短期记忆)先计算出待标注文本中的每个字符被标注为预设的各个标签的评分，然后根据每个字符对应的各个标签的评分利用命名实体识别模型的CRF层(Conditional Random Fields，条件随机场)生成字符标注结果及字符标注结果中每个字符的初步标注结果的置信度(Confidence)。其中，置信度为CRF层的输出结果，具体计算过程本申请在此不作赘述。

步骤103，文本标注设备根据每个标注词语与每个分词词语的相似度，基于分词词语对字符标注结果重新进行字符标注，得到融合标注结果并输出。

在实施中，文本标注设备可以利用词语分割模型生成的分词结果检查字符标注模型生成的字符标注结果是否标注正确。具体的，文本标注设备可以利用基于统计为主的机器学习算法(例如，TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文本频率)结合Cosine similarity(余弦相似性)、汉明距离或SimHash等)计算字符标注结果与分词结果的相似度。标注词语与分词词语的相似度的值越大，说明该标注词语与该分词词语的属性和功能越相近，因此，当相似度达到一定的标准，文本标注设备可以基于分词词语对字符标注结果重新进行字符标注，从而得到融合标注结果，并将融合标注结果作为标注结果进行输出。

例如，针对相同待标注文本，文本标注设备可以对字符标注结果中的所有标注词语与分词结果中的所有分词词语的相似度进行分别计算，相应的，步骤103的具体处理可以如下：文本标注设备对字符标注结果中的每个标注词语与分词结果中的每个分词词语进行排列组合，得到相关词语对；文本标注设备计算所有相关词语对的相似度，并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语；文本标注设备对替换后的字符标注结果重新进行字符标注，得到融合标注结果。

在实施中，以待标注文本为“日本的富士山”为例，文本标注设备通过命名实体识别模型对“日本的富士山”的初步标注结果可能为：日/LOC-B、本/LOC-I、的/LOC-I、富/O、士/ORG-B、山/ORG-I，基于该初步标注结果，文本标注设备生成的字符标注结果为“日本的”和“士山”；文本标注设备通过中文分词系统生成的分词结果为“日本”、“的”和“富士山”。此时，文本标注设备对字符标注结果及分词结果进行排列组合得到的所有相关词语对为：(日本的，日本)、(日本的，的)、(日本的，富士山)、(士山，日本)、(士山，的)和(士山，富士山)。之后，文本标注设备可以利用基于统计为主的机器学习算法计算出相似度超过相似度阈值的相关词语对为(日本的，日本)和(士山，富士山)，文本标注设备用分词词语“日本”和“富士山”分别替换字符标注结果中对应的标注词语“日本的”和“士山”。由于分词词语未携带基于字符粒度的标签，文本标注设备可以对替换后的字符标注结果重新进行字符标注，得到融合标注结果：日/LOC-B本/LOC-I的/O富/ORG-B士/ORG-I山/ORG-I。

例如，可以将融合标注结果作为训练样本对字符标注模型进行增强训练，相应的，步骤103之后的处理还可以如下：文本标注设备基于融合标注结果和训练样本集合对字符标注模型进行训练。

在实施中，为了获得大量训练样本来优化字符标注模型的性能，并且尽可能减少人工投入，可以将融合标注结果作为训练样本对字符标注模型进行训练(可称作迭代训练)，同时采用训练样本集合中的已标注文本对字符标注模型进行训练，增强正确标注的标注词语占有的权重。

例如，随着字符标注模型的训练次数的增加，可以适当降低置信度阈值，相应的处理还可以如下：文本标注设备按照预设的递减函数根据字符标注模型的训练次数更新置信度阈值与相似度阈值。

在实施中，随着字符标注模型的多次训练，一方面，字符标注模型对待标注文本的字符标注结果越可信，可以降低置信度阈值，使文本标注设备利用词语分割模型对更多的字符标注结果进行检查；另一方面，词语分割模型遇到的新词将不断减少，词语分割模型对待标注文本的分词结果越可信，可以降低相似度阈值，避免因相似度阈值过高导致正确标注的融合标注结果无法被召回。因此，文本标注设备可以按照预先设置的递减函数根据字符标注模型的训练次数更新置信度阈值与相似度阈值。

值得一提的是，用于计算置信度阈值的递减函数可以是：Confidence threshold＝a-1×10 ^-4×time_step；用于计算相似度阈值的递减函数可以是：Similarity threshold＝b-1×10 ^-4×time_step。其中，常数a表示置信度阈值的最大值，取值范围为(0，1)；常数b表示相似度阈值的最大值，取值范围为(0，1)；time_step表示字符标注模型的训练步长，字符标注模型的迭代训练次数越多，训练步长的值越大。可以理解，技术人员可以根据经验设置常数a和常数b的大小，本申请对此不作限制。

例如，对字符标注模型进行训练时采用的训练样本总数可以基本保持一致，文本标注设备基于融合标注结果和训练样本集合对字符标注模型进行训练的具体处理可以如下：文本标注设备将融合标注结果添加至融合标注集合；文本标注设备从融合标注集合和训练样本集合中抽取预设数量的已标注文本，生成新的训练样本集合；文本标注设备利用新的训练样本集合对字符标注模型进行训练。

在实施中，文本标注设备通常需要对字符标注模型进行多次迭代训练来获得性能良好的字符标注模型，从而对更多待标注文本进行准确的标注处理。成功完成待标注文本的标注处理及分词处理之后，文本标注设备可以生成融合标注结果，并将该融合标注结果添加至融合标注集合中。然后，文本标注设备可以分别从融合标注集合和原有的训练样本集合中抽取预设数量的已标注文本组成新的训练样本集合，文本标注设备可以利用新的训练样本集合对字符标注模型进行训练，从而优化字符标注模型的模型参数。例如，对字符标注模型进行训练时采用的训练样本总数可以基本保持在1000条，文本标注设备可以从融合标注集合中随机抽取600条已标注文本，并从原有的训练样本集合中随机抽取400条已标注文本，合并为新的训练样本总数为1000条的训练样本集合，随后利用该新的训练样本集合对字符标注模型进行再次训练。可以理解，文本标注设备可以在保持训练样本总数基本不变的情况下，按照一定比例(例如3：2)分别从融合标注集合及训练样本集合中随机抽取已标注文本，组成新的训练样本集合。

值得一提的是，字符标注模型的性能可以在词语分割模型的监督下获得一定程度的提高，并且快速接近或达到词语分割模型的性能，因此，融合标注集合中融合标注结果的数量可以随着字符标注模型迭代训练次数的增加而不断增多。可以理解，当融合标注集合中融合标注结果的数量不再发生变化时，说明字符标注模型的性能可能未因最近一次的迭代训练得到优化，可以认为字符标注模型的性能已经到达最佳，文本标注设备可以暂停对字符标注模型进行迭代训练。

例如，文本标注任务的待标注文本中可能存在词语分割模型无法识别的新词，文本标注设备可以将经字符标注模型标注过的包含新词的待标注文本加入新的训练样本集合，来提高召回率。相应的，文本标注设备利用新的训练样本集合对字符标注模型进行训练之前的处理还可以如下：若词语分割模型对待标注文本进行分词处理失败，文本标注设备则将字符标注结果添加至回收标注集合；文本标注设备从回收标注集合中抽取预设数量的字符标注结果添加至新的训练样本集合。

在实施中，随着社会不断发展，被人类公认(例如，中外人名、地名、组织机构名、缩略语和派生词等)但未被词语分割模型使用的分词词典收录的词语(可称作新词)会不断产生。针对包含新词的待标注文本，文本标注设备可以通过字符标注模型对待标注文本进行标注处理，生成字符标注结果，但对于未收录在分词词典中的新词，词语分割模型将无法识别，进而无法生成分词结果来对字符标注模型生成的字符标注结果进行监督，不能生成标注正确的融合标注结果。此时，文本标注设备可以将词语分割模型无法准确识别但经过字符标注模型正确标注的待标注文本添加至回收标注集合，文本标注设备从回收标注集合中随机抽取预设数量的字符标注结果添加至新的训练样本集合，以再次对字符标注模型进行训练，可以提高字符标注模型的召回率。可以理解，若回收标注集合中的字符标注结果有误，随机采样可以避免大量错误字符标注结果流入，从字符标注模型已学习的已标注文本来看，标记错误的字符标注结果再次出现的概率较小，对字符标注模型的性能影响不大，并且随着字符标注模型的多次迭代训练，用于训练字符标注模型的标记错误的字符标注结果的权重会进一步弱化，对字符标注模型的性能影响可忽略不计。

值得一提的是，在文本标注设备对字符标注模型进行迭代训练的次数较少时，字符标注模型的性能不稳定，回收标注集合中的字符标注结果出现错误的概率较大，此时，可以人工对文本标注设备从回收标注集合中随机抽取预设数量的字符标注结果进行检查和纠正，将正确标注的字符标注结果添加至新的训练样本集合，一方面可以避免标记错误的字符标注结果对字符标注模型的性能产生影响，另一方面可以增强正确标注的标注词语占有的权重。

本申请实施例中，通过教师监督(Teacher Forcing)对字符标注模型进行迭代训练，可以带来以下有益效果：第一，利用词语分割模型对字符标注模型的字符标注结果进行检查和纠正，提高了字符标注模型对待标注文本进行标注处理的准确率和可靠性。第二，将最终得到的融合标注结果作为训练样本对字符标注模型进行训练，进而对剩余待标注文本进行标注处理，优化文本标注任务所需的模型参数，使字符标注结果更加可信。第三，当将字符标注模型应用到新的领域时，文本标注设备通过教师监督算法，可以快速检查和纠正字符标注结果，并利用融合标注结果强化训练字符标注模型，提高字符标注模型的准确率。第四，将针对包含词语分割模型无法识别的新词的待标注文本添加至训练样本集合，可以增强字符标注模型的泛化性，避免对词语边缘的标注固化，进而提高字符标注模型的召回率。

基于相同的技术构思，本申请实施例还提供了一种基于教师监督的文本标注设备，如图3所示，所述设备包括：

例如，所述字符标注模块，还用于：

例如，所述融合标注模块，还用于：

将所述融合标注结果添加至融合标注集合；

所述字符标注模块，还用于：

利用所述新的训练样本集合对所述字符标注模型进行训练。

例如，所述词语分割模块，还用于：

所述字符标注模块，还用于：

例如，所述词语分割模块，具体用于：

例如，所述融合标注模块，具体用于：

例如，所述融合标注模块，还用于：

需要说明的是：上述实施例提供的基于教师监督的文本标注设备在进行文本标注时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于教师监督的文本标注设备与基于教师监督的文本标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本申请实施例提供的基于教师监督的文本标注设备的结构示意图。该基于教师监督的文本标注设备400可因配置或性能不同而产生比较大的差异，可以包括一个以上中央处理器422(例如，一个以上处理器)和存储器432，一个以上存储应用程序442或数据444的存储介质430(例如一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个以上模块(图示没标出)，每个模块可以包括对文本标注设备400中的一系列指令操作。例如，中央处理器422可以设置为与存储介质430通信，在基于教师监督的文本标注设备400上执行存储介质430中的一系列指令操作。

基于教师监督的文本标注设备400还可以包括一个以上电源429，一个以上有线或无线网络接口450，一个以上输入输出接口458，一个以上键盘456，和/或，一个以上操作系统441，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。

基于教师监督的文本标注设备400可以包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行上述基于教师监督的文本标注的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种基于教师监督的文本标注方法，所述方法包括：

利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；

通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；

根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。
如权利要求1所述的方法，其中，所述利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果之前，还包括：

利用训练样本集合中的已标注文本对初始字符标注模型进行训练，生成所述字符标注模型。
如权利要求2所述的方法，其中，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果之后，还包括：

基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。
如权利要求3所述的方法，其中，所述基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练，包括：

将所述融合标注结果添加至融合标注集合；

从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本，生成新的训练样本集合；

利用所述新的训练样本集合对所述字符标注模型进行训练。
如权利要求4所述的方法，其中，所述利用所述新的训练样本集合对所述字符标注模型进行训练之前，还包括：

若所述词语分割模型对所述待标注文本进行分词处理失败，则将所述字符标注结果添加至回收标注集合；

从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。
如权利要求1所述的方法，其中，所述通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果，包括：

若所述字符标注结果的平均置信度超过置信度阈值，则通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果。
如权利要求1所述的方法，其中，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果，包括：

对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合，得到相关词语对；

计算所有所述相关词语对的相似度，并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语；

对替换后的所述字符标注结果重新进行字符标注，得到所述融合标注结果。
如权利要求6或7所述的方法，其中，所述方法还包括：

按照预设的递减函数根据所述字符标注模型的训练次数更新所述置信度阈值与所述相似度阈值。
一种基于教师监督的文本标注设备，所述设备包括：

字符标注模块，用于利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；

词语分割模块，用于通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；

融合标注模块，用于根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。
如权利要求9所述的设备，其中，所述字符标注模块，还用于：

利用训练样本集合中的已标注文本对初始字符标注模型进行训练，生成所述字符标注模型。
如权利要求10所述的设备，其中，

所述融合标注模块，还用于：

将所述融合标注结果添加至融合标注集合；

所述字符标注模块，还用于：

从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本，生成新的训练样本集合；

利用所述新的训练样本集合对所述字符标注模型进行训练。
如权利要求9所述的设备，其中，所述词语分割模块，具体用于：

若所述字符标注结果的平均置信度超过置信度阈值，则通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果。
如权利要求9所述的设备，其中，所述融合标注模块，具体用于：

对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合，得到相关词语对；

计算所有所述相关词语对的相似度，并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语；

对替换后的所述字符标注结果重新进行字符标注，得到所述融合标注结果。
一种基于教师监督的文本标注设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的基于教师监督的文本标注方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的基于教师监督的文本标注方法。