WO2024000822A1

WO2024000822A1 - 文本分类标注样本的异常检测方法、装置、设备及介质

Info

Publication number: WO2024000822A1
Application number: PCT/CN2022/118488
Authority: WO
Inventors: 张健; 王子豪; 王子; 唐家英; 陈运文; 纪达麒
Original assignee: 达而观信息科技（上海）有限公司
Priority date: 2022-06-28
Filing date: 2022-09-13
Publication date: 2024-01-04
Also published as: CN115098679A; CN115098679B

Abstract

本文公开了一种文本分类标注样本的异常检测方法、装置、设备及介质。该本分类标注样本的异常检测方法包括：获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，对文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

Description

文本分类标注样本的异常检测方法、装置、设备及介质

本申请要求在2022年06月28日提交中国专利局、申请号为202210749204.X的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机数据处理技术，例如涉及一种文本分类标注样本的异常检测方法、装置、设备及介质。

背景技术

文本分类是机器学习领域中一项常见的处理任务，应用场景包括新闻分类、情感分析、意图识别等等。在实际的文本分类任务处理过程中，首先需要开发人员针对场景所需的分类标签完成一定量的标注样本，然后通过模型训练来完成文本分类服务构建。在此过程，标注样本的质量会和文本服务预测的准确率密切相关。标注质量高的样本集构建模型性能就较好，反之就会导致比较差的分类效果。影响标注质量产生噪声样本的原因有多种，包括标注团队内部标准不一致和标注人员的主观判断有错误等，所以样本去噪是文本分类应用开发过程的重要环节。

相关技术中，在通过判断神经网络是否收敛的方式剔除噪声样本时，有可能会在发生冲突的样本中选择正常的样本进行剔除、保留错误的样本，导致数据质量降低。噪声样本识别准确率过低容易引入大量人工工作，也会导致正常样本被错误的过滤掉，而噪声样本被保留。

发明内容

本申请提供了一种文本分类标注样本的异常检测方法、装置、设备及介质，以实现有效地对文本分类标注样本进行异常检测，降低样本去噪的人力成本。

本申请提供了一种文本分类标注样本的异常检测方法，包括：

获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；

计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；

在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；

根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

本申请还提供了一种文本分类标注样本的异常检测装置，包括：

文本分类标注数据集获取模块，设置为获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；

聚类簇确定模块，设置为于计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；

分类子簇确定模块，设置为在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；

异常分类子簇识别模块，设置为根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

本申请还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的文本分类标注样本的异常检测方法。

本申请还提供了一种包含计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现上述的文本分类标注样本的异常检测方法。

附图说明

图1为本申请实施例一提供的一种文本分类标注样本的异常检测方法的流程图；

图2为本申请实施例二提供的一种文本分类标注样本的异常检测方法的流程图；

图3为本申请实施例三提供的一种文本分类标注样本的异常检测装置的结构示意图；

图4为本申请实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的具体实施例仅仅用于解释本申请。为了便于描述，附图中仅示出了与本申请相关的部分。

实施例一

图1为本申请实施例一提供的一种文本分类标注样本的异常检测方法的流程图。本实施例可适用于对文本分类标注样本进行样本去噪的情况。本实施例的方法可以由文本分类标注样本的异常检测装置执行，该装置可以通过软件和/或硬件的方式实现，该装置可配置于服务器或者终端设备中。

该方法包括：

S110、获取待去噪的文本分类标注数据集。

每个文本分类标注数据中包括分类标签。

文本分类标注数据集是包括多个文本分类标注数据的数据集合，可以通过分类标签将多个文本分类标注数据分成不同的种类。

示例性的，假设在文本分类标注数据集存中在100个文本分类标注数据，其中，分类标签A中存在20个文本分类标注数据，分类标签B中存在50个文本分类标注数据，分类标签C中存在25个文本分类标注数据，分类标签D中存在5个文本分类标注数据。

S120、计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇。

语义相似度可以表示两个文本分类标注数据之间的相似度，可以根据训练好的语义相似度模型来计算两个文本分类标注数据的余弦距离，进而得出两个文本分类标注数据之间的语义相似度。聚类处理可以是运用形态学算子将临近的类似分类区域聚类并合并，也就是将相似的文本分类标注数据进行聚类处理。聚类簇可以是由聚类所生成的一组样本的集合，同一簇内样本彼此相似，与其他簇中的样本相异。将相似的文本分类标注数据进行聚类处理之后，可以得到一个或者多个聚类簇。

计算每两个文本分类标注数据之间的语义相似度，包括：将每两个文本分类标注数据输入至预先训练的语义相似度模型中，获取所述每两个文本分类标注数据之间的语义相似度。

语义相似度模型可以是根据输入的两个文本分类标注数据，计算出两者之间的语义相似度的模型。

续前例，假设在文本分类标注数据集中存在100个文本分类标注数据。计算100个文本分类标注数据中每两个文本分类标注数据之间的语义相似度。接着可以根据语义相似度计算结果，对文本分类标注数据集中的文本分类标注数据进行聚类处理。假设可以得到2个聚类簇。分类标签A中存在的20个文本分类标注数据和分类标签D中存在的5个文本分类标注数据可以聚为一类，得到聚类簇1。分类标签B中存在的50个文本分类标注数据和分类标签C中存在的25个文本分类标注数据可以聚为一类，得到聚类簇2。

这样设置的好处在于：通过将每两个文本分类标注数据输入至预先训练的语义相似度模型中，得到语义相似度。可以使得计算两者之间的语义相似度更加方便，通过语义相似度模型进行语义相似度的计算更加合理准确。

S130、在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇。

二次聚类可以是在得到的聚类簇里再进行聚类处理，得到更加相似的分类子簇。分类子簇可以是在聚类簇里中存在的子簇，在一个聚类簇里可以包含一个或者多个分类子簇。

续前例，在得到的聚类簇1和聚类簇2中，对相同分类标签的多个文本分类标注数据进行二次聚类。聚类簇1中可以得到两个分类子簇，分类标签A中存在的20个文本分类标注数据为分类子簇1，以及分类标签D中存在的5个文本分类标注数据为分类子簇2。聚类簇2中可以得到两个分类子簇，分类标签B中存在的50个文本分类标注数据为分类子簇3，以及分类标签C中存在的25个文本分类标注数据为分类子簇4。

S140、根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

异常分类子簇可以是在聚类簇里，不满足占比权重过滤阈值的分类子簇。

根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇，包括：统计在当前分类子簇中的文本分类标注数据的数量，并计算所述当前分类子簇中的文本分类标注数据的数量占所述当前分类子簇所属聚类簇中的文本分类标注数据的数量的占比权重值；判断所述占比权重值是否大于预设的占比权重过滤阈值，若所述占比权重值不大于预设的占比权重过滤阈值，将所述当前分类子簇中的文本分类标注数据识别为异常分类子簇。

占比权重值可以是当前分类子簇在所属聚类簇所占的权重值的大小。占比权重过滤阈值可以是预先设置的占比权重值的过滤阈值，假设当前分类子簇的占比权重值小于或者等于占比权重过滤阈值，则当前分类子簇为异常分类子簇。假设当前分类子簇的占比权重值大于占比权重过滤阈值，则当前分类子簇为正常分类子簇。

续前例，假设占比权重过滤阈值为30％。在聚类簇1中，可以计算出分类子簇1的占比权重值为80％，由于80％大于30％，则分类子簇1为正常分类子簇。分类子簇2的占比权重值为20％，由于20％小于30％，则分类子簇2为异常分类子簇。

在聚类簇2中，可以计算出分类子簇3的占比权重值为66.67％，由于66.67％大于30％，则分类子簇3为正常分类子簇。分类子簇4的占比权重值为33.33％，由于33.33％大于30％，则分类子簇4为正常分类子簇。

这样设置的好处在于：通过计算当前分类子簇中的分类标注数据的数量占所属聚类簇中的文本分类标注数据的数量的占比权重值，并与预设的占比权重过滤阈值进行比较，可以确定当前分类子簇属于正常分类子簇或者异常分类子簇。这样可以根据计算出的占比权重值，有效地对当前分类子簇进行判断，提高了异常分类子簇判断的有效性和可靠性。

本申请实施例所提供的技术方案，通过获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，对文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。本申请实施例，解决了由于样本去噪模型识别准确率低而造成工作人员工作量大，以及样本去噪没有解释性说明的问题，实现了有效地对文本分类标注样本进行异常检测，提高了样本去噪的准确率，降低了样本去噪的人力成本。

在将每两个文本分类标注数据输入至预先训练的语义相似度模型中之前，还包括：将获取到的两个样本分类标注数据分别输入至参数共享层，得到两个样本分类标注数据分别对应的多个字向量；将第一样本分类标注数据对应的多个字向量输入至池化层，得到第一样本分类标注数据向量，将第二样本分类标注数据对应的多个字向量输入至池化层，得到第二样本分类标注数据向量；计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值，得到样本分类标注数据差值向量；拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量，得到样本分类标注数据拼接向量；将样本分类标注数据拼接向量输入至语义分类器中来训练，训练完成之后得到语义相似度模型。

样本分类标注数据可以是在样本分类标注数据集中获取的样本数据。参数共享层可以是能够对接收到的样本分类标注数据进行处理的共享层，参数共享层可以是sentence-Bert语义相似度模型中的Bert层，能够将接收到的样本分类标注数据用字向量的方式进行表示。字向量可以是样本分类标注数据中的每个字进行向量化的处理后得到的向量。

第一样本分类标注数据可以是两个样本分类标注数据中的一个样本数据。池化层可以通过对数据进行分区采样，把一个大的矩阵降采样成一个小的矩阵，减少计算量，同时可以防止过拟合。本实施例中将样本分类标注数据对应的多个字向量输入至池化层是指将样本分类标注数据对应的所有字向量进行均值处理。第一样本分类标注数据向量可以是第一样本分类标注数据对应的所有字向量进行均值处理而得到的向量。第二样本分类标注数据可以是两个样本分类标注数据中的另一个样本数据。第二样本分类标注数据向量可以是第二样本分类标注数据对应的所有字向量进行均值处理而得到的向量。样本分类标注数据差值向量可以是计算两个样本分类标注数据向量之间的差值，根据得到的差值进行绝对值处理之后得到的差值向量。样本分类标注数据拼接向量可以是由两个或者多个向量进行拼接得到的向量。语义分类器可以是能够对输入的样本分类标注数据拼接向量进行语义分类的处理层。

示例性的，假设获取到两个样本分类标注数据，分别为第一样本分类标注数据和第二样本分类标注数据。将第一样本分类标注数据和第二样本分类标注数据分别输入至参数共享层，第一样本分类标注数据得到的字向量为{m ₁，m ₂，m ₃，…，m _p}；第二样本分类标注数据得到的字向量为{n ₁，n ₂，n ₃，…,n _q}。将第一样本分类标注数据对应的多个字向量输入至池化层，得到第一样本分类标注数据向量为

将第二样本分类标注数据对应的多个字向量输入至池化层，得到第二样本分类标注数据向量为

因此可以得到样本分类标注数据差值向量为|u-v|。

将向量u、v以及|u-v|进行拼接处理，得到样本分类标注数据拼接向量为w＝{u,v,|u-v}，假设向量u和向量v为三维向量，那样本分类标注数据拼接向量w为九维向量。相应的，将样本分类标注数据拼接向量w输入至语义分类器中来训练，训练完成之后得到语义相似度模型。

这样设置的好处在于：通过样本分类标注数据对语义相似度模型进行训练，这样使得训练出的语义相似度模型可以更加准确地输出两个文本分类标注数据之间的语义相似度，从而能更加准确地对多个文本分类标注数据进行聚类处理。

在根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇之后，还包括：在所述异常分类子簇中的每个文本分类标注数据中添加解释标签，并将添加解释标签后的文本分类标注数据反馈给用户。

解释标签可以是能够对异常分类子簇的占比权重值进行解释的标签。

续前例，假设占比权重过滤阈值为30％。在聚类簇1中，可以计算出分类子簇1的占比权重值为80％，由于80％大于30％，则分类子簇1为正常分类子簇。分类子簇2的占比权重值为20％，由于20％小于30％，则分类子簇2为异常分类子簇。分类子簇1对应标签A，分类子簇2对应标签D。由于分类子簇1为正常分类子簇，所以不需要添加解释标签并反馈给用户。由于分类子簇2为异常分类子簇，可以添加解释标签为：在聚类簇1中，标签D的的占比权重值为20％，标签D的占比权重值低于阈值。

在聚类簇2中，可以计算出分类子簇3的占比权重值为66.67％，由于66.67％大于30％，则分类子簇3为正常分类子簇。分类子簇4的占比权重值为33.33％，由于33.33％大于30％，则分类子簇4为正常分类子簇。分类子簇3对应标签B，分类子簇4对应标签C。由于分类子簇3和分类子簇4均为正常分类子簇，所以不需要添加解释标签并反馈给用户。

这样设置的好处在于：通过在识别出的异常分类子簇中的每个文本分类标注数据中添加解释标签，并反馈给用户。可以更加便利工作人员的工作，能够降低工作人员的工作量，提高工作人员的效率，增加了异常分类子簇对应的标签的可读性。

实施例二

图2为本申请实施例二提供的一种文本分类标注样本的异常检测方法的流程图。本实施例以上述实施例为基础进行说明，在本实施例中，对根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇进行说明。

相应的，该方法包括：

S210、获取待去噪的文本分类标注数据集。

S220、计算每两个文本分类标注数据之间的语义相似度。

S230、根据所述语义相似度计算结果，构建得到语义相似度矩阵。

所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度。

语义相似度矩阵可以是由每两个文本分类标注数据之间的语义相似度来进行填充，得到的相似度矩阵。

S240、在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据，并标注所述目标数据的状态为已处理状态。

目标数据可以是在文本分类标注数据集中选取的一个未处理的文本分类标注数据，将其作为目标处理的数据。

S250、以所述目标数据为起点，查询所述语义相似度矩阵，逐次遍历所述文本分类标注数据集中所述目标数据的全部密度相连数据。

全部密度相连数据可以是与目标数据所关联的密度相连数据，能够反映出目标数据与其他数据的紧密程度，从而可以判别是否可以进行聚类。

S260、将所述目标数据与所述全部密度相连数据共同组成一个聚类簇，并标注每个密度相连数据的状态为已处理状态。

S270、判断在全部文本分类标注数据中是否存在未处理的文本分类标注数据，若存在未处理的文本分类标注数据，则返回执行S240，若不存在未处理的文本分类标注数据，则执行S280。

S280、在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇。

S290、根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

示例性的，首先可以获取到待去噪的文本分类标注数据集，假设文本分类标注数据集包含100个文本分类标注数据，计算每两个文本分类标注数据之间的语义相似度，从而可以得到语义相似度矩阵。假设在100个文本分类标注数据中存在90个未处理的文本分类标注数据，则在90个未处理的文本分类标注数据中选取一个未处理的文本分类标注数据作为目标数据1，并且标注目标数据1的状态为已处理状态。以目标数据1为起点，查询语义相似度矩阵，逐次遍历文本分类标注数据集中目标数据1的全部密度相连数据，假设存在20个密度相连数据。将目标数据1与20个密度相连数据共同组成一个聚类簇1，并分别标注20个密度相连数据的状态为已处理状态。这时剩余69个未处理的文本分类标注数据。因此在69个未处理的文本分类标注数据中选取一个未处理的文本分类标注数据作为目标数据，同理可以得到剩余的聚类簇。假设处理完毕之后，得到3个聚类簇。

分别在3个聚类簇中的每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇。根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇之后，还包括：将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。

孤立文本分类标注数据可以是进行聚类处理之后，不属于任何一个聚类簇的数据。异常标注数据可以是属于异常状态的文本分类标注数据。

示例性的，假设在待去噪的文本分类标注数据集中包含100个文本分类标注数据，进行聚类处理之后，可得到3个聚类簇和5个孤立文本分类标注数据，则将其识别为异常标注数据。

一个实施例中，假设文本分类标注数据集中包含100个文本分类标注数据，可以设置每个聚类簇中至少存在10个文本分类标注数据才可以确定为有效的聚类簇。假设对100个文本分类标注数据进行聚类处理之后，可得到4个聚类簇，聚类簇1中包含20个文本分类标注数据，聚类簇2中包含5个文本分类标注数据，聚类簇3中包含50个文本分类标注数据，聚类簇4中包含25个文本分类标注数据。虽然聚类簇2中的5个文本分类标注数据能够进行聚类，但是由于不满足有效的聚类簇的阈值条件，因此聚类簇2的5个文本分类标注数据识别为异常标注数据。

本申请实施例所提供的技术方案，通过获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，根据所述语义相似度计算结果，构建得到语义相似度矩阵；在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据，并标注所述目标数据的状态为已处理状态；以所述目标数据为起点，查询所述语义相似度矩阵，逐次遍历所述文本分类标注数据集中所述目标数据的全部密度相连数据；将所述目标数据与所述全部密度相连数据共同组成一个聚类簇，并标注每个密度相连数据的状态为已处理状态；返回执行在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据的操作，直至完成对全部文本分类标注数据的处理；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。本申请实施例，实现了能够有效地对文本分类标注样本进行聚类处理，进而提高了样本去噪的准确率。

实施例三

图3为本申请实施例三提供的一种文本分类标注样本的异常检测装置的结构示意图，本实施例所提供的一种文本分类标注样本的异常检测装置可以通过软件和/或硬件来实现，可配置于终端设备或者服务器中。文本分类标注样本的异常检测装置设置为实现本申请实施例中的任一种文本分类标注样本的异常检测方法。如图3所示，该装置可包括：文本分类标注数据集获取模块310、聚类簇确定模块320、分类子簇确定模块330和异常分类子簇识别模块340。

文本分类标注数据集获取模块310，设置为获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；聚类簇确定模块320，设置为计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；分类子簇确定模块330，设置为在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；异常分类子簇识别模块340，设置为根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

本申请实施例所提供的技术方案，通过获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，对文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。本申请实施例，解决了由于样本去噪模型识别准确率低而造成工作人员工作量大，以及样本去噪没有解释性说明的问题，实现了能够有效地对文本分类标注样本进行异常检测，提高了样本去噪的准确率，降低了样本去噪的人力成本。

在上述实施例的基础上，聚类簇确定模块320，可以设置为：将每两个文本分类标注数据输入至预先训练的语义相似度模型中，获取所述每两个文本分类标注数据之间的语义相似度。

在上述实施例的基础上，还包括，语义相似度模型训练模块，可以设置为：在将每两个文本分类标注数据输入至预先训练的语义相似度模型中之前，将获取到的两个样本分类标注数据分别输入至参数共享层，得到两个样本分类标注数据分别对应的多个字向量；将第一样本分类标注数据对应的多个字向量输入至池化层，得到第一样本分类标注数据向量，将第二样本分类标注数据对应的多个字向量输入至池化层，得到第二样本分类标注数据向量；计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值，得到样本分类标注数据差值向量；拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量，得到样本分类标注数据拼接向量；将样本分类标注数据拼接向量输入至语义分类器中来训练，训练完成之后得到语义相似度模型。

在上述实施例的基础上，聚类簇确定模块320，可以设置为：根据所述语义相似度计算结果，构建得到语义相似度矩阵，其中，所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度；在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据，并标注所述目标数据的状态为已处理状态；以所述目标数据为起点，查询所述语义相似度矩阵，逐次遍历所述文本分类标注数据集中所述目标数据的全部密度相连数据；将所述目标数据与所述全部密度相连数据共同组成一个聚类簇，并标注每个密度相连数据的状态已处理状态；返回执行在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据的操作，直至完成对全部文本分类标注数据的处理。

在上述实施例的基础上，还包括，异常标注数据确定模块，可以设置为：将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。

在上述实施例的基础上，异常分类子簇识别模块340，可以设置为：统计在当前分类子簇中的文本分类标注数据的数量，并计算所述当前分类子簇中的文本分类标注数据的数量占所述当前分类子簇所属聚类簇中的文本分类标注数据的数量的占比权重值；判断所述占比权重值是否大于预设的占比权重过滤阈值，响应于所述占比权重值不大于所述预设的占比权重过滤阈值，将所述当前分类子簇识别为异常分类子簇。

在上述实施例的基础上，还包括，解释标签添加模块，可以设置为：在根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇之后，在所述异常分类子簇中的每个文本分类标注数据中添加解释标签，并将添加解释标签后的文本分类标注数据反馈给用户。

上述文本分类标注样本的异常检测装置可执行本申请任意实施例所提供的文本分类标注样本的异常检测方法，具备执行方法相应的功能模块和效果。

实施例四

图4为本申请实施例四提供的一种计算机设备的结构示意图。如图4所示，该设备包括处理器410、存储器420、输入装置430和输出装置440；设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的文本分类标注样本的异常检测方法对应的程序指令/模块(例如，文本分类标注数据集获取模块310、聚类簇确定模块320、分类子簇确定模块330和异常分类子簇识别模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的多种功能应用以及数据处理，即实现上述的文本分类标注样本的异常检测方法，该方法包括：

获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可设置为接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本申请实施例五还提供一种包含计算机可读存储介质，所述计算机可读指令在由计算机处理器执行时用于执行一种文本分类标注样本的异常检测方法，该方法包括：获取待去噪的文本分类标注数据集；计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。

本申请实施例所提供的一种包含计算机可读存储介质，其计算机可读指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的文本分类标注样本的异常检测方法中的相关操作。

通过以上关于实施方式的描述，了解到，本申请可借助软件及必需的通用硬件来实现，也可以通过硬件实现。本申请的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述的方法。

上述文本分类标注样本的异常检测装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种文本分类标注样本的异常检测方法，包括：

获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；

计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；

在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；

根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。
根据权利要求1所述的方法，其中，所述计算每两个文本分类标注数据之间的语义相似度，包括：

将每两个文本分类标注数据输入至预先训练的语义相似度模型中，获取所述每两个文本分类标注数据之间的语义相似度。
根据权利要求2所述的方法，在所述将每两个文本分类标注数据输入至预先训练的语义相似度模型中之前，还包括：

将获取到的两个样本分类标注数据分别输入至参数共享层，得到所述两个样本分类标注数据分别对应的多个字向量；

将第一样本分类标注数据对应的多个字向量输入至池化层，得到第一样本分类标注数据向量，将第二样本分类标注数据对应的多个字向量输入至所述池化层，得到第二样本分类标注数据向量；

计算所述第一样本分类标注数据向量和所述第二样本分类标注数据向量的差值的绝对值，得到样本分类标注数据差值向量；

拼接所述第一样本分类标注数据向量、所述第二样本分类标注数据向量以及所述样本分类标注数据差值向量，得到样本分类标注数据拼接向量；

将样本分类标注数据拼接向量输入至语义分类器中来训练，训练完成之后得到所述语义相似度模型。
根据权利要求1所述的方法，其中，所述根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇，包括：

根据所述语义相似度计算结果，构建得到语义相似度矩阵，其中，所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度；

在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据，并标注所述目标数据的状态为已处理状态；

以所述目标数据为起点，查询所述语义相似度矩阵，逐次遍历所述文本分类标注数据集中所述目标数据的全部密度相连数据；

将所述目标数据与所述全部密度相连数据共同组成一个聚类簇，并标注每个密度相连数据的状态为已处理状态；

返回执行在所述文本分类标注数据集中，获取一个未处理的文本分类标注数据作为目标数据的操作，直至完成对全部文本分类标注数据的处理。
根据权利要求4所述的方法，其中，所述根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇之后，还包括：

将不属于一聚类簇的孤立文本分类标注数据识别为异常标注数据。
根据权利要求1-5任一项所述的方法，其中，所述根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇，包括：

统计在当前分类子簇中的文本分类标注数据的数量，并计算所述当前分类子簇中的文本分类标注数据的数量占所述当前分类子簇所属聚类簇中的文本分类标注数据的数量的占比权重值；

判断所述占比权重值是否大于预设的占比权重过滤阈值，响应于所述占比权重值不大于所述预设的占比权重过滤阈值，将所述当前分类子簇识别为所述异常分类子簇。
根据权利要求1-5任一项所述的方法，在所述根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇之后，还包括：

在所述异常分类子簇中的每个文本分类标注数据中添加解释标签，并将添加解释标签后的文本分类标注数据反馈给用户。
一种文本分类标注样本的异常检测装置，包括：

文本分类标注数据集获取模块，设置为获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；

聚类簇确定模块，设置为计算每两个文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集中的文本分类标注数据进行聚类处理，得到至少一个聚类簇；

分类子簇确定模块，设置为在每个聚类簇中，对相同分类标签的多个文本分类标注数据进行二次聚类，得到与每个聚类簇对应的分类子簇；

异常分类子簇识别模块，设置为根据分类子簇中的文本分类标注数据在所述分类子簇所属聚类簇中的文本分类标注数据中的数量占比，识别异常分类子簇。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的文本分类标注样本的异常检测方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的文本分类标注样本的异常检测方法。