WO2021139279A1

WO2021139279A1 - 基于分类模型的数据处理方法、装置、电子设备及介质

Info

Publication number: WO2021139279A1
Application number: PCT/CN2020/119368
Authority: WO
Inventors: 邓悦; 郑立颖; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-30
Filing date: 2020-09-30
Publication date: 2021-07-15
Also published as: CN111881983B; CN111881983A

Abstract

本申请实施例公开了一种基于分类模型的数据处理方法、装置、电子设备及介质，涉及人工智能中的神经网络技术，其中方法包括：获取日志数据，日志数据包括标记日志数据和无标记日志数据，标记日志数据携带标记信息；对无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据标记日志数据对增强的无标记日志数据进行预测处理，获得增强的无标记日志数据的一致性损失，一致性损失表示：无标记日志数据和增强的无标记日志数据在文本分类网络模型处理中，分别对应的输出之间的距离；基于一致性损失训练文本分类网络模型，获得目标分类模型，以及无标记日志数据的异常信息。

Description

基于分类模型的数据处理方法、装置、电子设备及介质

本申请要求于2020年7月30日提交中国专利局、申请号为202010751730.0，发明名称为“基于分类模型的数据处理方法、装置、电子设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能中的神经网络技术领域，本申请尤其涉及一种基于分类模型的数据处理方法、装置、电子设备及介质。

背景技术

异常检测是智能运营(AIOps)系统中的一项非常基础但是十分重要的功能，主要是通过算法和模型去自动的挖掘发现KPI(Key Performance Indicator)时间序列数据中的异常行为，为后续的报警，自动止损，根因分析等提供必要的决策依据。

日志是由大规模系统生成来记录系统状态和运行时状态的文本信息，每个日志都包括时间戳和指示发生了什么的文本消息。传统的异常日志分类模型为了获取准确率通常使用监督学习方法，采用的是标记日志数据(对正常情况和异常情况有明确的说明)，然而海量日志中具有标记的日志数据十分稀少，而对无标记的日志数据进行标注，在现代化系统的海量日志信息中非常耗费人力和时间。并且发明人意识到，异常类型及KPI类型多样，给异常检测带来了极大的困难。

技术问题

传统的异常日志分类模型为了获取准确率通常使用监督学习方法，采用的是标记日志数据(对正常情况和异常情况有明确的说明)，然而海量日志中具有标记的日志数据十分稀少，而对无标记的日志数据进行标注，在现代化系统的海量日志信息中非常耗费人力和时间。并且异常类型及KPI类型多样，给异常检测带来了极大的困难。

技术解决方案

本申请实施例提供一种基于分类模型的数据处理方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种基于分类模型的数据处理方法，所述方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

第二方面，本申请实施例提供了一种基于分类模型的数据处理装置，包括：获取模块，用于获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；数据增强模块，用于对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；测模块，用于基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；练模块，用于基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

第三方面，本申请实施例还提供了一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面及其任一种可能的实施方式所述的方法，其中，所述基于分类模型的数据处理方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面及其任一种可能的实施方式的方法，其中，所述基于分类模型的数据处理方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

有益效果

本申请实施例通过获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

附图说明

图1是本申请实施例提供的一种基于分类模型的数据处理方法的流程示意图；

图2是本申请实施例提供的一种无标记异常日志数据增强方法架构示意图；

图3是本申请实施例提供的另一种基于分类模型的数据处理方法的流程示意图；

图4是本申请实施例提供的一种构建词向量的方法示意图；

图5是本申请实施例提供的一种基于分类模型的数据处理装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

本发明的最佳实施方式

为了解决上述问题，本申请提供了一种基于分类模型的数据处理方法，涉及人工智能中的神经网络技术领域，具体请参见图1，是本申请实施例提供的一种基于分类模型的数据处理方法的示意流程图，如图1所示该方法可包括：

101、获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息。

本申请实施例中的执行主体可以为一种基于分类模型的数据处理装置，具体可以为上述电子设备。

日志是由大规模系统生成来记录系统状态和运行时状态的文本信息，每个日志都包括时间戳和指示发生了什么的文本消息。

上述标记日志数据指的有标记信息的日志数据，标记信息即对正常情况和异常情况有明确的说明(如异常等级：严重、普通、轻微等)，然而海量日志中具有标记的日志数据实在是少之又少，而对无标记日志数据进行标注，在现代化系统的海量日志信息中非常耗费人力和时间。

本申请中可以仅依赖于少量标记日志数据，来对无标记日志数据进行正确的预测，可以极大地扩充模型的异常日志数量，也便于后续使用异常日志的分析和管理。在获取作为样本数据的标记日志数据和无标记日志数据之后，可以执行步骤102。

102、对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据。

本申请实施例中可以使用文本分类网络模型(Text-CNN)，Text-CNN是一种利用卷积神经网络对文本进行分类的算法，是采用卷积神经网络提取文本N-gram特征、最大池化、全连接然后进行分类的一种新型模型，由四部分构成提取文本：输入层、卷积层、池化层、全连接层。

对于上述标记日志数据，可以使用监督学习的方法来计算交叉熵损失函数。而具体的，本申请实施例中对于未标记数据，可以应用一致性训练模式，即异常日志数据和经过数据增强的异常日志数据，在相同模型下的输出是一致的，根据这个原则预测无标记日志数据的标记信息(标签)和增强之后的对应无标记日志数据的预测是否相似。

在一种可选的实施方式中，上述步骤102包括：

对上述无标记日志数据进行回译处理，以及确定上述无标记日志数据中的关键词，根据上述关键词进行同义词替换，获得上述增强的无标记日志数据。

具体的，在一致性训练模式下，对异常日志的具体扩充方法可以采用回译处理的方法。回译即是将A语言的译文B翻译成A语言。回译可分为两种：术语回归回译和翻译精确性测试回译。回译能够在保存日志文本语义不变的情况下，生成不同的表达，增强文本的多样性。

可选的，还可以使用TF-IDF替换单词法，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，其中TF是词频(TermFrequency)，IDF是逆文本频率指数(Inverse Document Frequency)。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

使用TF-IDF优化了EDA(Easy data augmentation，对输入文本进行词语操作，比如替换、删除、插入、交换)的随机处理词策略，可以根据DBPedia先验知识和实际语料的词频确定关键词，再根据确定好的关键词替换同义词，避免无用数据和错误数据的产生。上述DBPedia是一种知识图谱或者概念库，从维基百科或者网页文章中提取各种不同的概念。通过上述方式可以保证在日志文本扩充的同时使扩充的日志文本包含必要的关键词。其中，上述回译处理是对整个文档进行数据增强，上述TF-IDF是对单词层面的处理。

103、基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离。

具体的，可以参见图2所示的一种无标记异常日志数据增强方法架构示意图。如图2所示，对于无标记日志数据，应用一致性训练模式来预测。图2中x表示日志数据，y可表示日志数据的标签，

是x经过增强的日志数据输入。图2中M是根据x预测y的模型，其中：p _θ(y|x)为根据x预测y的概率，对应的M为根据x预测y的模型；

为根据

预测y的概率，对应的M为根据

预测y的模型；θ表示模型的各种参数。其中，如图2中下半部分，x表示无标记日志数据，

则表示通过上述回译处理和/或TF-IDF替换单词法增强的无标记日志数据；Text-CNN模型被同时应用于无标记日志数据和增强的对应无标记日志数据，计算产生的两个模型输出之间的距离，即一致性损失，进而计算网络的最终损失。

图2所示的训练方法还可以参考后文中的具体介绍，此处不再赘述。

104、基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。

将上述一致性损失降至最低(可以是降低到预设损失阈值以下)，会逐渐将标记日志数据的标记信息从已标记的日志数据传播到未标记的日志数据，即获得无标记日志数据的预测标记信息，则可以确定其中的异常日志数据。本申请实施例中模型的适用范围被极大的拓宽，只需要少量的有标记异常日志，再根据有标记异常日志的标签信息对无标记日志进行一致性预测，就可以极大地扩充模型的异常日志输入数，从而提高模型对异常点的识别，准确率且可以和使用大量标记数据的监督模型相媲美，甚至超越。通过该模型处理日志数据，也能够降低异常检测的成本。

上述异常信息为网络模型预测的标记信息，可以理解为通过预测确定无标记日志数据的异常等级或者异常分类。

在一种实施方式中，上述方法还包括：

根据上述目标分类模型对系统日志数据进行分析，获得分析结果，上述分析结果包括上述系统日志数据属于每个异常等级的概率等。

AI运营人员可以根据Text-CNN模型对系统日志的分析结果，可以获悉日志所反映出来的系统运行状态，从而制定具体的运维策略，如：

对异常日志系统分优先级管理，重点关注容易发生重大异常的运行情况。

对于优先级高的异常日志，一旦出现重大异常情况，要及时采取应急措施，务必快速响应，定位到具体的故障原因，并加以排除。

本申请实施例中的训练方法和对日志数据进行分析的应用方法可以分别在不同的装置中执行。

本申请实施例通过获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高，适用于智能运维数字业务新引擎(AIOps)；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

参见图3，是本申请实施例提供的另一种基于分类模型的数据处理方法的示意流程图，图3所示的实施例可以是在图1所示的实施例的基础上得到的，如图3所示该方法可包括：

301、获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息。

302、对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据。

其中，上述步骤301和步骤302可以分别参考图1所示实施例的步骤101和步骤102中的具体描述，此处不再赘述。

303、将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失。

具体的，对于标记日志数据，可以使用监督学习的方法来计算交叉熵损失函数，如前述图2中的上半部分。其中M选用Text-CNN模型，具体结构可以如下所述：

1)输入层(词嵌入层)：

在一种可选的实施方式中，上述文本分类网络模型的输入层包括设置的长度阈值；上述将上述标记日志数据输入上述文本分类网络模型进行训练，包括：

将上述标记日志数据的样本序列输入上述文本分类网络模型，在上述文本分类网络模型的输入层：

判断上述样本序列的文本长度是否小于上述长度阈值；

若上述样本序列的文本长度小于上述长度阈值，使用自定义填充符将上述样本序列填充至满足上述长度阈值，若上述样本序列的文本长度大于上述长度阈值，将上述样本序列截取为满足上述长度阈值的子序列，并构建上述样本序列的词向量，上述样本序列的词向量包括上述样本序列中各个词汇对应的分布式表示。

具体的，在Text-CNN模型的输入层需要输入一个定长的日志文本序列，可以通过分析语料集样本的长度指定一个输入序列的长度L，即预先设置该长度阈值。对于输入的日志数据，比L短的样本序列需要进行填充，比L长的序列需要进行截取。

举例来讲，异常日志如下：

2008-11-09 20:55:54 PacketResponder 0 for block blk_321 terminating重大异常

2008-11-09 20:55:54 Received block blk_321 of size 67108864 from轻微异常/10.251.195.70

2008-11-09 20:55:54 PacketResponder 2 for block blk_321 terminating

2008-11-09 20:55:54 Received block blk_321 of size 67108864 from/10.251.126.5

2008-11-09 21:56:50 10.251.126.5:50010:Got exception while serving blk_321 to/10.251.127.243

2008-11-10 03:58:04 Vertification succeeded for blk_321正常

2008-11-10 10:36:37 Deleting block blk_321 file/mnt/hadoop/dfs/data/current/subdir1/blk_321

2008-11-10 10:36:50 Deleting block blk_321 file/mnt/hadoop/dfs/data/current/subdir1/blk_321

可以参见图4所示的一种构建词向量的方法示意图，图4中对应于前文提及的日志文件：

“2008-11-09 20:55:54 PacketResponder 0 for block blk_321 terminating重大异常”；

该条日志信息中共包含6个单词，每个单词作为一个向量，由于单词数为6，可以假设每个向量维度是1*5，从而使每个单词尽可能区分开。最终输入层输入的是日志文本序列中各个词汇对应的分布式表示，即词向量。

304、基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离。

其中，上述步骤304可以参考图1所示实施例的步骤103中的具体描述，此处不再赘述。

305、将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失。

对于标记日志数据，使用监督学习的方法来计算交叉熵损失函数，如图2上半部分。交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。

本申请实施例选用上述Text-CNN模型，其输入层如步骤303中所述。进一步的，该模型还包括：

2)卷积层：

在自然语言处理(Natural Language Processing，NLP)领域一般卷积核只进行一维的滑动，即卷积核的宽度与词向量的维度等宽，卷积核只进行一维的滑动。本申请实施例中的Text-CNN模型一般使用多个不同尺寸的卷积核。卷积核的高度，即窗口值，可以理解为N-gram模型中的N，即利用的局部词序的长度，意思是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。其中窗口值也是一个超参数，需要在任务中尝试确定，可选的，上述窗口值可以选取2-8之间的整数值。

3)池化层：

在Text-CNN模型的池化层中使用了最大值池化(Max-pool)，即减少模型的参数，又保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。

卷积层与池化层在分类模型的核心作用就是提取特征，从输入的定长文本序列中，利用局部词序信息，提取初级的特征，并组合初级的特征为高级特征，通过卷积与池化操作，省去了传统机器学习中的特征工程的步骤。

4)全连接层：

全连接层的作用就是分类器，原始的Text-CNN模型使用了只有一层隐藏层的全连接网络，相当于把从卷积与池化层提取的异常日志特征输入到一个Softmax函数中进行分类，输出日志数据分类为每个类别的概率。本申请实施例中设定的输出规则可以为异常等级，包括：重大异常、普通异常、轻微异常和正常，则模型会输出每条日志属于每个异常等级的概率，可以实现日志异常等级的分类。

306、根据上述标记日志数据的交叉熵损失和上述无标记日志数据的一致性损失计算目标损失。

具体的，本申请实施例中的无标记异常数据增强技术通过结合标记日志数据的交叉熵损失和无标记日志数据的无监督一致性损失，来计算最终损失，即上述目标损失，公式可如下：

其中，J(θ)是目标损失函数，

是标记数据的交叉熵损失函数，

是未标记数据的相对熵损失函数；其中λ的设置是为了平衡监督损失和无监督损失，θ表示模型的各种参数，可以包括神经网络的权重，卷积核数量，滑动窗口大小等。

307、基于上述目标损失训练上述文本分类网络模型，获得上述目标分类模型。

具体的，根据上述步骤306中的描述，可以进行文本分类网络模型(Text-CNN模型)的训练，其损失函数使用上述目标损失函数。训练获得用于日志分析和异常检测的目标分类模型。

在一种可选的实施方式中，可以在上述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。

由于目标损失函数中前半部分的标记日志数据比较少，而后半部分的无标记日志数据比较多，所以前在模型训练之初，必定会随着训练次数的增加而发生过拟合现象。为了防止这种过拟合，本申请实施例提出了训练信号退火法的方法，该方法仅仅只针对标记日志数据。具体的，可通过动态改变阈值来防止过拟合。其基本原理如下：在训练的过程中，随着无标记日志数据的增加，逐步删除训练中的标记日志数据，从而避免模型对标记日志数据过拟合。

在一种实施方式中，上述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由上述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将上述目标标记日志数据从损失函数中删除；

上述预测正确的概率为，预测上述目标标记日志数据的类别结果与上述目标标记日志数据的标记信息相同的概率；

上述概率阈值根据上述训练步数和训练总步数进行更新。

具体的，可以预先设置预设步数阈值与概率阈值的对应关系，使用概率阈值η _t表示该对应关系，即在不同的训练步数t可以使用不同的概率阈值。在训练步数为t步时，当由某个标记数据计算出的p(y ^*|x)(预测正确的概率)大于概率阈值η _t时，就将该标记日志数据从损失函数中移除。

其中，设定K为类别数，η _t的取值可以在区间

上逐渐递增，以防止对标记数据过拟合。在一种实施方式中，概率阈值η _t的更新方式可以为：

其中α _t可以根据需要进行设置，举例来讲，α _t可以包括以下对数、线性和指数形式：

其中，T表示总的训练步数，t为当前训练步数。

本申请实施例中的阈值α _t可以根据标记日志数据的数据量设置为上述对数、线性或指数形式，具体的，对应于以下三种不同的适用条件：

(1)当问题相对容易，标记数据量比较少，模型很容易发生过拟合时，模型能够在短时间内根据数据做出高概率的预测，此时我们就可以采用exp指数函数，来使阈值的增长缓慢一些，以便删除更多容易训练的样本。

(2)当数据量比较大，模型很难发生过拟合时，模型需要花费很长时间才能做出高概率的预测，相同时间内模型输出的高概率预测样本就比较少，需要删除的样本也比较少，此时我们可以采用log对数函数，来使阈值的增长快速一些，这样删除的样本就比较少。

(3)对于一般的样本，采用线性函数来调整阈值即可。

训练获得的上述目标分类模型可以用于日志数据分析。根据Text-CNN模型对系统日志的分析结果，可以获悉日志所反映出来的系统运行状态，从而制定具体的运维策略：

本申请实施例的基于分类模型的数据处理方法，对文本分类网络模型训练所需标记数据少，准确率高，无需人工进行大量的日志标注工作，节省大量人工标注数据的时间和精力，从而极大的降低异常检测的成本。同时，模型的适用范围被极大的拓宽，只需要少量的标记日志数据(包括少量有标记异常日志)，再根据有标记异常日志的标签信息对无标记日志进行一致性预测，就可以极大地扩充模型的异常日志输入数，从而提高模型对异常点的识别，准确率且可以和使用大量标记数据的监督模型相媲美，甚至超越。

另外，由于所需标记日志数据量小，且无标记日志数据会随着时间的转移逐渐打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

请参见图5，图5是本申请实施例提供的一种基于分类模型的数据处理装置的结构示意图，该基于分类模型的数据处理装置500包括：

获取模块510，用于获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息；

数据增强模块520，用于对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

预测模块530，用于基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离；

训练模块540，用于基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。

可选的，上述训练模块540还用于，在上述预测模块530基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理之前：

将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失；

根据上述标记日志数据的交叉熵损失和上述无标记日志数据的一致性损失计算目标损失；

基于上述目标损失训练上述文本分类网络模型，获得上述目标分类模型。

可选的，上述文本分类网络模型的输入层包括设置的长度阈值，上述训练模块540具体用于：

判断上述样本序列的文本长度是否小于上述长度阈值；

可选的，上述训练模块540还用于，在上述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。

进一步可选的，上述训练模块540具体用于：

上述概率阈值根据上述训练步数和训练总步数进行更新。

可选的，上述基于分类模型的数据处理装置500还包括分析模块550，用于根据上述目标分类模型对系统日志数据进行分析，获得分析结果，上述分析结果包括上述系统日志数据属于每个异常等级的概率。

根据本申请实施例的具体实施方式，图1与图3所示的基于分类模型的数据处理方法涉及的步骤可以是由图5所示的基于分类模型的数据处理装置500中的各个模块来执行的，此处不再赘述。

通过本申请实施例的基于分类模型的数据处理装置500，基于分类模型的数据处理装置500可以获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

请参阅图6，图6是本申请实施例公开的一种电子设备的结构示意图。如图6所示，该电子设备600包括处理器601和存储器602，其中，电子设备600还可以包括总线603，处理器601和存储器602可以通过总线603相互连接，总线603可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，电子设备600还可以包括输入输出设备604，输入输出设备604可以包括显示屏，例如液晶显示屏。存储器602用于存储包含指令的一个或多个程序；处理器601用于调用存储在存储器602中的指令执行上述图1和图3实施例中提到的一种基于分类模型的数据处理方法的部分或全部方法步骤，其中，所述方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。在此不再赘述。

应当理解，在本申请实施例中，所称处理器601可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备603可以包括显示器(LCD等)、扬声器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如，存储器604还可以存储设备类型的信息。

通过本申请实施例的电子设备600，电子设备600可以获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

本申请实施例还提供一种计算机存储介质，所述存储介质为易失性存储介质或非易失性存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于分类模型的数据处理方法的部分或全部步骤，其中，所述方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种基于分类模型的数据处理方法，其中，所述方法包括：

获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。
根据权利要求1所述的方法，其中，所述基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前，所述方法还包括：

将所述标记日志数据输入所述文本分类网络模型进行训练，获得所述标记日志数据的交叉熵损失；

所述基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，包括：

根据所述标记日志数据的交叉熵损失和所述无标记日志数据的一致性损失计算目标损失；

基于所述目标损失训练所述文本分类网络模型，获得所述目标分类模型。
根据权利要求2所述的方法，其中，所述文本分类网络模型的输入层包括设置的长度阈值，所述将所述标记日志数据输入所述文本分类网络模型进行训练，包括：

将所述标记日志数据的样本序列输入所述文本分类网络模型，在所述文本分类网络模型的输入层：

判断所述样本序列的文本长度是否小于所述长度阈值；

若所述样本序列的文本长度小于所述长度阈值，使用自定义填充符将所述样本序列填充至满足所述长度阈值，若所述样本序列的文本长度大于所述长度阈值，将所述样本序列截取为满足所述长度阈值的子序列，并构建所述样本序列的词向量，所述样本序列的词向量包括所述样本序列中各个词汇对应的分布式表示。
根据权利要求1-3任一项所述的方法，其中，所述方法还包括：

在所述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。
根据权利要求4所述的方法，其中，所述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由所述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将所述目标标记日志数据从损失函数中删除；

所述预测正确的概率为，预测所述目标标记日志数据的类别结果与所述目标标记日志数据的标记信息相同的概率；

所述概率阈值根据所述训练步数和训练总步数进行更新。
根据权利要求1-3任一项所述的方法，其中，所述方法还包括：

根据所述目标分类模型对系统日志数据进行分析，获得分析结果，所述分析结果包括所述系统日志数据属于每个异常等级的概率。
根据权利要求1-3任一项所述的方法，其中，所述对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，包括：

对所述无标记日志数据进行回译处理，以及确定所述无标记日志数据中的关键词，根据所述关键词进行同义词替换，获得所述增强的无标记日志数据。
一种基于分类模型的数据处理装置，其中，包括：

获取模块，用于获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

数据增强模块，用于对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

预测模块，用于基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

训练模块，用于基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。
一种电子设备，其中，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行一种基于分类模型的数据处理方法；

其中，所述基于分类模型的数据处理方法包括：

获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。
根据权利要求9所述的电子设备，其中，所述基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前，所述方法还包括：

将所述标记日志数据输入所述文本分类网络模型进行训练，获得所述标记日志数据的交叉熵损失；

所述基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，包括：

根据所述标记日志数据的交叉熵损失和所述无标记日志数据的一致性损失计算目标损失；

基于所述目标损失训练所述文本分类网络模型，获得所述目标分类模型。
根据权利要求10所述的电子设备，其中，所述文本分类网络模型的输入层包括设置的长度阈值，所述将所述标记日志数据输入所述文本分类网络模型进行训练，包括：

将所述标记日志数据的样本序列输入所述文本分类网络模型，在所述文本分类网络模型的输入层：

判断所述样本序列的文本长度是否小于所述长度阈值；

若所述样本序列的文本长度小于所述长度阈值，使用自定义填充符将所述样本序列填充至满足所述长度阈值，若所述样本序列的文本长度大于所述长度阈值，将所述样本序列截取为满足所述长度阈值的子序列，并构建所述样本序列的词向量，所述样本序列的词向量包括所述样本序列中各个词汇对应的分布式表示。
根据权利要求9-11所述的电子设备，其中，所述方法还包括：

在所述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。
根据权利要求12所述的电子设备，其中，所述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由所述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将所述目标标记日志数据从损失函数中删除；

所述预测正确的概率为，预测所述目标标记日志数据的类别结果与所述目标标记日志数据的标记信息相同的概率；

所述概率阈值根据所述训练步数和训练总步数进行更新。
根据权利要求9-11所述的电子设备，其中，所述方法还包括：

根据所述目标分类模型对系统日志数据进行分析，获得分析结果，所述分析结果包括所述系统日志数据属于每个异常等级的概率。
一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行一种基于分类模型的数据处理方法；

其中，所述基于分类模型的数据处理方法包括：

获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。
根据权利要求15所述的计算机存储介质，其中，所述基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前，所述方法还包括：

将所述标记日志数据输入所述文本分类网络模型进行训练，获得所述标记日志数据的交叉熵损失；

所述基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，包括：

根据所述标记日志数据的交叉熵损失和所述无标记日志数据的一致性损失计算目标损失；

基于所述目标损失训练所述文本分类网络模型，获得所述目标分类模型。
根据权利要求16所述的计算机存储介质，其中，所述文本分类网络模型的输入层包括设置的长度阈值，所述将所述标记日志数据输入所述文本分类网络模型进行训练，包括：

将所述标记日志数据的样本序列输入所述文本分类网络模型，在所述文本分类网络模型的输入层：

判断所述样本序列的文本长度是否小于所述长度阈值；

若所述样本序列的文本长度小于所述长度阈值，使用自定义填充符将所述样本序列填充至满足所述长度阈值，若所述样本序列的文本长度大于所述长度阈值，将所述样本序列截取为满足所述长度阈值的子序列，并构建所述样本序列的词向量，所述样本序列的词向量包括所述样本序列中各个词汇对应的分布式表示。
根据权利要求15-16所述的计算机存储介质，其中，所述方法还包括：

在所述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。
根据权利要求18所述的计算机存储介质，其中，所述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由所述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将所述目标标记日志数据从损失函数中删除；

所述预测正确的概率为，预测所述目标标记日志数据的类别结果与所述目标标记日志数据的标记信息相同的概率；

所述概率阈值根据所述训练步数和训练总步数进行更新。
根据权利要求15-16所述的计算机存储介质，其中，所述方法还包括：

根据所述目标分类模型对系统日志数据进行分析，获得分析结果，所述分析结果包括所述系统日志数据属于每个异常等级的概率。