WO2021082780A1

WO2021082780A1 - 一种日志分类方法及装置

Info

Publication number: WO2021082780A1
Application number: PCT/CN2020/115409
Authority: WO
Inventors: 欧百川; 尤嘉; 叶金瓒; 李泽宇; 王雅琪; 朱子豪
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2019-11-01
Filing date: 2020-09-15
Publication date: 2021-05-06
Also published as: CN110929028A

Abstract

本发明公开了一种日志分类方法及装置，其中，方法包括：确定待分类日志中各特征词出现的次数，根据待分类日志中各特征词出现的次数和分类模型，确定待分类日志所属的日志分类；分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的；其中，每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的；词频模型包括每个特征词在每个日志分类下出现的次数，调频模型包括每个特征词在每个日志分类下的调整参数，调整参数用于调整对应的特征词在对应的日志分类下的次数。该技术方案将机器学习算法与知识工程相结合，克服样本集中训练数据不均衡的问题，从而提升模型分类准确率。

Description

一种日志分类方法及装置

相关申请的交叉引用

本申请要求在2019年11月01日提交中国专利局、申请号为201911060648.7、申请名称为“一种日志分类方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及金融科技(Fintech)领域，尤其涉及一种日志分类方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，机器学习技术也不例外，但由于金融、支付行业的安全性、实时性要求，也对机器学习技术提出的更高的要求。

目前常见的日志分类思路是基于机器学习的文本分类算法。文本分类算法以统计理论为基础，利用算法让机器具有类似人类般的自动学习能力，即对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析。由于机器学习技术在文本分类领域有着良好的实际表现，已经成为了日志分析与分类领域的主流。

在对分类模型进行训练时，通常会遇到训练数据不均衡的问题，以错误日志为例，级别越高、越严重的错误，一般出现的概率就越小，故此类型的样本数量就越少。而使用不均衡的样本集进行模型训练，往往不能得到很好的效果，模型分类的准确率较低。

发明内容

本发明实施例提供一种日志分类方法及装置，将机器学习算法与知识工程相结合，克服样本集中训练数据不均衡的问题，从而提升模型分类准确率。

本发明实施例提供的一种日志分类方法，包括：

确定待分类日志中各特征词出现的次数；

根据所述待分类日志中各特征词出现的次数和分类模型，确定所述待分类日志所属的日志分类；所述分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的；

其中，每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的；所述词频模型包括每个特征词在每个日志分类下出现的次数，所述调频模型包括每个特征词在每个日志分类下的调整参数，所述调整参数用于调整对应的特征词在对应的日志分类下的次数。

可选的，所述每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的，包括：

针对每一个特征词在每个日志分类下执行下述操作：

确定所述日志分类下各特征词出现的次数的总和；

根据所述特征词在所述词频模型中的次数、所述特征词在所述调频模型中的调整参数、所述日志分类下各特征词出现的次数的总和，确定所述特征词在所述日志分类下的条件概率。

可选的，所述词频模型为m行×n列的词频矩阵，所述调频模型为m行×n列的调频矩阵；所述词频矩阵中第i行对应的日志分类与所述调频矩阵中第i行对应的日志分类相同，所述词频矩阵中第j列对应的特征词与所述调频矩阵中第j列对应的特征词相同；0＜i≤m，0＜j≤n；

所述根据所述特征词在所述词频模型中的次数、所述特征词在所述调频模型中的调整参数、所述日志分类下各特征词出现的次数的总和，确定所述特征词在所述日志分类下的条件概率，包括：

根据公式(1)确定所述特征词在所述日志分类下的条件概率；

所述公式(1)为：

其中，x _j为第j列的特征词；T _i为第i行的日志分类；P(x _j|T _i)为在T _i下x _j的条件概率；A(i，j)为在第i行对应的日志分类中第j列对应的特征词出现的次数；B(i，j)为在第i行对应的日志分类中第j列对应的特征词的调整参数；count(T _i)为T _i下的各特征词出现的次数的总和；α为平滑系数；n为调频矩阵或调频矩阵的列数。

可选的，所述分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的，包括：

针对每一个特征词，确定所述特征词在各日志分类下的条件概率的总和；将所述特征词在各日志分类下的条件概率与所述特征词在各日志分类下的条件概率的总和的比值确定为所述特征词在各日志分类下的特征权重；

将各特征词在各日志分类中的特征权重组成特征权重矩阵，将所述特征权重矩阵作为所述分类模型。

上述技术方案中，采用调频矩阵对某些样本日志较少的日志类别中的特征词的词频进行调整，以此放大该特征词在此日志分类下的词频，模拟出将该日志类别中样本日志的数量增多的效果，从而减少各日志类别对应的样本日志不均衡所导致的模型训练不准确的问题。

相应的，本发明实施例还提供了一种日志分类装置，包括：

确定单元、分类单元和训练单元；

所述确定单元，用于确定待分类日志中各特征词出现的次数；

所述分类单元，用于根据所述待分类日志中各特征词出现的次数和分类模型，确定所述待分类日志所属的日志分类；所述分类模型是所述训练单元根据样本日志中每个特征词在每个日志分类下的条件概率确定的；

其中，每个特征词在每个日志分类下的条件概率是所述训练单元根据词频模型和调频模型确定的；所述词频模型包括每个特征词在每个日志分类下出现的次数，所述调频模型包括每个特征词在每个日志分类下的调整参数，所述调整参数用于所述训练单元调整对应的特征词在对应的日志分类下的次数。

可选的，所述训练单元具体用于：

针对每一个特征词在每个日志分类下执行下述操作：

确定所述日志分类下各特征词出现的次数的总和；

所述训练单元具体用于：

根据公式(1)确定所述特征词在所述日志分类下的条件概率；

所述公式(1)为：

可选的，所述训练单元具体用于：

相应的，本发明实施例还提供了一种计算设备，包括：

处理器、存储器、通信接口；其中，处理器、存储器与通信接口之间通过总线连接；

所述处理器，用于读取所述存储器中的程序，执行上述日志分类方法；

所述存储器，用于存储一个或多个可执行程序，可以存储所述处理器在执行操作时所使用的数据。

相应的，本发明实施例还提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质中存储计算机指令，当其在计算机上运行时，使得计算机执行上述日志分类方法。

相应的，本发明实施例还提供一种包含指令的计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述日志分类方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种日志分类方法的流程示意图；

图3为本发明实施例提供的一种确定条件概率的流程示意图；

图4为本发明实施例提供的一种确定特征权重的流程示意图；

图5为本发明实施例提供的另一种日志分类方法的流程示意图；

图6为本发明实施例提供的一种日志分类装置的结构示意图；

图7为本申请提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了更好的解释本发明实施例，先对本发明实施例中所涉及朴素贝叶斯分类算法解释如下：

目前常见的分类算法有许多种，例如贝叶斯、神经网络、决策树、KNN(K-Nearest Neighbor，k最邻近分类算法)、SVM(Support Vector Machine，支持向量机)等。其中，贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯定理是以英国数学家贝叶斯命名，用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯假设特征P(A)在特定结果P(B)下是独立的。贝叶斯算法通过已知的P(A|B)，P(A)和P(B)三个概率计算P(B|A)发生的概率，其计算方法可归结于贝叶斯公式，贝叶斯公式可如公式(2)所示。

在上述贝叶斯公式中，每一种概率都有一个特定的名字：

P(B)是事件B在样本空间中发生的概率，也叫事件B的先验概率。

P(A)是事件A在样本空间中发生的概率，也叫事件A的先验概率。

P(A|B)是已知B发生后A的条件概率，叫做似然函数。

P(B|A)是已知A发生后B的条件概率，叫做后验概率。

P(A|B)/P(A)是调整因子，也被称作标准似然度。

朴素贝叶斯的基本方法：在统计数据的基础上，依据条件概率公式，计算当前特征的样本属于某个分类的概率，选最大的概率分类。对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

计算流程如下：

(1)x＝{a1，a2，……，am}为待分类项，每个a为x的一个特征属性；

(2)有类别集合C＝{y1，y2，……，yn}；

(3)分别计算P(y1∣x)，P(y2∣x)，……，P(yn∣x)；

(4)P(yk∣x)＝max{P(y1∣x)，P(y2∣x)，……，P(yn∣x)}；

图1示例性的示出了本发明实施例提供日志分类方法所适用的系统架构，该系统架构可以包括数据源模块、前台模块、后台模块、分类算法模块以及数据库；各模块功能具体如下：

数据源模块：提供本发明实施例中训练模型所使用的错误日志文本，也可以称为是源错误日志。

前台模块：负责提供Web界面，主要用于展示日志分类信息、为用户提供数据管理等操作入口。

后台模块：主要用于日志处理，负责从数据源拉取原始日志文本，并对其进行清洗(以正则匹配等方式过滤无价值的文本内容)、去重(合并相似度过高的样本)，最后将生成的样本集(训练集)存储至数据库中。除此之外，后台模块还负责提供数据操作接口，以及自动化调用分类算法模块进行模型训练，并将模型参数存储至数据库中。

分类算法模块：负责分类器模型的训练与样本日志的分类功能。

数据库：用于存储处理后的规范样本日志(错误样本日志集)、调频矩阵信息、配置数据、分类信息等各类型数据。

基于上述描述，图2示例性的示出了本发明实施例提供的一种日志分类方法的流程，该流程可以由日志分类装置执行，该装置可以位于分类算法模块中，可以是该分类算法模块。

如图2所示，该流程具体包括：

步骤201，确定待分类日志中各特征词出现的次数；

步骤202，根据待分类日志中各特征词出现的次数和分类模型，确定待分类日志所属的日志分类。

本发明实施例中，特征词是指根据样本集中多个样本日志确定的词语或词组，由于样本日志实质上是文本格式，不能直接参与计算，所以需要先将样本日志进行向量化。一种实现方式中，可以采用词集模型对样本日志进行向量化，以词语为基础处理单元，先将样本集中的所有词汇进行汇总，得到大小为N的词库，并将样本集中的每个样本日志映射成一个N维的向量，每个维度上的值代表该样本日志中存在特征词的个数(也可以说是该样本日志中存在特征词的词频)，该N维的向量体现了样本日志中词频的信息。

举例来说，假设某样本集汇总生成大小为10的词库：(“async”“at”“connection”“db”“error”“jdbc”“mysql”“redis”“timeout”“user”)；

现将某样本日志“mysql jdbc connection timeout error”以上述规则进行向量化，生成长度为10的向量：(0 0 1 0 1 1 1 0 1 0)；

上述例子中，使用词集模型进行向量化时，因为是对单独的每个词语进行词频统计，会出现语序信息丢失问题：例如词组dead lock会被拆分成dead与lock两个独立特征进行统计，而词组本身的语义则丢失了。为了解决这个问题，本发明实施例在文本向量化时可以使用n个词语组合的方式进行文本拆分，将长度为n的相邻词语组合成新的特征，并加入词库，其中n可以根据经验设置，例如，n设置为2时，可以将样本日志中的两个连续的词语作为一个词语组合，从而得到新的特征词。

还是以上文样本日志为例，在n＝2的情况下，会生成以下特征词：

(“mysql”“jdbc”“connection”“timeout”“error”“mysql jdbc”“jdbc connection”“connection timeout”“timeout error”)；

使用n个词语组合的方式进行文本拆分，可以有效保留有语义的特征词。

在确定出待分类日志中各特征词出现的次数之后，同样可以将该待分类日志进行向量化，如生成长度为10的向量：(0 1 1 0 1 1 1 1 1 0)，然后根据该待分类日志生成的向量与分类模型，结合贝叶斯分类算法，确定该待分类日志所属的日志分类。

本发明实施例中，分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的，其中，每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的。

具体的，词频模型包括每个特征词在每个日志分类下出现的次数，词频模型可以是以词频矩阵的形式表现，也可以是以词频数组或者其他的形式表现。词频模型可以是根据样本集中各样本日志中的特征词确定。

以根据样本集中各样本日志中的特征词确定词频矩阵为例，进行说明如下：

存在样本集中各样本日志如表1所示，即样本集中有三个日志分类，分别是http error、db error和redis error；http error中包括样本日志1、样本日志2、样本日志3，db error中包括样本日志4、样本日志5、样本日志6、样本日志7，redis error中包括样本日志8、样本日志9。且每个样本日志对应自己的向量，如样本日志1对应向量为(2 0 3 0 4 0 0 0 3)。

表1样本集中各样本日志

对表1中各样本日志进行统计，确定每个日志分类中各特征词出现次数的总和，统计之后生成的词频矩阵可以如表2所示。如async在http error中出现的次数为5次，async在db error中出现的次数为0次，async在redis error中出现的次数为1次。可以观察到，如果特征词在某日志分类下的出现的次数很高，则它与此分类的相关性一般也很高。

表2词频矩阵

	async	at	connection	db	error	jdbc	mysql	redis	timeout
http error	5	2	10	0	12	0	0	0	8
db error	0	5	8	10	15	22	22	0	12
redis error	1	12	4	0	8	0	0	20	5

在确定出词频模型后，可以根据词频模型确定调频模型。该调频模型包括每个特征词在每个日志分类下的调整参数，调整参数用于调整对应的特征词在对应的日志分类下的次数，调频模型可以是以调频矩阵的形式表现，也可以是以调频数组或者其他的形式表现。

调频矩阵是对词频矩阵的一个调整，它的行数和列数与词频矩阵保持一致，调频矩阵用于对朴素贝叶斯分类算法进行改进。如表3所示，在调频矩阵中包括每个特征词在每个日志分类下的调整参数，该调整参数用于根据人工规则对特征词在对应的日志分类下的次数(词频)进行调整。如：jdbc、mysql等特征在绝大多数情况下，都会出现在db error的日志信息中，一般出现了此类型特征词，则可以断定此日志信息属于db error分类。所以我们可以通过配置预设值来增大特征的词频，进而提高特征在db error分类下的权重，令包含这些特征的日志信息有更高概率被分类到db error下。相反，我们也可以通过配置预设值来减少特征的词频，例如，通过配置一个小于1的调整参数，来减少特征词在某分类下的出现的次数，进而降低特征词在此分类下的权重。

调频矩阵是人工规则的矩阵化体现，其每一项的初始参数都为1，即默认不调整。我们可以通过调整调频矩阵中每一项的调整参数，来精确控制每一个特征词在特定分类下的权重，将现有的知识规则与朴素贝叶斯分类算法相结合，进而提高模型的分类准确率。

表3调频矩阵

	async	at	connection	db	error	jdbc	mysql	redis	timeout
http error	1	1	1	1	1	1	1	1	1
db error	0.2	1	1	20	1	20	20	1	1
redis error	1	1	1	1	1	1	1	1	1

在确定出词频矩阵和调频矩阵之后，即可以根据词频矩阵和调频矩阵确定每个特征词在每个日志分类下的条件概率。为了方便描述，可以以其中的任一个特征词在任一个日志分类下为例进行说明，如图3所示的流程图中：

步骤301，确定日志分类下各特征词出现的次数的总和；

如公式(3)所示：

其中，T _i为日志分类；count(T _i)为T _i下各特征词出现的次数的总和；A(i，j)为T _i下关键词x _j出现的次数，也即词频。

以表2为例，T _i为http，则T _i下各特征词出现的次数的总和为：count(http)＝5+2+10+0+12+0+0+0+8＝37，同理，T _i为db时，各特征词出现的次数的总和count(db)为94；T _i为redis时，各特征词出现的次数的总和count(redis)为50。

步骤302，根据特征词在词频模型中的次数、特征词在调频模型中的调整参数、日志分类下各特征词出现的次数的总和，确定特征词在日志分类下的条件概率。

在一种实现方式中，词频模型为m行×n列的词频矩阵，调频模型为m行×n列的调频矩阵，词频矩阵中第i行对应的日志分类与调频矩阵中第i行对应的日志分类相同，词频矩阵中第j列对应的特征词与调频矩阵中第j列对应的特征词相同；0＜i≤m，0＜j≤n。在根据特征词在词频模型中的次数、特征词在调频模型中的调整参数、日志分类下各特征词出现的次数的总和，确定特征词在日志分类下的条件概率时，可以是根据公式(1)确定。

其中，公式(1)为：

其中，x _j为第j列的特征词；

T _i为第i行的日志分类；

P(x _j|T _i)为在T _i下x _j的条件概率；

A(i，j)为在第i行对应的日志分类中第j列对应的特征词出现的次数；

B(i，j)为在第i行对应的日志分类中第j列对应的特征词的调整参数；

count(T _i)为T _i下的各特征词出现的次数的总和；

α为平滑系数，给所有特征词额外增加一个较小的词频值，用于降低词频为0的情况下，条件概率为0，为分类计算带来的负面影响。

n为调频矩阵或调频矩阵的列数。

结合表2的词频矩阵和表3的调频矩阵举例说明，根据公式(1)可以确定出每个日志分类中每个特征词的条件概率可以如表4所示，此处可以假设α＝1。

表4条件概率矩阵

	async	at	connection	db	error	jdbc	mysql	redis	timeout
http error	0.13	0.07	0.24	0.02	0.28	0.02	0.02	0.02	0.20
db error	0.01	0.06	0.09	1.95	0.16	4.28	4.28	0.01	0.13
redis error	0.03	0.22	0.08	0.02	0.15	0.02	0.02	0.36	0.10

一种实现方式中，可以将每个日志分类中每个特征词的条件概率组成的条件概率矩阵作为分类模型，此时，分类模型可以如表4所示。另一种实现方式中，考虑到条件概率的值一般都非常小，常在10e-3量级下，所以将条件概率进行归一，得到的新的矩阵，用于更好地体现每个特征词在不同分类下的影响度，我们将其称为特征词的权重。特征词在某一分类下的权重越高，则表示此携带此特征词的样本日志有更高的概率被分到此类别下，可以在确定出条件概率矩阵后提取特征权重矩阵，具体可以如图4示出的流程图。

步骤401，针对每一个特征词，确定特征词在各日志分类下的条件概率的总和；将特征词在各日志分类下的条件概率与特征词在各日志分类下的条件概率的总和的比值确定为特征词在各日志分类下的特征权重；

可以根据公式(4)确定各特征词在各日志分类中的特征权重，其中公式(4)可以为：

其中，W(i,j)为x _j在T _i下的特征权重；m为词频矩阵或调频矩阵的行数。

步骤402，将各特征词在各日志分类中的特征权重组成特征权重矩阵，将特征权重矩阵作为分类模型。

结合表4的条件概率矩阵，确定特征权重矩阵如表5所示。

表5特征权重矩阵

	async	at	connection	db	error	jdbc	mysql	redis	timeout
http error	0.75	0.19	0.58	0.01	0.48	0.01	0.01	0.06	0.46
db error	0.06	0.17	0.21	0.98	0.26	0.99	0.99	0.03	0.30
redis error	0.19	0.64	0.21	0.01	0.26	0.00	0.00	0.92	0.24

模型训练完成之后，就可以开始对待分类日志进行分类预测了。与模型训练过程一致，在分类之前同样需要对待分类日志进行向量化，只是在对待分类日志进行向量化时，必须要使用样本集向量化时生成的词库。在向量化完成之后，分类概率的计算过程与朴素贝叶斯分类过程没有区别，直接使用贝叶斯公式计算待分类日志在每个日志分类下的概率，并取概率最大的一个日志分类作为最终分类结果，在此不再多加阐述。

为了更好的解释本发明实施例，下面提供另一种日志分类流程，如图5所示，具体如下：

左半部分流程是模型训练过程，获取训练集，该训练集中包括各样本日志，并对各样本日志进行文本向量化，确定出各日志分类下的各特征词的词频，并计算各日志分类下的各特征词的条件概率，进而生成分类模型。

右半部分流程是模型使用过程，获取待分类日志，对待分类日志进行文本向量化，结合分类模型并使用贝叶斯公式计算该待分类日志在各日志分类中的概率，进而将最大概率对应的日志分类确定为该待分类日志所属的日志分类。

本发明实施例中采用调频矩阵具有如下有益效果：

(1)通过调频矩阵减少样本不均衡带来的影响。

样本不均衡是机器学习领域常见的问题。以分类为例，理想情况下，样本集中的不同类别的样本数最好是均匀分布的，即保证每一个类别都有足够的样本来进行模型训练。但在现实条件下，样本分布的不均衡性是广泛存在的。在日志分类领域中，不同级别、不同类型的日志，其出现的频率往往都是不同的。例如，http connect time out是常见的网络请求异常，其出现的概率很高，每天都有可能发生；而JVM(Java Virtual Machine，Java虚拟机)的OOM(out of memory)是很难出现，但非常严重的错误。在样本集中，很明显http的异常样本要比JVM异常样本要多很多，这就造成了样本不均衡问题，进而影响JVM异常样本的分类准确度。

在本方法中，我们可以通过调频矩阵对那些样本数过少的类别设置一个很高的调整参数，以此放大特征词在此日志分类下的词频，模拟出向样本集增加此类别样本的效果，进而减小样本不均衡带来的影响。以JVM异常为例，可以调整JVM异常样本中最为显著的特征词对应的调整参数，如“out of memory”等特征。

(2)通过调频矩阵进行快速样本标注，节省人力成本。

样本标注是一个非常令人头痛的事情。要想训练出一个高质量的模型，样本集的大小是一个非常关键的决定性因素。而在以往，样本标注都是需要手动逐个进行标注，动辄成千上万的样本，需要耗费不小的人力开销。

在本方发明实施例中，我们可以通过确定出的调频矩阵对后续需要进行分类的样本集进行初始化标注，有效地减少人工标注工作量。在错误样本日志中，大部分的样本都带有能够显著区分类别的特征，比如”mysql”“redis”“gns”“http”“timeout”“out of memory”等，基本上只要出现了这类关键字，就能够断定样本日志是属于某个类别，我们将这一类特征称为初始化特征。在收集到足够初始化特征后，我们通过调频矩阵，为此类特征设置成一个非常大的调整参数(例如1000以上)，然后再对待分类样本集进行分类，将其结果作为分类标签；大部分样本能够正确落到对应分类下，小部分不包含初始化特征的样本落入默认的unknown分类下，再手动对其进行标记即可。

(3)对分类错误样本进行回归分析，结合调频矩阵进行特征调整。

模型分类可能会出错。在基于词频模型的朴素贝叶斯分类算法下，会产生一个问题：我们发现某个样本被分到错误的类别，然后我们将此样本手动纠正，并放入样本集，重新训练模型，并再次对该样本进行分类—结果模型依旧给出之前的错误分类。这是因为词频模型是将同一分类下的所有样本进行词频统计，单独调整某一个样本只是杯水车薪，无法达到纠正模型的目的。

在本发明实施例中，我们可以使用模型训练得到的特征权重矩阵，对样本进行回归分析。举例来说，现有一处理后的样本日志“银行报告sys TransDAO certNo查询超时costTime”，其所属的类别本应是“外部合作伙伴业务异常”，但模型将其分类成默认的“unknown”类别。我们通过特征权重矩阵查询到，该样本在“unknown”分类下权重最高的5个特征如下：

(“银行报告”,0.8652419428703651)

(“查询超时”,0.5142907974010534)

(“sys”,0.5142907974010534)

(“超时”,0.15651730037704084)

(“costtime”,0.1881949392920741)

从中我们发现，“银行报告”这个特征在“unknown”分类下的权重最大，而实际上“银行”很明显应该属于外部合作伙伴的特征范畴，故我们需要调整此特征在这两个类别的权重。我们可以结合调频矩阵，将“银行报告”此特征词在“unknown”分类下的调整参数调低，并将“外部合作伙伴业务异常”分类下的调整参数调高。调整完成后，重新训练模型，并重新进行分类测试，结果该样本已经成功被归结到“外部合作伙伴业务异常”分类之下了。

基于同一发明构思，图6示例性的示出了本发明实施例提供的一种日志分类装置的结构，该装置可以执行日志分类方法的流程。

该装置包括：

确定单元601、分类单元602和训练单元603；

所述确定单元601，用于确定待分类日志中各特征词出现的次数；

所述分类单元602，用于根据所述待分类日志中各特征词出现的次数和分类模型，确定所述待分类日志所属的日志分类；所述分类模型是所述训练单元603根据样本日志中每个特征词在每个日志分类下的条件概率确定的；

其中，每个特征词在每个日志分类下的条件概率是所述训练单元603根据词频模型和调频模型确定的；所述词频模型包括每个特征词在每个日志分类下出现的次数，所述调频模型包括每个特征词在每个日志分类下的调整参数，所述调整参数用于所述训练单元603调整对应的特征词在对应的日志分类下的次数。

可选的，所述训练单元603具体用于：

针对每一个特征词在每个日志分类下执行下述操作：

确定所述日志分类下各特征词出现的次数的总和；

所述训练单元603具体用于：

根据公式(1)确定所述特征词在所述日志分类下的条件概率；

所述公式(1)为：

其中，x _j为第j列的特征词；T _i为第i行的日志分类；P(x _j|T _i)为在T _i下x _j的条件概率；A(i，j)为在第i行对应的日志分类中第j列对应的特征词出现的次数；B(i，j)为在第i行对应的日志分类中第j列对应的特征词的调整参数；count(T _i)为T _i下的各特征词出现的次数的总和；α为平滑系数；n为调频矩阵或调频矩阵的列数；

可选的，所述训练单元603具体用于：

基于与上述图2所示的方法相同的构思，本申请还提供一种计算设备，如图7所示，该计算设备包括至少一个处理器720，用于实现本申请实施例提供的图2中任一方法。

计算设备700还可以包括至少一个存储器730，用于存储程序指令和/或数据。存储器730和处理器720耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器720可能和存储器730协同操作。处理器720可能执行存储器730中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理电路(digital signal processor，DSP)、专用集成芯片(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

计算设备700还可以包括通信接口710，用于通过传输介质和其它设备进行通信，从而用于计算设备700中的装置可以和其它设备进行通信。在本申请实施例中，通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。在本申请实施例中，通信接口为收发器时，收发器可以包括独立的接收器、独立的发射器；也可以集成收发功能的收发器、或者是接口电路。

计算设备700还可以包括通信线路740。其中，通信接口710、处理器720以及存储器730可以通过通信线路740相互连接；通信线路740可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。所述通信线路740可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

基于同一发明构思，本发明实施例还提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质中存储计算机指令，当其在计算机上运行时，使得计算机执行上述日志分类方法。

基于同一发明构思，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述日志分类方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种日志分类方法，其特征在于，包括：

确定待分类日志中各特征词出现的次数；

根据所述待分类日志中各特征词出现的次数和分类模型，确定所述待分类日志所属的日志分类；所述分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的；

其中，每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的；所述词频模型包括每个特征词在每个日志分类下出现的次数，所述调频模型包括每个特征词在每个日志分类下的调整参数，所述调整参数用于调整对应的特征词在对应的日志分类下的次数。
如权利要求1所述的方法，其特征在于，所述每个特征词在每个日志分类下的条件概率是根据词频模型和调频模型确定的，包括：

针对每一个特征词在每个日志分类下执行下述操作：

确定所述日志分类下各特征词出现的次数的总和；

根据所述特征词在所述词频模型中的次数、所述特征词在所述调频模型中的调整参数、所述日志分类下各特征词出现的次数的总和，确定所述特征词在所述日志分类下的条件概率。
如权利要求2所述的方法，其特征在于，所述词频模型为m行×n列的词频矩阵，所述调频模型为m行×n列的调频矩阵；所述词频矩阵中第i行对应的日志分类与所述调频矩阵中第i行对应的日志分类相同，所述词频矩阵中第j列对应的特征词与所述调频矩阵中第j列对应的特征词相同；0＜i≤m，0＜j≤n；

所述根据所述特征词在所述词频模型中的次数、所述特征词在所述调频模型中的调整参数、所述日志分类下各特征词出现的次数的总和，确定所述特征词在所述日志分类下的条件概率，包括：

根据公式(1)确定所述特征词在所述日志分类下的条件概率；

所述公式(1)为：

其中，x _j为第j列的特征词；T _i为第i行的日志分类；P(x _j|T _i)为在T _i下x _j的条件概率；A(i，j)为在第i行对应的日志分类中第j列对应的特征词出现的次数；B(i，j)为在第i行对应的日志分类中第j列对应的特征词的调整参数；count(T _i)为T _i下的各特征词出现的次数的总和；α为平滑系数；n为调频矩阵或调频矩阵的列数。
如权利要求1所述的方法，其特征在于，所述分类模型是根据样本日志中每个特征词在每个日志分类下的条件概率确定的，包括：

针对每一个特征词，确定所述特征词在各日志分类下的条件概率的总和；将所述特征词在各日志分类下的条件概率与所述特征词在各日志分类下的条件概率的总和的比值确定为所述特征词在各日志分类下的特征权重；

将各特征词在各日志分类中的特征权重组成特征权重矩阵，将所述特征权重矩阵作为所述分类模型。
一种日志分类装置，其特征在于，包括：

确定单元、分类单元和训练单元；

所述确定单元，用于确定待分类日志中各特征词出现的次数；

所述分类单元，用于根据所述待分类日志中各特征词出现的次数和分类模型，确定所述待分类日志所属的日志分类；所述分类模型是所述训练单元根据样本日志中每个特征词在每个日志分类下的条件概率确定的；

其中，每个特征词在每个日志分类下的条件概率是所述训练单元根据词频模型和调频模型确定的；所述词频模型包括每个特征词在每个日志分类下出现的次数，所述调频模型包括每个特征词在每个日志分类下的调整参数，所述调整参数用于所述训练单元调整对应的特征词在对应的日志分类下的次数。
如权利要求5所述的装置，其特征在于，所述训练单元具体用于：

针对每一个特征词在每个日志分类下执行下述操作：

确定所述日志分类下各特征词出现的次数的总和；

根据所述特征词在所述词频模型中的次数、所述特征词在所述调频模型中的调整参数、所述日志分类下各特征词出现的次数的总和，确定所述特征词在所述日志分类下的条件概率。
如权利要求6所述的装置，其特征在于，所述词频模型为m行×n列的词频矩阵，所述调频模型为m行×n列的调频矩阵；所述词频矩阵中第i行对应的日志分类与所述调频矩阵中第i行对应的日志分类相同，所述词频矩阵中第j列对应的特征词与所述调频矩阵中第j列对应的特征词相同；0＜i≤m，0＜j≤n；

所述训练单元具体用于：

根据公式(1)确定所述特征词在所述日志分类下的条件概率；

所述公式(1)为：

其中，x _j为第j列的特征词；T _i为第i行的日志分类；P(x _j|T _i)为在T _i下x _j的条件概率；A(i，j)为在第i行对应的日志分类中第j列对应的特征词出现的次数；B(i，j)为在第i行对应的日志分类中第j列对应的特征词的调整参数；count(T _i)为T _i下的各特征词出现的次数的总和；α为平滑系数；n为调频矩阵或调频矩阵的列数。
如权利要求5所述的装置，其特征在于，所述训练单元具体用于：

针对每一个特征词，确定所述特征词在各日志分类下的条件概率的总和；将所述特征词在各日志分类下的条件概率与所述特征词在各日志分类下的条件概率的总和的比值确定为所述特征词在各日志分类下的特征权重；

将各特征词在各日志分类中的特征权重组成特征权重矩阵，将所述特征权重矩阵作为所述分类模型。
一种计算设备，其特征在于，包括处理器、存储器、通信接口，其中处理器、存储器与通信接口之间通过总线连接；

所述处理器，用于读取所述存储器中的程序，执行权利要求1至4任一所述方法；

所述存储器，用于存储一个或多个可执行程序，以及存储所述处理器在执行操作时所使用的数据。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至4任一所述方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至4任一所述方法。