WO2021052177A1

WO2021052177A1 - 日志解析方法、装置、服务器和存储介质

Info

Publication number: WO2021052177A1
Application number: PCT/CN2020/113060
Authority: WO
Inventors: 韩静; 刘建伟; 陈力; 叶峰; 刘峥; 凌航
Original assignee: 中兴通讯股份有限公司
Priority date: 2019-09-20
Filing date: 2020-09-02
Publication date: 2021-03-25
Also published as: US20220365957A1; EP3968178A1; EP3968178A4; CN112541074A

Abstract

一种日志解析方法、装置、服务器和存储介质，涉及网络运维领域。所述方法包括：获取样本日志数据（101），根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇（102），并确定由聚类处理得到的多个日志簇中各日志簇的质量评分（103），再根据多个日志簇和质量评分解析日志（104）。

Description

日志解析方法、装置、服务器和存储介质

相关申请的交叉引用

本申请基于申请号为201910893383.2、申请日为2019年9月20日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请实施例涉及网络运维领域，特别涉及一种日志解析方法。

背景技术

日志解析就是将非结构日志文本转变为结构化日志文本，日志解析在系统错误根源定位，异常检测等领域具有重要的应用，根据日志解析的结果，可以明确了解系统中程序的运行顺序，进一步可以用于系统中程序工作流的构建与异常的检测。

目前常用的日志解析方法包括：根据最长公共子序列来以流式形式在线解析日志模板，在实际运用过程中通常生成前缀树来减少搜索的时间；利用将日志的前若干个字段分配到树上的不同节点，构建一种固定深度的日志解析树，以此来加速搜索的速度。

发明人发现现有技术中至少存在如下问题：构建的日志解析树仅仅利用了日志的若干个字段，虽然在一定程度上加速了解析过程，但实质上降低了解析日志的准确率。

发明内容

本申请实施方式的目的在于提供一种日志解析方法、装置、服务器和存储介质。

本申请的实施方式提供了一种日志解析方法，包括：获取样本日志数据；根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇；确定所述多个日志簇中各日志簇的质量评分；利用所述多个日志簇和所述质量评分解析日志；其中，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值。

本申请的实施方式还提供了一种日志解析装置，包括：获取模块，用于获取样本日志数据；聚类模块，用于根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇；评分模块，用于确定所述多个日志簇中各日志簇的质量评分；解析模块，用于利用所述多个日志簇和所述质量评分解析日志；其中，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值。

本申请的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述日志解析方法。

本申请的实施方式还提供了一种计算机可读存储介质，存储计算机程序，所述计算机程序被处理器执行时实现上述日志解析方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本申请第一实施方式的日志解析方法的流程图；

图2是根据本申请第二实施方式的日志解析方法的流程图；

图3是根据本申请第三实施方式的日志解析方法的流程图；

图4是根据本申请第四实施方式的日志解析方法的流程图；

图5是根据本申请第五实施方式的日志解析方法的流程图；

图6是根据本申请第六实施方式的日志解析装置的结构方框图；

图7是根据本申请第七实施方式的服务器的结构方框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请的第一实施方式涉及一种日志解析方法。在本实施方式中，获取样本日志数据；根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇；确定所述多个日志簇中各日志簇的质量评分；利用所述多个日志簇和所述质量评分解析日志；其中，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值。

下面对本实施方式的一种日志解析方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的一种日志解析方法如流程图1所示，可以具体包括以下步骤：

步骤101：获取样本日志数据。

具体地说，获取样本日志数据，所获取的样本日志数据包含多个样本日志，其中，样本日志经过正则表达式过滤掉无关信息。

步骤102：根据各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇。

具体地说，把样本日志的长度和首尾关键字作为分类的条件，对样本日志数据进行聚类处理，经过聚类后得到多个日志簇。日志簇是一种特殊的数据结构，用于存储一组日志签名、一个行索引列表(用于存储属于该日志簇的日志ID号，在本申请中使用日志长度和首尾关键字作为行索引)、每个日志签名常量字段的数量、以及能够划分到该日志簇的相似度阈值。

具体地说，在得到多个日志簇时，同时将日志簇中日志的长度和首尾关键字作为键，将日志簇中的日志作为值进行缓存处理。

步骤103：确定多个日志簇中各日志簇的质量评分。

具体地说，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值；确定所述多个日志簇中各日志簇的质量评分，包括：统计所述所有日志簇中每个日志簇簇内的紧凑性以及不同日志簇簇间的分离性，并用归一化后的所述紧凑性和所述分离性的乘积作为所述多个日志簇中各日志簇的质量评分。

进一步说，紧凑性是指日志签名中常量与总长度的比率，定义紧凑性为g，其计算公式为：

其中，ct _r表示日志签名r中的常量字段的数量，l _r表示r的长度。

分离性是指不同的日志签名的离散项集的差异性，其中，离散项集包括多个离散项对，离散项对是指日志删除通配符后两两字段生成的所有项对，一般通过统计不同日志簇之间的离散项对的杰卡德距离得到分离性，杰卡德距离J具体计算公式如下：

其中，A为比较的日志签名生成的所有字段对，B为已有的日志签名生成的所有字段对。

在一个具体的例子中，日志簇中的日志签名“RAS KERNEL*generating core”包含一个通配符*，则其紧凑性

该日志签名的离散项对包括(RAS，KERNEL)、(RAS，generating)、 (RAS，core)、(KERNEL，generating)、(KERNEL，core)和(generating，core)，统计各日志簇对应的离散项对的杰卡德距离，得到该日志簇与其他日志簇的分离性。

步骤104：利用多个日志簇和质量评分解析日志。

具体地说，以流式的方式一条一条地输入需要解析的日志，并将输入的日志与已有的多个日志簇进行对比分析，并在分析过程中使用质量评分判断输入的日志与对比的日志簇的自适应相似度阈值，从而对输入的日志完成解析。

本实施方式相对于现有技术而言，根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，并确定由聚类处理得到的多个日志簇中各日志簇的质量评分，再根据多个日志簇和质量评分解析日志，通过选取日志长度和关键字作为聚类处理的条件，在不失日志解析准确率的情况下大大提升了日志解析的速度，又通过根据聚类得到的多个日志簇和质量评分进行日志解析同时迭代更新重聚类，进一步提高了日志解析的准确率，从而在保证日志解析准确率的情况下提升了日志解析效率。

本申请的第二实施方式涉及一种日志解析方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：本申请第二实施方式中具体提供了根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理得到多个日志簇的方法。

本实施方式中的一种日志解析方法如流程图2所示，可以具体包括以下步骤：

步骤201：获取样本日志数据。本步骤和实施方式一中的步骤101类似，在此不作赘述。

步骤202：获取样本日志数据中的单条样本日志。

步骤203：判断是否存在与样本日志的长度匹配的日志簇，如果是，进入步骤204，否则进入步骤205。

具体地说，在已有的日志簇中确定多个日志长度与样本日志的日志长度相同的日志簇，如果没有与样本日志长度匹配的日志簇，则以该样本日志创建一个日志簇。

在一个具体的例子中，样本日志为“RAS KERNEL INFO generating core”，此时确定多个“length＝5”的日志簇。

步骤204：判断在与样本日志的长度匹配的日志簇中是否存在与样本日志的首尾关键字匹配的日志簇，如果是，进入步骤206，否则进入步骤205。

具体地说，先分析该样本日志的首尾关键字是否包含任何特殊字符，如果包含任意一个特殊字符如“_”，则该位置上的关键字则以通配符“*”替代，否则以该关键字作为判断的条件，在已经确定的与该样本日志的日志长度匹配的日志簇中，确定多个与该样本日志的首尾关键字匹配的日志簇，如果没有与样本日志首尾关键字匹配的日志簇，则以该样本日志创建一个日志簇。

在一个具体的例子中，样本日志为“RAS KERNEL INFO generating core”，此时在“length＝5”的日志簇中确定日志签名的首尾关键字为“RAS”和“core”的多个日志簇。

步骤205：使用单条样本数据创建一个日志簇。

步骤206：判断与样本日志的首尾关键字匹配的日志簇中是否存在日志与样本日志的相似度高于预设阈值，如果是，进入步骤207，否则进入步骤205。

步骤207：将样本日志插入到高于预设阈值的相似度对应的日志所属的日志簇中。

具体地说，比较该样本日志与该日志簇中已有的日志的相似度，判断相似度是否超过指定的阈值。与日志簇中的所有日志进行依次比较，若两者的相似度大于阈值，则将该样本日志归类为所有匹配的日志簇中相似度最高的那一簇，若任意一个相似度都低于指定阈值，则以样本日志新建一个日志簇。

进一步说，相似度sim可以由以下计算公式确定：

其中，seq为样本日志，tem为比较的日志簇中的日志，cost(seq _i,tem _i)表示进行同或操作，即如果seq _i与,tem _i相同，则cost值为1，如果seq _i与,tem _i不相同，则cost值为0，其中seq _i为seq的第i个字段，,tem _i为tem第i个字段，l为样本日志的日志长度，n _c为该日志簇中当前比较的日志的常量字段的数量。

进一步说，预设阈值t可以由以下计算公式确定：

其中，diff表示样本日志和比较的日志簇中的日志各位置上不同的计数值，float表示将变量数据类型强制转换为浮点类型，n _c为该日志簇中当前比较的日志的常量字段的数量。

在一个具体的例子中，样本日志为“RAS KERNEL INFO generating core”，日志簇中已有日志“RAS KERNEL*generating core”，则该相似度为

相似度阈值为

则将其插入到该日志簇中。

步骤208：判断样本日志数据中所有样本日志是否均已插入到日志簇中，如果是，进入步骤209，否则进入步骤202；

步骤209：确定多个日志簇中各日志簇的质量评分。

步骤210：利用多个日志簇和质量评分解析日志。

本实施方式的步骤209、步骤210和实施方式一中的步骤103、步骤104类似，在此不作赘述。

本实施方式相对于现有技术而言，根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，并确定由聚类处理得到的多个日志簇中各日志簇的质量评分，再根据多个日志簇和质量评分解析日志。通过选取日志长度和关键字作为聚类处理的条件，在不失日志解析准确率的情况下大大提升了日志解析的速度。

本申请的第三实施方式涉及一种日志解析方法。在本实施方式中，对利用所述多个日志簇和所述质量评分解析日志的过程做了进一步细化：获取待解析的目标日志；使用正则表达式过滤掉所述目标日志中的无关信息；根据所述目标日志的长度和首尾关键字在所述多个日志簇中确定一个匹配的日志簇，确定所述目标日志与所述匹配的日志簇的自适应相似度；根据所述质量评分确定所述目标日志与所述匹配的日志簇的自适应相似度阈值；判断所述自适应相似度是否大于所述自适应相似度阈值，如果是，则将所述目标日志插入到所述匹配的日志簇，否则使用所述目标日志创建一个日志簇。

本实施方式中的一种日志解析方法如流程图3所示，可以具体包括以下步骤：

步骤301：获取样本日志数据。

步骤302：根据各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇。

步骤303：确定多个日志簇中各日志簇的质量评分。

本实施方式的步骤301至步骤303和实施方式一中的步骤101至步骤103类似，在此不作赘述。

步骤304：获取待解析的目标日志。

步骤305：使用正则表达式过滤掉所述目标日志中的无关信息。

具体地说，该步骤主要包括以下两个方面：第一方面主要是位置无关项的处理：在原始日志中，通常存在一些固定不变的项，并且这些项在同源日志中出现位置相同，比如说在日志中的第一个字段通常是日志产生的时间戳；或者说这些项虽然发生变化但属性相同，比如说在nova数据中固定位置会产生请求ID，通过分析日志特征可以过滤这些固定位置上的无意义的数据，如该例中的第一列上记录都为时间戳属性；第二方面主要是位置不定相关项的处理：在日志文本中还有一些项，它们的属性一样，但出现的位置并不固定，而且它们是日志的重要组成部分，不能够随意删除。尽管不同系统生成的日志文本格式不尽相同，但日志中的某些字段同样遵循着“国际惯例”，如IP地址、文件目录结构等，因此获取经过预处理的样本日志数据，即利用预先设定的正则表达式方法，可以大大的降低解析日志的代价。

在一个具体的例子中，待解析的原始日志为“2017-10-07 12:00:13 RAS KERNEL INFO generating core”，经过处理后的日志为“RAS KERNEL INFO generating core”，即此时通过使用正则表达式过滤掉所述目标日志中的无关信息后，待解析的日志变为“RAS KERNEL INFO generating core”。

步骤306：根据目标日志的长度和首尾关键字在多个日志簇中确定一个匹配的日志簇。

具体地说，直接以待解析日志的长度和首尾关键字作为键，通过缓存查询在多个日志簇中获取一个日志长度和首尾关键字都与待解析日志匹配的日志簇。

步骤307：确定目标日志与匹配的日志簇的自适应相似度和自适应相似度的阈值。

具体地说，自适应相似度的计算方法与本申请第二实施方式中的相似度计算方法相同；自适应相似度阈值通过将本申请第二实施方式中的相似度阈值与质量评分相乘得到。

进一步说，自适应相似度sim可以由以下计算公式确定：

其中，seq为待解析的日志，tem为匹配的日志簇中的日志，cost(seq _i,tem _i)表示进行同或操作，即如果seq _i与,tem _i相同，则cost值为1，如果seq _i与,tem _i不相同，则cost值为0，其中seq _i为seq的第i个字段，,tem _i为tem第i个字段，l为待解析日志的日志长度，n _c为该日志簇中匹配比较的日志的常量字段的数量。

进一步说，自适应相似度阈值t′可以由以下计算公式确定：

其中，diff表示待解析的日志和匹配的日志簇中的日志各位置上不同的计数值，float()表示将变量数据类型强制转换浮点型，n _c为该日志簇中当前比较的日志的常量字段的数量，q为该匹配的日志簇的质量评分。

步骤308：判断自适应相似度是否大于自适应相似度阈值，如果是，进入步骤309，否则进入步骤310。

步骤309：将目标日志插入到匹配的日志簇。

在一个具体的例子中，待解析日志为“RAS KERNEL INFO generating core”，日志簇中已有日志“RAS KERNEL*generating core”，则自适应相似度为

自适应相似度阈值为

其中q<1，即自适应相似度大于自适应相似度阈值，则将其插入到该日志簇中。

步骤310：使用所述目标日志创建一个日志簇。

在一个具体的例子中，利用多个日志簇和质量评分解析日志包括：获取整体数据集，依次对目标日志进行处理，当前待解析的原始日志为“2017-10-07 12:00:13 Delete block blk_2342”，已有日志簇“Delete block*”，经过正则表达式过滤，将待解析的日志变为“Delete block blk_2342”，此时根据该日志的长度为“length＝3”，以及首尾关键字分别为“Delete”和“*”(“blk_2342”包含特殊字符“_”，使用“*”代替)，确定日志簇“Delete block*”为匹配的日志簇，比较该日志与日志簇中日志的自适应相似度，自适应相似度为

自适应相似度阈值为

其中q<1，所以该日志可以直接插入到该日志簇中。

值得一提的是，对目标日志进行解析的同时，还可以对已获取的多个日志簇进行迭代式重聚类，重新计算各个日志簇的质量评分。根据实时日志解析过程不断更新日志簇，从而在解析过程中进一步提升日志解析的准确率。

本实施方式相对于现有技术而言，获取样本日志数据；根据样本日志数据中各样本日—志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇；确定多个日志簇中各日志簇的质量评分；利用多个日志簇和质量评分解析日志；其中，利用多个日志簇和所述质量评分解析日志包括：获取待解析的目标日志；使用正则表达式过滤掉目标日志中的无关信息；根据目标日志的长度和首尾关键字在多个日志簇中确定一个匹配的日志簇，确定目标日志与匹配的日志簇的自适应相似度；根据质量评分确定目标日志与匹配的日志簇的自适应相似度阈值；判断自适应相似度是否大于自适应相似度阈值，如果是，则将目标日志插入到匹配的日志簇，否则使用目标日志创建一个日志簇。通过日志长度和首尾关键字迅速确定与待解析日志相似度最高的若干个日志簇，再根据每个簇的质量评分确定待解析日志最匹配的日志簇，同时迭代更新重聚类和重新计算每个簇的日志评分，在保证日志解析准确率的情况下大大提升了日志解析的速度。

本申请的第四实施方式涉及一种日志解析方法。本实施方式在第一实施方式的基础上做了进一步改进：在利用多个日志簇和所述质量评分解析日志之后，还包括：对满足预设的分裂条件的日志簇进行分裂；其中，所述分裂条件包括：所述日志簇中的日志数量超过预设的日志数量阈值。

本实施方式中的一种日志解析方法如流程图4所示，可以具体包括以下步骤：

步骤401：获取样本日志数据。

步骤402：根据各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇。

步骤403：确定多个日志簇中各日志簇的质量评分。

步骤404：利用多个日志簇和质量评分解析日志。

本实施方式的步骤401至步骤404和实施方式一中的步骤101至步骤104类似，在此不作赘述。

步骤405：确定待分裂日志簇。

具体地说，将所有所述日志簇中日志数量超过预设的日志数量阈值的每个日志簇分裂为多个日志簇。如果日志簇中的日志数量小于预设的日志数量阈值，即当前解析到的日志簇的日志数量过少，日志簇中的日志各位置上参数存储的信息有限，则暂时不予以分裂日志簇，如果日志簇中的日志数量大于预设的日志数量阈值，即当前解析到的日志簇中日志数量较多，此时影响到日志解析的速度，预设的日志数量阈值可以由技术人员根据实际情况设定大小。

步骤406：确定待分裂日志簇的候选位置。

具体地说，确定每个所述待分裂日志簇中字段数量小于预设的字段数量阈值且大于1的位置为候选位置。如果日志中位置上的字段数量超过了预设的字段数量阈值，说明在该位置上的参数种类非常多，则一定程度上表示该位置是参数的可能性越高，此时不根据该位置对日志簇进行分裂，字段数量阈值可以由技术人员根据实际情况设定大小。

步骤407：根据各候选位置的基尼值确定最优位置。

具体地说，计算所有候选位置的基尼值(基尼值是经典决策树CART用于分类问题时选择最优特征的指标)，并将每个候选位置的基尼值与日志参数最大基尼值进行比较，在比较结果为小于日志参数最大基尼值的候选位置中并选取基尼值最大为最优位置。各位置的基尼值gini可由以下计算公式确定：

其中，l为在当前位置中统计出该位置中出现的独特字段的总数，

为对应的独特字段的出现次数，cnt为该位置出现的字段总数。

具体地说，因为只有在日志某个位置上的参数的熵值超过日志参数最小熵值，该位置才可以作为分裂的候选位置，故设定日志参数最大基尼值，当候选位置的基尼值小于日志参数最大基尼值时即满足日志参数熵值大于日志参数最小熵值，日志参数最大基尼值可以由技术人员根据实际情况设定大小。

步骤408：根据最优位置将待分裂日志簇分裂为多个日志簇。

具体地说，将最优位置上不同的字段分配到不同的日志簇，其他位置的字段保持不变，将待分裂的日志簇分裂为多个日志簇。

在一个具体的例子中，假设给定的日志簇中包含有“RAS KERNEL INFO generating core”和“RAS KERNEL FAILED generating core”，首先判断该日志簇内日志数量是否超过预设的日志数量阈值模板，如果不超过，则跳过该日志簇的分裂，如果超过该阈值(如该日志簇内包含日志100条，该阈值设为50)，判断该日志簇的日志签名各位置上的字段数，其中，位置1上仅有1个字段RAS，位置2上仅有1个字段KERNEL，位置3上有两个不同的字段INFO和FAILED，对仅有1个字段的位置跳过不处理，对那些字段数小于预设的字段数量阈值的位置将其作为候选位置(此处选择位置2和位置3为候选位置)，对各候选位置进行基尼值的计算，将其与日志参数最大基尼值进行比较，并且从各候选位置中挑选出基尼值最大的那一项作为最优位置，将该位置上的字段进行分裂，如根据位置3上的字段INFO，FAILED进行日志簇分裂，则分裂后得到对应的日志簇“RAS KERNEL INFO generating core”和“RAS KERNEL FAILED generating core”。

本实施方式相对于现有技术而言，获取样本日志数据；根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇；确定多个日志簇中各日志簇的质量评分；利用多个日志簇和质量评分解析日志；对满足预设的分裂条件的日志簇进行分裂；其中，所述分裂条件包括：所述日志簇中的日志数量超过预设的日志数量阈值。。通过对日志数量超过阈值的日志簇进行分裂，既提升了每个日志簇的质量评分，又能防止因为日志簇内日志数量过多导致解析速度变慢，也是一种对所有日志簇的更新和优化。

本申请的第五实施方式涉及一种日志解析方法。本实施方式在第四实施方式的基础上做了进一步改进：在将所有所述日志簇中日志数量超过预设的日志数量阈值的每个日志簇分裂为多个日志簇之后，还包括：在分裂得到的各日志簇中，查询到关键字连续出现而其他字段相同的日志，作为候选删除日志；在所述候选删除日志中，删除所述关键字出现次数最少的日志以外的所有所述日志。

本实施方式中的一种日志解析方法如流程图5所示，可以具体包括以下步骤：

步骤501：获取样本日志数据。

步骤502：根据各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇。

步骤503：确定多个日志簇中各日志簇的质量评分。

步骤504：利用多个日志簇和质量评分解析日志。

本实施方式的步骤501至步骤504和实施方式一中的步骤101至步骤104类似，在此不作赘述。

步骤505：将所有日志簇中日志数量超过预设的日志数量阈值的每个日志簇分裂为多个日志簇。

步骤506：删除关键字连续出现而其他字段相同的日志中关键字出现次数最少的日志以外的所有日志。

具体地说，该步骤主要针对具备相同信息的日志具有不同长度这一情况，主要从以下两种情况考虑：

(1)将连续相同的预处理变量合并成一个预处理变量，如将“delete block blk_object blk_object”和“delete block blk_object blk_object blk_object”都规范成“delete block blk_object”；

(2)将连续的参数通配符将合并成一个参数通配符，如将“A B**C”和“A B***C”都规范成“A B*C”。

本实施方式相对于现有技术而言，获取样本日志数据；根据样本日志数据中各样本日志的长度和首尾关键字对样本日志数据进行聚类处理，得到多个日志簇；确定多个日志簇中各日志簇的质量评分；利用多个日志簇和质量评分解析日志；将所有日志簇中日志数量超过预设的日志数量阈值的每个日志簇分裂为多个日志簇；在分裂得到的各日志簇中，查询到关键字连续出现而其他字段相同的日志，作为候选删除日志；在所述候选删除日志中，删除所述关键字出现次数最少的日志以外的所有所述日志。通过删除关键字连续出现而其他字段相同的日志中的重复日志，提高日志解析速度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请第六实施方式涉及一种日志解析装置，包括：获取模块601、聚类模块602、评分模块603和解析模块604，具体结构如图6所示：

获取模块601，用于获取样本日志数据。

聚类模块602，用于根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇。

评分模块603，用于确定所述多个日志簇中各日志簇的质量评分；。

解析模块604，用于利用所述多个日志簇和所述质量评分解析日志。

在一个具体的例子中，所述根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，包括：对所述样本日志数据中的各条样本日志，分别进行如下处理：判断是否存在与所述样本日志的长度匹配的日志簇，如果是，则获取与所述样本日志的长度匹配的日志簇，如果否，则使用所述样本日志创建一个日志簇；判断在与所述样本日志的长度匹配的日志簇中是否存在与所述样本日志的首尾关键字匹配的日志簇，如果是，则获取与所述样本日志的首尾关键字匹配的日志簇，如果否，则使用所述样本日志创建一个日志簇；确定与所述样本日志的首尾关键字匹配的日志簇中所有日志签名与所述样本日志的相似度，如果所有所述相似度中存在任一相似度高于预设阈值，则将所述样本日志插入到所述高于预设阈值的相似度对应的日志所属的日志簇中，否则使用所述样本日志创建一个日志簇。

在一个具体的例子中，所述确定所述多个日志簇中各日志簇的质量评分，包括：根据所述所有日志簇中各日志簇簇内的紧凑性以及不同日志簇簇间的分离性计确定各日志簇的质量评分。

在一个具体的例子中，另外，所述利用所述多个日志簇和所述质量评分解析日志，包括：获取待解析的目标日志；使用正则表达式过滤掉所述目标日志中的无关信息；根据所述目标日志的长度和首尾关键字在所述多个日志簇中确定一个匹配的日志簇，确定所述目标日志与所述匹配的日志簇的自适应相似度；根据所述质量评分确定所述目标日志与所述匹配的日志簇的自适应相似度阈值；判断所述自适应相似度是否大于所述自适应相似度阈值，如果是，则将所述目标日志插入到所述匹配的日志簇，否则使用所述目标日志创建一个日志簇。

在一个具体的例子中，另外，所述利用所述多个日志簇和所述质量评分解析日志之后，还包括：对满足预设的分裂条件的日志簇进行分裂；其中，所述分裂条件包括：所述日志簇中的日志数量超过预设的日志数量阈值。

在一个具体的例子中，所述对满足预设的分裂条件的日志簇进行分裂，包括：确定待分裂的所述日志簇中字段数量小于预设的字段数量阈值的位置为候选位置；计算所有所述候选位置的基尼值，并根据待分裂的所述日志簇中最大基尼值对应的所述候选位置分裂所述日志簇。

在一个具体的例子中，所述对满足预设的分裂条件的日志簇进行分裂之后，还包括：在分裂得到的各日志簇中，查询到关键字连续出现而其他字段相同的日志，作为候选删除日志；在所述候选删除日志中，删除所述关键字出现次数最少的日志以外的所有所述日志。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本申请第七实施方式涉及一种服务器，如图7所示，该服务器包括至少一个处理器701；以及，与至少一个处理器701通信连接的存储器702；以及，与日志解析装置通信连接的通信组件703，通信组件703在处理器701的控制下接收和发送数据；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行以实现上述日志解析方法实施例。

具体地，该电子设备包括：一个或多个处理器701以及存储器702，图7中以一个处理器701为例。处理器701、存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器702作为一种计算机可读存储介质，可用于存储计算机软件程序、计算机可执行程序以及模块。处理器701通过运行存储在存储器702中的计算机软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述日志解析方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器702中，当被一个或者多个处理器701执行时，执行上述任意方法实施方式中的日志解析方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本申请第八实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述日志解析方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

一种日志解析方法，包括：

获取样本日志数据；

根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇；

确定所述多个日志簇中各日志簇的质量评分；

利用所述多个日志簇和所述质量评分解析日志；

其中，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值。
根据权利要求1所述的日志解析方法，其中，所述根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，包括：

对所述样本日志数据中的各样本日志，分别进行如下处理：

判断是否存在与所述样本日志的长度匹配的日志簇，如果是，则获取与所述样本日志的长度匹配的日志簇，如果否，则使用所述样本日志创建一个日志簇；

判断在与所述样本日志的长度匹配的日志簇中是否存在与所述样本日志的首尾关键字匹配的日志簇，如果是，则获取与所述样本日志的首尾关键字匹配的日志簇，如果否，则使用所述样本日志创建一个日志簇；

确定与所述样本日志的首尾关键字匹配的日志簇中所有日志签名与所述样本日志的相似度，如果所有所述相似度中存在任一相似度高于预设阈值，则将所述样本日志插入到所述高于预设阈值的相似度对应的日志所属的日志簇中，否则使用所述样本日志创建一个日志簇。
根据权利要求1所述的日志解析方法，其中，所述确定所述多个日志簇中各日志簇的质量评分，包括：

根据所述所有日志簇中各日志簇簇内的紧凑性以及不同日志簇簇间的分离性确定各日志簇的质量评分。
根据权利要求3所述的日志解析方法，其中，所述紧凑性定义为日志中常量与总长度的比率，所述分离性定义为两个不同的所述日志的离散项集的差异性；

其中，所述离散项集是离散项对的集合，所述离散项对是指每个所述日志中两两字段生成的所有项对。
根据权利要求1所述的日志解析方法，其中，所述利用所述多个日志簇和所述质量评分解析日志，包括：

获取待解析的目标日志；

使用正则表达式过滤掉所述目标日志中的无关信息；

根据所述目标日志的长度和首尾关键字在所述多个日志簇中确定一个匹配的日志簇，确定所述目标日志与所述匹配的日志簇的自适应相似度；

根据所述质量评分确定所述目标日志与所述匹配的日志簇的自适应相似度阈值；

判断所述自适应相似度是否大于所述自适应相似度阈值，如果是，则将所述目标日志插入到所述匹配的日志簇，否则使用所述目标日志创建一个日志簇。
根据权利要求1所述的日志解析方法，其中，所述利用所述多个日志簇和所述质量评分解析日志之后，还包括：

对满足预设的分裂条件的日志簇进行分裂；

其中，所述分裂条件包括：所述日志簇中的日志数量超过预设的日志数量阈值。
根据权利要求6所述的日志解析方法，其中，所述对满足预设的分裂条件的日志簇进行分裂，包括：

确定待分裂的所述日志簇中字段数量小于预设的字段数量阈值的位置为候选位置；

计算所有所述候选位置的基尼值，并根据待分裂的所述日志簇中最大基尼值对应的所述候选位置分裂所述日志簇。
根据权利要求6所述的日志解析方法，其中，所述对满足预设的分裂条件的日志簇进行分裂之后，还包括：

在分裂得到的各日志簇中，查询到关键字连续出现而其他字段相同的日志，作为候选删除日志；

在所述候选删除日志中，删除所述关键字出现次数最少的日志以外的所有所述日志。
一种日志解析装置，包括：

获取模块，用于获取样本日志数据；

聚类模块，用于根据所述样本日志数据中各样本日志的长度和首尾关键字对所述样本日志数据进行聚类处理，得到多个日志簇；

评分模块，用于确定所述多个日志簇中各日志簇的质量评分；

解析模块，用于利用所述多个日志簇和所述质量评分解析日志；

其中，所述质量评分用于在进行所述解析日志时确定日志的自适应相似度阈值。
一种服务器，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的日志解析方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的日志解析方法。