WO2021088385A1

WO2021088385A1 - 一种在线日志解析方法、系统及其电子终端设备

Info

Publication number: WO2021088385A1
Application number: PCT/CN2020/098701
Authority: WO
Inventors: 施凌鹏; 卢士达; 陈晓露; 陈琰; 陆正嘉; 顾中坚; 富宇; 顾荣斌; 李天宇; 刘赛; 祝蓓; 李静; 刘云飞
Original assignee: 国网上海市电力公司; 南京航空航天大学
Priority date: 2019-11-06
Filing date: 2020-06-29
Publication date: 2021-05-14
Also published as: EP3846048A4; CN110888849B; CN110888849A; EP3846048A1

Abstract

一种在线日志解析方法、系统及其电子终端设备，该方法包含以下步骤：S1、对每一条未解析日志进行日志预处理，得到多条不同日志长度未解析日志序列，将其归到对应的第一日志组中；S2、获取第一日志组中各日志序列的日志字符串，计算日志字符串相似度，基于日志字符串相似度在线聚类；S3、将未解析日志序列作为查询项与第二日志组的模板生成树中的模板匹配共同的节点，获取模板。其优点是：将日志按照长度进行分类，基于日志字符串相似度对日志进行二次聚类，最后使用模板生成树提取日志模板，该方法能够高效而准确地从非结构化日志中提取日志模板，方便数据分析师对日志进行更高级的分析和处理。

Description

一种在线日志解析方法、系统及其电子终端设备

技术领域

本发明涉及日志解析技术领域，具体涉及一种基于字符串聚类和模板生成树的在线日志解析方法、系统及其电子终端设备。

背景技术

系统日志记录了系统的运行信息，作为系统在线监控和异常检测的重要数据，可帮助管理者调试系统故障及异常分析，进一步保证系统的安全性。通常日志具有海量和非结构化的特点，日志解析可以将大量非结构化的日志转换为结构化的数据，即从日志中提取模板。日志解析作为系统异常检测的第一步，提高了异常检测的效率。

通常日志解析方法可分为离线方法和在线方法。离线方法是脱机解析日志的方法，需收集到系统在一个时间段内的日志，并加载到内存中训练解析模型，再利用模型解析日志。由于离线方法是脱机解析日志，不能实时解析日志，系统管理者无法及时发现系统异常行为，另外，离线方法需将日志加载到内存中训练，如果在训练后添加了新的日志类型就必须再次训练解析模型，将会消耗更多时间和人力资源。

与离线方法不同的是，在线方法可以实时解析新生成日志，系统管理者能够及时发现并处理系统异常。但是当前在线日志解析方法存在两个缺点：一是现有在线方法在准确性和效率方面都有改进空间，二是这些在线方法都是为特定的日志系统设计的，各个系统的解析参数并不通用，解析效率较低，准确度较差。

发明内容

本发明的目的在于提供一种在线日志解析方法、系统及其电子终端设备，该方法基于字符串聚类和模板生成树的进行在线解析，将日志按照长度进行分类，再计算日志字符串相似度，基于日志字符串相似度对日志进行二次聚类，最后使用模板生成树提取日志模板，该方法能够高效而准确地从非结构化日志中提取日志模板，为系统管理者提供简洁直观的摘要和干净规范的结构化数据，方便数据分析师对日志进行更高级的分析和处理。

为了达到上述目的，本发明通过以下技术方案实现：

一种在线日志解析方法，该方法包含以下步骤：

S1、对每一条未解析日志进行日志预处理，得到多条不同日志长度的未解析日志序列，将各条未解析日志序列归为对应的第一日志组中，所述第一日志组为具有相同日志长度的日志序列的集合，所述第一日志组包含解析过的日志序列和未解析日志序列；

S2、获取第一日志组中各日志序列的日志字符串，对所述第一日志组中的第一条未解析日志序列的日志字符串与所述第一日志组中解析过的日志序列的日志字符串分别计算日志字符串相似度，基于日志字符串相似度在线聚类，得到该条未解析日志序列所在的第二日志组；

S3、将该条未解析日志序列作为查询项，与所述第二日志组的模板生成树中的模板匹配共同的节点，获取该条未解析日志序列的日志模板，后续未解析日志序列依次重复步骤S2和步骤S3操作获取日志模板。

优选地，步骤S1具体包含：

利用正则表达式识别每一条未解析日志的日志头中与之匹配的变量信息并删除所述变量信息；

利用预先定义的分隔符对每一条未解析日志的日志内容进行划分，得到不同日志长度的未解析日志序列，将各条未解析日志序列按照不同的日志长度归为不同的第一日志组中。

优选地，所述步骤S2具体包含：

S21、获取第一日志组内各日志序列的日志字符串，将第一日志组内所有解析过的日志序列的日志字符串组成该第一日志组的日志字符串集；

S22、对所述第一日志组中的第一条未解析日志序列的日志字符串与所述日志字符串集中的日志字符串分别计算日志字符串相似度；

S23、基于所述日志字符串相似度在线聚类，得到该条未解析日志序列对应所在的第二日志组，所述第二日志组为各条日志序列的日志字符串相似度达到相似度阈值的日志序列的集合，一个第一日志组里包含若干个第二日志组。

优选地，所述步骤S21中，

所述日志字符串为日志序列中每个单词的首字母组成的字符串。

优选地，当单词的首字符为数字或标识符时，用通配符来表示，当单词的首字符为字母时，用字母本身来表示。

优选地，所述步骤S22中日志字符串相似度的计算公式为：

其中，sim(S _m1,S _m2)表示日志字符串相似度，S _m1和S _m2分别代表一条日志字符串，len(|S _m1|,|S _m2|)代表两条日志字符串的长度，S _m1(i)代表日志字符串S _m1的第i个字符，S _m2(j)代表日志字符串S _m2的第j个字符，Ⅱ _f(S _m1(i),S _m2(j))定义如下：

优选地，所述步骤S23具体为：

设定相似度阈值，若存在日志字符串相似度大于相似度阈值的日志字符串，将该条未解析日志序列并入该日志字符串对应的第二日志组；若不存在日志字符串相似度大于相似度阈值的日志字符串，则新建一个第二日志组，并更新该第一日志组的日志字符串集。

优选地，所述步骤S3具体为：

将该条未解析日志序列中的每个单词依次插入树结构，将每条分支最后的节点标记为特殊字符，从该条未解析日志序列的根节点P开始搜索，取得所要查找单词的所在节点，若不存在匹配节点，则将该条未解析日志序列插入树结构作为新分支；若存在匹配节点，根据该匹配节点选择对应的子树并转到该子树继续进行搜索，直至该条未解析日志序列中的每个单词搜索完成，获取该条未解析日志序列的日志模板，后续未解析日志序列依次重复步骤S2和步骤S3的操作以获取日志模板。

优选地，该方法还包含：

判断步骤S3中日志模板是否获取成功，具体为：引入界定值X，当所述界定值X小于或等于阈值λ，表示模板生成成功，更新模板生成树，将未匹配节点更新为通配符；当所述界定值X大于所述阈值λ，将未解析日志序列作为新的分支插入模板生成树，其中，所述界定值X表示为：

其中，∑unmatch(t _mi)表示匹配失败的节点数量，L为日志长度，σ为该搜索路径上通配符的数量。

优选地，该方法还包含：

引入最大树深度参数MaxDepth，当模板生成树的叶子节点达到最大树深度参数MaxDepth时，未解析日志序列中所有未遍历的单词将不再插入模板生成树，未遍历的单词都用通配符替代。

优选地，一种采用所述在线日志解析方法解析日志的日志解析系统，该系统包含：

预处理模块，用于对未解析日志进行预处理，得到所述未解析日志对应的未解析日志序列；

日志序列分配模块，将所述未解析日志序列按照其日志长度分配到对应的第一日志组内；

日志字符串获取模块，用于对第一日志组内的日志序列进行提取，获取各日志序列的日志字符串；

日志字符串相似度计算模块，用于对第一日志组中的未解析日志序列的日志字符串与解析过的日志序列的日志字符串分别计算日志字符串相似度；

在线聚类模块，用于依据所述日志字符串相似度，将所述未解析日志序列划分到对应的第二日志组；

模板生成树匹配模块，用于将所述未解析日志序列与第二日志组的模板生成树进行匹配，以获取该条未解析日志序列的日志模板。

优选地，还包含：

判断模块，用于判断所述未解析日志序列的日志模板是否获取成功。

优选地，一种电子终端设备，包含：

处理器，存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现任意一项所述的在线日志解析方法。

本发明与现有技术相比具有以下优点：

(1)本发明的一种在线日志解析方法，基于字符串聚类和模板生成树进行日志解析，将日志按照长度进行分类，再计算日志字符串相似度，基于日志字符串相似度对日志二次聚类，最后使用模板生成树提取日志模板，该方法能够高效而准确地从非结构化日志中提取日志模板，为系统管理者提供简洁直观的摘要和干净规范的结构化数据，方便数据分析师对日志进行更高级的分析和处理；

(2)本发明的方法中提出了日志字符串的概念，并计算日志字符串相似度，基于日志字符串相似度对长度相同的系统日志在线聚类，减少日志模板提取时无效的比较步骤，提高了日志解析效率；

(3)本发明采用了基于模板生成树的模板提取方法，利用模板生成树进行提取、更新模板，提高了在线日志解析的准确度。

附图说明

图1为一条日志的结构示例图；

图2为实施例中的一个日志长度为4的第一日志组；

图3为图2中第一日志组对应的一种日志模板集；

图4为图2中第一日志组对应的日志字符串集；

图5为日志模板生成过程示意图；

图6为采用本发明的在线日志解析方法解析示意图。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

日志解析是一种将非结构化的日志转化为结构化形式的高效且准确的方法，其从海量的系统日志中获取隐藏的信息，以指导后续操作。

本发明公开了一种在线日志解析方法，该方法包含以下步骤：

S1、对每一条未解析日志进行日志预处理，得到多条不同日志长度的未解析日志序列，将各条未解析日志序列归为对应的第一日志组中，所述第一日志组为具有相同日志长度的日志序列的集合，所述第一日志组内包含解析过的日志序列和未解析日志序列。

如图1所示，在日志解析过程中，每一条日志m可以表示为：

m＝{m _h,m _c}

其中，m _h表示日志头，m _c表示日志内容。日志头mh包括时间戳，定位，日志类型、安全性、设施等琐碎的变量信息，而日志解析主要需要对日志内容m _c部分进行处理。因为日志头m _h所包含的变量信息属于结构化的消息类型，非常直观且易于系统管理者理解，只需正则表达式就可以实现日志头的识别和匹配。日志解析的过程主要是在日志内容m _c中提取日志模板。

所述步骤S1具体为：首先利用正则表达式识别每一条未解析日志m的日志头m _h中与之匹配的变量信息并删除所述变量信息。此处的正则表达式非常简单，因为它只需匹配出例如时间戳、IP地址等简单的标记而不是日志内容m _c，通常情况下最多只需两个正则表达式就可以识别所有未解析日志m中的日志头m _h。

接着利用预先定义的分隔符对每一条未解析日志m的日志内容m _c进行划分，得到不同日志长度的未解析日志序列。空格分隔符通常能够解决大部分系统日志的分割问题。分隔符将日志内容m _c划分成长度为L的未解析日志序列T _m(日志序列的大小通常称之为日志序列的长度)：

T _m＝[t _m1,t _m2,…,t _mL]

其中，t _mi为未解析日志序列T _m中的第i个单词，日志序列长度为L即为该未解析日志序列T _m共有L个单词。

最后，将各条未解析日志序列T _m按照不同的日志长度分到不同的第一日志组中，每个第一日志组包含所有拥有相同日志长度的日志序列，所述第一日志组用G _L表示。实际上，在第一日志组G _L中也存在模板不同的日志，结合图2和图3所示，图2中的日志数据来自超级计算机系统(BlueGene/L，BGL)日志的日志内容m _c部分(包含6条未解析日志)，图3为图2对应的一种日志模板集(跟不同日志序列匹配会有不同的日志模板)，所述日志模板集是所有日志序列的日志模板的集合，图2为每条日志序列的日志长度都为4的第一日志组G _L，但是各条日志序列的模板都不相同，所以如果仅仅在此步骤后对日志进行模板提取会导致更高的复杂度。

为了解决上述问题，我们引入一个新概念：日志字符串，用S _m来表示，日志字符串S _m是由日志序列中每个单词的首字符组成的字符串。与日志长度相比，日志字符串S _m是对日志更具代表性的描述方式。

S2、获取第一日志组中各日志序列的日志字符串，对所述第一日志组中的第一条未解析日志序列T _m的日志字符串与所述第一日志组中解析过的日志序列的日志字符串分别计算日志字符串相似度，基于日志字符串相似度在线聚类，得到该条未解析日志序列T _m所在的第二日志组，即计算日志字符串相似度，基于日志字符串相似度对第一日志组G _L中的日志序列再次聚类，得到模板相似度更高的第二日志组，用G _s表示。

所述步骤S2具体包含：S21、获取第一日志组G _L内各日志序列的日志字符串，将第一日志组G _L内的所有解析过的日志序列的日志字符串组成该第一日志组G _L的日志字符串集。

所述步骤S21中，为了避免日志字符串提取算法过高的时间复杂度，我们提取第一日志组G _L中日志序列中每个单词的第一个字符作为其代表字符，最后将日志序列中所有单词的首字符按所属单词在日志序列中的位置组成一个字符串，称之为该日志序列的日志字符串S _m。每个第一日志组G _L中所有解析过的日志序列的日志字符串S _m的集合称之为该第一日志组G _L的日志字符串集，用S表示。也就是说，每个日志字符串S _m作为一个字符串种类存储于日志字符串集S中。

为避免日志字符串集S中字符串种类数量爆炸，当单词的首字符为数字或标识符时，用通配符来表示，当单词首字符为字母时，用字母本身来表示。在本实施例中，通配符采用*表示。

示例地，如图2和图4结合所示，图4为图2对应的日志字符串集S，虽然图2中每条日志序列的长度都相同，但是其日志字符串S _m都是唯一的，其中，第一条日志序列的日志字符串S _m为“*dae”，第二条日志序列的日志字符串S _m为“dTei”，后续依次为“esr*”、“piii”、“fpie”、“piuo”，可见每条日志序列的日志字符串S _m都不相同，日志字符串S _m对日志的描述更具代表性。

S22、对所述第一日志组中的第一条未解析日志序列T _m的日志字符串与所述日志字符串集S中的日志字符串分别计算日志字符串相似度。

所述日志字符串相似度的计算公式如公式(1)所示：

其中，sim(S _m1,S _m2)代表日志字符串相似度，S _m1和S _m2代表相比较的两条日志字符串，len(|S _m1|,|S _m2|)代表两条日志字符串的长度，S _m1(i)代表日志字符串S _m1的第i个字符，S _m2(j)代表日志字符串S _m2的第j个字符，Ⅱ _f(S _m1(i),S _m2(j))的定义如下：

S23、基于所述日志字符串相似度在线聚类，得到该条未解析日志序列T _m对应所在的第二日志组G _s，所述第二日志组G _s为各条日志的日志字符串相似度达到相似度阈值的日志序列的集合，一个第一日志组G _L里包含若干个第二日志组G _s。

所述步骤S23具体为：设定相似度阈值st，若存在日志字符串相似度大于相似度阈值st的日志字符串，表示日志字符串S _m1和日志字符串S _m2相似(即该条未解析日志序列T _m的日志字符串和与之计算的日志字符串相似)，则将该条未解析日志序列T _m并入该日志字符串对应的第二日志组G _s1中，所述第二日志组G _s1内各条日志序列的日志字符串相似度大于相似度阈值st；若不存在日志字符串相似度大于相似度阈值st的日志字符串，则新建一个第二日志组G _s2，并更新该第一日志组G _s1的日志字符串集S。

经过此步骤后每个第一日志组G _s1内未归属第二日志组G _s2的未处理日志序列T _m数量减少，各第二日志组G _s2内日志序列拥有同一模板的概率提高。在日志相似度高的第二日志组G _s内进行后续模板提取可大大降低算法的时间复杂度。

S3、在所述第二日志组G _s内基于模板生成树获取模板，即将该条未解析日志T _m作为查询项，与第二日志组G _s的模板生成树中的模板匹配共同的节点，以此来获取该条未解析日志序列T _m的日志模板(即该未解析日志的日志模板)，后续未解析日志序列依次重复步骤S2和步骤S3的操作以获取日志模板。

Trie树又称前缀树或字典树，是一种有序树，其中的结点通常保存字符串。Trie树是一种在字符串查找，前缀匹配等方面应用广泛的算法，每次匹配时只与被查询的字符串长度有关，时间复杂度只有O(1)。标准Trie树的结构为：所有含有公共前缀的字符串将挂在Trie树中同一个结点下，简明的存储了存在于字符串中的所有公共前缀。我们基于Trie树的思想构建第二日志组G _s的模板生成树，将未解析日志序列T _m作为查询项与模板生成树中的模板匹配共同的节点。第二日志组G _s内日志相似度高，模板种类少，模板生成树空间复杂度低，有效提高了从日志中提取模板的效率和准确性。

对于一条日志内容m _c，经上述步骤后已经被分割成日志序列，遍历日志序列，将其中的每个单词依次插入树结构，将每条分支最后的节点标记为特殊字符，那么从根节点到任意一个特殊字符所经过的路径表示一条日志内容m _c的匹配路径，树深度为L+1，L为日志长度，在本实施例中，特殊字符采用’$’。

所述步骤S3具体为：将该条未解析日志序列T _m中的单词t _m作为L个询问(查询项)，采用先深搜索遍历每一条路径。从该条未解析日志序列T _m的根节点P(空节点)开始搜索，取得要查找单词t _mi的所在节点，若不存在匹配节点(节点匹配失败)，则将该未解析日志序列T _m插入树结构作为新分支；若存在匹配节点(节点匹配成功)，根据该节点选择对应的子树并转到该子树继续进行搜索，直至每个单词t _mi搜索完成，获取该条未解析日志序列T _m的日志模板，后续未解析日志序列依次重复步骤S2和步骤S3操作以获取日志模板。示例地，如图5所示，其展示了查询日志T _m:[connected,to,7342,exactly]与模板生成树匹配成功获得模板并更新模板生成树的过程。

设未解析日志序列T _m中的单词t _mi与模板生成树上的第i个节点Q存储的单词t _m相同，则P＝Q，t _mi变为t _m(i+1)继续搜索。若t _m(i+1)与第i+1个节点匹配失败，那么记录匹配失败的节点，更新根节点P为第i+2个节点，t _m(i+2)继续匹配第i+2个节点，直到完成L个询问，对于一条日志的搜索才结束。提取匹配成功节点存储的单词t _m，匹配失败节点则返回通配符‘*’，以此获得日志模板。

若第二日志组G _s2内只有一条日志序列(未解析日志序列T _m单独建立的第二日志组)，依据该条日志序列在所述第二日志组G _s2内建立模板树，那么所述第二日志组G _s的日志模板就是该条日志序列的日志模板。如图2所示，图2的第一日志组G _L内的6条未解析日志序列T _m，分别属于6个不同的第二日志组G _s，若每个第二日志组G _s内只有那一条未解析日志序列T _m，那么每个第二日志组G _s的日志模板就是组内未解析日志序列T _m的日志模板。

另外，本发明所提供的方法还包含：判断步骤S3中日志模板是否生成成功，具体为：引入界定值X，具体如公式(3)所示，

其中，∑unmatch(t _mi)表示匹配失败的节点数量，L为日志长度，σ为该搜索路径上通配符‘*’的数量。

当X小于或等于阈值λ，表示模板生成成功，更新模板生成树，将未匹配节点更新为通配符‘*’；当X大于阈值λ，将未解析日志序列T _m作为新的分支插入模板生成树。

示例地，如图6所示，为采用本发明的在线日志解析方法获得日志模板的过程。图6中有5条未解析日志序列T _m，将每一条未解析日志序列T _m按次序采用上述算法求取模板。示例地，处理解析日志序列T _m1[connected,to,2312,error]时，首先将该条日志序列T _m1划分到长度为4的第一日志组G _L2里，在寻找第二日志组G _S2时，发现没有日志字符串相似度大于相似度阈值的日志字符串，则新建一个第二日志组G _S2，在此第二日志组G _S2内基于此日志序列T _m1构建模板树，则此时该第二日志组G _S2的日志模板是该条日志序列T _m1的模板[connected,to,2312,error]。该日志序列T _m1的后续日志序列重复上述过程，最终由第二日志组G _S2里的所有日志序列重新建立一个模板生成树生成模板。由上述可知，本发明的在线日志解析方法对于每一条新生成的未解析日志都能够自动解析并快速提取模板，且准确率较高。

除此之外，该方法还包含：引入最大树深度参数MaxDepth，当模板生成树的叶子节点达到最大树深度参数MaxDepth时，未解析日志序列T _m所有未遍历的单词t _mi将不再插入模板生成树，未遍历的单词t _mi都用通配符‘*’替代。

另外，本发明还包含一种采用所述在线日志解析方法解析日志的日志解析系统，该系统包含：预处理模块、日志序列分配模块、日志字符串获取模块、日志字符串相似度计算模块、在线聚类模块和模板生成树匹配模块。

日志解析系统内各模块具体为：预处理模块，用于对未解析日志进行预处理，得到所述未解析日志对应的未解析日志序列；

优选地，该日志解析系统还包含判断模块，所述判断模块用于判断步骤S3中未解析日志序列的日志模板是否获取成功。

所述预处理模块、日志序列分配模块、日志字符串获取模块、日志字符串相似度计算模块、在线聚类模块、模板生成树匹配模块、判断模块可以分别为独立的一个或多个处理器或者处理芯片，还可以共享一个集成处理器，需要的话还可以包括存储器、相关的接口及系统传输总线。处理器或处理芯片执行程序相关的代码实现相应的功能。

另外，本发明还包含一种电子终端设备，其包含：处理器，存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现任意一项所述的在线日志解析方法。

综上所述，本发明提供了一种在线日志解析方法、系统及其电子终端设备，该方法基于字符串聚类和模板生成树的进行在线解析，将日志按照长度进行分类，再计算日志字符串相似度，基于日志字符串相似度对日志二次聚类，最后使用模板生成树提取日志模板。该方法能够高效而准确地从非结构化日志中提取日志模板，为系统管理者提供简洁直观的摘要和干净规范的结构化数据，方便数据分析师对日志进行更高级的分析和处理，另外，该方法不需要分析源代码和领域专家的参与，对于每一条未解析日志都能够自动解析并快速提取模板，能够高效且通用地在线解析日志，准确度较高。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

一种在线日志解析方法，其特征在于，该方法包含以下步骤：

S1、对每一条未解析日志进行日志预处理，得到多条不同日志长度的未解析日志序列，将各条未解析日志序列归为对应的第一日志组中，所述第一日志组为具有相同日志长度的日志序列的集合，所述第一日志组包含解析过的日志序列和未解析日志序列；

S2、获取第一日志组中各日志序列的日志字符串，对所述第一日志组中的第一条未解析日志序列的日志字符串与所述第一日志组中解析过的日志序列的日志字符串分别计算日志字符串相似度，基于日志字符串相似度在线聚类，得到该条未解析日志序列所在的第二日志组；

S3、将该条未解析日志序列作为查询项，与所述第二日志组的模板生成树中的模板匹配共同的节点，获取该条未解析日志序列的日志模板，后续未解析日志序列依次重复步骤S2和步骤S3操作获取日志模板。
如权利要求1所述的在线日志解析方法，其特征在于，步骤S1具体包含：

利用正则表达式识别每一条未解析日志的日志头中与之匹配的变量信息并删除所述变量信息；

利用预先定义的分隔符对每一条未解析日志的日志内容进行划分，得到不同日志长度的未解析日志序列，将各条未解析日志序列按照不同的日志长度归为不同的第一日志组中。
如权利要求1所述的在线日志解析方法，其特征在于，所述步骤S2具体包含：

S21、获取第一日志组内各日志序列的日志字符串，将第一日志组内所有解析过的日志序列的日志字符串组成该第一日志组的日志字符串集；

S22、对所述第一日志组中的第一条未解析日志序列的日志字符串与所述日志字符串集中的日志字符串分别计算日志字符串相似度；

S23、基于所述日志字符串相似度在线聚类，得到该条未解析日志序列对应所在的第二日志组，所述第二日志组为各条日志序列的日志字符串相似度达到相似度阈值的日志序列的集合，一个第一日志组里包含若干个第二日志组。
如权利要求3所述的在线日志解析方法，其特征在于，所述步骤S21中，

所述日志字符串为日志序列中每个单词的首字母组成的字符串。
如权利要求4所述的在线日志解析方法，其特征在于，

当单词的首字符为数字或标识符时，用通配符来表示，当单词的首字符为字母时，用字母本身来表示。
如权利要求3所述的在线日志解析方法，其特征在于，所述步骤S22中日志字符串相似度的计算公式为：

其中，sim(S _m1,S _m2)表示日志字符串相似度，S _m1和S _m2分别代表一条日志字符串，len(|S _m1|,|S _m2|)代表两条日志字符串的长度，S _m1(i)代表日志字符串S _m1的第i个字符，S _m2(j)代表日志字符串S _m2的第j个字符，Ⅱ _f(S _m1(i),S _m2(j))定义如下：
如权利要求3所述的在线日志解析方法，其特征在于，所述步骤S23具体为：

设定相似度阈值，若存在日志字符串相似度大于相似度阈值的日志字符串，将该条未解析日志序列并入该日志字符串对应的第二日志组；若不存在日志字符串相似度大于相似度阈值的日志字符串，则新建一个第二日志组，并更新该第一日志组的日志字符串集。
如权利要求3所述的在线日志解析方法，其特征在于，所述步骤S3具体为：

将该条未解析日志序列中的每个单词依次插入树结构，将每条分支最后的节点标记为特殊字符，从该条未解析日志序列的根节点P开始搜索，取得所要查找单词的所在节点，若不存在匹配节点，则将该条未解析日志序列插入树结构作为新分支；若存在匹配节点，根据该匹配节点选择对应的子树并转到该子树继续进行搜索，直至该条未解析日志序列中的每个单词搜索完成，获取该条未解析日志序列的日志模板，后续未解析日志序列依次重复步骤S2和步骤S3的操作以获取日志模板。
如权利要求1或8所述的在线日志解析方法，其特征在于，该方法还包含：

判断步骤S3中未解析日志序列的日志模板是否获取成功，具体为：引入界定值X，当所述界定值X小于或等于阈值λ，表示模板生成成功，更新模板生成树，将未匹配节点更新为通配符；当所述界定值X大于所述阈值λ，将未解析日志序列作为新的分支插入模板生成树，其中，所述界定值X表示为：

其中，∑unmatch(t _mi)表示匹配失败的节点数量，L为日志长度，σ为该搜索路径上通配符的数量。
如权利要求1所述的在线日志解析方法，其特征在于，该方法还包含：

引入最大树深度参数MaxDepth，当模板生成树的叶子节点达到最大树深度参数MaxDepth时，未解析日志序列中所有未遍历的单词将不再插入模板生成树，未遍历的单词都用通配符替代。
一种采用如权利要求1～10所述的在线日志解析方法解析日志的日志解析系统，其特征在于，该系统包含：

预处理模块，用于对未解析日志进行预处理，得到所述未解析日志对应的未解析日志序列；

日志序列分配模块，将所述未解析日志序列按照其日志长度分配到对应的第一日志组内；

日志字符串获取模块，用于对第一日志组内的日志序列进行提取，获取各日志序列的日志字符串；

日志字符串相似度计算模块，用于对第一日志组中的未解析日志序列的日志字符串与解析过的日志序列的日志字符串分别计算日志字符串相似度；

在线聚类模块，用于依据所述日志字符串相似度，将所述未解析日志序列划分到对应的第二日志组；

模板生成树匹配模块，用于将所述未解析日志序列与第二日志组的模板生成树进行匹配，以获取该条未解析日志序列的日志模板。
如权利要求11所述的日志解析系统，其特征在于，还包含：

判断模块，用于判断所述未解析日志序列的日志模板是否获取成功。
一种电子终端设备，其特征在于，包含：

处理器，存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～10中任意一项所述的在线日志解析方法。