WO2011106971A1

WO2011106971A1 - 一种网管系统故障的诊断方法和系统

Info

Publication number: WO2011106971A1
Application number: PCT/CN2010/077227
Authority: WO
Inventors: 谭辉
Original assignee: 中兴通讯股份有限公司
Priority date: 2010-03-01
Filing date: 2010-09-21
Publication date: 2011-09-09
Also published as: CN102196478B; CN102196478A

Description

一种网管系统故障的诊断方法和系统技术领域

本发明涉及网管技术，尤其涉及一种网管系统故障的诊断方法和系统。背景技术

目前，第三代移动通信（3G )技术中，无线网管在网络设备的管理中占据了重要的位置，通过网管系统的告警、性能、配置管理可以实现整个网络的管理。但是，随着 3G网络的不断扩大，单个网管系统所管理的网元成倍增加，大网络规模对网管系统的稳定性、兼容性、可扩展性、故障易诊断性提出了较高要求，其中，最重要的是网管系统的故障易诊断性。

传统的网管系统故障处理通常釆用人工方式，即：维护人员发现网管系统故障后，先根据自己的经验对故障进行定位和处理，如果不能处理就转给研发人员；研发人员根据维护人员反馈的信息对故障进行分析定位，如果信息不够，研发人员需要反复索取信息，这样，一个问题从发现到定位一般需要两、三天的时间，如此，会引起运营商的投诉和抱怨。在网络发展越来越复杂的 3G时代，传统的网管系统故障处理方式必将成为制约网络进一步发展的瓶颈。发明内容

有鉴于此，本发明的主要目的在于提供一种网管系统故障的诊断方法和系统，能节约故障定位时间，提高网管系统故障处理的效率。

为解决上述技术问题，本发明的技术方案是这样实现的：

一种网管系统故障的诊断方法，该诊断方法包括：利用搜索引擎对网管系统的日志内容进行索引，生成索引文件；根据选择的故障类别，从故障类别对应的分析经验库中取出关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库存储的故障问题分析经验中查找出该关键语句对应的原因分析和处理措施。

所述分析经验库中的分析经验包括：人为诊断到新问题后，录入故障分析经验库的分析经验；和 /或，搜索到日志后，日志中已给出原因分析及处理措施时，自动写入分析经验库的日志的分析经验。

该方法进一步包括：搜索不到有匹配的日志、或匹配的日志在故障发生之前时，将存储的网管系统信息打包成压缩文件。

生成索引文件之前，该方法进一步包括：收集网管系统信息，并将收集的网管系统信息进行存储；相应的，在使用搜索引擎对索引文件进行搜索之前，进一步包括：根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，并结束流程；查找不到时，使用搜索引擎对索引文件进行搜索。

所述网管系统信息包括磁盘空间、内存、中央处理器占用率、数据库空间大小、性能数据釆集任务详细信息、配置信息、网管版本信息、北向接口的安装配置信息、网管补丁信息、后台告警信息、上下级局的链路信息、系统日志。

所述搜索引擎为基于倒排索引技术的搜索引擎，索引结构至少包括关键语句和日志号。

一种网管系统故障的诊断系统，该系统包括：日志索引模块，用于利用搜索引擎对网管系统的日志按照关键语句进行索引，生成索引文件；故障选择模块，用于将选择的故障类别提供给故障分析模块；故障分析模块，用于根据选择的故障类别，从故障类别对应的分析经验库中取出关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库存储的故障问题分析经验中查找出该关键语句对应的原因分析和处理措施；分析经验库，用于存储故障问题的分析经验。

所述故障分析模块，还用于：在使用搜索引擎对索引文件进行搜索之前，根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，并结束操作；查找不到时，使用搜索引擎对索引文件进行搜索；相应的，该系统还包括信息收集模块，用于收集网管系统信息，并将收集的网管系统信息进行存储。

所述故障分析模块，进一步用于：当搜索不到有匹配的日志、或匹配的曰志在故障发生之前时，将信息收集模块存储的网管系统信息打包成压缩文件。

本发明提供的网管系统故障的诊断方法和系统，利用搜索引擎对网管系统的日志按照关键语句进行索引，生成索引文件；并根据用户在界面上选择的故障类别，从故障类别对应的分析经验库中取出每条关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库中查找出该关键语句对应的原因分析和处理措施；如此，能降低人工工作量，节约故障定位时间，提高网管系统故障处理的效率，进而提高运营商的满意度。

本发明的实现方案还提供了故障分析经验的自学习功能，如此，可使这种网管系统的故障处理方式扩展性和灵活性更强，应用范围更广，自动分析处理能力更高。附图说明

图 1为本发明实现网管系统故障的诊断方法的流程示意图；

图 2为本发明实现网管系统故障的诊断系统的结构示意图。具体实施方式

通常，网管系统一旦出现故障，在日志中都会有相关打印信息，大部分是开发人员为了定位问题输出的打印，还有一些是网管系统运行平台的异常打印信息，这些信息是诊断网管故障的有力证据；另外，目前开发人员分析故障问题的流程都是从日志入手，一般会在日志中搜索相关的打印，然后根据打印分析出问题的原因。但是，以码分多址（ CDMA, Code Division Multiple Access )技术的网管系统为例，网络管理中心（ NMC , Network Manage Centre )的日志文件大约每个 4M, 网管系统运行长时间后会产生大量的日志文件，从这些海量信息中搜索某个关键语句是非常困难的，如果釆用普通的按行读取查找算法，将会占用大量时间和内存。因此，本发明引入了基于倒排索引技术的搜索引擎来对海量日志文件进行搜索，先由搜索引擎对文本的日志文件进行索引，然后再进行搜索，可使搜索日志文件的效率大大提高，搜索关键语句的效率也比普通方式提高 10倍以上。

基于搜索引擎技术，本发明的基本思想是：利用搜索引擎对网管系统的曰志内容进行索引，生成索引文件；根据用户在界面上选择的故障类别，从故障类别对应的分析经验库中取出每条关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，实现故障定位。

这里，所述分析经验库用于存储故障问题的分析经验，包括故障问题的关键语句、原因分析及处理措施。

下面通过附图及具体实施例对本发明做进一步的详细说明。本发明实现一种网管系统故障的诊断方法，如图 1 所示，该诊断方法包括以下几个步骤：

步骤 101 : 收集网管系统信息，并将收集的网管系统信息进行存储；本步骤中，所述网管系统信息包括磁盘空间、内存、中央处理器（CPU ) 占用率、数据库空间大小、性能数据釆集任务详细信息、配置信息、网管版本信息、北向接口的安装配置信息、网管补丁信息、后台告警信息、上下级局的链路信息、系统日志等；所述配置信息包括网管系统管理的各个操作维护中心（OMC, Operations & Maintenance Center ) 的节点号、网络互连协议（IP )地址、时区信息等。

步骤 102: 利用搜索引擎对网管系统的日志内容进行索引，生成索引文件；

举例来说 , 假设有两篇日志：日志 1和日志 2 , 日志 1的内容为： Tom lives in Guangzhou, I live in Guangzhou too; 日志 2的内容为： He once lived in Shanghai;

首先利用搜索引擎取得这两篇日志的关键词，通常需要如下处理措施： a.找出字符串中的所有单词，即分词，英文单词由于用空格分隔，比较好处理，根据空格找出所有单词；而中文单词间是连在一起的，需要特殊的分词处理，例如依据词库搜索出各中文单词；

b.由于找出的 "in" , "once" , "too"等词没有什么实际意义、中文中的 "的"、 "是" 等字通常也无具体含义，将这些不代表概念的词过滤掉； c.用户通常希望查 "He" 时能把含 "he" , "HE" 的日志也找出来，所以将所有单词需要统一大小写；

d.用户通常希望查 "live" 时能把含 "lives"、 "lived" 的日志也找出来，所以将 "lives"、 "lived" 还原成 "live"；

e.标点符号通常不表示某种概念，将其过滤掉。经过上述处理后，日志 1的所有关键词为： tom、 live, guangzhou, i、 live、 guangzhou, 曰志 2的所有关键词为： he、 live、 shanghai„

有了关键词后，建立倒排索引，即：上述的对应关系是： "日志号" 对 "日志中所有关键词"，倒排索引技术是把这个关系倒过来，变成： "关键词" 对 "拥有该关键词的所有日志号"。则日志 1和日志 2经过倒排索引后的索引结构为：

关键词日志号

guangzhou 1

he 2

i 1

live 1, 2

shanghai 2

torn 1

进一步的，还可以加上 "出现频率" 和 "出现位置" 信息，则索引结构变为：

关键词日志号 [出现频率] 出现位置

guangzhou 1 [2] 3, 6

he 2[l] 1

i l [l] 4

live 1 [2], 2[1] 2, 5, 2

shanghai 2[1] 3

torn 1 [1] 1

以 live 这行为例说明一下该结构： live在日志 1中出现了两次，日志 2 中出现了一次，它的出现位置为 "2, 5, 2" , 其中，前两个数字 "2, 5" 就表示 live在日志 1中出现的两个位置；剩下的 "2" 就表示 live是日志 2中第 2个关键字。

生成索引文件时，将各列分别作为不同文件进行保存，其中关键词列作为词典文件（ Term Dictionary )保存，词典文件不仅保存有每个关键词，还保留了指向其他文件的指针，通过指针可以找到该关键词的频率信息和位置信息。

步骤 103: 将网管系统的故障分成一个或一个以上的故障类别，每个故障类别对应一个分析经验库，加载所有分析经验库；

本步骤中，所述故障类别可以是公共对象请求代理体系结构 ( CORBA, Common Object Request Broker Architecture ) '1"生能数据缺失、告警问题等；所述分析经验库存储故障问题的分析经验，可以通过数据库或者文件形式实现，例如： CDMA无线侧用于网管系统诊断的分析经验库釆用 xml文件构造存储。

每类故障的分析经验库存储为一个 xml文件，比如：告警问题可以存储为 alarm_problem.xml; 实际应用中，还可以根据问题的粒度将分析经验库更加细化，分析经验库的 xml文件中包含多个分析经验，每个分析经验包含三部分：关键语句、关键语句对应的原因推断、问题相应的解决方案。

下面是一个分析经验的范例：

<keyword content="omm link break, can't collect pm data" reason="pomc 和下级局 omm链路断开" todo= "检查 pome和 omm的链路" />;

其中 , "omm link break, can't collect pm data" 即为关键语句； "pome 和下级局 omm链路断开" 即为原因分析； "检查 pome和 omm的链路" 即为问题的解决方案。

本发明中，分析经验库中分析经验的学习包括：人为学习方式和 /或自学习方式；其中，所述人为学习方式是指人为诊断到一个新的问题后，可以将相应的分析经验录入故障分析经验库；所述自学习方式是指搜索到曰志后，日志中已给出原因分析及处理措施时，自动将日志的分析经验写入分析经验库中，以实现自学习。所述分析经验包括关键语句、原因分析及处理措施。

进一步的，本步骤还可以将故障类别在界面显示，供用户选择。

步骤 104: 选择故障类别；

这里，可以在进行故障定位时，由用户在界面上进行选择。

步骤 105: 从选择的故障类别对应的分析经验库中取出每条关键语句，使用搜索引擎对索引文件进行搜索；

本步骤中，在使用搜索引擎对索引文件进行搜索之前，还可以根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，并结束流程；查找不到时，再使用搜索引擎对索引文件进行搜索；

步骤 106: 当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库中查找出该关键语句对应的原因分析和处理措施；

本步骤进一步包括：当搜索不到有匹配的日志、或匹配的日志在故障发生之前时，将存储的网管系统信息打包成压缩文件，用户将压缩文件交由研发人员处理。

基于上述网管系统故障诊断方法，本发明还提供了一种网管系统故障的诊断系统，如图 2所示，该诊断系统包括：日志索引模块 21、故障选择模块 22、故障分析模块 23、分析经验库 24; 其中，

曰志索引模块 21 ,用于利用搜索引擎对网管系统的日志内容进行索引，生成索引文件；

故障选择模块 22 , 用于提供可供选择的故障类别，并将选择的故障类别提供给故障分析模块 23;

故障分析模块 23 , 用于根据选择的故障类别，从故障类别对应的分析经验库中取出每条关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库 24中查找出该关键语句对应的原因分析和处理措施；

分析经验库 24, 用于存储故障问题的分析经验；

其中，所述分析经验包括故障问题的关键语句、原因分析及处理措施；进一步的，所述故障选择模块 22还用于将故障类别在界面上显示以供选择；

进一步的，所述故障分析模块 23 , 还用于在使用搜索引擎对索引文件进行搜索之前，根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库 24中查找出该关键语句对应的原因分析和处理措施，并结束操作；查找不到时，再使用搜索引擎对索引文件进行搜索；

相应的，该网管系统故障诊断系统还包括：信息收集模块 25 , 用于收集网管系统信息，并将收集的网管系统信息进行存储；

进一步的，所述故障分析模块 23当搜索不到有匹配的日志、或匹配的曰志在故障发生之前时，将信息收集模块 25存储的网管系统信息打包成压缩文件；

进一步的，所述分析经验库 24还用于进行分析经验学习，所述学习包括：人为学习方式和 /或自学习方式；其中，所述人为学习方式是指人为诊断到一个新的问题后，可将分析经验录入故障分析经验库 24; 所述自学习方式是指搜索到日志后，日志中已给出原因分析及处理措施时，自动将日志的分析经验写入分析经验库 24中，以实现自学习。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种网管系统故障的诊断方法，其特征在于，该诊断方法包括：利用搜索引擎对网管系统的日志内容进行索引，生成索引文件；根据选择的故障类别，从故障类别对应的分析经验库中取出关键语句，使用搜索引擎对索引文件进行搜索；

当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库存储的故障问题分析经验中查找出该关键语句对应的原因分析和处理措施。

2、根据权利要求 1所述的诊断方法，其特征在于，所述分析经验库中的分析经验包括：

人为诊断到新问题后，录入故障分析经验库的分析经验；和 /或，搜索到日志后，日志中已给出原因分析及处理措施时，自动写入分析经验库的日志的分析经验。

3、根据权利要求 1所述的诊断方法，其特征在于，该方法进一步包括：搜索不到有匹配的日志、或匹配的日志在故障发生之前时，将存储的网管系统信息打包成压缩文件。

4、根据权利要求 1所述的诊断方法，其特征在于，生成索引文件之前，该方法进一步包括：收集网管系统信息，并将收集的网管系统信息进行存储；

相应的，在使用搜索引擎对索引文件进行搜索之前，进一步包括：根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，并结束流程；查找不到时，使用搜索引擎对索引文件进行搜索。

5、根据权利要求 4所述的诊断方法，其特征在于，所述网管系统信息包括磁盘空间、内存、中央处理器占用率、数据库空间大小、性能数据釆集任务详细信息、配置信息、网管版本信息、北向接口的安装配置信息、网管补丁信息、后台告警信息、上下级局的链路信息、系统曰志。

6、根据权利要求 1至 5任一所述的诊断方法，其特征在于，所述搜索引擎为基于倒排索引技术的搜索引擎，索引结构至少包括关键语句和曰志号。

7、一种网管系统故障的诊断系统，其特征在于，该系统包括：日志索引模块，用于利用搜索引擎对网管系统的日志按照关键语句进行索引，生成索引文件；

故障选择模块，用于将选择的故障类别提供给故障分析模块；故障分析模块，用于根据选择的故障类别，从故障类别对应的分析经验库中取出关键语句，使用搜索引擎对索引文件进行搜索；当搜索到有匹配的日志且匹配日志在故障发生之后时，在分析经验库存储的故障问题分析经验中查找出该关键语句对应的原因分析和处理措施；

分析经验库，用于存储故障问题的分析经验。

8、根据权利要求 7所述的诊断系统，其特征在于，所述故障分析模块，还用于：在使用搜索引擎对索引文件进行搜索之前，根据关键语句对存储的网管系统信息进行查找，查找到时，在分析经验库中查找出该关键语句对应的原因分析和处理措施，并结束操作；查找不到时，使用搜索引擎对索引文件进行搜索；

相应的，该系统还包括信息收集模块，用于收集网管系统信息，并将收集的网管系统信息进行存储。

9、根据权利要求 8所述的诊断系统，其特征在于，所述故障分析模块，进一步用于：当搜索不到有匹配的日志、或匹配的日志在故障发生之前时，将信息收集模块存储的网管系统信息打包成压缩文件。

10、根据权利要求 7、 8或 9所述的诊断系统，其特征在于，所述分析经验库中的分析经验包括：