WO2011044783A1 - 一种业务系统的维护系统及方法 - Google Patents

一种业务系统的维护系统及方法 Download PDF

Info

Publication number
WO2011044783A1
WO2011044783A1 PCT/CN2010/075290 CN2010075290W WO2011044783A1 WO 2011044783 A1 WO2011044783 A1 WO 2011044783A1 CN 2010075290 W CN2010075290 W CN 2010075290W WO 2011044783 A1 WO2011044783 A1 WO 2011044783A1
Authority
WO
WIPO (PCT)
Prior art keywords
key information
information content
alarm
control center
module
Prior art date
Application number
PCT/CN2010/075290
Other languages
English (en)
French (fr)
Inventor
史俊杰
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2011044783A1 publication Critical patent/WO2011044783A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0645Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis by additionally acting on or stimulating the network after receiving notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Definitions

  • the present invention relates to the field of business systems, and more particularly to a maintenance system and method for a business system. Background technique
  • the function of the business system is realized by connecting one business process in series. It is an important indicator of maintainability when the fault is discovered, located and solved in time.
  • the fault alarm module in the service system will alarm. After the maintenance administrator sees the alarm information, remember and enter the key information to log according to the key information. Query and message tracking.
  • the maintenance operation mode of the existing service system will be described below with reference to FIG. 1 .
  • the log management module 101 is mainly used to record the logs of the business system, and provides the maintenance administrator with a log query function for key information. Normally, the log management module 101 only records error information of the business system when it runs.
  • the message tracking module 102 is mainly used for message records for key information during the operation of the business system.
  • the message tracking module 102 is normally closed, the maintenance manager opens the message tracking switch when needed, and sets key information to be tracked, such that when the business system processes the message with key information, the message tracking module 102 Record the message.
  • the message tracking module 102 is also used to provide a query function for the maintenance administrator to provide messages of critical information.
  • the fault alarm module 103 is mainly used to record the abnormality that occurs during the operation of the service system, and sends the alarm information to the alarm control center 104.
  • the alarm information is a general description for the abnormality, and various related information is mixed.
  • the alarm control center 104 is mainly configured to receive the alarm information of the fault alarm module 103 and provide the alarm information to the maintenance administrator.
  • the maintenance process in the event of a fault in the service system is as follows:
  • the fault alarm module sends an alarm message to the alarm control center.
  • the alarm control center displays the alarm information to the maintenance administrator for viewing.
  • the maintenance administrator manually remembers the alarm information and determines the key information based on the alarm information.
  • Using the log management module to perform log query based on key information, so that the maintenance administrator can locate the fault; if temporarily unable to locate, the maintenance administrator needs to open the message tracking switch of the message tracking module, and set key information, and the message tracking module is based on the key information. Tracking the message; When the message tracking module tracks a message with key information, it records the message for maintenance administrators to query.
  • the main object of the present invention is to provide a maintenance system and method for a service system, which can track and locate faults of a service system in a timely and accurate manner after a service system fails.
  • a maintenance system for a business system that uniformly sets key information items for fault alarms, log management, and message tracking.
  • the system includes:
  • the fault alarm module is configured to record an abnormality that occurs during the operation of the service system, generate alarm information including key information content according to the key information items that have been set, and report the alarm information to the alarm control center.
  • the alarm control center is configured to initiate a log query for the key information content to the log management module, and/or to initiate message tracking for the key information content to the message tracking module;
  • log management module configured to record a business system log containing key information items, and provide log queries for key information content;
  • a message tracking module for providing message tracking for key information content.
  • the fault alarm module is configured to generate alarm information including key information content according to the key information items that have been set, specifically: the fault alarm module is configured to monitor, when an abnormality occurs in the service system, according to the key information items that have been set, The key information item extracts key information content in the abnormality, and generates alarm information including key information content.
  • the log management module is configured to provide a log query for the key information content, where specifically: the log management module is configured to: after receiving the log query request from the alarm control center, extract the key information content included in the log query request, and find the match A log of key information content is returned to the Alarm Control Center.
  • the message tracking module is configured to provide message tracking for key information content, specifically: the message tracking module is configured to: after receiving the tracking request from the alarm control center, extract the key information content included in the tracking request, and assign the key information content. Corresponding key information items are set, message tracking is performed for the key information content, and a message conforming to the key information content is obtained and returned to the alarm control center.
  • the alarm control center is configured to initiate a query for the key information content to the log management module, where the alarm control center sends a query request containing the key information content to the log management module;
  • the alarm control center is configured to initiate message tracking for the key information content to the message tracking module, specifically: the alarm control center sends a tracking request including the key information content to the message tracking module.
  • a service system maintenance method for uniformly setting key information items for fault alarm, log management, and message tracking and the method further includes:
  • the fault alarm module records the abnormality that occurs during the operation of the business system.
  • the set key information item generates alarm information including key information content, and sends the alarm information to the alarm control center;
  • the alarm control center initiates a log query for the key information content to the log management module, and/or initiates message tracking for the key information content to the message tracking module;
  • the log management module records business system logs containing key information items and provides log queries for critical information content; and/or, the message tracking module provides message tracking for critical information content.
  • the fault alarm module generates the alarm information including the key information content according to the key information items that have been set, and specifically includes: when the fault alarm module detects that an abnormality occurs in the service system, extracting the key information items based on the key information items that have been set.
  • the key information content of the abnormality generates alarm information including key information content.
  • the log management module provides a log query for the key information content, and specifically includes: after receiving the log query request from the alarm control center, the log management module extracts the key information content included in the log query request, and searches for the log that meets the key information content. And return to the alarm control center.
  • the message tracking module provides message tracking for the key information content, and specifically includes: after receiving the tracking request from the alarm control center, the message tracking module extracts the key information content included in the tracking request, and assigns the key information content to the set corresponding The key information item is tracked for the key information content, and the message conforming to the key information content is obtained and returned to the alarm control center.
  • the alarm control center sends a log query for the key information content to the log management module, which specifically includes: the alarm control center sends a log query request containing the key information content to the log management module; or
  • the alarm control center initiates message tracking for the key information content to the message tracking module, and specifically includes: the alarm control center sends a message containing the key information content to the message tracking module. Track the request.
  • the key information items in the three parts of the maintenance function of the log management, the message tracking, and the fault alarm are uniformly set in the service system, and the fault alarm module sends the key information content obtained based on the key information item to the alarm control center.
  • the maintenance administrator can directly query the log management module according to the key information content, and/or initiate message tracking to the message tracking module.
  • the maintenance administrator does not need to enter the key information, and only needs to send the fault alarm module to the alarm control center. Judging and selecting key information content greatly simplifies the maintenance administrator's workflow, saves a lot of maintenance costs, avoids subjective errors, reduces the probability of mis-location, and has a very high maintenance of business systems. positive effect.
  • FIG. 1 is a schematic structural diagram of a system for fault alarming, tracking, and positioning in an existing service system
  • FIG. 2 is a schematic structural diagram of a system for fault alarming, tracking, and positioning in a service system according to the present invention
  • the basic idea of the present invention is: uniformly setting key information items in the three parts of the log management, the message tracking, and the fault alarm in the service system, and separately configuring the log management module, the message tracking module, and the fault alarm module with the alarm.
  • the control center establishes a connection, and various information is uniformly processed by the alarm control center, so that faults can be alarmed, faults can be located according to key information content, and faults can be tracked. These steps can be seamlessly connected, and timely and accurately locate and solve faults of the business system.
  • FIG. 2 it is a schematic diagram of a fault alarm, tracking and positioning system structure in the service system of the present invention.
  • the log management module 201, the message tracking module 202, and the fault alarm module 203 are respectively connected to the alarm control center 204 by using the interface, and the information transmission channel with the alarm control center 204 is established.
  • the key information items that are uniformly set can be: user name, account number, service identifier, product identifier, billing identifier, and so on.
  • the key information items are uniformly set according to the service attributes of the service system. For example, the service processed by the service system mainly involves the user using the service, and the information of multiple users, such as the user name, the account number, and the charging standard, is uniformly set as the log management. Key information items for message tracking and fault alarms.
  • the fault alarm module 203 is configured to record the generated abnormality during the operation of the service system, and generate the alarm information including the key information content according to the key information items that have been set, and also report the alarm information to the alarm control center 204.
  • the fault alarm module 203 detects the abnormality of the service system based on the key information item, the user name and the service identifier, and extracts the key information content of the abnormality, that is, the specific user name and the specific
  • the service identifier for example, the specific user name extracted is ABC, and the specific service identifier extracted is 001; then the specific user name and the specific service identifier are used as the key information content included in the alarm information.
  • the key information content included in the alarm information may be only one, such as a specific user name ABC; or multiple items, such as a specific user name ABC and a specific service identifier 001.
  • the alarm control center 204 is configured to provide the key information content included in the alarm information from the fault alarm module 203 to the maintenance administrator, receive the key information content input by the maintenance administrator, and initiate the content of the key information to the log management module 201.
  • the alarm control center 204 provides an operation interface for the maintenance administrator.
  • the maintenance administrator can determine one or more key information that needs to initiate log query and/or message tracking according to the key information content included in the alarm information received by the alarm control center 204. Content, to the alarm control center 204 The input, through the alarm control center 204, enables the initiation of log query and/or message tracking.
  • the log management module 201 is configured to record a business system log containing key information items, and provide log queries for key information content.
  • the service information log recorded by the log management module 201 includes a specific user name and a specific service identifier. Specifically, the log management module 201 records the same in the recorded service system log. The key information content is edited to the same field in the business system log.
  • the log management module 201 When the alarm control center 204 initiates a log query to the log management module 201, the log management module 201 sends a log query request to the log management module 201. After receiving the log query request from the alarm control center 204, the log management module 201 extracts the key information included in the log query request. Content, find a log that matches the key information content and return it to the alarm control center 204 to implement the log query.
  • the message tracking module 202 is configured to provide message tracking for key information content.
  • the key information items that are uniformly set are the user name and the service identifier.
  • the two key information items in the message tracking module 202 are embodied as two fields.
  • the alarm control center 204 initiates message tracking to the message tracking module 202
  • the message is tracked.
  • the module 202 sends a message tracking request.
  • the message tracking module 202 extracts the key information content included in the tracking request, and assigns the key information content to the corresponding key information item for the corresponding key information content.
  • Message tracking is performed to obtain a message conforming to the key information content and returned to the alarm control center 204, thereby implementing message tracking.
  • FIG. 3 it is a schematic diagram of a method for implementing a fault alarm, tracking, and positioning method for a service system in the present invention.
  • the log management module, the message tracking module, and the fault alarm module uniformly set key information items.
  • the specific method flow is as follows:
  • Step 301 When an abnormality occurs in the service system, the fault alarm module generates alarm information including key information content according to the key information items that have been set, and sends the alarm information to the alarm control center for analysis by the maintenance administrator.
  • the fault alarm module continuously receives various data information of the service system.
  • the fault alarm module has a range of normal data information. When the data information exceeds the normal range, that is, when the service system is abnormal, the fault alarm is generated.
  • the module extracts the specific content of the corresponding key information item in the abnormality, such as the user name and the service identifier, according to the key information item that has been set, and generates the alarm information including the key information content.
  • Step 302 After receiving the alarm information, the alarm control center provides the key information content included in the alarm information to the maintenance administrator.
  • the maintenance administrator needs to locate the fault and use the key information received by the alarm control center as a condition to initiate a log query to the log management module.
  • the alarm control center sends a log query request to the log management module.
  • the log management module receives the log query module.
  • the key information content included in the log query request is extracted, and the log that meets the content of the key information is searched and returned to the alarm control center to implement log query.
  • the maintenance administrator locates the fault based on the logs received by the alarm control center.
  • the fault alarm module is running, there may be a certain error rate. For example, although the alarm module sends out the alarm information, the service system does not have an abnormality, but the error is caused by the fault alarm module or other reasons. Alarm information. Therefore, before the positioning, the maintenance administrator needs to determine whether the alarm information sent by the alarm control center is false alarm information. If the alarm information is false alarm information, such as the alarm information that has been processed before, the maintenance administrator considers No further fault location is required.
  • Step 303 If the maintenance administrator does not obtain sufficient information to perform fault location through the log query, the message tracking is performed, and the message tracking module is instructed to perform message tracking by using the key information content received by the alarm control center as a condition. A message tracking request is sent by the alarm control center to the message tracking module.
  • Step 304 The message tracking module sends the message record to the alarm control center in the subsequent service processing process, once the message related to the key information content is processed.
  • the message tracking module After receiving the tracking request, the message tracking module extracts the key information content included in the tracking request.
  • the key information content is assigned to the corresponding key information item, and the message tracking is performed for the corresponding key information content, and the message conforming to the key information content is obtained and returned to the alarm control center, thereby implementing message tracking.
  • Step 305 After receiving the message tracked by the message tracking module, the alarm control center displays the message to the maintenance administrator, and the maintenance administrator performs fault location processing according to the message.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种业务系统的维护系统,对业务系统中的日志管理、消息跟踪和故障告警这三部分维护功能中的关键信息项进行统一设置,并将日志管理模块、消息跟踪模块和故障告警模块分别与告警控制中心建立连接。本发明还公开了一种业务系统的维护方法,在业务系统发生异常时,故障告警模块将包含统一设置的关键信息项的关键信息内容发送给告警控制中心,告警控制中心针对关键信息内容向日志管理模块发起查询,和/或向消息跟踪模块发起消息跟踪。采用本发明所提供的系统及维护方案,能够大大简化维护管理员的工作流程,减少错误定位概率,节省大量的维护成本,对业务系统可维护性的提高有着非常积极的作用。

Description

一种业务系统的维护系统及方法 技术领域
本发明涉及业务系统领域, 尤其是一种业务系统的维护系统及方法。 背景技术
业务系统的功能是由一个个业务流程串联起来实现的, 出现故障及时 发现、 定位并解决是其可维护性的一个重要指标。 当前, 业务系统的维护 操作方式一般都是发现业务系统故障时, 业务系统中的故障告警模块会进 行告警, 维护管理员看到告警信息后, 记住并输入关键信息, 从而依据关 键信息进行日志查询和消息跟踪。
下面结合图 1 , 对现有业务系统的维护操作方式进行描述。
日志管理模块 101 主要用于记录业务系统的日志, 同时为维护管理员 提供针对关键信息的日志查询功能。 通常情况下, 日志管理模块 101 运行 时只会记录业务系统的错误信息。
消息跟踪模块 102主要用于业务系统运行过程中针对关键信息的消息 记录。 消息跟踪模块 102通常情况下是关闭的, 维护管理员在有需要时打 开消息跟踪开关, 并设置需要跟踪的关键信息, 这样, 在业务系统处理到 带有关键信息的消息时, 消息跟踪模块 102将该消息记录下来。 消息跟踪 模块 102还用于为维护管理员提供关键信息的消息的查询功能。
故障告警模块 103主要用于业务系统运行过程中, 对发生的异常进行 记录, 并发送告警信息给告警控制中心 104, 该告警信息为针对异常的一般 性描述, 各种相关信息混合在一起。
告警控制中心 104主要用于接收故障告警模块 103的告警信息, 并提 供给维护管理员。 业务系统出现故障时的维护流程为: 故障告警模块发出告警信息给告 警控制中心, 告警控制中心显示告警信息给维护管理员查看, 维护管理员 人工记住告警信息, 并依据该告警信息确定关键信息, 利用日志管理模块 依据关键信息进行日志查询, 以使维护管理员进行故障定位; 如果暂时无 法定位, 维护管理员需要打开消息跟踪模块的消息跟踪开关, 并设置关键 信息, 消息跟踪模块依据关键信息对消息进行跟踪; 消息跟踪模块跟踪到 带有关键信息的消息时, 记录该消息, 以供维护管理员查询。
根据以上描述可见, 维护流程中需要维护管理员大量的人工介入, 繁 复的操作对维护管理员要求非常高, 也给业务系统故障的及时定位造成障 碍。 另外, 由于关键信息是由维护管理员根据告警信息来确定的, 这样, 人工确定的关键信息带有一定主观色彩, 极可能不准确, 从而导致业务系 统的故障定位错误, 不利于业务系统的维护和管理。 发明内容
有鉴于此, 本发明的主要目的在于提供一种业务系统的维护系统及方 法, 能够在业务系统出现故障后, 及时、 准确的对业务系统的故障进行跟 踪定位。
为解决上述技术问题, 本发明的技术方案是这样实现的:
一种业务系统的维护系统, 针对故障告警、 日志管理和消息跟踪统一 设置关键信息项, 该系统包括:
故障告警模块, 用于业务系统运行过程中对发生的异常进行记录, 根 据已经设置的关键信息项生成包含关键信息内容的告警信息, 还用于向告 警控制中心上报所述告警信息;
告警控制中心, 用于向日志管理模块发起针对关键信息内容的日志查 询, 和 /或, 向消息跟踪模块发起针对关键信息内容的消息跟踪;
以及 日志管理模块, 用于记录包含关键信息项的业务系统日志, 并提供针 对关键信息内容的日志查询; 和 /或,
消息跟踪模块, 用于提供针对关键信息内容的消息跟踪。
所述故障告警模块用于根据已经设置的关键信息项生成包含关键信息 内容的告警信息, 具体为: 故障告警模块用于监测到业务系统发生异常时, 根据已经设置的关键信息项, 基于所述关键信息项提取该异常中的关键信 息内容, 生成包含关键信息内容的告警信息。
所述日志管理模块用于提供针对关键信息内容的日志查询, 具体为: 曰志管理模块用于收到来自告警控制中心的日志查询请求后, 提取日志查 询请求中包含的关键信息内容, 查找符合关键信息内容的日志并返回给告 警控制中心。
所述消息跟踪模块用于提供针对关键信息内容的消息跟踪, 具体为: 消息跟踪模块用于收到来自告警控制中心的跟踪请求后, 提取跟踪请求中 包含的关键信息内容, 将关键信息内容赋值给设置的对应关键信息项, 针 对所述关键信息内容进行消息跟踪, 得到符合关键信息内容的消息并返回 给告警控制中心。
所述告警控制中心用于向日志管理模块发起针对关键信息内容的曰志 查询, 具体为: 告警控制中心向日志管理模块发送包含关键信息内容的曰 志查询请求; 或者,
所述告警控制中心用于向消息跟踪模块发起针对关键信息内容的消息 跟踪, 具体为: 告警控制中心向消息跟踪模块发送包含关键信息内容的跟 踪请求。
一种业务系统的维护方法, 针对故障告警、 日志管理和消息跟踪统一 设置关键信息项, 该方法还包括:
故障告警模块在业务系统运行过程中对发生的异常进行记录, 根据已 经设置的关键信息项生成包含关键信息内容的告警信息, 并向告警控制中 心上 >¾所述告警信息;
告警控制中心向日志管理模块发起针对关键信息内容的日志查询, 和 / 或, 向消息跟踪模块发起针对关键信息内容的消息跟踪;
日志管理模块记录包含关键信息项的业务系统日志, 并提供针对关键 信息内容的日志查询; 和 /或, 消息跟踪模块提供针对关键信息内容的消息 跟踪。
所述故障告警模块根据已经设置的关键信息项生成包含关键信息内容 的告警信息, 具体包括: 故障告警模块监测到业务系统发生异常时, 根据 已经设置的关键信息项, 基于所述关键信息项提取该异常中的关键信息内 容, 生成包含关键信息内容的告警信息。
所述日志管理模块提供针对关键信息内容的日志查询, 具体包括: 日 志管理模块收到来自告警控制中心的日志查询请求后, 提取日志查询请求 中包含的关键信息内容, 查找符合关键信息内容的日志并返回给告警控制 中心。
所述消息跟踪模块提供针对关键信息内容的消息跟踪, 具体包括: 消 息跟踪模块收到来自告警控制中心的跟踪请求后, 提取跟踪请求中包含的 关键信息内容, 将关键信息内容赋值给设置的对应关键信息项, 针对所述 关键信息内容进行消息跟踪, 得到符合关键信息内容的消息并返回给告警 控制中心。
所述告警控制中心向日志管理模块发起针对关键信息内容的日志查 询, 具体包括: 告警控制中心向日志管理模块发送包含关键信息内容的日 志查询请求; 或者,
所述告警控制中心向消息跟踪模块发起针对关键信息内容的消息跟 踪, 具体包括: 告警控制中心向消息跟踪模块发送包含关键信息内容的跟 踪请求。
本发明方案中, 对业务系统中的日志管理、 消息跟踪和故障告警这三 部分维护功能中的关键信息项进行统一设置, 故障告警模块将基于关键信 息项得到的关键信息内容发送给告警控制中心, 维护管理员便可以直接依 据关键信息内容向日志管理模块发起查询, 和 /或向消息跟踪模块发起消息 跟踪, 无需维护管理员自己录入关键信息, 只需要在故障告警模块向告警 控制中心发送的关键信息内容中进行判断和选择即可, 大大简化了维护管 理员的工作流程, 节省了大量维护成本, 避免了人为的主观错误, 减少错 误定位的概率, 对业务系统可维护性的提高有着非常积极的作用。 附图说明
图 1为现有业务系统中故障告警、 跟踪及定位的系统结构示意图; 图 2为本发明业务系统中故障告警、 跟踪及定位的系统结构示意图; 图 3为本发明中实现业务系统故障告警、 跟踪及定位的流程示意图。 具体实施方式
本发明的基本思想是: 对业务系统中的日志管理、 消息跟踪和故障告 警这三部分维护功能中的关键信息项进行统一设置, 并将日志管理模块、 消息跟踪模块和故障告警模块分别与告警控制中心建立连接, 各种信息由 告警控制中心统一处理, 做到出现故障进行告警、 根据关键信息内容定位 故障和跟踪故障这些步骤能够无缝连接, 及时准确的定位和解决业务系统 的故障。
下面结合附图和具体实施例对本发明进行详细说明。
如图 2所示, 为本发明业务系统中故障告警、 跟踪及定位系统结构示 意图。
在业务系统中统一设置日志管理、 消息跟踪和故障告警的关键信息项, 利用接口分别将日志管理模块 201、 消息跟踪模块 202和故障告警模块 203 同告警控制中心 204连接起来, 建立同告警控制中心 204的信息传递渠道。 统一设置的关键信息项可以为: 用户名、 账号、 业务标识、 产品标识、 计 费标识, 等等。 一般根据业务系统的业务属性来统一设置关键信息项, 例 如, 业务系统处理的业务主要涉及用户使用业务, 则统一设置用户名、 账 号、 计费标准等多种用户使用业务的信息作为日志管理、 消息跟踪和故障 告警的关键信息项。
业务系统出现故障时的维护过程:
故障告警模块 203 , 用于业务系统运行过程中对发生的异常进行记录, 根据已经设置的关键信息项, 生成包含关键信息内容的告警信息, 还用于 向告警控制中心 204上报所述告警信息。
例如, 统一设置的关键信息项为用户名和业务标识, 则故障告警模块 203监测到业务系统发生异常时,基于关键信息项一用户名和业务标识提取 该异常中的关键信息内容、 即具体用户名和具体业务标识, 如提取出的具 体用户名为 ABC, 提取出的具体业务标识为 001 ; 然后将具体用户名和具 体业务标识作为告警信息中所包含的关键信息内容。 所述告警信息中包含 的关键信息内容可以只有一条, 如具体用户名 ABC; 也可以为多条, 如具 体用户名 ABC和具体业务标识 001。
告警控制中心 204,用于将来自故障告警模块 203的告警信息中所包含 的关键信息内容提供给维护管理员, 接收维护管理员输入的关键信息内容, 向日志管理模块 201发起针对关键信息内容的日志查询, 和 /或, 向消息跟 踪模块 202发起针对关键信息内容的消息跟踪。
告警控制中心 204为维护管理员提供操作界面, 维护管理员可以根据 告警控制中心 204收到的告警信息中包含的关键信息内容, 确定需要发起 日志查询和 /或消息跟踪的一条或多条关键信息内容, 向告警控制中心 204 输入, 通过告警控制中心 204来实现日志查询和 /或消息跟踪的发起。
日志管理模块 201 , 用于记录包含关键信息项的业务系统日志, 并提供 针对关键信息内容的日志查询。
例如, 统一设置的关键信息项为用户名和业务标识, 则日志管理模块 201记录的业务系统日志均包含具体用户名和具体业务标识, 具体地, 日志 管理模块 201 将所记录的业务系统日志中的相同关键信息内容编辑到业务 系统日志的同一个字段上。
告警控制中心 204向日志管理模块 201发起日志查询时, 向日志管理 模块 201发送日志查询请求; 日志管理模块 201收到来自告警控制中心 204 的日志查询请求后, 提取日志查询请求中包含的关键信息内容, 查找符合 关键信息内容的日志并返回给告警控制中心 204, 以实现日志查询。
消息跟踪模块 202, 用于提供针对关键信息内容的消息跟踪。
例如, 统一设置的关键信息项为用户名和业务标识, 在消息跟踪模块 202中这两个关键信息项具体体现为两个字段,告警控制中心 204向消息跟 踪模块 202发起消息跟踪时, 向消息跟踪模块 202发送消息跟踪请求; 消 息跟踪模块 202来自告警控制中心 204的收到跟踪请求后, 提取跟踪请求 中包含的关键信息内容, 将关键信息内容赋值给对应的关键信息项, 针对 相应关键信息内容进行消息跟踪, 得到符合关键信息内容的消息并返回给 告警控制中心 204, 从而实现消息跟踪。
如图 3 所示, 为本发明中实现业务系统故障告警、 跟踪及定位方法流 程示意图。 该业务系统中, 日志管理模块、 消息跟踪模块、 故障告警模块 统一设置关键信息项, 其具体方法流程如下:
步骤 301、 业务系统在发生异常时, 故障告警模块根据已经设置的关键 信息项, 生成包含关键信息内容的告警信息, 并将该告警信息发送给告警 控制中心, 以供维护管理员分析。 业务系统的运行过程中, 故障告警模块不断接收业务系统各项数据信 息, 故障告警模块中设置有正常数据信息范围, 当出现超过正常范围的数 据信息时, 也就是业务系统发生异常时, 故障告警模块根据已经设置的关 键信息项, 提取该异常中对应关键信息项的具体内容, 如用户名和业务标 识, 生成包含关键信息内容的告警信息。
步骤 302、告警控制中心收到告警信息后, 将告警信息中所包含的关键 信息内容提供给维护管理员。 维护管理员认为故障原因需要定位, 以告警 控制中心收到的关键信息内容作为条件, 向日志管理模块发起日志查询, 具体地由告警控制中心向日志管理模块发送日志查询请求; 日志管理模块 收到告警控制中心的日志查询请求后, 提取日志查询请求中包含的关键信 息内容, 查找符合所述关键信息内容的日志并返回给告警控制中心, 实现 日志查询。 维护管理员根据告警控制中心收到的日志进行故障定位。
由于故障告警模块在运行过程中, 可能会存在一定的错误率, 例如, 告警模块虽然发出了告警信息, 但实际上业务系统并未出现异常, 而是由 于故障告警模块故障或者其他原因发送的错误的告警信息, 因此, 在定位 之前, 需要维护管理员先确定告警控制中心发来的告警信息是否为误告警 信息, 如果为误告警信息, 如之前已经处理过的告警信息, 则维护管理员 认为不需要再进行故障定位。
步骤 303、如果维护管理员认为通过日志查询也没有得到足够的信息进 行故障定位, 则需要进行消息跟踪, 以告警控制中心收到的关键信息内容 作为条件, 向消息跟踪模块发起消息跟踪, 具体地由告警控制中心向消息 跟踪模块发送消息跟踪请求。
步骤 304、 消息跟踪模块在后续的业务处理流程中, 一旦处理到与关键 信息内容相关的消息, 则会将此消息记录发送给告警控制中心。
消息跟踪模块收到跟踪请求后, 提取跟踪请求中包含的关键信息内容, 将关键信息内容赋值给对应的关键信息项, 针对相应关键信息内容进行消 息跟踪, 得到符合关键信息内容的消息并返回给告警控制中心, 从而实现 消息跟踪。
步骤 305、告警控制中心收到消息跟踪模块跟踪到的消息后, 显示给维 护管理员, 维护管理员根据所述消息进行故障定位处理。
以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保 护范围, 凡在本发明的精神和原则之内所作的任何修改、 等同替换和改进 等, 均应包含在本发明的保护范围之内。

Claims

权利要求书
1、 一种业务系统的维护系统, 其特征在于, 针对故障告警、 日志管理 和消息跟踪统一设置关键信息项, 该系统包括:
故障告警模块, 用于业务系统运行过程中对发生的异常进行记录, 根 据已经设置的关键信息项生成包含关键信息内容的告警信息, 还用于向告 警控制中心上报所述告警信息;
告警控制中心, 用于向日志管理模块发起针对关键信息内容的日志查 询, 和 /或, 向消息跟踪模块发起针对关键信息内容的消息跟踪;
以及
日志管理模块, 用于记录包含关键信息项的业务系统日志, 并提供针 对关键信息内容的日志查询; 和 /或,
消息跟踪模块, 用于提供针对关键信息内容的消息跟踪。
2、 根据权利要求 1所述的系统, 其特征在于, 所述故障告警模块用于 根据已经设置的关键信息项生成包含关键信息内容的告警信息, 具体为: 故障告警模块用于监测到业务系统发生异常时, 根据已经设置的关键信息 项, 基于所述关键信息项提取该异常中的关键信息内容, 生成包含关键信 息内容的告警信息。
3、 根据权利要求 1所述的系统, 其特征在于, 所述日志管理模块用于 提供针对关键信息内容的日志查询, 具体为: 日志管理模块用于收到来自 告警控制中心的日志查询请求后, 提取日志查询请求中包含的关键信息内 容, 查找符合关键信息内容的日志并返回给告警控制中心。
4、 根据权利要求 1所述的系统, 其特征在于, 所述消息跟踪模块用于 提供针对关键信息内容的消息跟踪, 具体为: 消息跟踪模块用于收到来自 告警控制中心的跟踪请求后, 提取跟踪请求中包含的关键信息内容, 将关 键信息内容赋值给设置的对应关键信息项, 针对所述关键信息内容进行消 息跟踪, 得到符合关键信息内容的消息并返回给告警控制中心。
5、 根据权利要求 1至 4任一所述的系统, 其特征在于,
所述告警控制中心用于向日志管理模块发起针对关键信息内容的曰志 查询, 具体为: 告警控制中心向日志管理模块发送包含关键信息内容的曰 志查询请求; 或者,
所述告警控制中心用于向消息跟踪模块发起针对关键信息内容的消息 跟踪, 具体为: 告警控制中心向消息跟踪模块发送包含关键信息内容的跟 踪请求。
6、 一种业务系统的维护方法, 其特征在于, 针对故障告警、 日志管理 和消息跟踪统一设置关键信息项, 该方法还包括:
故障告警模块在业务系统运行过程中对发生的异常进行记录, 根据已 经设置的关键信息项生成包含关键信息内容的告警信息, 并向告警控制中 心上 >¾所述告警信息;
告警控制中心向日志管理模块发起针对关键信息内容的日志查询, 和 / 或, 向消息跟踪模块发起针对关键信息内容的消息跟踪;
曰志管理模块记录包含关键信息项的业务系统日志, 并提供针对关键 信息内容的日志查询; 和 /或, 消息跟踪模块提供针对关键信息内容的消息 跟踪。
7、 根据权利要求 6所述的方法, 其特征在于, 所述故障告警模块根据 已经设置的关键信息项生成包含关键信息内容的告警信息, 具体包括: 故 障告警模块监测到业务系统发生异常时, 根据已经设置的关键信息项, 基 于所述关键信息项提取该异常中的关键信息内容, 生成包含关键信息内容 的告警信息。
8、 根据权利要求 6所述的方法, 其特征在于, 所述日志管理模块提供 针对关键信息内容的日志查询, 具体包括: 日志管理模块收到来自告警控 制中心的日志查询请求后, 提取日志查询请求中包含的关键信息内容, 查 找符合关键信息内容的日志并返回给告警控制中心。
9、 根据权利要求 6所述的方法, 其特征在于, 所述消息跟踪模块提供 针对关键信息内容的消息跟踪, 具体包括: 消息跟踪模块收到来自告警控 制中心的跟踪请求后, 提取跟踪请求中包含的关键信息内容, 将关键信息 内容赋值给设置的对应关键信息项, 针对所述关键信息内容进行消息跟踪, 得到符合关键信息内容的消息并返回给告警控制中心。
10、 根据权利要求 6至 9任一所述的方法, 其特征在于,
所述告警控制中心向日志管理模块发起针对关键信息内容的日志查 询, 具体包括: 告警控制中心向日志管理模块发送包含关键信息内容的日 志查询请求; 或者,
所述告警控制中心向消息跟踪模块发起针对关键信息内容的消息跟 踪, 具体包括: 告警控制中心向消息跟踪模块发送包含关键信息内容的跟 踪请求。
PCT/CN2010/075290 2009-10-13 2010-07-20 一种业务系统的维护系统及方法 WO2011044783A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910093575.1A CN101667929B (zh) 2009-10-13 2009-10-13 一种业务系统的维护系统及方法
CN200910093575.1 2009-10-13

Publications (1)

Publication Number Publication Date
WO2011044783A1 true WO2011044783A1 (zh) 2011-04-21

Family

ID=41804383

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/075290 WO2011044783A1 (zh) 2009-10-13 2010-07-20 一种业务系统的维护系统及方法

Country Status (2)

Country Link
CN (1) CN101667929B (zh)
WO (1) WO2011044783A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667929B (zh) * 2009-10-13 2014-11-05 中兴通讯股份有限公司 一种业务系统的维护系统及方法
CN102026118A (zh) * 2010-12-21 2011-04-20 中兴通讯股份有限公司 消息跨网元或业务系统时其轨迹的查询方法及系统
CN109800140A (zh) * 2018-12-27 2019-05-24 北京奇安信科技有限公司 业务告警事件起因分析的方法、装置、设备及介质
CN113535990B (zh) * 2020-11-10 2023-12-15 腾讯科技(深圳)有限公司 确定多媒体内容的方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578202A (zh) * 2003-07-28 2005-02-09 中兴通讯股份有限公司 通信系统程序故障检测方法
CN101056220A (zh) * 2007-05-29 2007-10-17 中国移动通信集团江苏有限公司 无网管接口的数据业务系统的集中监控方法
US20080232247A1 (en) * 2007-03-19 2008-09-25 Cisco Technology, Inc. Network traffic demotion
CN101667929A (zh) * 2009-10-13 2010-03-10 中兴通讯股份有限公司 一种业务系统的维护系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388698C (zh) * 2001-10-19 2008-05-14 上海贝尔有限公司 用于数字数据网接入模块的管理指配控件及其控制方法
CN101355437A (zh) * 2007-07-25 2009-01-28 华为技术有限公司 告警/事件信息的处理方法和装置
CN101478440B (zh) * 2009-01-22 2011-12-28 中兴通讯股份有限公司 一种故障信息可追溯的系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578202A (zh) * 2003-07-28 2005-02-09 中兴通讯股份有限公司 通信系统程序故障检测方法
US20080232247A1 (en) * 2007-03-19 2008-09-25 Cisco Technology, Inc. Network traffic demotion
CN101056220A (zh) * 2007-05-29 2007-10-17 中国移动通信集团江苏有限公司 无网管接口的数据业务系统的集中监控方法
CN101667929A (zh) * 2009-10-13 2010-03-10 中兴通讯股份有限公司 一种业务系统的维护系统及方法

Also Published As

Publication number Publication date
CN101667929A (zh) 2010-03-10
CN101667929B (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
US7509539B1 (en) Method for determining correlation of synchronized event logs corresponding to abnormal program termination
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN100440160C (zh) 监控设备、监控方法和监控系统
US20160301561A1 (en) Log collection, structuring and processing
CN104486109B (zh) 一种故障检测、恢复方法及装置
US8332502B1 (en) Business to business network management event detection and response system and method
CN106407030A (zh) 一种存储集群系统故障处理方法及系统
CN107659443A (zh) 一种实时业务的监控方法及其系统
CN105191257A (zh) 用于检测多阶段事件的方法和装置
CN103490917B (zh) 故障处理情况的检测方法及装置
CN108170566A (zh) 产品故障信息处理方法、系统、设备和协同工作平台
US10127385B2 (en) Automated security vulnerability exploit tracking on social media
WO2011044783A1 (zh) 一种业务系统的维护系统及方法
CN108833190A (zh) 一种nfs服务故障告警方法、装置和存储介质
CN101610169A (zh) 互联网多媒体内容监控方法及其装置
CN102055615A (zh) 服务器监控方法
KR101444250B1 (ko) 개인정보 접근감시 시스템 및 그 방법
JP5651381B2 (ja) 障害原因判定ルール検証装置及びプログラム
CN114090380A (zh) 一种终端监控的方法、装置、设备及存储介质
US20150256962A1 (en) M2m gateway device and applying method thereof
CN105183648A (zh) 一种可视化的自动拨测方法及系统
CN101179623A (zh) 一种通信系统中设备故障处理及告警的方法
US20110261701A1 (en) Monitoring a mobile data service associated with a mailbox
CN117914511A (zh) 一种基于数据交换、日志分析的安全审计系统
CN110086796A (zh) 一种基于公私钥加密技术收集监控数据的传输方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10823015

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10823015

Country of ref document: EP

Kind code of ref document: A1