KR100887874B1 - System for managing fault of internet and method thereof - Google Patents
System for managing fault of internet and method thereof Download PDFInfo
- Publication number
- KR100887874B1 KR100887874B1 KR1020020036891A KR20020036891A KR100887874B1 KR 100887874 B1 KR100887874 B1 KR 100887874B1 KR 1020020036891 A KR1020020036891 A KR 1020020036891A KR 20020036891 A KR20020036891 A KR 20020036891A KR 100887874 B1 KR100887874 B1 KR 100887874B1
- Authority
- KR
- South Korea
- Prior art keywords
- event
- failure
- internet network
- filtering
- message
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000007726 management method Methods 0.000 claims description 79
- 238000001914 filtration Methods 0.000 claims description 18
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 abstract description 2
- 230000009474 immediate action Effects 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0695—Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0213—Standardised network management protocols, e.g. simple network management protocol [SNMP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0613—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
본 발명은 인터넷 망에서 발생하는 이벤트들의 상관 관계를 분석하여 장애 원인을 찾아내고 이에 필요한 조치가 이루어지도록 하는 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것으로, 인터넷 망을 구성하는 장치가 발생시키는 이벤트들을 빠짐없이 수신하고 수신된 이벤트들의 상관 관계를 분석하여 정확한 원인을 파악하고 그 결과에 따라 인터넷 서비스 제공에 지장을 초래하는 상황이 발생한 경우에는 즉각적인 조치를 취함으로써, 망 사업자 관점에서는 안정적인 인터넷 서비스 제공이 가능하고, 이러한 안정적인 인터넷 통신 서비스를 통해 서비스 품질 또한 높일 수 있는 효과가 있다.The present invention relates to a failure management system and method of the Internet network for analyzing the correlation between events occurring in the Internet network to find the cause of the failure and to take necessary measures. Provides reliable Internet service from the network operator's point of view by taking immediate action in case of situations that interfere with the provision of Internet service according to the result by analyzing the correlation between the received events and the received events. This is possible, and through this stable Internet communication service, there is an effect of increasing the quality of service.
Description
도 1은 본 발명에 따른 인터넷 망의 장애 관리 시스템의 구성도.1 is a block diagram of a failure management system of the Internet network according to the present invention.
도 2는 도 1의 이벤트 관리부의 상세 구성도.FIG. 2 is a detailed configuration diagram of the event management unit of FIG. 1.
본 발명은 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 인터넷 망에서 발생하는 이벤트들의 상관 관계를 분석하여 장애 원인을 찾아내고 이에 필요한 조치가 이루어지도록 하는 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것이다.The present invention relates to a failure management system and method of the Internet network, and more particularly, a failure management system of the Internet network to find the cause of the failure by analyzing the correlation between the events occurring in the Internet network and to take necessary measures And to a method thereof.
일반적으로, 인터넷 망은 적게는 수십에서 많게는 수백 개의 라우터 및 스위치들로 구성된다. In general, the Internet network consists of at least tens to hundreds of routers and switches.
이러한 인터넷 망을 통하여, 안정적인 인터넷 서비스 제공을 보장하려면, 상기 라우터 및 스위치들에 대한 장애 감시가 필수적이고, 이들의 장애 감시를 통하여 이상 상황을 감지한 경우에는 즉각적인 조치가 이루어져야 한다. Through such an internet network, in order to ensure stable Internet service provision, failure monitoring of the routers and switches is essential, and when an abnormal situation is detected through their failure monitoring, immediate action should be taken.
이러한, 인터넷 망의 관리는 망과 연결된 장치들에 포함된 SNMP(Simple Network Management Protocol) 에이전트(Agent)가 장치의 이상 상황을 발견하면 트랩 메시지를 망 관리 시스템에 제공함으로써 이루어진다. The management of the Internet network is performed by providing a trap message to the network management system when a Simple Network Management Protocol (SNMP) Agent included in devices connected to the network detects an abnormal state of the device.
이는 망 관리 시스템이 장치에 탑재된 SNMP 에이전트가 제공하는 트랩 메시지에 의존하여 장치의 이상 상황을 수동적으로 파악하는 방법이고, 망 관리 시스템에 의한 능동적인 방법은 SNMP를 이용하여 장치의 상태를 주기적으로 검색하여 장치의 이상 상황을 파악하는 방법이다.This is a way for the network management system to passively grasp the abnormal condition of the device based on the trap message provided by the SNMP agent installed in the device. The active method by the network management system periodically monitors the device status using SNMP. It is a way to find out the abnormal situation of the device by searching.
하지만, 전자의 방법은 SNMP가 기본적으로 신뢰성을 보장하지 않는 UDP(User Datagram Protocol)을 기반으로 동작하기 때문에 트랩 메시지가 정확하게 인터넷 망과 연결된 장치로부터 망 관리 시스템에 전달되는 것을 보장할 수 없으므로, 망 관리 시스템에 의한 정확한 장치들의 장애 감시가 어려운 문제점이 있다.However, since the former method is based on User Datagram Protocol (UDP), which does not guarantee reliability by default, it cannot guarantee that trap messages are correctly transmitted from the device connected to the Internet network to the network management system. It is difficult to accurately monitor faults of devices by the management system.
그리고, 후자의 방법은 망 관리 시스템이 수많은 장치들의 상태를 주기적으로 검색하여야 하므로, 망 관리 시스템에 많은 부하가 뒤따르고 검색 주기 또한 길어 정확한 망 장애 상태를 파악하기 어려운 문제점이 있다.In the latter method, since the network management system needs to periodically search for the state of a large number of devices, there is a problem in that it is difficult to identify an accurate network failure state due to a large load on the network management system and a long search period.
또한, 다수의 라우터 및 스위치로부터 동시 다발적으로 발생하는 많은 수의 이벤트 혹은 트랩 메시지를 망 관리 시스템이 수신한 경우, 정확한 진단 기능이 없으면 운용자에 의한 정확한 원인 파악이 힘들다. In addition, when the network management system receives a large number of events or trap messages simultaneously occurring from multiple routers and switches, it is difficult to determine the exact cause by the operator without the accurate diagnosis function.
즉, SNMP는 그 특성상 데이터 전송에 대한 신뢰성을 보장하지 않는 UDP 기반으로 동작하므로 장치에 탑재된 SNMP 에이전트가 장치에 대한 이상 상황을 인식하고 이를 망 관리 시스템에게 통보하기 위한 트랩 메시지를 전송하지만, 실제 환경에서는 여러 가지 이유로 인하여 트랩 메시지가 유실되는 경우가 많다. In other words, SNMP operates based on UDP which does not guarantee the reliability of data transmission. Therefore, the SNMP agent mounted on the device transmits a trap message for notifying an abnormal situation of the device and notifying the network management system of the situation. In many circumstances, trap messages are often lost for various reasons.
또한, 소수의 운용자가 수백 대의 라우터 및 장치에 직접 접근하여 장치의 상황을 파악하는 것은 거의 불가능하기 때문에, 트랩 메시지의 유실은 망 관리 시스템 혹은 인터넷 망 관리자 측면에서는 매우 심각하다. In addition, the loss of trap messages is very serious in terms of network management systems or Internet network managers, since it is nearly impossible for a few operators to gain direct access to hundreds of routers and devices to determine the status of the device.
따라서, 망 관리 시스템에 의한 장애 관리가 필수적이지만, 인터넷 망을 구성하는 장치가 탑재하고 있는 SNMP를 통한 트랩 메시지는 빈번한 유실로 인한 정확한 장애 관리가 거의 되지 않는 문제점이 있다.Therefore, although fault management by a network management system is essential, there is a problem in that a trap message through SNMP mounted on a device constituting the Internet network is hardly managed correctly due to frequent loss.
상술된 문제점을 해결하기 위하여, 본 발명의 목적은 인터넷 망의 각종 장치에서 발생하는 모든 이벤트를 분석 처리하여 인터넷 망의 장애를 통합 관리함에 있다.In order to solve the above problems, an object of the present invention is to analyze and process all events occurring in the various devices of the Internet network to integrate management of the failure of the Internet network.
이를 위하여, 본 발명에 따른 인터넷 망의 장애 관리 시스템은, 인터넷 망에 구성된 장치에 대한 장애를 관리하는 인터넷 망의 장애 관리 시스템에 있어서, 장치의 장애 정보와 이벤트에 대한 처리 규칙을 갖는 장애 관리 정책 저장부; 처리 규칙에 따라 장치의 트랩 메시지를 전달하는 트랩 메시지 관리부; 처리 규칙에 따라 장치의 상태를 수집하는 장비 상태 관리부; 처리 규칙에 따라 핑(Ping)을 이용하여 주기적으로 상기 인터넷 망에 속한 임의의 구간 및 임의의 상기 장치에 대한 도달 가능성을 관리하는 핑 관리부; 처리 규칙에 따라 상기 장치의 시스템 로그 데이터를 수집하는 시스템 로그 관리부; 및 트랩 메시지 관리부, 장비 상태 관리부, 핑 관리부 및 시스템 로그 관리부로부터 각각 이벤트 메시지를 전달받아서, 이벤트 메시지간 상관 관계를 분석하는 이벤트 관리부를 구비하는 것을 특징으로 한다.To this end, in the failure management system of the Internet network according to the present invention, in the failure management system of the Internet network for managing the failure of the device configured in the Internet network, a failure management policy having a rule for processing the failure information and events of the device Storage unit; A trap message management unit for transferring a trap message of a device according to a processing rule; An equipment state management unit for collecting a state of a device according to a processing rule; A ping manager that manages reachability of any section and any device belonging to the Internet network periodically using a ping according to a processing rule; A system log manager configured to collect system log data of the device according to a processing rule; And an event management unit receiving event messages from the trap message management unit, the device state management unit, the ping management unit, and the system log management unit, respectively, and analyzing the correlations between the event messages.
그리고, 본 발명에 따른 인터넷 망의 장애 관리 방법은, 인터넷 망에 구성된 장치의 장애에 대한 이벤트 메시지를 이용한 인터넷 망의 장애 관리 방법에 있어서, 장치의 장애 상태, 장치의 상태, 장치의 시스템 로그 메시지 및 핑을 이용한 장치에 대한 도달 가능성에 대한 정보를 각각 이벤트 메시지로 전달받아서 저장하는 단계; 이벤트 메시지들 중 중복된 이벤트의 필터링과 미리 정의된 불필요한 이벤트에 대한 필터링 중 최소한 하나 이상의 필터링을 수행하는 단계; 필터링된 이벤트 메시지들의 상관 관계를 분석하는 단계; 및 분석된 결과를 통보하는 단계를 구비함을 특징으로 한다.In addition, the fault management method of the Internet network according to the present invention, in the fault management method of the Internet network using the event message for the failure of the device configured in the Internet network, the failure status of the device, the status of the device, the system log message of the device And receiving and storing information on the reachability of the device using the ping as an event message, respectively. Performing at least one filtering of filtering of duplicated events among the event messages and filtering for a predefined unnecessary event; Analyzing the filtered event messages; And notifying the analyzed result.
이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 보다 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 인터넷 망의 장애 관리 시스템의 구성도이다.1 is a block diagram of a failure management system of the Internet network according to the present invention.
도시된 바와 같이, 장애 관리 시스템(100)은, 장애 관리를 위한 제반 사항에 대한 규칙 및 원칙을 저장하는 장애 관리 정책 데이터베이스(300), 인터넷을 통하여 장애 관리 시스템(100)과 연결된 장치(810 내지 830)에 탑재된 SNMP 에이전트에 의해 실시간으로 트랩 메시지를 전달받아 처리하는 트랩 메시지 관리부(500), 망 형상 정보를 기반으로 장애 감시 대상을 검색하고 SNMP를 이용하여 직접 장치(810 내지 830)의 상태를 검색하여 처리하는 장비 상태 관리부(400), 인터넷 망에서의 임의의 구간 혹은 임의의 포트에 대한 도달 가능성을 PING을 이용하여 주기적으로 파악하여 관리하는 PING 관리부(700), 장치(810 내지 830)의 형상 변경 내역 및 작 업 내역을 상세하게 기록한 시스템 로그 데이터를 수집하여 분석하고 관리하는 시스템 로그 관리부(600), 이러한 장비 상태 관리부(400), 트랩 메시지 관리부(500), 시스템 로그 관리부(600) 및 PING 관리부(700)가 제공하는 각종 이벤트 메시지를 수집하여 이들 간의 상관 관계를 분석하여 장애의 근본 원인(Root Cause)을 파악하고 장애 원인별 파급 효과에 따라 심각도(Severity)를 할당하여 운용자에게 통보하는 이벤트 관리부(200)를 구비한다.As illustrated, the
여기서, 장애 관리 정책 데이터베이스(300)는 장비 상태 관리부(400), 트랩 메시지 관리부(500), 시스템 로그 관리부(600) 및 PING 관리부(700)가 각각 장치(810 내지 830)의 장애 정보 혹은 이벤트를 처리하는 제반 규칙을 저장하고 있는 것이다.Here, the failure
예를 들어, PING 관리부(700)를 위한 장애 관리 정책은 PING을 통하여 도달 가능성을 검사할 대상 장치 목록(라우터, 라우터의 포트 등)과 PING을 통하여 도달 가능성을 검사할 주기(예, 5분 10분 등)를 가지고 있고, PING 관리부(700)는 장애 관리 정책 데이터베이스(300)에 지정된 장치(810 내지 830)만을 대상으로 지정된 주기에 한번씩 도달 가능성을 검사한다For example, a failure management policy for the
도 2는 도 1의 이벤트 관리부(200)의 상세 구성을 나타낸다.2 illustrates a detailed configuration of the
이벤트 관리부(200)는, 트랩 메시지를 저장하는 트랩 큐(220), 망 장치의 상태 정보를 저장하는 망 상태 큐(222), 시스템 로그 메시지를 저장하는 시스템 로그 큐(224), PING 상태 메시지를 저장하는 PING 상태 큐(226), 트랩 메시지 관리부(500)로부터 수신된 트랩 메시지를 받아 트랩 큐(220)에 저장하는 트랩 이벤 트 수신부(210), 장비 상태 관리부(400)로부터 수신된 장치의 상태 정보를 망 상태 큐(222)에 저장하는 상태 수신부(212), 시스템 로그 관리부(600)로부터 수신된 각종 시스템 로그 메시지를 받아 시스템 로그 큐(224)에 저장하는 시스템 로그 수신부(214), PING 관리부(700)로부터 수신된 장치의 도달 가능성 정보를 받아 PING 상태 큐(226)에 저장하는 PING 상태 수신부(216), 트랩 큐(220), 망 상태 큐(222), 시스템 로그 큐(224) 및 PING 상태 큐(226)에 저장되어 있는 이벤트 메시지들을 읽어들여 이벤트에 대한 중복 발생 여부를 파악하여 처음에 발생한 이벤트만을 처리하고 후속적으로 발생한 동일한 이벤트들은 무시하는 이벤트 중복 처리부(230), 이벤트 중복 처리부(230)에서 중복 여부가 판단된 이벤트를 저장하는 이벤트 로그(232), 필터링을 위한 규칙을 저장하는 이벤트 필터 정책 데이터베이스(242), 이벤트 중복 처리부(230)가 전달한 이벤트 메시지에 대하여 이벤트 필터 정책 데이터베이스(242)를 참조하여 필터링 기능을 수행하는 이벤트 필터 처리부(240), 이벤트의 상관 관계 분석을 위한 규칙을 저장하는 이벤트 상관 관계 데이터베이스(252), 인터넷의 망 구성 정보를 저장하는 인터넷 망 형상 정보 데이터베이스(254), 이벤트 상관 관계 테이터베이스(252)와 인터넷 망 형상 정보 데이터베이스(254)를 참조하여 이벤트 필터 처리부(240)로부터 수신된 이벤트들 간의 상관 관계를 분석하고 이벤트 발생의 근본 원인을 찾는 이벤트 상관 관계 분석부(250), 이벤트 상관 관계 분석부(250)의 결과를 해당 시스템에게 통보하는 이벤트 통보부(260)를 구비한다. The
트랩 이벤트 수신부(210)는 트랩 메시지 관리부(500)가 인터넷 망의 장치로 부터 수집한 각종 트랩 메시지를 받아 트랩 큐(220)에 저장하는 기능을 한다.The
또한, 상태 수신부(212)는 장비 상태 관리부(400)가 인터넷 망 장치로부터 수집한 장치의 상태 정보를 받아 망 상태 큐(222)에 저장하는 기능을 수행한다.In addition, the
이와 더불어, 시스템 로그 수신부(214)는 시스템 로그 관리부(600)가 인터넷 망 장치로부터 수집한 각종 시스템 로그 메시지를 받아 시스템 로그 큐(224)에 저장하고, PING 상태 수신부(216)는 PING 관리부(700)가 인터넷 망 장치에 접근하여 수집한 도달 가능성 정보를 받아 PING 상태 큐(226)에 저장하는 기능을 수행한다. In addition, the
이러한 트랩 큐(220), 망 상태 큐(222), 시스템 로그 큐(224) 및 PING 상태 큐(226)는 망 장치로부터 발생하는 이벤트의 발생 빈도가 이벤트 관리부(200)에서 처리할 수 있는 능력보다 많이 발생하므로 이에 대한 유실을 방지하기 위한 완충장치로, 먼저 큐에 입력된 이벤트가 먼저 처리되는 특성을 가진다. The
그리고, 이러한 트랩 이벤트 수신부(210), 상태 수신부(212), 시스템 로그 수신부(214) 및 PING 상태 수신부(216)는 각종 이벤트 메시지들을 수신하여 해당 큐에 저장하는 기능만 수행한다.The
그러면, 이벤트 중복 처리부(230)는 각종 큐에 존재하는 이벤트 메시지들을 큐에서 읽어 이벤트에 대한 중복 발생 여부를 파악하고 중복으로 발생된 이벤트에 대해서는 처음에 발생한 이벤트만을 처리하고 후속적으로 발생한 동일한 이벤트들은 무시한다.Then, the event
이는, 장애 관리 시스템(100)의 이벤트 관리부(200)의 성능을 향상시키기 위함이다.
This is to improve the performance of the
이벤트 중복 처리부(230)는 각종 큐에서 메시지를 읽어 이벤트 로그(232)에 저장하고, 이를 큐에서 제거한다. The
만약 그 다음에 큐에서 읽은 이벤트 메시지가 이미 이벤트 로그(232)에 저장되어 있으면 해당 이벤트 메시지는 이벤트 로그(232)에 저장하지 않고, 큐에서만 삭제한다.If an event message read from the queue is already stored in the event log 232, the event message is not stored in the event log 232 but deleted only in the queue.
이후, 이벤트 중복 처리부(230)는 해당 이벤트를 이벤트 필터 처리부(240)에게 전송한다.Thereafter, the
이벤트 필터 처리부(240)는 이벤트 중복 처리부(230)가 전달한 이벤트 메시지에 대한 필터링(Filtering) 기능을 수행한다. The
필터링이란 인터넷 망의 장애 관리 시스템(100)에서 필요하지 않은 이벤트들은 무시하여 이벤트 처리에 대한 성능을 향상시키고, 중요한 이벤트는 부각시키고 중요하지 않은 이벤트를 무시하여 망 장애 상태 진단에 효율성을 기하기 위한 것이다.Filtering is to improve the performance of event processing by ignoring events that are not needed in the
필터링을 위한 규칙은 장애 관리 시스템(100) 구축 시 정의되거나, 장애 관리시스템(100)의 운용 중에 운용자에 의해 수시로 변경 가능하며, 이러한 규칙은 이벤트 필터 정책 데이터베이스(242)에 저장된다.Rules for filtering may be defined at the time of configuring the
이벤트 필터 처리부(240)는 이벤트 중복 처리부(230)에서 이벤트에 대한 중복성을 제거하여 제공한 이벤트를 수신하여 이벤트 필터 정책 데이터베이스(242)에 저장된 규칙에 따라 무시될 필요성이 있는 이벤트는 무시하고 처리하여야 될 필요성이 있는 중요 이벤트는 이벤트 상관 관계 분석부(250)에게 전달한다.
The
이벤트 상관 관계 분석부(250)는 망 장치로부터 발생하는 각종 이벤트 메시지들을 이벤트 필터 처리부(240)로부터 수신하여 이들 이벤트들 간의 연관 관계를 파악하고 이벤트 발생의 근본 원인을 찾는 기능을 수행한다.The
이러한 이벤트 상관 관계 분석부(250)는 수신된 이벤트에 대한 심각도를 지정하여 운용자에게 통보함으로써 운용자로 하여금 심각도 유형에 따라 즉각적인 조치가 이루어 질 수 있도록 한다. The
이때, 심각도는 심각, 중요, 경고, 일반, 해제의 5 단계로 세분화하여 관리한다.At this time, the severity is divided into five levels of serious, important, warning, general and release.
심각은 해당 이벤트의 파급 효과가, 둘 이상의 인터넷 가입자가 인터넷 서비스를 제공받지 못하게 될 이벤트인 경우에 지정되고, 중요는 개별 인터넷 가입자가 인터넷 서비스의 이용이 불가능할 경우에 지정되며, 경고는 현재의 인터넷 서비스 이용에는 문제가 되지 않지만 현재 상태가 지속되면 머지 않아 인터넷 서비스 제공에 차질을 가져올 가능성이 있는 이벤트의 경우에 지정되고, 일반은 인터넷 서비스 이용에 지장을 초래하는 이벤트는 아니지만, 운용자가 인지하여야 할 필요성이 있는 이벤트의 경우에 저장되고, 해지는 심각, 중요, 경고로 지정된 이벤트의 발생 원인이 해지되어 장애가 복구(이전 심각도가 심각 및 중요인 경우)되었거나, 장애 발생 가능성이 없어진 경우(이전 심각도가 경고인 경우)에 지정된다.A severity is specified when the ripple effect of the event is an event that will prevent more than one Internet subscriber from being provided with Internet service, an importance is assigned when an individual Internet subscriber is not available, and a warning is given for the current Internet. This is not a problem for service use, but it is designated for an event that may cause a disruption in the Internet service provision in the near future if the current state persists, and the general is not an event that impedes the use of the Internet service, but the operator should be aware of it. In the event of a necessary event, the cause of the event, designated as critical, critical, or warning, is closed and the failure is recovered (if the previous severity is critical and critical), or the possibility of a failure is eliminated (the previous severity is alerted). Is specified in the
따라서, 이벤트에 대한 심각도는 운용자로 하여금 이벤트의 심각도만 보아도 해당 이벤트의 발생으로 인한 파급 효과를 즉각적으로 인지하고 이에 대한 조치가 손쉽게 이루어지도록 할 수 있다. Therefore, the severity of the event allows the operator to immediately recognize the ripple effect caused by the occurrence of the event and to easily take action on the event, even if only the severity of the event is viewed.
이때, 발생 이벤트에 대한 심각도는 개별 이벤트만 보아도 심각도가 바로 결정되는 경우가 있을 수 있고, 지금까지 발생한 이벤트의 추이를 분석을 통하여 심각도기 결정되는 두 가지로 분리된다.In this case, the severity of the occurrence event may be immediately determined only by looking at the individual event, and is divided into two severity is determined through the analysis of the trend of the event occurred so far.
개별 이벤트만 보아도 심각도가 바로 결정되는 경우는 다음과 같은 규칙에 따라 심각도를 부여한다.If the severity is immediately determined even by viewing individual events, the severity is assigned according to the following rules.
(규칙1) 하나의 가입자에게 영향을 미치는 포트의 다운 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "중요"를 할당.(Rule 1) If a down trap message of a port affecting one subscriber has occurred, and the status of the same port has been normal before, assign "important".
(규칙2) 하나의 가입자에게 영향을 미치는 포트의 업(Up) 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 다운(Down)인 경우에는 "해지"를 할당.(Rule 2) If the up trap message of the port affecting one subscriber has occurred, and the state of the same port was previously down, assign "revocation".
(규칙3) 하나의 가입자에게 영향을 미치는 포트에 대한 성능 저하 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "경고"를 할당.(Rule 3) Allocating a "warning" when a performance degradation message has occurred for a port affecting one subscriber, and the status of the same port was normal.
(규칙4) 하나의 가입자에게 영향을 미치는 포트에 대한 성능 저하 복구 메시지가 발생하였고, 이전에 동일 포트의 상태가 성능 저하인 경우에는 "해지"를 할당.(Rule 4) Allocate a "revocation" if a degraded recovery message has occurred for a port that affects one subscriber, and if the status of the same port was previously degraded.
(규칙5) 인터넷 장치인 라우터 및 스위치에 대한 노드 다운 메시지가 발생하였고, 이전에 동일 노드의 상태가 정상인 경우에는 "심각"을 할당.(Rule 5) If a node down message has occurred for a router or switch, which is an Internet device, and the status of the same node has been normal, assign "severe".
(규칙6) 인터넷 장치인 라우터 및 스위치에 대한 노드 업 메시지가 발생하였고, 이전에 동일 노드의 상태가 다운인 경우에는 "해지"를 할당.(Rule 6) If a node up message has occurred for a router or switch that is an internet device, and the status of the same node was down before, assign "cancellation".
하지만, 개별 이벤트의 파급 효과를 파악하기 위해서는 이벤트 발생 위치별 심각도를 고려하여야 한다. However, in order to grasp the ripple effect of individual events, the severity of each event occurrence location must be considered.
이를 위해서는 이벤트의 발생 위치를 가지고 인터넷의 망 형상 정보간의 상관 관계를 분석하여야 이벤트의 정확한 파급효과를 판단할 수 있다.To do this, it is necessary to analyze the correlation between the network shape information of the Internet with the location of the event to determine the exact ripple effect of the event.
인터넷 망 형상 정보 데이터베이스(254)는 인터넷의 망 구성 정보를 저장하고 있는 데이터베이스로, 라우터, 라우터에 장착된 포트 목록 및 라우터간의 연결 형상 정보로 구성된다.The Internet network shape information database 254 is a database that stores network configuration information of the Internet. The Internet network shape information database 254 includes a router, a list of ports installed in routers, and connection shape information between routers.
이러한 인터넷 망 형상 정보에 관한 이벤트의 상관 관계 분석은 아래와 같은 규칙에 따라 이루어진다.Correlation analysis of events related to such Internet network configuration information is performed according to the following rules.
(규칙7) 하나 이상의 가입자에게 영향을 미치는 포트의 업 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 다운인 경우에는 "해지"를 할당.(Rule 7) Allocating an "termination" if an uptrap message on a port that affects more than one subscriber has occurred and previously the state of the same port is down.
(규칙8) 하나 이상의 가입자에게 영향을 미치는 포트의 다운 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "심각"을 할당.(Rule 8) Allocating a "severe" if a down trap message has occurred on a port that affects more than one subscriber, and the status of the same port has been normal previously.
(규칙9) 두 개 이상의 포트 다운 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 정상이면, 개별 포트 다운 이벤트에 "심각"을 할당. (Rule 9) If two or more port down events occur and the port belongs to the same node, if the node containing the port is in a normal state, assign a "severe" to the individual port down event.
(규칙10) 두 개 이상의 포트 다운 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 다운이면, 개별 포트 다운 이벤트는 무시하고 포트 다운 이벤트 대신 "노드 다운"이란 이벤트를 새롭게 발생시키고 이에 대한 메시지는 "심각"으로 할당.(Rule 10) If two or more port down events occur, and the port belongs to the same node, if the state of the node containing the port is down, the individual node down event is ignored and an event called "node down" instead of the port down event. Raise a new message and assign it a "serious" message.
(규칙11) 두 개 이상의 포트 업 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 정상이면, 개별 포트 업 이벤트에 "해 지"를 할당.(Rule 11) If two or more port up events occur and the port belongs to the same node, if the node containing the port is in a normal state, assign "release" to the individual port up event.
(규칙12) 두 개 이상의 포트 업 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 장애이면, 개별 포트 업 이벤트를 무시.(Rule 12) If two or more port up events occur and the port belongs to the same node, the individual port up event is ignored if the node containing the port has failed.
(규칙13) 포트 다운 이벤트 혹은 노드 다운 이벤트가 발생하였으나, 인터넷 망 형상 정보 상에서 해당 포트 혹은 노드가 다른 포트 혹은 노드와 연결되어 있지 않은 경우에는 해당 이벤트를 무시.(Rule 13) If a port down event or a node down event occurs, but the port or node is not connected to another port or node in the Internet configuration information, the event is ignored.
또한, SNMP 트랩을 통하여 수집된 이벤트 메시지와 시스템 로그 분석을 통해 수집된 이벤트 메시지는 바로 하나의 이벤트로 처리되지만, PING을 통해 수집된 장치 혹은 포트에 대한 도달 가능성과 SNMP-Get을 통해 수집된 장치 혹은 포트에 대한 상태 정보는 주기적으로 수집되는 것이다.In addition, event messages collected through SNMP traps and event messages collected through system log analysis are treated as a single event, but reachability to devices or ports collected through PING and devices collected through SNMP-Get Or state information about a port is collected periodically.
여기서, SNMP-Get을 통해 상태 정보를 수집하는 것은, 장비 상태 관리부(400)에서 주기적으로 SNMP를 이용하여 직접 망의 상태 정보를 수집하는 것을 의미한다.Here, collecting the status information through SNMP-Get means that the
이들 정보는 망 장치에 의해 실시간으로 발생되는 이벤트 메시지가 아니므로 최근의 망 상태를 반영한 이벤트가 아니라 정보 수집 주기(예, 5분, 10분 등)만큼 과거의 장치 상태가 된다. Since this information is not an event message generated in real time by the network device, the information becomes a device state of the past by information collection cycle (eg, 5 minutes, 10 minutes, etc.) rather than an event reflecting the recent network state.
따라서, 이들을 처리하기 위해서는 다음과 같은 규칙에 따라 처리한다.Therefore, in order to process them, they are processed according to the following rules.
(규칙14) PING에 의한 도달 가능성 이벤트를 수신한 경우, 이벤트 상관 관계 분석부(250)는 도달 가능성이 "아니오"인 경우에는, 이전의 상태가 "아니오"이면 해당 이벤트를 무시하고, 이전의 상태가 "예"이면 장비 상태 관리자(400)에 요청하여 해당 장비의 현재 상태를 조회한 후, 상태가 다운이면 장치(노드 혹은 포트) 다운 이벤트를 생성하고, 상태가 정상이면 해당 이벤트를 무시한다.(Rule 14) When the reachability event by PING is received, the
(규칙15) SNMP-Get에 의하여 수집된 장치(노드 혹은 포트)의 상태가 다운인 경우, 이벤트 상관 관계 분석부(250)는 PING 관리부(700)에게 해당 포트 혹은 노드에 PING에 의해 도달 가능성을 검사하도록 요청하고, 그 결과가 도달 가능인 경우에는 해당 다운 이벤트 메시지를 무시하고, 그 결과가 도달 불가능인 경우에는 다운 메시지를 전송한다.(Rule 15) If the status of a device (node or port) collected by SNMP-Get is down, the
이와 같은 규칙에 따라, 이벤트 상관 관계 분석부(250)는 이벤트들간의 상관 관계를 분석하여 해당 이벤트에 대한 심각도를 할당하고, 이벤트 발생 근본 원인을 찾아 운용자가 쉽게 식별할 수 있는 새로운 이벤트를 생성하여 이벤트 통보부(260)에 보낸다.In accordance with such a rule, the
그러면, 이벤트 통보부(260)는 발생된 이벤트를 이벤트 별로 해당 시스템에게 통보하는 역할을 수행한다.Then, the
이러한 이벤트 통보부(260)는 "시스템의 위치와 시스템 명"을 관리하여 이벤트 발생 시에 이를 필요로 하는 시스템에게 정확하게 이벤트를 전송한다.The
그리고, 타 시스템 이외에 인터넷 망의 관리 운용부에게는 발생하는 모든 이벤트를 전송한다.In addition to the other systems, all events that occur to the management operation unit of the Internet network is transmitted.
상기와 같은 장애 관리 시스템(100)을 이용하여 대규모 인터넷 망의 장애 관리가 가능하고, 이를 통해 안정적인 인터넷 서비스 제공이 가능하다.By using the
상술된 바와 같이, 본 발명은 장치가 발생시키는 이벤트들을 빠짐없이 수신하고 수신된 이벤트들의 상관 관계를 분석하여 정확한 원인을 파악하고 그 결과에 따라 인터넷 서비스 제공에 지장을 초래하는 상황이 발생한 경우에는 즉각적인 조치를 취함으로써, 망 사업자 관점에서는 안정적인 인터넷 서비스 제공이 가능하고, 이러한 안정적인 인터넷 통신 서비스를 통해 서비스 품질 또한 높일 수 있는 효과가 있다.As described above, the present invention receives all events generated by the device and analyzes the correlations between the received events to determine the exact cause, and immediately in case a situation occurs that impedes the provision of the Internet service. By taking measures, it is possible to provide stable Internet service from the perspective of network operators, and the quality of service can be enhanced through such stable Internet communication service.
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020036891A KR100887874B1 (en) | 2002-06-28 | 2002-06-28 | System for managing fault of internet and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020036891A KR100887874B1 (en) | 2002-06-28 | 2002-06-28 | System for managing fault of internet and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040001627A KR20040001627A (en) | 2004-01-07 |
KR100887874B1 true KR100887874B1 (en) | 2009-03-06 |
Family
ID=37313374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020036891A KR100887874B1 (en) | 2002-06-28 | 2002-06-28 | System for managing fault of internet and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100887874B1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100500836B1 (en) * | 2002-09-30 | 2005-07-12 | 주식회사 케이티 | Fault management system of metro ethernet network and method thereof |
KR101043138B1 (en) * | 2004-02-02 | 2011-06-20 | 주식회사 케이티 | Method of polling performance data of DSLAMDigital Subscriber Line Access Multiplexor based on state machine and device thereof |
CN100399747C (en) * | 2005-03-17 | 2008-07-02 | 联想(北京)有限公司 | Computer network strategy management system and strategy management method |
KR100781211B1 (en) * | 2007-06-13 | 2007-11-30 | 주식회사 국민은행 | It service management method for bank and system there-of |
KR100921558B1 (en) * | 2008-10-23 | 2009-10-12 | 주식회사 케이티 | System and method for managing network of transmission control protocol/internet protocol |
CN105991320B (en) * | 2015-02-05 | 2020-07-31 | 深圳市中兴通讯技术服务有限责任公司 | Passive optical network equipment alarm information processing method and optical line terminal |
KR102362077B1 (en) * | 2018-12-10 | 2022-02-10 | 주식회사 케이티 | Method and apparatus for automatic detection of traffic leakage |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990056189A (en) * | 1997-12-29 | 1999-07-15 | 윤종용 | System Maintenance System for Asymmetric Subscriber Line Transmission System |
KR20000012947A (en) * | 1998-08-03 | 2000-03-06 | 김영환 | Trouble ticketing managing method for tmn system |
KR20000012194A (en) * | 1999-06-28 | 2000-03-06 | 김상배 | System for integrating System Management System and Firewall system |
KR20000045488A (en) * | 1998-12-30 | 2000-07-15 | 이계철 | Supervision and control method for disperse management system's obstruction |
KR20010057173A (en) * | 1999-12-18 | 2001-07-04 | 이계철 | Multi-information processing apparatus and method for proactive maintenance service |
KR20010060869A (en) * | 1999-12-28 | 2001-07-07 | 윤종용 | method for processing event by operator requirement in communication system |
KR20030027537A (en) * | 2001-09-29 | 2003-04-07 | 주식회사 케이티 | System and method of extracting event pattern and of determining whether to apply the extracted pattern in network |
-
2002
- 2002-06-28 KR KR1020020036891A patent/KR100887874B1/en not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990056189A (en) * | 1997-12-29 | 1999-07-15 | 윤종용 | System Maintenance System for Asymmetric Subscriber Line Transmission System |
KR20000012947A (en) * | 1998-08-03 | 2000-03-06 | 김영환 | Trouble ticketing managing method for tmn system |
KR20000045488A (en) * | 1998-12-30 | 2000-07-15 | 이계철 | Supervision and control method for disperse management system's obstruction |
KR20000012194A (en) * | 1999-06-28 | 2000-03-06 | 김상배 | System for integrating System Management System and Firewall system |
KR20010057173A (en) * | 1999-12-18 | 2001-07-04 | 이계철 | Multi-information processing apparatus and method for proactive maintenance service |
KR20010060869A (en) * | 1999-12-28 | 2001-07-07 | 윤종용 | method for processing event by operator requirement in communication system |
KR20030027537A (en) * | 2001-09-29 | 2003-04-07 | 주식회사 케이티 | System and method of extracting event pattern and of determining whether to apply the extracted pattern in network |
Also Published As
Publication number | Publication date |
---|---|
KR20040001627A (en) | 2004-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2493525C (en) | Method and apparatus for outage measurement | |
US7213179B2 (en) | Automated and embedded software reliability measurement and classification in network elements | |
US6941367B2 (en) | System for monitoring relevant events by comparing message relation key | |
EP1999890B1 (en) | Automated network congestion and trouble locator and corrector | |
EP1703671B1 (en) | Device and method for network monitoring | |
US20070168505A1 (en) | Performance monitoring in a network | |
KR100887874B1 (en) | System for managing fault of internet and method thereof | |
EP3252995B1 (en) | Method for detecting network failures | |
US7421493B1 (en) | Orphaned network resource recovery through targeted audit and reconciliation | |
KR100964392B1 (en) | System and method for managing network failure | |
US7502447B2 (en) | Call failure recording | |
WO2022270766A1 (en) | Device and method for automatic packet analysis-based intelligent network management | |
KR100500836B1 (en) | Fault management system of metro ethernet network and method thereof | |
KR100608917B1 (en) | Method for managing fault information of distributed forwarding architecture router | |
CN115865612B (en) | Network fault processing method and device, storage medium and electronic equipment | |
Song et al. | Internet router outage measurement: An embedded approach | |
EP3474489B1 (en) | A method and a system to enable a (re-)configuration of a telecommunications network | |
CN117081910A (en) | Main/standby switching system and method of firewall | |
KR20090038123A (en) | System and method for network management, storage medium recording that metho program | |
CN115733726A (en) | Network group fault determination method and device, storage medium and electronic device | |
EP1257087B1 (en) | Method and system for network monitoring | |
KR20050001123A (en) | System and method for managing of network failure | |
KR100680998B1 (en) | System, device and method for automatic alarm control in a switch | |
Yang et al. | A QoS Approach for Detecting and Managing a Fault Alarm Storm | |
KR20020076387A (en) | Intranet Security Management System and Security Management Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |