KR20040001627A - 인터넷 망의 장애 관리 시스템 및 그 방법 - Google Patents

인터넷 망의 장애 관리 시스템 및 그 방법 Download PDF

Info

Publication number
KR20040001627A
KR20040001627A KR1020020036891A KR20020036891A KR20040001627A KR 20040001627 A KR20040001627 A KR 20040001627A KR 1020020036891 A KR1020020036891 A KR 1020020036891A KR 20020036891 A KR20020036891 A KR 20020036891A KR 20040001627 A KR20040001627 A KR 20040001627A
Authority
KR
South Korea
Prior art keywords
event
management unit
internet network
message
failure
Prior art date
Application number
KR1020020036891A
Other languages
English (en)
Other versions
KR100887874B1 (ko
Inventor
홍원규
윤동식
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020020036891A priority Critical patent/KR100887874B1/ko
Publication of KR20040001627A publication Critical patent/KR20040001627A/ko
Application granted granted Critical
Publication of KR100887874B1 publication Critical patent/KR100887874B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0613Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

본 발명은 인터넷 망에서 발생하는 이벤트들의 상관 관계를 분석하여 장애 원인을 찾아내고 이에 필요한 조치가 이루어지도록 하는 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것으로, 인터넷 망을 구성하는 장치가 발생시키는 이벤트들을 빠짐없이 수신하고 수신된 이벤트들의 상관 관계를 분석하여 정확한 원인을 파악하고 그 결과에 따라 인터넷 서비스 제공에 지장을 초래하는 상황이 발생한 경우에는 즉각적인 조치를 취함으로써, 망 사업자 관점에서는 안정적인 인터넷 서비스 제공이 가능하고, 이러한 안정적인 인터넷 통신 서비스를 통해 서비스 품질 또한 높일 수 있는 효과가 있다.

Description

인터넷 망의 장애 관리 시스템 및 그 방법{System for managing fault of internet and method thereof}
본 발명은 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 인터넷 망에서 발생하는 이벤트들의 상관 관계를 분석하여 장애 원인을 찾아내고 이에 필요한 조치가 이루어지도록 하는 인터넷 망의 장애 관리 시스템 및 그 방법에 관한 것이다.
일반적으로, 인터넷 망은 적게는 수십에서 많게는 수백 개의 라우터 및 스위치들로 구성된다.
이러한 인터넷 망을 통하여, 안정적인 인터넷 서비스 제공을 보장하려면, 상기 라우터 및 스위치들에 대한 장애 감시가 필수적이고, 이들의 장애 감시를 통하여 이상 상황을 감지한 경우에는 즉각적인 조치가 이루어져야 한다.
이러한, 인터넷 망의 관리는 망과 연결된 장치들에 포함된 SNMP(SimpleNetwork Management Protocol) 에이전트(Agent)가 장치의 이상 상황을 발견하면 트랩 메시지를 망 관리 시스템에 제공함으로써 이루어진다.
이는 망 관리 시스템이 장치에 탑재된 SNMP 에이전트가 제공하는 트랩 메시지에 의존하여 장치의 이상 상황을 수동적으로 파악하는 방법이고, 망 관리 시스템에 의한 능동적인 방법은 SNMP를 이용하여 장치의 상태를 주기적으로 검색하여 장치의 이상 상황을 파악하는 방법이다.
하지만, 전자의 방법은 SNMP가 기본적으로 신뢰성을 보장하지 않는 UDP(User Datagram Protocol)을 기반으로 동작하기 때문에 트랩 메시지가 정확하게 인터넷 망과 연결된 장치로부터 망 관리 시스템에 전달되는 것을 보장할 수 없으므로, 망 관리 시스템에 의한 정확한 장치들의 장애 감시가 어려운 문제점이 있다.
그리고, 후자의 방법은 망 관리 시스템이 수많은 장치들의 상태를 주기적으로 검색하여야 하므로, 망 관리 시스템에 많은 부하가 뒤따르고 검색 주기 또한 길어 정확한 망 장애 상태를 파악하기 어려운 문제점이 있다.
또한, 다수의 라우터 및 스위치로부터 동시 다발적으로 발생하는 많은 수의 이벤트 혹은 트랩 메시지를 망 관리 시스템이 수신한 경우, 정확한 진단 기능이 없으면 운용자에 의한 정확한 원인 파악이 힘들다.
즉, SNMP는 그 특성상 데이터 전송에 대한 신뢰성을 보장하지 않는 UDP 기반으로 동작하므로 장치에 탑재된 SNMP 에이전트가 장치에 대한 이상 상황을 인식하고 이를 망 관리 시스템에게 통보하기 위한 트랩 메시지를 전송하지만, 실제 환경에서는 여러 가지 이유로 인하여 트랩 메시지가 유실되는 경우가 많다.
또한, 소수의 운용자가 수백 대의 라우터 및 장치에 직접 접근하여 장치의 상황을 파악하는 것은 거의 불가능하기 때문에, 트랩 메시지의 유실은 망 관리 시스템 혹은 인터넷 망 관리자 측면에서는 매우 심각하다.
따라서, 망 관리 시스템에 의한 장애 관리가 필수적이지만, 인터넷 망을 구성하는 장치가 탑재하고 있는 SNMP를 통한 트랩 메시지는 빈번한 유실로 인한 정확한 장애 관리가 거의 되지 않는 문제점이 있다.
상술된 문제점을 해결하기 위하여, 본 발명의 목적은 인터넷 망의 각종 장치에서 발생하는 모든 이벤트를 분석 처리하여 인터넷 망의 장애를 통합 관리함에 있다.
도 1은 본 발명에 따른 인터넷 망의 장애 관리 시스템의 구성도.
도 2는 도 1의 이벤트 관리부의 상세 구성도.
이를 위하여, 본 발명에 따른 인터넷 망의 장애 관리 시스템은, 인터넷 망에 구성된 장치에 대한 장애를 관리하는 인터넷 망의 장애 관리 시스템에 있어서, 장치의 장애 정보와 이벤트에 대한 처리 규칙을 갖는 장애 관리 정책 저장부; 처리 규칙에 따라 장치의 트랩 메시지를 전달하는 트랩 메시지 관리부; 처리 규칙에 따라 장치의 상태를 수집하는 장비 상태 관리부; 처리 규칙에 따라 핑(Ping)을 이용하여 주기적으로 상기 인터넷 망에 속한 임의의 구간 및 임의의 상기 장치에 대한 도달 가능성을 관리하는 핑 관리부; 처리 규칙에 따라 상기 장치의 시스템 로그 데이터를 수집하는 시스템 로그 관리부; 및 트랩 메시지 관리부, 장비 상태 관리부, 핑 관리부 및 시스템 로그 관리부로부터 각각 이벤트 메시지를 전달받아서, 이벤트메시지간 상관 관계를 분석하는 이벤트 관리부를 구비하는 것을 특징으로 한다.
그리고, 본 발명에 따른 인터넷 망의 장애 관리 방법은, 인터넷 망에 구성된 장치의 장애에 대한 이벤트 메시지를 이용한 인터넷 망의 장애 관리 방법에 있어서, 장치의 장애 상태, 장치의 상태, 장치의 시스템 로그 메시지 및 핑을 이용한 장치에 대한 도달 가능성에 대한 정보를 각각 이벤트 메시지로 전달받아서 저장하는 단계; 이벤트 메시지들 중 중복된 이벤트의 필터링과 미리 정의된 불필요한 이벤트에 대한 필터링 중 최소한 하나 이상의 필터링을 수행하는 단계; 필터링된 이벤트 메시지들의 상관 관계를 분석하는 단계; 및 분석된 결과를 통보하는 단계를 구비함을 특징으로 한다.
이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 보다 상세히 설명한다.
도 1은 본 발명에 따른 인터넷 망의 장애 관리 시스템의 구성도이다.
도시된 바와 같이, 장애 관리 시스템(100)은, 장애 관리를 위한 제반 사항에 대한 규칙 및 원칙을 저장하는 장애 관리 정책 데이터베이스(300), 인터넷을 통하여 장애 관리 시스템(100)과 연결된 장치(810 내지 830)에 탑재된 SNMP 에이전트에 의해 실시간으로 트랩 메시지를 전달받아 처리하는 트랩 메시지 관리부(500), 망 형상 정보를 기반으로 장애 감시 대상을 검색하고 SNMP를 이용하여 직접 장치(810 내지 830)의 상태를 검색하여 처리하는 장비 상태 관리부(400), 인터넷 망에서의 임의의 구간 혹은 임의의 포트에 대한 도달 가능성을 PING을 이용하여 주기적으로 파악하여 관리하는 PING 관리부(700), 장치(810 내지 830)의 형상 변경 내역 및 작업 내역을 상세하게 기록한 시스템 로그 데이터를 수집하여 분석하고 관리하는 시스템 로그 관리부(600), 이러한 장비 상태 관리부(400), 트랩 메시지 관리부(500), 시스템 로그 관리부(600) 및 PING 관리부(700)가 제공하는 각종 이벤트 메시지를 수집하여 이들 간의 상관 관계를 분석하여 장애의 근본 원인(Root Cause)을 파악하고 장애 원인별 파급 효과에 따라 심각도(Severity)를 할당하여 운용자에게 통보하는 이벤트 관리부(200)를 구비한다.
여기서, 장애 관리 정책 데이터베이스(300)는 장비 상태 관리부(400), 트랩 메시지 관리부(500), 시스템 로그 관리부(600) 및 PING 관리부(700)가 각각 장치(810 내지 830)의 장애 정보 혹은 이벤트를 처리하는 제반 규칙을 저장하고 있는 것이다.
예를 들어, PING 관리부(700)를 위한 장애 관리 정책은 PING을 통하여 도달 가능성을 검사할 대상 장치 목록(라우터, 라우터의 포트 등)과 PING을 통하여 도달 가능성을 검사할 주기(예, 5분 10분 등)를 가지고 있고, PING 관리부(700)는 장애 관리 정책 데이터베이스(300)에 지정된 장치(810 내지 830)만을 대상으로 지정된 주기에 한번씩 도달 가능성을 검사한다
도 2는 도 1의 이벤트 관리부(200)의 상세 구성을 나타낸다.
이벤트 관리부(200)는, 트랩 메시지를 저장하는 트랩 큐(220), 망 장치의 상태 정보를 저장하는 망 상태 큐(222), 시스템 로그 메시지를 저장하는 시스템 로그 큐(224), PING 상태 메시지를 저장하는 PING 상태 큐(226), 트랩 메시지 관리부(500)로부터 수신된 트랩 메시지를 받아 트랩 큐(220)에 저장하는 트랩 이벤트 수신부(210), 장비 상태 관리부(400)로부터 수신된 장치의 상태 정보를 망 상태 큐(222)에 저장하는 상태 수신부(212), 시스템 로그 관리부(600)로부터 수신된 각종 시스템 로그 메시지를 받아 시스템 로그 큐(224)에 저장하는 시스템 로그 수신부(214), PING 관리부(700)로부터 수신된 장치의 도달 가능성 정보를 받아 PING 상태 큐(226)에 저장하는 PING 상태 수신부(216), 트랩 큐(220), 망 상태 큐(222), 시스템 로그 큐(224) 및 PING 상태 큐(226)에 저장되어 있는 이벤트 메시지들을 읽어들여 이벤트에 대한 중복 발생 여부를 파악하여 처음에 발생한 이벤트만을 처리하고 후속적으로 발생한 동일한 이벤트들은 무시하는 이벤트 중복 처리부(230), 이벤트 중복 처리부(230)에서 중복 여부가 판단된 이벤트를 저장하는 이벤트 로그(232), 필터링을 위한 규칙을 저장하는 이벤트 필터 정책 데이터베이스(242), 이벤트 중복 처리부(230)가 전달한 이벤트 메시지에 대하여 이벤트 필터 정책 데이터베이스(242)를 참조하여 필터링 기능을 수행하는 이벤트 필터 처리부(240), 이벤트의 상관 관계 분석을 위한 규칙을 저장하는 이벤트 상관 관계 데이터베이스(252), 인터넷의 망 구성 정보를 저장하는 인터넷 망 형상 정보 데이터베이스(254), 이벤트 상관 관계 테이터베이스(252)와 인터넷 망 형상 정보 데이터베이스(254)를 참조하여 이벤트 필터 처리부(240)로부터 수신된 이벤트들 간의 상관 관계를 분석하고 이벤트 발생의 근본 원인을 찾는 이벤트 상관 관계 분석부(250), 이벤트 상관 관계 분석부(250)의 결과를 해당 시스템에게 통보하는 이벤트 통보부(260)를 구비한다.
트랩 이벤트 수신부(210)는 트랩 메시지 관리부(500)가 인터넷 망의 장치로부터 수집한 각종 트랩 메시지를 받아 트랩 큐(220)에 저장하는 기능을 한다.
또한, 상태 수신부(212)는 장비 상태 관리부(400)가 인터넷 망 장치로부터 수집한 장치의 상태 정보를 받아 망 상태 큐(222)에 저장하는 기능을 수행한다.
이와 더불어, 시스템 로그 수신부(214)는 시스템 로그 관리부(600)가 인터넷 망 장치로부터 수집한 각종 시스템 로그 메시지를 받아 시스템 로그 큐(224)에 저장하고, PING 상태 수신부(216)는 PING 관리부(700)가 인터넷 망 장치에 접근하여 수집한 도달 가능성 정보를 받아 PING 상태 큐(226)에 저장하는 기능을 수행한다.
이러한 트랩 큐(220), 망 상태 큐(222), 시스템 로그 큐(224) 및 PING 상태 큐(226)는 망 장치로부터 발생하는 이벤트의 발생 빈도가 이벤트 관리부(200)에서 처리할 수 있는 능력보다 많이 발생하므로 이에 대한 유실을 방지하기 위한 완충장치로, 먼저 큐에 입력된 이벤트가 먼저 처리되는 특성을 가진다.
그리고, 이러한 트랩 이벤트 수신부(210), 상태 수신부(212), 시스템 로그 수신부(214) 및 PING 상태 수신부(216)는 각종 이벤트 메시지들을 수신하여 해당 큐에 저장하는 기능만 수행한다.
그러면, 이벤트 중복 처리부(230)는 각종 큐에 존재하는 이벤트 메시지들을 큐에서 읽어 이벤트에 대한 중복 발생 여부를 파악하고 중복으로 발생된 이벤트에 대해서는 처음에 발생한 이벤트만을 처리하고 후속적으로 발생한 동일한 이벤트들은 무시한다.
이는, 장애 관리 시스템(100)의 이벤트 관리부(200)의 성능을 향상시키기 위함이다.
이벤트 중복 처리부(230)는 각종 큐에서 메시지를 읽어 이벤트 로그(232)에 저장하고, 이를 큐에서 제거한다.
만약 그 다음에 큐에서 읽은 이벤트 메시지가 이미 이벤트 로그(232)에 저장되어 있으면 해당 이벤트 메시지는 이벤트 로그(232)에 저장하지 않고, 큐에서만 삭제한다.
이후, 이벤트 중복 처리부(230)는 해당 이벤트를 이벤트 필터 처리부(240)에게 전송한다.
이벤트 필터 처리부(240)는 이벤트 중복 처리부(230)가 전달한 이벤트 메시지에 대한 필터링(Filtering) 기능을 수행한다.
필터링이란 인터넷 망의 장애 관리 시스템(100)에서 필요하지 않은 이벤트들은 무시하여 이벤트 처리에 대한 성능을 향상시키고, 중요한 이벤트는 부각시키고 중요하지 않은 이벤트를 무시하여 망 장애 상태 진단에 효율성을 기하기 위한 것이다.
필터링을 위한 규칙은 장애 관리 시스템(100) 구축 시 정의되거나, 장애 관리시스템(100)의 운용 중에 운용자에 의해 수시로 변경 가능하며, 이러한 규칙은 이벤트 필터 정책 데이터베이스(242)에 저장된다.
이벤트 필터 처리부(240)는 이벤트 중복 처리부(230)에서 이벤트에 대한 중복성을 제거하여 제공한 이벤트를 수신하여 이벤트 필터 정책 데이터베이스(242)에 저장된 규칙에 따라 무시될 필요성이 있는 이벤트는 무시하고 처리하여야 될 필요성이 있는 중요 이벤트는 이벤트 상관 관계 분석부(250)에게 전달한다.
이벤트 상관 관계 분석부(250)는 망 장치로부터 발생하는 각종 이벤트 메시지들을 이벤트 필터 처리부(240)로부터 수신하여 이들 이벤트들 간의 연관 관계를 파악하고 이벤트 발생의 근본 원인을 찾는 기능을 수행한다.
이러한 이벤트 상관 관계 분석부(250)는 수신된 이벤트에 대한 심각도를 지정하여 운용자에게 통보함으로써 운용자로 하여금 심각도 유형에 따라 즉각적인 조치가 이루어 질 수 있도록 한다.
이때, 심각도는 심각, 중요, 경고, 일반, 해제의 5 단계로 세분화하여 관리한다.
심각은 해당 이벤트의 파급 효과가, 둘 이상의 인터넷 가입자가 인터넷 서비스를 제공받지 못하게 될 이벤트인 경우에 지정되고, 중요는 개별 인터넷 가입자가 인터넷 서비스의 이용이 불가능할 경우에 지정되며, 경고는 현재의 인터넷 서비스 이용에는 문제가 되지 않지만 현재 상태가 지속되면 머지 않아 인터넷 서비스 제공에 차질을 가져올 가능성이 있는 이벤트의 경우에 지정되고, 일반은 인터넷 서비스 이용에 지장을 초래하는 이벤트는 아니지만, 운용자가 인지하여야 할 필요성이 있는 이벤트의 경우에 저장되고, 해지는 심각, 중요, 경고로 지정된 이벤트의 발생 원인이 해지되어 장애가 복구(이전 심각도가 심각 및 중요인 경우)되었거나, 장애 발생 가능성이 없어진 경우(이전 심각도가 경고인 경우)에 지정된다.
따라서, 이벤트에 대한 심각도는 운용자로 하여금 이벤트의 심각도만 보아도 해당 이벤트의 발생으로 인한 파급 효과를 즉각적으로 인지하고 이에 대한 조치가 손쉽게 이루어지도록 할 수 있다.
이때, 발생 이벤트에 대한 심각도는 개별 이벤트만 보아도 심각도가 바로 결정되는 경우가 있을 수 있고, 지금까지 발생한 이벤트의 추이를 분석을 통하여 심각도기 결정되는 두 가지로 분리된다.
개별 이벤트만 보아도 심각도가 바로 결정되는 경우는 다음과 같은 규칙에 따라 심각도를 부여한다.
(규칙1) 하나의 가입자에게 영향을 미치는 포트의 다운 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "중요"를 할당.
(규칙2) 하나의 가입자에게 영향을 미치는 포트의 업(Up) 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 다운(Down)인 경우에는 "해지"를 할당.
(규칙3) 하나의 가입자에게 영향을 미치는 포트에 대한 성능 저하 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "경고"를 할당.
(규칙4) 하나의 가입자에게 영향을 미치는 포트에 대한 성능 저하 복구 메시지가 발생하였고, 이전에 동일 포트의 상태가 성능 저하인 경우에는 "해지"를 할당.
(규칙5) 인터넷 장치인 라우터 및 스위치에 대한 노드 다운 메시지가 발생하였고, 이전에 동일 노드의 상태가 정상인 경우에는 "심각"을 할당.
(규칙6) 인터넷 장치인 라우터 및 스위치에 대한 노드 업 메시지가 발생하였고, 이전에 동일 노드의 상태가 다운인 경우에는 "해지"를 할당.
하지만, 개별 이벤트의 파급 효과를 파악하기 위해서는 이벤트 발생 위치별 심각도를 고려하여야 한다.
이를 위해서는 이벤트의 발생 위치를 가지고 인터넷의 망 형상 정보간의 상관 관계를 분석하여야 이벤트의 정확한 파급효과를 판단할 수 있다.
인터넷 망 형상 정보 데이터베이스(254)는 인터넷의 망 구성 정보를 저장하고 있는 데이터베이스로, 라우터, 라우터에 장착된 포트 목록 및 라우터간의 연결 형상 정보로 구성된다.
이러한 인터넷 망 형상 정보에 관한 이벤트의 상관 관계 분석은 아래와 같은 규칙에 따라 이루어진다.
(규칙7) 하나 이상의 가입자에게 영향을 미치는 포트의 업 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 다운인 경우에는 "해지"를 할당.
(규칙8) 하나 이상의 가입자에게 영향을 미치는 포트의 다운 트랩 메시지가 발생하였고, 이전에 동일 포트의 상태가 정상인 경우에는 "심각"을 할당.
(규칙9) 두 개 이상의 포트 다운 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 정상이면, 개별 포트 다운 이벤트에 "심각"을 할당.
(규칙10) 두 개 이상의 포트 다운 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 다운이면, 개별 포트 다운 이벤트는 무시하고 포트 다운 이벤트 대신 "노드 다운"이란 이벤트를 새롭게 발생시키고 이에 대한 메시지는 "심각"으로 할당.
(규칙11) 두 개 이상의 포트 업 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 정상이면, 개별 포트 업 이벤트에 "해지"를 할당.
(규칙12) 두 개 이상의 포트 업 이벤트가 발생하였고, 포트가 동일 노드에 속하는 경우, 포트가 포함된 노드의 상태가 장애이면, 개별 포트 업 이벤트를 무시.
(규칙13) 포트 다운 이벤트 혹은 노드 다운 이벤트가 발생하였으나, 인터넷 망 형상 정보 상에서 해당 포트 혹은 노드가 다른 포트 혹은 노드와 연결되어 있지 않은 경우에는 해당 이벤트를 무시.
또한, SNMP 트랩을 통하여 수집된 이벤트 메시지와 시스템 로그 분석을 통해 수집된 이벤트 메시지는 바로 하나의 이벤트로 처리되지만, PING을 통해 수집된 장치 혹은 포트에 대한 도달 가능성과 SNMP-Get을 통해 수집된 장치 혹은 포트에 대한 상태 정보는 주기적으로 수집되는 것이다.
여기서, SNMP-Get을 통해 상태 정보를 수집하는 것은, 장비 상태 관리부(400)에서 주기적으로 SNMP를 이용하여 직접 망의 상태 정보를 수집하는 것을 의미한다.
이들 정보는 망 장치에 의해 실시간으로 발생되는 이벤트 메시지가 아니므로 최근의 망 상태를 반영한 이벤트가 아니라 정보 수집 주기(예, 5분, 10분 등)만큼 과거의 장치 상태가 된다.
따라서, 이들을 처리하기 위해서는 다음과 같은 규칙에 따라 처리한다.
(규칙14) PING에 의한 도달 가능성 이벤트를 수신한 경우, 이벤트 상관 관계 분석부(250)는 도달 가능성이 "아니오"인 경우에는, 이전의 상태가 "아니오"이면해당 이벤트를 무시하고, 이전의 상태가 "예"이면 장비 상태 관리자(400)에 요청하여 해당 장비의 현재 상태를 조회한 후, 상태가 다운이면 장치(노드 혹은 포트) 다운 이벤트를 생성하고, 상태가 정상이면 해당 이벤트를 무시한다.
(규칙15) SNMP-Get에 의하여 수집된 장치(노드 혹은 포트)의 상태가 다운인 경우, 이벤트 상관 관계 분석부(250)는 PING 관리부(700)에게 해당 포트 혹은 노드에 PING에 의해 도달 가능성을 검사하도록 요청하고, 그 결과가 도달 가능인 경우에는 해당 다운 이벤트 메시지를 무시하고, 그 결과가 도달 불가능인 경우에는 다운 메시지를 전송한다.
이와 같은 규칙에 따라, 이벤트 상관 관계 분석부(250)는 이벤트들간의 상관 관계를 분석하여 해당 이벤트에 대한 심각도를 할당하고, 이벤트 발생 근본 원인을 찾아 운용자가 쉽게 식별할 수 있는 새로운 이벤트를 생성하여 이벤트 통보부(260)에 보낸다.
그러면, 이벤트 통보부(260)는 발생된 이벤트를 이벤트 별로 해당 시스템에게 통보하는 역할을 수행한다.
이러한 이벤트 통보부(260)는 "시스템의 위치와 시스템 명"을 관리하여 이벤트 발생 시에 이를 필요로 하는 시스템에게 정확하게 이벤트를 전송한다.
그리고, 타 시스템 이외에 인터넷 망의 관리 운용부에게는 발생하는 모든 이벤트를 전송한다.
상기와 같은 장애 관리 시스템(100)을 이용하여 대규모 인터넷 망의 장애 관리가 가능하고, 이를 통해 안정적인 인터넷 서비스 제공이 가능하다.
상술된 바와 같이, 본 발명은 장치가 발생시키는 이벤트들을 빠짐없이 수신하고 수신된 이벤트들의 상관 관계를 분석하여 정확한 원인을 파악하고 그 결과에 따라 인터넷 서비스 제공에 지장을 초래하는 상황이 발생한 경우에는 즉각적인 조치를 취함으로써, 망 사업자 관점에서는 안정적인 인터넷 서비스 제공이 가능하고, 이러한 안정적인 인터넷 통신 서비스를 통해 서비스 품질 또한 높일 수 있는 효과가 있다.

Claims (14)

  1. 인터넷 망에 구성된 장치에 대한 장애를 관리하는 인터넷 망의 장애 관리 시스템에 있어서,
    상기 장치의 장애 정보와 이벤트에 대한 처리 규칙을 갖는 장애 관리 정책 저장부;
    상기 처리 규칙에 따라 상기 장치의 트랩 메시지를 전달하는 트랩 메시지 관리부;
    상기 처리 규칙에 따라 상기 장치의 상태를 수집하는 장비 상태 관리부;
    상기 처리 규칙에 따라 핑(Ping)을 이용하여 주기적으로 상기 인터넷 망에 속한 임의의 구간 및 임의의 상기 장치에 대한 도달 가능성을 관리하는 핑 관리부;
    상기 처리 규칙에 따라 상기 장치의 시스템 로그 데이터를 수집하는 시스템 로그 관리부; 및
    상기 트랩 메시지 관리부, 상기 장비 상태 관리부, 상기 핑 관리부 및 상기 시스템 로그 관리부로부터 각각 이벤트 메시지를 전달받아서, 이벤트 메시지간 상관 관계를 분석하는 이벤트 관리부를 구비하는 것을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  2. 제 1 항에 있어서,
    상기 장치는, SNMP 에이전트를 탑재하여 트랩 메시지를 제공하고, 상기 장치의 상태는 SNMP 프로토콜을 이용하여 제공됨을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  3. 제 1 항에 있어서,
    상기 이벤트 관리부는, 상기 각 이벤트 메시지를 큐로 처리함을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  4. 제 1 항에 있어서,
    상기 이벤트 관리부는, 중복된 이벤트의 필터링과 미리 정의된 불필요한 이벤트에 대한 필터링 중 최소한 하나 이상을 수행함을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  5. 제 1 항에 있어서,
    상기 이벤트 관리부는, 최소한 하나 이상의 이벤트 메시지에 대응하여 미리 정의된 다단계의 유형에 따른 심각도를 생성함을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  6. 제 5 항에 있어서,
    상기 이벤트 관리부는, 상기 상관 관계와 상기 심각도로서 해당 이벤트 메시지들에 의한 파급 효과 정보를 생성함을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  7. 제 1 항에 있어서,
    상기 이벤트 관리부는,
    상기 트랩 메시지 관리부, 상기 장비 상태 관리부, 상기 핑 관리부 및 상기 시스템 로그 관리부가 제공하는 각종 이벤트 메시지를 수신하여 각 부에 대응되는 개별 큐로 저장하는 저장 수단;
    상기 저장수단에 저장된 이벤트 메시지들을 읽어 중복된 이벤트를 1차 필터링하는 이벤트 중복 처리 수단;
    상기 1차 필터링된 이벤트 중 미리 정의된 불필요한 이벤트를 2차 필터링하는 이벤트 필터링 수단;
    상기 2차 필터링된 이벤트들 간의 상관 관계를 분석하는 이벤트 상관 관계 분석수단; 및
    상기 이벤트 상관 관계 분석수단의 결과를 해당 시스템에게 통보하는 이벤트 통보수단을 구비하는 것을 특징으로 하는 인터넷 망의 장애 관리 시스템.
  8. 인터넷 망에 구성된 장치의 장애에 대한 이벤트 메시지를 이용한 인터넷 망의 장애 관리 방법에 있어서,
    상기 장치의 장애 상태, 상기 장치의 상태, 상기 장치의 시스템 로그 메시지 및 핑을 이용한 장치에 대한 도달 가능성에 대한 정보를 각각 이벤트 메시지로 전달받아서 해당 큐에 저장하는 단계;
    상기 큐들에 저장된 이벤트 메시지들 간의 상관 관계를 분석하는 단계; 및
    분석된 결과를 통보하는 단계를 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
  9. 제 8 항에 있어서,
    최소한 하나 이상의 상기 이벤트 메시지에 대응하여 미리 정의된 다단계의 유형에 따른 심각도를 생성하는 단계를 더 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
  10. 제 9 항에 있어서,
    상기 상관 관계와 상기 심각도로서 해당 이벤트 메시지들에 의한 파급 효과 정보를 생성하는 단계를 더 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
  11. 인터넷 망에 구성된 장치의 장애에 대한 이벤트 메시지를 이용한 인터넷 망의 장애 관리 방법에 있어서,
    상기 장치의 장애 상태, 상기 장치의 상태, 상기 장치의 시스템 로그 메시지 및 핑을 이용한 장치에 대한 도달 가능성에 대한 정보를 각각 이벤트 메시지로 전달받아서 저장하는 단계;
    상기 이벤트 메시지들 중 중복된 이벤트의 필터링과 미리 정의된 불필요한이벤트에 대한 필터링 중 최소한 하나 이상의 필터링을 수행하는 단계;
    상기 필터링된 이벤트 메시지들의 상관 관계를 분석하는 단계; 및
    분석된 결과를 통보하는 단계를 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
  12. 제 11 항에 있어서,
    상기 중복된 이벤트의 필터링과 상기 미리 정의된 불필요한 이벤트에 대한 필터링이 순차적으로 이루어짐을 특징으로 하는 인터넷 망의 장애 관리 방법.
  13. 제 11 항에 있어서,
    최소한 하나 이상의 상기 이벤트 메시지에 대응하여 미리 정의된 다단계의 유형에 따른 심각도를 생성하는 단계를 더 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
  14. 제 13 항에 있어서,
    상기 상관 관계와 상기 심각도로서 해당 이벤트 메시지들에 의한 파급 효과 정보를 생성하는 단계를 더 구비함을 특징으로 하는 인터넷 망의 장애 관리 방법.
KR1020020036891A 2002-06-28 2002-06-28 인터넷 망의 장애 관리 시스템 및 그 방법 KR100887874B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020036891A KR100887874B1 (ko) 2002-06-28 2002-06-28 인터넷 망의 장애 관리 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020036891A KR100887874B1 (ko) 2002-06-28 2002-06-28 인터넷 망의 장애 관리 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040001627A true KR20040001627A (ko) 2004-01-07
KR100887874B1 KR100887874B1 (ko) 2009-03-06

Family

ID=37313374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020036891A KR100887874B1 (ko) 2002-06-28 2002-06-28 인터넷 망의 장애 관리 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100887874B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100500836B1 (ko) * 2002-09-30 2005-07-12 주식회사 케이티 매트로 이더넷망의 장애처리 장치 및 그 방법
KR100781211B1 (ko) * 2007-06-13 2007-11-30 주식회사 국민은행 은행 it 서비스 관리 방법 및 그 시스템
CN100399747C (zh) * 2005-03-17 2008-07-02 联想(北京)有限公司 一种计算机网络策略管理系统及策略管理方法
KR100921558B1 (ko) * 2008-10-23 2009-10-12 주식회사 케이티 Tcp/ip 네트워크 관리 시스템 및 방법
KR101043138B1 (ko) * 2004-02-02 2011-06-20 주식회사 케이티 상태 기반의 dslam 성능 데이터 수집 방법 및 장치
CN105991320A (zh) * 2015-02-05 2016-10-05 中兴通讯股份有限公司 无源光网络设备告警信息处理方法及光线路终端
KR20200070942A (ko) * 2018-12-10 2020-06-18 주식회사 케이티 트래픽 누수 자동 탐지 방법 및 그 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100285952B1 (ko) * 1997-12-29 2001-04-16 윤종용 비대칭가입자라인전송시스템의시스템유지보수장치
KR20000012947A (ko) * 1998-08-03 2000-03-06 김영환 티엠엔 시스템의 트러블 티켓팅 관리방법
KR20000045488A (ko) * 1998-12-30 2000-07-15 이계철 분산 처리 시스템의 장애 감시 및 그 제어방법
KR20000012194A (ko) * 1999-06-28 2000-03-06 김상배 통합관리시스템과보안시스템을통합하기위한시스템
KR100528792B1 (ko) * 1999-12-18 2005-11-15 주식회사 케이티 능동적 유지보수 서비스 제공을 위한 다중정보 처리 장치및 그 방법
KR20010060869A (ko) * 1999-12-28 2001-07-07 윤종용 통신시스템에서 운용자의 요구에 의한 이벤트 처리 방법
KR100797747B1 (ko) * 2001-09-29 2008-01-24 주식회사 케이티 네트웍의 이벤트 패턴 추출 시스템 및 그 방법과, 추출된패턴의 적용 결정 시스템 및 그 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100500836B1 (ko) * 2002-09-30 2005-07-12 주식회사 케이티 매트로 이더넷망의 장애처리 장치 및 그 방법
KR101043138B1 (ko) * 2004-02-02 2011-06-20 주식회사 케이티 상태 기반의 dslam 성능 데이터 수집 방법 및 장치
CN100399747C (zh) * 2005-03-17 2008-07-02 联想(北京)有限公司 一种计算机网络策略管理系统及策略管理方法
KR100781211B1 (ko) * 2007-06-13 2007-11-30 주식회사 국민은행 은행 it 서비스 관리 방법 및 그 시스템
KR100921558B1 (ko) * 2008-10-23 2009-10-12 주식회사 케이티 Tcp/ip 네트워크 관리 시스템 및 방법
CN105991320A (zh) * 2015-02-05 2016-10-05 中兴通讯股份有限公司 无源光网络设备告警信息处理方法及光线路终端
CN105991320B (zh) * 2015-02-05 2020-07-31 深圳市中兴通讯技术服务有限责任公司 无源光网络设备告警信息处理方法及光线路终端
KR20200070942A (ko) * 2018-12-10 2020-06-18 주식회사 케이티 트래픽 누수 자동 탐지 방법 및 그 장치

Also Published As

Publication number Publication date
KR100887874B1 (ko) 2009-03-06

Similar Documents

Publication Publication Date Title
CA2493525C (en) Method and apparatus for outage measurement
US7213179B2 (en) Automated and embedded software reliability measurement and classification in network elements
US7525422B2 (en) Method and system for providing alarm reporting in a managed network services environment
US6941367B2 (en) System for monitoring relevant events by comparing message relation key
EP1999890B1 (en) Automated network congestion and trouble locator and corrector
US20040006619A1 (en) Structure for event reporting in SNMP systems
KR100887874B1 (ko) 인터넷 망의 장애 관리 시스템 및 그 방법
US6931357B2 (en) Computer network monitoring with test data analysis
US20060072707A1 (en) Method and apparatus for determining impact of faults on network service
US7421493B1 (en) Orphaned network resource recovery through targeted audit and reconciliation
KR100964392B1 (ko) 망 관리에서의 장애 관리 시스템 및 그 방법
WO2022270766A1 (ko) 자동 패킷 분석 기반의 지능형 네트워크 관리 장치 및 그 방법
US7502447B2 (en) Call failure recording
KR100500836B1 (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
KR100608917B1 (ko) 분산 포워딩 구조 라우터의 장애 정보 관리방법
Song et al. Internet router outage measurement: An embedded approach
EP3474489B1 (en) A method and a system to enable a (re-)configuration of a telecommunications network
CN117081910A (zh) 一种防火墙的主备切换系统及其方法
CN115733726A (zh) 网络群障确定方法、装置、存储介质及电子装置
EP1257087B1 (en) Method and system for network monitoring
KR20050001123A (ko) 망 관리에서의 장애 관리 시스템 및 그 방법
KR100680998B1 (ko) 스위치에서의 자동 경보 제어 시스템, 장치 및 방법
CN115913883A (zh) 新型通信电路故障诊断装置及其方法
Ruan et al. Netlocator: An Active Failure Localization System in Telecom Carrier Network
KR20020076387A (ko) 인트라넷 보안관리시스템 및 보안관리방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee