KR101326451B1 - 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버 - Google Patents

복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버 Download PDF

Info

Publication number
KR101326451B1
KR101326451B1 KR1020120012424A KR20120012424A KR101326451B1 KR 101326451 B1 KR101326451 B1 KR 101326451B1 KR 1020120012424 A KR1020120012424 A KR 1020120012424A KR 20120012424 A KR20120012424 A KR 20120012424A KR 101326451 B1 KR101326451 B1 KR 101326451B1
Authority
KR
South Korea
Prior art keywords
failure
condition
established
failure condition
processes
Prior art date
Application number
KR1020120012424A
Other languages
English (en)
Other versions
KR20130091130A (ko
Inventor
고진원
주기돈
허태명
Original Assignee
에스케이씨앤씨 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이씨앤씨 주식회사 filed Critical 에스케이씨앤씨 주식회사
Priority to KR1020120012424A priority Critical patent/KR101326451B1/ko
Publication of KR20130091130A publication Critical patent/KR20130091130A/ko
Application granted granted Critical
Publication of KR101326451B1 publication Critical patent/KR101326451B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법이 제공된다. 본 발명의 실시예에 따른 시스템 장애 모니터링 방법은, 시스템에 대한 제1 장애 조건이 성립하면 시스템에 대한 제2 장애 조건이 성립하는지 판단하고, 제2 장애 조건이 성립하면 장애 발생 사실을 시스템의 관리자에 안내한다. 이에 의해, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단할 수 있게 되어, 시스템 장애를 보다 효과적으로 모니터링할 수 있게 된다.

Description

복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버{MONITORING METHOD FOR ESTIMATING SYSTEM FAILURE WITH MULTIPLE FAILURE CONDITION AND MONITORING SERVER USING THE SAME}
본 발명은 시스템 장애 모니터링 방법 및 서버에 관한 것으로, 더욱 상세하게는 DB, 서버 등과 같은 시스템에 장애 발생 여부를 판단하여 관리자에 안내하는 시스템 장애 모니터링 방법 및 서버에 관한 것이다.
안정화된 시스템 운영을 위해, 시스템에 장애 발생 여부를 자동으로 모니터링하는 기법이 널리 이용되고 있다. 시스템의 장애 발생 여부는, 시스템의 상태가 기정해진 장애 조건에 해당하는지 여부를 판단하는 방법에 의해 수행된다.
하지만, 복잡화된 시스템의 상태가 단순히 장애 조건에 해당하는지 여부만을 가지고 장애 발생 여부를 판단하기 때문에 잘못된 판단이 빈번한데, 이는 시스템 관리자를 번거롭게 만드는 요인이다.
또한, 시스템 장애 발생이 감지된다 하더라도, 시스템 관리자가 장애 원인을 파악하여 조치하기까지 많은 시간이 소요된다. 이 과정을 도 1에 나타내었다.
도 1에 도시된 바에 따르면, 문자 메세지를 통해 시스템 장애를 인지한 시스템 관리자가 시스템에 접속하여 문제 발생 시간을 확인하고, 성능 이력 데이터를 확인 분석한 후에야, 문제점 파악과 해결 방안 도출이 이루어짐을 알 수 있다.
특히, 문제점 파악과 해결 방안 도출 전에 수행하여야 하는, 문제 발생 시간 확인과 성능 이력 데이터 확인/분석에 많은 시간이 소요되는데, 이로 인해 적시에 시스템 장애를 해소시키지 못하여 사고로 이어지기도 한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 보다 신속하면서도 효과적으로 시스템 장애를 감지하여 조치하기 위한 방안으로, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 시스템에 대한 제1 장애 조건이 성립하는지 판단하는 단계; 상기 제1 장애 조건이 성립하면, 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하는 단계; 및 상기 제2 장애 조건이 성립하면, 장애 발생 사실을 상기 시스템의 관리자에 안내하는 단계;를 포함한다.
그리고, 상기 제1 장애 조건은, 상기 시스템에 마련된 제1 하드웨어의 사용상태에 대한 조건일 수 있다.
또한, 상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건 및 상기 시스템에 장애 이벤트 발생 여부 중 어느 하나일 수 있다.
그리고, 상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건이고, 상기 제1 하드웨어는, CPU(Central Processing Unit) 및 메모리 중 어느 하나이며, 상기 제2 하드웨어는, CPU 및 메모리 중 다른 하나일 수 있다.
또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하는 단계;를 더 포함할 수 있다.
그리고, 상기 프로세스들은, 상기 시스템에서 실행되었던 프로세스들 중 시스템 점유 순위 또는 점유율이 설정치 이상인 프로세스들일 수 있다.
또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 단계;를 더 포함할 수 있다.
그리고, 상기 시스템은, DB(DataBase) 시스템이고, 상기 프로세스들의 실행 관련 정보는, SQL(Structured Query Language), 실행계획 및 성능 데이터 중 적어도 하나를 포함할 수 있다.
또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 프로세스들의 실행 관련 정보를 상기 시스템의 관리자에 제공하는 단계;를 더 포함할 수 있다.
그리고, 상기 안내단계에서 장애 발생 사실을 안내하는 매체와, 상기 제공단계에서 상기 프로세스들의 실행 관련 정보를 제공하는 매체는 상이할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 시스템 장애 모니터링 서버는, 시스템 및 단말과 통신가능하도록 연결되는 통신부; 및 상기 통신부에 연결된 상기 시스템에 대한 제1 장애 조건이 성립하는지 판단하고, 상기 제1 장애 조건이 성립하면 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하며, 상기 제2 장애 조건이 성립하면 장애 발생 사실을 상기 통신부를 통해 상기 단말에 통보하는 제어부;를 포함한다.
이상 설명한 바와 같이, 본 발명에 따르면, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단할 수 있게 되어, 시스템 장애를 보다 효과적으로 모니터링할 수 있게 된다.
또한, 복합적인 장애 조건들에 기반하여 장애 발생 원인과 관련 있는 프로세스 정보들을 효과적으로 추출하여 제공하기 때문에, 시스템 관리자에 의한 장애 복구 조치에 소요되는 시간을 획기적으로 줄일 수 있게 됨은 물론, 장애 예방에도 기여할 수 있게 된다.
도 1은 시스템 장애 발생이 감지된 후에 시스템 관리자에 의한 장애 조치 과정의 설명에 제공되는 도면,
도 2는 본 발명이 적용가능한 리소스 장애 모니터링 시스템을 도시한 도면,
도 3은 DB 시스템 장애 모니터링 방법의 설명에 제공되는 흐름도,
도 4는, 도 3의 S370단계에서 관리자 단말에 발송되는 전자 메일의 내용을 예시한 도면, 그리고,
도 5는, 도 2에 도시된 장애 모니터링 서버의 상세 블럭도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 2는 본 발명이 적용가능한 리소스 장애 모니터링 시스템을 도시하였다. 도 2에 도시된 리소스 장애 모니터링 시스템은 오라클R DB(DataBase) 시스템들(10-1, 10-2, ... , 10-n), 장애 모니터링 서버(100) 및 관리자 단말(200)을 포함하여 구축된다.
오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에는 에이전트들(15-1, 15-2, ... , 15-n)이 각각 설치되어, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 마련된 리소스에 대한 사용 상태와 장애 이벤트를 수집한다.
장애 모니터링 서버(100)는 에이전트들(15-1, 15-2, ... , 15-n)이 수집한 리소스에 대한 사용 상태와 장애 이벤트를 수신하여, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 장애가 발생하였는지 모니터링한다. 장애 발생 모니터링은, 다수의 장애 발생 조건들을 복합적으로 연계 적용하여 수행하는데, 이에 대한 상세한 설명은 도 3을 참조하여 후술한다.
장애가 발생한 것으로 판단되면, 장애 모니터링 서버(100)는 관리자가 휴대/이용하는 관리자 단말(200)에 장애 발생 사실을 통보하여 관리자에게 이를 안내한다.
또한, 장애 발생시, 장애 모니터링 서버(100)는 에이전트들(15-1, 15-2, ... , 15-n)에 장애 관련 상세 정보들을 요청/수신하여 관리자 단말(200)에 제공한다.
이하에서, 도 2에 도시된 장애 모니터링 서버(100)가 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 대한 장애를 모니터링하여 관리자에 안내하는 과정에 대해, 도 3을 참조하여 상세히 설명한다.
도 3은 DB 시스템 장애 모니터링 방법의 설명에 제공되는 흐름도이다. 도 3에는 도시와 설명의 편의를 위해, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)과 에이전트들(15-1, 15-2, ... , 15-n)을 오라클 DB 시스템(10)과 에이전트(15) 하나로 대표하여 도시하였음에 유념하여야 한다.
도 3에 도시된 바와 같이, 에이전트(15)가 오라클 DB 시스템(10)의 CPU(Central Processing Unit) 사용율을 장애 모니터링 서버(100)에 전송한다(S305). S305단계에서의 CPU 사용율 전송은 주기적으로 수행된다.
장애 모니터링 서버(100)는 S305단계를 통해 주기적으로 수신되는 CPU 사용율을 기초로, 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단한다. 구체적으로, 장애 모니터링 서버(100)는 오라클 DB 시스템(10)의 CPU 사용율이 70%를 3회 이상 초과하였는지 모니터링한다(S310).
CPU 사용율이 70%를 3회 이상 초과하였는지 여부는, 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단하기 위한 1차 장애 조건에 해당한다.
S310단계에서의 모니터링 결과, CPU 사용율이 70%를 3회 이상 초과하게 되면(S310-Y), 장애 모니터링 서버(100)는 오라클 DB 시스템(10)에서 실행중인 프로세스들 중 CPU 사용율 상위 10개의 프로세스들에 대한 정보를 에이전트(15)에 요청하고, 수신하여 저장한다(S315, S320 및 S325).
CPU 사용율 상위 10개 프로세스들은 CPU 사용 순위가 상위 10개인 프로세스들로 이해하여도 무방하다.
그리고, 장애 모니터링 서버(100)는, 에이전트(15)에 오라클 DB 시스템(10)의 OWI(Oracle Wait Interface) 정보들을 수집 요청하여(S330), 에이전트(15)로부터 수신되는 OWI 정보들을 OWI 히스토리 테이블에 저장한다(S335 및 S340). OWI 정보는 오라클 DB 시스템(10)에서 발생한 대기 이벤트에 대한 정보를 말한다.
이후, 장애 모니터링 서버(100)는 S340단계에서 OWI 히스토리 테이블에 수록된 OWI 정보들과 장애 OWI 테이블에 수록된 OWI 정보들을 비교한다(S345). 장애 OWI 테이블은 오라클 DB 시스템(10)의 장애 발생으로 취급할 수 있는 OWI 정보들(예를 들어, buffer busy waits, db file scattered read, db file sequential read 등)이 수록되어 있는 테이블이다.
OWI 히스토리 테이블에 수록된 OWI 정보들이 장애 OWI 테이블에 수록되어 있는지 여부는, 오라클 DB 시스템(10)의 장애 발생 여부를 2차적으로 판단하기 위한 2차 장애 조건에 해당한다.
OWI 히스토리 테이블과 장애 OWI 테이블에 일치하는 OWI 정보가 있으면(S345-Y), 장애 모니터링 서버(100)는 오라클 DB 시스템(10)의 장애 발생 사실이 수록된 SMS(Short Message Service) 메세지를 관리자 단말(200)에 발송하여, 오라클 DB 시스템(10)의 관리자에 안내한다(S350).
한편, 장애 모니터링 서버(100)는 'S325단계에서 저장된 오라클 DB 시스템(10)의 CPU 사용율 상위 10개 프로세스들의 SQL(Structured Query Language), 실행계획, 성능 데이터'를 에이전트(15)에 수집 요청하여 수신받아 저장한다(S355, S360 및 S365).
요청하여 수신받아 저장하는 SQL, 실행계획, 성능 데이터들은, CPU 사용율이 70%를 3회 이상 초과하게 된 시점에 오라클 DB 시스템(10)에서 실행되었던 CPU 사용율 상위 10개 프로세스들의 실행 관련 정보들이다.
장애 모니터링 서버(100)는 S365단계에서 저장된 상위 10개 프로세스들의 SQL, 실행계획, 성능 데이터를 관리자 단말(200)에 전자 메일로 발송하여, 오라클 DB 시스템(10)의 관리자에 제공한다(S370).
도 4는 S370단계에서 관리자 단말(200)에 발송되는 전자 메일의 내용을 예시한 도면이다. 도 4에는 특정 프로세스 1개에 대한 SQL, 실행계획, 성능 데이터가 수록된 전자 메일을 예시하였는데, 이는 도시와 예시의 편의를 위한 것으로, 도 3의 S370단계에서 발송되는 전자 메일에는 10개 프로세스들에 대한 SQL, 실행계획, 성능 데이터가 수록됨에 유념하여야 한다.
지금까지, 장애 모니터링 서버(100)에 의한 DB 시스템 장애 모니터링 과정에 대해, 도 3을 참조하여 상세히 설명하였다. 도 3에 도시된 바와 같이, DB 시스템 장애 모니터링은, S310단계에서 1차 장애 조건으로 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단하고, S345단계에서 2차 장애 조건으로 오라클 DB 시스템(10)의 장애 발생 여부를 2차적으로 판단하는, 복합 장애 조건을 이용한 장애 판단 방식을 채택하고 있다.
위 실시예에서, 1차 장애 조건은 오라클 DB 시스템(10)의 CPU 사용율에 대한 조건이고, 2차 장애 조건은 오라클 DB 시스템(10)의 장애 이벤트 발생 여부인 것을 상정하였다.
이에 따르면, 1차 장애 조건은 시스템의 하드웨어 상태에 기인한 조건이고, 2차 장애 조건은 시스템에 발생된 이벤트에 기인한 조건인데, 이는 설명의 편의를 위한 것으로 다르게 변형이 가능하다.
예를 들어, 1차 장애 조건은 오라클 DB 시스템(10)의 CPU 사용율에 대한 조건이고, 2차 장애 조건은 오라클 DB 시스템(10)의 메모리 사용율에 대한 조건으로 변형하는 것이 가능하다. 구체적으로, 2차 장애 조건은 오라클 DB 시스템(10)의 메모리 사용율이 50%를 초과하는지 여부로 설정가능하다.
이는, 1차 장애 조건과 2차 장애 조건을 모두 시스템의 하드웨어 상태에 기인한 조건들로 설정한 경우인데, 이 역시 일 예에 불과하므로 다르게 변형가능하다. 1차 장애 조건과 2차 장애 조건을 모두 시스템에서 발생된 이벤트에 기인한 조건들로 설정하는 것이 가능함은 물론, 1차 장애 조건은 시스템에서 발생된 이벤트에 기인한 조건으로 2차 장애 조건을 모두 시스템의 하드웨어 상태에 기인한 조건으로 변형가능하다.
그리고, CPU와 메모리 이외의 다른 하드웨어 상태를 장애 조건으로 설정할 수 있음은 물론, 하드웨어가 아닌 다른 리소스(예를 들면, Operating System, Management System 등)의 상태를 장애 조건으로 설정할 수도 있고, OWI 이외의 다른 이벤트 발생 여부를 장애 조건으로 설정할 수도 있다.
한편, 위 실시예에서 오라클 DB 시스템(10)의 장애 발생 사실은 관리자 단말(200)에 SMS 메세지로 발송하여 안내하고, 오라클 DB 시스템(10)의 상위 10개 프로세스들의 실행 관련 정보들(SQL, 실행계획, 성능 데이터)은 관리자 단말(200)에 전자 메일로 발송하여, 양자를 각기 다른 매체를 통해 제공하는 것으로 상정하였다. 발송 매체는 SMS 메세지와 전자 메일 이외의 다른 것을 이용하여도 무방하다. 2개의 매체를 통한 발송이 불가능한 경우라면, 1개의 매체로 발송하는 것도 가능하다.
또한, 위 실시예에서 상정한 오라클 DB 시스템(10)은 DB 시스템의 일 예에 해당하는 것으로 다른 종류의 DB 시스템으로 대체될 수 있음은 물론이다. 그리고, 본 발명의 기술적 사상은 DB 시스템 이외의 다른 시스템에 대한 장애를 모니터링하는 경우에도 적용될 있다.
아울러, 본 발명의 기술적 사상은, 위 실시예에서와 같이 장애 조건들이 2개인 경우는 물론이며, 3개 이상의 장애 조건들이 복합적으로 이용되는 경우에도 적용될 수 있다.
도 2에 도시된 장애 모니터링 서버(100)의 상세 구성을 도 5에 도시하였다. 도 5는 장애 모니터링 서버(100)의 상세 블럭도이다. 도 5에 도시된 바와 같이, 장애 모니터링 서버(100)는 통신 인터페이스(110), 프로세서(120) 및 저장부(130)를 구비한다.
통신 인터페이스(110)는 오라클 DB 시스템들(10-1, 10-2, ... , 10-n) 및 관리자 단말(200)과 통신 연결을 설정하고 유지한다.
프로세서(120)는 통신 인터페이스(110)를 통해 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)로부터 수신되는 정보들을 이용하여, 도 3에 도시된 DB 시스템 장애 모니터링을 수행한다.
이 과정에서, 프로세서(120)는 수신 또는 생성되는 정보를 저장부(130)에 저장한다. 또한, DB 시스템 장애가 모니터링되면, 프로세서(120)는 통신 인터페이스(110)를 통해 관리자의 관리자 단말(200)에 장애 발생 사실과 장애 관련 정보를 전달한다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
10, 10-1, 10-2, ... , 10-n : 오라클 DB 시스템
15, 15-1, 15-2, ... , 15-n : 에이전트
100 : 장애 모니터링 서버 110 : 통신 인터페이스
120 : 프로세서 130 : 저장부
200 : 관리자 단말

Claims (12)

  1. 시스템에 대한 제1 장애 조건이 성립하는지 판단하는 단계;
    상기 제1 장애 조건이 성립하면, 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하는 단계; 및
    상기 제2 장애 조건이 성립하면, 장애 발생 사실을 상기 시스템의 관리자에 안내하는 단계;를 포함하고,
    상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하는 단계; 및
    상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
  2. 제 1항에 있어서,
    상기 제1 장애 조건은,
    상기 시스템에 마련된 제1 하드웨어의 사용상태에 대한 조건인 것을 특징으로 하는 시스템 장애 모니터링 방법.
  3. 제 2항에 있어서,
    상기 제2 장애 조건은,
    상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건 및 상기 시스템에 장애 이벤트 발생 여부 중 어느 하나인 것을 특징으로 하는 시스템 장애 모니터링 방법.
  4. 제 3항에 있어서,
    상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건이고,
    상기 제1 하드웨어는, CPU(Central Processing Unit) 및 메모리 중 어느 하나이며,
    상기 제2 하드웨어는, CPU 및 메모리 중 다른 하나인 것을 특징으로 하는 시스템 장애 모니터링 방법.
  5. 삭제
  6. 제 1항에 있어서,
    상기 프로세스들은,
    상기 시스템에서 실행되었던 프로세스들 중 시스템 점유 순위 또는 점유율이 설정치 이상인 프로세스들인 것을 특징으로 하는 시스템 장애 모니터링 방법.
  7. 삭제
  8. 제 1항에 있어서,
    상기 시스템은, DB(DataBase) 시스템이고,
    상기 프로세스들의 실행 관련 정보는, SQL(Structured Query Language), 실행계획 및 성능 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
  9. 제 1항에 있어서,
    상기 프로세스들의 실행 관련 정보를 상기 시스템의 관리자에 제공하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
  10. 제 9항에 있어서,
    상기 안내단계에서 장애 발생 사실을 안내하는 매체와, 상기 제공단계에서 상기 프로세스들의 실행 관련 정보를 제공하는 매체는 상이한 것을 특징으로 하는 시스템 장애 모니터링 방법.
  11. 제 8항에 있어서,
    상기 DB 시스템의 OWI(Oracle Wait Interface) 정보들을 수집하여 상기 DB 시스템에 장애 이벤트 발생 여부를 판단하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
  12. 시스템 및 단말과 통신가능하도록 연결되는 통신부; 및
    상기 통신부에 연결된 상기 시스템에 대한 제1 장애 조건이 성립하는지 판단하고, 상기 제1 장애 조건이 성립하면 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하며, 상기 제2 장애 조건이 성립하면 장애 발생 사실을 상기 통신부를 통해 상기 단말에 통보하는 제어부;를 포함하고,
    상기 제어부는,
    상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하고,
    상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 것을 특징으로 하는 시스템 장애 모니터링 서버.
KR1020120012424A 2012-02-07 2012-02-07 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버 KR101326451B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120012424A KR101326451B1 (ko) 2012-02-07 2012-02-07 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120012424A KR101326451B1 (ko) 2012-02-07 2012-02-07 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버

Publications (2)

Publication Number Publication Date
KR20130091130A KR20130091130A (ko) 2013-08-16
KR101326451B1 true KR101326451B1 (ko) 2013-11-07

Family

ID=49216454

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120012424A KR101326451B1 (ko) 2012-02-07 2012-02-07 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버

Country Status (1)

Country Link
KR (1) KR101326451B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102227362B1 (ko) * 2019-05-30 2021-03-15 트럼피아 주식회사 문자 메시지 전송 시스템 및 그 제어 방법
CN116662059B (zh) * 2023-07-24 2023-10-24 上海爱可生信息技术股份有限公司 MySQL数据库CPU故障诊断及自愈方法及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030006661A (ko) * 2001-07-13 2003-01-23 인터컴 소프트웨어(주) 서버 장애 관리 방법 및 그 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030006661A (ko) * 2001-07-13 2003-01-23 인터컴 소프트웨어(주) 서버 장애 관리 방법 및 그 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
US11815988B2 (en) 2021-07-28 2023-11-14 Infranics America Corp. System that automatically responds to event alarms or failures in it management in real time and its operation method

Also Published As

Publication number Publication date
KR20130091130A (ko) 2013-08-16

Similar Documents

Publication Publication Date Title
KR101888029B1 (ko) 가상 머신 클러스터 모니터링 방법 및 모니터링 시스템
CN108039964B (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
WO2021008031A1 (zh) 基于微服务实现监控智能化的处理方法及电子装置
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US9483368B2 (en) Method, apparatus, and system for handling virtual machine internal fault
JPH08328880A (ja) 複数のアプリケーションプログラムを同時に実行できるオペレーティングシステムにおける計算機運転管理システム
CN102436404B (zh) 一种进程守护方法
EP2723017A1 (en) Method, apparatus and system for implementing distributed auto-incrementing counting
CN104750596A (zh) 一种告警信息处理方法及服务子系统
CN108234189B (zh) 一种告警数据处理方法和装置
CN110727508A (zh) 一种任务调度系统和调度方法
KR101326451B1 (ko) 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버
CN107729213B (zh) 一种后台任务监控方法及装置
JP2013222313A (ja) 障害連絡効率化システム
JP2017529797A (ja) 早期警戒情報データの処理方法及び装置
CN109726151B (zh) 用于管理输入输出栈的方法、设备和介质
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN110224872B (zh) 一种通信方法、装置及存储介质
CN111104266A (zh) 访问资源的分配方法、装置、存储介质和电子设备
CN115422010A (zh) 数据集群中的节点管理方法、装置及存储介质
CN110837428A (zh) 存储设备管理方法及装置
JP2020035297A (ja) 機器状態監視装置及びプログラム
CN113039751B (zh) 故障通知方法、装置及设备
JP6187021B2 (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
CN113342596A (zh) 一种设备指标的分布式监控方法、系统及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160921

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190926

Year of fee payment: 9