KR102561702B1 - 시스템 장애 모니터링 방법 및 장치 - Google Patents

시스템 장애 모니터링 방법 및 장치 Download PDF

Info

Publication number
KR102561702B1
KR102561702B1 KR1020160032012A KR20160032012A KR102561702B1 KR 102561702 B1 KR102561702 B1 KR 102561702B1 KR 1020160032012 A KR1020160032012 A KR 1020160032012A KR 20160032012 A KR20160032012 A KR 20160032012A KR 102561702 B1 KR102561702 B1 KR 102561702B1
Authority
KR
South Korea
Prior art keywords
failure
monitoring
cause parameter
failure cause
parameter
Prior art date
Application number
KR1020160032012A
Other languages
English (en)
Other versions
KR20170108315A (ko
Inventor
손석호
원희선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160032012A priority Critical patent/KR102561702B1/ko
Publication of KR20170108315A publication Critical patent/KR20170108315A/ko
Application granted granted Critical
Publication of KR102561702B1 publication Critical patent/KR102561702B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)

Abstract

본 발명은 시스템 장애 모니터링 방법 및 장치에 관한 것이다. 본 발명에 따르면, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계를 포함하는 시스템 장애 모니터링 방법이 제공된다.

Description

시스템 장애 모니터링 방법 및 장치{METHOD AND APPARATUS FOR MONITORING FAULT OF SYSTEM}
본 발명은, 시스템 장애 모니터링 방법 및 장치에 관한 것이다.
시스템 장애 모니터링 장치는, 장애 원인을 파악하고 기록을 남기기 위하여 플랫폼에서는 각종 모니터링 데이터를 저장하여야 하며, 이 데이터의 량은 시간이 지남에 따라 기하급수적으로 늘어난다.
따라서, 모니터링 데이터의 저장 효율을 올리기 위한 방법이 필요하다.
본 발명은, 빅데이터 기반 장애 분석 시스템에서 모니터링 빅데이터의 저장 효율을 향상시키기 위해서, 장애 원인 분석 정보로서 가치가 있는 파라미터의 데이터를 동적으로 지정하는 것을 제공하는 것을 목적으로 한다.
본 발명은, 다중 모니터링 파라미터 별 차등 주기를 지정하는 것을 제공하는 것을 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계를 포함할 수 있다.
다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키는 것을 할 수 있다.
다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는 것을 할 수 있다.
다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키는 것을 할 수 있다.
다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.
다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.
다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는 것을 할 수 있다.
다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는 것을 할 수 있다.
다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 상기 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가하는 것을 할 수 있다.
다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 단계; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 단계;를 더 포함할 수 있다.
다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;를 더 포함할 수 있다.
일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정하는 단계; 상기 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색하는 단계; 상기 탐색한 장애 원인 파라미터에 기초하여 상기 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정하는 단계를 포함할 수 있다.
일실시예에 따른, 시스템 장애 모니터링 장치에 있어서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;를 포함할 수 있다.
다른 실시예에 따른, 시스템 장애 모니터링 장치는, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 메시지 생성부; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 메시지 전송부;를 더 포함할 수 있다.
다른 실시예에 따른, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 모니터링 데이터 수집부; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 장애 정보 분류부를 더 포함할 수 있다.
본 발명은, 빅데이터 플랫폼에서 분석 데이터를 저장하는데 있어서, 고정적으로 많은 데이터를 저장하는 것이 아니라, 장애 상관 관계에 따라 차등적으로 저장 속도를 조절할 수 있는 효과가 있다.
본 발명은, 장애와 관련이 있는 파라미터의 모니터링 데이터 저장량은 늘려서 장애 원인 분석 확률의 향상을 제공할 수 있다. 그러므로, 본 발명은, 장애와 주로 관련이 없는 파라미터의 모니터링 데이터 저장량은 줄여서 데이터 저장 효율을 향상시키는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.
도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.
도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.
도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.
도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.
도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.
먼저, 도 1을 참조하면, 데이터 분석 플랫폼 기반 장애 모니터링 데이터 저장 시스템으로서, 빅데이터 플랫폼을 이용하여 장애를 분석하는 시스템 장애 모니터링 장치(110)를 알 수 있다. 이때, 시스템 장애 모니터링 장치(110)는 분산 컴포넌트로서 모니터링 에이전트와 통신하여 시스템 1(131) 내지 시스템 N(132)의 장애를 모니터링할 수 있다. 이때, 모니터링 에이전트 각각은 매칭되는 시스템의 장애를 모니터링하고, 시스템 장애 모니터링 장치(110)로 시스템 장애 모니터링 장치(110)가 설정한 주기에 따라 모니터링한 장애 정보를 전송할 수 있다.
일실시예에 따르면, 빅데이터 기반 장애 분석 시스템으로서, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터를 특정 고정 주기로 데이터베이스(111)에 저장할 수 있다. 이때, 단순히 고정 주기로 저장되는 데이터는 장애 원인 분석 정보로써 가치가 없을 가능성이 높을 수 있으므로, 데이터 저장 효율을 향상 시키기 위하여 장애 원인 분석 정보로서 가치가 있는 데이터를 적응적으로 저장할 필요가 있다. 예를 들어, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터별 차등 주기를 지정할 수 있다.
또한, 일실시예에 따르면, 시스템 장애 모니터링 장치(110)는, 수신한 장애 정보를 데이터베이스(111)에 저장할 수 있으며, 모니터링 에이전트가 모니터링하는 주기 또는 시스템 장애 모니터링 장치(110)는 빅데이터 분석을 이용하여 모니터링하는 주기를 변경할 수 있으며, 모니터링 한 결과를 시스템 관리자 단말(120)로 전송할 수도 있다.
도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.
도 2를 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 구성될 수 있다.
단계(201)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 물론, 경우에 따라서, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.
단계(202)에서, 시스템 장애 모니터링 장치는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다.
구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다.
또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수 있다.
또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.
단계(203)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다.
구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 시스템 장애 모니터링 장치는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 생성한 메시지를 시스템 관리 단말로 전송할 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.
도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 이루어 질 수도 있다.
단계(301)에서, 시스템 장애 모니터링 장치는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다.
단계(302)에서, 시스템 장애 모니터링 장치는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다.
단계(303)에서, 시스템 장애 모니터링 장치는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수 있다.
도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.
도 4를 참조하면, 모니터링 빅데이터 저장 효율을 향상시킨 빅데이터 분석 플랫폼 기반 장애 분석 시스템으로서 시스템 장애 모니터링 장치(410)의 구성을 알 수 있다.
일실시예에 따르면, 시스템 장애를 빅데이터 플랫폼을 통해 분석하고 장애 관련 모니터링 데이터량을 적응적으로 경량화하여 데이터 저장 효율을 증강시키기 위하여, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 방식 및 플랫폼을 이용하여 많은 파라미터 및 데이터를 동시에 분석할 수 있다. 특히, 시스템에 장애가 발생하였을 경우, 시스템 장애 모니터링 장치(410)는, 장애 원인을 파악하기 위하여 빅데이터 분석을 이용할 수도 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 플랫폼으로서, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 이때, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)는, 메모리, 데이터송수신기, 메모리 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.
일실시예에 따르면, 시스템 장애 모니터링 장치(410)의 모니터링 데이터 수집 및 저장부(412)는, 시스템 1 내지 시스템 N 내에 분산된 컴포넌트들이 발생시키는 다중 모니터링 데이터를 모니터링 에이전트(421, 422, 423, 424)를 이용하여 수집 및 저장할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장치 이벤트 분류부(413)는, 장애 이벤트 확인할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장애 원인 파라미터 탐색부(414)는, 장애 원인을 분석할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 모니터링 주기 설정부(415)는, 장애 원인의 상관관계에 따라 모니터링 데이터의 수집 주기를 제어할 수도 있다.
도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 5를 참조하면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법으로서, 장애 모니터링 데이터 저장 주기를 제어하기 위한 알고리즘을 알 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법은 하기와 같은 단계를 포함하여 이루어 질 수 있다.
먼저, 단계(511)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터를 각 컴포넌트의 모니터링 에이전트를 통해서 수집할 수 있다.
단계(512)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에서 장애 정보를 분류할 수 있다. 이때, 장애 정보는, 성능 저하, 에러 발생 로그 등이 될 수 있으나, 이에 한정되는 것은 아니다. 또한, 단계(513)에서, 시스템 장애 모니터링 장치는, 모든 모니터링 데이터를 저장할 수 있다.
단계(514)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견되지 않은 경우, 모니터링 데이터를 수집 하는 단계(511)로 돌아갈 수도 있다.
다음으로, 단계(515)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견된 경우, 장애 발생을 시스템 관리자에게 통보할 수 있다. 또한, 단계(516)에서, 시스템 장애 모니터링 장치는, 장애 원인을 분석할 수 있다.
단계(517)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터 발견하지 못한 경우, 단계(518)에서, 시스템 장애 모니터링 장치는, 전체 파라미터들(의 모니터링 주기를 기존 모니터링 주기인 에서 변경 후 모니터링 주기인 으로 모니터링 주기의 변화 크기 만큼 감소() 시켜서 차기에 장애 원인 분석 확률을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.
다음으로, 단계(519)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터를 발견한 경우, 우선 장애 예상 원인을 시스템 관리자에게 통보할 수 있다.
다음으로, 단계(520)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터들의 모니터링 주기를 감소() 시켜서, 주요 장애 원인으로 모니터링 관심도를 높일 수 있다. 또한, 단계(521)에서, 시스템 장애 모니터링 장치는, 장애 원인이 아닌 파라미터들의 모니터링 주기를 증가()시켜서 모니터링 데이터 저장량을 감소시켜서 저장 효율을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.
이때, 모니터링 파라미터 의 모니터링 주기의 변화 크기 는 시스템 관리자의 정책에 따라서 가변 수치 또는 고정 수치로 지정될 수 있다. 예를 들어, 가 가변 수치로 지정되는 경우에는 파라미터의 중요도에 따라서 모니터링 주기의 변화 폭이 조정될 수 있다. 또한, 의 중요도에 따른 의 지정 값은 와 장애를 일으킨 파라미터인 와의 상관 관계 변화 크기인 의 곱으로 연산될 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 주기를 감소시키는 경우 으로 모니터링 주기의 변경 주기를 결정하고, 모니터링 주기를 증가시키는 경우 으로 모니터링 주기의 변경 주기를 결정할 수 있다. 이때, 는 지속적으로 변화하는 값이므로, 또한 유동적으로 변화될 수 있다. 또한, 를 고정 수치로 지정하는 경우 는 상수로 설정될 수 있다. 예를 들어 가 2로 지정되는 경우, 변경 후 모니터링 주기는 이 되고 모니터링 주기는 점진적으로 변경될 수 있다.
도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.
도 6을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 장애 분석 방식을 알 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 장애를 일으킨 파라미터인 Pe의 데이터와 이외의 모든 다중 파라미터들인 Pk의 데이터를 모두 상관 관계 분석할 수 있다. 이때, 시스템 장애 모니터링 장치는, 상관 관계 분석을 통해서 시간당 상관계수(-1 <= <= 1)를 계산할 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 시점 이전의 지정된 분석 윈도우 내에서 상관 관계 변화 크기 계산식으로서 하기 수학식 1을 이용하여 상관 관계 변화 크기인 를 계산할 수 있다. 이때, 수학식 1에서 는 윈도우 내의 상관계수 최대값, 는 윈도우 내의 상관계수 최소값을 나타낼 수 있다.
도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.
도 7을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 상관 관계 변화 비교 방식을 알 수 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 파라미터와의 상관 관계 변화 크기가 설정된 임계치를 넘으면, 장애 원인으로 예상할 수 있다. 이때, 임계치는 시스템 관리자에 의해 지정될 수도 있으나, 이에 한정되는 것은 아니다. 예를 들어, 임계치가 0.5일 경우, 0.5이상인 파라미터는 장애 원인으로 예상될 수 있다. 또한, 예를 들어, 임계치가 0.4일 경우, 0.4 초과인 파라미터는 장애 원인으로 예상될 수도 있다.
도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.
도 8을 참조하면, 시스템 장애 모니터링 장치(800)는, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)를 포함하여 구성될 수 있다. 이때, 시스템 장애 모니터링 장치(800)는, 서버와 같은 컴퓨팅 디바이스일 수 있다. 또한, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.
장애 발생 여부 결정부(810)는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 또한, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.
장애 원인 파라미터 탐색부(820)는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다. 예를 들어, 장애 원인 파라미터 탐색부(820)는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 경우에 따라서, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수도 있다.
일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수도 있다.
또한, 일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.
모니터링 주기 설정부(830)는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다. 예를 들면, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 모니터링 주기 설정부(830)는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 경우에 따라서, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수도 있다.
일실시예에 따르면, 시스템 장애 모니터링 장치는, 메시지 생성부, 메시지 전송부를 더 포함하여 구성될 수 있다. 이때, 메시지 생성부, 메시지 전송부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 메시지 생성부는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 메시지 전송부는, 생성한 메시지를 시스템 관리 단말로 전송할 수도 있다.
또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 데이터 수집부, 장애 정보 분류부를 더 포함하여 구성될 수도 있다. 이때, 모니터링 데이터 수집부, 장애 정보 분류부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 모니터링 데이터 수집부는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 장애 정보 분류부는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.
또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 경우에 따라서, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부를 포함하여 구성될 수도 있다. 이때, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 장애 원인 결정부는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다. 다음으로, 장애 원인 파라미터 탐색부는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다. 다음으로, 모니터링 주기 설정부는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수도 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 청구범위뿐 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (15)

  1. 시스템 장애 모니터링 방법에 있어서,
    모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계;
    상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계;
    상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계
    를 포함하고,
    상기 모니터링 주기를 조정하는 단계는,
    상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키고,
    상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키고, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는,
    시스템 장애 모니터링 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 장애 원인 파라미터를 탐색하는 단계는,
    상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
  6. 제1항에 있어서,
    상기 장애 원인 파라미터를 탐색하는 단계는,
    상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
  7. 제1항에 있어서,
    상기 장애 원인 파라미터를 탐색하는 단계는,
    분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
  8. 제7항에 있어서,
    상기 장애 원인 파라미터를 탐색하는 단계는,
    상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는, 시스템 장애 모니터링 방법.
  9. 제1항에 있어서,
    모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및
    상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;
    를 더 포함하는, 시스템 장애 모니터링 방법.
  10. 시스템 장애 모니터링 장치에 있어서,
    모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부;
    상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부;
    상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;
    를 포함하고,
    상기 모니터링 주기 설정부는,
    상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키고,
    상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키고, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는,
    시스템 장애 모니터링 장치.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1020160032012A 2016-03-17 2016-03-17 시스템 장애 모니터링 방법 및 장치 KR102561702B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160032012A KR102561702B1 (ko) 2016-03-17 2016-03-17 시스템 장애 모니터링 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160032012A KR102561702B1 (ko) 2016-03-17 2016-03-17 시스템 장애 모니터링 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170108315A KR20170108315A (ko) 2017-09-27
KR102561702B1 true KR102561702B1 (ko) 2023-08-01

Family

ID=60036238

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160032012A KR102561702B1 (ko) 2016-03-17 2016-03-17 시스템 장애 모니터링 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102561702B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230073632A (ko) * 2021-11-19 2023-05-26 에스케이 주식회사 Ai 모델 드리프트 모니터링 장치 및 방법
KR102519073B1 (ko) * 2022-12-30 2023-04-06 주식회사 에스티씨랩 디지털 서비스 기반 트래픽 오케스트레이션을 위한 진입 관리 서버, 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018120A (ja) 2003-06-23 2005-01-20 Hitachi Software Eng Co Ltd ネットワーク管理システムにおける機器情報の収集方法
JP2013161305A (ja) 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496958B1 (ko) * 2001-12-28 2005-06-27 삼성에스디에스 주식회사 시스템 장애 통합관리방법
KR100840129B1 (ko) * 2006-11-16 2008-06-20 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
KR102117637B1 (ko) * 2013-10-01 2020-06-01 삼성에스디에스 주식회사 데이터 전처리 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018120A (ja) 2003-06-23 2005-01-20 Hitachi Software Eng Co Ltd ネットワーク管理システムにおける機器情報の収集方法
JP2013161305A (ja) 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム

Also Published As

Publication number Publication date
KR20170108315A (ko) 2017-09-27

Similar Documents

Publication Publication Date Title
CN109831465B (zh) 一种基于大数据日志分析的网站入侵检测方法
CN111212038B (zh) 基于大数据人工智能的开放数据api网关系统
US8800036B2 (en) Method and system for adaptive anomaly-based intrusion detection
US20160219067A1 (en) Method of detecting anomalies suspected of attack, based on time series statistics
US10243981B2 (en) Bot detection based on divergence and variance
US11561954B2 (en) Method and system to estimate the cardinality of sets and set operation results from single and multiple HyperLogLog sketches
CN111092852A (zh) 基于大数据的网络安全监控方法、装置、设备及存储介质
US8593946B2 (en) Congestion control using application slowdown
US20140351361A1 (en) Deployment of an upgrade to a storage system based on correlation analysis of measurements of the storage system
US20180077181A1 (en) Bot detection based on behavior analytics
JP6564799B2 (ja) 閾値決定装置、閾値決定方法及びプログラム
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
US11343267B2 (en) Threat monitor, threat monitoring method, and recording medium therefore
CN112839017B (zh) 一种网络攻击检测方法及其装置、设备和存储介质
US20200250475A1 (en) Anomaly factor estimation device, anomaly factor estimation method, and storage medium
CN111787002B (zh) 一种业务数据网络安全分析的方法及系统
KR102561702B1 (ko) 시스템 장애 모니터링 방법 및 장치
CN115086060A (zh) 一种流量检测方法、装置、设备及可读存储介质
CN111147300B (zh) 一种网络安全告警置信度评估方法及装置
US10742535B2 (en) Monitoring a resource consumption of an application
CN115580448A (zh) 工控网络恶意代码检测方法、系统、设备及存储介质
US10733514B1 (en) Methods and apparatus for multi-site time series data analysis
CN108989083B (zh) 云环境下基于混合策略的故障检测性能优化方法
CN111885011B (zh) 一种业务数据网络安全分析挖掘的方法及系统
CN111865899B (zh) 威胁驱动的协同采集方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant