KR20170108315A - Method and apparatus for monitoring fault of system - Google Patents

Method and apparatus for monitoring fault of system Download PDF

Info

Publication number
KR20170108315A
KR20170108315A KR1020160032012A KR20160032012A KR20170108315A KR 20170108315 A KR20170108315 A KR 20170108315A KR 1020160032012 A KR1020160032012 A KR 1020160032012A KR 20160032012 A KR20160032012 A KR 20160032012A KR 20170108315 A KR20170108315 A KR 20170108315A
Authority
KR
South Korea
Prior art keywords
monitoring
failure cause
failure
parameter
fault
Prior art date
Application number
KR1020160032012A
Other languages
Korean (ko)
Other versions
KR102561702B1 (en
Inventor
손석호
원희선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160032012A priority Critical patent/KR102561702B1/en
Publication of KR20170108315A publication Critical patent/KR20170108315A/en
Application granted granted Critical
Publication of KR102561702B1 publication Critical patent/KR102561702B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • G06F17/30345
    • G06F17/30705
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)

Abstract

The present invention relates to a method and an apparatus for monitoring a fault of a system. According to the present invention, provided is the method for monitoring a fault of a system, which comprises the steps of: determining whether a fault of a system occurs based on monitoring data; searching a fault causative parameter when the fault of the system occurs; and adjusting a monitoring period on monitoring target parameters based on a search result of the fault causative parameter.

Description

시스템 장애 모니터링 방법 및 장치{METHOD AND APPARATUS FOR MONITORING FAULT OF SYSTEM}[0001] METHOD AND APPARATUS FOR MONITORING FAULT OF SYSTEM [

본 발명은, 시스템 장애 모니터링 방법 및 장치에 관한 것이다.The present invention relates to a system fault monitoring method and apparatus.

시스템 장애 모니터링 장치는, 장애 원인을 파악하고 기록을 남기기 위하여 플랫폼에서는 각종 모니터링 데이터를 저장하여야 하며, 이 데이터의 량은 시간이 지남에 따라 기하급수적으로 늘어난다.In order to identify the cause of the failure and to record the data, the system should store various monitoring data on the platform, and the amount of the data increases exponentially over time.

따라서, 모니터링 데이터의 저장 효율을 올리기 위한 방법이 필요하다.Therefore, a method for increasing the storage efficiency of the monitoring data is needed.

본 발명은, 빅데이터 기반 장애 분석 시스템에서 모니터링 빅데이터의 저장 효율을 향상시키기 위해서, 장애 원인 분석 정보로서 가치가 있는 파라미터의 데이터를 동적으로 지정하는 것을 제공하는 것을 목적으로 한다.An object of the present invention is to dynamically designate data of a parameter having a value as failure cause analysis information in order to improve storage efficiency of monitoring big data in a big data based failure analysis system.

본 발명은, 다중 모니터링 파라미터 별 차등 주기를 지정하는 것을 제공하는 것을 목적으로 한다.It is an object of the present invention to specify a differential period for each of multiple monitoring parameters.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.In order to accomplish the objects of the present invention as described above and achieve the characteristic effects of the present invention described below, the characteristic structure of the present invention is as follows.

일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계를 포함할 수 있다.According to one embodiment, a method for monitoring system faults, comprising: determining whether a system fails based on monitoring data; If it is determined that the system has failed, searching for a failure cause parameter; And adjusting the monitoring period for the monitored parameters based on the search result of the failure cause parameter.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키는 것을 할 수 있다.According to another embodiment, adjusting the monitoring period may reduce the monitoring period for the detected failure cause parameter if the failure cause parameter is found.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는 것을 할 수 있다.According to another embodiment, adjusting the monitoring period may increase the monitoring period for other monitored parameters except for the detected failure cause parameter.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키는 것을 할 수 있다.According to another embodiment, adjusting the monitoring period may reduce the monitoring period for the monitored parameters if the failure cause parameter is not found.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.According to another embodiment, the step of searching for the failure cause parameter may include calculating a correlation between the failure cause parameter and the monitoring target parameters, and searching the failure cause parameter based on the correlation .

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.According to another embodiment, the step of searching for the failure cause parameter may include calculating a correlation coefficient for the monitored parameters and searching for the failure cause parameter based on the correlation.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는 것을 할 수 있다.According to another embodiment, the step of searching for the failure cause parameter may be to search for a failure cause parameter based on the magnitude of the correlation change in the analysis window.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는 것을 할 수 있다.According to another embodiment, the step of searching for the failure cause parameter may be to calculate the magnitude of the change in the correlation based on the value of the correlation coefficient in the analysis window.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 상기 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가하는 것을 할 수 있다.According to another embodiment of the present invention, the step of searching for the failure cause parameter may include comparing a magnitude of a change in the correlation with the monitoring target parameters and a threshold value, and comparing the magnitude of the correlation with the monitoring target parameters, The target parameter can be added as a cause of failure.

다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 단계; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 단계;를 더 포함할 수 있다.According to another embodiment, there is provided a system fault monitoring method, comprising the steps of: generating a message relating to a monitored parameter of the added fault cause; And transmitting the generated message to the system management terminal.

다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;를 더 포함할 수 있다.According to another embodiment, a system fault monitoring method includes: collecting monitoring data using a monitoring agent; And classifying the fault information among the collected monitoring data.

일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정하는 단계; 상기 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색하는 단계; 상기 탐색한 장애 원인 파라미터에 기초하여 상기 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정하는 단계를 포함할 수 있다.According to an embodiment, there is provided a system fault monitoring method, comprising: determining a cause of a fault of a system fault that occurs when a fault occurs in the system; Searching for a failure cause parameter based on the determined failure cause; And differentially setting a monitoring period for the parameters of the system based on the searched fault cause parameter.

일실시예에 따른, 시스템 장애 모니터링 장치에 있어서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;를 포함할 수 있다.According to an embodiment, there is provided a system fault monitoring apparatus comprising: a fault occurrence determination unit that determines whether a system fault has occurred based on monitoring data; A parameter search unit for searching for a failure cause parameter if the failure of the system is determined to have occurred; And a monitoring period setting unit that adjusts a monitoring period for monitoring target parameters based on the search result of the failure cause parameter.

다른 실시예에 따른, 시스템 장애 모니터링 장치는, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 메시지 생성부; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 메시지 전송부;를 더 포함할 수 있다.According to another embodiment, the system fault monitoring apparatus may further include: a message generating unit for generating a message relating to the monitored parameter of the added fault cause; And a message transmission unit for transmitting the generated message to the system management terminal.

다른 실시예에 따른, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 모니터링 데이터 수집부; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 장애 정보 분류부를 더 포함할 수 있다.According to another embodiment, a system fault monitoring apparatus includes: a monitoring data collector for collecting monitoring data using a monitoring agent; And a fault information classifying unit for classifying fault information among the collected monitoring data.

본 발명은, 빅데이터 플랫폼에서 분석 데이터를 저장하는데 있어서, 고정적으로 많은 데이터를 저장하는 것이 아니라, 장애 상관 관계에 따라 차등적으로 저장 속도를 조절할 수 있는 효과가 있다.The present invention has the effect of controlling the storage rate differentially according to the fault correlation, rather than storing a lot of fixed data in storing analysis data in a big data platform.

본 발명은, 장애와 관련이 있는 파라미터의 모니터링 데이터 저장량은 늘려서 장애 원인 분석 확률의 향상을 제공할 수 있다. 그러므로, 본 발명은, 장애와 주로 관련이 없는 파라미터의 모니터링 데이터 저장량은 줄여서 데이터 저장 효율을 향상시키는 효과가 있다.The present invention can provide an enhancement of the failure cause analysis probability by increasing the monitoring data storage amount of the parameters related to the failure. Therefore, the present invention has the effect of improving the data storage efficiency by reducing the monitoring data storage amount of the parameters not mainly related to the failure.

도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.
도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.
도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.
도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.
도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.
도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.
1 is a conceptual diagram illustrating a system fault monitoring method according to an embodiment of the present invention.
2 is a block diagram of an embodiment of the present invention. This shows the flow of the system fault monitoring method.
3 is a flowchart illustrating a system fault monitoring method according to an embodiment of the present invention.
4 illustrates a system fault monitoring method according to an embodiment of the present invention.
5 is a flowchart illustrating a system fault monitoring method according to an embodiment of the present invention.
FIG. 6 is a graph showing a system fault monitoring method according to an embodiment of the present invention.
7 is a system fault monitoring method according to an embodiment of the present invention, which is a correlation change table.
8 is a block diagram illustrating a system fault monitoring apparatus according to an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.1 is a conceptual diagram illustrating a system fault monitoring method according to an embodiment of the present invention.

먼저, 도 1을 참조하면, 데이터 분석 플랫폼 기반 장애 모니터링 데이터 저장 시스템으로서, 빅데이터 플랫폼을 이용하여 장애를 분석하는 시스템 장애 모니터링 장치(110)를 알 수 있다. 이때, 시스템 장애 모니터링 장치(110)는 분산 컴포넌트로서 모니터링 에이전트와 통신하여 시스템 1(131) 내지 시스템 N(132)의 장애를 모니터링할 수 있다. 이때, 모니터링 에이전트 각각은 매칭되는 시스템의 장애를 모니터링하고, 시스템 장애 모니터링 장치(110)로 시스템 장애 모니터링 장치(110)가 설정한 주기에 따라 모니터링한 장애 정보를 전송할 수 있다. Referring to FIG. 1, a system failure monitoring apparatus 110 for analyzing faults using a big data platform can be known as a fault analysis monitoring system based on a data analysis platform. At this time, the system fault monitoring apparatus 110 can monitor the faults of the system 1 (131) to the system N (132) by communicating with the monitoring agent as a distributed component. At this time, each of the monitoring agents may monitor the fault of the matching system, and may transmit the fault information monitored by the system fault monitoring apparatus 110 according to the period set by the system fault monitoring apparatus 110.

일실시예에 따르면, 빅데이터 기반 장애 분석 시스템으로서, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터를 특정 고정 주기로 데이터베이스(111)에 저장할 수 있다. 이때, 단순히 고정 주기로 저장되는 데이터는 장애 원인 분석 정보로써 가치가 없을 가능성이 높을 수 있으므로, 데이터 저장 효율을 향상 시키기 위하여 장애 원인 분석 정보로서 가치가 있는 데이터를 적응적으로 저장할 필요가 있다. 예를 들어, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터별 차등 주기를 지정할 수 있다.According to one embodiment, as a big data-based fault analysis system, the system fault monitoring device 110 may store monitoring data in the database 111 at a specific fixed period. In this case, since data stored in a fixed period may be highly unlikely to be valuable as failure analysis information, it is necessary to adaptively store valuable data as failure analysis information in order to improve data storage efficiency. For example, the system fault monitoring apparatus 110 can specify a differential period for each monitoring data.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치(110)는, 수신한 장애 정보를 데이터베이스(111)에 저장할 수 있으며, 모니터링 에이전트가 모니터링하는 주기 또는 시스템 장애 모니터링 장치(110)는 빅데이터 분석을 이용하여 모니터링하는 주기를 변경할 수 있으며, 모니터링 한 결과를 시스템 관리자 단말(120)로 전송할 수도 있다.In addition, according to one embodiment, the system fault monitoring apparatus 110 may store the received fault information in the database 111, and the cycle or system fault monitoring apparatus 110 monitored by the monitoring agent may perform a big data analysis And can transmit the monitored result to the system administrator terminal 120. [0154] FIG.

도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.2 is a block diagram of an embodiment of the present invention. This shows the flow of the system fault monitoring method.

도 2를 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 구성될 수 있다.Referring to FIG. 2, the system fault monitoring method performed by the system fault monitoring apparatus may include the following steps.

단계(201)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 물론, 경우에 따라서, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.In step 201, the system fault monitoring apparatus may determine whether a system failure has occurred based on the monitoring data. At this time, the monitoring data may be stored in a database inside the system fault monitoring apparatus. Of course, in some cases, the monitoring data may be stored in a connected database outside the system fault monitoring device.

단계(202)에서, 시스템 장애 모니터링 장치는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다.In step 202, the system fault monitoring apparatus can search for a failure cause parameter if it is determined that a system failure has occurred.

구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다.Specifically, the system fault monitoring apparatus can calculate the correlation between the failure cause parameter and the monitoring target parameters, and search for the failure cause parameter based on the correlation. In addition, the system fault monitoring apparatus can calculate a correlation coefficient for the monitored parameters and search for the failure cause parameter based on the correlation.

또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수 있다.In addition, the system fault monitoring apparatus can search for the fault cause parameter based on the magnitude of the correlation change in the analysis window. Also, the system fault monitoring apparatus can calculate the magnitude of the correlation change based on the value of the correlation coefficient in the analysis window.

또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.The system fault monitoring apparatus may also compare the magnitude of the change in the correlation to the monitored parameters with the threshold value and add the monitored parameter corresponding to the magnitude of the change in the correlation that exceeds the threshold as a failure cause .

단계(203)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다.In step 203, the system fault monitoring device can adjust the monitoring period for the monitored parameters based on the search result of the failure cause parameter.

구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 시스템 장애 모니터링 장치는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수 있다.Specifically, the system fault monitoring apparatus can reduce the monitoring period for the detected failure cause parameter when the failure cause parameter is found. At this time, the system fault monitoring apparatus can increase the monitoring period for other monitoring target parameters except the detected failure cause parameter. In addition, the system fault monitoring apparatus can reduce the monitoring period for the monitoring target parameters when the failure cause parameter is not found.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 생성한 메시지를 시스템 관리 단말로 전송할 수 있다.According to one embodiment, the system fault monitoring apparatus can generate a message relating to the monitored parameter of the added fault cause. Next, the system fault monitoring apparatus can transmit the generated message to the system management terminal.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.According to one embodiment, the system fault monitoring device can collect monitoring data using a monitoring agent. Next, the system fault monitoring apparatus may classify the fault information among the collected monitoring data.

도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.3 is a flowchart illustrating a system fault monitoring method according to an embodiment of the present invention.

일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 이루어 질 수도 있다.According to one embodiment, a system fault monitoring method performed by the system fault monitoring apparatus may include the following steps.

단계(301)에서, 시스템 장애 모니터링 장치는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다.In step 301, the system fault monitoring device can determine the cause of the failure of the system failure that occurs if a failure occurs in the system.

단계(302)에서, 시스템 장애 모니터링 장치는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다.In step 302, the system fault monitoring apparatus can search for the fault cause parameter based on the determined fault cause.

단계(303)에서, 시스템 장애 모니터링 장치는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수 있다.In step 303, the system fault monitoring apparatus can differentially set a monitoring period for the parameters of the system based on the searched fault cause parameter.

도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.4 illustrates a system fault monitoring method according to an embodiment of the present invention.

도 4를 참조하면, 모니터링 빅데이터 저장 효율을 향상시킨 빅데이터 분석 플랫폼 기반 장애 분석 시스템으로서 시스템 장애 모니터링 장치(410)의 구성을 알 수 있다.Referring to FIG. 4, the configuration of the system failure monitoring apparatus 410 can be known as a failure analysis system based on a big data analysis platform that improves the monitoring big data storage efficiency.

일실시예에 따르면, 시스템 장애를 빅데이터 플랫폼을 통해 분석하고 장애 관련 모니터링 데이터량을 적응적으로 경량화하여 데이터 저장 효율을 증강시키기 위하여, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 방식 및 플랫폼을 이용하여 많은 파라미터 및 데이터를 동시에 분석할 수 있다. 특히, 시스템에 장애가 발생하였을 경우, 시스템 장애 모니터링 장치(410)는, 장애 원인을 파악하기 위하여 빅데이터 분석을 이용할 수도 있다.According to one embodiment, in order to analyze the system failure through the big data platform and to increase the data storage efficiency by adaptively lightening the amount of failure related monitoring data, the system failure monitoring apparatus 410 includes a big data analysis method and a platform Can analyze many parameters and data at the same time. In particular, when a system failure occurs, the system failure monitoring apparatus 410 may use a big data analysis to identify the cause of the failure.

일실시예에 따르면, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 플랫폼으로서, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 이때, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)는, 메모리, 데이터송수신기, 메모리 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.According to one embodiment, the system fault monitoring apparatus 410 includes a monitoring data storage 411, a monitoring data collection and storage unit 412, a device event classification unit 413, Unit 414, and a monitoring period setting unit 415. However, the present invention is not limited thereto. At this time, the monitoring data storage 411, the monitoring data collection and storage unit 412, the device event classification unit 413, the failure cause parameter searching unit 414, and the monitoring period setting unit 415, A memory, and a memory. However, the present invention is not limited thereto.

일실시예에 따르면, 시스템 장애 모니터링 장치(410)의 모니터링 데이터 수집 및 저장부(412)는, 시스템 1 내지 시스템 N 내에 분산된 컴포넌트들이 발생시키는 다중 모니터링 데이터를 모니터링 에이전트(421, 422, 423, 424)를 이용하여 수집 및 저장할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장치 이벤트 분류부(413)는, 장애 이벤트 확인할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장애 원인 파라미터 탐색부(414)는, 장애 원인을 분석할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 모니터링 주기 설정부(415)는, 장애 원인의 상관관계에 따라 모니터링 데이터의 수집 주기를 제어할 수도 있다.According to one embodiment, the monitoring data collection and storage unit 412 of the system fault monitoring apparatus 410 monitors multiple monitoring data generated by the components distributed in the system 1 to system N from the monitoring agents 421, 422, 423, 424). ≪ / RTI > Next, the device event classification unit 413 of the system fault monitoring apparatus 410 can confirm the fault event. Next, the failure cause parameter search unit 414 of the system failure monitoring apparatus 410 can analyze the cause of the failure. Next, the monitoring period setting unit 415 of the system fault monitoring apparatus 410 may control the collection period of the monitoring data according to the correlation of the failure cause.

도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다. 5 is a flowchart illustrating a system fault monitoring method according to an embodiment of the present invention.

도 5를 참조하면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법으로서, 장애 모니터링 데이터 저장 주기를 제어하기 위한 알고리즘을 알 수 있다.Referring to FIG. 5, as a system fault monitoring method performed by the system fault monitoring apparatus, an algorithm for controlling the fault monitoring data storage period can be known.

일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법은 하기와 같은 단계를 포함하여 이루어 질 수 있다.According to one embodiment, a system fault monitoring method performed by the system fault monitoring apparatus may include the following steps.

먼저, 단계(511)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터를 각 컴포넌트의 모니터링 에이전트를 통해서 수집할 수 있다.First, in step 511, the system fault monitoring apparatus can collect monitoring data through the monitoring agent of each component.

단계(512)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에서 장애 정보를 분류할 수 있다. 이때, 장애 정보는, 성능 저하, 에러 발생 로그 등이 될 수 있으나, 이에 한정되는 것은 아니다. 또한, 단계(513)에서, 시스템 장애 모니터링 장치는, 모든 모니터링 데이터를 저장할 수 있다.At step 512, the system fault monitoring device may classify fault information in the monitoring data. At this time, the failure information may be performance degradation, error occurrence log, and the like, but is not limited thereto. Also, at step 513, the system fault monitoring device may store all monitoring data.

단계(514)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견되지 않은 경우, 모니터링 데이터를 수집 하는 단계(511)로 돌아갈 수도 있다. In step 514, the system fault monitoring device may return to collecting monitoring data (step 511) if no faults are found in the system.

다음으로, 단계(515)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견된 경우, 장애 발생을 시스템 관리자에게 통보할 수 있다. 또한, 단계(516)에서, 시스템 장애 모니터링 장치는, 장애 원인을 분석할 수 있다.Next, in step 515, the system fault monitoring apparatus can notify the system administrator of the occurrence of a fault when a fault is detected in the system. Also, at step 516, the system fault monitoring device may analyze the cause of the fault.

단계(517)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터 발견하지 못한 경우, 단계(518)에서, 시스템 장애 모니터링 장치는, 전체 파라미터들(

Figure pat00001
의 모니터링 주기를 기존 모니터링 주기인
Figure pat00002
에서 변경 후 모니터링 주기인
Figure pat00003
으로 모니터링 주기의 변화 크기
Figure pat00004
만큼 감소(
Figure pat00005
) 시켜서 차기에 장애 원인 분석 확률을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.If, in step 517, the system fault monitoring device fails to find a fault cause parameter, then in step 518, the system fault monitoring device determines whether all parameters
Figure pat00001
The monitoring cycle of
Figure pat00002
In the monitoring cycle after the change
Figure pat00003
Changes in Monitoring Cycle by Size
Figure pat00004
Decrease by
Figure pat00005
), It is possible to improve the probability of analyzing the cause of failure at the next time. The system fault monitoring device may also return to collecting monitoring data (step 511).

다음으로, 단계(519)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터를 발견한 경우, 우선 장애 예상 원인을 시스템 관리자에게 통보할 수 있다.Next, in step 519, when the system failure monitoring device finds the failure cause parameter, it first notifies the system administrator of the failure cause.

다음으로, 단계(520)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터들의 모니터링 주기를 감소(

Figure pat00006
) 시켜서, 주요 장애 원인으로 모니터링 관심도를 높일 수 있다. 또한, 단계(521)에서, 시스템 장애 모니터링 장치는, 장애 원인이 아닌 파라미터들의 모니터링 주기를 증가(
Figure pat00007
)시켜서 모니터링 데이터 저장량을 감소시켜서 저장 효율을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.Next, in step 520, the system fault monitoring apparatus reduces the monitoring period of the failure cause parameters (step < RTI ID = 0.0 >
Figure pat00006
) To increase monitoring interest as a major cause of disability. Also, at step 521, the system fault monitoring device may increase the monitoring period of parameters that are not the cause of the fault
Figure pat00007
) To reduce the amount of monitoring data stored, thereby improving storage efficiency. The system fault monitoring device may also return to collecting monitoring data (step 511).

이때, 모니터링 파라미터

Figure pat00008
의 모니터링 주기의 변화 크기
Figure pat00009
는 시스템 관리자의 정책에 따라서 가변 수치 또는 고정 수치로 지정될 수 있다. 예를 들어,
Figure pat00010
가 가변 수치로 지정되는 경우에는 파라미터의 중요도에 따라서 모니터링 주기의 변화 폭이 조정될 수 있다. 또한,
Figure pat00011
의 중요도에 따른
Figure pat00012
의 지정 값은
Figure pat00013
와 장애를 일으킨 파라미터인
Figure pat00014
와의 상관 관계 변화 크기인
Figure pat00015
Figure pat00016
의 곱으로 연산될 수 있다.At this time,
Figure pat00008
Change in Monitoring Cycle of Size
Figure pat00009
May be designated as a variable value or a fixed value according to the policy of the system administrator. E.g,
Figure pat00010
Is set to a variable value, the variation width of the monitoring period can be adjusted according to the importance of the parameter. Also,
Figure pat00011
Depending on the importance of
Figure pat00012
The specified value of
Figure pat00013
And the parameter causing the failure
Figure pat00014
And the magnitude of the correlation change
Figure pat00015
Wow
Figure pat00016
. ≪ / RTI >

일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 주기를 감소시키는 경우 으

Figure pat00017
로 모니터링 주기의 변경 주기를 결정하고, 모니터링 주기를 증가시키는 경우
Figure pat00018
으로 모니터링 주기의 변경 주기를 결정할 수 있다. 이때,
Figure pat00019
는 지속적으로 변화하는 값이므로,
Figure pat00020
또한 유동적으로 변화될 수 있다. 또한,
Figure pat00021
를 고정 수치로 지정하는 경우
Figure pat00022
는 상수로 설정될 수 있다. 예를 들어
Figure pat00023
가 2로 지정되는 경우, 변경 후 모니터링 주기는
Figure pat00024
이 되고 모니터링 주기는 점진적으로 변경될 수 있다. According to one embodiment, the system fault monitoring device may be configured to reduce the monitoring period
Figure pat00017
To determine the change period of the monitoring period and to increase the monitoring period
Figure pat00018
The change period of the monitoring period can be determined. At this time,
Figure pat00019
Is a continuously changing value,
Figure pat00020
It can also be changed flexibly. Also,
Figure pat00021
If you specify a fixed number
Figure pat00022
Can be set to a constant. E.g
Figure pat00023
Is set to 2, the monitoring cycle after the change is
Figure pat00024
And the monitoring period can be gradually changed.

도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.FIG. 6 is a graph showing a system fault monitoring method according to an embodiment of the present invention.

도 6을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 장애 분석 방식을 알 수 있다.Referring to FIG. 6, a method for monitoring a system failure performed by the system failure monitoring apparatus can identify a failure analysis method.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 장애를 일으킨 파라미터인 Pe의 데이터와 이외의 모든 다중 파라미터들인 Pk의 데이터를 모두 상관 관계 분석할 수 있다. 이때, 시스템 장애 모니터링 장치는, 상관 관계 분석을 통해서 시간당 상관계수(-1 <=

Figure pat00025
<= 1)를 계산할 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 시점 이전의 지정된 분석 윈도우 내에서 상관 관계 변화 크기 계산식으로서 하기 수학식 1을 이용하여 상관 관계 변화 크기인
Figure pat00026
를 계산할 수 있다. 이때, 수학식 1에서
Figure pat00027
는 윈도우 내의 상관계수 최대값,
Figure pat00028
는 윈도우 내의 상관계수 최소값을 나타낼 수 있다.According to one embodiment, the system fault monitoring apparatus can correlate both the data of the faulty parameter Pe and the data of the faulty parameter Pk. At this time, the system fault monitoring apparatus calculates the correlation coefficient (-1 <=
Figure pat00025
&Lt; = 1). In addition, the system fault monitoring apparatus may calculate a correlation change magnitude, which is a magnitude of a correlation change magnitude,
Figure pat00026
Can be calculated. At this time, in Equation (1)
Figure pat00027
Is the maximum correlation coefficient in the window,
Figure pat00028
Can represent the minimum correlation coefficient in the window.

Figure pat00029
Figure pat00029

도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.7 is a system fault monitoring method according to an embodiment of the present invention, which is a correlation change table.

도 7을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 상관 관계 변화 비교 방식을 알 수 있다.Referring to FIG. 7, a system failure monitoring method performed by the system failure monitoring apparatus can be known as a correlation change comparison method.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 파라미터와의 상관 관계 변화 크기가 설정된 임계치를 넘으면, 장애 원인으로 예상할 수 있다. 이때, 임계치는 시스템 관리자에 의해 지정될 수도 있으나, 이에 한정되는 것은 아니다. 예를 들어, 임계치가 0.5일 경우, 0.5이상인 파라미터는 장애 원인으로 예상될 수 있다. 또한, 예를 들어, 임계치가 0.4일 경우, 0.4 초과인 파라미터는 장애 원인으로 예상될 수도 있다.According to one embodiment, the system fault monitoring apparatus can predict a failure cause if the magnitude of the correlation change with the parameter exceeds the set threshold value. At this time, the threshold value may be specified by the system administrator, but is not limited thereto. For example, if the threshold is 0.5, a parameter that is 0.5 or greater can be expected to be the cause of the failure. Also, for example, if the threshold is 0.4, a parameter that is greater than 0.4 may be expected to be the cause of the failure.

도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.8 is a block diagram illustrating a system fault monitoring apparatus according to an embodiment of the present invention.

도 8을 참조하면, 시스템 장애 모니터링 장치(800)는, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)를 포함하여 구성될 수 있다. 이때, 시스템 장애 모니터링 장치(800)는, 서버와 같은 컴퓨팅 디바이스일 수 있다. 또한, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.Referring to FIG. 8, the system fault monitoring apparatus 800 may include a fault occurrence determination unit 810, a fault cause parameter search unit 820, and a monitoring period setting unit 830. At this time, the system fault monitoring apparatus 800 may be a computing device such as a server. The failure occurrence determination unit 810, the failure cause parameter search unit 820, and the monitoring period setting unit 830 may include at least one of a memory, a processor, and a data transceiver. However, no.

장애 발생 여부 결정부(810)는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 또한, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.The failure occurrence determination unit 810 can determine whether or not a system failure has occurred based on the monitoring data. At this time, the monitoring data may be stored in a database inside the system fault monitoring apparatus. The monitoring data may also be stored in a connected database outside the system fault monitoring device.

장애 원인 파라미터 탐색부(820)는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다. 예를 들어, 장애 원인 파라미터 탐색부(820)는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 경우에 따라서, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수도 있다.The failure cause parameter search unit 820 can search for the failure cause parameter when it is determined that the system failure has occurred. For example, the failure cause parameter search unit 820 can calculate the correlation between the failure cause parameter and the monitoring target parameters, and search for the failure cause parameter based on the correlation. Also, as occasion demands, the failure cause parameter search unit 820 may calculate a correlation coefficient for the monitored parameters and search for the failure cause parameter based on the correlation.

일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수도 있다.According to one embodiment, the failure cause parameter search unit 820 can search for failure cause parameters based on the magnitude of the correlation change in the analysis window. In addition, the failure cause parameter search unit 820 may calculate the magnitude of the correlation change based on the value of the correlation coefficient in the analysis window.

또한, 일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.In addition, according to one embodiment, the failure cause parameter search unit 820 compares the magnitude of the change in the correlation with respect to the monitoring target parameters and the threshold value, and monitors (monitors) the magnitude of the change in the correlation exceeding the threshold The target parameter can also be added as a cause of failure.

모니터링 주기 설정부(830)는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다. 예를 들면, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 모니터링 주기 설정부(830)는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 경우에 따라서, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수도 있다.The monitoring period setting unit 830 can adjust the monitoring period for the monitoring target parameters based on the search result of the failure cause parameter. For example, the monitoring period setting unit 830 may reduce the monitoring period for the detected failure cause parameter when the failure cause parameter is found. At this time, the monitoring period setting unit 830 may increase the monitoring period for other monitoring target parameters except the detected failure cause parameter. In some cases, the monitoring period setting unit 830 may reduce the monitoring period for the monitoring target parameters when the failure cause parameter is not found.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 메시지 생성부, 메시지 전송부를 더 포함하여 구성될 수 있다. 이때, 메시지 생성부, 메시지 전송부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 메시지 생성부는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 메시지 전송부는, 생성한 메시지를 시스템 관리 단말로 전송할 수도 있다.According to one embodiment, the system fault monitoring apparatus may further include a message generating unit and a message transmitting unit. At this time, the message generating unit and the message transmitting unit may include at least one of a memory, a processor, and a data transceiver, but the present invention is not limited thereto. For example, the message generating unit may generate a message relating to the monitoring target parameter of the added failure cause. Next, the message transmission unit may transmit the generated message to the system management terminal.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 데이터 수집부, 장애 정보 분류부를 더 포함하여 구성될 수도 있다. 이때, 모니터링 데이터 수집부, 장애 정보 분류부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 모니터링 데이터 수집부는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 장애 정보 분류부는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.In addition, according to one embodiment, the system fault monitoring apparatus may further include a monitoring data collecting unit and a fault information classifying unit. The monitoring data collecting unit and the fault information classifying unit may include at least one of a memory, a processor, and a data transceiver, but the present invention is not limited thereto. For example, the monitoring data collector may collect monitoring data using a monitoring agent. Next, the fault information classification unit may classify the fault information among the collected monitoring data.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 경우에 따라서, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부를 포함하여 구성될 수도 있다. 이때, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 장애 원인 결정부는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다. 다음으로, 장애 원인 파라미터 탐색부는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다. 다음으로, 모니터링 주기 설정부는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수도 있다.According to an exemplary embodiment, the system fault monitoring apparatus may include a fault cause determining unit, a fault cause parameter searching unit, and a monitoring period setting unit, as the case may be. At this time, the failure cause determining unit, the failure cause parameter searching unit, and the monitoring period setting unit may include at least one of a memory, a processor, and a data transceiver, but the present invention is not limited thereto. For example, the failure cause determination unit can determine the cause of the failure of a system failure that occurs when a failure occurs in the system. Next, the failure cause parameter search unit can search for the failure cause parameter based on the determined failure cause. Next, the monitoring period setting unit may set a monitoring period for the parameters of the system based on the searched failure cause parameter.

본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. The methods according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and configured for the present invention or may be available to those skilled in the art of computer software.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 청구범위뿐 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited by the illustrated embodiments, but should be determined by the equivalents of the claims, as well as the claims that follow.

Claims (15)

시스템 장애 모니터링 방법에 있어서,
모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계;
상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계;
상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계
를 포함하는 시스템 장애 모니터링 방법.
In a system fault monitoring method,
Determining whether a system failure has occurred based on the monitoring data;
If it is determined that the system has failed, searching for a failure cause parameter;
Adjusting a monitoring period for monitoring parameters based on a search result of the failure cause parameter
Wherein the system failure monitoring method comprises:
제1항에 있어서,
상기 모니터링 주기를 조정하는 단계는,
상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the adjusting the monitoring period comprises:
And if the failure cause parameter is found, reduces the monitoring period for the detected failure cause parameter.
제2항에 있어서,
상기 모니터링 주기를 조정하는 단계는,
상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는, 시스템 장애 모니터링 방법.
3. The method of claim 2,
Wherein the adjusting the monitoring period comprises:
And increases the monitoring period for other monitored parameters except for the detected failure cause parameter.
제1항에 있어서,
상기 모니터링 주기를 조정하는 단계는,
상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the adjusting the monitoring period comprises:
And if the failure cause parameter is not found, reduces the monitoring period for the monitored parameters.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the step of searching for the failure cause parameter comprises:
Calculating a correlation between the failure cause parameter and the monitoring target parameters, and searching the failure cause parameter based on the correlation.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the step of searching for the failure cause parameter comprises:
Calculating a correlation coefficient for the monitored parameters, and searching for the failure cause parameter based on the correlation.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the step of searching for the failure cause parameter comprises:
Wherein the failure cause parameter is searched based on the magnitude of the change in the correlation within the analysis window.
제7항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는, 시스템 장애 모니터링 방법.
8. The method of claim 7,
Wherein the step of searching for the failure cause parameter comprises:
And calculates the magnitude of the change in the correlation based on the value of the correlation coefficient in the analysis window.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 상기 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가하는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Wherein the step of searching for the failure cause parameter comprises:
Comparing the magnitude of a change in the correlation with the monitoring target parameters and a threshold value and adding a monitoring target parameter corresponding to a magnitude of the correlation change exceeding the threshold as a failure cause.
제9항에 있어서,
상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 단계; 및
상기 생성한 메시지를 시스템 관리 단말로 전송하는 단계;
를 더 포함하는, 시스템 장애 모니터링 방법.
10. The method of claim 9,
Generating a message relating to the monitored parameter of the added failure cause; And
Transmitting the generated message to the system management terminal;
Further comprising the steps of:
제1항에 있어서,
모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및
상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;
를 더 포함하는, 시스템 장애 모니터링 방법.
The method according to claim 1,
Collecting monitoring data using a monitoring agent; And
Classifying fault information among the collected monitoring data;
Further comprising the steps of:
시스템 장애 모니터링 방법에 있어서,
시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정하는 단계;
상기 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색하는 단계;
상기 탐색한 장애 원인 파라미터에 기초하여 상기 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정하는 단계
를 포함하는 시스템 장애 모니터링 방법.
In a system fault monitoring method,
Determining the cause of the failure of the generated system failure if the system fails;
Searching for a failure cause parameter based on the determined failure cause;
Differentially setting a monitoring period for the parameters of the system based on the searched fault cause parameter
Wherein the system failure monitoring method comprises:
시스템 장애 모니터링 장치에 있어서,
모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부;
상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부;
상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;
를 포함하는 시스템 장애 모니터링 장치.
A system fault monitoring apparatus comprising:
A fault occurrence determination unit for determining whether a fault has occurred in the system based on the monitoring data;
A parameter search unit for searching for a failure cause parameter if the failure of the system is determined to have occurred;
A monitoring period setting unit for adjusting a monitoring period for monitoring parameters based on a search result of the failure cause parameter;
And a system fault monitoring device.
제13항에 있어서,
상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 메시지 생성부; 및
상기 생성한 메시지를 시스템 관리 단말로 전송하는 메시지 전송부;
를 더 포함하는, 시스템 장애 모니터링 장치.
14. The method of claim 13,
A message generating unit for generating a message relating to the monitored parameter of the added failure cause; And
A message transmission unit for transmitting the generated message to the system management terminal;
Wherein the system fault monitoring device further comprises:
제13항에 있어서,
모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 모니터링 데이터 수집부; 및
상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 장애 정보 분류부
를 더 포함하는, 시스템 장애 모니터링 장치.


14. The method of claim 13,
A monitoring data collection unit for collecting monitoring data using a monitoring agent; And
A fault information classifying unit for classifying fault information among the collected monitoring data,
Wherein the system fault monitoring device further comprises:


KR1020160032012A 2016-03-17 2016-03-17 Method and apparatus for monitoring fault of system KR102561702B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160032012A KR102561702B1 (en) 2016-03-17 2016-03-17 Method and apparatus for monitoring fault of system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160032012A KR102561702B1 (en) 2016-03-17 2016-03-17 Method and apparatus for monitoring fault of system

Publications (2)

Publication Number Publication Date
KR20170108315A true KR20170108315A (en) 2017-09-27
KR102561702B1 KR102561702B1 (en) 2023-08-01

Family

ID=60036238

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160032012A KR102561702B1 (en) 2016-03-17 2016-03-17 Method and apparatus for monitoring fault of system

Country Status (1)

Country Link
KR (1) KR102561702B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102519073B1 (en) * 2022-12-30 2023-04-06 주식회사 에스티씨랩 Entry management server, system and method for traffic orchestration based on digital service
WO2023090825A1 (en) * 2021-11-19 2023-05-25 에스케이 주식회사 Ai model drift monitoring device and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056301A (en) * 2001-12-28 2003-07-04 삼성에스디에스 주식회사 System hindrance integration management method
JP2005018120A (en) * 2003-06-23 2005-01-20 Hitachi Software Eng Co Ltd Method for collecting apparatus information in network management system
KR20080044508A (en) * 2006-11-16 2008-05-21 삼성에스디에스 주식회사 System and method for management of performance fault using statistical analysis
JP2013161305A (en) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Resource monitoring device, resource monitoring system, method for monitoring resource, resource monitoring program
KR20150038905A (en) * 2013-10-01 2015-04-09 삼성에스디에스 주식회사 Apparatus and method for preprocessinig data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056301A (en) * 2001-12-28 2003-07-04 삼성에스디에스 주식회사 System hindrance integration management method
JP2005018120A (en) * 2003-06-23 2005-01-20 Hitachi Software Eng Co Ltd Method for collecting apparatus information in network management system
KR20080044508A (en) * 2006-11-16 2008-05-21 삼성에스디에스 주식회사 System and method for management of performance fault using statistical analysis
JP2013161305A (en) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Resource monitoring device, resource monitoring system, method for monitoring resource, resource monitoring program
KR20150038905A (en) * 2013-10-01 2015-04-09 삼성에스디에스 주식회사 Apparatus and method for preprocessinig data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090825A1 (en) * 2021-11-19 2023-05-25 에스케이 주식회사 Ai model drift monitoring device and method
KR102519073B1 (en) * 2022-12-30 2023-04-06 주식회사 에스티씨랩 Entry management server, system and method for traffic orchestration based on digital service

Also Published As

Publication number Publication date
KR102561702B1 (en) 2023-08-01

Similar Documents

Publication Publication Date Title
US9952921B2 (en) System and method for detecting and predicting anomalies based on analysis of time-series data
CN111212038B (en) Open data API gateway system based on big data artificial intelligence
US9769190B2 (en) Methods and apparatus to identify malicious activity in a network
US20190311278A1 (en) Application performance analyzer and corresponding method
US8593946B2 (en) Congestion control using application slowdown
US10944784B2 (en) Identifying a potential DDOS attack using statistical analysis
US20160127406A1 (en) Identifying a potential ddos attack using statistical analysis
US20110185422A1 (en) Method and system for adaptive anomaly-based intrusion detection
US20060242706A1 (en) Methods and systems for evaluating and generating anomaly detectors
US20110087924A1 (en) Diagnosing Abnormalities Without Application-Specific Knowledge
JP6823501B2 (en) Anomaly detection device, anomaly detection method and program
JP6564799B2 (en) Threshold determination device, threshold determination method and program
US10467087B2 (en) Plato anomaly detection
CN114978568A (en) Data center management using machine learning
US11343267B2 (en) Threat monitor, threat monitoring method, and recording medium therefore
JP6751168B2 (en) Abnormal factor estimation device, abnormal factor estimation method and program
CN110135603B (en) Power network alarm space characteristic analysis method based on improved entropy weight method
CN105743732B (en) Method and system for recording transmission path and distribution condition of local area network files
CN115580448A (en) Industrial control network malicious code detection method, system, equipment and storage medium
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
US20170206125A1 (en) Monitoring system, monitoring device, and monitoring program
KR20170108315A (en) Method and apparatus for monitoring fault of system
KR20140098390A (en) Apparatus and method for detecting attack of network system
CN108989083B (en) Fault detection performance optimization method based on hybrid strategy in cloud environment
US9912564B2 (en) Methods and systems to identify bottleneck causes in applications using temporal bottleneck point detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant