KR20180046598A - 이상 감지 관리 방법 및 그 장치 - Google Patents

이상 감지 관리 방법 및 그 장치 Download PDF

Info

Publication number
KR20180046598A
KR20180046598A KR1020160141945A KR20160141945A KR20180046598A KR 20180046598 A KR20180046598 A KR 20180046598A KR 1020160141945 A KR1020160141945 A KR 1020160141945A KR 20160141945 A KR20160141945 A KR 20160141945A KR 20180046598 A KR20180046598 A KR 20180046598A
Authority
KR
South Korea
Prior art keywords
correlation coefficient
correlation
section
rule set
threshold
Prior art date
Application number
KR1020160141945A
Other languages
English (en)
Other versions
KR102440335B1 (ko
Inventor
박정원
박왕근
차성훈
강나은
오현민
김종선
조윤석
이지훈
장예슬
정영훈
편도산
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020160141945A priority Critical patent/KR102440335B1/ko
Priority to US15/789,075 priority patent/US20180121275A1/en
Publication of KR20180046598A publication Critical patent/KR20180046598A/ko
Application granted granted Critical
Publication of KR102440335B1 publication Critical patent/KR102440335B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0267Fault communication, e.g. human machine interface [HMI]
    • G05B23/027Alarm generation, e.g. communication protocol; Forms of alarm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

본 발명의 일 실시예에 따른 이상 감지 관리 방법은, , 이상 여부 감지 대상인 복수 개의 장치 각각에 의하여 생성된 분석 대상 데이터를 입력 받는 단계, 상기 복수 개의 장치 중에서 상관 계수를 추출할 제1 장치 및 제1 장치와 다른 제2 장치를 결정하는 단계, 상기 제1 장치의 분석 대상 데이터에 포함된 변수와 상기 제2 장치의 분석 대상 데이터에 포함된 변수 사이의 제1 상관 계수를 추출하는 단계 및 상기 제1 상관 계수를 기초로 상기 복수 개의 장치의 이상 여부를 감지하는 단계를 포함할 수 있다.

Description

이상 감지 관리 방법 및 그 장치{A METHOD AND APPARATUS FOR DETECTING AND MANAGING A FAULT}
본 발명은 이상 감지 관리 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 두 변수의 상관 관계에 대한 상관 계수를 산출하여 룰셋을 생성하여 대상 장치의 이상 여부를 감지 하는 방법 및 장치에 관한 것이다.
현재 IT, 통신망, 제조 공정 등 다양한 분야에서 인프라스트럭쳐(infrastructure)가 구축되고 있다. 인프라스트럭쳐는 일반적으로 무수한 구성요소를 가지며, 구성요소간 복잡한 연결관계를 가진다. 따라서, 일부 구성요소에 장애가 발생하는 경우 인프라스트럭쳐 전체가 정상적인 동작을 하기 어려운 경우가 많고, 대규모의 인프라스트럭쳐의 경우 장애 시 발생하는 손실 또한 매우 크다.
따라서, 장애를 조기에 감지할 수 있도록 하는 이상 감지 관리 시스템의 중요도가 커지고 있다. 단 변수를 기반으로 이상 감지 관리 하는 방법이 일반적이지만, 단 변수 모니터링은 오탐율이 높다.
도 1은 CPU 사용량 변수를 이용하여, WAS Hang을 탐지한 결과이다. 도 1을 참조하면, WAS의 CPU 사용량이 0인 시점은 Case1(5), Case2(8)의 두 경우 이지만, 두 경우를 모두 WAS Hang이 발생했다고 단정할 수 없다. 사용자 감소로 CPU 사용량이 0이 될 수 있기 때문이다. 실제로 Case1(5)은 오탐한 경우이며, Case2(8)만이 WAS Hang이 발생한 데이터이다. 이는 오탐을 단적으로 보여주는 사례이다.
한편, 인프라스트럭쳐의 장애는 다양한 원인으로부터 발생한다. 장애가 발생한 구성요소 내부 원인 외에도 유기적인 연결 관계에 따른 외부의 원인이 개입되는 경우가 많다. 그러나 기존의 이상 감지 관리 시스템은 장애가 발생한 지점, 장애가 발생한 장치의 원인만을 고려하여 이상 감지 관리 함에 따라, 이상 감지 관리의 정확도를 높이는 데에는 한계가 있었다.
따라서, 단 변수 이상 감지 관리의 오탐율을 줄이기 위해, 여러 개의 변수를 동시에 관찰하고, 장애 발생 장치 내부의 원인뿐 아니라, 외부의 요인도 고려할 수 있는 이상 감지 관리 방법의 제공이 요구된다.
KR 10-1331579 B1 "피어슨 상관 계수 분석기법을 적용한 고장진단 예측 및 잔존 수명 관리 자동제어 시스템"
본 발명이 해결하고자 하는 기술적 과제는, 장애가 발생한 장치 외 다른 장치의 원인을 함께 고려할 수 있는 이상 감지 관리 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 정상 구간과 장애 구간의 이분화하여, 장애를 뚜렷하게 나타낼 수 있는 상관 계수를 이용하여 이상 감지 관리 하는 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는, 이탈 정도가 높은 상관 계수를 기초로 룰셋을 형성하여, 장애를 미리 감지할 수 있는 방법 및 그 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 이상 감지 관리 방법은, 이상 여부 감지 대상인 복수 개의 장치 각각에 의하여 생성된 분석 대상 데이터를 입력 받는 단계, 상기 복수 개의 장치 중에서 상관 계수를 추출할 제1 장치 및 제1 장치와 다른 제2 장치를 결정하는 단계, 상기 제1 장치의 분석 대상 데이터에 포함된 변수와 상기 제2 장치의 분석 대상 데이터에 포함된 변수 사이의 제1 상관 계수를 추출하는 단계 및 상기 제1 상관 계수를 기초로 상기 복수 개의 장치의 이상 여부를 감지하는 단계를 포함한다.
상기 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 이상 감지 관리 장치는, 하나 이상의 프로세서, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드 하는 메모리 및 룰셋 정보, 기준 정보 및 설정 사항 정보를 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은 이상 여부 감지 대상인 복수 개의 장치 각각에 의하여 생성된 분석 대상 데이터를 입력 받는 오퍼레이션, 상기 복수 개의 장치 중에서 상관 계수를 추출할 제1 장치 및 제1 장치와 다른 제2 장치를 결정하는 오퍼레이션, 상기 제1 장치의 분석 대상 데이터에 포함된 변수와 상기 제2 장치의 분석 대상 데이터에 포함된 변수 사이의 제1 상관 계수를 추출하는 오퍼레이션, 상기 제1 상관 계수를 기초로 상기 복수 개의 장치의 이상 여부를 감지하는 오퍼레이션을 포함한다.
본 발명의 몇몇 실시예들에 따르면, 2개의 변수를 이용한 상관 계수를 기초로 이상 감지 관리를 수행하여 오탐율을 감소시키는 효과를 달성할 수 있다.
본 발명의 몇몇 실시예들에 따르면, 장애 발생 장치 외 다른 장치에 장애의 원인이 있더라도 이상 감지 관리가 가능한 효과를 달성할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 단 변수 이상 감지 관리의 문제점을 설명하기 위한 예시 도면이다.
도 2는 본 발명의 일 실시예에 따른 이상 감지 관리 시스템의 구성도이다.
도 3은 본 발명의 다른 실시예에 따른 이상 감지 관리 장치의 블록도이다.
도 4는 본 발명의 또 다른 실시예에 따른 상관 계수 기반의 이상 감지 관리 방법의 순서도이다.
도 5는 본 발명의 몇몇 실시예에서 참조되는, 토폴로지를 기반으로 상관 관계를 추출하는 방법을 설명하기 위한 예시 도면이다.
도 6은 본 발명의 또 다른 실시예에 따른, 동일 장치 내에서 변수 중복을 제거하여 상관 계수를 산출하는 방법의 순서도이다.
도 7은 본 발명의 또 다른 실시예에 따른, 상관 계수를 이용하여 룰셋을 생성하는 방법의 순서도이다.
도 8은 본 발명의 또 다른 실시예에 따른, 룰셋을 기반으로 인프라스트럭쳐의 이상을 감지 하는 방법의 순서도이다.
도 9는 본 발명의 몇몇 실시예에서 참조되는, 장애 기록 데이터를 설명하기 위한 예시 도면이다.
도 10은 본 발명의 몇몇 실시예에서 참조되는, 장애 기록 데이터에 포함된 분석 대상 데이터를 설명하기 위한 예시 도면이다.
도 11은 본 발명의 몇몇 실시예에서 참조되는, 기준 정보를 설명하기 위한 예시 도면이다.
도 12는 본 발명의 몇몇 실시예에서 참조되는, 레이어 별로 추출된 상관 관계를 설명하기 위한 예시 도면이다.
도 13은 본 발명의 또 다른 실시예에 따른 동일 장치 내에서 중복 변수를 제거하는 방법을 설명하기 위한 예시 도면이다.
도 14는 본 발명의 몇몇 실시예에서 참조되는, 정상 구간의 상관 계수의 상, 하한 임계치를 설명하기 위한 예시 도면이다.
도 15는 본 발명의 또 다른 실시예에 따른 장애 구간에서 임계치를 이탈한 상관 계수를 추출하는 방법을 설명하기 위한 도면이다.
도 16은 본 발명의 몇몇 실시예에서 참조되는, 룰셋을 설명하기 위한 예시 도면이다.
도 17은 본 발명의 또 다른 실시예에 따른, 장애 시점을 달리하여 룰셋을 생성하는 방법을 설명하기 위한 예시 도면이다.
도 18은 본 발명의 또 다른 실시예에 따른, 이상 감지 관리 장치의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명에 대하여 첨부된 도면에 따라 보다 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 이상 감지 관리 시스템의 구성도이다. 이상 감지 관리 시스템은 인프라스트럭쳐(10)와 이상 감지 관리 장치(100)를 포함할 수 있다. 이상 감지 관리 장치(100)는 인프라스트럭쳐(10)와 유선 및/또는 무선 통신이 가능한 컴퓨팅 장치일 수 있다.
인프라스트럭쳐(10)는 복수개의 서로 다른 장치들로 구성될 수 있고, 인프라스트럭쳐(10)를 구성하는 복수개의 장치들은 서로 연결되어 논리적/물리적 토폴로지를 형성할 수 있다. 논리 토폴로지란, 컴퓨터 네트워크 상에서의 장비들의 배치, 장비 간의 통신 방법을 포함하는 개념이다. 논리 토폴로지는 신호들이 어떻게 네트워크 상에서 동작하는 지를 설명한다.
이상 감지 관리 장치(100)는 유기적으로 연관된 복수 개의 장치에 대한 이상을 감지하고 관리할 수 있다. 상기 복수 개의 장치의 예시로서, 인프라스트럭쳐(10)의 구성요소를 설명한다. 그러나 이에 한정되는 것은 아니며, 토폴로지를 형성하고 있는 복수 개의 장치는 이상 감지 관리 대상으로 삼을 수 있다.
도시된 인프라스트럭쳐(10)는 장치A, 장치B, 장치C로 구성되어 있고, 장치A-장치B, 장치B-장치C가 각각 연결되어 있다. 즉, 인프라스트럭쳐(10)를 구성하는 복수개의 장치는 토폴로지를 형성하고 있다.
인프라스트럭쳐(10)는 예를 들어, 웹 서비스 시스템일 수 있다. 이 경우, 웹 서비스 시스템은 web서버, was서버, db서버로 구성될 수 있고, 각각의 서버들은 링크를 통해 연결되어 토폴로지를 형성할 수 있다.
인프라스트럭쳐(10)는 예를 들어, 생산 관리 시스템(MES)일 수 있다. 생산 관리 시스템은 복수 개의 공정으로 이루어 질 수 있는데, 각 공정 사이에 데이터 등을 송, 수신 할 수 있도록 공정 간의 토폴로지를 형성할 수 있다.
이 외에도, 인프라스트럭쳐(10)는 서로 다른 복수 개의 장치를 포함하고, 장치 간의 토폴로지를 형성한 인프라스트럭쳐를 모두 포함할 수 있다.
이상 감지 관리 장치(100)는 인프라스트럭쳐(10)의 장애를 예측, 감지하는 이상 감지 관리를 수행할 수 있다. 이상 감지 관리 장치(100)는 인프라스트럭쳐(10)로부터, 인프라스트럭쳐(10)를 구성하는 각각의 장치들에 대한 분석 대상 데이터를 입력 받을 수 있고, 분석 대상 데이터를 기초로 인프라스트럭쳐(10)의 상태를 이상 감지 관리 할 수 있다.
이하, 인프라스트럭쳐(10)와 이상 감지 관리 장치(100)가 별도로 구현된 경우를 가정하여 설명할 것이나, 이상 감지 관리 장치(100)는 인프라스트럭쳐(10)에 통합되어 구현될 수 있다. 따라서 본 발명의 실시예에서 수행되는 각각의 동작은, 이상 감지 관리 장치에 의해 수행되는 것으로 기재할 것이나, 이에 한정되는 것은 아니고, 각각의 동작은 하나 이상의 컴퓨팅 장치가 실행하는 것으로 이해될 수 있다.
이하, 도 3을 참조하여 이상 감지 관리 장치(100)의 구조와 동작에 대하여 설명한다. 도 3은 본 발명의 다른 실시예에 따른 이상 감지 관리 장치의 블록도이다.
이상 감지 관리 장치(100)는 상관 계수 산출부(110), 룰셋 생성부(120), 이상 감지 관리부(130), 스토리지부(140), 통신부(150)를 포함할 수 있다.
상관 계수 산출부(110)는 통신부(150)를 통해 인프라스트럭쳐로부터 분석 대상 데이터를 수신할 수 있다. 수신된 분석 대상 데이터를 이용하여 변수 간 상관 관계를 추출하고, 추출된 상관 관계에 대한 상관 계수를 산출할 수 있다.
룰셋 생성부(120)는 산출된 상관 계수를 상관 계수 산출부(110)로부터 수신 받을 수 있다. 수신된 상관 계수를 기 정해진 기준에 의해 일부를 선정하여 룰셋을 생성할 수 있다. 룰셋의 생성 방법은 도 7에서 자세히 설명한다. 룰셋 생성부(120)는 생성된 룰셋을 스토리지부(140)에 송신하여, 스토리지부(140)에 저장될 수 있도록 할 수 있다.
이상 감지 관리 장치(100)가 인프라스트럭쳐로부터 실시간 분석 대상 데이터를 수신 받으면, 상관 계수 산출부(110)에서 실시간 분석 대상 데이터를 기초로 한 상관 계수를 산출할 수 있다. 이상 감지 관리 부(130)는 실시간 분석 대상 데이터를 기초로 한 상관 계수를 상관 계수 산출부(110)로부터 수신하여, 이상 감지 관리를 수행할 수 있다.
룰셋은 인프라스트럭쳐의 각각의 장치들에 대한 분석 대상 데이터에 포함된 변수들간의 상관 관계 및 상관 계수를 기초로 생성된다. 인프라스트럭쳐에 어떠한 장애가 발생했을 때, 인프라스트럭쳐의 각각의 상관 관계에 대한 상관 계수가 달라질 수 있다. 인프라스트럭쳐의 장애 상황 시, 각각 달라진 상관 계수를 기초로 인프라스트럭쳐의 장애를 모니터링 할 수 있다.
구체적으로, 이상 감지 관리 부(130)는 스토리지부(140)에 미리 저장된 룰셋과 실시간 분석 대상 데이터를 기초로 한 상관 계수를 비교하여, 장애 여부를 판단할 수 있다. 이는 도 8을 통해 자세히 설명한다.
스토리지부(140)는 룰셋, 분석 대상 데이터에 대한 기준 정보, 상관 계수 산출 방법 및 룰셋 선정 기준 등을 포함하는 기타의 설정 사항을 포함할 수 있다. 상관 계수 산출부(110)는 스토리지(140)에 포함된 상관 관계 추출 기준, 상관 계수 산출 방법을 조회하여 상관 계수를 산출할 수 있고, 룰셋 생성부(120)는 산출된 상관 계수 중 어떠한 상관 계수를 룰셋으로 생성할 것인지에 대해 스토리지(140)의 룰셋 생성 기준 정보를 조회하여, 룰셋을 생성할 수 있다.
이하, 도 4를 참조하여 인프라스트럭쳐의 이상 감지 관리 방법을 설명한다. 도 4는 본 발명의 또 다른 실시예에 따른 상관 계수 기반의 이상 감지 관리 방법의 순서도이다.
이상 감지 관리 장치(100)는 이상 감지 관리 대상인 인프라스트럭쳐를 구성하는 복수의 장치 각각에 대한 분석 대상 데이터를 입력 받을 수 있다(S100). 이상 감지 관리 장치(100)는 입력된 분석 대상 데이터로부터, 토폴로지를 기반으로 상관 관계를 추출할 수 있다(S200). 구체적으로 인프라스트럭쳐의 토폴로지를 기반으로, 상관 관계를 추출할 장치를 결정할 수 있고, 결정된 장치 사이의 상관 관계를 추출할 수 있다. 인프라스트럭쳐를 구성하는 하나의 장치 내의 상관 관계 및 서로 다른 장치 간의 상관 관계를 추출할 수 있다. 토폴로지를 기반으로 상관 관계를 추출하는 방법은 도 5를 통해 후술한다.
이상 감지 관리 장치(100)는 추출된 상관 관계에 대한 상관 계수를 산출할 수 있고(S300), 상기 산출된 상관 계수를 기초로 상기 인프라스트럭쳐를 이상 감지 관리 할 수 있다(S500).
단계(S100)에서 분석 대상 데이터는 인프라스트럭쳐를 구성하는 장치들에 의하여 생성된 데이터로서, 장치에 관한 다양한 정보를 포함할 수 있다. 따라서 분석 대상 데이터를 분석함으로써, 장애 발생 원인을 파악할 수 있다. 예를 들어, 분석 대상 데이터는 특정 시간 동안 어떤 변수 값의 변화 량을 측정한 값일 수 있고, 변수는 인프라스트럭쳐의 장애 발생에 영향을 미치는 변수 일 수 있다. 변수는 예를 들어, 각 장치의 부품의 성능을 측정한 데이터일 수 있다. CPU, memory등의 장치에 대한 성능 데이터일 수 있다. 분석 대상 데이터는 수집 시점에 따라 과거 분석 대상 데이터와 신규 분석 대상 데이터로 나눌 수 있다.
과거 분석 대상 데이터는 인프라스트럭쳐에서 과거 발생했던 장애 시점에 대한 정보를 포함하는 일 수 있다. 과거 데이터는 이미 장애가 발생한 후에 만들어지는 데이터 이므로, 1)장애 발생 시점 2)장애에 대한 정의를 포함할 수 있다. 따라서, 과거 분석 대상 데이터를 통해 장애가 발생한 시점을 특정할 수 있고, 어떤 장애에 대한 데이터인지를 특정할 수 있어, 이를 이용해 이상 감지 관리의 레퍼런스 데이터인 룰셋을 생성할 수 있다.
신규 분석 대상 데이터는 인프라스트럭쳐에서 실시간으로 수집되거나, 장애가 특정되지 않은 신규한 데이터 일 수 있다. 신규 분석 대상 데이터는 과거 분석 대상 데이터와의 비교를 통해, 이상 감지 관리 또는 장애 분석에 이용될 수 있다.
단계(S200)에서, 상관 계수를 추출하는데 예를 들어, 피어슨(pearson) 상관 계수 산출법이 이용될 수 있다. 피어슨 상관 계수 산출법은 두 변수 간의 관련성을 구하기 위해 보편적으로 이용된다. r=x와 y가 함께 변하는 정도 / x와 y가 따로 변하는 정도를 의미하고, 수식은 다음과 같다.
Figure pat00001
r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 -1을 가진다,
그러나, 상관 계수를 산출하는 방법은 이에 한정되지 않고 두 변수 간의 관련성을 나타낼 수 있는 방법이 다양하게 이용될 수 있다.
한편, 상관 관계는 인프라스트럭쳐의 토폴로지를 활용하여 추출할 수 있는데, 이하 5를 참조하여 설명한다. 도 5는 본 발명의 몇몇 실시예에서 참조되는, 토폴로지를 기반으로 상관 관계를 추출하는 방법을 설명하기 위한 예시 도면이다.
이해를 편의를 위해 인프라스트럭쳐가 웹 서비스 시스템인 경우를 가정하여 설명한다. 그러나 본 실시예는 인프라스트럭쳐가 포함하는 장치 간 토폴로지를 형성하고 있는 경우라면 제한 없이 적용될 수 있다.
웹 서비스 시스템은 web서버, was서버, db서버로 이루어져 있으며, 각 서버는 이중화되어 있는 보편적인 시스템을 가정할 수 있다. 이러한 웹 서비스 시스템에는 논리/물리적 흐름에 따른 네트워크 토폴로지가 존재한다.
was(20)에 장애가 발생한 상황을 가정하고, 웹 서비스 시스템에 형성되어 있는 토폴로지의 시발점을 장애가 발생한 was서버(20)로 제한하면, 웹 서비스 시스템의 레이어(layer)는 도 5와 같이 4개의 종류로 분류할 수 있다.
장애가 발생한 was(20)를 주 장애 서버로 main 서버라고 하면, 웹 서비스 시스템을 main-main(22), main-was(24), main-web(26), main-db(28) 4개의 레이어(layer)로 분류할 수 있다. 한편, 장애 서버가 2개 이상인 경우, 2개 이상의 서버가 main 서버가 될 수 있다. 복수 개의 main서버가 존재하는 경우에도, 후술할 내용은 마찬가지로 적용될 수 있다.
이때, 이상 감지 관리 장치는 각각의 하위 장치로부터 수신된 분석 대상 데이터로부터, 각각의 레이어의 하위 서버의 변수 간 상관 관계 및 상관 계수를 산출할 수 있다.
예를 들어, main서버에서 10개의 변수가 추출되고, web서버에 20개의 변수가 추출되었다면, main-main 레이어(22)의 상관 관계는 main서버 내에서 10*9/2개의 상관 관계를 추출할 수 있고, main-web 레이어(26)의 main서버와 web서버간에 10*20개의 상관 관계를 추출할 수 있다.
토폴로지를 제한하여 상관 관계를 추출함으로써, 방대한 분석 대상 데이터 중 인프라스트럭쳐에 발생한 장애와 관련이 깊은 상관 관계의 선별이 가능해지며, 추출되는 상관 관계의 개수를 줄여 상관 계수 산출 시간 등을 포함한 이상 감지 관리 시간을 단축시킬 수 있는 효과를 가진다.
한편, 동일 장치 내에서 중복되는 변수를 제거하여 추출되는 상관 관계의 개수를 줄일 수도 있는데, 이하 도 6을 통해 설명한다. 도 6은 본 발명의 또 다른 실시예에 따른, 동일 장치 내에서 변수 중복을 제거하여 상관 계수를 산출하는 방법의 순서도이다.
이상 감지 관리 장치는 분석 대상 데이터를 입력 받으면(S100), 동일 장치 내의 상관 관계를 추출할 수 있고(S210), 동일 장치 내의 상관 관계에 대하여 상관 계수를 추출할 수 있다(S310). 동일 장치 내의 변수의 상관 관계 추출 및 상관 계수 산출을 서로 다른 장치간의 상관 관계 및 상관 계수보다 앞서 행함으로써, 동일 장치 내의 중복 변수를 미리 제거 하여, 서로 다른 장치간의 상관 관계의 개수를 줄일 수 있게 된다.
이상 감지 관리 장치는 동일 장치 내에서 추출된 상관 계수의 절대 값이 기 지정된 수치 이상인지 여부를 판단할 수 있다(S320). 이상 감지 관리 장치는 산출된 동일 장치 내의 상관 계수의 절대 값이 기 지정된 수치 이상인 경우, 상기 상관 관계 중 대표 변수를 선택하고 중복 변수를 제거하게 된다(S330). 상관 계수가 두 변수가 매우 유사함을 나타내는 경우라면, 두 변수는 동일 장치 내에서 같은 변수로 취급하여도 큰 무리가 없을 것으로 판단하여, 복잡도 개선을 위해 중복을 제거하는 것이다.
이후, 중복 변수가 제거된 상기 인프라스트럭쳐를 구성하는 서로 다른 장치 간의 상관 관계를 추출하고(S340), 그 상관 관계에 대한 상관 계수를 산출할 수 있다(S350). 한편, 단계(S320)에서 동일 장치 내의 상관 계수의 절대 값이 기 지정된 수치 미만인 경우에는 이상 감지 관리 장치는 중복 변수 제거 과정을 수행하지 않고, S340, S350을 수행하게 된다.
단계(S320)에서, 중복 변수의 판단 기준은 상관 계수의 절대 값이 될 수 있는데, 이는 상관 계수의 절대 값이 클수록 유사도가 높음을 전제하고 있다.
예를 들어, 상관 계수가 피어슨 상관 계수 산출 법을 이용하여 산출된 경우라면, 상관 계수의 값이 +1 또는 -1에 가까워 질수록 두 변수의 유사도를 높게 평가할 수 있다.
따라서, 피어슨 상관 계수 산출 법을 이용해 산출된 상관 계수의 절대 값이 1에 가깝다면, 두 변수는 매우 유사한 것이고, 동일 장치 내의 변수라면 매우 유사한 의미를 가지는 변수로 판단할 수 있다. 따라서 두 변수 중 어느 한 변수를 대표 변수로 선택하고, 나머지 변수는 제거하게 되면 중복 변수 제거가 될 수 있다.
피어슨 상관 계수 산출법을 이용한 경우라면, 기 지정된 수치는 1에 가까운 값으로 설정할 수 있다. 예를 들면, 0.9~0.95를 기준 수치로 지정할 수 있다. 또한 상관 계수를 다른 방법에 의해 산출 하더라도, 두 변수가 동일한 경우의 상관 계수 값을 참조하여, 기준 수치로 설정할 수 있다.
그러나 중복 변수의 판단 기준은 상술한 기준에 한정되지 않으며, 상관 계수의 산출 방법에 따라 달라질 수 있다. 유사도가 매우 높은 상관 관계를 중복 변수로 보는 전제를 만족하면 된다. 예를 들어, 상관 계수가 0에 가까울수록 유사도가 높다고 판단 되는 경우, 0에 가까운 수의 절대값 미만인 경우로 기준을 설정할 수 있다.
이처럼, 동일 장치 내의 변수 중복 제거를 통해, 다른 장치 간의 상관 관계의 개수를 줄일 수 있고, 상관 계수를 산출할 대상인 상관 관계의 개수가 적어짐에 따라, 이상 감지 관리 전체 과정의 복잡도를 개선할 수 있다.
도 5를 재 참조하여 설명하면, main서버에 10개의 변수가 있고, web서버에 20개의 변수가 있는 경우, 이상 감지 관리 장치가 상술한 중복 제거 방법을 통해, main서버는 8개, web서버는 15개로 변수의 개수를 줄인다면, 상관 계수 산출의 복잡도는 10*20 에서 8*15로 줄어들게 된다.
상관 계수가 산출 되면, 이상 감지 관리 장치는 산출된 상관 계수를 이용하여 룰셋을 생성할 수 있다. 이하 도 7을 참조하여 룰셋을 생성하는 과정을 설명한다. 도 7은 본 발명의 또 다른 실시예에 따른, 상관 계수를 이용하여 룰셋을 생성하는 방법의 순서도이다.
이상 감지 관리 장치는 이상 감지 관리를 위한 기준 데이터를 만들기 위하여 룰셋을 생성한다. 따라서, 룰셋은 특히, 과거 분석 대상 데이터를 이용하여 만들어질 수 있다. 과거 분석 대상 데이터는 상술한 바와 같이, 전체 데이터에 대해 장애 시점과 장애 명칭이 특정되어 있어, 분석을 통해 특정 장애 발생 전, 후로 데이터의 변화를 알 수 있기 때문이다. 한편, 이하에서는 분석 대상 데이터를 시계열한 데이터인 경우를 예를 들어 설명한다.
이상 감지 관리 장치는 분석 대상 데이터를 정상 구간 및 장애 구간으로 이분화할 수 있다(S400). 이후, 정상 구간에서 산출된 상관 계수의 상한 및 하한의 임계치를 산출하고(S410), 장애 구간에서는 정상 구간에서 산출된 임계치를 이탈한 상관 계수를 추출하여(S420), 임계치를 이탈한 상관 계수를 이용하여 룰셋을 생성할 수 있다(S430).
룰셋은 분석 대상 데이터의 기준 정보, 이탈 방향, 이탈 수치 또는 이탈 빈도를 포함할 수 있다. 기준 정보는 분석 대상 데이터가 발생한 장치 명, 이상 감지 관리 대상 장치 명, 이상 감지 관리 대상 항목에 대해 측정할 성능 명을 포함할 수 있다.
이탈 방향이란, 정상 구간의 임계치로부터 위쪽 혹은 아랫쪽으로 이탈하였는지에 대한 정보를 가리키고, 이탈 수치는 임계치로부터 어느 수치 이상 이탈하였는지, 이탈 빈도는 총 시간 중 어느 시간만큼 장애가 발생하였는지를 가리킬 수 있다.
단계(S400)에서 정상 구간이란 장애가 발생하지 않고 인프라스트럭쳐가 정상적으로 작동하는 구간을 가리키며, 장애구간은 장애가 발생되어 지속된 구간을 가리킨다. 상술한 바와 같이 분석 대상 데이터의 전체 구간에서 장애 구간을 특정할 수 있으므로, 장애 구간을 제외한 나머지 구간을 정상 구간으로 하여, 전체 구간을 장애 구간과 정상 구간으로 이분화 할 수 있다.
단계(S410)에서 정상 구간에서의 상, 하한 임계치는 control limits 또는 IQR 등의 방법을 이용하여 산출할 수 있다. 임계치를 산출하는 목적은 인프라스트럭쳐가 정상 작동할 때의 상관 계수의 범위를 특정하기 위함이다. 장애 구간과 정상 구간을 비교하여, 정상 구간의 임계치와 가장 차이가 뚜렷한 상관 계수를 찾아낼 수 있다.
단계(S420)에서, 장애 구간에서 정상 구간의 임계치를 벗어난 상관 계수를 추출하는데, 임계치를 벗어난 여러 상관 계수들 중 가장 차이가 잘 드러나는 상관 계수를 선정하기 위해서 일정 기준을 설정할 수 있다. 예를 들어, 이상 감지 관리 장치는 이탈 수치 또는 이탈 빈도가 일정 수치 이상인 상관 계수를 룰셋 생성의 대상으로 선정할 수 있다.
과거 분석 대상 데이터 기반의 룰셋이 생성이 되면, 해당 룰셋을 기준으로 이상 감지 관리를 수행할 수 있다. 이하, 도8을 참조하여 설명한다. 도 8은 본 발명의 또 다른 실시예에 따른, 룰셋을 기반으로 인프라스트럭쳐를 이상 감지 관리 하는 방법의 순서도이다.
이상 감지 관리 장치는 이상 감지 관리 대상인 인프라스트럭쳐를 구성하는 복수의 장치 각각에 대한 실시간 분석 대상 데이터를 입력 받을 수 있다(S510). 이상 감지 관리 장치는 실시간 분석 대상 데이터를 기초로 상관 관계를 추출하고, 그에 대한 상관 계수를 산출할 수 있다.
이상 감지 관리 장치는 추출된 상관 계수 중 미리 산출된 정상 구간의 임계치를 이탈한 상관 계수를 추출할 수 있다(S520). 과거 분석 대상 데이터를 통해 정상 구간의 임계치를 이미 산출하였으므로, 현재 추출한 상관 계수와 동일한 상관 관계의 상관 계수의 임계치와 비교하여, 이를 이탈하는 상관 계수를 추출할 수 있다. 정상 구간의 임계치를 이탈한 경우라면, 장애가 발생하였거나, 발생할 가능성이 있음을 판단할 수 있다.
임계치를 이탈한 상관 계수를 추출하면, 추출된 상관 계수를 이용하여 산출한 데이터와 미리 저장된 룰셋과 비교하여, 일치하는지 여부를 판단할 수 있다(S530). 미리 저장된 룰셋과 일치하는 경우, 해당 룰셋에 대응되는 장애 알림을 생성할 수 있다(S540). 임계치를 이탈한 상관 계수들에 대해, 이탈 수치, 이탈 빈도 등 룰셋에 포함되는 데이터를 산출하여 미리 저장된 룰셋과 비교할 수 있다. 미리 저장된 룰셋과 일치한다면, 현재 인프라스트럭쳐에 동일한 장애가 발생하였거나 발생할 가능성이 있음을 알 수 있다. 한편, 룰셋에는 장애 종류 정보도 포함되므로, 해당 장애 알림을 생성할 수 있다.
반면, 상관 계수를 이용하여 산출한 데이터가 미리 저장된 룰셋과 일치하지 않는 경우, 신규 장애 감지 알림을 생성할 수 있다(S550). 미리 저장된 룰셋과 일치하지 않는다 하더라도, 정상 범위를 일탈한 상관 계수가 관측되는 경우이므로, 신규 장애가 발생하였거나, 발생할 가능성이 있음을 판단할 수 있다.
단계(S510)에서, 실시간 분석 대상 데이터는 현재 이상 감지 관리 할 인프라스트럭쳐로부터 수집된 데이터일 수 있다. 실시간 분석 대상 데이터에서 상관 관계 및 상관 계수를 추출하여 이미 생성한 룰셋과 비교하여 과거의 장애 상황의 상관 계수와 유사점이 있는지 파악하여, 장애를 감지할 수 있다.
이처럼, 상관 계수 기반의 룰셋과 비교하여 장애를 감지함으로써 미리 알려진 장애에 대한 이상 감지 관리가 가능하게 되고, 정상 범위를 크게 이탈한 상관 계수를 기반으로 룰셋을 생성하므로, 유사한 상관 관계가 관측 되는 경우 해당 장애가 관측될 확률도 높은 것으로 판단할 수 있어, 정확도를 높일 수 있다.
이하, 상술한 본 발명의 몇몇 실시예에 대하여 도 9 내지 도 17을 참조하여 인프라스트럭쳐가 웹 서비스 시스템인 경우에 대해, 구체적 데이터와 함께 예시로 들어 설명한다. 그러나 웹 서비스 시스템에 한정되는 것은 아니고, 인프라스트럭쳐가 포함하는 장치 간 토폴로지를 형성하고 있는 경우에, 제한 없이 적용될 수 있음은 물론이다.
도 9는 본 발명의 몇몇 실시예에서 참조되는, 장애 기록 데이터를 설명하기 위한 예시 도면이다. 웹 서비스 시스템은 도 9와 같은 장애 기록 데이터(200)를 저장하여 보관할 수 있다.
이상 감지 관리 장치는 장애 기록 데이터(200)를 입력 받아, 해당 장애에 대한 룰셋을 생성할 수 있다. 이는 앞서 설명한 과거 분석 대상 데이터를 기반으로 룰셋을 생성하는 부분과 대응될 수 있다.
장애 기록 데이터(200)는 WAS Hang의 장애가 발생한 이력을 기록한 데이터이다. 번호 1,2는 WAS1서버에 WAS Hang이 발생한 경우이며, 번호 3,4는 WAS2서버에 WAS Hang이 발생한 경우이다. 총 1번 내지 4번의 데이터를 이용하여, WAS서버의 WAS Hang 장애와 관련된 룰 셋을 생성할 수 있다.
도 10은 본 발명의 몇몇 실시예에서 참조되는, 장애 기록 데이터(200)에 포함된 분석 대상 데이터를 설명하기 위한 예시 도면이다. 장애 기록 데이터(200)는 웹 서비스 시스템으로부터 수집된 데이터(210)를 포함할 수 있다. 수집된 데이터는 시계 열 데이터를 예로 들어 설명하나, 이에 한정되는 것은 아니다.
수집된 데이터(210)는 장애가 발생된 '메인 호스트'정보, 데이터 수집이 시작된 '시작 시간'정보, 데이터 수집이 종료된 '종료 시간' 정보, 시작 시간으로부터 장애 구간이 시작되는 지점인 '장애 포인트' 정보를 포함할 수 있다.
수집된 데이터(210) 중 일련 번호 2번의 데이터의 특정 2개 변수를 이용하여, 상관 관계를 추출하고, 상관 계수를 산출하여 그래프(220)로 나타내었다. 어떤 상관 관계에 대한 상관 계수 값이 그래프(220)와 같이 표현된 것이고, X축은 시간, Y축은 상관 계수 값을 의미한다.
데이터의 시작 시간이 20160811103500이므로, 2016년08월11일 10시35분이며, 데이터의 종료 시간이 20160811120000이므로, 2016년08월11일 12시00분임을 알 수 있다. 그래프(200) 상에는 편의상 시간 단위만 표시하였다.
장애 구간은 시작 시간인 10시35분으로부터 40분 이후인, 11시05분부터 종료시간인 12시00분이 된다.
따라서 분석 대상 데이터에 대해 정상 구간은 10:35 ~ 11:05 이며, 장애 구간은 11:05~12:00으로 이분화하여, 정상 구간에 대한 임계치를 산출하고, 장애 구간에서 임계치를 이탈한 상관 계수를 추출하여, 룰셋을 생성할 수 있다.
한편, 수집된 데이터(210)는 시간에 따라 다양한 변화 양상을 가진 시계열한 데이터를 가정하였으므로, 분 단위의 특정 값을 얻기 위하여 데이터의 시작점으로부터 일정 간격으로 이동하며, 고정길이의 절편을 얻을 수 있다.
예를 들어, time window를 이용하는 경우로서, 100분으로 time window를 설정한다고 가정하면, 08:00의 상관 계수의 경우 06:21부터 08:00까지를 각각 절편으로 얻어 상관 계수를 산출한 후 08:00의 상관 계수 값으로 삼을 수 있고, 08:01의 상관 계수의 경우 06:22부터 08:01까지를 각각 절편으로 얻어 상관 계수를 산출한 후 08:00의 상관 계수 값으로 삼을 수 있다.
도 11은 본 발명의 몇몇 실시예에서 참조되는, 기준 정보를 설명하기 위한 예시 도면이다. 웹 서비스 시스템에서는 기준 정보 별로 시간의 흐름에 따른 데이터가 입력될 수 있다.
기준 정보(250)는 서버 명, 이상 감지 관리 대상 항목, 이상 감지 관리 대상 항목에 대해 측정될 성능 명칭을 포함할 수 있다. 도시된 기준 정보(250)는 web서버 중 bdaweb1서버에 대한 것으로, 기준 정보의 일 예시이다.
기준 정보(250)의 ci_name은 서버 명, class_nm은 이상 감지 관리 대상 항목, metric_nm은 이상 감지 관리 대상 항목에 대해 측정될 성능 명칭이다. 기준 정보(250)를 참조하면, bdaweb1의 cpu, disk, file system, memory, network interface 등이 이상 감지 관리 대상이며, cpu에 대해서는 cpu_idle, cpu_int 등의 성능 측정 항목이 존재한다. 각 항목 별로 측정된 성능 데이터에 변화 량이 존재하면, 그 성능 데이터는 룰셋 생성을 위한 데이터로 이용될 수 있다.
웹 서비스 시스템에서는 여러 성능 데이터간 상관 관계를 추출할 수 있다. 본 발명의 몇몇 실시예에서 참조되는 상관 관계는, 토폴로지를 기반으로 정의된 레이어 별로 추출될 수 있다. 예를 들어, 도 5에서 정의된 4개의 레이어를 기반으로 상관 계수를 추출하는 경우를 도 12를 참조하여 설명한다.
도 12는 본 발명의 몇몇 실시예에서 참조되는, 레이어 별로 추출된 상관 관계를 설명하기 위한 예시 도면이다.
도 5와 마찬가지로, was서버에서 장애가 발생했다고 가정하고, 장애 발생 서버는 bdawas1서버라고 가정한다. Layer1(22)에서는 장애가 발생한 서버인 main서버 간의 상관 관계를 추출할 수 있다. 도시된 예시는 bdawas1의 메모리와 관련한 성능 데이터 간의 상관 관계를 추출한 일부 결과이다.
Layer2(24)에서는 main서버와 나머지 was서버간의 상관 관계를 추출할 수 있다. 도시된 예시는 bdawas1서버와 bdawas2서버의 성능 데이터 간의 상관 관계를 추출한 일부 결과이다. ((ST02, bdawas1, CPU, cpu_util), (ST01, bdawas2, FileSystem, fs_used))는 bdawas1서버의 cpu에 대한 cpu_util성능과 bdawas2서버의 file system의 fs_used성능 간의 상관 관계를 의미한다.
Layer3(26)에서는 main서버와 web서버간의 상관 관계를 추출할 수 있다. 도시된 예시는 bdawas1서버와 bdaweb1서버의 성능 데이터 간의 상관 관계를 추출한 일부 결과이다. Layer4(28)에서는 main서버와 db서버간의 상관 관계를 추출할 수 있다. 도시된 예시는 bdawas1서버와 bdadb1 서버의 성능 데이터 간의 상관 관계를 추출한 일부 결과이다.
상관 관계를 추출하면 상관 계수를 산출할 수 있다. 이때, layer1(22) 내지 layer4(28)에서 추출된 상관 관계에 대해 병렬적으로 상관 계수를 산출 할 수도 있지만, layer1(22)에서의 상관 계수를 먼저 산출하여, 전체 상관 관계의 개수를 줄일 수 있다. 이는 도 6에서 상술한 바와 같다. 이하, 도 13을 참조하여 구체적 예시를 통해 설명한다.
도 13은 본 발명의 또 다른 실시예에 따른 동일 장치 내에서 중복 변수를 제거하는 방법을 설명하기 위한 예시 도면이다.
Layer1(22)에서 추출된 상관 관계에 대해 산출된 상관 계수 결과 값(305)의 일부가 도시되었다. 서버와 이상 감지 관리 대상 항목(307), 상관 관계(309), 그에 대한 상관 계수(311)가 도시되었다.
상관 계수 값은 피어슨 상관 계수 산출 법을 이용하여 산출된 값이다. 상관 계수의 값이 +1 또는 -1에 가까워 질수록 두 변수의 유사도를 높게 평가할 수 있고, 유사도가 일정 수치 이상인 경우 중복 변수로 보아, 대표 변수를 선택하고 나머지 변수는 제거하는 과정은 미리 살펴본 바와 같다.
Layer1의 상관 계수 값(305) 중 절대 값이 0.95 이상인 상관 관계를 나타내었다. 기준 수치인 0.95는 변경될 수 있음은 물론이다. ((bdawas1, CPU, cpu_runqueue), (bdawas1, CPU, cpu_runqueue_per_cpu))의 상관 계수 값은 1.0이므로, 두 변수는 양의 상관 관계로서 두 변수는 동일 하다고 판단될 수 있다. 따라서 cpu_runqueue의 성능 측정 값과 cpu_runqueue_per_cpu의 성능 측정 값은 중복 변수로 판단할 수 있고, 둘 중 어느 하나를 대표 변수로 선택하여 중복을 제거할 수 있다.cpu_runqueue를 대표 변수로 선택한다면, cpu_runqueue_per_cpu는 제거하고, 이후 다른 레이어에서 상관 관계를 추출할 때, cpu_runqueue와 다른 변수간의 상관 관계만을 고려하면 된다. 따라서 고려해야 할 상관 관계의 개수가 줄어, 이상 감지 관리 속도를 개선할 수 있다.
이제 layer1을 제외한, 나머지 layer2 내지 layer4에 대한 상관 계수 값을 산출하면 된다. 상관 계수가 산출되면, 수집된 데이터를 정상구간과 장애 구간으로 이분화 한다. 상술한 바와 같이, 이분화된 두 구간의 상관 계수 값을 비교함으로써 장애를 뚜렷하게 나타낼 수 있는 상관 계수를 추출할 수 있기 때문이다.
이상 감지 관리 장치는 분석 대상 데이터를 이분화 하고, 정상 구간에 대하여 상관 계수 값의 상, 하한의 임계치를 산출하게 되는데, 도 14를 참조하여 설명한다. 도 14는 본 발명의 몇몇 실시예에서 참조되는, 정상 구간의 상관 계수의 상, 하한 임계치를 설명하기 위한 예시 도면이다.
도 14에 layer3에서 추출된 일부 상관 관계에 대한, 정상 구간의 상관 계수 값의 상, 하한의 임계치(325)가 도시되었다. 서버의 종류와 이름(327), 상관 관계(329), 그에 대한 상, 하한 임계치 값(331)도 함께 도시 되었다.
서버의 종류를 나타내기 위하여 편의상, web은 ST01, was는 ST02, bd는 ST03으로 표시하였다. ((ST02, bdawas1, Swap, swap_usage), (ST01, bdaweb1, FileSystem, fs_used)) - (0.6902893037018849, 0.9209254537739522)를 살펴보면, was 서버 중 bdawas1서버의 Swap_usage와 web 서버 중 bdeweb1서버의 fs_used가 상관 관계가 있고, 정상 범위에서 하한 임계치는 0.6902893037018849, 상한 임계치는 0.9209254537739522임을 알 수 있다.
임계치가 산출되면, 장애 구간에서 임계치를 이탈한 상관 계수를 추출할 수 있다. 이하 도 15을 참조하여 설명한다. 도 15는 본 발명의 또 다른 실시예에 따른 장애 구간에서 임계치를 이탈한 상관 계수를 추출하는 방법을 설명하기 위한 도면이다.
예시1(410), 예시2(420)의 그래프는 서로 다른 상관 관계에 대해, 장애 구간의 상관 계수 값을 그래프로 나타낸 값이다. 총 장애 구간의 길이는 60분으로 가정한다. 정상 구간에서 산출된 임계치의 상한은 U, 하한은 L로 표시하였다.
예시1(410)에서 총 0-3구간 중 1-2구간인 a영역이 상한 임계치 값을 초과하였으므로, a영역이 임계치 이탈 구간이 된다. 총 60분의 구간에서 30분 동안 이탈하였으므로, 이탈 빈도는 30/60 = 0.5로 산출할 수 있다. 이탈 수치는 임계치에서 초과된 수치에 비례한다. 예를 들어, 임계치 이탈 시간동안의 분 단위의 상관 계수 값과 임계치와 차이 값의 평균 값을 이탈 수치로 이용할 수 있다. 예시1(410)에서 임계치를 이탈한 30분 동안의 상관 계수 값과 임계치와의 차이 값의 평균 값을 구하여, 이탈 수치 값으로 이용할 수 있다. 이탈 방향은 상한 임계치를 초과하였으므로 U가 된다.
예시2(420)에서 총 0-8구간 중 1-2구간인 b영역, 4-5구간인 c영역, 6-7구간인 d영역이 임계치 값을 초과하였다. b영역은 임계치의 상한을 초과하고, c 및 d영역은 임계치의 하한을 초과하였다. 따라서 이탈 방향이 상이한데, 상한 및 하한을 초과한 산출 계수들 중 임계치를 더 많이 초과한 방향을 선택할 수 있다. 이 경우 L방향의 산출 계수를 선택할 수 있다.
c영역 및 d영역은 각각 10분 동안 임계치를 초과하였으므로, 이탈 빈도는 20/60=0.33.. 이 되고, 이탈 수치는 상술한 방법으로 산출할 수 있다. 이처럼 다수의 상관 관계에 대하여 이탈 방향, 이탈 수치 및 이탈 빈도를 산출할 수 있으므로, 이상 감지 관리 장치는 이탈 수치 또는 이탈 빈도를 고려하여 임계치로부터 이탈 정도가 높은 상관 계수들을 선정할 수 있다. 이탈 정도가 높은 상관 계수가 선정되면, 이를 기초로 룰셋을 생성할 수 있다.
상관 계수는 두 변수의 변화 양상을 모두 반영하고 있고, 이상 감지 관리 장치는 이탈 정도가 큰 상관 계수를 선정하여 룰셋을 생성하므로, 장애를 미리 감지할 가능성이 높아지며, 오탐율을 줄일 수 있다.
도 16은 본 발명의 몇몇 실시예에서 참조되는, 룰셋을 설명하기 위한 예시 도면이다. 생성된 룰셋 예시(400)는 서버 타입, 메트릭 이름, 메인 서버인지 여부, 이탈 방향, 이탈 수치 및 이탈 빈도를 포함하여 구성될 수 있다.
도 5를 통해, 웹 서비스 시스템을 총 4개의 레이어로 분류하는 경우를 설명하였다. 룰셋 예시(500)는 상술한 4개의 레이어로 분류되는 경우에 대한 룰셋 예시로, 분류된 레이어 별로 이탈 정도가 높은 상관 계수를 4개씩 추출하여 구성되었다.
1번-4번은 main-web 레이어, 5번-8번은 main-was 레이어, 9번-12번은 main-main 레이어, 13번-16번은 main-db 레이어에서 추출된 상관 계수 기반으로 만들어진 룰셋이다.
이처럼 서로 다른 장치의 변수들을 혼합하여 상관 관계를 추출하여, 장애를 탐지할 때 장애 서버뿐 아니라, 다른 서버의 문제점도 함께 고려할 수 있게 된다. 즉, 장애의 원인이 다른 장치에 있는 경우라도 상관 계수 기반의 룰셋을 통해 장애를 미리 예측할 수 있게 되어, 이상 감지 관리의 정확도를 향상시킬 수 있게 된다.
한편, 장애 구간이 특정된 과거 분석 대상 데이터를 통해 장애 구간뿐 아니라, 장애 발생 전 일부 구간에 대한 룰셋을 생성함으로써 예측 정확도를 보다 더 높일 수 있다. 인프라스트럭쳐에서 발생할 수 있는 장애 중에서 치명적인 장애에 대하여 보다 면밀한 모니터링이 가능하게 된다. 이하, 도 17을 통해 설명한다.
도 17은 본 멸명의 또 다른 실시예에 따른, 장애 시점을 달리하여 룰셋을 생성하는 방법을 설명하기 위한 예시 도면이다. 예시3(430)은 도 15의 예시1(410)의 장애 구간을 포함하여, 정상 구간이 함께 표시된 그래프이다.
2-3구간이 예시1(410)에서의 장애 구간이며, 0-4구간에서 2-3구간을 제외한 구간이 정상 구간이다. 기존의 장애 구간인 2-3구간을 제1 장애 구간, 0-4구간에서 2-3구간을 제외한 구간인 기존의 정상 구간을 제1 정상 구간이라 한다. 제1 정상 구간에 대한 임계치는 U, L로 표시되었다.
장애 발생 전 일부 구간에 대한 룰셋을 생성하기 위해, 제1 장애 구간 직전의 일부 구간을 제1 장애 구간과 다른 제2 장애 구간을 설정할 수 있다.
구체적으로, 제1 장애 구간의 시작 점인 2 지점을 제2 장애 구간의 종료점으로 설정하고, 제2 장애 구간의 시작점은 2보다 앞선 시점으로 설정한다. 제2 장애 구간의 시간은 미리 설정될 수 있고, 장애의 치명도 등을 고려하여 정할 수 있다. 따라서 제1 장애 구간의 시작점에서 미리 지정된 시간 앞선 지점을 제2 장애 구간의 시작점으로 설정할 수 있다.
예시3(430)에서, 제2 장애 구간의 시작점은 1 지점으로 설정되었다고 가정한다. 그러면 1-2구간을 제2 장애 구간으로 설정할 수 있다. 제2 장애 구간에 대응 되는 제2 정상 구간은 전체 구간 중 제1 장애 구간 및 제2 장애 구간을 제외한 나머지 구간으로 설정할 수 있다. 그러면 제2 정상 구간은 0-1구간 및 3-4구간이 된다.
새롭게 설정된 제2 정상 구간 및 제2 장애 구간에 대해, 룰셋 생성 과정을 수행한다. 제2 정상 구간의 상관 계수에 대한 상한 및 하한의 임계치를 산출하고, 제2 장애 구간에서 제2 정상 구간에서 산출된 임계치를 이탈한 상관 계수를 추출하여 룰셋을 생성할 수 있다.
제2 정상 구간에 대한 임계치는 U', L'로 산출되었으므로, 이를 기초로 제2 장애 구간의 임계치 이탈 상관 계수 영역은 e, f영역이 된다. 이에 대한 이탈 방향, 이탈 수치 및 이탈 빈도를 산출하여 룰셋을 생성할 수 있다.
예시3(430)에서 제1 장애 구간 및 제2 장애 구간에 대한 룰셋을 생성하였으므로, 특정 장애를 감지하기 위해 2개의 룰셋을 이용할 수 있다. 이 경우, 제2 장애 구간에 대한 룰셋으로 장애를 미리 탐지할 확률이 더욱 높아진다.
이상 감지 관리 장치(100)는 새로 생성된 룰셋과 일치하는 실시간 분석 대상 데이터가 입력되면, 제1 장애 구간과 대응되는 장애에 대한 조기 경고 알림을 생성할 수 있다.
또는, 룰셋 변화를 이용하여 패턴을 추출할 수도 있다. 예를 들어, 패턴은 상관 계수의 이탈 수치 또는 이탈 빈도가 순차적으로 증가하는 패턴, 지수적으로 증가하는 패턴 등 증가 비율에 관한 패턴이나, 구체적인 수치 값의 변화 패턴을 추출할 수도 있다.
이상 감지 관리 장치가 패턴을 추출하게 되면, 미리 저장된 패턴과 실시간 수집 데이터분석 대상 데이터를 통해 추출한 패턴을 비교하는 방식으로 이상 감지 관리를 수행할 수 있다. 이 경우, 여러 장애 구간에 대한 패턴을 비교하는 것이어서, 보다 더 넓은 장애 구간을 커버할 수 있고, 특히, 장애가 서서히 발생하는 케이스에서 장애 감지율을 높일 수 있다.
지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
도 18은 본 발명의 또 다른 실시예에 따른, 이상 감지 관리 장치의 하드웨어 구성도이다.
도 18을 참고하면 이상 감지 관리 장치(100)는 하나 이상의 프로세서(510), 메모리(520), 스토리지(560) 및 인터페이스(570)을 포함할 수 있다. 프로세서(510), 메모리(520), 스토리지(560) 및 인터페이스(570)는 시스템 버스(550)를 통하여 데이터를 송수신한다.
프로세서(510)는 메모리(520)에 로드 된 컴퓨터 프로그램을 실행하고
, 메모리(520)는 상기 컴퓨터 프로그램을 스토리지(560)에서 로드(load) 한다. 상기 컴퓨터 프로그램은, 상관 계수 산출 오퍼레이션(521), 룰셋 생성 오퍼레이션(523) 및 이상 감지 관리 오퍼레이션(535)을 포함할 수 있다.
상관 계수 산출 오퍼레이션(521)은 네트워크 인터페이스(570)를 통해 이상 감지 관리 대상 인프라스트럭쳐로부터 분석 대상 데이터를 수신할 수 있다. 분석 대상 데이터와 스토리지의 기준 정보(563)을 참조하여, 토폴로지를 기반으로 상관 관계를 추출할 수 있다. 추출한 상관 관계에 대한 상관 계수는 설정 사항 정보(565)를 참조하여 추출할 수 있다.
룰셋 생성 오퍼레이션(523)은 산출된 상관 계수를 상관 계수 산출 오퍼레이션(521)을 통해 수신 받아, 설정 사항 정보(565)를 참조하여, 룰셋 생성 기준에 맞는 상관 계수를 선정하여, 룰셋을 생성할 수 있다. 생성된 룰셋은 스토리지(560)의 룰셋 정보(561)에 저장된다.
이상 감지 관리 오퍼레이션(525)는 상관 계수 산출 오퍼레이션(521)을 통해 처리된 실시간 분석 대상 데이터를 수신 받아, 룰셋 정보(561)와 비교하여, 인프라스트럭쳐에 대한 이상 감지 관리를 수행 할 수 있다.
스토리지(560)는 룰셋 정보(561), 기준 정보(563), 설정 사항 정보(565)를 포함할 수 있다.
룰셋 정보(561)는 과거 분석 대상 데이터를 기반으로 생성된 룰셋이 저장될 수 있다. 상기 룰셋은 이상 감지 관리를 위한 기준 데이터로서 기능할 수 있다. 기준 정보(563)는 분석 대상 데이터에 관련된 정보이고, 설정 사항 정보(565)는 상관 계수 산출 방법, 룰셋 선정 등을 포함하는 기타의 설정사항을 포함할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (10)

  1. 이상 여부 감지 대상인 복수 개의 장치 각각에 의하여 생성된 분석 대상 데이터를 입력 받는 단계;
    상기 복수 개의 장치 중에서 상관 계수를 추출할 제1 장치 및 제1 장치와 다른 제2 장치를 결정하는 단계;
    상기 제1 장치의 분석 대상 데이터에 포함된 변수와 상기 제2 장치의 분석 대상 데이터에 포함된 변수 사이의 제1 상관 계수를 추출하는 단계; 및
    상기 제1 상관 계수를 기초로 상기 복수 개의 장치의 이상 여부를 감지하는 단계를 포함하는 이상 감지 관리 방법.
  2. 제 1항에 있어서,
    상기 복수 개의 장치 중 하나의 장치에 의해 생성된 분석 대상 데이터에 포함된 변수 사이의 제2 상관 계수를 산출 하는 단계; 및
    상기 제2 상관 계수가 기 정해진 기준을 만족하는 경우, 상기 제2 상관 계수를 구성하는 변수 중 대표 변수를 선택하고 중복 변수를 제거하는 단계를 더 포함하는 이상 감지 관리 방법.
  3. 제 1항에 있어서,
    상관 계수를 추출할 제1 장치 및 제1 장치와 다른 제2 장치를 결정하는 단계는,
    상기 복수 개의 장치의 토폴로지를 이용하여, 상기 복수 개의 장치 중 장애가 발생한 장치를 포함하는 레이어를 정의하는 단계; 및
    상기 정의된 레이어를 구성하는 장치를 각각 제1 장치 및 제2 장치로 결정하는 단계를 포함하는 이상 감지 관리 방법.
  4. 제 1항에 있어서,
    상기 분석 대상 데이터를 제1 정상 구간 및 제1 장애 구간으로 이분화 하는 단계;
    상기 제1 정상 구간에서 산출된 제1 상관 계수의 상한 및 하한의 제1 임계치를 산출하는 단계;
    상기 제1 장애 구간에서 산출된 제1 상관 계수 중, 상기 제1 임계치를 이탈한 제3 상관 계수를 추출하는 단계; 및
    상기 제1 임계치를 이탈한 제3 상관 계수를 이용하여 제1 룰셋을 생성하는 단계를 더 포함하는 이상 감지 관리 방법.
  5. 제 4항에 있어서,
    상기 룰셋을 생성하는 단계는,
    상기 제1 임계치를 이탈한 제3 상관 계수 중 기 정해진 기준에 의해 선정된 일부 상관 계수를 이용하여 생성하되,
    상기 기 정해진 기준은 이탈 정도가 기 지정된 수치 이상인 것인 이상 감지 관리 방법.
  6. 제 4항에 있어서,
    상기 룰셋을 생성하는 단계는,
    상기 제1 임계치를 이탈한 제3 상관 계수 중 기 정해진 기준에 의해 선정된 일부 상관 계수를 이용하여 생성하되,
    상기 기 정해진 기준은 이탈 빈도가 기 지정된 수치 이상인 것인 이상 감지 관리 방법.
  7. 제 4항에 있어서,
    상기 이상 여부를 감지 하는 단계는,
    상기 복수 개의 장치 각각에 의하여 생성된 실시간 분석 대상 데이터를 입력 받는 단계;
    상기 실시간 분석 대상 데이터로부터 상기 제1 상관 계수에 대응되는 제4 상관 계수를 산출하는 단계;
    상기 제4 상관 계수 중 상기 제1 임계치를 이탈한 제4 상관 계수를 추출하는 단계; 및
    상기 제1 임계치를 이탈한 제4 상관 계수를 이용하여 산출한 데이터가 상기 제1 룰셋과 일치하는 경우, 상기 제1 룰셋에 대응되는 장애 알림을 생성하고,
    상기 제1 임계치를 이탈한 제4 상관 계수를 이용하여 산출한 데이터가 가 상기 제1 룰셋과 일치하지 않는 경우, 신규 장애 감지 알림을 생성하는 단계를 포함하는 이상 감지 관리 방법.
  8. 제 4항에 있어서,
    상기 제1 정상 구간 중 상기 제1 장애 구간의 시작점에서 기 지정된 시간 앞선 지점을 제2 장애 구간의 시작점으로 설정하고, 상기 제1 장애 구간의 시작점을 제2 장애 구간의 종료점으로 설정하는 단계;
    상기 제1 정상 구간에서 상기 제1 장애 구간 및 상기 제2 장애 구간을 제외한 구간을 제2 정상 구간으로 설정하는 단계;
    상기 제2 정상 구간에서 산출된 제1 상관 계수의 상한 및 하한의 제2 임계치를 산출하는 단계;
    상기 제2 장애 구간에서 산출된 제1 상관 계수 중 상기 제2 임계치를 이탈한 제5 상관 계수를 추출하는 단계; 및
    상기 제5 상관 계수를 이용하여 제2 룰셋을 생성하는 단계를 더 포함하는 이상 감지 관리 방법.
  9. 제 8항에 있어서,
    상기 제1 룰셋과 상기 제2 룰셋을 이용하여, 룰셋 패턴을 생성하는 단계를 더 포함하는 이상 감지 관리 방법.
  10. 제 8 항에 있어서,
    상기 이상 여부를 감지 하는 단계는,
    상기 제4 상관 계수 중 상기 제2 임계치를 이탈한 제4 상관 계수를 추출하는 단계; 및
    상기 제2 임계치를 이탈한 제4 상관 계수를 이용하여 산출한 데이터가 상기 제2 룰셋과 일치하는 경우, 상기 제1 룰셋에 대응되는 장애에 대한 조기 경고 알림을 생성하는 단계를 포함하는 이상 감지 관리 방법.
KR1020160141945A 2016-10-28 2016-10-28 이상 감지 관리 방법 및 그 장치 KR102440335B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160141945A KR102440335B1 (ko) 2016-10-28 2016-10-28 이상 감지 관리 방법 및 그 장치
US15/789,075 US20180121275A1 (en) 2016-10-28 2017-10-20 Method and apparatus for detecting and managing faults

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160141945A KR102440335B1 (ko) 2016-10-28 2016-10-28 이상 감지 관리 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20180046598A true KR20180046598A (ko) 2018-05-09
KR102440335B1 KR102440335B1 (ko) 2022-09-02

Family

ID=62022292

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160141945A KR102440335B1 (ko) 2016-10-28 2016-10-28 이상 감지 관리 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20180121275A1 (ko)
KR (1) KR102440335B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177485A (zh) * 2019-12-16 2020-05-19 中建材智慧工业科技有限公司 基于参数规则匹配设备故障的预测方法、设备及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472461B (zh) * 2018-10-18 2021-10-01 中国铁道科学研究院集团有限公司基础设施检测研究所 接触网区段质量确定方法及装置
CN110311709B (zh) * 2019-06-10 2022-05-24 国网浙江省电力有限公司嘉兴供电公司 用电信息采集系统故障判别方法
US11182269B2 (en) * 2019-10-01 2021-11-23 International Business Machines Corporation Proactive change verification
JP7211349B2 (ja) * 2019-11-29 2023-01-24 トヨタ自動車株式会社 路面損傷検出装置、路面損傷検出方法、プログラム
CN112233420B (zh) * 2020-10-14 2023-12-15 腾讯科技(深圳)有限公司 一种智能交通控制系统的故障诊断的方法及装置
CN112731022B (zh) * 2020-12-18 2023-06-23 阳光智维科技股份有限公司 光伏逆变器故障检测方法、设备及介质
CN113670536B (zh) * 2021-07-06 2024-03-05 浙江浙能台州第二发电有限责任公司 火电厂用电用水监测和信息化管理方法
CN115600130B (zh) * 2022-11-15 2023-03-07 山东锦弘纺织股份有限公司 一种基于数据分析的胶合板复合胶装设备运行管控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241572A (ja) * 2006-03-07 2007-09-20 Osaka Gas Co Ltd 設備監視システム
KR101331579B1 (ko) 2013-07-16 2013-11-20 (주) 퓨처파워텍 피어슨 상관계수 분석기법을 적용한 고장진단 예측 및 잔존 수명 관리 자동제어 시스템
JP2015072512A (ja) * 2013-10-01 2015-04-16 大阪瓦斯株式会社 プラント設備異常診断装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928472B1 (en) * 2002-07-23 2005-08-09 Network Physics Method for correlating congestion to performance metrics in internet traffic
US7206335B2 (en) * 2002-10-02 2007-04-17 Interdigital Technology Corporation Optimum interpolator method and apparatus for digital timing adjustment
WO2010137184A1 (ja) * 2009-05-29 2010-12-02 株式会社ユニバーサルエンターテインメント ゲームシステム
US8576969B1 (en) * 2010-06-16 2013-11-05 Marvell International Ltd. Method and apparatus for detecting sync mark
US9857266B2 (en) * 2014-02-04 2018-01-02 Ford Global Technologies, Llc Correlation based fuel tank leak detection
US9658910B2 (en) * 2014-07-29 2017-05-23 Oracle International Corporation Systems and methods for spatially displaced correlation for detecting value ranges of transient correlation in machine data of enterprise systems
WO2016027297A1 (ja) * 2014-08-18 2016-02-25 株式会社日立製作所 データ処理システムおよびデータ処理方法
DE112016005697T5 (de) * 2016-01-15 2018-09-06 Mitsubishi Electric Corporation Vorrichtung, Verfahren und Programm zur Planerzeugung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241572A (ja) * 2006-03-07 2007-09-20 Osaka Gas Co Ltd 設備監視システム
KR101331579B1 (ko) 2013-07-16 2013-11-20 (주) 퓨처파워텍 피어슨 상관계수 분석기법을 적용한 고장진단 예측 및 잔존 수명 관리 자동제어 시스템
JP2015072512A (ja) * 2013-10-01 2015-04-16 大阪瓦斯株式会社 プラント設備異常診断装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177485A (zh) * 2019-12-16 2020-05-19 中建材智慧工业科技有限公司 基于参数规则匹配设备故障的预测方法、设备及介质

Also Published As

Publication number Publication date
US20180121275A1 (en) 2018-05-03
KR102440335B1 (ko) 2022-09-02

Similar Documents

Publication Publication Date Title
KR20180046598A (ko) 이상 감지 관리 방법 및 그 장치
JP7017861B2 (ja) 異常検知システムおよび異常検知方法
CN110286656B (zh) 一种错误数据容忍的虚警过滤方法和装置
WO2017154844A1 (ja) 分析装置、分析方法および分析プログラム
CN117114454B (zh) 一种基于Apriori算法的直流套管状态评估方法及系统
JP7526807B2 (ja) 油井最適化のためにワックス/水和物の蓄積を予測する油井モデルを開発・展開するためのシステムおよび方法
US20070239629A1 (en) Cluster Trending Method for Abnormal Events Detection
JP2021056927A (ja) 異常検知装置、異常検知方法および異常検知プログラム
US9524223B2 (en) Performance metrics of a computer system
US11640459B2 (en) Abnormality detection device
JP2020052714A5 (ko)
WO2023065584A1 (zh) 设备的剩余使用寿命的确定方法、装置和电子设备
CN112905371B (zh) 基于异构多源数据异常检测的软件变更检查方法和装置
KR101893563B1 (ko) 사물인터넷 기반 화재 블랙박스 시스템 및 그 운용 방법
CN115225460A (zh) 故障判定方法、电子设备和存储介质
US20190164067A1 (en) Method and device for monitoring a process of generating metric data for predicting anomalies
CN118174788B (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质
CN118378155A (zh) 一种智能化中间件的故障检测方法及系统
CN116248532A (zh) 网络异常检测方法、网络异常检测装置及电子设备
CN106652393B (zh) 假警报确定方法及装置
CN116991947B (zh) 一种自动化数据同步方法及系统
KR102108975B1 (ko) 함정설비의 상태기반 정비 지원 장치 및 방법
JP2005182647A (ja) 機器の異常検知装置
JP7062505B2 (ja) 設備管理支援システム
Zhang et al. A novel key performance indicator oriented process monitoring method based on multiple information extraction and support vector data description

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant