KR101984730B1 - 서버 장애 자동 예측 시스템 및 자동 예측 방법 - Google Patents

서버 장애 자동 예측 시스템 및 자동 예측 방법 Download PDF

Info

Publication number
KR101984730B1
KR101984730B1 KR1020180126561A KR20180126561A KR101984730B1 KR 101984730 B1 KR101984730 B1 KR 101984730B1 KR 1020180126561 A KR1020180126561 A KR 1020180126561A KR 20180126561 A KR20180126561 A KR 20180126561A KR 101984730 B1 KR101984730 B1 KR 101984730B1
Authority
KR
South Korea
Prior art keywords
model
failure
data
prediction
server
Prior art date
Application number
KR1020180126561A
Other languages
English (en)
Inventor
최승호
노재춘
김경훈
서형준
김재환
Original Assignee
(주) 글루시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 글루시스 filed Critical (주) 글루시스
Priority to KR1020180126561A priority Critical patent/KR101984730B1/ko
Priority to US16/271,837 priority patent/US10877863B2/en
Application granted granted Critical
Publication of KR101984730B1 publication Critical patent/KR101984730B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

본 발명은 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 단일 서버 상태 데이터를 이용해 시스템의 장애를 예측하고 경고하는 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것이다.
본 발명에 따르는 서버 장애 자동 예측 시스템은 타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈; 수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및 최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하는 것을 구성적 특징으로 한다.

Description

서버 장애 자동 예측 시스템 및 자동 예측 방법{Automatic predicting system for server failure and automatic predicting method for server failure}
본 발명은 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것으로, 특히, 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 단일 서버 상태 데이터를 이용해 시스템의 장애를 예측하고 경고하는 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것이다.
기계 학습 기법을 이용해 최적의 서버 장애 예측 모델을 생성하기 위해서는 데이터를 적절하게 전처리하고, 모델 파라미터 학습뿐만 아니라 모델 설계와 관련된 하이퍼-파라미터(hyper-parameter)를 최적화해주어야 한다.
하이퍼-파라미터는 사람들이 선험적 지식을 기반으로 설정하거나, 외부 모델 메커니즘을 통해 자동설정되는 변수로서, 메타 파라미터(meta parameter)로도 불리며, 대표적인 하이퍼-파라미터로는 학습 진도율(learning rate), 비용 함수(cost function), 정규화 파라미터(regularization parameter), 미니 배치(mini-batch) 크기, 학습 반복 회수, 은닉 유닛(hidden unit) 개수, 가중치 초기화(weight initialization)가 있다.
즉, 기계 학습 기법을 이용해 최적의 서버 장애 예측 모델을 생성하는 것은 다양한 전처리 기법뿐만 아니라 여러 하이퍼-파라미터 값을 적용하여, 다양한 모델을 생성, 학습, 평가, 비교함으로써 수행되기 때문에, 사용자의 개입을 많이 요구하게 되며, 각각의 과정은 사용자의 직관에 의해 결정되기 때문에 좋은 성능의 예측 모델 추출을 어렵게 한다.
종래의 장애 예측 모델 최적화를 위한 기술은 1) 여러 분류 알고리즘 비교 기술, 2) 예측에 적합한 데이터 전처리 기술, 3) 데이터 전처리 기술과 분류 알고리즘의 조합 기술의 측면에서 연구/발전되어 왔다.
여러 분류 알고리즘 비교 기술면에서, 기존 연구들에서는 데이터를 설명하는 가설을 기반으로 하는 통계적 모델 및, 학습 이론 기반의 기계 학습 모델을 각각 생성하여 성능을 비교하였는데, 최근에는 복잡한 데이터로 인해 통계적 모델보다는 기계 학습 모델이 좀 더 좋은 성능을 보여고 있다. 대표적으로 예측에 활용되는 기계 학습 모델로는 서포트 벡터 머신(Support Vector Machine, SWM), 랜덤 포레스트(Random Forest)가 있다. 최근에는 신경망 기반의 예측 모델이 점차적으로 도입되고 있으며, 이러한 기계 학습 모델들은 모두 이미지, 음성과 같은 분야에서 성능이 검증되었다. 장애 예측 분야에서도 해당 모델들이 좋은 분류 성능을 보여주었으며, 일반적으로 활용되는 모델이 되었다. 하지만 이러한 모델이 적절하게 동작하기 위해서는 데이터 전처리와 하이퍼-파라미터 값이 데이터에 맞게 적용되어야 하나, 장애 예측 분야에서는 이러한 과정이 사용자의 직관에 의해 경험적으로 수행되기 때문에 최적화되는데 한계가 있다.
예측 모델을 최적화하기 위한 데이터 전처리 기술면에서, 데이터 전처리는 특징 추출, 변환 및 선별의 과정을 적절하게 조합함으로써 수행되며, 대표적으로 로그를 필터링, 분류하는 것이 그 예이다(대한민국 특허 제1758870호 "마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법"). 그러나, 하지만 이러한 기법은 데이터 전처리 과정과 분류 과정이 각각 단계별로 최적화되며, 전체적인 과정이 최적화되지는 않는다. 최근 기계 학습에서는 통째 학습(end-to-end learning)을 통해 데이터 전처리와 분류 과정을 전체적으로 최적화함으로써 뛰어난 성능을 보여주었지만, 장애 예측 기법에 적용된 바를 찾을 수 없다.
데이터 전처리 기술과 분류 알고리즘을 조합하면, 사용자의 개입을 최소화하고 여러 알고리즘을 자동으로 비교하여 우수한 장애 예측 모델을 생성할 수 있지만, 적용할 하이퍼-파라미터 및 분류 알고리즘의 경우의 수가 너무 많아, 계산 비용이 너무 많게 되며, 따라서 가능한 분류 알고리즘 셋의 일부만을 적용해서 장애 예측 모델을 생성하여 왔다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 데이터 전처리와 하이퍼-파라미터를 학습하는 자동화된 기계 학습을 활용하여, 분류기에 적합한 데이터 전처리 과정을 학습하고, 확률 이론에 기반하여 전략적으로 하이퍼-파라미터 값을 탐색함으로써, 자동으로 최적화된 예측 모델을 생성 및 적용해주는 서버 장애 자동 예측 시스템을 제공하는 것이다.
본 발명의 목적은 장애와 관련된 데이터를 가능한 많이 수집하여, 관리하고 제공하는 서버 장애 자동 예측 시스템을 제공하는 것이다.
본 발명의 목적은 서버 장애 자동 예측 모델 생성 및 최적화를 자동화하여 사용자의 개입을 최소화하는 서버 장애 자동 예측 시스템을 제공하는 것이다.
본 발명의 목적은 데이터 전처리 과정이 특징 학습을 통해 자동화되고, 전처리와 장애 예측이 별개가 아닌 동시에 최적화되는 서버 장애 자동 예측 시스템을 제공하는 것이다.
본 발명의 목적은 서버 장애 자동 예측 모델 설계 및 학습에 적용되는 하이퍼-파라미터 값을 전략적으로 탐색함으로써 최적화에 필요한 비용을 줄이고, 중요 하이퍼-파라미터의 경우 좀 더 미세하게 조정하여 최적화된 서버 장애 자동 예측 시스템을 제공하는 것이다.
본 발명에 따르는 서버 장애 자동 예측 시스템은
타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈;
수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및
최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하는 것을 구성적 특징으로 한다.
본 발명에 따르는 서버 장애 자동 예측 시스템은 서버의 장애를 사전에 예측하여 이로 인한 피해를 사전에 방지할 수 있도록 하고, 장애 예측을 자동화함으로써 예측을 위한 기계 학습 적용 및 장애 예측 모델 관리의 어려움을 최소화할 수 있다.
도1은 본 발명에 따르는 서버 장애 자동 예측 시스템의 구조를 개략적으로 나타내는 블록도이다.
도2는 본 발명에 따라 사용자가 제출하는 모델 설정 형식의 일 예 및 제출 과정을 나타내는 블록도이다.
도3은 CNN 기반 장애 예측 모델의 구성을 개략적으로 나타내는 도면이다.
도4는 본 발명에 따르는 장애 예측 모델 생성 및 최적화 과정을 나타내는 블록도이다.
도5는 본 발명에 따르는 온라인 장애 예측 과정을 나타내는 도면이다.
본 발명에 따르는 서버 장애 자동 예측 시스템은 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 데이터를 이용해 시스템의 장애를 예측하고 경고하며, 자동화된 기계 학습 기법을 이용해 자동으로 최적화된 장애 예측 모델을 생성하여 시스템의 장애 예측에 적용할 수 있다.
이하, 첨부된 도면들을 참조로, 본 발명에 따른 실시예를 상세히 설명한다.
도1은 본 발명에 따르는 서버 장애 자동 예측 시스템의 구조를 개략적으로 나타내는 블록도이다.
본 발명에 따르는 서버 장애 자동 예측 시스템의 구조는 데이터 수집 모듈(data collection module, 100), 모델 생성 및 최적화 모듈(model generation and optimization module, 200), 예측 모듈(prediction module, 300)을 포함한다.
데이터 수집 모듈(100)에서는 시스템을 구성하는 서버들과 서비스의 상태 정보들을 수집하고, 장애 발생 시 해당 이벤트를 추출한다. 장애 관련 데이터가 수집되면 사용자는 예측할 값과 예측 모델을 정의하여 프레임워크에 제출한다. 모델 생성 및 최적화 모듈(200)에서는 사용자가 정의한 모델을 수집된 데이터를 이용하여 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화한다. 최적화된 모델은 저장소에 저장되며 이를 예측 모듈(300)에 알려 해당 모델을 이용하여 온라인 장애 예측을 수행하고, 장애 발생을 예측한 경우에는 이를 사용자에게 경고한다.
각각의 모듈의 구성은 다음과 같다.
데이터 수집 모듈(100)
데이터 수집 모듈(100)은 모니터링 에이전트(110), 장애 탐지기(120) 및 데이터 탐색기(130)로 구성된다.
모니터링 에이전트(monitoring agent, 110)는 타겟 시스템을 구성하는 컴포넌트와 서비스의 상태 정보를 검출 플러그인(detection plugin)에 의해 주기적으로 수집한다. 수집된 데이터는 메시지 큐(message queue)를 통해 안정적으로 관리되어 시계열 데이터베이스(140)에 저장되거나 온라인 장애 예측에 활용된다.
장애 예측 모델을 생성하기 위해서는 장애 데이터를 학습시켜야 하는데, 장애 데이터가 많을수록 더 좋은 예측 모델을 생성할 수 있기 때문에, 장애 탐지기(failure detector, 120)는 타겟 시스템에서 발생하는 장애 데이터를 탐지하여 기존의 장애 예측 모델을 개선하거나, 향후 새로운 모델을 생성하는 데 활용할 수 있다. 본 발명에 따르는 서버 장애 자동 예측 시스템은 로그(log) 오류가 발생할 경우 장애 데이터를 탐지한다.
데이터 탐색기(Data Explorer, 130)는 수집되는 데이터를 사용자가 확인하고 데이터 분포 및 상관 관계와 같은 기본적인 분석을 할 수 있도록 하는데, 시스템 관리자는 이를 활용해 장애 예측 결과를 분석하여 장애에 적절히 대응할 수 있다.
모델 생성 및 최적화 모듈(200)
모델 생성 및 최적화 모듈(200)은 설정 해석기(Configuration Interpreter, 210), 최적화기(Optimizer, 220) 및 예측기 저장소(Predictor Repository, 230)로 구성된다.
설정 해석기(210)는 사용자가 예를 들어 도2와 같은 모델 설정 정보를 제출할 경우, 제출된 모델 설정 정보를 해석하고, 다수의 최적화기(220)를 생성하여, 해석된 모델 설정 정보를 최적화기(220)에 전달한다.
최적화기(220)는 이를 기반으로 예측 모델을 생성하고, 기계 학습과 하이퍼-파라미터 튜닝 기법을 적용하여 모델을 최적화한다. 최적화된 모델이 특정 성능, 즉 특정 수준의 장애 예측 성능을 만족한다면 해당 모델은 예측기 저장소(230)에 저장된다.
예측 모듈(300)
예측 모듈(300)은 예측기 로더(Predictor Loader, 310)와 다수의 온라인 예측기(Online Predictor, 320)로 구성된다. 예측기 로더(310)는 새로운 예측 모델이 업데이트되었다는 알림을 최적화기(220)로부터 받으면, 예측기 저장소(230)로부터 해당 모델을 호출하여 온라인 예측기(320)를 생성한다. 온라인 예측기(320)는 현재 수집되는 시스템 정보를 받아 장애를 예측하고, 장애 발생 확률이 일정 한계를 넘을 경우 사용자에게 경고한다.
이상 설명한 바와 같은 서버 장애 자동 예측 시스템을 기반으로 하는, 본 발명의 장애 예측 모델은 CNN(Convolution Neural Network, 합성곱 신경망)을 기반으로 한다.
장애 예측 모델은 타겟 시스템의 상태 데이터를 입력으로 현재 시스템의 상태를 판별하여 다가올 미래의 장애를 예측한다. 이러한 예측 모델은 크게 데이터 입력, 데이터 전처리, 분류 알고리즘에 의해 정의된다.
도3에 도시된 바와 같이, CNN 기반 예측 모델에 입력되는 데이터는 데이터 수집 모듈(100)을 통해 저장된, 시스템을 구성하는 서버들과 동작중인 서비스의 상태를 수치화한 데이터이다. 이는 시간 변화에 따른 시스템의 상태를 나타내는 시계열 형식의 데이터이다. 예측 모델은 이를 특정 시간 단위로 묶어 일정 시간 후의 장애를 예측한다. 때문에 묶는 시간 단위에 따라 수십에서 수백 개의 특징 값이 예측 모델에 입력된다.
CNN 기반 예측 모델은 입력된 시계열 데이터에 특징 추출 및 변환을 통한 데이터 전처리를 수행하고, 전처리된 데이터를 이용해 가까운 미래의 장애 발생 여부를 분류한다.
CNN 기반 예측 모델은 컨볼루션 계층(Convolution layer), 풀링 계층(Pooling layer), 히든 계층(hidden layer), 출력 계층(output layer)으로 이루어져 있으며, 컨볼루션 계층 및 풀링 계층에서 데이터 전처리, 즉 특징 추출 및 변환이 이뤄진다. 그 중, 컨볼루션 계층은 컨볼루션 특징을 추출하는 층으로서 의미있는 특징들을 추출하기 위한 계층이고, 풀링 계층은 컨볼루션 특징을 줄이기 위해 서브샘플링(subsampling)을 하는 계층이다. 또한, 출력 계층은 컨볼루션 계층 및 풀링 계층에서 전처리된 데이터를 이용해 장애 발생 여부를 분류한다.
이와 같은 CNN 기반 예측 모델은 일반적으로는 분류에 활용되는 구조이며, 예측 모델에 적합한 데이터 전처리 과정을 특징 학습을 통해 자동화하고, 전처리와 예측이 동시에 이뤄지도록 하여, 데이터에 더 적절한 전처리 과정을 수행하고 사용자의 전처리 비용을 줄일 수 있으며, 입력 데이터는 다양한 시스템 상태 값들의 시계열 형태이기 때문에 많은 양의 데이터를 포함하므로 컨볼루션 연산으로 처리하기에 적절하다. 따라서 전술한 CNN 기반 예측 모델은 이하 논의되는 최적화 과정과 함께 최종적인 장애 예측 모델을 생성할 수 있다.
본 발명에 따르는 서버 장애 자동 예측 시스템은 데이터 수집 모듈(100)을 통해 수집한 데이터를 이용해 단일 서버의 장애 예측 모델을 생성하고, 생성된 모델을 확률 알고리즘에 기반하여 전략적으로 최적화함으로써 생성된다.
이상 설명한 바와 같은 본 발명에 따르는 서버 장애 자동 예측 시스템을 이용하여 서버 장애를 자동으로 예측하는 방법은 데이터 수집부터 예측 모델 생성, 최적화 및 적용 과정을 전반적으로 자동화하는 것을 특징으로 하며, 구체적으로, 수집 모듈을 통해 데이터를 수집하는 단계, 최적화기를 통해 장애 예측 모델을 생성하고 최적화하는 단계, 생성된 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계에 의해 이뤄진다.
즉, 데이터를 수집하는 단계는 데이터 수집 모듈(100)의 모니터링 에이전트(110)에 의해 수행된다. 사용자가 예측하고자 하는 타겟 시스템에 모니터링 에이전트(110)를 구성하면, 모니터링 에이전트(110)는 기본적으로 운영체제를 통해 시스템 자원의 데이터를 주기적으로 수집한다. 수집되는 데이터 형태는 데이터 이름과 수치 값을 나타내는 키-값(Key-Value)이며, 일반적으로 메트릭(Metric)이라 불린다. 수집 대상이 되는 시스템 자원은 주메모리, 보조메모리, 네트워크, CPU이며, 각 자원의 자원 정보, 속도, 사용/가용률을 나타낸다. 또한, 모니터링 에이전트(110)는 타겟 시스템에서 동작중인 서비스 상태 정보를 주기적으로 추적하여 수집함으로써, 특정 서비스에 더 적합한 장애 예측을 수행할 수 있다.
장애 예측 모델을 생성하고 최적화하는 단계는 최적화기(220)를 통해 수행되는데, 도4에 도시된 바와 같이 예측 모델 생성, 예측 모델 파라미터 학습, 하이퍼-파라미터 튜닝, 예측 모델 평가 단계를 포함한다. 즉, 최적화기(220)는 예측 모델 설정 값을 기반으로 모델을 생성하고, 생성된 예측 모델을 학습하고 하이퍼-파라미터를 튜닝하며, 학습된 예측 모델과 튜닝된 예측 모델을 평가하여 과적합(overfitting)을 방지하고 일정 성능 이상의 예측 모델을 추출한다.
예측 모델 생성 및 최적화를 위해 수집 모듈(100)의 모니터링 에이전트(110)에 의해 수집되는 이력 데이터(historical data)는 훈련 데이터(training data), 검증 데이터(validation data), 및 테스트 데이터(test data)로 분류된다. 훈련 데이터는 모델 파라미터를 최적화하고, 검증 데이터는 하이퍼-파라미터를 최적화하기 위해 사용된다. 테스트 데이터는 최적화된 각각의 모델의 성능을 평가하고 적절한 수준에서 학습을 중단, 즉 적절한 수준 이상일 경우 학습을 중단할 수 있도록 해준다. 이와 같이 데이터를 구분함으로써, 모델 성능 평가에 사용되는 테스트 데이터가 최적화에 사용되거나, 모델 파라미터에 사용된 데이터가 하이퍼-파라미터 최적화에 사용되는 것을 막고, 결과적으로 모델이 특정 데이터에만 과잉적합(overfitting)되는 것을 방지한다.
본 발명에서 최적화에 사용되는 알고리즘은 베이지안 최적화(Bayesian Optimization)이며, 특히 가우시안 프로세스(Gaussian Process) 기반의 최적화를 적용한다. 이는 확률 이론에 기반하여 전략적으로 높은 성능의 하이퍼-파라미터 값을 추적한다. 추적 과정은 다음과 같다. 측정한 일부 하이퍼-파라미터에 대한 예측 모델의 성능에 정규 분포를 기반으로 다른 하이퍼-파라미터 적용 시의 성능을 추정하고 성능 개선의 가능성이 높은 지점을 확률적으로 계산하여 탐색함으로써 좀 더 빨리 좋은 하이퍼-파라미터를 찾을 수 있도록 해준다.
생성된 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계는 도5에 도시된 바와 같이 각각의 예측기(320)에 의해 수행된다. 최적화기(220)에 의해 최적화되어 채택된 예측 모델은 예측기 저장소(230)에 저장된다. 동시에 최적화기(220)가 최적화된 예측 모델이 예측기 저장소(230)에 업데이트되었음을 예측기 로더(310)에 보고하면, 예측기 로더(310)는 예측기 저장소(230)에 저장된 예측 모델을 로딩하여 온라인 예측기(320)를 생성한다. 각각의 온라인 예측기(320)는 모니터링 에이전트(110)로부터 시스템 상태 데이터를 취득하여 현재 시스템의 장애를 예측하며 결과를 저장한다.
전술한 바와 같이, 본 발명에 따르는 서버 장애 자동 예측 시스템은 데이터 수집부터 예측 모델 생성 및 실제 시스템에 장애 예측 적용까지의 과정을 통합적으로 제공하여 실질적인 모델 생성을 위한 사용자의 개입 비용을 최소화할 수 있다. 또한, 확률 이론에 기반하여 전략적으로 하이퍼-파라미터 값을 최적화하기 때문에 최적화 비용을 줄여주고, 좀 더 우수한 하이퍼-파라미터 값을 추출할 확률을 높여주고, 결과적으로 적은 비용으로 더 좋은 예측 모델을 생성할 수 있도록 한다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술분야에서 통상의 지식을 갖는 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 게시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이런 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (6)

  1. 타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈;
    수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및
    최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하고,
    상기 데이터 수집 모듈은
    타겟 시스템의 서버 및 작동중인 서비스의 상태 정보를 검출 플러그인에 의해 주기적으로 수집하는 모니터링 에이전트;
    타겟 시스템의 서버의 로그 오류가 발생할 경우 장애 데이터를 감지하는 장애 탐지기; 및
    수집된 데이터를 확인 및 분석하는 데이터 탐색기를 포함하는 것을 특징으로 하는
    서버 장애 자동 예측 시스템.
  2. 삭제
  3. 제1항에 있어서,
    모델 생성 및 최적화 모듈은
    모델 설정 정보를 해석하여 최적화기에 전달하는 설정 해석기;
    해석된 모델 설정 정보를 기반으로 예측 모델을 생성하고, 기계 학습과 하이퍼-파라미터 튜닝 기법을 적용하여 모델을 최적화하고, 장애 예측 성능을 평가하는 최적화기; 및
    최적화된 모델을 저장하는 예측기 저장소를 포함하는 것을 특징으로 하는
    서버 장애 자동 예측 시스템.
  4. 제1항에 있어서,
    예측 모듈은
    새로운 예측 모델이 업데이트되었다는 알림을 최적화기로부터 받으면, 예측기 저장소로부터 해당 모델을 호출하여 온라인 예측기를 생성하는 예측기 로더; 및
    현재 작동중인 시스템 정보를 받아 장애를 예측하고, 장애 발생 확률이 일정 한계 값을 넘을 경우 사용자에게 경고하는 다수의 온라인 예측기를 포함하는 것을 특징으로 하는
    서버 장애 자동 예측 시스템.
  5. 훈련 데이터, 검증 데이터, 테스트 데이터를 포함하고, 시스템 자원 및 동작중인 서비스의 상태를 나타내는 이력 데이터를 데이터 수집 모듈의 모니터링 에이전트를 통해 수집하는 단계;
    모델 설정 값을 기반으로 최적화기를 통해 CNN 기반 장애 예측 모델을 생성하고 최적화하는 단계; 및
    생성된 CNN 기반 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계를 포함하고,
    장애 예측 모델을 생성하고 최적화하는 단계는
    예측 모델 설정 값을 기반으로 CNN 기반 장애 예측 모델을 생성하는 단계;
    훈련 데이터를 사용하여 CNN 기반 장애 예측 모델의 파라미터를 학습하는 단계;
    검증 데이터를 사용하여 하이퍼-파라미터를 튜닝하는 단계; 및
    테스트 데이터를 사용하여 CNN 기반 장애 예측 모델을 평가하는 단계를 추가로 포함하는 것을 특징으로 하는
    서버 장애 자동 예측 방법.
  6. 제5항에 있어서,
    이력 데이터의 형태는 데이터 이름과 수치 값을 나타내는 키-값(Key-Value)이며, 데이터수집 대상이 되는 시스템 자원은 주메모리, 보조메모리, 네트워크, CPU이며, 각 자원의 자원 정보, 속도, 사용률인 것을 특징으로 하는
    서버 장애 자동 예측 방법.
KR1020180126561A 2018-10-23 2018-10-23 서버 장애 자동 예측 시스템 및 자동 예측 방법 KR101984730B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180126561A KR101984730B1 (ko) 2018-10-23 2018-10-23 서버 장애 자동 예측 시스템 및 자동 예측 방법
US16/271,837 US10877863B2 (en) 2018-10-23 2019-02-10 Automatic prediction system for server failure and method of automatically predicting server failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180126561A KR101984730B1 (ko) 2018-10-23 2018-10-23 서버 장애 자동 예측 시스템 및 자동 예측 방법

Publications (1)

Publication Number Publication Date
KR101984730B1 true KR101984730B1 (ko) 2019-06-03

Family

ID=66848999

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180126561A KR101984730B1 (ko) 2018-10-23 2018-10-23 서버 장애 자동 예측 시스템 및 자동 예측 방법

Country Status (2)

Country Link
US (1) US10877863B2 (ko)
KR (1) KR101984730B1 (ko)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750455A (zh) * 2019-10-18 2020-02-04 北京大学 基于系统日志分析的智能在线自更新故障诊断方法和系统
CN110780188A (zh) * 2019-10-18 2020-02-11 合肥工业大学 一种igbt驱动电路故障诊断方法
KR102083666B1 (ko) * 2019-12-04 2020-03-02 대한민국 클라우드 컴퓨팅 기반 서버 모니터링 시스템 및 방법
CN111025994A (zh) * 2019-12-26 2020-04-17 玳能科技(杭州)有限公司 基于CNNs的设备监控系统及方法
CN111259532A (zh) * 2020-01-13 2020-06-09 西北工业大学 基于3dcnn-jtfa的航空发动机控制系统传感器的故障诊断方法
KR102203617B1 (ko) * 2019-07-19 2021-01-14 한전케이디엔주식회사 예측 모델링 위변조 방지를 위한 방법
KR102205102B1 (ko) * 2019-08-23 2021-01-20 고려대학교 세종산학협력단 기계학습 기반 비트코인 네트워크 트랜잭션 수 예측
KR20210039039A (ko) * 2019-10-01 2021-04-09 주식회사 아이옵스테크놀러지 장애를 예측하기 위한 관리서버
KR20210059178A (ko) 2019-11-15 2021-05-25 한국전자통신연구원 시스템 장애 예측 모델을 위한 학습 데이터 생성 방법 및 이를 위한 장치
KR102295868B1 (ko) * 2021-02-01 2021-09-01 (주)제스아이앤씨 네트워크 장애예측 시스템
KR102367409B1 (ko) * 2021-11-02 2022-02-24 주식회사 데이탄소프트 기 학습된 장애 예측 모델을 이용한 it 서비스의 장애 예측 방법, 서버 및 컴퓨터프로그램
WO2022107935A1 (ko) * 2020-11-18 2022-05-27 (주)글루시스 시스템 장애 예측 방법 및 시스템
KR102432284B1 (ko) * 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
KR102509380B1 (ko) * 2022-05-04 2023-03-14 (주)와치텍 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
KR20230134724A (ko) 2022-03-15 2023-09-22 성균관대학교산학협력단 웹 페이지의 시변화 데이터 예측 방법, 장치, 이를 이용한 웹 관리 시스템, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11012289B2 (en) * 2019-07-10 2021-05-18 Sap Se Reinforced machine learning tool for anomaly detection
CN112070283A (zh) * 2020-08-24 2020-12-11 国网甘肃省电力公司信息通信公司 一种基于机器学习的服务器运行健康度预测方法及系统
CN112491468B (zh) * 2020-11-20 2022-04-01 福州大学 基于孪生节点辅助传感的fbg传感网络节点故障定位方法
US20220179766A1 (en) * 2020-12-09 2022-06-09 International Business Machines Corporation Channel-based machine learning ingestion for characterizing a computerized system
CN112578794B (zh) * 2020-12-12 2023-09-01 云南昆船智能装备有限公司 基于机器学习的agv故障检测方法、存储介质及系统
US11789842B2 (en) * 2021-10-11 2023-10-17 Dell Products L.P. System and method for advanced detection of potential system impairment
CN114328198A (zh) * 2021-12-17 2022-04-12 浪潮电子信息产业股份有限公司 一种系统故障检测方法、装置、设备及介质
CN117354131A (zh) * 2022-06-23 2024-01-05 中兴通讯股份有限公司 故障定位系统及方法、电子设备和存储介质
CN117270664A (zh) * 2023-11-23 2023-12-22 深圳市蓝鲸智联科技股份有限公司 一种基于汽车智能存储芯片复位系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073012A (ja) * 2005-09-09 2007-03-22 Iwate Univ 乱数生成システム
US20160035111A1 (en) * 2006-09-08 2016-02-04 Christopher Allen Ingrassia Methods and systems for providing mapping, data management, and analysis
US20170185909A1 (en) * 2013-10-24 2017-06-29 Aon Benfield, Inc. Systems and methods for performing real-time convolution calculations of matrices indicating amounts of exposure
US20180096248A1 (en) * 2016-09-30 2018-04-05 Safran Identity & Security Methods for secure learning of parameters of a convolution neural network, and for secure input data classification
JP2018526714A (ja) * 2016-01-12 2018-09-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Cnn処理方法およびデバイス

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296430B2 (en) * 2016-04-06 2019-05-21 Nec Corporation Mobile phone with system failure prediction using long short-term memory neural networks
KR101827108B1 (ko) 2016-05-04 2018-02-07 두산중공업 주식회사 플랜트 이상 감지 학습 시스템 및 방법
KR101758870B1 (ko) 2017-02-13 2017-07-18 주식회사 온더 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법
KR101892516B1 (ko) 2017-03-29 2018-10-04 주식회사 한국정보시스템 이기종 네트워크의 장애예측 방법, 장치 및 프로그램
KR101793723B1 (ko) 2017-04-25 2017-11-06 주식회사 디리아 온라인 서비스 행동패턴 분석 및 시스템 장애 예측 시스템 및 방법
KR101880907B1 (ko) * 2017-09-22 2018-08-16 펜타시큐리티시스템 주식회사 비정상 세션 감지 방법
US10769043B2 (en) * 2018-06-25 2020-09-08 Hcl Technologies Ltd. System and method for assisting user to resolve a hardware issue and a software issue

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073012A (ja) * 2005-09-09 2007-03-22 Iwate Univ 乱数生成システム
US20160035111A1 (en) * 2006-09-08 2016-02-04 Christopher Allen Ingrassia Methods and systems for providing mapping, data management, and analysis
US20170185909A1 (en) * 2013-10-24 2017-06-29 Aon Benfield, Inc. Systems and methods for performing real-time convolution calculations of matrices indicating amounts of exposure
JP2018526714A (ja) * 2016-01-12 2018-09-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Cnn処理方法およびデバイス
US20180096248A1 (en) * 2016-09-30 2018-04-05 Safran Identity & Security Methods for secure learning of parameters of a convolution neural network, and for secure input data classification

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102203617B1 (ko) * 2019-07-19 2021-01-14 한전케이디엔주식회사 예측 모델링 위변조 방지를 위한 방법
KR102205102B1 (ko) * 2019-08-23 2021-01-20 고려대학교 세종산학협력단 기계학습 기반 비트코인 네트워크 트랜잭션 수 예측
KR20210039039A (ko) * 2019-10-01 2021-04-09 주식회사 아이옵스테크놀러지 장애를 예측하기 위한 관리서버
KR102326202B1 (ko) * 2019-10-01 2021-11-15 주식회사 아이옵스테크놀러지 장애를 예측하기 위한 관리서버
CN110780188A (zh) * 2019-10-18 2020-02-11 合肥工业大学 一种igbt驱动电路故障诊断方法
CN110750455A (zh) * 2019-10-18 2020-02-04 北京大学 基于系统日志分析的智能在线自更新故障诊断方法和系统
CN110750455B (zh) * 2019-10-18 2021-04-30 北京大学 基于系统日志分析的智能在线自更新故障诊断方法和系统
KR20210059178A (ko) 2019-11-15 2021-05-25 한국전자통신연구원 시스템 장애 예측 모델을 위한 학습 데이터 생성 방법 및 이를 위한 장치
KR102083666B1 (ko) * 2019-12-04 2020-03-02 대한민국 클라우드 컴퓨팅 기반 서버 모니터링 시스템 및 방법
CN111025994A (zh) * 2019-12-26 2020-04-17 玳能科技(杭州)有限公司 基于CNNs的设备监控系统及方法
CN111025994B (zh) * 2019-12-26 2021-12-14 玳能科技(杭州)有限公司 基于CNNs的设备监控系统及方法
CN111259532A (zh) * 2020-01-13 2020-06-09 西北工业大学 基于3dcnn-jtfa的航空发动机控制系统传感器的故障诊断方法
CN111259532B (zh) * 2020-01-13 2022-05-27 西北工业大学 基于3dcnn-jtfa的航空发动机控制系统传感器的故障诊断方法
WO2022107935A1 (ko) * 2020-11-18 2022-05-27 (주)글루시스 시스템 장애 예측 방법 및 시스템
KR102295868B1 (ko) * 2021-02-01 2021-09-01 (주)제스아이앤씨 네트워크 장애예측 시스템
KR102432284B1 (ko) * 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
KR102367409B1 (ko) * 2021-11-02 2022-02-24 주식회사 데이탄소프트 기 학습된 장애 예측 모델을 이용한 it 서비스의 장애 예측 방법, 서버 및 컴퓨터프로그램
KR20230134724A (ko) 2022-03-15 2023-09-22 성균관대학교산학협력단 웹 페이지의 시변화 데이터 예측 방법, 장치, 이를 이용한 웹 관리 시스템, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
KR20240011847A (ko) 2022-03-15 2024-01-26 성균관대학교산학협력단 웹 페이지의 시변화 데이터 예측 방법, 장치, 이를 이용한 웹 관리 시스템, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
KR102509380B1 (ko) * 2022-05-04 2023-03-14 (주)와치텍 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법

Also Published As

Publication number Publication date
US10877863B2 (en) 2020-12-29
US20200125465A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
Manco et al. Fault detection and explanation through big data analysis on sensor streams
CN111212038B (zh) 基于大数据人工智能的开放数据api网关系统
Dangut et al. An integrated machine learning model for aircraft components rare failure prognostics with log-based dataset
US10901832B2 (en) System for maintenance recommendation based on failure prediction
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
KR101545215B1 (ko) 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
EP2978095A1 (en) Power system operation
CN114267178B (zh) 一种车站的智能运营维护方法及装置
EP3663919A1 (en) System and method of automated fault correction in a network environment
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
Gupta et al. A supervised deep learning framework for proactive anomaly detection in cloud workloads
KR20190001501A (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
JP2023504103A (ja) モデル更新システム、モデル更新方法及び関連装置
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
Zhong et al. Study on network failure prediction based on alarm logs
JP2023547849A (ja) ラベルなしセンサデータを用いた産業システム内の稀な障害の自動化されたリアルタイムの検出、予測、及び予防に関する、方法または非一時的コンピュータ可読媒体
Khoshgoftaar et al. Detecting outliers using rule-based modeling for improving CBR-based software quality classification models
CN115495274B (zh) 基于时序数据的异常处理方法、网络设备和可读存储介质
Gęca Performance comparison of machine learning algotihms for predictive maintenance
Giampieri et al. A supervised classification system based on evolutive multi-agent clustering for smart grids faults prediction
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
CN114676002A (zh) 基于phm技术的系统运维方法及装置
Bellini et al. A Deep Learning Approach for Short Term Prediction of Industrial Plant Working Status

Legal Events

Date Code Title Description
GRNT Written decision to grant