KR101984730B1

KR101984730B1 - 서버 장애 자동 예측 시스템 및 자동 예측 방법

Info

Publication number: KR101984730B1
Application number: KR1020180126561A
Authority: KR
Inventors: 최승호; 노재춘; 김경훈; 서형준; 김재환
Original assignee: (주) 글루시스
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-06-03
Also published as: US10877863B2; US20200125465A1

Abstract

본 발명은 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 단일 서버 상태 데이터를 이용해 시스템의 장애를 예측하고 경고하는 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것이다.
본 발명에 따르는 서버 장애 자동 예측 시스템은 타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈; 수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및 최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하는 것을 구성적 특징으로 한다.

Description

서버 장애 자동 예측 시스템 및 자동 예측 방법{Automatic predicting system for server failure and automatic predicting method for server failure}

본 발명은 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것으로, 특히, 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 단일 서버 상태 데이터를 이용해 시스템의 장애를 예측하고 경고하는 서버 장애 자동 예측 시스템 및 서버 장애 자동 예측 방법에 관한 것이다.

기계 학습 기법을 이용해 최적의 서버 장애 예측 모델을 생성하기 위해서는 데이터를 적절하게 전처리하고, 모델 파라미터 학습뿐만 아니라 모델 설계와 관련된 하이퍼-파라미터(hyper-parameter)를 최적화해주어야 한다.

하이퍼-파라미터는 사람들이 선험적 지식을 기반으로 설정하거나, 외부 모델 메커니즘을 통해 자동설정되는 변수로서, 메타 파라미터(meta parameter)로도 불리며, 대표적인 하이퍼-파라미터로는 학습 진도율(learning rate), 비용 함수(cost function), 정규화 파라미터(regularization parameter), 미니 배치(mini-batch) 크기, 학습 반복 회수, 은닉 유닛(hidden unit) 개수, 가중치 초기화(weight initialization)가 있다.

즉, 기계 학습 기법을 이용해 최적의 서버 장애 예측 모델을 생성하는 것은 다양한 전처리 기법뿐만 아니라 여러 하이퍼-파라미터 값을 적용하여, 다양한 모델을 생성, 학습, 평가, 비교함으로써 수행되기 때문에, 사용자의 개입을 많이 요구하게 되며, 각각의 과정은 사용자의 직관에 의해 결정되기 때문에 좋은 성능의 예측 모델 추출을 어렵게 한다.

종래의 장애 예측 모델 최적화를 위한 기술은 1) 여러 분류 알고리즘 비교 기술, 2) 예측에 적합한 데이터 전처리 기술, 3) 데이터 전처리 기술과 분류 알고리즘의 조합 기술의 측면에서 연구/발전되어 왔다.

여러 분류 알고리즘 비교 기술면에서, 기존 연구들에서는 데이터를 설명하는 가설을 기반으로 하는 통계적 모델 및, 학습 이론 기반의 기계 학습 모델을 각각 생성하여 성능을 비교하였는데, 최근에는 복잡한 데이터로 인해 통계적 모델보다는 기계 학습 모델이 좀 더 좋은 성능을 보여고 있다. 대표적으로 예측에 활용되는 기계 학습 모델로는 서포트 벡터 머신(Support Vector Machine, SWM), 랜덤 포레스트(Random Forest)가 있다. 최근에는 신경망 기반의 예측 모델이 점차적으로 도입되고 있으며, 이러한 기계 학습 모델들은 모두 이미지, 음성과 같은 분야에서 성능이 검증되었다. 장애 예측 분야에서도 해당 모델들이 좋은 분류 성능을 보여주었으며, 일반적으로 활용되는 모델이 되었다. 하지만 이러한 모델이 적절하게 동작하기 위해서는 데이터 전처리와 하이퍼-파라미터 값이 데이터에 맞게 적용되어야 하나, 장애 예측 분야에서는 이러한 과정이 사용자의 직관에 의해 경험적으로 수행되기 때문에 최적화되는데 한계가 있다.

예측 모델을 최적화하기 위한 데이터 전처리 기술면에서, 데이터 전처리는 특징 추출, 변환 및 선별의 과정을 적절하게 조합함으로써 수행되며, 대표적으로 로그를 필터링, 분류하는 것이 그 예이다(대한민국 특허 제1758870호 "마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법"). 그러나, 하지만 이러한 기법은 데이터 전처리 과정과 분류 과정이 각각 단계별로 최적화되며, 전체적인 과정이 최적화되지는 않는다. 최근 기계 학습에서는 통째 학습(end-to-end learning)을 통해 데이터 전처리와 분류 과정을 전체적으로 최적화함으로써 뛰어난 성능을 보여주었지만, 장애 예측 기법에 적용된 바를 찾을 수 없다.

데이터 전처리 기술과 분류 알고리즘을 조합하면, 사용자의 개입을 최소화하고 여러 알고리즘을 자동으로 비교하여 우수한 장애 예측 모델을 생성할 수 있지만, 적용할 하이퍼-파라미터 및 분류 알고리즘의 경우의 수가 너무 많아, 계산 비용이 너무 많게 되며, 따라서 가능한 분류 알고리즘 셋의 일부만을 적용해서 장애 예측 모델을 생성하여 왔다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 데이터 전처리와 하이퍼-파라미터를 학습하는 자동화된 기계 학습을 활용하여, 분류기에 적합한 데이터 전처리 과정을 학습하고, 확률 이론에 기반하여 전략적으로 하이퍼-파라미터 값을 탐색함으로써, 자동으로 최적화된 예측 모델을 생성 및 적용해주는 서버 장애 자동 예측 시스템을 제공하는 것이다.

본 발명의 목적은 장애와 관련된 데이터를 가능한 많이 수집하여, 관리하고 제공하는 서버 장애 자동 예측 시스템을 제공하는 것이다.

본 발명의 목적은 서버 장애 자동 예측 모델 생성 및 최적화를 자동화하여 사용자의 개입을 최소화하는 서버 장애 자동 예측 시스템을 제공하는 것이다.

본 발명의 목적은 데이터 전처리 과정이 특징 학습을 통해 자동화되고, 전처리와 장애 예측이 별개가 아닌 동시에 최적화되는 서버 장애 자동 예측 시스템을 제공하는 것이다.

본 발명의 목적은 서버 장애 자동 예측 모델 설계 및 학습에 적용되는 하이퍼-파라미터 값을 전략적으로 탐색함으로써 최적화에 필요한 비용을 줄이고, 중요 하이퍼-파라미터의 경우 좀 더 미세하게 조정하여 최적화된 서버 장애 자동 예측 시스템을 제공하는 것이다.

본 발명에 따르는 서버 장애 자동 예측 시스템은

타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈;

수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및

최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하는 것을 구성적 특징으로 한다.

본 발명에 따르는 서버 장애 자동 예측 시스템은 서버의 장애를 사전에 예측하여 이로 인한 피해를 사전에 방지할 수 있도록 하고, 장애 예측을 자동화함으로써 예측을 위한 기계 학습 적용 및 장애 예측 모델 관리의 어려움을 최소화할 수 있다.

도1은 본 발명에 따르는 서버 장애 자동 예측 시스템의 구조를 개략적으로 나타내는 블록도이다.
도2는 본 발명에 따라 사용자가 제출하는 모델 설정 형식의 일 예 및 제출 과정을 나타내는 블록도이다.
도3은 CNN 기반 장애 예측 모델의 구성을 개략적으로 나타내는 도면이다.
도4는 본 발명에 따르는 장애 예측 모델 생성 및 최적화 과정을 나타내는 블록도이다.
도5는 본 발명에 따르는 온라인 장애 예측 과정을 나타내는 도면이다.

본 발명에 따르는 서버 장애 자동 예측 시스템은 네트워크에 연결되어 웹, DB, 네트워크 서비스를 제공하는 단일 서버들의 상태를 모니터링하고, 수집한 데이터를 이용해 시스템의 장애를 예측하고 경고하며, 자동화된 기계 학습 기법을 이용해 자동으로 최적화된 장애 예측 모델을 생성하여 시스템의 장애 예측에 적용할 수 있다.

이하, 첨부된 도면들을 참조로, 본 발명에 따른 실시예를 상세히 설명한다.

도1은 본 발명에 따르는 서버 장애 자동 예측 시스템의 구조를 개략적으로 나타내는 블록도이다.

본 발명에 따르는 서버 장애 자동 예측 시스템의 구조는 데이터 수집 모듈(data collection module, 100), 모델 생성 및 최적화 모듈(model generation and optimization module, 200), 예측 모듈(prediction module, 300)을 포함한다.

데이터 수집 모듈(100)에서는 시스템을 구성하는 서버들과 서비스의 상태 정보들을 수집하고, 장애 발생 시 해당 이벤트를 추출한다. 장애 관련 데이터가 수집되면 사용자는 예측할 값과 예측 모델을 정의하여 프레임워크에 제출한다. 모델 생성 및 최적화 모듈(200)에서는 사용자가 정의한 모델을 수집된 데이터를 이용하여 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화한다. 최적화된 모델은 저장소에 저장되며 이를 예측 모듈(300)에 알려 해당 모델을 이용하여 온라인 장애 예측을 수행하고, 장애 발생을 예측한 경우에는 이를 사용자에게 경고한다.

각각의 모듈의 구성은 다음과 같다.

데이터 수집 모듈(100)

데이터 수집 모듈(100)은 모니터링 에이전트(110), 장애 탐지기(120) 및 데이터 탐색기(130)로 구성된다.

모니터링 에이전트(monitoring agent, 110)는 타겟 시스템을 구성하는 컴포넌트와 서비스의 상태 정보를 검출 플러그인(detection plugin)에 의해 주기적으로 수집한다. 수집된 데이터는 메시지 큐(message queue)를 통해 안정적으로 관리되어 시계열 데이터베이스(140)에 저장되거나 온라인 장애 예측에 활용된다.

장애 예측 모델을 생성하기 위해서는 장애 데이터를 학습시켜야 하는데, 장애 데이터가 많을수록 더 좋은 예측 모델을 생성할 수 있기 때문에, 장애 탐지기(failure detector, 120)는 타겟 시스템에서 발생하는 장애 데이터를 탐지하여 기존의 장애 예측 모델을 개선하거나, 향후 새로운 모델을 생성하는 데 활용할 수 있다. 본 발명에 따르는 서버 장애 자동 예측 시스템은 로그(log) 오류가 발생할 경우 장애 데이터를 탐지한다.

데이터 탐색기(Data Explorer, 130)는 수집되는 데이터를 사용자가 확인하고 데이터 분포 및 상관 관계와 같은 기본적인 분석을 할 수 있도록 하는데, 시스템 관리자는 이를 활용해 장애 예측 결과를 분석하여 장애에 적절히 대응할 수 있다.

모델 생성 및 최적화 모듈(200)

모델 생성 및 최적화 모듈(200)은 설정 해석기(Configuration Interpreter, 210), 최적화기(Optimizer, 220) 및 예측기 저장소(Predictor Repository, 230)로 구성된다.

설정 해석기(210)는 사용자가 예를 들어 도2와 같은 모델 설정 정보를 제출할 경우, 제출된 모델 설정 정보를 해석하고, 다수의 최적화기(220)를 생성하여, 해석된 모델 설정 정보를 최적화기(220)에 전달한다.

최적화기(220)는 이를 기반으로 예측 모델을 생성하고, 기계 학습과 하이퍼-파라미터 튜닝 기법을 적용하여 모델을 최적화한다. 최적화된 모델이 특정 성능, 즉 특정 수준의 장애 예측 성능을 만족한다면 해당 모델은 예측기 저장소(230)에 저장된다.

예측 모듈(300)

예측 모듈(300)은 예측기 로더(Predictor Loader, 310)와 다수의 온라인 예측기(Online Predictor, 320)로 구성된다. 예측기 로더(310)는 새로운 예측 모델이 업데이트되었다는 알림을 최적화기(220)로부터 받으면, 예측기 저장소(230)로부터 해당 모델을 호출하여 온라인 예측기(320)를 생성한다. 온라인 예측기(320)는 현재 수집되는 시스템 정보를 받아 장애를 예측하고, 장애 발생 확률이 일정 한계를 넘을 경우 사용자에게 경고한다.

이상 설명한 바와 같은 서버 장애 자동 예측 시스템을 기반으로 하는, 본 발명의 장애 예측 모델은 CNN(Convolution Neural Network, 합성곱 신경망)을 기반으로 한다.

장애 예측 모델은 타겟 시스템의 상태 데이터를 입력으로 현재 시스템의 상태를 판별하여 다가올 미래의 장애를 예측한다. 이러한 예측 모델은 크게 데이터 입력, 데이터 전처리, 분류 알고리즘에 의해 정의된다.

도3에 도시된 바와 같이, CNN 기반 예측 모델에 입력되는 데이터는 데이터 수집 모듈(100)을 통해 저장된, 시스템을 구성하는 서버들과 동작중인 서비스의 상태를 수치화한 데이터이다. 이는 시간 변화에 따른 시스템의 상태를 나타내는 시계열 형식의 데이터이다. 예측 모델은 이를 특정 시간 단위로 묶어 일정 시간 후의 장애를 예측한다. 때문에 묶는 시간 단위에 따라 수십에서 수백 개의 특징 값이 예측 모델에 입력된다.

CNN 기반 예측 모델은 입력된 시계열 데이터에 특징 추출 및 변환을 통한 데이터 전처리를 수행하고, 전처리된 데이터를 이용해 가까운 미래의 장애 발생 여부를 분류한다.

CNN 기반 예측 모델은 컨볼루션 계층(Convolution layer), 풀링 계층(Pooling layer), 히든 계층(hidden layer), 출력 계층(output layer)으로 이루어져 있으며, 컨볼루션 계층 및 풀링 계층에서 데이터 전처리, 즉 특징 추출 및 변환이 이뤄진다. 그 중, 컨볼루션 계층은 컨볼루션 특징을 추출하는 층으로서 의미있는 특징들을 추출하기 위한 계층이고, 풀링 계층은 컨볼루션 특징을 줄이기 위해 서브샘플링(subsampling)을 하는 계층이다. 또한, 출력 계층은 컨볼루션 계층 및 풀링 계층에서 전처리된 데이터를 이용해 장애 발생 여부를 분류한다.

이와 같은 CNN 기반 예측 모델은 일반적으로는 분류에 활용되는 구조이며, 예측 모델에 적합한 데이터 전처리 과정을 특징 학습을 통해 자동화하고, 전처리와 예측이 동시에 이뤄지도록 하여, 데이터에 더 적절한 전처리 과정을 수행하고 사용자의 전처리 비용을 줄일 수 있으며, 입력 데이터는 다양한 시스템 상태 값들의 시계열 형태이기 때문에 많은 양의 데이터를 포함하므로 컨볼루션 연산으로 처리하기에 적절하다. 따라서 전술한 CNN 기반 예측 모델은 이하 논의되는 최적화 과정과 함께 최종적인 장애 예측 모델을 생성할 수 있다.

본 발명에 따르는 서버 장애 자동 예측 시스템은 데이터 수집 모듈(100)을 통해 수집한 데이터를 이용해 단일 서버의 장애 예측 모델을 생성하고, 생성된 모델을 확률 알고리즘에 기반하여 전략적으로 최적화함으로써 생성된다.

이상 설명한 바와 같은 본 발명에 따르는 서버 장애 자동 예측 시스템을 이용하여 서버 장애를 자동으로 예측하는 방법은 데이터 수집부터 예측 모델 생성, 최적화 및 적용 과정을 전반적으로 자동화하는 것을 특징으로 하며, 구체적으로, 수집 모듈을 통해 데이터를 수집하는 단계, 최적화기를 통해 장애 예측 모델을 생성하고 최적화하는 단계, 생성된 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계에 의해 이뤄진다.

즉, 데이터를 수집하는 단계는 데이터 수집 모듈(100)의 모니터링 에이전트(110)에 의해 수행된다. 사용자가 예측하고자 하는 타겟 시스템에 모니터링 에이전트(110)를 구성하면, 모니터링 에이전트(110)는 기본적으로 운영체제를 통해 시스템 자원의 데이터를 주기적으로 수집한다. 수집되는 데이터 형태는 데이터 이름과 수치 값을 나타내는 키-값(Key-Value)이며, 일반적으로 메트릭(Metric)이라 불린다. 수집 대상이 되는 시스템 자원은 주메모리, 보조메모리, 네트워크, CPU이며, 각 자원의 자원 정보, 속도, 사용/가용률을 나타낸다. 또한, 모니터링 에이전트(110)는 타겟 시스템에서 동작중인 서비스 상태 정보를 주기적으로 추적하여 수집함으로써, 특정 서비스에 더 적합한 장애 예측을 수행할 수 있다.

장애 예측 모델을 생성하고 최적화하는 단계는 최적화기(220)를 통해 수행되는데, 도4에 도시된 바와 같이 예측 모델 생성, 예측 모델 파라미터 학습, 하이퍼-파라미터 튜닝, 예측 모델 평가 단계를 포함한다. 즉, 최적화기(220)는 예측 모델 설정 값을 기반으로 모델을 생성하고, 생성된 예측 모델을 학습하고 하이퍼-파라미터를 튜닝하며, 학습된 예측 모델과 튜닝된 예측 모델을 평가하여 과적합(overfitting)을 방지하고 일정 성능 이상의 예측 모델을 추출한다.

예측 모델 생성 및 최적화를 위해 수집 모듈(100)의 모니터링 에이전트(110)에 의해 수집되는 이력 데이터(historical data)는 훈련 데이터(training data), 검증 데이터(validation data), 및 테스트 데이터(test data)로 분류된다. 훈련 데이터는 모델 파라미터를 최적화하고, 검증 데이터는 하이퍼-파라미터를 최적화하기 위해 사용된다. 테스트 데이터는 최적화된 각각의 모델의 성능을 평가하고 적절한 수준에서 학습을 중단, 즉 적절한 수준 이상일 경우 학습을 중단할 수 있도록 해준다. 이와 같이 데이터를 구분함으로써, 모델 성능 평가에 사용되는 테스트 데이터가 최적화에 사용되거나, 모델 파라미터에 사용된 데이터가 하이퍼-파라미터 최적화에 사용되는 것을 막고, 결과적으로 모델이 특정 데이터에만 과잉적합(overfitting)되는 것을 방지한다.

본 발명에서 최적화에 사용되는 알고리즘은 베이지안 최적화(Bayesian Optimization)이며, 특히 가우시안 프로세스(Gaussian Process) 기반의 최적화를 적용한다. 이는 확률 이론에 기반하여 전략적으로 높은 성능의 하이퍼-파라미터 값을 추적한다. 추적 과정은 다음과 같다. 측정한 일부 하이퍼-파라미터에 대한 예측 모델의 성능에 정규 분포를 기반으로 다른 하이퍼-파라미터 적용 시의 성능을 추정하고 성능 개선의 가능성이 높은 지점을 확률적으로 계산하여 탐색함으로써 좀 더 빨리 좋은 하이퍼-파라미터를 찾을 수 있도록 해준다.

생성된 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계는 도5에 도시된 바와 같이 각각의 예측기(320)에 의해 수행된다. 최적화기(220)에 의해 최적화되어 채택된 예측 모델은 예측기 저장소(230)에 저장된다. 동시에 최적화기(220)가 최적화된 예측 모델이 예측기 저장소(230)에 업데이트되었음을 예측기 로더(310)에 보고하면, 예측기 로더(310)는 예측기 저장소(230)에 저장된 예측 모델을 로딩하여 온라인 예측기(320)를 생성한다. 각각의 온라인 예측기(320)는 모니터링 에이전트(110)로부터 시스템 상태 데이터를 취득하여 현재 시스템의 장애를 예측하며 결과를 저장한다.

전술한 바와 같이, 본 발명에 따르는 서버 장애 자동 예측 시스템은 데이터 수집부터 예측 모델 생성 및 실제 시스템에 장애 예측 적용까지의 과정을 통합적으로 제공하여 실질적인 모델 생성을 위한 사용자의 개입 비용을 최소화할 수 있다. 또한, 확률 이론에 기반하여 전략적으로 하이퍼-파라미터 값을 최적화하기 때문에 최적화 비용을 줄여주고, 좀 더 우수한 하이퍼-파라미터 값을 추출할 확률을 높여주고, 결과적으로 적은 비용으로 더 좋은 예측 모델을 생성할 수 있도록 한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술분야에서 통상의 지식을 갖는 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 게시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이런 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

타겟 시스템의 서버 및 서비스의 상태 정보를 수집하는 데이터 수집 모듈;
수집된 데이터를 이용하여 CNN 기반 장애 예측 모델을 생성하고, 모델 파라미터와 하이퍼-파라미터 값을 최적화하는 모델 생성 및 최적화 모듈; 및
최적화된 CNN 기반 장애 예측 모델을 이용하여 온라인 장애 예측을 수행하는 예측 모듈을 포함하고,
상기 데이터 수집 모듈은
타겟 시스템의 서버 및 작동중인 서비스의 상태 정보를 검출 플러그인에 의해 주기적으로 수집하는 모니터링 에이전트;
타겟 시스템의 서버의 로그 오류가 발생할 경우 장애 데이터를 감지하는 장애 탐지기; 및
수집된 데이터를 확인 및 분석하는 데이터 탐색기를 포함하는 것을 특징으로 하는
서버 장애 자동 예측 시스템.
삭제
제1항에 있어서,
모델 생성 및 최적화 모듈은
모델 설정 정보를 해석하여 최적화기에 전달하는 설정 해석기;
해석된 모델 설정 정보를 기반으로 예측 모델을 생성하고, 기계 학습과 하이퍼-파라미터 튜닝 기법을 적용하여 모델을 최적화하고, 장애 예측 성능을 평가하는 최적화기; 및
최적화된 모델을 저장하는 예측기 저장소를 포함하는 것을 특징으로 하는
서버 장애 자동 예측 시스템.
제1항에 있어서,
예측 모듈은
새로운 예측 모델이 업데이트되었다는 알림을 최적화기로부터 받으면, 예측기 저장소로부터 해당 모델을 호출하여 온라인 예측기를 생성하는 예측기 로더; 및
현재 작동중인 시스템 정보를 받아 장애를 예측하고, 장애 발생 확률이 일정 한계 값을 넘을 경우 사용자에게 경고하는 다수의 온라인 예측기를 포함하는 것을 특징으로 하는
서버 장애 자동 예측 시스템.
훈련 데이터, 검증 데이터, 테스트 데이터를 포함하고, 시스템 자원 및 동작중인 서비스의 상태를 나타내는 이력 데이터를 데이터 수집 모듈의 모니터링 에이전트를 통해 수집하는 단계;
모델 설정 값을 기반으로 최적화기를 통해 CNN 기반 장애 예측 모델을 생성하고 최적화하는 단계; 및
생성된 CNN 기반 장애 예측 모델을 이용하여 시스템의 장애를 예측하고 결과를 저장하는 단계를 포함하고,
장애 예측 모델을 생성하고 최적화하는 단계는
예측 모델 설정 값을 기반으로 CNN 기반 장애 예측 모델을 생성하는 단계;
훈련 데이터를 사용하여 CNN 기반 장애 예측 모델의 파라미터를 학습하는 단계;
검증 데이터를 사용하여 하이퍼-파라미터를 튜닝하는 단계; 및
테스트 데이터를 사용하여 CNN 기반 장애 예측 모델을 평가하는 단계를 추가로 포함하는 것을 특징으로 하는
서버 장애 자동 예측 방법.
제5항에 있어서,
이력 데이터의 형태는 데이터 이름과 수치 값을 나타내는 키-값(Key-Value)이며, 데이터수집 대상이 되는 시스템 자원은 주메모리, 보조메모리, 네트워크, CPU이며, 각 자원의 자원 정보, 속도, 사용률인 것을 특징으로 하는
서버 장애 자동 예측 방법.