KR102068622B1

KR102068622B1 - 이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템

Info

Publication number: KR102068622B1
Application number: KR1020190029300A
Authority: KR
Inventors: 차수정; 이향구
Original assignee: 차수정; 이향구
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-01-21

Abstract

본 발명에 따른 이기종 보안장비 장애예측 방법은 장애예측 솔루션이 보안장비의 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 수집하는 제1 단계; 상기 장애예측 솔루션이 학습된 모델을 이용하여 상기 수집된 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 정규화하고, 상기 정규화된 데이터를 이용하여 장애징후를 인식하는 제2 단계; 상기 장애예측 솔루션이 상기 인식된 장애징후에 대응하는 하나 이상의 장애를 예측하는 제3 단계; 상기 장애예측 솔루션이 상기 예측된 각 장애의 등급, 발생 확률 및 발생 예상 시점 중 적어도 하나를 포함하는 장애징후의 영향도를 판단하는 제4 단계; 및 상기 장애예측 솔루션이 상기 예측된 각 장애를 예방, 점검 또는 해결하기 위한 정보를 포함하는 사전 조치 가이드를 제공하고, 상기 사전 조치 가이드에 따른 프로세스를 수행하는 제5 단계;를 포함하고, 상기 제1 내지 제5 단계와 병렬적으로 수행되고, 상기 장애예측 솔루션이 상기 제3 단계 및 상기 제4 단계의 결과를 학습하여 학습모델을 업데이트하는 학습 모델 업데이트 단계;를 포함하고, 상기 제2 단계에서는 상기 장애징후를 의도적 장애, 구조적 장애로 구분하여 인식하고, 상기 학습 모델 업데이트 단계에서는 상기 의도적 장애 및 구조적 장애에 대한 독립적인 학습 모델을 구비하여 상기 제2 단계의 장애징후 판단에 제공한다.

Description

이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템{Failure prediction system for heterogeneous network security system}

본 발명은 이기종 네트워크 보안시스템용 장애예측 시스템에 관한 것으로서, 보다 상세하게는 이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템에 관한 것이다.

IT 시스템, 특히 보안 시스템에서 장애 발생은 민감한 상황이며, 장애 발생 후에 조치하기보다는 장애를 예측하여 사전에 조치할 수 있어야 한다.

종래의 장애를 예측하는 방법에 따르면, 이전에 운영되었던 현황을 기준으로 시스템의 부하량을 측정하고, 이를 현재 동작시점에서의 부하량과 비교하여 예상되는 부하량보다 많을 경우 시스템에 장애가 발생한 것으로 예측하는 단편적인 방법이 이용되었다.

최근에는 이기종 네트워크 보안시스템의 복잡성 증가로 인하여 발생하는 문제를 해결하기 위한 지능형 유지관리 서비스 기술 개발의 필요성이 대두되나, 기존의 단순한 성능 모니터링 및 임계치 분석 방식은 장애 복구 및 원인 분석에 많은 시간이 소요되며 DownTime이 발생하므로 이러한 문제점 해결할 장애 예측 및 사전대응 기술 필요하다.

즉, 이기종 네트워크 보안시스템의 복잡성이 증가하는 추세를 고려하면, 종래의 장애 대응방법을 이용하는 경우 장애발생 건수 증가, 기술지원 요구사항 증대, 장애처리 시간 증가(Down Time 증가)라는 문제가 발생하고 있으며, 유지관리 비용 최소화 요구 증대, 전문 인력 확보 요구 증대 및 전문 운영 관리 기술 요구 증대에 따른 운영인력 부족현상이 발생하고 있다.

(특허문헌 0001) 공개특허공보 제10-2001-0057820호, 2001.07.05

본 발명은 확률적 왜곡을 바로잡을 수 있도록 의도적 또는 우연적 장애유발 요인에 대한 구분/대처가 가능한 이기종 보안장치 장애예측 방법 및 시스템을 제공한다.

또한 본 발명은 장애예측의 정확성을 더욱 향상시킬 수 있는 학습 데이터의 고도화 수단 및 방법을 제공한다.

본 발명에 따른 이기종 보안장비 장애예측 방법은 장애예측 솔루션이 보안장비의 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 수집하는 제1 단계; 상기 장애예측 솔루션이 학습된 모델을 이용하여 상기 수집된 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 정규화하고, 상기 정규화된 데이터를 이용하여 장애징후를 인식하는 제2 단계; 상기 장애예측 솔루션이 상기 인식된 장애징후에 대응하는 하나 이상의 장애를 예측하는 제3 단계; 상기 장애예측 솔루션이 상기 예측된 각 장애의 등급, 발생 확률 및 발생 예상 시점 중 적어도 하나를 포함하는 장애징후의 영향도를 판단하는 제4 단계; 및 상기 장애예측 솔루션이 상기 예측된 각 장애를 예방, 점검 또는 해결하기 위한 정보를 포함하는 사전 조치 가이드를 제공하고, 상기 사전 조치 가이드에 따른 프로세스를 수행하는 제5 단계;를 포함하고,

상기 제1 내지 제5 단계와 병렬적으로 수행되고, 상기 장애예측 솔루션이 상기 제3 단계 및 상기 제4 단계의 결과를 학습하여 학습모델을 업데이트하는 학습 모델 업데이트 단계;를 포함하고,

상기 제2 단계에서는 상기 장애징후를 의도적 장애, 구조적 장애로 구분하여 인식하고,

상기 학습 모델 업데이트 단계에서는 상기 의도적 장애 및 구조적 장애에 대한 독립적인 학습 모델을 구비하여 상기 제2 단계의 장애징후 판단에 제공한다.

또한 상기 의도적 장애는 특정 작업자에 의하여 발생하는 반복 패턴, 특정 작업자가 제공한 프로그램에 의한 반복 패턴을 인식하여 결정하고, 상기 구조적 장애는 복수의 로그 및 이벤트의 반복 패턴을 인식하여 인식할 수 있다.

또한 상기 학습 모델 업데이트 단계를 통하여 업데이트된 학습 모델을 가상의 이기종 네트워크 모델 상에서 반복 재현을 통하여 강화 학습을 진행하는 강화학습 단계를 더 포함할 수 있다.

또한 상기 가상의 이기종 네트워크 모델은 상기 이기종 네트워크 보안장비의 복수의 버전의 펌웨어를 포함하고, 상기 학습 모델 중 강화 대상이 되는 패턴과 관련된 보안장비 및 특정 버전의 펌웨어를 로딩하여 강화 학습을 진행할 수 있다.

또한 상기 학습된 모델은, 기존에 수집된 로그 데이터 및 상기 기존에 수집된 로그 데이터에 대응하는 장애정보를 포함하는 학습 데이터를 이용하여 학습된 모델일 수 있다.

또한 상기 학습된 모델은, 하나 이상의 서로 다른 종류의 보안장비로부터 기존에 수집된 로그 데이터 및 상기 서로 다른 종류의 보안장비로부터 기존에 수집된 로그 데이터에 각각 대응하는 장애정보를 포함하는 학습 데이터를 이용하여 학습된 모델일 수 있다.

또한 상기 장애예측의 결과에 따른 사전조치 가이드 및 상기 사전조치 가이드에 따른 조치 결과에 대한 정보를 수집하는 단계;를 포함하고, 상기 학습 모델 업데이트 단계에서는 상기 조치 결과에 기초하여 학습 모델을 업데이트할 수 있다.

본 발명에 따른 이기종 보안장비 장애 인식 방법 및 장치는 장애 징후를 인식하여 발생을 예측할 수 있는 확률을 더욱 높일 수 있다.

또한 본 발명에 따른 이기종 보안장비 장애 인식 방법 및 장치는 의도적인 발생 확률에 의한 왜곡현상을 제한함으로써 장애발생 확률을 보다 정확하게 산출할 수 있다.

또한 본 발명에 따른 이기종 보안장비 장애 인식 방법 및 장치는 장애가 발생할 수 있는 패턴의 모의 환경을 구현하여 학습을 강화함으로써 보다 정확한 장애 예측이 가능하도록 한다.

도 1은 본 발명의 일 실시예에 따른 이기종 보안장치 장애예측 장치를 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 이기종 보안장치 장애예측 방법을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 장애 징후 인식 및 분류를 설명하기 위한 개략도이다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다. 특별한 정의나 언급이 없는 경우에 본 설명에 사용하는 방향을 표시하는 용어는 도면에 표시된 상태를 기준으로 한다. 또한 각 실시예를 통하여 동일한 도면부호는 동일한 부재를 가리킨다. 한편, 도면상에서 표시되는 각 구성은 설명의 편의를 위하여 그 두께나 치수가 과장될 수 있으며, 실제로 해당 치수나 구성간의 비율로 구성되어야 함을 의미하지는 않는다.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.

개시된 실시 예에서, 장애예측 솔루션은 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치 또는 컴퓨팅 장치에 설치된 소프트웨어를 의미한다. 예를 들어, 장애예측 솔루션은 로컬 서버, 웹 서버, 클라우드 서버, 클라이언트 단말 및 여기에서 이용되는 소프트웨어를 의미할 수 있으나, 이에 제한되지 않는다. 예를 들어, 서버는 어플라이언스(Appliance) 타입일 수 있다.

한편, 본 발명에 따른 이기종 장애예측 장치 또는 장애예측 솔루션은 물리적인 시스템의 구현방법에 의하여 구분한 것은 아니며, 기능적인 특성에 기반하여 분리 설명한 것으로서 반드시 동일한 물리적인 장치 내에 구현되어야 한다거나 개별적인 장치로 구현되어야 하는 것을 의미하는 것은 아니다.

도 1을 참조하여 일 실시예에 따른 이기종 네트워크 보안장치 장애예측 장치(100) 또는 장애예측 솔루션를 설명한다. 도 1은 일 실시예에 따른 이기종 네트워크 보안장치 장애예측 장치를 나타내는 블록도이다.

데이터 수집부(110)는 로그 데이터, SNMP, SSH 데이터 수집 등을 수집하여 스트림 데이터를 제공한다. SNMP(simple network management protocol)는 TCP/IP 기반의 네트워크에서 네트워크 상의 각 호스트에서 정기적으로 UI 설정 상태정보, 장애 상태정보, 등 여러 가지 정보를 자동적으로 수집하여 네트워크 관리를 하기 위한 프로토콜이고, SSH(secure shell)은 PGP와 마찬가지로 공개 키 방식의 암호 방식을 사용하여 원격지 시스템에 접근하여 암호화된 메시지를 전송할 수 있는 시스템. 따라서 LAN 상에서 다른 시스템에 로그인할 때 타인에 의하여 도청당하는 것을 막을 수 있도록 한다.

데이터 수집부(110)는 보안장비로부터 로그 데이터를 수집(TCP 또는 UDP)하고, 호스트별 로컬 파일 시스템 원본 자체를 저장한 후 호스트 식별표지를 삽입한 후 퍼블리싱한다. 또한 데이터 수집부(110)는 SNMP 데이터 수집과 관련하여, 각 장치에 SNMP을 통하여 요청하고 응답을 받아 저장하고, 데이터 수집부(110)는 SSH 데이터 수집과 관련하여, 각 장치에 SSH 방식을 사용하여 연결하고, 연결된 장치의 콘솔 로그 데이터를 수집한다.

리소스 모니터링부(150)은 네트워크 상에 연결된 컴퓨팅 장치의 리소스를 지속적으로 모니터링하여 데이터를 수집한다. 예를 들어 CPU, 메모리, 하드 디스크 등의 저장장치 및 네트워크 사용량 등을 모니터링하고 해당 데이터를 수집한다.

저장부(120)는 카프카 시스템을 이용하기 위하여 제공되는 데이터 분산 저장소일 수 있다. 저장부(120)는 예를 들어 원 호스트의 로컬 파일 그대로 저장하는 로컬 파일 저장부와 데이터 처리를 위하여 일시적으로 저장되는 분산 저장부로 구현될 수 있다. 이 경우 데이터의 수집, 분산 저장 및 데이터의 처리는 KAFKA를 이용할 수 있다. 카프카는 영속적, 분산, 분할, 복제되는 대량의 데이터를 수집하기 위한 메시징 시스템으로서, 카프카는 데이터 소스와 데이터 처리기 사이에서 버퍼 역할을 해주어 스트림 데이터를 처리한다. 카프카는 프로듀서., 컨슈머, 브로커로 구성된다. 프로듀서는 데이터를 만들어 넣는 역할, 컨슈머는 데이터를 꺼내 쓰는 역할, 그리고 브로커는 프로듀서와 컨슈머의 메시지를 관리하는 클러스터 서버의 역할을 수행한다. 본 실시예에서는 데이터 수집부가 프로듀서, 데이터 파싱부 등이 컨슈머로 기능한다.

데이터 파싱부(130)는 로그 데이터 등 스트림 데이터 트래픽을 필터링 및 분류한다. 이례적인 트래픽에 대해 경고 또는 장애를 알리거나 지리적 위치에서 방화벽 트래픽을 차단할 수 있는 로깅 솔루션을 확보할 수 있다. 방화벽과 이벤트 로그 파일이 시스템에서 빠르게 사라지는 경우가 많기 때문에 로컬 파일 저장부 등에 저장한다. 전처리된 학습용 데이터셋을 이용하여 학습을 수행할 수 있다. 예를 들어, 장애예측 솔루션(600)은 K-평균 군집화, DBSCAN 등의 비지도학습 방법과, 회귀분석, K-최근접이웃, 서포트 벡터머신(SVM), 나이브 베이즈 및 다층 신경망 등의 지도학습 방법을 이용하여 학습을 수행할 수 있으나, 이에 제한되는 것은 아니다.

데이터 처리부(140)는 장치 상태관련 데이터를 저장하고, 앞서 파싱된 데이터를 저장하며, 파싱된 데이터 중 알림 상황인지의 여부를 판단하고, 알림 상황인 경우 이를 알린다. 즉, 학습된 학습 모델을 이용하여 장애 예측을 수행하고, 이를 알리게 된다.

구체적으로, 데이터 처리부(140)는 입력되는 스트림 데이터를 구독하여 장애 식별 조치의 상태를 조회하고, 장비정보를 조회하고, 워크플로우 매칭정보를 조회하고, 매칭정보를 구분하고, 매칭정보를 저장 및 중복확인한다. 워크플로우 매칭 시에는 확률적으로 일치하는 패턴을 통하여 장애를 식별하고, 워크플로우 비매칭시에는 비매칭되었다는 정보를 발행한다.

데이터 처리부(140)가 인식할 수 있는 장애의 종류는 기 설정된 장애코드로 분류 및 저장될 수 있다. 데이터 처리부(140)는 구독하는 로그 데이터 등으로부터 적어도 하나의 장애징후를 인식하고, 이에 대응하는 하나 이상의 장애코드를 획득할 수 있다. 데이터 처리부(140)는 인식된 장애징후에 대하여, 획득된 각각의 장애코드에 대응하는 장애의 발생확률을 산출 및 제공할 수 있다. 또한 데이터 처리부(140)는 장애징후로 인식될 수 있는 로그 데이터의 후보군을 추출하고, 각각의 후보군에 대응하는 장애의 종류 및 발생확률을 제공할 수 있다.

한편, 데이터 처리부(140)는 장애징후를 의도적 장애, 구조적 장애로 구분하여 인식한다. 의도적 장애는 특정 작업자에 의하여 발생하는 반복 패턴, 특정 작업자가 제공한 프로그램에 의한 반복 패턴을 인식하여 결정하고, 구조적 장애는 복수의 로그 및 이벤트의 반복 패턴을 인식하여 인식할 수 있다. 데이터 처리부(140)는 머신 러닝부(170)에서 제공하는 별도의 2가지 학습 모델을 고려하여 장애 징후를 인식한다. 예를 들어 외부자의 해킹 및 악성 프로그램 등에 의한 장애 유발은 특정 상황에 집중적 반복적으로 발생하게 되며, 자연스러운 네트워크의 운용 중 이기종 보안장치의 기능 중복, 충돌 등 구조적 또는 시스템적으로 발생하는 장애와는 확률적인 면에서의 왜곡이 발생하게 된다. 이러한 면을 별도로 판단하여 정확한 장애징후의 확률을 산출하기 위하여 위와 같이 별도의 학습 모델을 통하여 인식하게 된다.

한편, 이기종 네트워크 보안장비들로부터 수집되는 로그 데이터의 유형은 제각각 상이할 수 있고, 이로부터 발생할 수 있는 장애의 종류 또한 제각각 상이할 수 있다.

따라서, 데이터 처리부(140)는 특정 로그 데이터를 특정하여 장애 징후로 인식하고, 이에 대응하는 장애코드를 특정하기는 어려울 수 있다. 따라서, 데이터 처리부(140)는 학습을 통해 로그 데이터로부터 장애징후가 인식될 수 있는 후보군을 하나 이상 추출하고, 각각에 대한 확률적 개념으로서 장애를 예측 및 제공하고, 경우에 따라 가장 높은 확률 또는 소정의 임계치 이상의 확률을 갖는 장애를 특정하여 사전조치 가이드를 제공할 수 있다.

또한, 같은 종류의 보안장비에 대하여 장애를 예측하는 경우에도, 보안장비의 버전이나 펌웨어 등의 차이로 인하여 로그 데이터 및 장애의 유형이 상이해질 수 있다. 따라서, 데이터 처리부(140)는 각 보안장비의 버전이나 펌웨어에 대한 정보를 획득하고, 이에 대응하여 로그 데이터를 분석할 수 있다.

또한, 데이터 처리부(140)는 보안장비가 업데이트됨에 따라 업데이트되는 로그 데이터 및 장애의 유형을 수집하고, 이에 기초하여 학습된 모델을 머신 러닝부(170)를 통하여 재학습되도록 할 수 있다. 또한, 머신 러닝부(170)업데이트된 보안장비에 따라 재학습된 모델을 저장할 수 있고, 버전별로 학습된 모델을 별도로 저장함으로써 필요에 따라 서로 다른 모델을 로드하여 이용할 수도 있다.

한편, 다음과 같은 방식을 통하여 분석을 진행할 수 있다.

배치(Batch) 분석은 들어오는 스트림 데이터를 배치 간격(batch interval)마다 데이터를 나누고, 나눠진 배치데이터를 프로세스 엔진이 처리하여 배치 간격마다 결과를 내놓을 수 있다. 즉, 스트림 처리를 작은 시간 간격을 갖는 배치 처리의 연속으로 전환하여 처리할 수 있다. 이러한 방식을 마이크로 배치(micro-batch) 방식이라고 하며, 구체적으로 이는 작은 배치 처리를 무한히 반복하는 방식을 의미한다.

또한 CEP 분석은 스트림 데이터를 실시간으로 분석하는 이벤트 데이터 처리 기술로서, 여러 이벤트 소스로부터 발생한 이벤트를 대상으로 실시간으로 의미 있는 데이터를 추출하여 이에 대응되는 기능을 수행하는 것을 의미한다. 이때 이벤트 데이터는 스트림 데이터로써 대량으로 지속해서 입력되는 데이터, 시간 순서가 중요한 데이터, 끝이 없는 데이터 등을 포함한다.

최근 다양한 IT 환경에서 수많은 데이터가 쏟아지고 있다. RFID 리더, 바코드 스캐너, 기계 장치의 센서는 물론 최근에는 중요 자원의 위치를 알려주는 GPS(Global Positioning Systems) 정보까지 다양한 데이터가 끊임없이 쏟아지고 있으며, 이렇듯 지속해서 데이터를 발생시키는 시스템들이 많아지는 환경에서 사용될 수 있다.

데이터 전처리부(160)는 수집된 학습 데이터를 전처리하여 학습용 데이터셋을 생성할 수 있다. 예를 들어, 데이터 전처리부(160)는 수집된 학습 데이터(500)를 파싱하고, 유형별로 분류하거나 라벨링함으로써 전처리 과정을 수행하여 머신 러닝부(170)에 의한 학습 모델링에 제공한다.

머신 러닝부(170)는 유사도 분석, 시계열 분석, 그룹 분석 및 상관분석 등을 통하여 전처리된 학습용 데이터셋을 이용하여 학습 모델을 생성한다. 머신 러닝부(170)는 학습 대상 데이터를 로드하고, 모델 별로 적합한 학습 방법을 선택하여 학습을 진행하고, 이를 데이터베이스화 한다. 일반적으로 학습 모델의 평가는 사람의 관여가 필요하나, 본 실시예에서는 학습모델 고도화부(180)를 활용하여 평가를 진행하는 것이 가능하다. 또한 머신러닝부(170)는 데이터 처리부(140)에 의하여 사전조치 가이드가 제공된 후 결과값을 반영하여 재학습을 할 수 있다.

다른 실시 예에서, 머신 러닝부(170)는 서로 다른 종류의 보안장비로부터 수집되는 서로 다른 유형의 로그 데이터 및 장애 정보를 이용하여 생성된 서로 다른 유형의 학습용 데이터셋을 이용하여 학습을 수행할 수 있다. 예를 들어, 머신 러닝부(170)는 학습된 모델을 서로 다른 유형의 학습용 데이터셋을 이용하여 재학습시킴으로써 미세조정(fine tuning)을 수행하고, 그 결과로서 서로 다른 유형의 로그 데이터로부터 장애징후를 인식하고, 장애를 예측할 수 있다.

미세조정은 서로 다른 보안장비의 종류에 따라 각각 수행됨으로써, 서로 다른 보안장비에 각각 커스터마이징된 머신 러닝부(170)가 제공될 수 있다. 또한, 미세조정은 하나의 머신 러닝부(170)에 대하여 이루어짐으로써, 서로 다른 종류의 보안장비에 대하여 모두 적용가능한 장애예측 솔루션(600)이 제공될 수도 있다.

한편, 앞서 설명한 바와 같이 머신 러닝부(170)는 의도적 장애 및 구조적 장애로 구분하여 학습 모델을 생성한다.

시각화부(190)는 데이터 처리부(140)에 의한 결과를 시각적으로 표시하여 제공하기 위한 구성으로서, 시계열 관계, 상관 관계, 유사도 관계, 그룹 관계, 영향도 등을 시각적으로 표시하여 관리자에게 제공할 수 있다.

학습 모델 고도화부(180)은 장애 징후 모의 구현하여 머신 러닝부(170)에 의하여 학습된 학습 모델의 패턴 및 확률의 정확도를 강화하기 위한 구성부이다.

학습 모델의 패턴에 관련된 보안장치, 보안장치의 펌웨어 버전 등의 정보를 확인하고 이를 포함하는 모의 시스템을 구현하여 장애 발생시의 환경을 유사하게 구현한 뒤 장애 발생을 재현한다. 장애의 발생 종류, 현상, 대상, 확률 등을 구체적으로 반복 학습하여 해당 장애 징후의 학습 정도를 고도화하는 구성부이다.

도 2를 참조하여 일 실시예에 따른 이기종 보안장치 장애예측 방법을 설명한다.　

단계 S110에서, 장애예측 솔루션은 보안장비의 로그 데이터, 이벤트 데이터, 시스템 리소스 데이터를 수집한다. 로그 데이터는 서로 다른 종류의 보안 장비에서 수집되는 하나 이상의 메타데이터를 포함하며, 실시 예에 따라 로그 데이터는 타임 스탬프를 포함하는 실시간 데이터를 포함할 수 있다.

개시된 실시 예에 따른 보안장비는 서로 다른 종류의 이기종 네트워크 보안장비, 보안 시스템, 보안 솔루션, 보안 소프트웨어 및 하드웨어를 모두 포괄하는 개념으로 이해된다. 예를 들어, 보안장비는 방화벽(Firewall), 침입 방지 시스템(Intrusion Prevention System; IPS) 및 디도스(Distrubute Denial of Service; DDos)를 포함할 수 있으나, 이에 제한되는 것은 아니다. 실시 예에 따라서, 보안장비는 CCTV나 건물의 출입관리시스템 등의 하드웨어 보안수단 또한 포함할 수 있다.

로그 데이터는 상술한 보안장비에서 실시간으로 수집되며, 보안장비의 동작에 따라 발생하는 정보, 외부 자극에 의하여 발생하는 정보, 정상상태 및 이상상태에 따라 발생하는 정보 등 각각의 보안장비에서 생성 및 수집되는 모든 종류의 데이터를 포함할 수 있다.

개시된 실시 예에 따른 장애예측 솔루션은 이기종 네트워크 보안장비로 부터 수집되는 대용량 데이터의 실시간 분산 처리를 위한 유실없는 스트림 처리 인프라를 구축한다.

빅 데이터의 핵심 요소인 양, 다양성 및 속도 중 최근에는 속도가 중요하게 부각되고 있으며, 이에 따라 대량의 데이터를 빠르게 처리하기 위하여 실시간 처리(Real-time processing) 또는 스트림 처리(Stream processing) 등의 기술이 이용되고 있다.

개시된 실시 예에서, 실시간 처리방법은 소정의 마감시각(deadline)이 설정되고, 마감시각 내에 주어진 연산을 완료하지 못하면 실패한 것으로 처리하는 것을 의미할 수 있다. 구체적으로, 마감시각을 놓쳤을 때의 처리 결과에 따라 서로 다른 단계의 실시간(예를 들어, Hard, Firm, Soft real-time)으로 구분된다. 따라서 개시된 실시 예에 따른 실시간 처리방법은 목표로 하는 시간 제약이 주어지고 그에 따른 실패 수준이 정해지고, 개시된 실시 예에서, 스트림 처리는 그 범위가 한정되지 않고(unbounded) 끊임없이 흘러가는(stream) 데이터에 대한 처리 방식을 의미할 수 있다. 스트림 처리에 의하여 끊임없이 흘러가는 데이터를 처리하는 과정에서, 자연스럽게 배치 처리에 비해 데이터 처리 결과를 빠르게 받아볼 수 있어, 실시간 처리로도 이해될 수 있다. 각각의 배치 처리는 프로세스 엔진을 이용하여 분산 처리되어, 성능과 장애 복구 가능성을 모두 갖는 프로세스엔진의 장점들을 모두 이용할 수 있다.

단계 S120에서, 장애예측 솔루션은 학습된 모델을 이용하여 단계 S110에서 수집된 로그 데이터에 포함된 장애징후를 인식한다. 이 때 의도적 장애, 구조적 장애로 구분하여 장애를 인식함으로써 발생활률의 산출 정확도를 향상시킨다.

즉, 작업자의 의하여 수행된 프로세스의 결과로서의 장애와 장치의 작동 과정에서 기능의 중복, 충돌, 진행과정 상에서의 기능저하로 인한 장애를 구분하여 확률을 산출한다. 이러한 장이징후 인식과 그 결과는 학습모델 업데이트(s160) 과정에서 반영되어 별도의 학습 모델을 구축하게 된다.

장애예측 솔루션이 인식하는 장애징후는 특정 패턴의 로그 데이터 또는 특정한 특징을 갖는 로그 데이터를 포함할 수 있으며, 이에 제한되지 않는다. 또한, 장애예측 솔루션이 인식하는 장애징후는 특정한 로그 데이터를 의미할 수도 있고, 하나 이상의 로그 데이터의 조합을 의미할 수도 있다.

단계 S130에서, 장애예측 솔루션은 단계 S120에서 인식된 장애징후에 대응하는 장애를 예측한다. 장애예측 솔루션에서 예측할 수 있는 장애의 종류는 제한되지 않는다. 예를 들어, 장애예측 솔루션에서 예측할 수 있는 장애는 방화벽의 물리적 또는 애플리케이션 문제를 포함할 수 있고, 침입 방지 시스템의 물리적 또는 애플리케이션 문제와 디도스의 물리적 및 애플리케이션 문제를 포함할 수 있으나, 이에 제한되는 것은 아니다. 다만, 앞서 설명한 바와 같이 의도적인지 또는 구조적인 요인에 따른 장애인지를 구분하여 장애를 예측한다.

장애예측 솔루션은 과거 유사 장애가 발생한 정보가 수집된 데이터베이스 정보와의 비교를 통해 장애징후를 인식하고, 인식된 장애징후에 대응하는 장애를 예측할 수 있으며, 또한 장애예측 솔루션은 과거에 발생한 장애에 대한 정보 및 이에 대응하는 로그 데이터가 수집된 데이터베이스에 기초하여 학습용 데이터셋을 획득하고, 이에 기초하여 학습된 모델을 이용하여 로그 데이터로부터 장애징후를 인식하고, 장애징후에 대응하는 장애를 예측할 수 있다.

단계 S140에서, 장애예측 솔루션은 장애징후의 영향도를 판단한다. 일 실시 예에서, 영향도는 예측되는 장애의 등급, 장애가 발생할 수 있는 예상 시점 및 장애가 발생할 확률 등을 포함할 수 있으나, 이에 제한되지 않는다.

예를 들어, 장애예측 솔루션은 단계 S120에서 인식된 장애징후에 대응하는 하나 이상의 장애를 단계 S130에서 예측할 수 있다. 장애예측 솔루션은 단계 S120에서 인식된 장애징후에 대하여, 예측된 하나 이상의 장애 각각에 대한 영향도를 판단할 수 있다. 또한 장애예측 솔루션은 단계 S120에서 인식된 장애징후에 대하여, 단계 S130에서 예측된 하나 이상의 장애 각각이 발생할 확률을 판단하여 제공할 수 있다.

단계 S150에서, 장애예측 솔루션은 단계 S130에서 예측된 장애에 대응하는 사전 조치 가이드를 제공한다. 장애예측 솔루션은 장애를 예측한 내용을 기반으로 그 영향도를 분석하고, 분석 결과를 가시화하여 제공할 수 있다.

사전 조치 가이드는 각각의 장애를 예방하기 위한 방법 및 장애발생여부를 점검하기 위한 위험관리에 대한 정보와, 각각의 장애가 발생하는 경우 이에 대응하기 위한 이슈관리 방법에 대한 정보를 포함한다. 이슈관리 방법은 발생한 장애에 대한 초동조치를 위한 방법과, 이를 해결하기 위한 방법을 포함하며, 제공된 이슈관리 방법에 의하여 장애가 해결되지 않는 경우 담당자 또는 관리자에게 장애발생 사실을 전달하기 위한 정보를 포함한다. 또한 장애예측 솔루션은 사용자가 사전 조치 가이드를 따라 장애를 예방, 점검하거나 해결하기 위한 정보를 제공할 수 있다.

다른 실시 예에서, 장애예측 솔루션은 사전 조치 가이드에 따라 장애를 예방, 점검하거나 해결하기 위한 프로세스를 수행할 수 있다. 수행 결과에 따라 장애가 예방 또는 해결되지 않을 경우, 장애예측 솔루션은 예측된 장애에 대한 정보와 이에 대한 조치내용 및 그 결과를 사용자에게 제공할 수 있다.

한편, 단계 s130, s140 및 s150의 처리과정에서 그 결과 및 데이터들은 배치 패턴화된 상태로 학습모델 업데이트(s160) 과정에서 이용될 수 있다.

단계 S160에서 장애 징후 모의 구현하여 머신 러닝부에 의하여 학습된 학습 모델의 패턴 및 확률의 정확도를 강화한다. 학습 모델의 패턴에 관련된 보안장치, 보안장치의 펌웨어 버전 등의 정보를 확인하고 이를 포함하는 모의 시스템을 구현하여 장애 발생시의 환경을 유사하게 구현한 뒤 장애 발생을 재현한다. 장애의 발생 종류, 현상, 대상, 확률 등을 구체적으로 반복 학습하여 해당 장애 징후의 학습 정도를 고도화한다.

도 3을 참조하여 일 실시 예에 따라 로그 데이터 등에 기초하여 장애를 예측하는 방법을 도시한 도면이다.

로그 데이터(200), 이벤트 데이터 및 시스템 리소스 데이터 등으로부터 장애징후(210)를 인식하고, 인식된 장애징후(210)로부터 의도적(type1) 또는 구조적(type 2)인 원인에 따른 장애징후로 분류하고, 각 장애(310, 320, 330, 340, 350 및 360))를 예측하고, 각각의 장애에 대응하는 사전 조치 가이드(315, 325, 335, 345, 355 및 365)를 제공하는 일 예가 도시되어 있다.

일 실시 예에서, 장애예측 솔루션은 보안장비로부터 수집되는 로그 데이터(200)를 실시간으로 또는 소정의 딜레이를 두고 획득하고, 획득된 로그 데이터(200)로부터 장애 징후(210)를 인식한다. 장애예측 솔루션은 기존에 수집된 로그 데이터와 이에 대응하는 장애에 대한 정보에 기초하여 학습된 모델을 이용하여 장애징후를 인식하고, 장애를 예측할 수 있다.

장애예측 솔루션 고도화(S170) 단계에서는 학습 모델 업데이트 단계(S160)를 통하여 업데이트된 학습 모델을 가상의 이기종 네트워크 모델 상에서 반복 재현을 통하여 강화 학습을 진행한다.

이상 본 발명의 바람직한 실시예에 대하여 설명하였으나, 본 발명의 기술적 사상이 상술한 바람직한 실시예에 한정되는 것은 아니며, 특허청구범위에 구체화된 본 발명의 기술적 사상을 벗어나지 않는 범주에서 다양하게 구현될 수 있다.

100: 이기종 장애예측 장치
110: 데이터 수집부
120: 저장부
130: 데이터 파싱부
140: 데이터 처리부
150: 리소스 모니터링부
160: 데이터 전처리부
170: 머신 러닝부
180: 학숩모델 고도화부
190: 시각화부

Claims

장애예측 솔루션이 보안장비의 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 수집하는 제1 단계;
상기 장애예측 솔루션이 학습된 모델을 이용하여 상기 수집된 로그 데이터, 이벤트 데이터 및 시스템 리소스 상태정보를 정규화하고, 상기 정규화된 데이터를 이용하여 장애징후를 인식하는 제2 단계;
상기 장애예측 솔루션이 상기 인식된 장애징후에 대응하는 하나 이상의 장애를 예측하는 제3 단계;
상기 장애예측 솔루션이 상기 예측된 각 장애의 등급, 발생 확률 및 발생 예상 시점 중 적어도 하나를 포함하는 장애징후의 영향도를 판단하는 제4 단계; 및
상기 장애예측 솔루션이 상기 예측된 각 장애를 예방, 점검 또는 해결하기 위한 정보를 포함하는 사전 조치 가이드를 제공하고, 상기 사전 조치 가이드에 따른 프로세스를 수행하는 제5 단계;를 포함하고,
상기 제1 내지 제5 단계와 병렬적으로 수행되고, 상기 장애예측 솔루션이 상기 제3 단계 및 상기 제4 단계의 결과를 학습하여 학습모델을 업데이트하는 학습 모델 업데이트 단계;를 포함하고,
상기 제2 단계에서는 상기 장애징후를 의도적 장애, 구조적 장애로 구분하여 인식하고,
상기 학습 모델 업데이트 단계에서는 상기 의도적 장애 및 구조적 장애에 대하여 서로 다른 독립적인 학습 모델을 구비하여 상기 제2 단계의 장애징후 판단에 제공하고,
상기 제3 단계에서는 상기 제2 단계에서 의도적 장애와 구조적 장애로 구분된 장애징후에 대하여 상기 독립적인 학습 모델 중 대응하는 학습 모델을 적용하여 장애를 예측하며,
상기 의도적 장애는 특정 작업자에 의하여 발생하는 반복 패턴, 특정 작업자가 제공한 프로그램에 의한 반복 패턴을 인식하여 결정하고,
상기 구조적 장애는 복수의 로그 및 이벤트의 반복 패턴을 인식하여 인식하며,
상기 학습 모델 업데이트 단계를 통하여 업데이트된 학습 모델을 가상의 이기종 네트워크 모델 상에서 반복 재현을 통하여 강화 학습을 진행하는 강화학습 단계를 더 포함하고,
상기 가상의 이기종 네트워크 모델은 상기 이기종 네트워크 보안장비의 복수의 버전의 펌웨어를 포함하고, 상기 학습 모델 중 강화 대상이 되는 패턴과 관련된 보안장비 및 특정 버전의 펌웨어를 로딩하여 강화 학습을 진행하는 이기종 네트워크 보안장비의 장애 예측방법.
삭제
삭제
삭제
제1항에 있어서,
상기 학습된 모델은,
기존에 수집된 로그 데이터 및 상기 기존에 수집된 로그 데이터에 대응하는 장애정보를 포함하는 학습 데이터를 이용하여 학습된 모델인 이기종 네트워크 보안장비의 장애 예측방법.
제1항에 있어서,
상기 학습된 모델은,
하나 이상의 서로 다른 종류의 보안장비로부터 기존에 수집된 로그 데이터 및 상기 서로 다른 종류의 보안장비로부터 기존에 수집된 로그 데이터에 각각 대응하는 장애정보를 포함하는 학습 데이터를 이용하여 학습된 모델인 것을 특징으로 하는, 이기종 네트워크 보안장비의 장애 예측방법.
제1항에 있어서,
상기 장애예측의 결과에 따른 사전조치 가이드 및 상기 사전조치 가이드에 따른 조치 결과에 대한 정보를 수집하는 단계;를 포함하고,
상기 학습 모델 업데이트 단계에서는 상기 조치 결과에 기초하여 학습 모델을 업데이트하는 이기종 네트워크 보안장비의 장애 예측방법.