KR20190050521A

KR20190050521A - 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법

Info

Publication number: KR20190050521A
Application number: KR1020170146015A
Authority: KR
Inventors: 한욱연
Original assignee: 주식회사 윈스
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2019-05-13

Abstract

본 발명은 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법에 관한 것이다.
또한, 본 발명에 따르면, 세션 데이터를 전송하는 침입 차단 장치; 및 상기 침입 차단 장치에서 수집된 세션 데이터를 분석하여 통계 타입별로 통계 데이터를 산출하고, 산출된 통계 데이터를 학습 데이터로 하여 기계 학습을 수행하고, 특징 항목을 추출하여 이를 기반으로 이상 징후를 탐지하는 기계 학습 분석 시스템을 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법을 제공한다.

Description

프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법{Apparatus and method for detecting anomalous signs using profiling-based machine learning}

본 발명은 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법에 관한 것이다.

인터넷을 통한 웜, 스캐닝, 서비스 거부 공격(Denial of Service attack, DoS) 등의 네트워크 공격은 네트워크 자원을 낭비하여 사용자에게 제공되는 서비스의 질과 보안의 강도를 하락시키는 위협적인 존재이다.

2000년에 발생한 Amazon, CNN, Yahoo, Ebay 같은 유명 사이트를 마비시킨 사례나, 2001년 Microsoft Domain Name System(DNS) 서버와 연결된 라우터가 분산 서비스 거부 공격을 받아 라우터의 과부하로 인해 한동안 웹 접속서비스가 마비된 사건이 대표적인 사례로 볼 수 있다. 따라서 이러한 네트워크 공격을 높은 정확도로 탐지하는 기법을 개발하는 것은 시급한 문제이다.

이상 징후(anomalous events)란 네트워크 공격의 일련의 과정 및 결과에서 추출할 수 있는 트래픽 특성을 지칭한다. 이상징후의 일례로는 높은 대역폭, 정상 트래픽과는 다른 IP의 분포 혹은 포트 번호의 분포 등이 있다.

이상 징후는 네트워크 공격을 탐지하는 데에 적합한 단서를 제공하며, 따라서 이러한 이상 징후를 높은 정확도로 탐지하는 것은 네트워크 공격에 기민하게 대처하는 데에 일조할 수 있다.

현재까지 이상 징후를 효율적으로 탐지하기 위한 기법이 다수 제안되었다. 기존 연구는 일반적으로 트래픽 볼륨에 대한 관찰을 바탕으로, 트래픽 볼륨에 특징적인 변화가 나타날 시에 이를 이상징후로서 탐지한다. 트래픽 볼륨이란 단위시간당 패킷수, 단위시간 당 패킷의 크기의 변화량 등을 시간순으로 관측한 데이터를 의미한다. 대표적인 연구로 시계열 예측, 주성분 분석, 신호 분석을 이용한 이상 징후 탐지 기법이 있다. 이러한 기존 기술은 미탐율과 오탐율이 높거나, 시간복잡도가 높다는 단점이 있다.

공개번호 10-2011-0067264호 공개번호 10-2017-0081543호 등록번호 10-1585342호

본 발명은 상기와 같은 필요를 충족시키기 위하여 안출된 것으로, 세션 데이터를 수집하여 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 기반으로 시간, 요일 등의 요소에 기반한 특징 항목을 산출하여 이를 기반으로 이상 징후를 탐지하도록 하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치 및 방법을 제공하는 데 있다.

본 발명의 장치는 세션 데이터를 전송하는 침입 차단 장치; 및 상기 침입 차단 장치에서 수집된 세션 데이터를 분석하여 통계 타입별로 통계 데이터를 산출하고, 산출된 통계 데이터를 학습 데이터로 하여 기계 학습을 수행하고, 특징 항목을 추출하여 이를 기반으로 이상 징후를 탐지하는 기계 학습 분석 시스템을 포함한다.

또한, 본 발명의 장치의 상기 기계 학습 분석 시스템은 KNN 알고리즘을 기계 학습의 학습 모델로 사용한다.

또한, 본 발명의 장치의 상기 기계 학습 분석 시스템은 시작지 어드레스와 도착지 어드레스를 포함하여 사용자 행동을 기계 학습에 포함시키고, 프레임을 활용하여 서비스 기준에 따라 발생하는 패킷량을 기계 학습에 포함시킨다.

또한, 본 발명의 장치의 상기 기계 학습 분석 시스템은 상기 침입 차단 장치로부터 세션 데이터를 수집하는 세션 수집부; 상기 세션 수집부에서 수집한 세션 데이터를 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 훈련 데이터로 설정하는 훈련 데이터 설정부; 상기 훈련 데이터 설정부에서 설정된 훈련 데이터를 기반으로 기계 학습을 수행하고, 특징 항목을 추출하여 유사도를 산출하는 기계 학습부; 및 상기 기계 학습부에서 산출한 유사도에 따라 이상 징후로 탐지하는 이상 징후 탐지부를 포함한다.

또한, 본 발명의 장치의 상기 훈련 데이터 설정부는 하루를 일정 시간 단위를 기준으로 통계 데이터를 산출하고, 요일별로 통계 데이터를 생성하며, 시즌별 특성에 따라 분류하고, 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 생성한다.

한편, 본 발명의 방법은 (A) 기계 학습 분석 시스템이 침입 차단 장치에서 송신되는 세션 데이터를 수집하는 단계; (B) 기계 학습 분석 시스템이 상기 침입 차단 장치에서 수집된 세션 데이터를 분석하여 통계 타입별로 통계 데이터를 산출하는 단계; 및 (C) 상기 기계 학습 분석 시스템이 산출된 통계 데이터를 학습 데이터로 하여 기계 학습을 수행하고, 특징 항목을 추출하여 유사도를 산출하여 이를 기반으로 이상 징후를 탐지하는 단계를 포함한다.

또한, 본 발명의 방법의 상기 통계 타입은 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽 및 서비스 포트 트래픽을 포함한다.

또한, 본 발명의 방법의 상기 (C) 단계는 (C-1) 상기 기계 학습 분석 시스템이 수집된 세션 데이터를 기반으로 통계 타입별로 통계 데이터를 산출하여 훈련 데이터를 설정하는 단계; 및 (C-2) 상기 기계 학습 분석 시스템이 설정된 훈련 데이터를 이용하여 기계 학습을 수행하여 유사도를 산출하는 단계를 포함한다.

또한, 본 발명의 방법의 상기 (C-1) 단계에서 상기 기계 학습 분석 시스템은 하루를 일정 시간 단위를 기준으로 통계 데이터를 산출하고, 요일별로 통계 데이터를 생성하며, 시즌별 특성에 따라 분류하고, 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 생성한다.

상기와 같은 본 발명은 세션 데이터를 수집하여 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 기반으로 시간, 요일 등의 요소에 기반한 특징 항목을 산출하여 이를 기반으로 이상 징후를 탐지하도록 하여 탐지율이 높다.

도 1은 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치의 구성도이다.
도 2는 본 발명에 이용되는 학습 모델을 나타내는 도면이다.
도 3은 본 발명에 이용되는 학습 모델을 설명하기 위한 도면이다.
도 4는 도 1의 기계 학습 분석 시스템의 내부 구성도이다.
도 5는 하루를 1140분으로 나누어 통계를 생성하는 방법을 보여주는 예시도이다.
도 6은 요일별로 통계 데이터를 생성하는 방법을 보여주는 예시도이다.
도 7은 시즌을 도입하여 통계 데이터를 분류하는 방법을 보여주는 예시도이다.
도 8은 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법의 흐름도이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 설명하기 위하여 이하에서는 본 발명의 바람직한 실시예를 예시하고 이를 참조하여 살펴본다.

먼저, 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 또한 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치의 구성도이다.

도 1을 참조하면, 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 통계 학습을 활용한 이상 징후 탐지 장치는 라우터(10), 침입 차단 장치(30), 스위치(40), 클라이언트 컴퓨터(51, 52, 53) 및 기계 학습 분석 시스템(60)을 포함하고 있다.

여기에서, 라우터(10)는 내부망과 외부망 사이에 데이터 패킷을 라우팅하는 종래의 라우팅 디바이스일 수 있다.

이러한 라우터(10)는 패킷의 목적지(또는 도착지) 어드레스를 검사하고 그 패킷이 발송되어질 그 다음 라우터를 결정한다. 이 프로세스는 메시지 내의 각 패킷에 대해 반복되어진다. 단일의 메시지에 대응하는 패킷들이 소스 클라이언트 컴퓨터로부터 목적지 컴퓨터를 향하여 수많은 상이한 경로 상으로 전송되도록, 프로세스는 일반적으로 각 패킷에 대해 독립적으로 수행된다.

다음으로, 침입 차단 장치(30)는 일반적으로 그 네트워크에 도착하는 패킷을 검사하는 작업을 행하는 컴퓨터로서, 패킷들이 그 네트워크 내부에서 분배될 수 있도록 인가될 것인가를 결정한다.

침입 차단 장치(30)는 원하지 않는 접근에 대항하여 시스템을 보호하는데 매우 효과적일 수 있지만, 이러한 보호가 절대 완전한 것은 아니며 비인가된 패킷이 네트워크에 도입될 수 있다.

이러한 침입 차단 장치(30)는 세션 데이터를 수집하여 기계 학습 분석 시스템(60)으로 전송한다.

그리고, 스위치(40)는 해당 기술분야에 공지된 바와 같은 종래의 허브 디바이스(예, 이더넷 허브)이다.

한 패킷이 침입 차단 장치(30)를 통하여 통과한 후, 그것은 스위치(40)에 의하여 네트워크 상의 적절한 컴퓨터로 발송되어야 한다.

스위치(40)가 그 패킷을 수신할 때, 그 스위치(40)는 다른 라우팅 장치와 동일한 방식으로 목적지 어드레스를 결정하도록 패킷을 처리해야 한다.

패킷을 발송하는 것에 부가하여, 스위치(40)는 어떤 것을 거절하거나 재발송하고 다른 것은 통과하게 하는 침입 차단 장치(30)의 기능과 유사한 기능을 수행한다.

그렇게 함으로써, 스위치(40)는 네트워크 내부의 패킷의 흐름을 제어한다. 네트워크 상의 컴퓨터들이 스위치(40)를 통하여 서로간에 연결되기 때문에, 스위치(40)는 그것이 연결된 각 컴퓨터에 출입하는 패킷 흐름을 제어할 수 있다. 따라서, 비인가된 패킷이 침입 차단 장치(30)를 통하여 통과하더라도, 패킷은 스위치(40)의 액세스 규칙을 만족한 후에야 네트워크 내부에서 한 장치로부터 다른 장치로 전송될 수 있다.

다음으로, 클라이언트 컴퓨터(51, 52, 53)는 종래의 태블릿, 노트북, 랩탑 또는 데스크탑 컴퓨터와 같은 네트워크 서비스를 요구할 수 있는 임의 유형의 컴퓨팅 디바이스일 수 있다.

이와 같은 클라이언트 컴퓨터(51, 52, 53)는 스위치(40)에 결합되어 있으며, 스위치(40)를 통하여 내부 또는 외부와 통신한다.

이처럼 클라이언트 컴퓨터(51, 52, 53)는 서로 통신할 수 있고, 패킷 스위칭 프로토콜을 이용하여 다른 네트워크 상의 컴퓨터와 통신할 수 있다. (위에서 언급된 바와 같이, " 컴퓨터" 는 다양한 유형의 네트워크 장치를 포함한다.)

패킷 스위칭 프로토콜은 두개의 컴퓨터 사이에 보내지는 정보가 패킷으로 나뉘어지도록 요청한다.

그리고 나서, 이 패킷들은 컴퓨터들 사이에서 전송된다. 패킷 스위칭 프로토콜을 이용하는 네트워크는 물리적 연결 대신에 두 컴퓨터 간의 가상 연결을 구축할 수 있다.

두개의 컴퓨터 사이에 전송되는 정보가 패킷들로 나뉘어지기 때문에, 소스(또는 시작지, 출발지)와 목적지(또는 도착지) 사이의 컴퓨터들은 패킷을 어디로 보내야 할지 결정할 방법을 가지고 있어야 한다.

따라서, 각 패킷은 목적지 어드레스를 가진다. 많은 네트워크에서, IP(Internet Protocol) 어드레스 또는 TCP/IP(Transport Control Protocol/Internet Protocol) 어드레스가 사용된다.

이와 같은 클라이언트 컴퓨터(51, 52, 53)는 각종 침입 탐지 장치가 설치되어 있는데, 클라이언트 컴퓨터(51, 52, 53)는 각종 침입이 탐지되면 침입 탐지 이벤트를 발생시켜 기계 학습 분석 시스템(60)으로 전송한다.

한편, 기계 학습 분석 시스템(60)은 침입 차단 장치(30)에서 전송된 세션 데이터를 일정 시간 단위(바람직하게 1분 단위로) 수집하여, 수집된 데이터에 대해서 통계 타입 별로 통계를 산출하여, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 기반으로 시간, 요일 등의 시간 변수를 기준으로 학습을 진행한다.

이때, 사용되는 통계 타입과 합할 데이터가 아래 표 1에 도시되어 있다.

종류(타입)	합할 데이터	기타
이벤트	시도 횟수, 탐지 횟수, bps, pps
공격명	시도 횟수, 탐지 횟수, bps, pps
전체 트래픽	bps, pps
프로토콜 트래픽	bps, pps
서비스 포트 트래픽	bps, pps

표 1을 참조하면, 통계 타입은 침입 차단 장치(30)에서 수집된 세션 데이터에서 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽을 포함한다.

이와 같이 기계 학습 분석 시스템(60)은 훈련 집합을 이용하여 기계 학습을 진행하고 침입 차단 장치(30)에서 새로운 세션 데이터가 수집되면 각 세션별 유사도에 대한 점수에 따라 이상 징후를 탐지한다.

이때, 기계 학습 분석 시스템(60)은 KNN(K-Neareast Neighbors) 알고리즘을 사용하여 기계 학습을 진행하고 이상 여부를 판단할 수 있으며, 도 2는 본 발명에 이용되는 학습 모델을 나타내는 도면이며, 도 3은 본 발명에 이용되는 학습 모델을 설명하기 위한 도면이다.

여기에서, KNN 알고리즘은 분류가 되어 있지 않은 데이터(Test data)들을 분류된 데이터(training data)들 중 가장 비슷한 속성을 가진 그룹으로 분류해주는 방식으로, 그룹의 항목들이 동질적인 경향을 보일 때 적합하다.

이때, 사용되는 특징 항목이 아래 표 2에 도시되어 있다.

항목	설명
Time-week	월,화,수,목,금,토,일
Time-min	하루 기준 특정 분(1440)
srcip	출발지 어드레스
dstip	도착지 어드레스
dstport	서비스 포트
Protocol	프로토콜
bps	1분 평균 bit per sec
pps	1분 평균 packet per sec
min bps	1분 최소 bit per sec
max bbs	1분 최대 bit per sec
min pps	1분 최소 packet per sec
max pps	1분 최대 packet per sec
normal Label	정상
abnormal Label-low	위반(낮음_
abnormal Label-medium	위반(보통)
abnormal Label-high	위반(높음)

표 2를 참조하면, 기계 학습 분석 시스템(60)은 주간 항목, 하루 기준 특정분을 포함하여 시간 요소를 기계 학습에 포함시킨다.

또한, 기계 학습 분석 시스템(60)은 출발지(Srcip)와 도착지 어드레스(dstip)를 포함하여 사용자 행동을 기계 학습에 포함시킨다.

또한, 기계 학습 분석 시스템(60)은 프레임을 활용하여 서비스 기준(dst port + Protocol)에 따라 발생하는 패킷량(bps, pps)을 기계 학습에 포함시킨다.

도 4는 도 1의 기계 학습 분석 시스템의 내부 구성도이다.

도 4를 참조하면, 도 1의 기계 학습 분석 시스템은 세션 수집부(110), 훈련 데이터 설정부(120), 기계 학습부(130) 및 이상 징후 탐지부(140)를 포함한다.

상기 세션 수집부(110)는 침입 차단 장치(30)에서 전송된 세션 데이터를 수집한다.

이에 따라 상기 훈련 데이터 설정부(120)는 수집된 세션 데이터를 기반으로 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 기반으로 시간, 요일 등의 시간 변수에 따른 기계 학습을 수행한다.

즉, 훈련 데이터 설정부(120)는 수집된 세션 데이터를 기반으로 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 설정한다.

이때, 훈련 데이터 설정부(120)는 하루를 일정 시간 단위, 일예로 분 단위를 기준으로 통계 데이터를 산출하며, 이때 하루를 도 5에 도시된 바와 같이 1440분으로 나누어 통계 데이터를 설정한다.

그리고, 훈련 데이터 설정부(120)는 하루를 일정 시간 단위로 나누어 형성한 통계 데이터를 기반으로 도 6에 도시된 바와 같이 요일별로 통계 데이터를 생성한다,

또한, 훈련 데이터 설정부(120)는 도 7에 도시된 바와 같이 시즌을 도입하여 통계 데이터를 시즌별 특성에 따라 분류할 수 있다.

물론, 훈련 데이터 설정부(120)는 년 단위로 통계 데이터를 분류하여 훈련 데이터를 생성할 수 있으며, 선거나, 방학, 올림픽, 이슈 등과 같은 특정시점의 사건을 즉 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 형성할 수 있다.

이에 따라, 기계 학습부(130)는 훈련 데이터 설정부(120)에서 설정된 훈련 집합의 훈련 데이터를 이용하여 기계 학습을 수행한다.

이때 기계 학습부(130)가 사용하는 기계 학습의 학습 모델은 KNN(K-Neareast Neighbors) 알고리즘을 사용할 수 있다.

이러한 기계 학습부(130)가 기계 학습을 수행할 때 사용하는 특징 항목은 표 2에 나열되어 있다.

이와 같이 기계 학습부(120)가 훈련 데이터를 이용하여 학습을 진행하고 세션 수집부(100)에서 새로운 세션 데이터가 수집되면 새롭게 수집된 세션 데이터를 KNN알고리즘을 사용하여 분류하여 유사도를 산출하며, 이상 징후 탐지부(140)는 각 세션별 유사도에 대한 점수에 따라 이상 징후를 탐지한다.

도 8은 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법의 흐름도이다.

도 8을 참조하면, 본 발명의 바람직한 일 실시예에 따른 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법은 기계 학습 분석 시스템(60)이 침입 차단 장치(30)에서 전송된 세션 데이터를 일정 시간 단위로(바람직하게 1분 단위로) 수집하여(S100), 수집된 데이터에 대해서 통계 타입 별로 통계를 산출하여(S110), 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 설정하여(S120) 기계 학습하고(S130), 특징 항목을 추출하여 유사도를 산출하여(S140) 이를 기반으로 이상 징후를 탐지한다(S150).

상기 이벤트 수집 과정 S100에서 기계 학습 분석 시스템(60)은 침입 차단 장치(30)에서 전송된 세션 데이터를 수집한다.

그리고, 상기 통계 산출 과정 S110에서 기계 학습 분석 시스템(60)은 수집된 새션 데이터를 기반으로 통계 타입별로 통계를 산출한다.

구체적으로, 기계 학습 분석 시스템(60)은 수집된 세션 데이터를 기반으로 통계 타입별로 통계를 산출하는데, 하루를 일정 시간 단위, 일예로 분 단위를 기준으로 통계 데이터를 산출하며, 이때 하루를 도 5에 도시된 바와 같이 1440분으로 나누어 통계 데이터를 설정한다.

그리고, 기계 학습 분석 시스템(60)은 하루를 일정 시간 단위로 나누어 형성한 통계 데이터를 기반으로 도 6에 도시된 바와 같이 요일별로 통계 데이터를 생성한다,

또한, 기계 학습 분석 시스템(60)은 도 7에 도시된 바와 같이 시즌을 도입하여 통계 데이터를 시즌별 특성에 따라 분류할 수 있다.

물론, 기계 학습 분석 시스템(60)는 년 단위로 통계 데이터를 분류하여 훈련 데이터를 생성할 수 있으며, 선거나, 방학, 올림픽, 이슈 등과 같은 특정시점의 사건을 즉 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 형성할 수 있다.

다음으로, 상기 기계 학습 수행 단계 S130에서 기계 학습 분석 시스템(60)은 설정된 훈련 집합의 훈련 데이터를 이용하여 기계 학습을 수행한다.

이때 기계 학습 분석 시스템(60)이 사용하는 기계 학습의 학습 모델은 KNN(K-Neareast Neighbors) 알고리즘을 사용할 수 있다.

이러한 기계 학습 분석 시스템(60)이 기계 학습을 수행할 때 사용하는 특징 항목은 표 2에 나열되어 있다.

한편, 상기 유사도 산출 단계 S140에서 기계 학습 분석 시스템(60)이 훈련 데이터를 이용하여 학습을 진행하고 새로운 세션 데이터가 수집되면 새롭게 수집된 세션 데이터를 KNN알고리즘을 사용하여 분류하여 유사도를 산출하며, 상기 이상 징후 탐지 단계 S150에서 각 세션별 유사도에 대한 점수에 따라 이상 징후를 탐지한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10 : 라우터 30 : 침입 차단 장치
40 : 스위치 51, 52,53 : 클라이언트 컴퓨터
60 : 기계 학습 분석 시스템 110 : 세션 수집부
120 : 훈련 데이터 설정부 130 : 기계 학습부
140 : 이상 징후 탐지부

Claims

세션 데이터를 전송하는 침입 차단 장치; 및
상기 침입 차단 장치에서 수집된 세션 데이터를 분석하여 통계 타입별로 통계 데이터를 산출하고, 산출된 통계 데이터를 학습 데이터로 하여 기계 학습을 수행하고, 특징 항목을 추출하여 이를 기반으로 이상 징후를 탐지하는 기계 학습 분석 시스템을 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치.
청구항 1항에 있어서,
상기 기계 학습 분석 시스템은 KNN 알고리즘을 기계 학습의 학습 모델로 사용하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치.
청구항 1항에 있어서,
상기 기계 학습 분석 시스템은 시작지 어드레스와 도착지 어드레스를 포함하여 사용자 행동을 기계 학습에 포함시키고, 프레임을 활용하여 서비스 기준에 따라 발생하는 패킷량을 기계 학습에 포함시키는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치.
청구항 1항에 있어서,
상기 기계 학습 분석 시스템은
상기 침입 차단 장치로부터 세션 데이터를 수집하는 세션 수집부;
상기 세션 수집부에서 수집한 세션 데이터를 통계 타입별로 통계를 산출하고, 산출된 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽, 서비스 포트 트래픽 별 학습 데이터를 훈련 데이터로 설정하는 훈련 데이터 설정부;
상기 훈련 데이터 설정부에서 설정된 훈련 데이터를 기반으로 기계 학습을 수행하고, 특징 항목을 추출하여 유사도를 산출하는 기계 학습부; 및
상기 기계 학습부에서 산출한 유사도에 따라 이상 징후로 탐지하는 이상 징후 탐지부를 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치.
청구항 4항에 있어서,
상기 훈련 데이터 설정부는
하루를 일정 시간 단위를 기준으로 통계 데이터를 산출하고, 요일별로 통계 데이터를 생성하며, 시즌별 특성에 따라 분류하고, 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 생성하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 장치.
(A) 기계 학습 분석 시스템이 침입 차단 장치에서 송신되는 세션 데이터를 수집하는 단계;
(B) 기계 학습 분석 시스템이 상기 침입 차단 장치에서 수집된 세션 데이터를 분석하여 통계 타입별로 통계 데이터를 산출하는 단계; 및
(C) 상기 기계 학습 분석 시스템이 산출된 통계 데이터를 학습 데이터로 하여 기계 학습을 수행하고, 특징 항목을 추출하여 유사도를 산출하여 이를 기반으로 이상 징후를 탐지하는 단계를 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법.
청구항 6항에 있어서,
상기 통계 타입은 이벤트, 공격명, 전체 트래픽, 프로토콜 트래픽 및 서비스 포트 트래픽을 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법.
청구항 6항에 있어서,
상기 (C) 단계는
(C-1) 상기 기계 학습 분석 시스템이 수집된 세션 데이터를 기반으로 통계 타입별로 통계 데이터를 산출하여 훈련 데이터를 설정하는 단계; 및
(C-2) 상기 기계 학습 분석 시스템이 설정된 훈련 데이터를 이용하여 기계 학습을 수행하여 유사도를 산출하는 단계를 포함하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법.
청구항 8항에 있어서,
상기 (C-1) 단계에서 상기 기계 학습 분석 시스템은 하루를 일정 시간 단위를 기준으로 통계 데이터를 산출하고, 요일별로 통계 데이터를 생성하며, 시즌별 특성에 따라 분류하고, 이벤트를 기준으로 통계 데이터를 분류하여 훈련 데이터를 생성하는 프로파일링 기반의 기계 학습을 활용한 이상 징후 탐지 방법.