KR20200052401A

KR20200052401A - 데이터 이미지화를 이용한 딥러닝 기반 시스템 이상 행위 분석 기술

Info

Publication number: KR20200052401A
Application number: KR1020180126799A
Authority: KR
Inventors: 조홍연; 세르게이 데니소브
Original assignee: 주식회사 씨티아이랩
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2020-05-15
Also published as: WO2020085733A1

Abstract

본 발명은 데이터 이미지화를 이용한 딥러닝 기반 시스템 이상 행위 분석 기술에 관한 것이다. 본 발명에 따른 방법은 분석 대상 시스템의 네트워크 패킷 데이터를 입력받는 단계, 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받는 단계, 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하는 단계, 추출된 특징 벡터를 이미지 데이터로 변환하는 단계, 그리고 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성하는 단계를 포함한다. 본 발명에 의하면 분석 대상 시스템의 상태와 관련된 분석 대상 데이터를 이미지화한 후 딥러닝 기반의 이미지 인식을 통해 분석 대상 시스템에서의 이상 행위를 분류 및 인식할 수 있다.

Description

데이터 이미지화를 이용한 딥러닝 기반 시스템 이상 행위 분석 기술{System Anomaly Behavior Analysis Technology based on Deep Learning Using Imaged Data}

본 발명은 이상 행위 분석 기술에 관한 것으로, 보다 자세하게는 데이터 이미지화를 이용한 딥러닝 기반 시스템 이상 행위 분석 기술에 관한 것이다.

최근 들어 분석대상 시스템(예컨대 네트워크 시스템, 계측 시스템, 제어 시스템 등의 각종 시스템)의 단일 채널(Single-channel) 또는 다중 채널(multi-channel)을 통해 입력되는 패킷 데이터를 분석하여 분석대상 시스템에서 이상 행위(Abnormal Behavior) 등을 실시간으로 검출하고자 하는 노력이 이루어지고 있다.

기존의 통계적 머신러닝(Machine Learning) 기법을 이용한 이상 행위 분석 방법에 대해서 도 1 및 도 2를 참고하여 살펴본다.

도 1에 예시된 것과 같이, 행-기반 클러스터링(Row-wise Clustering)을 통해 'K-NN Clustering' 방식으로 데이터 분석을 하는 경우, 다중 채널 신호의 피처(Feature)를 활용한 다중 채널 정적 분석이 가능하다. 그러나 시간적인 데이터 시퀀스(data sequence)의 과거 정보를 활용할 수 없는 문제점이 있다.

한편 도 2에 예시된 것과 같이, 열-기반 프로세싱(Column-wise Processing)을 통해 'Column-wise LSTM(Long Short Term Memory) anomaly' 방식으로 데이터 분석을 하는 경우, 과거 정보를 분석에 활용할 수 있다. 그러나 다중 채널의 복합 신호의 피처를 활용하여 종합적 다변량 분석 및 예측은 불가능하다는 문제점이 있다.

특히 제어망 시스템은 원격지의 시스템을 효율적으로 감시하고, 관리하는 목적으로 사용되는 시스템으로, 전력, 가스, 상하수도, 교통 등의 국가주요시설의 운용에 사용되고 있다. 비공개 제어망 시스템 프로토콜 표준이 점차 국제 표준으로 공개됨에 따라, 공개된 표준은 공격자에게 제어망 시스템 및 네트워크 동작에 대한 더 많은 지식을 제공하게 되었으며, 점차적으로 제어망 시스템에 대한 사이버침해의 가능성과 위험성이 높아지고 있다.

따라서 본 발명이 해결하려는 과제는 제어망 시스템과 같은 분석 대상 시스템의 상태와 관련된 분석 대상 데이터를 이미지화한 후 딥러닝 기반의 이미지 인식을 통해 분석 대상 시스템에서의 이상 행위를 분류 및 인식하는 기술을 제공하는 것이다.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 데이터 이미지화를 이용한 이상 행위 분석 방법은 분석 대상 시스템의 네트워크 패킷 데이터를 입력받는 단계, 상기 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받는 단계, 상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하는 단계, 상기 추출된 특징 벡터를 이미지 데이터로 변환하는 단계, 그리고 상기 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 상기 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성하는 단계를 포함한다.

상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하는 단계는, 상기 선택된 특징 데이터 부분을 수치형 데이터(Numerical Data)와 비수치형 데이터(Non-numerical Data)로 구분하는 단계, 상기 수치형 데이터와 상기 비수치형 데이터를 각각 미리 정해진 방법으로 전처리하는 단계, 상기 전처리된 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환하는 단계, 그리고 상기 2차원 벡터로부터 상기 특징 벡터를 추출하는 단계를 포함할 수 있다.

상기 수치형 데이터와 상기 비수치형 데이터를 각각 미리 정해진 방법으로 전처리하는 단계는, 상기 수치형 데이터를 정규화(normalization)하는 단계, 그리고 상기 비수치형 데이터를 행렬(matrix) 형태로 인코딩하는 단계를 포함할 수 있다.

상기 수치형 데이터의 정규화는 최소최대 스케일링(MinMax-scaling) 기법으로 수행되고, 상기 비수치형 데이터의 행렬 형태 인코딩은 원-핫 인코딩(One-Hot Encoding), 오디날 인코딩(Ordinal Encoding), 합 인코딩(Sum Encoding), 바이너리 인코딩(Binary Encoding) 중 하나의 기법으로 수행될 수 있다.

상기 2차원 벡터는 상기 정규화된 수치형 데이터와 상기 형렬 형태로 인코딩된 비수치형 데이터를 조합한 것일 수 있다.

상기 2차원 벡터로부터 상기 특징 벡터를 추출하는 단계는, 상기 2차원 벡터의 연관성 및 분산에 기초하여 상기 특징 벡터를 추출할 수 있다.

상기 분석 대상 시스템에서 입력되는 네트워크 패킷 데이터로부터 생성되는 이미지 데이터를 입력으로 상기 이상 행위 분류 예측 모델을 이용하여 상기 분석 대상 시스템의 이상 행위를 분류 예측하는 단계를 더 포함할 수 있다.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템은, 분석 대상 시스템의 네트워크 패킷 데이터를 입력받는 입력부, 상기 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받고, 상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하며, 상기 추출된 특징 벡터를 이미지 데이터로 변환하는 데이터 처리부, 그리고 상기 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 상기 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성하는 모델 생성부를 포함한다.

컴퓨터에 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.

본 발명에 의하면 분석 대상 시스템의 상태와 관련된 분석 대상 데이터를 이미지화한 후 딥러닝 기반의 이미지 인식을 통해 분석 대상 시스템에서의 이상 행위를 분류 및 인식할 수 있다.

도 1 및 도 2는 기존의 시스템 이상 행위 탐지 및 예측 방법을 설명하기 위해 제공되는 도면이다.
도 3은 본 발명의 일 실시예에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템의 구성을 나타낸 블록도이다.
도 4는 요청 패킷과 응답 패킷을 묶은 DNP3 프로토콜 로그를 예시한 도면이다.
도 5는 한 세션에 속한 로그 데이터를 묶은 예를 나타낸 것이다.
도 6은 본 발명에 따른 네트워크 패킷 데이터에서 특징 데이터 부분이 선택된 예를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 네트워크 패킷 데이터에서 선택된 특징 데이터 부분을 수치형 데이터와 비수치형 데이터로 구분한 예를 나타낸 것이다.
도 8은 본 발명에 따른 수치형 데이터의 정규화 처리를 예시한 도면이다.
도 9는 본 발명에 따른 비수치형 데이터의 벡터화 전처리를 예시한 도면이다.
도 10은 본 발명에 따른 전처리된 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환한 예를 나타낸 것이다.
도 11은 본 발명에 따른 2차원 벡터로부터 특징 벡터를 추출하는 예를 나타낸 것이다.
도 12은 본 발명에 따른 특징 벡터를 이미지 벡터로 변환한 예를 나타낸 것이다.
도 13은 본 발명의 일 실시예에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템의 동작을 설명하는 흐름도이다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 3은 본 발명의 일 실시예에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템의 구성을 나타낸 블록도이다.

도 3을 참고하면, 본 발명의 일 실시예에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템(100)은 입력부(110), 데이터 처리부(120), 모델 생성부(130), 저장부(140) 및 분류 예측부(150)를 포함할 수 있다.

입력부(110)는 분석 대상 시스템으로부터 분석 대상 시스템의 상태와 관련된 분석 대상 데이터를 입력받을 수 있다.

여기서 분석 대상 시스템은 네트워크 시스템, 계측 시스템, 제어망 시스템 등과 같은 각종 시스템이 될 수 있다. 특히 제어망 시스템은 전력 생산ㆍ분배, 댐 운영, 가스 생산ㆍ유통, 수자원 관리 및 대규모 산업 플랜트 설비의 운영을 제어하고 관리하는 시스템 등을 포함할 수 있다.

분석 대상 데이터는 분석 대상 시스템에서 수집 또는 생성되어 패킷 데이터 스트림으로 입력부(110)에 전달될 수 있다. 예컨대 분석 대상 데이터는 분석 대상 시스템에 설치된 센서로부터 전달되는 센서 데이터가 패킷 데이터 스트림으로 전달될 수 있다. 또한 분석 대상 데이터는 분석 대상 시스템 내에서 교환되거나, 분석 대상 시스템과 외부 시스템 사이에 교환되는 패킷 데이터일 수도 있다.

한편 실시예에 따라서 이상 행위 분류 예측 모델의 학습을 위한 학습 데이터 생성 과정에서는 일정 기간 동안 수집된 패킷 데이터 로그가 입력부(110)에 입력될 수도 있다.

데이터 처리부(120)는 입력부(110)를 통해 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받고, 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하며, 추출된 특징 벡터를 이미지 데이터로 변환하는 작업을 수행할 수 있다.

이를 위해 데이터 처리부(120)는 특징 데이터 추출부(121), 수치형 데이터 처리부(123a), 비수치형 데이터 처리부(123b), 데이터 조합부(125), 특징 벡터 추출부(127) 및 이미지 변환부(129)를 포함할 수 있다.

특징 데이터 추출부(121)는 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 추출할 수 있다.

특징 데이터 추출부(121)는, 학습 과정, 즉 학습 데이터를 생성하는 과정에서는, 네트워크 패킷 데이터에서 전문가로부터 선택된 특징 데이터 부분을 추출한다. 그리고 학습이 완료된 후, 실제 이상행위 분석 과정에서는, 학습 과정에서 선택된 특징 데이터 부분에 대한 정보(예컨대 전문가에 의해 선택된 특징 데이터에 대응하는 컬럼 인덱스(column index))를 저장부(140)에 저장하고, 특징 데이터 추출부(121)가 이를 참조하여 네트워크 패킷 데이터에서 특징 데이터 부분을 추출하게 된다.

도 4는 요청 패킷과 응답 패킷을 묶은 DNP3 프로토콜 로그를 예시한 도면이고, 도 5는 본 발명에 따른 네트워크 패킷 데이터에서 특징 데이터 부분이 선택된 예를 나타낸 것이다.

분석 대상 시스템에서 이상 행위를 효율적으로 탐지하기 위해 패킷 로그별로 분석뿐만 아니라, 패킷 패턴 및 데이터 흐름을 파악해야 한다. 따라서, 도 4와 같이 요청(Request)-응답(Response) 패킷 로그끼리 묶어서 분석할 수 있다. 도 4에서 좌측은 요청 패킷이고, 우측은 응답 패킷이다. 요청-응답 패킷 로그끼리 묶어서 데이터 흐름을 살펴보면 연관성을 분석할 수 있다.

한편 도 5와 같이 한 세션에 속한 로그 데이터를 묶어서 분석할 수 있다.

도 5는 한 세션에 속한 로그 데이터를 묶은 예를 나타낸 것이다.

도 5를 참고하면, DNP3 프로토콜 로그 데이터를 원본 패킷에서 추출하여 한 세션에 속한 여러 개의 로그 데이터를 묶고, 데이터 흐름을 살펴보면 연관성을 분석할 수 있다.

위에서 설명한 방법 외에도 네트워크 패킷 데이터에서 특징 데이터 부분을 전문가 지식을 활용하여 선택할 수 있는 것으로 이해되어야 한다.

도 6을 참고하면, 원본 네트워크 데이터 패킷에서 DNP3 프로토콜 로그를 추출하여, 추출된 로그에서 보안 전문가의 전문 지식으로 특징 데이터 부분이 40 컬럼 선택된 것을 예시하였다. 이상 행위 분류 예측 모델을 학습시킬 때, 무의미한 특징을 학습하면 분류 예측 성능이 떨어질 수 있으므로, 전문가의 전문 지식으로 학습에 사용할 특징 데이터 부분을 선택하여 추출하는 것이 중요할 수 있다.

이와 같이 전문가에 의해 네트워크 패킷 데이터에서 특징 데이터 부분이 선택되어 설정되면, 해당 특징 데이터 부분에 대응하는 컬럼 인덱스를 저장해놓고, 이후 특징 데이터 추출부(121)는 자동으로 입력된 네트워크 패킷 데이터에서 특징 데이터 부분을 선택하여 추출할 수 있다.

도 7은 본 발명의 일 실시예에 따른 네트워크 패킷 데이터에서 선택된 특징 데이터 부분을 수치형 데이터와 비수치형 데이터로 구분한 예를 나타낸 것이다.

데이터 처리부(120)는 도 7에 예시한 것과 같이 네트워크 패킷 데이터에서 선택된 특징 데이터 부분을 수치형 데이터(Numerical Data)와 비수치형 데이터(Non-numerical Data)로 구분하고, 각각 미리 정해진 방법으로 전처리할 수 있다.

수치형 데이터 처리부(123a)는 수치형 데이터를 정규화(normalization)할 수 있다.

도 8은 본 발명에 따른 수치형 데이터의 정규화 처리를 예시한 도면이다.

도 8을 참고하면, 수치형 데이터에 대해서는 최소최대 스케일링(MinMax-scaling) 기법으로 스케일링을 수행할 수 있다. 최소최대 스케일링 기법은 수치형 데이터를 0~1 범위로 변환시키는 것으로, 가장 큰 숫자를 1로 맞추고, 가장 작은 숫자를 0으로 변환하고, 그 사이에 있는 숫자를 배율에 맞게 변환시킨다. 실시예에 따라 가장 큰 숫자를 255로 맞추고, 가장 작은 숫자를 0으로 변환하고, 그 사이에 있는 숫자를 배율에 맞게 변환시키는 것도 가능하다. 이미지 데이터의 픽셀값을 0~255의 범위 즉 256단계로 표현할 수 있다. 따라서 수치형 데이터를 0~1 범위로 변환시킨 경우는 다시 0~255의 범위로 스케일링을 하는 것이 필요하다.

비수치형 데이터 처리부(123b)는 비수치형 데이터를 행렬(matrix) 형태로 인코딩할 수 있다.

도 9는 본 발명에 따른 비수치형 데이터의 벡터화 전처리를 예시한 도면이다.

도 9를 참고하면, 비수치형 데이터의 행렬 형태 인코딩은 원-핫 인코딩(One-Hot Encoding) 기법으로 수행될 수 있다. 텍스트로 되어 있는 비수치형 데이터를 분류 학습하기 위해서 행렬 형태로 인코딩하기 위한 원-핫 인코딩 기법에 대해서는 이미 잘 알려져 있으므로 이에 대한 구체적 설명은 생략한다. 물론 원-핫 인코딩 기법이 아닌 다른 방법, 예를 들면, 오디날 인코딩(Ordinal Encoding), 합 인코딩(Sum Encoding), 바이너리 인코딩(Binary Encoding) 등을 통해 비수치형 데이터를 행렬 형태로 벡터화하는 것도 가능하며 그 외 다른 방법을 사용할 수도 있다. 비수치형 데이터를 행렬 형태 벡터로 변환할 때 행렬 요소에 해당하는 값을 0~255 범위를 가지도록 변환할 수 있다. 또는 앞서 설명한 것과 같이 0~1 범위로 변환하고, 다시 0~255 범위로 스케일링할 수도 있다.

데이터 조합부(125)는 수치형 데이터 처리부(123a)에서 전처리된 수치형 데이터와 비수치형 데이터 처리부(123b)에서 전처리된 비수치형 데이터를 조합하여 2차원 벡터로 전환할 수 있다.

도 10은 본 발명에 따른 전처리된 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환한 예를 나타낸 것이다.

데이터 조합부(125)는 도 10에 예시한 것과 같이 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환할 수 있다.

특징 벡터 추출부(127)는 데이터 조합부(125)에서 전환된 2차원 벡터로부터 특징 벡터를 추출할 수 있다.

도 11은 본 발명에 따른 2차원 벡터로부터 특징 벡터를 추출하는 예를 나타낸 것이다.

도 11(a)는 통계적인 기법을 이용하여 특징별로 분포를 찾거나 분산이 낮은 특징을 제거하는 것을 예시한 것이다.

도 11(a)는 분산이 일부 임계값을 충족하지 않는 모든 특징을 제거하는 'VarianceThreshold' 방법을 이용하여 어떤 기준보다 작은 분산을 가진 열을 제거하거나 분산 0을 가진 열을 제거한 나머지 열로 결과 벡터가 이루어진 예를 나타내었다. 기준이 되는 분산 임계값(VarianceThreshold)은 전문가 지식으로 설정하여 이용할 수 있다.

도 11(b)는 상관 행렬을 통해 특징끼리 연관성을 분석하여, 특징끼리 연관성을 분석하는 기법을 적용하여 연관성 100% 있는 특징을 제거할 수 있다.

행렬 특징끼리 연관성을 계산하는 방식은 여러 가지 방법이 있을 수 있다. Pearson Correlation, Kendall, Spearman 등의 방법을 이용할 수 있다. 특징끼리 연관성을 찾아서 여러 행이나 열을 같은 연관성을 가지고 있으면, 그 행이나 열들이 같은 정보량을 가지고 있다고 가정할 수 있다. 그래서 같은 정보량을 가진 열이나 행을 제거하여 나머지 결과 백터들만 특징 벡터로 사용할 수 있다.

여기서 설명한 것 외에 다양한 방법으로 2차원 벡터로부터 특징 벡터를 추출할 수 있는 것으로 이해하여야 한다.

물론 실시예에 따라서 데이터 조합부(125)에서 조합된 2차원 벡터를 바로 특징 벡터로 이용할 수도 있다.

도 12은 본 발명에 따른 특징 벡터를 이미지 벡터로 변환한 예를 나타낸 것이다.

이미지 변환부(129)는 특징 벡터 추출부(127)에서 추출된 특징 벡터를 입력받아 이미지 데이터로 변환할 수 있다.

도 12(a)는 0~1 범위로 전처리 된 2차원 특징 벡터를 나타내고, 도 12(b)는 도 12(a)에 예시한 2차원 특징 벡터를 0~255 범위로 스케일링한 2차원 특징 벡터를 나타낸다. 이미지 변환부(129)는 도 12(b)에 예시한 2차원 특징 벡터를 입력 받아 도 12(c)에 예시한 것과 같이 각 픽셀의 픽셀값을 0~255, 256단계로 표현하는 이미지 데이터 포맷으로 변환할 수 있다. 예컨대 각 화소의 밝기값을 256 단계로 나타내는 그레이스케일 이미지 데이터로 변환할 수 있다. 실시예에 따라서는 RGB 컬러 이미지 데이터로 변환할 수도 있다.

모델 생성부(130)는 이미지 변환부(129)에서 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성할 수 있다.

모델 생성부(130)에서 학습되는 신경망 모델은 콘볼루션 신경망(Convolution neural network)(CNN)과 같은 딥러닝(기계학습) 알고리즘 형태일 수 있다. 영상 인식에서 우수한 성능을 가지는 인셉션 모듈(inception module) 기반 콘볼루션 신경망(Convolutional Neural Networks, CNN), 심층 신경망(Deep Neural Network, DNN), 재귀 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신(restricted Boltzmann machine), 심층 신뢰 신경망(Deep Belief Network, DBN), 심층 Q-네트워크(Deep Q-Network), 오토인코더(Autoencoder) 등과 같이 다양한 딥 러닝 기법이 적용된 신경망 알고리즘이 사용될 수 있다.

오토인코더(Autoencoder)는 특징 벡터(x)를 입력받아 동일한 또는 유사한 벡터(x')를 출력하는 신경망 모델로, 출력값을 입력값과 최대한 비슷하게 만들려는 모델이다. 따라서 신경망 모델로 오토인코더를 이용하여 학습하면, 입력 이미지 데이터 중에 이상한 이미지가 들어가 있으면 입력 이미지와 출력 이미지가 많이 달라진다. 그래서 입력과 출력이 얼마나 다른지 오차로 판단하여 많이 다르면 이상 징후로 판단할 수 있다.

저장부(140)는 이상 행위 분석 시스템(100)의 동작과 관련된 각종 정보 및 데이터를 저장할 수 있다. 앞서 설명한 신경망 모델 학습을 위해 생성된 학습 데이터, 학습 과정에서 선택된 특징 데이터 부분에 대한 정보, 모델 생성부(130)에서 생성된 이상 행위 분류 예측 모델 등을 저장할 수 있다.

분류 예측부(150)는 학습 완료 후에 모델 생성부(130)에서 생성된 이상 행위 분류 예측 모델을 이용하여, 데이터 처리부(120)에서 이미지 데이터로 변환되어 입력되는 분석 대상 데이터를 분류해내고, 분류 결과를 기초로 분석 대상 시스템의 이상 행위를 분류 및 예측할 수 있다.

도 13은 본 발명의 일 실시예에 따른 데이터 이미지화를 이용한 이상 행위 분석 시스템의 동작을 설명하는 흐름도이다.

도 3 내지 도 13을 참고하면, 먼저 입력부(110)는 분석 대상 시스템으로부터 분석 대상 시스템의 상태와 관련된 분석 대상 데이터인 네트워크 패킷 데이터를 입력받을 수 있다(S1310). 단계(S1310)에서 분석 대상 데이터는 학습 기간 동안 분석 대상 시스템에서 수집 또는 생성되어 패킷 데이터 스트림으로 전달되거나, 일정 기간동안 수집 저장된 패킷 데이터 로그 형태로 전달될 수도 있다.

다음으로 데이터 처리부(120)는 입력부(110)를 통해 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 추출할 수 있다(S1320). 단계(S1320)에서 네트워크 패킷 데이터에서 전문가로부터 선택된 특징 데이터 부분에 대한 정보를 저장부(140)에 저장하고, 나중에 특징 데이터 추출부(121)가 이를 참조하여 네트워크 패킷 데이터에서 특징 데이터 부분을 자동 추출하게 할 수 있다.

데이터 처리부(120)는 단계(S1320)에서 추출된 특징 데이터 부분을 수치형 데이터와 비수치형 데이터로 구분하여, 각각 미리 정해진 방법으로 전처리할 수 있다(S1330).

다음으로 데이터 처리부(120)는 전처리된 수치형 데이터와 전처리된 비수치형 데이터를 조합하여 2차원 벡터로 전환할 수 있다(S1340).

이후 데이터 처리부(120)는 단계(S1340)에서 전환된 2차원 벡터로부터 특징 벡터를 추출할 수 있다(S1350).

다음으로 데이터 처리부(120)는 단계(S1350)에서 추출된 특징 벡터를 입력받아 이미지 데이터로 변환할 수 있다(S1360).

이후 모델 생성부(130)는 이미지 변환부(129)에서 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성할 수 있다(S1370).

그리고 분류 예측부(150)는 학습 완료 후에 모델 생성부(130)에서 생성된 이상 행위 분류 예측 모델을 이용하여, 데이터 처리부(120)에서 이미지 데이터로 변환되어 입력되는 분석 대상 데이터를 분류해내고, 분류 결과를 기초로 분석 대상 시스템의 이상 행위를 분류 및 예측할 수 있다(S1380).

단계(S1380)에서 분류 예측부(150)에 입력되는 이미지 데이터는, 앞서 설명한 단계(S1310) 내지 단계(S1360)을 거쳐 생성될 수 있다. 다만 단계(S1320)에서 특징 데이터 부분을 추출할 때는 전문가 지식에 의한 것이 아니고, 학습 과정에서 선택된 특징 데이터 부분(예컨대 전문가에 의해 선택된 특징 데이터에 대응하는 컬럼 인덱스(column index))에 대한 정보를 이용하여 자동으로 추출된다.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 데이터 이미지화를 이용한 딥러닝 기반 시스템 이상 행위 분석 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

분석 대상 시스템의 네트워크 패킷 데이터를 입력받는 단계,
상기 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받는 단계,
상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하는 단계,
상기 추출된 특징 벡터를 이미지 데이터로 변환하는 단계, 그리고
상기 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 상기 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성하는 단계
를 포함하는 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 1 항에서,
상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하는 단계는,
상기 선택된 특징 데이터 부분을 수치형 데이터(Numerical Data)와 비수치형 데이터(Non-numerical Data)로 구분하는 단계,
상기 수치형 데이터와 상기 비수치형 데이터를 각각 미리 정해진 방법으로 전처리하는 단계,
상기 전처리된 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환하는 단계, 그리고
상기 2차원 벡터로부터 상기 특징 벡터를 추출하는 단계
를 포함하는 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 2 항에서,
상기 수치형 데이터와 상기 비수치형 데이터를 각각 미리 정해진 방법으로 전처리하는 단계는,
상기 수치형 데이터를 정규화(normalization)하는 단계, 그리고
상기 비수치형 데이터를 행렬(matrix) 형태로 인코딩하는 단계
를 포함하는 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 3 항에서,
상기 수치형 데이터의 정규화는 최소최대 스케일링(MinMax-scaling) 기법으로 수행되고, 상기 비수치형 데이터의 행렬 형태 인코딩은 원-핫 인코딩(One-Hot Encoding), 오디날 인코딩(Ordinal Encoding), 합 인코딩(Sum Encoding), 바이너리 인코딩(Binary Encoding) 중 하나의 기법으로 수행되는 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 3 항에서
상기 2차원 벡터는 상기 정규화된 수치형 데이터와 상기 형렬 형태로 인코딩된 비수치형 데이터를 조합한 것인 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 2 항에서,
상기 2차원 벡터로부터 상기 특징 벡터를 추출하는 단계는,
상기 2차원 벡터의 연관성 및 분산에 기초하여 상기 특징 벡터를 추출하는 데이터 이미지화를 이용한 이상 행위 분석 방법.
제 1 항에서,
상기 분석 대상 시스템에서 입력되는 네트워크 패킷 데이터로부터 생성되는 이미지 데이터를 입력으로 상기 이상 행위 분류 예측 모델을 이용하여 상기 분석 대상 시스템의 이상 행위를 분류 예측하는 단계
를 더 포함하는 데이터 이미지화를 이용한 이상 행위 분석 방법.
분석 대상 시스템의 네트워크 패킷 데이터를 입력받는 입력부,
상기 입력된 네트워크 패킷 데이터에서 특징(feature) 데이터 부분을 선택받고, 상기 선택된 특징 데이터 부분을 분석하여 특징 벡터를 추출하며, 상기 추출된 특징 벡터를 이미지 데이터로 변환하는 데이터 처리부, 그리고
상기 변환된 이미지 데이터를 학습 데이터로 신경망 모델을 학습시켜 상기 분석 대상 시스템의 이상 행위 분류 예측 모델을 생성하는 모델 생성부
를 포함하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 8 항에서,
상기 데이터 처리부는,
상기 선택된 특징 데이터 부분을 수치형 데이터(Numerical Data)와 비수치형 데이터(Non-numerical Data)로 구분하고, 상기 수치형 데이터와 상기 비수치형 데이터를 각각 미리 정해진 방법으로 전처리하며, 상기 전처리된 수치형 데이터와 비수치형 데이터를 조합하여 2차원 벡터로 전환하고, 상기 2차원 벡터로부터 상기 특징 벡터를 추출하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 9 항에서,
상기 데이터 처리부는,
상기 수치형 데이터를 정규화(normalization)하고, 상기 비수치형 데이터를 행렬(matrix) 형태로 인코딩하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 10 항에서,
상기 데이터 처리부는,
상기 수치형 데이터의 정규화는 최소최대 스케일링(MinMax-scaling) 기법으로 수행하고, 상기 비수치형 데이터의 행렬 형태 인코딩은 원-핫 인코딩(One-Hot Encoding), 오디날 인코딩(Ordinal Encoding), 합 인코딩(Sum Encoding), 바이너리 인코딩(Binary Encoding) 중 하나의 기법으로 수행하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 9 항에서
상기 2차원 벡터는 상기 정규화된 수치형 데이터와 상기 형렬 형태로 인코딩된 비수치형 데이터를 조합한 것인 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 9 항에서,
상기 데이터 처리부는,
상기 2차원 벡터의 연관성 및 분산에 기초하여 상기 특징 벡터를 추출하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
제 8 항에서,
상기 분석 대상 시스템에서 입력되는 네트워크 패킷 데이터로부터 생성되는 이미지 데이터를 입력으로 상기 이상 행위 분류 예측 모델을 이용하여 상기 분석 대상 시스템의 이상 행위를 분류 예측하는 분류 예측부
를 더 포함하는 데이터 이미지화를 이용한 이상 행위 분석 시스템.
컴퓨터에 상기한 제1항 내지 제7항 중 어느 한 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.