KR20220084865A - Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법 - Google Patents

Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법 Download PDF

Info

Publication number
KR20220084865A
KR20220084865A KR1020200174778A KR20200174778A KR20220084865A KR 20220084865 A KR20220084865 A KR 20220084865A KR 1020200174778 A KR1020200174778 A KR 1020200174778A KR 20200174778 A KR20200174778 A KR 20200174778A KR 20220084865 A KR20220084865 A KR 20220084865A
Authority
KR
South Korea
Prior art keywords
cnn
lstm
data
model
processing
Prior art date
Application number
KR1020200174778A
Other languages
English (en)
Inventor
이유정
최윤형
조효석
Original Assignee
한전케이디엔주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한전케이디엔주식회사 filed Critical 한전케이디엔주식회사
Priority to KR1020200174778A priority Critical patent/KR20220084865A/ko
Publication of KR20220084865A publication Critical patent/KR20220084865A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 정오탐 판별 시스템은 기관 내에 포함된 보안 장비의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 외부의 보안관제 시스템으로부터 공격데이터를 전달받아 저장하는 데이터베이스부; 상기 데이터베이스부에 저장된 공격데이터를 추출하여 정오탐 판별을 위한 전처리를 수행하는 데이터 전처리부; 상기 전처리된 데이터를 이용하여 정오탐 판별을 위해 사전에 생성된 CNN-LSTM 조합 모델을 학습 및 테스트한 후 상기 데이터베이스부에 저장하는 CNN-LSTM 조합 모델 생성부; 상기 데이터베이스부에 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격데이터의 정오탐 여부를 판별하는 정오탐 판별부; 및 상기 정오탐 판별부의 판별 결과를 표시하는 표시부를 포함함으로써, CNN 모델과, LSTM 모델 각각의 단점을 상호 보완할 수 있고, 대량의 사이버 공격에 대하여 정확한 탐지 및 대처가 가능한 장점이 있다.

Description

CNN-LSTM 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법{SYSTEM AND METHOD FOR DETERMINING FALSE POSITIVES USING CNN AND LSTM COMBINATION MODEL}
본 발명은 정오탐 판별 시스템에 관한 것으로서, 보다 상세하게는, 빅 데이터 기반의 보안관제 시스템(SIEM:Security Information and Event Management)에 적재된 각종 네트워크 보안 장비의 패킷을 학습하여 정오탐을 자동으로 판별하는 정오탐 판별 시스템 및 그 방법에 관한 것이다.
일반적으로 네트워크에 대한 침입은 주로 네트워크 장비의 취약점을 공격하는 방식으로 이루어진다. 따라서 침입 판정은 취약성에 대응하는 공격을 탐지하는 방식으로 이루어지며, 이 때 네트워크 시장은 다양한 업체들에 의해 구축되고 있기 때문에, 침입 판정 시스템은 이러한 다양한 네트워크 특성에 따른 침입을 모두 처리할 수 있도록 구성된다.
그러나 이러한 형태의 침입 탐지 시스템은, 실제 구축되어 있는 네트워크 특성과는 무관한 패킷들이 침입으로 탐지되는 경우가 빈번하게 발생하며, 침입 탐지 결과에 대한 신뢰성이 낮아지는 원인이 된다.
종래에는 이러한 사이버 위협의 정오탐 여부를 소수의 보안 관제 요원들의 인적 지식과 경험에 의존하여 판단해왔으나, 최근 상시화와 대량화된 사이버 공격량 대비 보안관제 인력의 부족으로 인한 물리적 한계에 직면했다.
따라서 이러한 침입 탐지 시스템에서의 정오탐 여부를 판단하는 정오탐 판별 시스템이 개발되고 있으며, 이러한 정오탐 판별 시스템은 패킷을 직접 분석하여 특징(Feature)과 공격 탐지 핵심어를 선정해야만 하는 LSTM(Long Short-Term Memory) 단일 모델 방식 또는 합성곱 신경망(CNN, Convolutional Neural Network) 방식을 이용해 왔다.
그런데, LSTM 단일 모델 방식의 경우 시계열 데이터 처리에 유용한 장점이 있는 반면, 대규모 병렬 처리가 불가능하고, CNN 방식의 경우 자연어 처리에 적합하고 특징(Feature)을 자동으로 추출하는 장점이 있는 반면, 기울기 손실(Gradient Vanishing) 문제가 있는 단점이 있었다.
한국 공개특허번호 10-2006-0026293호
따라서 본 발명은 CNN-LSTM 조합 모델을 이용함으로써, LSTM 단일 모델 방식과, CNN 방식 각각의 단점을 상호 보완할 수 있도록 하는 정오탐 판별 시스템 및 그 방법을 제공하고자 한다.
또한 본 발명은 LSTM의 메모리 블록에 데이터를 기억함으로써, CNN의 기울기 손실(Gradient Vanishing) 문제를 해결하여 정확한 탐지가 가능한 정오탐 판별 시스템 및 그 방법을 제공하고자 한다.
또한 본 발명은 대규모 병렬 처리가 가능한 CNN 방식을 적용함으로써, LSTM에서 병렬 처리가 불가한 단점을 해소하고 대량의 사이버 공격에 대하여 대처할 수 있는 정오탐 판별 시스템 및 그 방법을 제공하고자 한다.
상기 목적을 달성하기 위해, 본 발명에서 제공하는 정오탐 판별 시스템은 정오탐 판별 시스템에 있어서, 기관 내에 포함된 보안 장비의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 외부의 보안관제 시스템으로부터 공격데이터를 전달받아 저장하는 데이터베이스부; 상기 데이터베이스부에 저장된 공격데이터를 추출하여 정오탐 판별을 위한 전처리를 수행하는 데이터 전처리부; 상기 전처리된 데이터를 이용하여 정오탐 판별을 위해 사전에 생성된 CNN-LSTM 조합 모델을 학습 및 테스트한 후 상기 데이터베이스부에 저장하는 CNN-LSTM 조합 모델 생성부; 상기 데이터베이스부에 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격데이터의 정오탐 여부를 판별하는 정오탐 판별부; 및 상기 정오탐 판별부의 판별 결과를 표시하는 표시부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 데이터 전처리부는 상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하고, 중복단어와, 데이터 이상치 및 연산과정에서 잘못 입력된 값(NaN: Not a Number)을 제거한 후, 컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화를 수행할 수 있다.
바람직하게, 상기 CNN-LSTM 조합 모델은 상기 전처리된 데이터에 대하여, TextCNN 방식으로 특징-맵(Feature-Map)을 자동 추출하는 CNN 처리모델; 및 상기 CNN 처리모델에서 자동 추출된 특징-맵(Feature-Map)을 시계열 데이터로 입력받아, 정규화한 후 LSTM의 메모리 블록에 저장하는 LSTM 처리모델을 포함할 수 있다.
바람직하게, 상기 CNN 처리모델은 상기 데이터 전처리부에서 벡터화 결과로 생성된 임베딩 테이블의 지역 정보를 보존하고, 여러 단계의 컨볼루션(Convolution)과 최대값 풀링(Pooling)을 거쳐 특징-맵(Feature Map)을 생성할 수 있다.
바람직하게, 상기 LSTM 처리모델은 시계열 데이터로 전달된 상기 특징-맵(Feature-Map)을 LSTM에 저장한 후 FC 레이어로 변환하고, 상기 FC 레이어를 거친 계산 결과를 시그모이드(Sigmoid) 함수에 반영하여 0 내지 1 사이의 값으로 정규화하여 출력할 수 있다.
한편, 상기 목적을 달성하기 위해, 본 발명에서 제공하는 정오탐 판별 방법은, 정오탐 판별을 위한 CNN-LSTM 조합 모델을 생성하는 초기 모델 생성단계; 기관 내에 포함된 보안 장비들의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 외부의 보안관제 시스템으로부터 공격 데이터를 이용하여 상기 CNN-LSTM 조합 모델을 학습하여 결과를 저장하는 최종 모델 생성단계; 상기 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격 데이터의 정오탐 여부를 판별하는 제1 정오탐 판별단계; 및 상기 정오탐 판별 결과를 표시하는 표시단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 최종 모델 생성단계는 상기 보안관제 시스템으로부터 수신된 공격데이터를 저장하는 공격데이터 저장단계; 상기 저장된 공격데이터를 추출하여 전처리를 수행하는 제1 전처리 단계; 상기 전처리된 데이터를 이용하여 상기 CNN-LSTM 조합 모델을 학습 및 테스트하는 학습단계; 및 상기 학습된 CNN-LSTM 조합 모델을 저장하는 모델 저장단계를 포함할 수 있다.
바람직하게, 상기 학습단계는 상기 최종 CNN-LSTM 조합 모델에 대한 정확도를 검증하는 정확도 검증 단계를 더 포함할 수 있다.
바람직하게, 상기 제1 전처리 단계는 상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하는 단어 분리단계; 상기 공격데이터로부터 중복단어, 데이터 이상치 및 연산과정에서 잘못 입력된 값(NaN: Not a Number)를 포함하는 부적절한 속성들을 추출하여 제거하는 정제단계; 및 컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화를 수행하여 임베딩 테이블을 생성하는 임베딩 단계를 포함할 수 있다.
바람직하게, 상기 CNN-LSTM 조합 모델은 상기 전처리된 데이터에 대하여, TextCNN 방식으로 특징-맵(Feature-Map)을 자동 추출하는 CNN 처리모델; 및 상기 CNN 처리모델에서 자동 추출된 특징-맵(Feature-Map)을 시계열 데이터로 입력받아, 정규화한 후 LSTM의 메모리 블록에 저장하는 LSTM 처리모델을 포함할 수 있다.
바람직하게, 상기 CNN 처리모델은 상기 데이터 전처리부에서 벡터화 결과로 생성된 임베딩 테이블의 지역 정보를 보존하고, 여러 단계의 컨볼루션(Convolution)과 최대값 풀링(Pooling)을 거쳐 특징-맵(Feature Map)을 생성할 수 있다.
바람직하게, 상기 LSTM 처리모델은 시계열 데이터로 전달된 상기 특징-맵(Feature-Map)을 LSTM에 저장한 후 FC 레이어로 변환하고, 상기 FC 레이어를 거친 계산 결과를 시그모이드(Sigmoid) 함수에 반영하여 0 내지 1 사이의 값으로 정규화하여 출력할 수 있다.
바람직하게, 상기 제1 정오탐 판별 단계는 상기 실시간 공격 데이터에 대하여 전처리를 수행하는 제2 전처리 단계; 상기 최종 모델 생성단계에서 학습 후 저장된 CNN-LSTM 조합 모델을 호출하여 상기 전처리된 실시간 공격 데이터에 대한 정오탐을 판별하는 제2 정오탐 판별 단계; 및 상기 정오탐 판별 결과를 저장할 수 있다.
본 발명의 정오탐 판별 시스템 및 그 방법은 CNN-LSTM 조합 모델을 이용함으로써, LSTM 단일 모델 방식과, CNN 방식 각각의 단점을 상호 보완할 수 있는 장점이 있다. 또한, 본 발명은 LSTM의 메모리 블록에 데이터를 기억함으로써, CNN의 기울기 손실(Gradient Vanishing) 문제를 해결하여 정확한 탐지가 가능하고, 대규모 병렬 처리가 가능한 CNN 방식을 적용함으로써, LSTM에서 병렬 처리가 불가한 단점을 해소하고 대량의 사이버 공격에 대하여 대처할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시 예에 따른 정오탐 판별 시스템에 대한 개략적인 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 데이터 전처리부에 대한 개략적인 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 CNN-LSTM 조합 모델의 구조를 설명하기 위한 도면이다.
도 4 내지 도 7은 본 발명의 일 실시 예에 따른 정오탐 판별 방법에 대한 개략적인 처리 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 설명하되, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 한편 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 상세한 설명을 생략하여도 본 기술 분야의 당업자가 쉽게 이해할 수 있는 부분의 설명은 생략하였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시 예에 따른 정오탐 판별 시스템에 대한 개략적인 블록도이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따른 정오탐 판별 시스템(100)은 데이터베이스부(DB)(110), 통신 인터페이스부(I/F)(120), 사용자 인터페이스부(I/F)(130), 제어부(140), 데이터 전처리부(150), CNN-LSTM 조합모델 생성부(160), 정오탐 판별부(170) 및 표시부(180)를 포함한다.
데이터베이스부(DB)(110)는 외부의 보안관제 시스템(SIEM: Security Information and Event Management)로부터 공격 데이터를 전달받아 저장한다. 이 때, 보안관제 시스템(SIEM: Security Information and Event Management)은 기관 내에 포함된 보안 장비의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 장치로서, 응용 프로그램 및 네트워크 하드웨어에서 생성된 보안 경고에 대한 실시간 분석을 제공할 수 있다.
통신 인터페이스부(I/F)(120)는 외부 장치와의 통신 인터페이스를 제공하되, 상기 보안관제 시스템(SIEM)(미도시)으로부터 공격 데이터 및 실시간 공격데이터를 수신할 수 있다.
사용자 인터페이스부(I/F)(130)는 사용자와의 인터페이스를 제공하되, 정오탐 판별을 위한 관리자의 조작신호를 입력받을 수 있다.
제어부(140)는 미리 설정된 제어 프로그램에 의거하여 정오탐 판별 시스템(100)의 동작을 제어하되, 통신 인터페이스부(I/F)(120)를 통해 수신한 공격 데이터 및 실시간 공격 데이터를 데이터베이스부(DB)(110)에 저장하고, 사용자 인터페이스부(I/F)(130)를 통해 입력된 사용자의 조작신호에 의거하여 데이터 전처리부(150), CNN-LSTM 조합모델 생성부(160), 정오탐 판별부(170) 및 표시부(180) 각각의 동작을 제어할 수 있다.
데이터 전처리부(150)는 상기 보안관제 시스템(SIEM)(미도시)으로부터 수신된 네트워크 패킷 정보를 의미있는 데이터로 만들기 위한 전처리를 수행한다. 즉, 데이터 전처리부(150)는 데이터베이스부(DB)(110)에 저장된 공격데이터를 추출하여 정오탐 판별을 위한 전처리를 수행한다. 이러한 데이터 전처리부(150)에 대한 개략적인 블록도가 도 2에 예시되어 있다.
도 2는 본 발명의 일 실시 예에 따른 데이터 전처리부에 대한 개략적인 블록도로서, 도 2를 참조하면, 데이터 전처리부(150)는 단어 분리부(151), 중복단어 제거부(152), 데이터 이상치 제거부(153) 및 NaN 제거부(154)를 포함한다.
단어 분리부(151)는 상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하고, 중복단어 제거부(152)는 상기 공격데이터로부터 중복단어를 제거하고, 데이터 이상치 제거부(153)는 상기 공격데이터로부터 데이터 이상치를 제거하고, NaN 제거부(154)는 상기 공격데이터로부터 연산과정에서 잘못 입력된 값(NaN: Not a Number)을 제거한다.
또한, 데이터 전처리부(150)는 단어 분리부(151), 중복단어 제거부(152), 데이터 이상치 제거부(153) 및 NaN 제거부(154)를 거친 데이터에 대하여, 컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화를 수행할 수 있다. 이 때, 벡터화(일명, 임베딩(Embedding))은 말뭉치(혹은 코퍼스, coupus) 내 각 단어에 일대일로 대응하는 밀집된 실수 벡터(dense vector)의 집합, 혹은 이 벡터를 구하는 행위를 말한다.
다시 도 1을 참조하면, CNN-LSTM 조합모델 생성부(160)는 데이터 전처리부(150)에서 전처리된 데이터를 이용하여 정오탐 판별을 위해 사전에 생성된 CNN-LSTM 조합 모델을 학습 및 테스트한 후 결과를 데이터베이스부(DB)(110)에 저장한다. 이 때, 상기 CNN-LSTM 조합 모델 구조의 예가 도 3에 예시되어 있다.
도 3은 본 발명의 일 실시 예에 따른 CNN-LSTM 조합 모델의 구조를 설명하기 위한 도면이다. 도 3을 참조하면, 본 발명의 일 실시 예에 따른 CNN-LSTM 조합 모델(300)은 합성곱 신경망(CNN: Convolutional Neural Network) 처리를 수행하는 CNN 처리 모델(310)과, LSTM(Long Short - Term Memory) 처리를 수행하는 LSTM 처리 모델(320)을 포함할 수 있다.
CNN 처리 모델(310)은 데이터 전처리부(150)에서 전처리된 데이터에 대하여, TextCNN 방식으로 특징-맵(Feature-Map)을 자동 추출한다. 일반적으로, TextCNN은 컨볼루션(Convolution) 층, 맥스 풀링(Max pooling) 층을 가지며, 완전연결 소프트 맥스 층을 출력으로 갖는다. 또한, 드롭 아웃(dropout)을 적용하여 정규화를 수행할 수 있다. 따라서, CNN 처리 모델(310)은 N단계의 컨볼루션(Convolution) 층(Conv #1 내지 Conv #N)과, 맥스 풀링 층(Max pooling)(Max Pooling #1 내지 Max Pooling #N)을 포함하고, 컨볼루션(Convolution)과 맥스 풀링(Max Pooling)을 번갈아 수행(311 내지 316)한 후, 특징-맵(Feature-Map)을 자동 추출한다(317). 이 때, CNN 처리 모델(310)은 데이터 전처리부(150)에서 벡터화(일명, 임베딩(Embedding)) 결과로 생성된 임베딩 테이블(Embedding Table)의 지역 정보를 보존하고, 여러 단계의 컨볼루션(Convolution)과 최대값 풀링(Pooling)을 거쳐 특징-맵(Feature Map)을 생성할 수 있다.
이 때, 상기 임베딩 테이블의 지역적인 정보는 단어의 등장 순서, 문맥 정보를 좌표로 나타낸 값을 의미하는 것으로서, 이러한 단어의 지역적인 정보 및 등장 순서가 문장의 의미 차이를 나타내거나 문장의 성립 여부를 결정하는 중요한 정보가 되므로, 본 발명에서는 이러한 문장의 순서, 문맥을 학습에 반영하기 위해 상기 임베딩 테이블의 지역 정보를 보존한 상태에서, 상기 컨볼루션 및 최대값 풀링 단계를 거쳐 특징-맵을 생성하는 것이다.
LSTM 처리모델(320)은 CNN 처리모델(310)에서 자동 추출된 특징-맵(Feature-Map)을 시계열 데이터(Sequence date)로 입력받아 정규화한 후 LSTM의 메모리 블록에 저장한다. 이를 위해, LSTM 처리모델(320)은 시계열 데이터(Sequence date)로 전달된 상기 특징-맵(Feature-Map)을 LSTM(321)에 저장한 후 이를, FC 레이어(322)로 변환하고, 상기 FC 레이어(322)를 거친 계산 결과를 시그모이드(Sigmoid) 함수(323)에 반영하여 0 내지 1 사이의 값으로 정규화하여 출력할 수 있다.
이 때, LSTM(321)은 은닉층 내부에 셀 스테이트(Cell State)를 추가하여 기억할 데이터와 버릴 데이터를 선택하는 메모리이다. 본 발명의 정오탐 시스템은 이러한 LSTM을 적용함으로써, 이전 단계에서 얻은 정보가 지속적으로 반영됨으로써 발생하는 가중치 손실(Gradient Vanishing) 문제를 해결할 수 있다.
한편, FC 레이어(Fully Connected Layer)(322)는 이전 레이어의 모든 노드가 다음 레이어의 모든 노드에 연결된 레이어이고, 시그모이드(sigmoid) 함수는 입력값이 일정 부분을 넘어서면 거의 최대값과 최소값 중 하나로 수렴하는 함수로서, 이로 인해 상기 FC 레이어(322)를 거친 계산 결과를 0 내지 1 사이의 값으로 정규화하여 출력할 수 있는 것이다.
다시 도 1을 참조하면, 정오탐 판별부(170)는 통신 I/F(120)를 통해 실시간 공격 데이터가 수신된 경우, 데이터베이스부(DB)(110)에 저장된 CNN-LSTM 조합 모델을 이용하여 상기 실시간 공격데이터의 정오탐 여부를 판별한다. 이를 위해, 정오탐 판별부(170)는 데이터 전처리부(150)로부터 상기 실시간 공격 데이터에 대한 전처리 결과를 전달받고, 그 데이터를 CNN-LSTM 조합 모델에 적용하여 정오탐 여부를 판별할 수 있다.
표시부(180)는 정오탐 판별부(170)의 판별 결과를 표시한다. 이 때, 표시부(180)는 대시보드의 형태로 구현될 수 있다.
도 4 내지 도 7은 본 발명의 일 실시 예에 따른 정오탐 판별 방법에 대한 개략적인 처리 흐름도이다. 도 1 내지 도 7을 참조하면, 본 발명의 일 실시 예에 따른 정오탐 판별 방법은 다음과 같다.
먼저, 단계 S100에서는, CNN-LSTM 조합 모델 생성부(160)가 정오탐 판별을 위한 CNN-LSTM 조합 모델(초기 모델)을 생성하고, 단계 S200에서는, CNN-LSTM 조합 모델 생성부(160)가 상기 CNN-LSTM 조합 모델을 학습하여 최종 모델을 생성한다.
이 때, 상기 최종 모델은 단계 S100에서 생성한 CNN-LSTM(초기 모델)에 공격 데이터(즉, 외부의 보안관제 시스템(SIEM)으로부터 수신된 공격 데이터)를 적용하여 학습시킨 결과로 생성된 CNN-LSTM 조합 모델로서, 데이터베이스부(110)에 저장될 수 있다. 이를 위해, 최종 모델 생성 과정(S200)은 도 5에 예시된 바와 같은 단계를 포함할 수 있다. 도 5를 참조하면, 먼저, 단계 S210에서는, 제어부(140)가 통신 I/F(120)를 통해 상기 보안관제 시스템(SIEM)으로부터 수신된 공격데이터를 데이터베이스부(DB)(110)에 저장한다.
단계 S220에서는, 데이터 전처리부(150)가 데이터베이스부(DB)(110)에 저장된 공격데이터를 추출하여 전처리를 수행한다. 이를 위해, 데이터 전처리부(150)는 제어부(140)의 제어를 받아 동작하며, 도 6에 예시된 바와 같이, 단어 분리 단계(S221), 정제 단계(S223) 및 임베딩 단계(S225)를 수행할 수 있다.
즉, 단계 S221에서는, 상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하고, 단계 S223에서는, 상기 공격데이터로부터 중복단어, 데이터 이상치 및 연산과정에서 잘못 입력된 값(NaN: Not a Number)를 포함하는 부적절한 속성들을 추출하여 제거하고, 단계 S225에서는, 컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화(일명, 임베딩)를 수행하여 임베딩 테이블을 생성한다.
이 때, 상기 임베딩 테이블의 지역적인 정보는 단어의 등장 순서, 문맥 정보를 좌표로 나타낸 값을 의미하는 것으로서, 이러한 단어의 지역적인 정보 및 등장 순서가 문장의 의미 차이를 나타내거나 문장의 성립 여부를 결정하는 중요한 정보가 되므로, 본 발명에서는 이러한 문장의 순서, 문맥을 학습에 반영하기 위해 상기 임베딩 테이블의 지역 정보를 보존한 상태에서, 상기 컨볼루션 및 최대값 풀링 단계를 거쳐 특징-맵을 생성하는 것이다.
도 5의 단계 S230에서는, CNN-LSTM 조합모델 생성부(160)가 상기 전처리된 데이터를 이용하여 상기 CNN-LSTM 조합 모델을 학습 및 테스트한다. 이를 위해, CNN-LSTM 조합모델 생성부(160)는 상기 최종 CNN-LSTM 조합 모델에 대한 정확도를 검증하는 정확도 검증 단계를 더 포함할 수 있다.
이 때, 정확도 검증 단계는 공지의 기술을 이용할 수 있다. 예를 들어, 서로 반비례하는 성질을 갖는 정밀도(presision)와 재현율(recall)의 중간점을 찾아 모델의 성능을 측정하는 F1 스코어(Score) 방식을 이용하여 상기 최종 CNN-LSTM 조합 모델에 대한 정확도를 검증할 수 있다. 즉, 상기 정확도 검증 단계에서는 정밀도(presision)와 재현율(recall)의 조화평균을 산출하기 위한 F1 스코어(Score) 식을 이용하여 검증 결과가 한쪽으로 치우치면 좋지 않은 모델이고 그렇지 않은 경우 정확도가 높은 모델로 판별하도록 할 수 있다.
단계 S240에서는, 상기 학습된 CNN-LSTM 조합 모델을 저장한다.
이와 같이 단계 S200를 통해, CNN-LSTM 조합 모델이 최종적으로 결정된 경우, 단계 S300에서는, 상기 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격 데이터의 정오탐 여부를 판별할 수 있다. 이를 위해, 정오탐 판별부(170)는 도 7에 예시된 바와 같은 과정을 수행할 수 있다.
도 7을 참조하면, 먼저, 단계 S310에서, 정오탐 판별부(170)는 통신 I/F(120)를 통해 수신되는 실시간 공격 데이터에 대하여 전처리를 수행한다. 이 때, 전처리를 위한 구체적인 처리 과정은 도 6에 예시된 바와 같으므로 중복 설명은 생략한다.
단계 S320에서는, 정오탐 판별부(170)가 상기 실시간 공격 데이터에 대한 정오탐을 판별한다. 이를 위해, 정오탐 판별부(170)는 단계 S200에서 학습 후 저장된 CNN-LSTM 조합 모델을 호출하여 상기 전처리된 실시간 공격 데이터에 대한 정오탐을 판별할 수 있다.
단계 S330에서는, 정오탐 판별부(170)가 상기 정오탐 판별 결과를 데이터베이스부(DB)(110)에 저장한다.
마지막으로, 단계 S400에서는, 단계 S300의 정오탐 판별 결과를 표시부(180)에 표시한다.
이와 같이 본 발명은 CNN 모델과, LSTM 모델을 조합함으로써, 각각의 단점을 상호 보완할 수 있고, 대량의 사이버 공격에 대하여 정확한 탐지 및 대처가 가능한 효과가 있다.
이상에서는 본 발명의 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 아니하며 본 발명이 실시 예로부터 본 발명이 속하는 기술 분야에서 통상의지식을 가진 자에 의해 용이하게 변경되어 균등한 것으로 인정되는 범위의 모든 변경 및 수정을 포함한다.
100: 정오탐 판별 시스템 110: DB
120: 통신 I/F 130: 사용자 I/F
140: 제어부 150: 데이터 전처리부
160: CNN-LSTM 조합모델 생성부 170: 정오탐 판별부
180: 표시부 300: CNN-LSTM 조합모델
310:CNN 처리모델 320: LSTM 처리 모델

Claims (13)

  1. 정오탐 판별 시스템에 있어서,
    기관 내에 포함된 보안 장비의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 외부의 보안관제 시스템으로부터 공격데이터를 전달받아 저장하는 데이터베이스부;
    상기 데이터베이스부에 저장된 공격데이터를 추출하여 정오탐 판별을 위한 전처리를 수행하는 데이터 전처리부;
    상기 전처리된 데이터를 이용하여 정오탐 판별을 위해 사전에 생성된 CNN-LSTM 조합 모델을 학습 및 테스트한 후 상기 데이터베이스부에 저장하는 CNN-LSTM 조합 모델 생성부;
    상기 데이터베이스부에 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격데이터의 정오탐 여부를 판별하는 정오탐 판별부; 및
    상기 정오탐 판별부의 판별 결과를 표시하는 표시부를 포함하는 것을 특징으로 하는 정오탐 판별 시스템.
  2. 제1항에 있어서, 상기 데이터 전처리부는
    상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하고, 중복단어와, 데이터 이상치 및 연산과정에서 잘못 입력된 값(NaN: Not a Number)을 제거한 후, 컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화를 수행하는 것을 특징으로 하는 정오탐 판별 시스템.
  3. 제1항에 있어서, 상기 CNN-LSTM 조합 모델은
    상기 전처리된 데이터에 대하여, TextCNN 방식으로 특징-맵(Feature-Map)을 자동 추출하는 CNN 처리모델; 및
    상기 CNN 처리모델에서 자동 추출된 특징-맵(Feature-Map)을 시계열 데이터로 입력받아, 정규화한 후 LSTM의 메모리 블록에 저장하는 LSTM 처리모델을 포함하는 것을 특징으로 하는 정오탐 판별 시스템.
  4. 제3항에 있어서, 상기 CNN 처리모델은
    상기 데이터 전처리부에서 벡터화 결과로 생성된 임베딩 테이블의 지역 정보를 보존하고, 여러 단계의 컨볼루션(Convolution)과 최대값 풀링(Pooling)을 거쳐 특징-맵(Feature Map)을 생성하는 것을 특징으로 하는 정오탐 판별 시스템.
  5. 제3항에 있어서, 상기 LSTM 처리모델은
    시계열 데이터로 전달된 상기 특징-맵(Feature-Map)을 LSTM에 저장한 후 FC 레이어로 변환하고, 상기 FC 레이어를 거친 계산 결과를 시그모이드(Sigmoid) 함수에 반영하여 0 내지 1 사이의 값으로 정규화하여 출력하는 것을 특징으로 하는 정오탐 판별 시스템.
  6. 정오탐 판별 방법에 있어서,
    정오탐 판별을 위한 CNN-LSTM 조합 모델을 생성하는 초기 모델 생성단계;
    기관 내에 포함된 보안 장비들의 로그를 수집하여 실시간 보안 경고에 대한 분석 결과를 제공하는 외부의 보안관제 시스템으로부터 공격 데이터를 이용하여 상기 CNN-LSTM 조합 모델을 학습하여 결과를 저장하는 최종 모델 생성단계;
    상기 저장된 CNN-LSTM 조합 모델을 이용하여 실시간 공격 데이터의 정오탐 여부를 판별하는 제1 정오탐 판별단계; 및
    상기 정오탐 판별 결과를 표시하는 표시단계를 포함하는 것을 특징으로 하는 정오탐 판별 방법.
  7. 제6항에 있어서, 상기 최종 모델 생성단계는
    상기 보안관제 시스템으로부터 수신된 공격데이터를 저장하는 공격데이터 저장단계;
    상기 저장된 공격데이터를 추출하여 전처리를 수행하는 제1 전처리 단계;
    상기 전처리된 데이터를 이용하여 상기 CNN-LSTM 조합 모델을 학습 및 테스트하는 학습단계; 및
    상기 학습된 CNN-LSTM 조합 모델을 저장하는 모델 저장단계를 포함하는 것을 특징으로 하는 정오탐 판별 방법.
  8. 제7항에 있어서, 상기 학습단계는
    상기 최종 CNN-LSTM 조합 모델에 대한 정확도를 검증하는 정확도 검증 단계를 더 포함하는 것을 특징으로 하는 정오탐 판별 방법.
  9. 제7항에 있어서, 상기 제1 전처리 단계는
    상기 공격데이터로부터 페이로드 영역별로 단어를 분리하여 저장하는 단어 분리단계;
    상기 공격데이터로부터 중복단어, 데이터 이상치 및 연산과정에서 잘못 입력된 값(NaN: Not a Number)를 포함하는 부적절한 속성들을 추출하여 제거하는 정제단계; 및
    컴퓨터가 학습할 수 있는 숫자로 변환하기 위해 벡터화를 수행하여 임베딩 테이블을 생성하는 임베딩 단계를 포함하는 것을 특징으로 하는 정오탐 판별 방법.
  10. 제6항에 있어서, 상기 CNN-LSTM 조합 모델은
    상기 전처리된 데이터에 대하여, TextCNN 방식으로 특징-맵(Feature-Map)을 자동 추출하는 CNN 처리모델; 및
    상기 CNN 처리모델에서 자동 추출된 특징-맵(Feature-Map)을 시계열 데이터로 입력받아, 정규화한 후 LSTM의 메모리 블록에 저장하는 LSTM 처리모델을 포함하는 것을 특징으로 하는 정오탐 판별 방법.
  11. 제10항에 있어서, 상기 CNN 처리모델은
    상기 데이터 전처리부에서 벡터화 결과로 생성된 임베딩 테이블의 지역 정보를 보존하고, 여러 단계의 컨볼루션(Convolution)과 최대값 풀링(Pooling)을 거쳐 특징-맵(Feature Map)을 생성하는 것을 특징으로 하는 정오탐 판별 방법.
  12. 제10항에 있어서, 상기 LSTM 처리모델은
    시계열 데이터로 전달된 상기 특징-맵(Feature-Map)을 LSTM에 저장한 후 FC 레이어로 변환하고, 상기 FC 레이어를 거친 계산 결과를 시그모이드(Sigmoid) 함수에 반영하여 0 내지 1 사이의 값으로 정규화하여 출력하는 것을 특징으로 하는 정오탐 판별 방법.
  13. 제6항에 있어서, 상기 제1 정오탐 판별 단계는
    상기 실시간 공격 데이터에 대하여 전처리를 수행하는 제2 전처리 단계;
    상기 최종 모델 생성단계에서 학습 후 저장된 CNN-LSTM 조합 모델을 호출하여 상기 전처리된 실시간 공격 데이터에 대한 정오탐을 판별하는 제2 정오탐 판별 단계; 및
    상기 정오탐 판별 결과를 저장하는 정오탐 판별 결과 저장 단계를 포함하는 것을 특징으로 하는 정오탐 판별 방법.
KR1020200174778A 2020-12-14 2020-12-14 Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법 KR20220084865A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200174778A KR20220084865A (ko) 2020-12-14 2020-12-14 Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200174778A KR20220084865A (ko) 2020-12-14 2020-12-14 Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20220084865A true KR20220084865A (ko) 2022-06-21

Family

ID=82221376

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200174778A KR20220084865A (ko) 2020-12-14 2020-12-14 Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20220084865A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668089A (zh) * 2023-05-11 2023-08-29 齐齐哈尔大学 基于深度学习的网络攻击检测方法及系统
KR102609569B1 (ko) * 2023-06-30 2023-12-05 경북대학교 산학협력단 이중편파레이더 자료를 이용한 기계 학습 기반의 강우량예측 장치 및 방법
CN117354056A (zh) * 2023-12-04 2024-01-05 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060026293A (ko) 2004-09-20 2006-03-23 주식회사 케이티 네트워크 취약성 정보를 이용하여 오탐을 방지하는침입탐지 장치, 시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060026293A (ko) 2004-09-20 2006-03-23 주식회사 케이티 네트워크 취약성 정보를 이용하여 오탐을 방지하는침입탐지 장치, 시스템 및 그 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668089A (zh) * 2023-05-11 2023-08-29 齐齐哈尔大学 基于深度学习的网络攻击检测方法及系统
CN116668089B (zh) * 2023-05-11 2024-04-16 齐齐哈尔大学 基于深度学习的网络攻击检测方法、系统及介质
KR102609569B1 (ko) * 2023-06-30 2023-12-05 경북대학교 산학협력단 이중편파레이더 자료를 이용한 기계 학습 기반의 강우량예측 장치 및 방법
CN117354056A (zh) * 2023-12-04 2024-01-05 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法
CN117354056B (zh) * 2023-12-04 2024-02-13 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法

Similar Documents

Publication Publication Date Title
US11113394B2 (en) Data type recognition, model training and risk recognition methods, apparatuses and devices
KR20220084865A (ko) Cnn-lstm 조합 모델을 이용한 정오탐 판별 시스템 및 그 방법
CN109033305A (zh) 问题回答方法、设备及计算机可读存储介质
KR20200129639A (ko) 모델 학습 방법 및 장치
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN111915437A (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN112417128B (zh) 话术推荐方法、装置、计算机设备及存储介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN113779986A (zh) 一种文本后门攻击方法及系统
CN110875039A (zh) 语音识别方法和设备
CN112188306A (zh) 一种标签生成方法、装置、设备及存储介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
KR102226536B1 (ko) 인공지능모델을 이용하여 보안 데이터를 적용할 차트를 추천하는 방법, 장치 및 프로그램
Attia et al. Efficient deep learning models based on tension techniques for sign language recognition
CN109660621A (zh) 一种内容推送方法及服务设备
Hu et al. Token-level adversarial prompt detection based on perplexity measures and contextual information
CN110163032B (zh) 一种人脸检测方法及装置
CN113704452B (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN115314239A (zh) 基于多模型融合的隐匿恶意行为的分析方法和相关设备
CN115412274A (zh) 攻击溯源方法及相关数据处理、关联展示方法及装置
KR20230020116A (ko) 상표 관련 서비스를 제공하는 컴퓨팅 장치 및 그 방법
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
CN113095072B (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal